[Hadoop] 实际应用场景之 - 阿里

2023-11-19

http://blog.csdn.net/u010415792/article/details/9151475


Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。

阿里对Hadoop的源码做了如下修改:

  • 改进Namenode单点问题
  • 增加安全性
  • 改善Hbase的稳定性
  • 改进反哺Hadoop社区
阿里数据处理的整体架构图如下:
架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。
  • 数据源:这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
  • 计算层:在数据源层实时产生的数据,通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”,是计算层的主要组成部分。在“云梯”上,每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。一些对实效性要求很高的数据采用“云梯”来计算效率比较低,为此做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
  • 存储层:针对前端产品设计了专门的存储层。在这一层,有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。
MyFOX的结构图如下:
Prom(即普罗米修斯)结构图如下:
  • 查询层(glider)
  • 产品层:数据魔方、量子恒道等

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[Hadoop] 实际应用场景之 - 阿里 的相关文章

随机推荐

  • Linux系统下查看mysql版本的四种方法分享

    这篇文章主要介绍了Linux系统下查看mysql版本的四种方法 本文讲解了在终端下用mysql V 使用mysql gt status 在help里面查找 使用mysql的函数等4种方法 需要的朋友可以参考下 1 在终端下 mysql V
  • Java进程僵尸进程问题定位

    在Linux服务器上 使用top命令查看CPU使用情况 发现大量僵尸进程 解决办法 1 通过 ps aux grep Z 定位到僵尸进程 最后有defunct的标记 就表明是僵尸进程 USER PID CPU MEM VSZ RSS TTY
  • (linux系统下)MMCV及MMClassification教程及安装问题解决

    说一下依托关系 MMCV是面向计算机视觉的一个基础库 它支持OpenMMLab的各个模块包括MMClassification图像分类 MMDetectionm目标检测 MMOCR文字检测识别等等 本文主要详细介绍一下mmcv和mmcls的安
  • Java分页(支持多种数据库)

    最近研究了下分页 做个总结 1 数据库操作类 做简单封装 DB java package Test import java sql public class DB 加载驱动 static try Class forName com mysq
  • 高速电路设计与仿真之PCB篇(一)

    在电子系统中 信号线的传输需要一定的时间 已经证实 电信号在分布良好的导线中传输速度为3 10 8m s 假设布线长度为5米 则信号的传输需要17ns 这种延时在低速系统中可以被忽略 但在高速电路中就不能忽略了 因此在设计高速PCB时 信号
  • c语言开发题库管理系统,c语言程序设计_题库管理系统.doc

    c语言程序设计 题库管理系统 程序设计基础课程设计报告 班 级 计算机科学与技术1103班 姓 名 杨广宇 指导教师 胡宏涛 完成日期 2012年9月6日 题目 1 设计题目与要求 简要介绍课程设计题目内容与要求 1设计内容 要求输入试题
  • unity实现相机位置移动

    在unity场景中经常有通过键盘中W S A D Q E等按键控制相机移动的需求 相机位置更新 控制代码如下 private void Update if active return Translation if enableTransla
  • python 官网下载地址

    python 官网下载地址 http www python org download 暂时只有 Python 2 7 5 和 Python 3 3 2 版本 支持32 64位 python 2 75 32位 http www python
  • 数据结构小白之插入排序算法

    1 插入排序 1 1 思路 将n个需要排序的元素看成两个部分 一个是有序部分 一个是无序部分 开始的时候有序表只有一个元素 无序表有n 1个元素 排序过程中每次从无序表中取出元素 然后插入到有序表的适当位置 从而成为新的有序表 类似排队 如
  • 查询树形目录(内存遍历成树返回)

    实体 Data TableName dtp sm servicetype ApiModel value SmServicetype对象 description 服务类型 EqualsAndHashCode callSuper true pu
  • 【网站系列】3. 如何部署一个动态博客

    这里说一下动态博客网站 动态博客首当其冲的是WordPress了 这是一个使用LAMP经典架构的网站项目 经久不衰 动态网站相比静态网站来讲复杂的多了 需要引入动态语言 如PHP Java Python这些 一般都数据存储也不会直接放磁盘
  • ostream_iterator详细解析

    ostream iterator属于I O流STL适配器 用于获取一个元素 同时保存在缓冲器中 可以供Cout输出 如果把cout看做成一个对象 那么在Cout对象当中存在一片用于数据存储的区域 ostream iterator在STL中一
  • [机器学习与scikit-learn-50]:特征工程-特征选择(降维)-5-二级过滤-特征值与标签之间的关系:F过滤与互信息量法过滤

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 124080785 目录 前言 第1章
  • tomcat如何配置context的docBase

    docbase是web应用和本地路径 path是tomcat访问这个应用的URL路径 Tomcat的项目部署方式有以下三种 1 直接把项目复制到Tomcat安装目录的webapps目录中 这是最简单的一种Tomcat项目部署的方法 也是初学
  • HDLBits刷题_Verilog Language_Procedures_Alwaysblock1

    学习内容 Since digital circuits are composed of logic gates connected with wires any circuit can be expressed as some combin
  • VMWARE虚拟机更新Ubuntu卡在登陆界面的问题解决

    昨天在搭建开发环境的时候 需要安装一些图形包和升级系统的组件 升级重启后 发现系统进不去了 如下图所示 我的是VMWARE虚拟机 不存在独显驱动问题 所以排除这个问题 将lightdm组件重新装一次 问题可以解决 步骤如下 1 重启 看到如
  • Cuda Streams的概述(四)-- 同步

    同步 同步的APIs 同步所有的事情 阻塞host端 直到所有的CUDA调用完成 cudaDeviceSynchronize 同步主机端特定的流 阻塞host端 直到流里的CUDA调用完成 cudaStreamSynchronize str
  • PyQt开发样例: 利用QToolBox开发的桌面工具箱Demo

    老猿Python博文目录 专栏 使用PyQt开发图形界面Python应用 老猿Python博客地址 一 引言 toolBox工具箱是一个容器部件 对应类为QToolBox 在其内有一列从上到下顺序排列的标签部件项 tabbed widget
  • (转)AI技术能给金融带来什么

    AI技术能给金融带来什么 2017 04 13 今日投资官微 来源 维基百科 文因互联分析 人工智能的热潮被AlphaGo带到顶点 然而在人工智能的学科发展史上是有繁荣期和稳定期的 一个技术突破会带来一定时期内难以想象的繁荣 之后的科学发展
  • [Hadoop] 实际应用场景之 - 阿里

    http blog csdn net u010415792 article details 9151475 Hadoop在淘宝和支付宝的应用从09年开始 用于对海量数据的离线处理 例如对日志的分析 也涉及内容部分 结构化数据等 使用Hado