架构-大数据架构-阿里

2023-11-16

大数据架构

大数据框架从0到1整个过程的实现,根据本博客内容,可以实现整个大数据基本搭建,只是大概步骤,供学习参考。

本博客从下面5个方面介绍:
技术框架+技术选型+系统架构设计+业务流程+生态实现步骤


以阿里为例的大数据架构,通过学习视频,然后自己记录起来,可以时刻阅读。如有侵权,可以联系我,我随时删除。

大数据其实就是在海量数据的情况下的研究。假如数据量很少,其实用Excel就完全可以了。


1、阿里云的技术框架

这里将其和其他框架进行对比

阿里云产品 简介 其他产品
ECS 弹性服务器 Linux服务器
RDS 关系型数据库 Mysql
DataHub 数据总线 Kafka+各种服务器接口
实时计算 可以实时计算 Spark、Flink
Dataworks 可视化StreamCompute的开发管理平台 暂无
AnalyticDB for Mysql 分析型数据库 Mysql集群
DataV、QuickBI 可视化数据展示工具 Tableau、Echarts、Kibana、Unity3D、Matplot

2、技术选型

这里根据上面的技术框架,对数据采集、数据存储、数据计算和数据可视化工具进行选型。

功能 阿里云框架 其他开源框架
数据采集(传输) DataHub、DTS Flume、Kafka、Canal、MaxWell
数据存储 RDS、AnalyticDB Mysql、Hadoop、Hbase
数据计算 实时计算 Spark、Flink
数据可视化 DataV、QuickBI Tableau、Echarts、Kibana

3、系统架构设计

ECS :用户行为数据–文件形式
RDS:业务数据–mysql数据
同步事实表—一般数据庞大,这个一般确定后,尽量少修改。数据到Datahub
同步维表—数据量小,列数多,这个方便修改。直接到维度表RDS(这个RDS和上面的RDS不同,这个RDS形成过程是解耦过程)

系统架构


4、业务流程

这里3个事实表、7个维表,这里有数仓分层思想。
这里数仓分为:ODS层、DWD层、DWS层和ADS层。
数据从事实表和维表–>AnalyticDB过程:

 1. 事实表不做处理,作为ODS层,直接存储Datahub(万一实时计算出错,之后还可以调用该事实表数据)。
 2. 之后实时计算直接读取事实表,生成DWD层,存储在Datahub。
 3. 之后根据DWD层和聚合的维度层进行实时计算生成ADS层,存储到AnalysitcDB里。

这里可能没有涉及到DWS层。
在这里插入图片描述


5、整个生态实现步骤

在这里插入图片描述
根据上面的图进行生态建模步骤:

1.购买**RDS**,创建数据集合,用RDS
2.创建Datahub项目
3.直接用DTS把RDS事实表数据同步到创建的Datahub
4.用第二个DTS把RDS维表数据同步到RDS新库(维表库)
	这两个DTS需要分别创建
5.聚合维度表-视图表,方便之后管理和使用
6.分层—**实时服务器购买**,创建实时计算集群和项目环境
7.创建dataworks环境,把项目和集群绑定起来,用于开发
8.ODS层到DWD层—直接在Dataworks里面实现(Datahu--实时处理--到Datahub)
	直接使用sql创建数据源表-创建数据结果表
	还需要在Datahub中创建结果表,之后才可以使用sql导入
9.**AnalyticDB购买**

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

架构-大数据架构-阿里 的相关文章

随机推荐

  • 点云旋转平移(二)—python open3d点云平移

    本文为博主原创文章 未经博主允许不得转载 本文为专栏 python三维点云从基础到深度学习 系列文章 地址为 https blog csdn net suiyingy article details 124017716 点云旋转平移介绍 请
  • 算法训练Day7

    目录 LeetCode454 四数相加 1 思路 2 代码实现 3 复杂度分析 4 思考 Leetcode383 赎金信 1 思路 2 代码实现 3 复杂度分析 4 思考 Leetcode15 三数之和 方法一 双指针法 1 思路 2 代码
  • c++ libuv工作队列

    1 说明 libuv 提供了一个线程池 可用于运行用户代码 libuv 中的工作队列中的任务会在线程池中执行 libuv 中的线程池在内部用于运行所有文件系统操作以及 getaddrinfo 和 getnameinfo 请求 libuv 中
  • Linux中Grep命令(在文本中搜索指定文本)

    Grep Global regular expression print 全局正则表达式输出 的缩写 他是Linux中最强的的命令之一 grep在一个或多个输入文本中搜索与给定模式匹配的行 并将每条匹配的行写入标准的输出 如果未至定文件 则
  • 马踏棋盘全部解

    include stdio h int a 12 12 0 棋盘 int cut 0 缓存马所走的步数 long count 0 计算有多少种踏法 void horse int x int y bool walk int index int
  • 大数据--pyspark远程连接hive

    上一篇文章介绍了python连接hive的过程 通过地址 端口号访问到hive并对hive中的数据进行操作 这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h
  • netcore 判断是否ajax,ASP.NET Core 判断请求是否为Ajax请求

    原文 ASP NET Core 判断请求是否为Ajax请求 我们可以通过HTTP请求头来判断是否为Ajax请求 Ajax请求的request headers里都会有一个key为x requested with 值为XMLHttpReques
  • SQL实战(4)——2021年11月每天新用户的次日留存率

    现有表 用户行为日志表tb user log 问题 统计2021年11月每天新用户的次日留存率 保留2位小数 注 次日留存率为当天新增的用户数中第二天又活跃了的用户数占比 如果in time 进入时间和out time 离开时间跨天了 在两
  • git系列之-如何把项目发布到github

    111111111111111111111111111111111111111111111111111111
  • 华为AR系列路由器密码重置

    1 设备重加电启动 按Ctrl B进入bootrom菜单 密码是huawei 2 修改启动配置文件名称 Main Menu 1 Default Startup 2 Serial Menu 3 Network Menu 4 Startup S
  • Ubuntu16.04安装JDK1.8详细步骤

    检测是否安装JDK root instance cqxyyrb2 java The program java can be found in the following packages default jre gcj 5 jre head
  • WebView加载h5页面弹窗无法显示问题和申请摄像头权限问题做个记录

    参考文章 WebView 加载H5页面空白问题 WebView使用getUserMedia 首先需要设置webview支持js 在Android 9 0后 访问地址如果是http开头的 还需要在配置文件里设置允许http访问 android
  • mybatis入门到熟练(一)

    一 创建一个空的maven项目 使用idea创建一个空的maven项目 引入依赖
  • 0x0000000000指令引用的0x00000000内存。该内存不能为read

    1 不知道是某个软件导致 进入CMD命令提示符 输入for 1 in windir system32 ocx do regsvr32 s 1再输入 for 1 in windir system32 dll do regsvr32 s 1 2
  • 华为OD机试真题 Java 实现【文件目录大小】【2023 B卷 100分】,附详细解题思路

    目录 专栏导读 一 题目描述 二 输入描述 三 输出描述 四 解题思路 五 Java算法源码 六 效果展示 1 输入 2 输出 3 说明 4 再输入 5 再输出 6 说明 华为OD机试 2023B卷题库疯狂收录中 刷题点这里 专栏导读 本专
  • python竖线_python对齐竖线

    广告关闭 腾讯云11 11云上盛惠 精选热门产品助力上云 云服务器首年88元起 买的越多返的越多 最高返5000元 大多数编辑器都会自动对齐后续参数列表行 使其缩进程度与你给第一个参数列表行指定的缩进程度相同 def function na
  • Java web 学习笔记

    Java Web 1 web基础 1 1 基本概念 web开发 网页开发 分为 静态web 和 动态web 静态web 由 html css JavaScript 共同组成 提供给所有人看 数据永远不变 动态web 提供给所有人看的数组 在
  • Spring Security Oauth2系列(一)

    前言 关于oauth2 其实是一个规范 本文重点讲解spring对他进行的实现 如果你还不清楚授权服务器 资源服务器 认证授权等基础概念 可以移步理解OAuth 2 0 阮一峰 这是一篇对于oauth2很好的科普文章 需要对spring s
  • MySQL之常见的CRUD面试题【上】

    Welcome Huihui s Code World 接下来看看由辉辉所写的关于MySQL数据库的相关操作吧 目录 Welcome Huihui s Code World 导读 一 数据库的连表查询是什么 二 连表查询有几种常见类型 1
  • 架构-大数据架构-阿里

    大数据架构 大数据框架从0到1整个过程的实现 根据本博客内容 可以实现整个大数据基本搭建 只是大概步骤 供学习参考 本博客从下面5个方面介绍 技术框架 技术选型 系统架构设计 业务流程 生态实现步骤 以阿里为例的大数据架构 通过学习视频 然