AWS大数据三种经典玩法

2023-11-06

目录

前言

1、AWS一站式大数据分析平台

2、让人不得不喜欢的AWS

优点:

缺点:

3、个人建议

4、文章说明

一、AWS大数据平台全家桶简介

1、一首(数据源)

2、一尾(数据应用)

3、中间(大数据体系)

3.1导入组件

3.2数据处理组件

3.3服务组件

二、三种经典玩法的对比

1、全部采用AWS的组件

2、AWS组件+EMR(深度分析)

3、全部采用开源EMR+AWS环境托管

4、总结

三、AWS实操案例

1、业务流程图

2、RDS→DMS→S3实例

四、总结

前言

1、AWS一站式大数据分析平台

Amazon Web Services 提供了一套全面且完全集成的云计算服务产品组合,可帮助您构建、保护和部署大数据应用程序。借助 AWS,您无需购买硬件,也无需维护和扩展基础架构,因此可以将您的资源集中用于发掘新的洞察。

借助AWS的大数据服务能够构建几乎任何大数据应用程序,方便帮助您收集、存储、处理、分析和可视化云中的大数据,包括数据仓库、点击流分析、欺诈侦测、推荐引擎、事件驱动 ETL、无服务器计算和物联网处理等多种典型应用。详情可参考官方介绍。

https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&loc=1

亚马逊云科技提供了100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

2、让人不得不喜欢的AWS

优点:

1、可扩展的数据湖(AWS 支持的数据湖在 Amazon S3 的非凡可用性的辅助下,可以处理组合不同数据和分析方法所需的规模、敏捷性和灵活性。在 AWS 上构建和存储您的数据湖以获得比使用传统数据孤岛和数据仓库更深入的洞察力。)

2、专为满足性能和成本需求构建(AWS 分析服务专门用来帮助您快速地提取数据洞察力,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。)

3、无服务器且易于使用(AWS 拥有云数据分析中最多的无服务器选项,包括数据仓库、大数据分析、实时数据、数据集成等选项。我们管理底层基础设施,以便您就可以专注于您的应用程序。)

4、数据访问、数据安全和数据管控一统云端(您可以通过 AWS 定义和管理安全、治理和审计策略,以满足行业和地域特定的法规要求。通过 AWS,您可以访问位于世界各地的数据,并且无论您在哪里存储数据,我们都倾心保护它的安全。)

5、机器学习(ML)集成(AWS 提供内置的 ML 集成,随专门构建的分析服务一起提供。您可以使用熟悉的 SQL 命令创建、训练和部署机器学习模型,而无需任何机器学习经验。)

6、再来看一组数据,哈哈哈,妥妥的“别人家的孩子”。

缺点:

唯一的缺点就是官方的一些视频和文档是英文的,但是对有一定英文基础的同学来说这都不是事,哈哈哈,实在不行咱还有翻译器。

3、个人建议

当企业中出现如下问题或场景时,选择AWS,它会给一个满意的全套解决方案。

1、 当前企业面临着严重的基础设施老旧、自动化程度低、专用工具缺乏和繁重的资本支出的问题。

2、 企业被传统商业数据库束缚,而难以开展创新, 但仍需要商用数据库的性能。

3、 运维耗时但价值输出较低,但企业又不得不在这方面耗费精力和成本。

4、企业拥有TB 级、PB 级的结构化数据和数倍于此的非结构化数据,分布在全球的用户,并以极低的延迟每秒处理数百万个请求。

4、文章说明

本文主要针对AWS大数据一站式全家桶,结合不同企业现状和应用需求提出对应三种AWS解决方案,并展示部分实际应用场景,并对比踩坑,提出中肯建议。

一、AWS大数据平台全家桶简介

整个AWS我们分三部分介绍,即一首一尾+中间AWS大数据体系组件。

1、一首(数据源)

如图所示AWS可以处理的数据源,包括结构化的数据如:ERP/CRM等系统的业务数据,也可以处理非结构化的数据如图像/视频/音频和物联网设备的数据,等等。

2、一尾(数据应用)

即我们将数据源获取到的数据进行数据分析和形成API的形式对接其他业务场景。这里包括了AWS常用的可视化组件Amazon Quicksight

3、中间(大数据体系)

3.1导入组件

AWS Direct Connect是一个采用专用带宽来直连数据的组件; AWS Database migration 专业迁移关系型数据库数据的组件,如获取ERP/CRM系统中数据,数据库类型如 oracle、mysql等,主要用于处理历史数据和大批量数据Amazon Kinesis 用于处理实时数据,做实时数据分析,相当于kafka+flink;Internet of Things(lot) 接入物联网的数据和搭建物联网模型的组件

3.2数据处理组件

S3用于数据存储的组件;Glue简单数据处理组件,用于数据简单的聚合、过滤、清洗等;EMR处理个性化、高阶数据分析需求,属于Hadoop生态体系,性能更佳。数据处理,包括批处理和流处理,即批量处理离线数据,一般是数据量大、处理时间长的场景。流处理属于处理实时数据做实时分析和消息推送,比如查看实时双十一的销售额。机器学习与人工智能组件主要是通过大数据提供的模型进行机器学习,同时也可以进行图像识别、语音处理如聊天机器人。

3.3服务组件

Athena可以直接访问S3的数据,提供SQ查询的功能,属于SQ工具类;ES与开源的ES一致,AWS将其集成在全家桶内;EMR 用于大数据处理组件,是hive类组件集合;RedShift 是一个大型的数仓,在底层做了较多性能优化,可以处理PB级数据量。RDS 属于AWS托管的关系型数据库;DynamoDB是AWS自研的关系型数据库。这些组件都可以对外提供JDBC的数据服务。

二、三种经典玩法的对比

1、全部采用AWS的组件

优点:集成度高、可共用元数据、组件之间集成快、使用流畅性好、开发效率高。

缺点:需要部署到AWS的云平台,不能部署到其他国内的商业云,如阿里云、腾讯云等。

2、AWS组件+EMR(深度分析)

优点:支持复杂分析场景+可兼容开源。

缺点:暂未发现其缺点,兼容了第一种玩法AWS的优势又支持复杂的应用场景,也兼容了开源的语法,目前认为最佳的组合拳。

3、全部采用开源EMR+AWS环境托管

优点:AWS托管不需要考虑太多底层的东西,自主研发,灵活度高,支持目前的各大厂商。

缺点:集成度不高,需要强大懂开源的开发团队,研发周期长。

4、总结

具体采用哪种玩法,需结合公司具体的业务场景来选择,如果公司有一定的研发力量又想自定义部署,建议采用第二种玩法。

三、AWS实操案例

1、业务流程图

 具体流程如上图所示,我们从任何一个可访问的RDS关系型数据获取数据源,通过DMS处理后存储至S3里面,然后我们将S3中的数据类似ETL的数据处理,即通过Glue进行处理。然后将处理后的数据存储至Redshift的数仓里面去,然后我们可以通过Athena提供SQ查询功能访问数仓或者Glue里面的数据,然后再通过报表工具(QuickSight)进行展示。哈哈,通过上面的全家桶介绍,发现理解下面的流程图是不是非常的简单了。

2、RDS→DMS→S3实例

目的:将mysql关系型数据库user表的记录通过DMS工具,抽取至S3中。

S3配置:首先我们在AWS平台上创建S3的桶来存储我们要抽取的数据。创建过程我们按系统提示输入即可非常方便,如果不能找到S3的组件,可在搜索栏进行搜索。具体如下图所示。

DMS配置:类似搜索dms进入dms组件操作界面,配置对应数据库URL,创建实例、创建作业从mysql到s3。如图所示创建过程很简单,只需要按照对应水印操作即可。

 运行实例:点击创建好的实例,去S3中查看运行的结果。如下图所示我们可以在S3里面查看对应抽取的数据,然后点击对应数据查看,抽取过来的记录是和mysql源数据库数据是一致的。

四、总结

1、AWS自家的组件使用非常的方便,整个开发过程也可监控,全程可视化配置。AWS的默认配置是根据常用开发场景进行设置的,因此可大大提高开发效率。而AWS的组件的高度集成不得不让人竖起大拇指。

2、我们可根据我们业务实际情况,选择不同的玩法更好适配业务的发展。

3、 不管哪种玩法,AWS都提供了托管服务和基础架构组件。架构现代化是一切创新的基石,其最重要的理念是“The right tool for the job”,即在不同的场景使用专门构建的工具,而专门的工具需要专业的现代化托管平台,这些都可以大量节省企业的时间、金钱和精力。 AWS无疑是最佳的选择之一。

亚马逊云科技专为开发者们打造了多种学习平台:

1. 入门资源中心:从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el

2. 架构中心:亚马逊云科技架构中心提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el

3. 构建者库:了解亚马逊云科技如何构建和运营软件。https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el

4. 用于在亚马逊云科技平台上开发和管理应用程序的工具包:https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&trk=972c69e1-55ec-43af-a503-d458708bb645&sc_channel=el

【专属福利】

福利一:100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

福利二:最新优惠大礼包,200$数据与分析抵扣券,200$机器学习抵扣券,200$微服务与应用开发抵扣券。https://www.amazonaws.cn/campaign/?sc_channel=el&sc_campaign=credit-acts-ldr&sc_country=cn&sc_geo=chna&sc_category=mult&sc_outcome=field&trkCampaign=request-credit-glb-ldr&trk=f45email&trk=02faebcb-3f61-4bcb-b68e-c63f3ae33c99&sc_channel=el

福利三:解决方案CloudFormation一键部署模版库https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AWS大数据三种经典玩法 的相关文章

  • DAMA-DMBOK2重点知识整理CDGA/CDGP——第2章 数据处理伦理

    目录 一 分值分布 二 重点知识梳理 1 语境关系图 2 引言 3 业务驱动因素 4 基本概念 一 分值分布 CDGA 2分 2单选 CDGP 0分 不考 二 重点知识梳理 1 引言 预警关系图 数据处理伦理定义 如何以符合道德准则及社会责
  • Serverless 的前世今生

    作者 阿里云用户组 从云计算到 Serverless 架构 大家好 我是阿里云 Serverless 产品经理刘宇 很高兴可以和大家一起探索 Serverless 架构的前世今生 从云计算到云原生再到 Serverless 架构 技术飞速发
  • 数据ETL面临的问题----数据缺失

    数据缺失的类型有 完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的 随机缺失 Missing at Random MAR 数据的缺失不是完全随机的 数据的缺失只依
  • 已解决 Request execution error. endpoint=DefaultEndpoint{ serviceUrl=‘http://localhost:8761/eureka/}

    Requestexecutionerror endpoint DefaultEndpoint serviceUrl http localhost 8761 eureka 注册中心报错 问题原因 可能就是yml文件有一步写错了然后照成报错 报
  • 数据库不推荐使用外键的9个理由!

    我的经验告诉我 很多数据库 大多数我曾经使用的 不包含外键时并不总是一件坏事 在这篇文章中 我想把重点放在为什么的原因上 为什么这是一个问题 1 潜在的数据完整性问题 缺少外键明显问题是数据库不能强制进行引用完整性检查 如果在高一层没有正确
  • Hudi Log 文件格式与读写流程

    Hudi Log 文件格式与读写流程 背景 对 Hudi 有一定了解的读者应该知道 Hudi 有 COW 和 MOR 两种表类型 其中的 MOR 表会通过日志文件记录文件 写入一个 MOR 表后产生的文件可以观察到 一个 MOR 表数据存储
  • Kettle教程(一):ETL简介、Kettle安装部署

    文章目录 前言 一 ETL 1 ETL是啥 2 ETL有啥价值 二 Kettle 1 简介 2 安装 三 总结 前言 随着大数据的不断发展 企业级别的数据转换显得尤为重要 从本文开始和大家一起学习一款开源ETL工具 Kettle 一 ETL
  • 计算机科学丛书(2014-2018.Q1)

    ISBN 名称 作者 出版时间 978 7 111 53451 8 数学设计和计算机体系结构 原书第2版 美 戴维 莫尼 哈里斯 莎拉 L 哈里斯著 978 7 111 44075 8 嵌入式计算系统设计原理 美 Marilyn Wolf著
  • 物联网产业到2023年连接数将突破20亿

    导读 随着经济社会数字化转型和智能升级步伐加快 物联网逐渐成为新型基础设施的重要组成部分 近日 工信部等8部门联合印发 物联网新型基础设施建设三年行动计划 2021 2023年 下称 行动计划 明确到2023年底 在国内主要城市初步建成物联
  • DevOps极速入门丨Gitlab丨Jenkins丨harbor丨CICD丨自动化丨运维开发

    DevOps极速入门丨Gitlab丨Jenkins丨harbor丨CICD丨自动化丨运维开发 一 DevOps介绍 软件开发最开始是由两个团队组成 开发计划由开发团队从头开始设计和整体系统的构建 需要系统不停的迭代更新 运维团队将开发团队的
  • prometheus|云原生|轻型日志收集系统loki+promtail的部署说明

    一 日志聚合的概念说明 日志 每一个程序 服务都应该有保留日志 日志的作用第一是记录程序运行的情况 在出错的时候能够记录错误情况 简单来说就是审计工作 例如nginx服务的日志 kubernetes集群的pod运行日志 Linux系统的系统
  • 开发者都能玩转的大模型训练

    本篇文章授权活动官方亚马逊云科技文章转发 改写权 包括不限于在 亚马逊云科技开发者社区 知乎 自媒体平台 第三方开发者媒体等亚马逊云科技官方渠道 目录 前言 概念基础 原理核心 入手体验 体验收获 结束语 参考文献 前言 看了刚结束的亚马逊
  • kubernetes入门到进阶(2)

    被隔离的进程 一起来看看容器的本质 大家好 我们继续来一起学习k8s 在上一个章节里 我们初步了解了容器技术 在Linux虚拟机里安装了当前最流行的容器docker 还是用了docker ps docker run 等命令简单操作了容器 广
  • Kubernetes 简介

    1 Kubernetes简介 一个容器管理应用 提高容器化服务的部署和管理效率 2 容器部署 2 1 传统部署形式 应用共用服务器环境 对于底层资源 文件目录 JDK 网络带宽等 存在弹性争夺 冲突等问题 容易导致应用性能不稳定 服务器环境
  • 解决 Hive 外部表分隔符问题的实用指南

    简介 在使用 Hive 外部表时 分隔符设置不当可能导致数据导入和查询过程中的问题 本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤 问题描述 在使用Hive外部表时 可能会遇到分隔符问题 这主要是因为Hive在读取数据时
  • AWS解决方案架构师学习与备考

    系列文章目录 送书第一期 用户画像 平台构建与业务实践 送书活动之抽奖工具的打造 获取博客评论用户抽取幸运中奖者 送书第二期 Spring Cloud Alibaba核心技术与实战案例 送书第三期 深入浅出Java虚拟机 送书第四期 AI时
  • 什么是微服务

    微服务是一种架构风格 它把一个大型的复杂软件应用划分为一系列小的服务 每个服务都具有单一的功能 运行在其自己的进程中 并通常基于不同的编程语言和框架 这些服务之间通过轻量级通信机制相互通信 这种通信机制基于HTTP协议 微服务架构风格使得系
  • 微服务常见的配置中心简介

    微服务架构中 常见的配置中心包括以下几种 Spring Cloud Config Spring Cloud Config是官方推荐的配置中心解决方案 它支持将配置文件存储在Git SVN等版本控制系统中 通过提供RESTful API 各个
  • promethues grafana 安装和使用

    文章目录 1 promethues安装 2 node exporter安装 3 grafana安装 4 配置promethues监控node节点 5 grafana操作 外传 Docker 镜像下载地址 https hub docker c
  • K8S部署pod状态CreateContainerConfigError问题解决

    天行健 君子以自强不息 地势坤 君子以厚德载物 每个人都有惰性 但不断学习是好好生活的根本 共勉 文章均为学习整理笔记 分享记录为主 如有错误请指正 共同学习进步 文章目录 场景 问题 解决 场景 在k8s中部署gitlab后查看状态并非R

随机推荐

  • c++SQLite

    SQLite C 操作类 转载于 http blog csdn net chinamming article details 17049575 0 tsina 1 1347 397232819ff9a47a7b7e80a40613cfe1
  • 【前端部署】vue项目打包并部署到Linux服务器

    文章目录 一 打包vue前端项目 二 安装nginx 1 下载及安装 2 启动程序 3 其他命令 三 利用WinSCP传输文件 四 配置nginx 1 修改服务器端口 2 修改dist存放路径 3 完整配置文件 五 进入界面和项目更新 1
  • office2021专业增强版,使用kms命令行激活

    以管理员身份运行cmd 注意 必须以管理员身份运行 分别输入以下命令 cd C Program Files Microsoft Office Office16 cscript ospp vbs sethst kms 0t net cn cs
  • sqli-labs通关全解---有关过滤的绕过--less23,25~28,32~37--8

    preg replace 参数 作用 pattern 正则表达式或者要匹配的内容 replacement 要替换的内容 subject 要操作的对象 preg replace 用于sql注入防护中 主要是将一些疑似攻击的代码进行替换处理 从
  • python 获取毫秒级时间问题

    根据网上的一些说法 在python里获取ms级系统时间可以通过以下方式获取 import datetime print datetime datetime now microsecond 但通过以下代码测试 发现返回的并不是ms的值 而是u
  • 适用于Windows 10开发人员的Hyper-V

    Microsoft Hyper V codenamed Viridian is a native type 1 hypervisor that directly runs on the hardware compared to VMware
  • 2023年无人航空系统与航空航天国际会议(ICUASA 2023)

    2023年无人航空系统与航空航天国际会议 ICUASA 2023 重要信息 会议网址 www icuasa org 会议时间 2023年2月18 20日 召开地点 中国广州 截稿时间 2023年12月30日 录用通知 投稿后2周内 收录检索
  • numpy、pandas实用总结(3种数据合并)

    前言 将俩个或者多个DataFrame合并在一起 这样的操作在日常工作中是极为频繁的一件事情 目前 我所知的有四种将DataFrame合并在一起 的方法 concat 在Series中也可以使用 merge join concat合并 这种
  • hdu 1438 钥匙计数之一

    Problem acm hdu edu cn showproblem php pid 1438 Reference blog csdn net u010405898 article details 9530769 blog csdn net
  • 线程池+枚举+反射调用不同接口获得统一返回数值

    首先接口函数的定义 使用策略模式 不同的接口实现类统一实现一个被实现的接口类 public interface ThreadServiceBase 用来被继承使用 然后不同的接口实现类都实现这个接口 每个实现类有自己的定义业务接口 例如 接
  • c++命名空间

    介绍C 命名空间的一篇文章 刚刚学C 的时候 我被满篇的域作用符号 都搞晕了 这篇文章终于让我熟悉了C 的命名空间 为什么需要命名空间 如何使用命名空间 当然 觉得java的import机制更加优雅 至少没有满篇的域作用符 一 为什么需要命
  • Java中Static关键字的使用

    1 Static关键字的用途 1 1 Static修饰成员变量 1 1 1 Static修饰成员变量的需求 当我们在代码中出现一个成员变量在我们每次创建不同的对象时 所赋值都一样 我们就可以把它放在一个公共区域内 不管几个对象都可以操作使用
  • Arduino+sim800C家居安防火灾报警 拨打电话 发送短信例程程序

    家居安防报警器 参考程序 火灾报警 涉及用sim800c发短信 拨打电话通知 接线 Sim800c 3 3V gt Arduino 3 3V Sim800c GND gt Arduino GND Sim800c RX gt Arduino
  • BES2300x笔记(24) -- 如何进行软件加密保护

    哈喽大家好 这是该系列博文的第二十四篇 篇 lt lt 系列博文索引 快速通道 gt gt 以下内容基于原厂提供的文档整理润色 一 前言 由于当下知识产权意识的普遍淡薄 当我们开发一款产品 推向市场之后 如何能防止第三方破解代码 便成了维护
  • 【解决问题】idea的右上方工具栏不见了的解决办法

    前一天使用idea还正常的 第二天看idea的时候 idea右上方的工具栏不见了 截图如下 那么如何让她显示出来了呢 方案1 目标 显示在右上方 在3的前面勾选下 打钩的话就行 打钩后结果 方案2 目标 显示在左上方 在3出打钩 效果如下
  • git 清除所有untracked file

    上次合并分支的时候 出现了一些没见过的文件 有 orig等等 如下图 接下来 就是git的神奇操作命令 git clean f 将所有untracked file 一次性删除 就大功告成了
  • upf低功耗的一个简单的例子

    一 结构描述 这里是一个uart top模块里面例化了两个uart 分别给两个模块给了power switch 用于电源控制 对这两个模块分别进行隔离关断来写一个简单的upf 二 代码分析 1 电压域 create power domain
  • python闭包

    python语言中形成闭包的三个条件 缺一不可 1 必须有一个内嵌函数 函数里定义的函数 这对应函数之间的嵌套 例如下面在函数funx 里面又定义了一个funy 函数 2 内嵌函数必须引用一个定义在闭合范围内 外部函数里 的变量 内部函数引
  • [ERR] Node 192.168.1.77:7000 is not empty. Either the node already knows other nodes (check with CLU

    ERR Node 192 168 1 77 7000 is not empty Either the node already knows other nodes check with CLUSTER NODES or contains s
  • AWS大数据三种经典玩法

    目录 前言 1 AWS一站式大数据分析平台 2 让人不得不喜欢的AWS 优点 缺点 3 个人建议 4 文章说明 一 AWS大数据平台全家桶简介 1 一首 数据源 2 一尾 数据应用 3 中间 大数据体系 3 1导入组件 3 2数据处理组件