MPP架构学习

2023-11-12

原文链接 https://blog.csdn.net/qq_42189083/article/details/80610092

1、 什么是MPP?

MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。

2、MPP(大规模并行处理)架构 

                                         (MPP架构)

3、 MPP架构特征

● 任务并行执行;

● 数据分布式存储(本地化);

● 分布式计算;

● 私有资源;

● 横向扩展;

● Shared Nothing架构。

4、 MPP服务器架构

它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制。

5、MPPDB

MPPDB是一款 Shared Nothing 架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统

6、MPPDB架构

MPP 采用完全并行的MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。

                                        MPPDB架构

7、 MPPDB特征

MPP 具备以下技术特征:

1) 低硬件成本:完全使用 x86 架构的 PC Server,不需要昂贵的 Unix 服务器和磁盘阵列;

2) 集群架构与部署:完全并行的 MPP + Shared Nothing 的分布式架构,采用 Non-Master 部署,节点对等的扁平结构;

3) 海量数据分布压缩存储:可处理 PB 级别以上的结构化数据,采用 hash分布、random 存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少 1~20 倍,并相应地提高 I/O 性能;

4) 数据加载高效性:基于策略的数据加载模式,集群整体加载速度可达2TB/h;

5) 高扩展、高可靠:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;

6) 高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;

7) 高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于 300 用户;

8) 行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;

9) 标准化:支持SQL92 标准,支持 C API、ODBC、JDBC、ADO.NET 等接口规范。

8、 常见MPPDB

● GREENPLUM(EMC)

● Asterdata(Teradata)

● Nettezza(IBM)

● Vertica(HP)

● GBase 8a MPP cluster(南大通用)

9、 MPPDB、Hadoop与传统数据库技术对比与适用场景

MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。两种技术以及传统数据库技术的对比如下:

特征

Hadoop

MPPDB

传统数据仓库

平台开放性

运维负责度

扩展能力

拥有成本

系统和数据管理成本

应用开发维护成本

SQL支持

中(低)

数据规模

PB级别

部分PB

TB级别

计算性能

对非关系型操作效率高

对关系型操作效率高

对关系型操作效率中

数据结构

机构化、半结构化和非机构化数据

结构化数据

结构化数据


综合而言,Hadoop和MPP两种技术的特定和适用场景为:

● Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。

● MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。

MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

由上述对比可预见未来大数据存储与处理趋势:MPPDB+Hadoop混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。

 


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MPP架构学习 的相关文章

随机推荐

  • 通过聚类中心进行0-9数字语音识别(matlab)——基于K-means聚类

    项目已免费开源 https gitee com zhengzsj automatic speech recognition ars tree master 1 技术路线 2 实现过程 层次聚类和K means聚类的样本是0 9语音每个数字各
  • 中国蚁剑下载AntSword

    我们下载的时候需要下载两个部分 一个是项目核心源码 antSword 另一个是加载器 加载器则分为三个版本 Mac Windows Linux 器GitHub AntSwordProject AntSword Loader AntSword
  • 高德WMTS图层 调用天地图瓦片地图

    项目需要展示海外地点标注 且卫星图与标准矢量地图切换 但是高德地图不显示海外地点数据 查了高德的海外LBS服务 是收费的 而且还处于试运行状态 遇到问题还得提工单 比较麻烦 后来查了查资料 发现天地图可以满足需求 而且天地图提供给WMTS服
  • general 未设置cookie的Secure标志位

    解决方案 在配置文件中增加相应配置即可完成配置
  • 最全微信小程序button按钮各种默认样式(需重置button样式时必备)

    默认样式 button position relative display block margin left auto margin right auto padding left 14px padding right 14px box
  • python随机添加噪声(高斯,椒盐,对比度高低)

    class NoiseGenerator object def generated noise self img num print for i1 char in enumerate num if num i1 0 img self ori
  • 层次聚类详解(附代码)

    本篇博客主要介绍机器学习算法中的层次聚类 层次聚类不同于传统的K Means聚类算法 它在初始K值和初始聚类中心点的选择问题上会存在优势 层次聚类 层次聚类就是一层一层的进行聚类 可以由下向上 或由上向下进行聚类 先计算样本之间的距离 每次
  • DLL注入技术

    转载自 http hi baidu com xwind85 blog item ae5332ad04bb7f034a36d662 html 一 DLL注入技术的用途 DLL注入技术的用途是很广泛的 这主要体现在 1 假如你要操纵的对象涉及的
  • 4diacIDE IEC61499 开发环境编译

    4diac是IEC61499 分布式控制系统的开源项目 主要分为开发环境IDE和运行时Forte两部分组成 IDE 是基于Eclipse IDE 使用java 开发的程序 而Forte是使用C 开发的程序 4diac 项目要在实际工程中使用
  • 【matplotlib】画图基本函数 pyplot 画曲线图

    from matplotlib import pyplot as plt 1 1 plot函数 生成1991 到2021数据作为x轴 dates np arange 1991 2021 生成50到500的随机数 30个作为y轴 sales
  • 出现段错误的情况汇总

    1 访问数组时超过数组边界 int data 20 int n for n 0 n lt 20 n operate on data n 上面声明的数组长度为20 但是却会访问data 20 已经超过了数组边界 导致段错误出现 2 数组的长度
  • git 重新定位服务器地址

    git服务器地址变了 客户端需要两个步骤来切换到新地址 1 首先重新生成ssh 使用如下命令 ssh keygen t rsa C qq com 这条命令会生成秘钥文件 默认文件路径是 userprofile ssh id rsa pub
  • 微信小程序:云开发·初探二

    I ll never finish falling in love with you 自己编写云服务 后台 在目录cloudfunctions上右键 新建node js云函数 开发者工具会自动打开终端 package json 是npm的配
  • 回顾:C++语法点等

    多态 虚函数相关 封装可以使代码模块化 继承可以在原有的代码基础上扩展 它们的目的都是为了代码重用 而多态则是为了接口重用 就是说不论传递过来的是哪个类的对象 函数都能够通过同一个接口调用到适应各自对象的实现方法 多态主要通过重载 静态 和
  • windows环境下进入docker虚拟机的方式

    今天在docker的简易应用栈搭建的过程中 遇到一个问题 就是查看一个容器的存储卷挂在本地 发现进不去 原因是 我的环境docker是装在win10上的一个虚拟机上 我直接在power shell的命令行下进入会报错 提示我没有这个路径 原
  • 2023-5-24第二十四天

    corrupt贪污 腐败 破坏 interrupt中断 utility公共设施 多功能的 esoteric只有内行才懂的 难领略的 intergrate合并 整合 specification规格 规范 标准 concept概念 观点 pre
  • an exception occurred while initializing the database.

    对于手动删除本地的LocalDB数据库之后出现标题所示异常的 推荐下面的命令 sqllocaldb exe stop v11 0 sqllocaldb exe delete v11 0 在程序包管理器控制台或者Visual Studio自带
  • 基于Python和mysql开发的商城购物管理系统分为前后端(源码+数据库+程序配置说明书+程序使用说明书)

    一 项目简介 本项目是一套基于Python和mysql开发的商城购物管理系统 主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者 包含 项目源码 项目文档 数据库脚本等 该项目附带全部源码可作为毕设使用 项目都经
  • 关于内存地址和内存空间的理解。

    1 内存地址用4位16进制和8位16进制表示的区别 例如经常可以看到某些书籍上写的内存地址0x0001 在另外一些书籍上写的内存地址又变成了0x00000001 都是表示的编号为1的内存地址 为什么一个是4位16进制表示 另外一个又是用8位
  • MPP架构学习

    原文链接 https blog csdn net qq 42189083 article details 80610092 1 什么是MPP MPP Massively Parallel Processing 即大规模并行处理 在数据库非共