那些年Google公开的大数据领域论文

2023-11-19

摘要：Google于2004年公布了MapReduce论文，为数据领域工作者开启了大数据算法之门。然而Google的大数据脚步显然不止于此，其后公布了Percolator、Pregel、Dremel、Spanner等多篇论文。没有止步的不仅是Google，很多公司也跟随其脚步开发了很多优秀的产品，虽然其中不乏模仿。

Mikio L. Braun柏林工业大学机器学习学博士后，TWIMPACT联合创始人兼首席数据科学家。在其个人博客上总结了Google近几年大数据领域的论文，并发表了自己的见解。

以下为译文：

主流的大数据基本都是MapReduce的衍生，然而把目光聚焦到实时上就会发现：MapReuce的局限性已经渐渐浮现。下面将讨论一下自大数据开始，Google公布的大数据相关技术，以及这些技术的现状。

MapReuce、Google File System以及Bigtable：大数据算法的起源

按时间算第一篇的论文应该2003年公布的 Google File System，这是一个分布式文件系统。从根本上说：文件被分割成很多块，使用冗余的方式储存于商用机器集群上；这里不得不说基本上Google每篇论文都是关于“商用机型”。

紧随其后的就是2004年被公布的 MapReduce，而今MapReuce基本上已经代表了大数据。传说中，Google使用它计算他们的搜索索引。而Mikio L. Braun认为其工作模式应该是：Google把所有抓取的页面都放置于他们的集群上，并且每天都使用MapReduce来重算。

Bigtable发布于2006年，启发了无数的NoSQL数据库，比如：Cassandra、HBase等等。Cassandra架构中有一半是模仿Bigtable，包括了数据模型、SSTables以及提前写日志（另一半是模仿Amazon的Dynamo数据库，使用点对点集群模式）。

Percolator：处理个体修改

Google并没有止步于MapReduce。事实上，随着Internet的指数增长，从零开始重算所有搜索索引变得不切实际。取而代之，Google开发了一个更有价值的系统，同样支持分布式计算。

这也是其有趣的地方，特别是在对比常见的主流大数据之后。举个例子，Percolator引入了事务，而一些NoSQL数据库仍然在强调得到高扩展性的同时你必须牺牲（或者不再需要）事务处理。

在2010年这篇 Percolator的论文中，Google展示了其网络搜索是如何保持着与时俱进。Percolator建立于已存类似Bigtable的技术，但是加入了事务以及行和表上的锁和表变化的通知。这些通知之后会被用于触发不同阶段的计算。通过这样的方式，个体的更新就可以“渗透”整个数据库。

这种方法会让人联想到类似Storm（或者是Yahoo的S4）的流处理框架（SPF），然而Percolator内在是以数据作为基础。SPF使用的一般是消息传递而不是数据共享，这样的话更容易推测出究竟是发生了什么。然而问题也随之产生：除非你手动的在某个终端上储存，否则你将无法访问计算的结果。

Pregel：可扩展的图计算

最终Google还需要挖掘图数据，比如在线社交网络的社交图谱；所以他们开发了 Pregel，并在2010年公布其论文。

Pregel内在的计算模型比MapReduce复杂的多：基本上每个节点都拥有一个工作者线程，并且对众多工作者线程进行迭代并行。在每一个所谓的“superstep”中，每一个工作者线程都可以从节点的“收件夹”中读取消息和把消息发送给其它节点，设置和读取节点相关值以及边界，或者投票停止。线程会一直运行，直到所有的节点都被投票停止。此外，还拥有Aggregator和Combiner做全局统计。

论文陈述了许多算法的实现，比如Google的PageRank、最短路径、二分图匹配等。Mikio L. Braun认为，对比MapReduce或SPF，Pregel需要更多实现的再思考。

Dremel：在线可视化

在2010年，Google还公布了 Dremel论文。一个为结构化数据设计，并拥有类SQL语言的交互式数据库。然而取代SQL数据库使用字段填补的表格，Dremel中使用的是类JSON格式数据（更准确的说，使用Google Protocol buffer格式，这将加强对允许字段的限制）。内部，数据被使用特殊格式储存，可以让数据扫描工作来的更高效。查询被送往服务器，而优秀的格式可以最大性能的输出结果。

Spanner：全球分布

最后 Spanner—— 全球分布式数据库；Google在2009年提出了Spanner远景计划，并在2012年对外公布Spanner论文。Spanner的公布可以说是Google向大数据技术中添的又一把火，Spanner具有高扩展性、多版本、全球级分布以及同步复制等特性。

跨数据中心的高扩展性及全球分布会对一致性保障提出苛刻的需求 —— 读写的外部一致性和基于时间戳的全局读一致性。为了保障这一点，Google引入了TrueTime API。TureTime API可以同步全球的时间，拥有一个TT.now（）的方法，将获得一个绝对时间，同时还能得到时间误差。为了保证万无一失，TrueTime API具有GPS和原子钟双保险。也只有这样的机制才能让全球范围内的并发处理得到保障。

大数据超越MapReduce

Google并没有止步于MapReduce，他们在MapReduce不适用的地方开发新方法；当然，对于大数据领域来说这是个福音。MapReduce不是万能的；当然，你可以更深入一步，比如说将磁盘数据移入内存，然而同样还存在一些任务的内部结构并不是MapReduce可以扩展的。

在Google思路以及论文的启发下，同样涌现出一些开源项目，比如：Apache Drill、Apache Giraph、斯坦福GPS等等。

Google近年来每篇论文都有着深远的影响，同时大数据领域内有很多人必然在翘首以盼Google的下一篇论文。

原文链接： Big Data beyond MapReduce: Google's Big Data papers （编译/仲浩审校/王旭东）

欢迎 @CSDN云计算微博参与讨论，了解更多云信息。

本文为CSDN编译整理，未经允许不得转载。如需转载请联系market@csdn.net

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

那些年Google公开的大数据领域论文的相关文章

InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用

随机推荐

vector的讲解及模拟实现(c++)

为了方便大家理解我们边模拟实现vector容器的常用操作然后根据代码讲解如何使用vector的这些功能这样的话相信可以帮助大家更好的理解vector 目录一 vector的介绍二 vector模拟实现的讲解 1 vector的模块分
计算机两个硬盘如何区分,双硬盘电脑怎么设置主从盘？

随着电脑中存储的资料逐步增加我以前电脑的硬盘空间严重不足所以我购买了一块新硬盘但是两块硬盘放在一起工作后经常发生死机运行速度慢等问题我查了很多资料后最终确定是主从盘设置方面出的问题本文将为大家介绍我是如何解决问题的一区
毕业设计-基于深度学习的新闻推荐算法研究

目录前言课题背景和意义实现技术思路基于深度学习的新闻推荐方法 1 DNR中的两段式方法 2 DNR中的融合式方法实现效果图样例最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备
ubuntu的root用户ssh远程登录问题

ubuntu默认不允许root远端登录其它创建的用户默认是可以的编辑ssh服务的配置文件 cd etc ssh 修改sshd config文件设置允许root用户远程登录找到 PermitRootLogin prohibit pas
R语言基础——缺失数据

R语言基础缺失数据缺失数据的分类统计学家通常将缺失数据分为三类它们都用概率术语进行描述但思想都非常直观我们将用sleep研究中对做梦时长的测量有12个动物有缺失值来依次阐述三种类型 1 完全随机缺失若某变量的缺失数据与其他
问题(四)No matching distribution found for anyjson==0.3.3

前言本章主要讲述安装anyjson时提示 No matching distribution found for anyjson 0 3 3 的解决方案一问题描述描述批量下载第三方包时提示找不到anyjson0 3 3的匹配分布
卷积神经网络识别花卉并分类另保存

本篇博客转载自卷积神经网络训练花卉识别分类器本篇博客的所有代码已上传至GitHub仓库后续会更新各个文件夹及文件的详细说明用者自取由于卷积神经网络训练花卉识别分类器博客已将模型的训练测试代码写好且可以通过这篇博客获取到大神训练好
获取，设置HTML控件位置

得到HTML控件的位置 var v document all oo getBoundingClientRect 设置HTML控件的位置 dd style top v top dd style left v left
关于2018网易游戏web前端实习生面试经历

去年报名的网易前端面试没想到过了3个月居然收到了面试的通知心里也是激动花了一天时间面试自己总结一下面试过的问题问题可能不全但是这些是我所能记起来的问题一面 1 css高度坍塌两个盒子一个下边据20px 一个上边据50px
Vue3项目创建

1 新建一个文件夹存放路径 2 Ctrl A选中路径输入cmd 3 打开之后输入vue create my project my project可以任意定义这里作者用的vue3 study Please pick a preset
基础目标检测算法CNN、RCNN、Fast RCNN、Faster RCNN

基础目标检测算法介绍 CNN RCNN Fast RCNN和Faster RCNN 1 CNN 问题输入尺寸固定对于普通的CNN网络由于输入图片中的物体可能有不同的长宽比空间位置目标物体可能占据图片的大部分也可能是一小部分目标
XSS挑战之旅平台通关练习level1-level6

部署容器进入XSS挑战之旅首先需要关闭防火墙输入以下命令进行关闭 gt systemctl stop c gt firewall cmd h c gt systemctl stop firewalld service gt syste
mssql数据库和Oracle数据库注入

MS SQL Server注入简介 MS SQL Server是微软推出的一款数据库产品主要面向中小企业其最大的优势就是在于集成了微软公司的各类产品及资源提供了强大的可视化界面高度集成的管理开发工具在快速构建商业智能 BI 方面
java解决redis缓存与数据库一致性问题

一如何利用Redis缓存优化数据库性能使用 Redis 缓存可以有效地提升数据库的性能和响应速度下面是一些常见的 Redis 缓存优化技巧对热点数据进行缓存通过分析系统的访问模式找出经常被访问的热点数据缓存到 Redis 中
设置背景图片不平铺

图片路径 background image url static demo jpg 不平铺 background repeat no repeat 居中显示 background position center 拉伸占满整个容器 backg
C++ 实例化对象

实例化对象意味着一定有调用构造函数实例化就是给数据成员分配内存构造对象对象的成员函数和普通函数的区别就是成员函数有个指向当前对象的this指针可以访问对象的成员变量其依赖于对象静态函数就更像一个全局函数没有this指针
1031 查验号码

一个号码由17位地区日期编号和顺序编号加1位校验码组成校验码的计算规则如下首先对前17位数字加权求和权重分配为 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 然后将计算的和对11取模得到值Z 最后按照以下关
数字经济发展报告附下载地址

数字经济是以数字化的知识和信息作为关键生产要素以数字技术为核心驱动力量以现代信息网络为重要载体通过数字技术与实体经济深度融合不断提高经济社会的数字化网络化智能化水平加速重构经济发展与治理模式的新型经济形态关注公众号互联互通
Java程序员编写代码的技巧

这样说吧系统学Java底层是大多数Java初学者都会缴的智商税为什么这样说呢 1 初级开发做的是增删改查没必要了解底层了解了对开发帮助也不大 2 中级开发要求的是熟悉业务能排查大多数问题这时也无需系统学习底层技能 3 架构师确
那些年Google公开的大数据领域论文

摘要 Google于2004年公布了MapReduce论文为数据领域工作者开启了大数据算法之门然而Google的大数据脚步显然不止于此其后公布了Percolator Pregel Dremel Spanner等多篇论文没有止步的不仅

那些年Google公开的大数据领域论文

那些年Google公开的大数据领域论文 的相关文章

随机推荐

热门标签

那些年Google公开的大数据领域论文的相关文章