Google 每天处理约 20000TB 的数据

2023-10-30

Google 热衷于处理全球的信息，每天，他们花费大量时间探索更好的信息整理技术，他们目前使用的技术为 MapReduce ，这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力，MapReduce 是 Google 日常数据处理的完美技术方案。

Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣，并获得经验和教训，以改进下一代数据处理技术。

目前，Google 的每 TB 数据处理能力为，在1000台计算机中处理 1TB 数据的时间为68秒（使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中），以前的表现为 910 台电脑 209秒。

但 Google 要处理的数据远超过 TB 级，因此，Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍，或者，形象一点说，1PB 数据相当于 2008 年5月，美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示，Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

有一个有趣的问题，就是，如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中（每个只利用了部分空间），每次进行数据整理，至少有一个硬盘坏掉（鉴于处理的时长，硬盘的数目和硬盘本身的寿命，这并不奇怪），因此，为了保证数据安全，Google 将每份数据都在不同的硬盘上写三份。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google 每天处理约 20000TB 的数据的相关文章

Safari 的“阅读器模式” - 开源解决方案？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 Safari 有一个阅读器模式可以删除网站上除文本之外的所有内容有谁知道提供相同功能的开源库或
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
发送变量后的 wsdl 服务响应，php

我是 SOAP WSDL 函数的新手我有一位客户从一家从事汽车测试的公司获得了 wsdl 文件我的客户是他们的分包商他们告诉我们上传有关车牌类别等信息一旦详细信息发送完毕服务器就会做出成功或失败的响应请您协助浏览不同的信息
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
powershell Invoke-WebRequest WebSession 不起作用

我无法让以下代码工作它似乎已登录但随后返回带有 response 的登录页面我猜这与回发有关有办法解决这个问题吗谢谢 login Invoke WebRequest Uri http www sqlpass org UserLog
尝试使用 php 发送 POST 请求，无论我做什么，我都会收到“HTTP ERROR 500”

为了发出 HTTP 请求有人建议我尝试使用 PHP 并给了我一段代码 url https example com dashboard api data array to gt PHONE NUMBER from gt SENDER ID
同源政策目的可疑

正如我所读到的同源策略是防止源自邪恶域 A 的脚本向良好域 B 发出请求换句话说跨站点请求伪造玩了一下我了解到的Access Control Allow Origin标头和CORS据我了解它允许从好域 B 指定服务器域
Java8：使用 Stream / Map-Reduce / Collector 将 HashMap 转换为 HashMap

我知道如何改造一个简单的JavaList from Y gt Z i e List
确定网站的唯一访问者

我正在创建一个 django 网站使用 Apache2 作为服务器我需要一种方法来以完整的证据方式确定我的网站特别是每个页面的唯一访问者数量不幸的是用户会有很大的动机去尝试玩弄跟踪系统所以我正在努力证明这一点有什么办法可
如何从我的网站发送电子邮件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在一个网站上工作我是这个领域的新手我已经制作了一个网站但我在联系我们表单中遇到了问题在这种形式中我制作了四个文本框
如何在 Cakephp 3 中创建按字段集分组的多个复选框

我在阅读本文档时遇到问题 Cakephp3 Cookbook 表单创建选择选择器 http book cakephp org 3 0 en views helpers form html creating select pickers我尝
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
我想将我的 NEXT.js 项目链接到静态网站

我有一个使用 HTML CSS 开发的网站它是一个静态网站但现在我使用 NEXT js 与 Strapi API 集成创建了一个博客项目我的问题是如何将我的静态网站与我的 Next js 项目链接起来我尝试使用链接标签但没有用 i
Tomcat：源服务器没有找到目标资源的当前表示，或者不愿意透露该表示的存在[重复]

这个问题在这里已经有答案了我知道以前有类似的问题但我仍然找不到正确的解决方案我得到源服务器没有找到目标资源的当前表示或者不愿意透露该表示的存在我正在使用 Tomcat 服务器有人可以帮助我吗以下是我的项目结构我被这个问题困
Drupal 模板/主题资源或建议？

我有兴趣为我正在开发的 Drupal 网站创建自定义主题我是 Drupal 的新手但是我在处理构建主题 CSS PHP HTML 所需的基本概念方面拥有相当多的经验所以我的问题是我从哪里开始有创建 Drupal 主题的规范指南吗
GWT 的 RPC 与 AJAX 不同吗？

与 AJAX 调用相比 GWT Google Web Toolkit 的 RPC 远程过程调用用于从浏览器 javascript 到服务器的异步操作有何不同或相似如果它们不同有人可以帮助我理解它们有何不同吗我还听说这个 RPC 实现
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
如何在Delphi中下载一个非常简单的HTTPS页面？

我尝试了在这里看到的代码但它不适用于 HTTPS 我需要将此页面作为字符串下载并在其上添加一些换行符以便将信息按顺序放入 TMemo 中怎么做我尝试使用 Indy 但由于 SSL 问题而失败我尝试了此页面的解决方案如何将网页下
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Mongodb MapReduce 选择最新日期

我似乎无法让我的 MapReduce 缩减功能正常工作这是我的地图功能 function Map day Date UTC this TimeStamp getFullYear this TimeStamp getMonth this T

随机推荐

附录2 FFmpeg从入门到精通-Linux下编译FFmpeg

文章目录附录2 Linux下编译FFmpeg 1 安装依赖项 2 NASM 3 Yasm 4 libx264 5 libx265 6 libfdk aac 7 libmp3lame 8 libopus 9 libvpx 10 FFmpeg
【最全下载合集】最新Office 2021微软官方原版离线安装下载地址合集

Office2021下载地址合集说明仅支持Win10 11系统 img镜像Win10 11下直接装载打开即可一专业增强版强烈推荐 http officecdn microsoft com pr 492350f6 3a01 4f97
java读取jar包中resource下的图片

读取jar包或者war包中的文件时只能使用流不能使用new File Resource resource new ClassPathResource topo img File separator a png
漫谈Web3早期发烧友为什么会成为未来的主流人群？

创新的扩散随着连续的消费者群体采用新技术蓝色显示其市场份额黄色将最终达到饱和水平摘自罗杰斯埃弗雷特的创新扩散 1962 新技术的采用有一个可预测的模式 Web3 也不例外 1962 年埃弗雷特罗杰斯在他的开创性著作创新的
ubantu初始化两部曲

1 配置网络 2 同步windos和ubantu的复制粘贴 sudo apt get install open vm tools sudo apt get install open vm tools desktop
gdb调试积累

1 p打印字符串时不省略默认情况下 gdb调试时太长的字符串只显示一部分如果想要完全显示可以设置 set print element 0 2 查看产生coredump文件的进程 1 gdb c corefile 使用gdb调试cor
git创建分支提示fatal: not a valid object name: ‘master‘解决方案

文章目录 1 背景描述 2 原因分析 3 解决方案 1 背景描述在本地使用 git init初始化一个空的git项目后想使用git branch创建分支时提示fatal not a valid object name master 2
【我的Java笔记】IO流_输出流中给文本文件追加数据的方法

1 IO流中给文本追加数据的方法append 1 该方法是Writer类字符输出流中的方法该类为抽象类可用的子实现类为 OutputStreamWriter和BufferedWriter 2 API中的方法描述注字符序列即字符串
基于BP神经网络的Matlab仿真实现

第一部分引言 BP神经网络 Back Propagation Neural Network 是一种多层前馈神经网络主要用于解决非线性问题它通过反向传播算法进行训练不断调整网络权重最终实现输入与输出之间的映射关系本文将介绍如何使用
python处理时间格式：日期、时间、年、月、日、时刻、星期

原dataframe中的字段timestamp如下提取其中的日期时间年月日时刻星期 import datetime from datetime import datetime 时间格式转换获取日期时间年月日周几小
吉比特无源光纤接入用户端设备_网管型光纤收发器产品功能及技术特点详解

网管型光纤收发器采用主从式管理结构支持SNMP及Web图形化和Telnet命令行方式带外网管为电信运营商的维护管理提供了便捷可靠的手段接下来就由飞畅科技小编来为大家介绍下网管收发器的功能及技术特点一起来看看吧网管收发器的功能介
ubuntu 安装openjdk

在安装环境的过程中可能需要切换安装版本安装openjdk sudo apt update sudo apt install openjdk 8 jdk sudo apt install openjdk 11 jdk 切换版本 sudo u
linux检查是否有D进程,Linux的CPU-Load虚高之进程的D状态

写在前面前几天从同事手里接盘了一个 HHKB 的键盘虽说是顶级的配置但是如果不提一句的话估计大家都不会意识到码出这篇博文的工具如此高大上同时意味着我要持续吃土小半年了就像之前博文提到的我工作的重心从业务开发逐渐向基础平台建设转移
模拟cisp-pte 综合题三个key

1 拿到ip地址扫端口扫目录不多说有1443端口 SQL sever数据库和27666端口 2 扫出来这个地址查看一下访问一下发现一个是后台一个存在文件包含的网页一个大概是上传地址爆破一下后台发现不成功试一下利用文件包
虚拟主机的配置

root localhost nmcli connection modify ens160 ipv4 addresses 192 168 171 137 24 root localhost nmcli connection up ens16
21天Jenkins打卡Day15项目复制

参考文章 http istester com jenkins 188 html
【visual studio】使用 C++ OpenCV 读取图片失败，数据为空

这里写自定义目录标题图片路径问题图片路径问题 F Documents test image Image BMP 需要改成 F Documents test image Image BMP
feign调用第三方接口服务

前言做个笔记下次直接抄这里需要拿到response的header做验签之类的操作所以用feign Response来接收响应正文第三方接口调用的feign 自测OK import com mea pay common excep
广告案例｜10亿数据、查询<10s，论基于OLAP搭建广告系统的正确姿势

由于流量红利逐渐消退越来越多的广告企业和从业者开始探索精细化营销的新路径取代以往的全流量粗放式的广告轰炸精细化营销意味着要在数以亿计的人群中优选出那些最具潜力的目标受众这无疑对提供基础引擎支持的数据仓库能力提出了极大的技术挑战
Google 每天处理约 20000TB 的数据

Google 热衷于处理全球的信息每天他们花费大量时间探索更好的信息整理技术他们目前使用的技术为 MapReduce 这是一种可以对数据进行并发处理的软件架构鉴于其简单性与处理大规模数据的能力 MapReduce 是 Google

Google 每天处理约 20000TB 的数据

Google 每天处理约 20000TB 的数据 的相关文章

随机推荐

热门标签

Google 每天处理约 20000TB 的数据的相关文章