MapReduce

使用 MapReduce 查找大整数集的中值

是否有一种快速算法可以在 MapReduce 框架上运行以从巨大的整数集中找到中位数我就是这样做的这是顺序快速选择的一种并行版本某些映射归约工具可能无法让您轻松完成任务选择输入集中的一个任意小块按顺序对此进行排序我们将并行地将

MapReduce

使用 MapReduce 通过 BFS 遍历图的有效方法是什么？

这是招聘人员问我的面试问题问题基本上是计算所有节点到每个节点的最短路径我的解决方案如下初始化所有可能的边没有反向 A B 与 B A 相同每个节点将表示为以下 src cost current list dest src 和 de

Algorithm Graph MapReduce graphalgorithm breadthfirstsearch

如何统计数组中每个值的出现次数？

我在MongoDB中有一个ISSUES数据库有些问题有注释这是一个数组每个评论都有一个作者如何统计每个作者发表的评论数量我试过了 db test issues group key comments username true in

Arrays MongoDB MapReduce

如何通过 API 访问 Hadoop 计数器值？

在 Hadoop 中我们可以在 Map Reduce 任务中递增计数器如下所示 context getCounter MyCountersEnum SomeCounter increment 1 您可以在日志中找到它们的值作业完成后如

Java Hadoop MapReduce Counter

选择不同计数 cloudant/couchdb

我正在使用 Cloudant 启动一个项目这是一个简单的日志记录系统因此我可以跟踪应用程序的使用情况我的文档如下所示 app 应用程序名称类型页面视图登录 ETC 所有者用户的电子邮件设备 iphone 安卓 ETC 日期

MapReduce Lucene couchdb cloudant NoSQL

将输出写入不同的文件夹 hadoop

我想将同一个减速器的两种不同类型的输出写入两个不同的目录我可以使用 hadoop 中的多输出功能写入不同的文件但它们都转到相同的输出文件夹我想将同一个reduce 中的每个文件写入不同的文件夹有办法做到这一点吗如果我尝试将 hel

Hadoop MapReduce

MongoDB 聚合比较：group()、$group 和 MapReduce

我对何时使用 group 与 group 或 mapreduce 进行聚合有些困惑我阅读了文档http www mongodb org display DOCS Aggregation对于组 http docs mongodb org m

MongoDB MapReduce mongodbquery aggregationframework

Hadoop 选项没有任何效果（mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent）

我正在尝试实现一个 MapReduce 作业其中每个映射器将占用文本文件的 150 行并且所有映射器将同时运行此外无论有多少映射任务失败它都不应失败这是配置部分 JobConf conf new JobConf Main cla

Java Hadoop MapReduce

使用 Apache Spark 将键值对简化为键列表对

我正在编写一个 Spark 应用程序想要组合一组键值对 K V1 K V2 K Vn 成一个键多值对 K V1 V2 Vn 我觉得我应该能够使用reduceByKey带有某种味道的函数 My KMV My KV reduce lambd

python apachespark MapReduce PySpark RDD

向 Hadoop MapReduce 中的单个映射提供多个非文本文件

我目前正在编写分布式应用程序它在 Hadoop MapReduce 的帮助下解析 Pdf 文件 MapReduce 作业的输入是数千个 Pdf 文件大部分范围从 100KB 到 2MB 输出是一组解析的文本文件出于测试目的最初我使用

Hadoop MapReduce

MongoDB MapReduce：对于超过 1000 条记录，未按预期工作

我编写了一个 mapreduce 函数其中记录按以下格式发出 userid

MongoDB MapReduce

使用正则表达式从 MongoDB 中提取子字符串列表

我需要提取与正则表达式匹配的字符串的一部分并返回它我有一组文件例如 id 12121 fileName apple doc id 12125 fileName rap txt id 12126 fileName tap pdf id 1

regex MongoDB MapReduce aggregationframework

Hadoop Mapreduce 控制台输出说明

我是hadoop环境的新手我已经设置了2节点hadoop集群然后我运行示例 MapReduce 应用程序实际上是字数然后我得到这样的输出 File System Counters FILE Number of bytes read

Hadoop MapReduce Console output

master和reduce之间共享数据

我需要使用所有reduce 任务的结果执行聚合基本上 reduce 任务会找到总和计数以及一个值我需要将所有总和和计数相加并找到最终平均值我尝试使用conf setInt在减少但是当我尝试从主函数访问它时它失败了 class Ma

MapReduce elasticmapreduce

异步写入 appengine blob 并在所有任务完成时完成它

我有一个难题我正在迭代一组按日期参数化的 URL 并获取它们例如下面是一个示例 somewebservice com start 01 01 2012 end 01 10 2012 有时从 URL 返回的内容会被截断缺少带有截断

googleappengine MapReduce blobstore taskqueue

MongoDB 中的分组和计数

我正在尝试对 mongodb 2 0 1 中每个组的元素数量进行分组和计数但到目前为止尚未成功我的数据库架构如下所示 id ObjectId 4ece7544853b4b0941000000 ResultSet Results qual

MongoDB groupby MapReduce

为什么 hadoop 无法识别我的 Map 类？

我试图在 hadoop 2 2 0 上运行我的 PDF 字数统计 mapreduce 程序但出现此错误 13 12 25 23 37 26 INFO mapreduce Job Task Id attempt 1388041362368

Java Hadoop MapReduce RuntimeException

在 Hadoop 中实现自定义 Writable？

我在 Hadoop 中定义了一个自定义的 Writable 类但是 Hadoop 在运行我的程序时给出了以下错误消息 java lang RuntimeException java lang NullPointerException at

serialization Hadoop MapReduce

无法初始化集群。请检查您的配置中的mapreduce.framework.name和相应的服务器地址-提交job2remoteClustr

我最近将集群从 Apache Hadoop1 0 升级到 CDH4 4 0 我在另一台机器上有一个 weblogic 服务器我通过 mapreduce 客户端将作业提交到这个远程集群我仍然想使用 MR1 而不是 Yarn 我已经根据 C

Hadoop MapReduce Cloudera

MapReduce 的随机播放和排序

我通读了权威指南和网络上的其他一些链接包括here 我的问题是洗牌和排序到底发生在哪里根据我的理解它们发生在映射器和减速器上但一些链接提到改组发生在映射器上排序发生在减速器上有人可以确认我的理解是否正确吗如果没有他们可以提

Hadoop MapReduce