Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 MapReduce 查找大整数集的中值
是否有一种快速算法可以在 MapReduce 框架上运行以从巨大的整数集中找到中位数 我就是这样做的 这是顺序快速选择的一种并行版本 某些映射 归约工具可能无法让您轻松完成任务 选择输入集中的一个任意小块 按顺序对此进行排序 我们将并行地将
MapReduce
使用 MapReduce 通过 BFS 遍历图的有效方法是什么?
这是招聘人员问我的面试问题 问题基本上是计算所有节点到每个节点的最短路径 我的解决方案如下 初始化所有可能的边 没有反向 A B 与 B A 相同 每个节点将表示为以下 src cost current list dest src 和 de
Algorithm
Graph
MapReduce
graphalgorithm
breadthfirstsearch
如何统计数组中每个值的出现次数?
我在MongoDB中有一个ISSUES数据库 有些问题有注释 这是一个数组 每个评论都有一个作者 如何统计每个作者发表的评论数量 我试过了 db test issues group key comments username true in
Arrays
MongoDB
MapReduce
如何通过 API 访问 Hadoop 计数器值?
在 Hadoop 中 我们可以在 Map Reduce 任务中递增计数器 如下所示 context getCounter MyCountersEnum SomeCounter increment 1 您可以在日志中找到它们的值 作业完成后如
Java
Hadoop
MapReduce
Counter
选择不同计数 cloudant/couchdb
我正在使用 Cloudant 启动一个项目 这是一个简单的日志记录系统 因此我可以跟踪应用程序的使用情况 我的文档如下所示 app 应用程序名称 类型 页面视图 登录 ETC 所有者 用户的电子邮件 设备 iphone 安卓 ETC 日期
MapReduce
Lucene
couchdb
cloudant
NoSQL
将输出写入不同的文件夹 hadoop
我想将同一个减速器的两种不同类型的输出写入两个不同的目录 我可以使用 hadoop 中的多输出功能写入不同的文件 但它们都转到相同的输出文件夹 我想将同一个reduce 中的每个文件写入不同的文件夹 有办法做到这一点吗 如果我尝试将 hel
Hadoop
MapReduce
MongoDB 聚合比较:group()、$group 和 MapReduce
我对何时使用 group 与 group 或 mapreduce 进行聚合有些困惑 我阅读了文档http www mongodb org display DOCS Aggregation对于组 http docs mongodb org m
MongoDB
MapReduce
mongodbquery
aggregationframework
Hadoop 选项没有任何效果(mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent)
我正在尝试实现一个 MapReduce 作业 其中每个映射器将占用文本文件的 150 行 并且所有映射器将同时运行 此外 无论有多少映射任务失败 它都不应失败 这是配置部分 JobConf conf new JobConf Main cla
Java
Hadoop
MapReduce
使用 Apache Spark 将键值对简化为键列表对
我正在编写一个 Spark 应用程序 想要组合一组键值对 K V1 K V2 K Vn 成一个键 多值对 K V1 V2 Vn 我觉得我应该能够使用reduceByKey带有某种味道的函数 My KMV My KV reduce lambd
python
apachespark
MapReduce
PySpark
RDD
向 Hadoop MapReduce 中的单个映射提供多个非文本文件
我目前正在编写分布式应用程序 它在 Hadoop MapReduce 的帮助下解析 Pdf 文件 MapReduce 作业的输入是数千个 Pdf 文件 大部分范围从 100KB 到 2MB 输出是一组解析的文本文件 出于测试目的 最初我使用
Hadoop
MapReduce
MongoDB MapReduce:对于超过 1000 条记录,未按预期工作
我编写了一个 mapreduce 函数 其中记录按以下格式发出 userid
MongoDB
MapReduce
使用正则表达式从 MongoDB 中提取子字符串列表
我需要提取与正则表达式匹配的字符串的一部分并返回它 我有一组文件 例如 id 12121 fileName apple doc id 12125 fileName rap txt id 12126 fileName tap pdf id 1
regex
MongoDB
MapReduce
aggregationframework
Hadoop Mapreduce 控制台输出说明
我是hadoop环境的新手 我已经设置了2节点hadoop集群 然后我运行示例 MapReduce 应用程序 实际上是字数 然后我得到这样的输出 File System Counters FILE Number of bytes read
Hadoop
MapReduce
Console
output
master和reduce之间共享数据
我需要使用所有reduce 任务的结果执行聚合 基本上 reduce 任务会找到总和 计数以及一个值 我需要将所有总和和计数相加并找到最终平均值 我尝试使用conf setInt在减少 但是当我尝试从主函数访问它时它失败了 class Ma
MapReduce
elasticmapreduce
异步写入 appengine blob 并在所有任务完成时完成它
我有一个难题 我正在迭代一组按日期参数化的 URL 并获取它们 例如 下面是一个示例 somewebservice com start 01 01 2012 end 01 10 2012 有时 从 URL 返回的内容会被截断 缺少带有 截断
googleappengine
MapReduce
blobstore
taskqueue
MongoDB 中的分组和计数
我正在尝试对 mongodb 2 0 1 中每个组的元素数量进行分组和计数 但到目前为止尚未成功 我的数据库架构如下所示 id ObjectId 4ece7544853b4b0941000000 ResultSet Results qual
MongoDB
groupby
MapReduce
为什么 hadoop 无法识别我的 Map 类?
我试图在 hadoop 2 2 0 上运行我的 PDF 字数统计 mapreduce 程序 但出现此错误 13 12 25 23 37 26 INFO mapreduce Job Task Id attempt 1388041362368
Java
Hadoop
MapReduce
RuntimeException
在 Hadoop 中实现自定义 Writable?
我在 Hadoop 中定义了一个自定义的 Writable 类 但是 Hadoop 在运行我的程序时给出了以下错误消息 java lang RuntimeException java lang NullPointerException at
serialization
Hadoop
MapReduce
无法初始化集群。请检查您的配置中的mapreduce.framework.name和相应的服务器地址-提交job2remoteClustr
我最近将集群从 Apache Hadoop1 0 升级到 CDH4 4 0 我在另一台机器上有一个 weblogic 服务器 我通过 mapreduce 客户端将作业提交到这个远程集群 我仍然想使用 MR1 而不是 Yarn 我已经根据 C
Hadoop
MapReduce
Cloudera
MapReduce 的随机播放和排序
我通读了权威指南和网络上的其他一些链接 包括here 我的问题是 洗牌和排序到底发生在哪里 根据我的理解 它们发生在映射器和减速器上 但一些链接提到改组发生在映射器上 排序发生在减速器上 有人可以确认我的理解是否正确吗 如果没有 他们可以提
Hadoop
MapReduce
«
1 ...
14
15
16
17
18
19
20
...27
»