Apache Spark-reducebyKey-Java-

2023-12-06

我正在尝试了解reduceByKeySpark中使用java作为编程语言。

假设我有一句话“我就是我”。我将句子分解成单词并将其存储为列表[I, am, who, I, am].

现在这个函数分配1对每个单词：

JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
    @Override
    public Tuple2<String, Integer> call(String s) {
        return new Tuple2<String, Integer>(s, 1);
    }
});

所以输出是这样的：

(I,1) 
(am,1)
(who,1)
(I,1)
(am,1)

现在，如果我有 3 个减速器正在运行，每个减速器都会获得一个键以及与该键关联的值：

reducer 1:
    (I,1)
    (I,1)

reducer 2:
    (am,1)
    (am,1)

reducer 3:
    (who,1)

我想知道

A。下面的函数到底发生了什么。
b.参数是什么new Function2<Integer, Integer, Integer>
C。 JavaPairRDD 基本上是如何形成的。

JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
    @Override
    public Integer call(Integer i1, Integer i2) {
        return i1 + i2;
    }
});

我认为你的问题围绕着这里的reduce函数，它是一个有2个参数返回1的函数，而在Reducer中，你实现了一个多对多的函数。

这个 API 虽然不太通用，但也更简单。在这里，您提供了一个关联运算，可以将任意 2 个值减少到 1（例如，两个整数之和为 1）。这用于将每个键的所有值减少到 1。没有必要提供 N 到 1 函数，因为它可以通过 2 到 1 函数来完成。在这里，您不能为一个键发出多个值。

结果是每个（键，值串）的（键，减少的值）。

经典 Hadoop MapReduce 中的 Mapper 和Reducer 实际上都非常相似（只是它们采用一组值而不是每个键单个值）并且允许您实现许多模式。从某种程度上来说这是好的，但从某种程度上来说却是浪费和复杂的。

您仍然可以重现Mappers和Reducers所做的事情，但是Spark中的方法是mapPartitions，可能与groupByKey配对。这些是您可能会考虑的最通用的操作，我并不是说您should在 Spark 中以这种方式模拟 MapReduce。事实上，它不太可能有效。但这是可能的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

Apache Spark-reducebyKey-Java- 的相关文章

在文本文件中写入多行（java）

下面的代码是运行命令cmd并使用命令行的输出生成一个文本文件下面的代码在 Eclipse 的输出窗口中显示了正确的信息但在文本文件中只打印了最后一行谁能帮我这个 import java io public class TextFile
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
org.apache.sling.api.resource,version=[2.3,3) -- 无法解析

您好我无法访问我的项目内容我已经上传了从 CQ 访问内容所需的所有包我唯一能看到的是 org apache sling api resource version 2 3 3 无法解析这是否是异常的原因如果是请告诉我如何解决中Q
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
JavaFX 中具有自定义内容的 ListView

How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
使用 AES SecretKey 的 Java KeyStore setEntry()

我目前正在 Java 中开发一个密钥处理类特别是使用 KeyStore 我正在尝试使用 AES 实例生成 SecretKey 然后使用 setEntry 方法将其放入 KeyStore 中我已经包含了代码的相关部分 The KS Obj
Hazelcast 分布式锁与 iMap

我们目前使用 Hazelcast 3 1 5 我有一个简单的分布式锁定机制应该可以跨多个 JVM 节点提供线程安全性代码非常简单 private static HazelcastInstance hInst getHazelcastIn
Calendar.getInstance(TimeZone.getTimeZone("UTC")) 不返回 UTC 时间

我对得到的结果真的很困惑Calendar getInstance TimeZone getTimeZone UTC 方法调用它返回 IST 时间这是我使用的代码 Calendar cal Two Calendar getInstance
如何使用 Maven 打包并运行具有依赖项的简单命令行应用程序？

我对 java 和 Maven 都是全新的所以这可能非常简单如果我遵循maven2hello world此处的说明 http maven apache org guides getting started maven in Five m
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
普罗米修斯指标 - 未找到

我有 Spring Boot 应用程序并且正在使用 vertx 我想监控服务和 jvm 为此我选择了 Prometheus 这是我的监控配置类 Configuration public class MonitoringConfig Bea
IntelliJ - 调试模式 - 在程序内存中搜索文本

我正在与无证的第三方库合作我知道有一定的String存储在库深处的某个字段中的某处我可以预测的动态值但我想从库的 API 中获取它有没有一种方法可以通过以下方式进行搜索类似于全文搜索 full程序内存处于调试模式并在某个断点处停止
Java整数双除法混淆[重复]

这个问题在这里已经有答案了方案1 int sum 30 double avg sum 4 result is 7 0 not 7 5 VS 方案2 int sum 30 double avg sum 4 0 Prints lns 7 5
欧洲中部时间 14 日 3 月 30 日星期五 00:00:00 至日/月/年

我尝试解析格式日期Fri Mar 30 00 00 00 CET 14至日月年这是我的代码 SimpleDateFormat formatter new SimpleDateFormat dd MM yyyy System out
Struts 2 + Sitemesh 3 集成 - FreemarkerDecoratorServlet 中的 NPE

我将 Struts 2 版本 2 3 14 3 与 Sitemesh 3 版本 3 0 alpha 2 一起使用并且在某些情况下遇到 NullPointerException 首先这是我的 web xml 中的 struts2 site
测试弱引用

在 Java 中测试弱引用的正确方法是什么我最初的想法是执行以下操作 public class WeakReferenceTest public class Target private String value public Targe
我可以创建自定义 java.* 包吗？

我可以创建一个与预定义包同名的自己的包吗在Java中比如java lang 如果是这样结果会怎样这难道不能让我访问该包的受保护的成员如果不是是什么阻止我这样做 No java lang被禁止安全管理器不允许自定义类java
具有特定参数的 Spring AOP 切入点

我需要创建一个我觉得很难描述的方面所以让我指出一下想法 com x y 包或任何子包中的任何方法一个方法参数是接口 javax portlet PortletRequest 的实现该方法中可能有更多参数它们可以是任何顺序我需要
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring

随机推荐

在 Windows 上编译错误 C2131 和 C3863，但在 Linux 上则不然 [重复]

这个问题在这里已经有答案了我有一段代码可以在 Linux Raspbian 上编译并正常工作但不能在 Windows VS 17 上编译我使用 CMAKE 3 进行跨平台编译就像我说的我在 Linux 上构建它没有问题以下是我使
通过 WebRTC 流对实时 PCM 音频数据进行未压缩、未加密、未更改、原始传输

我正在转移一个live使用 WebRTC 的 2 个 Electron 窗口进程之间的音频流没有 ICE 或 STUN 服务器或类似的东西连接是通过 Electron IPC 通信手动建立的基于这段代码注意从有关音频流本身的技术
是否能保证线程在 aspnet 中完成？

我在 aspnet 中有这个简单的代码假设没有异常文件锁定或进程终止 new Thread gt Thread sleep 15000 GC Collect File Write dummy file Start GC Collect
想要检测浏览器关闭事件？

我正在开发任何需要检测用户是否关闭选项卡或浏览器的应用程序以便我可以将用户与其他用户断开连接基本上它是一个聊天应用程序我用过 window onbeforeunload confirmExit function confirmExit
自定义分类 - 根据角色或能力设置访问权限

我刚刚学习 WordPress 的自定义分类法如何限制我的用户使用分类法的访问权限例如我创建了一个名为featured我只希望编辑及以上角色能够向此分类添加帖子如何设置访问级别无论是基于用户角色还是能力两者都适合我这是我用于分
URL 中的日期 dd/mm/yyyy

我在 URL 中传递一个日期 dd mm yyyy 格式如下 http www website com parameter 20 02 2000 我正在使用以下 PHP 将其转换为 YYYY MM DD 格式我的数据库如下 SELECT
Python Curses - 打印 Ascii 艺术

我有一个很长的多行 ascii art 字符串我想使用 Pythoncurses 模块将其呈现给用户我对此有点困惑因为在curses中打印字符串的唯一方法是addstr y x string 它只打印到一行关于如何实现这一点有什么想
如何在JPA中实现复杂的多对多关系？

这里是数据库架构 CREATE TABLE Products id INT NOT NULL AUTO INCREMENT category id INT NOT NULL description VARCHAR 100 price DEC
如何从多个匹配对象中删除数组中的单个对象

var testarray NSArray testarray 1 2 2 3 4 5 3 print testarray testarray removeObject 2 我想从多个匹配对象中删除单个对象例如 myArray 1 2 2
实时编辑用户输入

是否可以自动插入字符EditText 当用户输入数据时 IE 如果用户输入一个长数字例如123456789012 这个数字是否有可能在他在编辑文本框中键入时出现但每 4 个字符有一个破折号因此当您输入上面的数字时您会看到它被输入到
圆形图像按钮android

我有一个如图所示的图像按钮我想要它周围的红色空间它将是透明的只是用红色来标识空间将不可点击是否可以我尝试了不同的代码例如通过 xml 或一些圆形图像视图代码但没有任何帮助无需计算任何内容您唯一需要做的就是在按钮模板 xm
在浏览器中强制使用 Mime 类型（使用 Javascript）

我认为出于安全考虑这是不可能的但是是否可以强制浏览器处理具有某种 mime 类型的文件不控制服务器我正在从 file 在客户端的机器本身上提供文件并且我希望文本文件可以在其关联的文本编辑器中打开注意 Firefox 只是打开文件
在递归函数调用之前使用 return 子句与不使用 return 子句有何不同？

我只是在尝试一些递归并注意到一些让我困惑的事情让我用一些代码示例来说明 function loop x if x gt 10 return x loop x 1 the recursive call loop 0 上面的调用返回unde
设计内存有限的记忆系统的简单方法是什么？

我正在编写一个手动计算记忆系统呃在 Matlab 中简单的部分很简单执行计算后将数据放入记忆系统的一种方法一种从记忆中查询和获取数据的方法一种查询系统所有密钥的方法这些部分没有太多疑问问题是我的计算机的内存量有限因此有
Firebase UI 回收器适配器中的不同子集合

我正在尝试获取不同的子集合并使它们适应我的RecyclerAdapter与 Firebase UI 我的Cloud Firestore设置如下 user Collection uid1 Document name email fields
将 XML 文档导入 Rails 数据库？

我一直在阅读一个又一个的教程但似乎没有什么对我有用目标是获取包含元素和属性的 XML 文档并将数据插入数据库中每个元素属性将是数据库中的一列每个条目是一行这是我一直在使用的虚构 XML 文档
使用 html 链接打开 Android 日历

我需要在 Android 设备上打开日历应用程序使用简单的 html 链接我可以在 iOS 中使用 href CALSHOW 执行此操作安卓有类似的东西吗或者有什么解决方法吗提前致谢在 Android 上有一种比 ios ur
numpy.random.shuffle 返回 None

我安装了numpy1 8 2然后我尝试了以下代码 import numpy as np a np arange 10 print a np random shuffle a 但它的输出是 0 1 2 3 4 5 6 7 8 9 None 我
heroku：Spring Boot 仅使用 https 访问端点

我在heroku 上部署了一个Spring Boot java 应用程序我想确保我的注册端点只能通过 https 访问到目前为止我知道 heroku 使用负载均衡器它将每个 https 连接重定向到带有特殊标头 X forwarded
Apache Spark-reducebyKey-Java-

我正在尝试了解reduceByKeySpark中使用java作为编程语言假设我有一句话我就是我我将句子分解成单词并将其存储为列表 I am who I am 现在这个函数分配1对每个单词 JavaPairRDD

Apache Spark-reducebyKey-Java-

Apache Spark-reducebyKey-Java- 的相关文章

随机推荐

热门标签