Spark Mongo 连接器，MongoShardedPartitioner 不起作用

2024-05-02

出于测试目的，我配置了一个 4 节点集群，每个节点都有一个 Spark Worker 和一个 MongoDB Shard。这些是详细信息：

四台 Debian 9 服务器（名为 Visa0、Visa 1、Visa 2、Visa）
4 个节点上的 Spark(v2.4.0) 集群（visa1：主节点，visa0..3：从节点）
MongoDB (v3.2.11) 分片集群有 4 个节点（visa1..3 上的配置服务器副本集，visa1 上的 mongos，分片服务器：visa0..3 ）
我正在使用通过“spark-shell --packages”安装的 MongoDB Spark 连接器 org.mongodb.spark:mongo-spark-connector_2.11:2.4.0"

配置 SparkSession 时MongoShardedPartitioner，尽管数据帧架构已正确获取，但从数据库加载的每个数据帧都是空的。

这是在配置完成时复制的spark-defaults.conf文件或与.config("spark.mongodb.input.partitioner" ,"MongoShardedPartitioner")在 SparkSession 构建器中。

With MongoShardedPartitioner, df.count() == 0:

./pyspark --master "spark://visa1:7077" --packages "org.mongodb.spark:mongo-spark-connector_2.11:2.4.0"

...

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 3.5.3 (default, Sep 27 2018 17:27:03)
SparkSession available as 'spark'.
>>> spark2 = SparkSession \
...   .builder \
...   .appName("myApp") \
...   .config("spark.mongodb.input.partitioner" ,"MongoShardedPartitioner") \
...   .getOrCreate()
>>> 
>>> df2 = spark2.read.format("com.mongodb.spark.sql.DefaultSource") \
... .option("uri", "mongodb://visa1/email.emails") \
... .option("pipeline", '[ {"$match": {"mailbox": /^\/root\/pst_export\/albert_meyers_000_1_1.export/}} ]') \
... .load()
>>>                                                                             
>>> df2.count()
0

但无需指定分区程序即可正常工作：

./pyspark --master "spark://visa1:7077" --packages "org.mongodb.spark:mongo-spark-connector_2.11:2.4.0"

...

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 3.5.3 (default, Sep 27 2018 17:27:03)
SparkSession available as 'spark'.
>>> spark2 = SparkSession \
...   .builder \
...   .appName("myApp") \
...   .getOrCreate()
>>> 
>>> df2 = spark2.read.format("com.mongodb.spark.sql.DefaultSource") \
... .option("uri", "mongodb://visa1/email.emails") \
... .option("pipeline", '[ {"$match": {"mailbox": /^\/root\/pst_export\/albert_meyers_000_1_1.export/}} ]') \
... .load()
2019-01-07 22:7:33 WARN  Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.
>>> 
>>> df2.count()
1162

问题：

我如何知道默认配置的是哪个分区程序？
How can MongoShardedPartitioner在这个场景中使用？

提前致谢

2019 年 1 月 13 日：建议的解决方法

正如下面的回答，似乎MongoShardedPartitioner不支持哈希索引作为分片索引。但是，我需要一个哈希索引来将块均匀地分布在我的节点上，与时间无关（我猜使用 _id 会按时间顺序分布）。

我的解决方法是使用计算出的日期存储桶的 md5 哈希值在数据库中创建一个新字段，对其建立索引（作为普通索引），并将其用作分片索引。

现在，代码可以正常工作：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 3.5.3 (default, Sep 27 2018 17:25:39)
SparkSession available as 'spark'.
>>> 
>>> 
>>> spark2 = SparkSession \
...   .builder \
...   .appName("myApp") \
...   .config("spark.mongodb.input.partitioner" ,"MongoShardedPartitioner") \
...   .config("spark.mongodb.input.partitionerOptions.shardkey", "datebuckethash") \
...   .getOrCreate()
>>> 
>>> 
>>> df2 = spark2.read.format("com.mongodb.spark.sql.DefaultSource") \
... .option("uri", "mongodb://visa1/email.emails") \
... .option("pipeline", '[ {"$match": {"mailbox": /^\/root\/pst_export\/albert_meyers_000_1_1.export/}} ]') \
... .load()

2019-01-13 11:19:31 WARN  Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.
>>> 
>>> df2.count()
1162

很抱歉得知您的连接器有问题。

我如何知道默认配置的是哪个分区程序？

有关分区器的信息可以在Spark 连接器文档站点 https://docs.mongodb.com/spark-connector/current/configuration/#Input-configuration。请在以下位置提交票据文档 jira 项目 https://jira.mongodb.org/projects/DOCS如果您觉得有什么遗漏或不清楚，它确实可以帮助未来的用户！

默认分区器是一个薄包装器MongoSamplePartitioner https://docs.mongodb.com/spark-connector/current/configuration/#conf-mongosamplepartitioner。它根据集合的统计采样将集合分成一定大小的分区。

How can MongoShardedPartitioner在这个场景中使用？

The MongoShardedPartitioner https://docs.mongodb.com/spark-connector/current/configuration/#conf-mongoshardedpartitioner使用shardKey生成分区。默认情况下它将使用_id作为钥匙。您可能需要配置该值。

Note:散列分片键是not的支持MongoShardedPartitioner由于目前无法根据哈希值查询集合 - 因此在检索分区时它将无法返回结果。我已经添加DOCS-12345 https://jira.mongodb.org/browse/DOCS-12345更新文档。

您的设置似乎存在问题MongoShardedPartitioner无法按预期对集合进行分区并返回 0 个结果。模式推断仍然有效，因为它查询集合的方式不同。如果不是配置/散列分片键问题，则问题请在Spark jira 项目 https://jira.mongodb.org/projects/SPARK我可以帮助您找出原因并发布修复程序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Mongo 连接器，MongoShardedPartitioner 不起作用的相关文章

在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
如何在java中创建mongoDB objectid

参考帖子如何使用 Java 将数组添加到 MongoDB 文档 https stackoverflow com questions 15371839 how to add an array to a mongodb document usi
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
在java中将RFC3339 DateTime转换为Date [重复]

这个问题在这里已经有答案了如何转换RFC 3339 https www rfc editor org rfc rfc3339java 中的 com google api client util DateTime 到 DateTime 例如
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
清理 MongoDB 的输入

我正在为 MongoDB 数据库程序编写 REST 接口并尝试实现搜索功能我想公开整个 MongoDB 接口我确实有两个问题但它们是相关的所以我将它们放在一篇文章中使用 Python json 模块解码不受信任的 JSON 是否
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
mongoengine 操作的原子性如何

我正在尝试在对象的状态之间转换如下所示 User objects id user id state STATE WAITING update one set state STATE FINISHED The question是是否存在这
mongo BadValue 未知运算符：$or

该集合有一份文档 id ObjectId 54b513933aca242d9915a787 carriers carrier ObjectId 54b54d223aca242d9915a788 carryingInterval from I
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
为关联数组选择哪种映射类型？学说ODM

我有一个关于顺便说一句真的很棒 Doctrine ODM 的简单问题假设您有一个类似以下的文档 Document class Test Id public id WHICHTYPE public field array 现在我想存储一
为什么 Mongohint 可以使查询运行速度提高 10 倍？

如果我使用explain 从shell运行mongo查询获取所使用的索引的名称然后再次运行相同的查询但使用hint 指定要使用的相同索引解释计划中的 millis 字段是显着下降例如没有提供任何提示 gt gt db event
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
MongoDB：仅获取过去 24 小时内创建的文档？

我想限制我所做的查询仅查看过去 24 小时内创建的文档构造此查询的最佳方式是什么如何根据日期进行限制 Add createdAt字段索引它然后查询 db getCollection COLLECTION NAME find crea
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
如何从 JSON 创建 Mongoose 模式

我是 mongodb nodejs 和 mongooseJS 的新手最近我一直在尝试为我的 JSON 创建猫鼬模式 endpoints a z poi location name a latitude 10 1075702 longit
mongodb使用skip和limit排序不根据索引对记录进行排序

我正在尝试使用 Mongodb 进行分页skip and limit 我想要按顺序获取页面记录register time 在数据库中记录是按索引排序的而不是按register time 如何使多页记录多次跳转遵循相同的内容regis

随机推荐

Unity3D 播放器在石头上行走

大家好我的玩家正在石头上行走并穿过石头名为 Champ 的玩家有一个 Box Collider 而 Stone 有一个 Mesh Collider 玩家也有刚体我尝试了我发现的一切但没有任何帮助我解决我的问题 MovePlayer
JavaScript 为什么操作 __proto__ 很慢？ [复制]

这个问题在这里已经有答案了与此线程相关 JavaScript 修改函数原型的更好方法 https stackoverflow com questions 21788187 javascript better way to modify f
在 C# 中解析 Cryptocompare API Json 数据

我正在加载数据这是返回 Response Success Type 100 Aggregated false Data time 1504979760 high 14 26 low 14 26 open 14 26 volumefrom
旅行商问题中 NP 难问题和 NP 完全问题的混淆

旅行商优化 TSP OPT 是一个NP难题旅行商搜索 TSP 是NP完全问题然而 TSP OPT 可以简化为 TSP 因为如果 TSP 可以在多项式时间内求解那么 TSP OPT 1 也可以我认为要将 A 简化为 B B 必须与 A
尝试绘制单个值时出现奇怪的行为

我正在使用以下 Gnuplot 脚本 Definitions a 0 3 s0 10 s1 9 999 r1u x exp x 1 a a exp x 1 exp x 3 r2u x exp x 1 exp x 1 a a exp x 1
幻灯片中并排显示目录和图表

我想将图形和目录并排放在一张幻灯片中看起来像目录图我尝试将它们分别包含在一个小页面中然后将它们都放入图形环境中但结果看起来不太好因为目录被格式化为段落而不是逐项列出的外观那么有人有更好的解决方案吗提前致谢 PS 我使用投
无法在动画块内更改隐藏属性

我在 UIStackView 中嵌入了两个 UILabel 顶部标签始终可见但底部标签可通过hidden财产我希望这个效果是动画的所以我把它放在一个动画块中 private func toggleResultLabel value D
在 Rails 应用程序中存储全局应用程序设置的最佳方法是什么？

我想处理两种全局配置设置用户可以更改的设置例如是否发送某些事件的通知邮件与特定产品版本相关的设置例如禁用免费版本中的功能该功能仅在商业版本中可用存储这些设置的最佳方式是什么数据库配置文件硬编码在源代码中对于这两种情况的数
在 GCP PubSub 中收到任何响应之前重试总超时时间已超过

我正在尝试使用 Node js 推送到 PubSub 主题 google cloud pubsub模块这是 JavaScript 代码 const pubsub require google cloud pubsub class MyPu
存储库本身通常不经过测试？

抱歉我对存储库模式单元测试和 orm 工具还不熟悉我一直在研究单元测试和存储库模式并得出一些结论我想知道我是否正确存储库模式有助于在使用它的控制器中替换单元测试例如对吧因为创建上下文在 EF 中或会话在 NH 中的
Jenkins Cron 表达式未在正确的时间安排

All 尝试配置 jenkins 作业在每天上午 10 点触发并在 cron 下使用H 10 但 jenkins 控制台不是在上午 10 点运行而是在上午 10 点 09 分运行请帮助我全年每天上午 10 点跑步 update Afte
如何从模板脚本访问 AngularJS 变量

我的控制器 scope totals totals 我的模板按 html 注入的预期工作 totals 但我需要的是访问变量totals在模板的脚本中如下所示我试过了 scope totals totals totals 等均无济于
编译 32 位和 64 位时性能差异巨大（快 26 倍）

我试图衡量使用的差异for and a foreach访问值类型和引用类型的列表时我使用以下课程来进行分析 public static class Benchmarker public static void Profile string
SELECT FOR XML 查询速度慢吗？

我有一个存储过程它使用 SELECT FOR XML PATH 语句将 XML 返回给调用者随着更多的行被添加到查询中的主表中我注意到该查询的性能已经下降经过调查我发现在没有 FOR XML 语句的 SQL Management
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g
按列对 3d 数组中的行数据进行分组，并合并每组中的子数组数据

我有一个下面提到的数组 array array 0 gt array names gt array 0 gt Apple group gt 1 1 gt array names gt array 0 gt Mango group gt 1
如何将 dput() 的输出加载到对象中？

例如我有这样的代码 structure list mpg c 21 21 22 8 21 4 18 7 18 1 14 3 24 4 22 8 19 2 17 8 16 4 17 3 15 2 10 4 10 4 14 7 32 4 30
如果两种语言都遵循 IEEE 754，那么两种语言的计算会得到相同的结果吗？

我正在将程序从 Scilab 代码转换为 C 特别是一个循环产生的结果与原始 Scilab 代码略有不同这是一段很长的代码因此我不会将其包含在问题中但我会尽力总结下面的问题问题是循环的每一步都使用上一步的计算此外计算之间的差异
哪个 CQL 版本对应哪个 Cassandra 版本？

CQL 文档是根据 CQL 版本而不是 Cassandra 产品版本来组织的显然我想阅读与我正在使用的 Cassandra 版本相对应的 CQL 文档但我找不到有关哪个 CQL 版本对应于哪个 Cassandra 版本的全面信息 CQ
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的

Spark Mongo 连接器，MongoShardedPartitioner 不起作用

Spark Mongo 连接器，MongoShardedPartitioner 不起作用 的相关文章

随机推荐

热门标签

Spark Mongo 连接器，MongoShardedPartitioner 不起作用的相关文章