如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？

2024-02-21

我的应用程序是利用 MongoDB 作为平台构建的。 DB中的一个集合数据量很大，选择了apache Spark来检索并通过计算生成分析数据。我已经配置了MongoDB 的 Spark 连接器 https://docs.mongodb.com/spark-connector/getting-started/与 MongoDB 通信。我需要使用查询 MongoDB 集合pyspark并构建一个由 mongodb 查询结果集组成的数据框。请建议我一个合适的解决方案。

您可以将数据直接加载到数据框中，如下所示：

# Create the dataframe
df = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource").option("uri", "mongodb://127.0.0.1/mydb.mycoll").load()

# Filter the data via the api
df.filter(people.age > 30)

# Filter via sql
df.registerTempTable("people")
over_thirty = sqlContext.sql("SELECT name, age FROM people WHERE age > 30")

有关更多信息，请参阅 Mongo Spark 连接器Python API https://docs.mongodb.com/spark-connector/python-api/部分或简介.py https://github.com/mongodb/mongo-spark/blob/master/examples/src/test/python/introduction.py。 SQL 查询被转换并传回连接器，以便数据可以在发送到 Spark 集群之前在 MongoDB 中查询。

您也可以提供自己的聚合管道 https://docs.mongodb.com/manual/aggregation/#aggregation-pipeline在将结果返回到 Spark 之前应用于集合：

dfr = sqlContext.read.option("pipeline", "[{ $match: { name: { $exists: true } } }]")
df = dfr.option("uri", ...).format("com.mongodb.spark.sql.DefaultSource").load()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？的相关文章

spring-data-mongodb 在重新水化对象时到底如何处理构造函数？

我读过了http static springsource org spring data data mongo docs 1 1 0 RELEASE reference html mapping chapter http static sp
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
使用 MongoDB 和 Nodejs 插入和查询日期

我需要一些帮助在 mongodb 和 nodejs 中按日期查找记录我将日期添加到抓取脚本中的 json 对象如下所示 jsonObj last updated new Date 该对象被插入到 mongodb 中我可以看到如下 la
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
通过在 body、mongoose/mongodb 中提供文档来更新多个文档

我需要通过在正文中提供一些文档来更新它们我无法查询它们必须提供它们 Example var persons id 1 name Joe active false id 2 name Jane active false 该数据在正文中提供
匹配包含 MongoDB 中提供的数组的任意组合的数组字段

我想使用指定的数组元素列表进行查询以便返回的文档只能包含我传递的元素但不需要包含所有元素鉴于以下文件 name Article 1 tags Funny Rad name Article 2 tags Cool Rad name Ar
调用 Mongoose 插件内模式的静态方法

我写了一个插件可以执行以下操作 module exports function schema options schema statics customFunction function criteria Code 这是我的架构 var
MongoDB：如何在嵌套数组中更新插入对象？

考虑以下文档 countries country France cities city Paris population 100 country England cities city
是否有一个好的开源 MongoDB 队列 C# 驱动程序实现

并不是说编写一个程序不够容易或有趣可以说不重新发明轮子是有道理的我已经浏览了各种尝试但我似乎还没有遇到支持这些标准的实现具有MongoDB持久化的简单队列OSS系统基于 C 驱动程序官方如此完整的 POCO 序列化可尾游
自动执行异步函数

下面的代码可以完美运行 const Course mongoose model Course courseSchema async function foo const nodeCourse new Course name Node JS
如何在 Meteor 应用程序之间共享 MongoDB 集合？

我希望能够为我的项目提供一个管理应用程序和一个客户端应用程序理想情况下我希望能够拥有一个共享的 MongoDB 集合我怎样才能做到这一点我尝试在两个不同的应用程序中创建具有相同名称的集合但发现 Meteor 会将数据分开知道我能
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
mongodb 和 pymongo 文档大小 16Mb 限制

我正在使用 Windows 上的 showIncludes 标志和 nix 上的 H 标志来分析构建中的包含内容我正在用 python 脚本解析这些信息包含的每个文件都变成一个对象列出其子文件它包含的文件和祖先包含该文件的包含路
使用 Java 为 MongoDB 中的外部值分配权重

这就是我如何创建具有不同权重的索引蒙戈外壳 db blog ensureIndex content text keywords text about text weights content 10 keywords 5
OperationFailure：在 MongoEngine/PyMongo 中线程化时出现数据库错误

我有一个函数可以从网站读取数据对其进行处理然后将其加载到 MongoDB 中当我在没有线程的情况下运行它时它工作正常但是一旦我设置了只调用这个函数的 celery 任务我经常会收到以下错误 OperationFailure 数据
UnhandledPromiseRejectionWarning: MongoError: w 必须是连接处的数字或字符串

任何人都知道为什么我会收到此错误 UnhandledPromiseRejectionWarning MongoError w 必须是连接处的数字或字符串我在运行下面的代码时遇到此错误它的目的是检查用户是否在 mongodb 数据库中如
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
pymongo MongoClient 连接到 ReplicaSet

我采用 pymongo 的 MongoClient 类来连接到具有三个节点 1 个主节点 2 个辅助节点的副本集代码片段如下 c MongoClient secondary1 hostname secondary2 hostname r

随机推荐

如何删除 ASP.NET 网站上的 cookie

在我的网站中当用户单击注销按钮时 Logout aspx 页面会加载代码Session Clear 在 ASP NET C 中这是否会清除所有 cookie 或者是否需要添加任何其他代码来删除我网站的所有 cookie 尝试这样的事
如何快速创建新行

有没有办法像java中的 n 一样在swift中创建一个新行 var example String Hello World n This is a new line 你应该能够使用 n在 Swift 字符串中它应该按预期工作创建一个换行
gganimate：结合transition_layers和geom_smooth

如何将geom smooth method lm 函数与gganimate 的transition layers 结合起来以便当各个条向上漂移增长时 geom smooth 的线性线出现如下所示 geom smooth 线所需外观的示
在Python中，f.readlines()和list(f)有什么区别

来自两者Python2教程 https docs python org 2 tutorial inputoutput html methods of file objects and Python3教程 https docs python
将列表<>、对象和原语混合传递到 ASP MVC 控制器操作的方法

我对 C 相当陌生正在创建我的第一个 MVC 项目并且很难弄清楚将 3 个不同类型的参数传递给控制器操作的方法这是我的控制器方法 public ActionResult Create Notification notificatio
将 Lambda 输出映射到 API Gateway 标头

我正在尝试将 Lambda 函数的 JSON 输出映射到 API 网关调用的标头作为此处的示例我们可以考虑重定向场景所以我想添加一个Location我的 API 网关调用的响应的标头 Lambda 函数的 JSON 输出 Locati
当月最后一天？

我必须得到本月的最后一天我怎样才能得到 SQLite sqlite3 计算当月的最后一天 SELECT date now start of month 1 month 1 day 如果您使用 sqlite3 也请查看此链接sqlite 日
在 Android Studio 中方法自动完成后禁用左括号

I am using Android Studio based on IDEA not Eclipse and every time I select a method from the autocomplete popup with Ta
Swift 泛型和向上转型

我有一个关于 Swift 泛型的快速问题问题是我试图存储一个以泛型作为参数的变量但无法将其转换为它所限制的类型最好用一个简短的例子来解释 class Foo class Thing
Mean.JS 并添加外部依赖项

我正在尝试将外部依赖项 ui codemirror 添加到我的 Mean JS 0 4 2 应用程序中我的理解来自here https stackoverflow com questions 25832660 angularjs how
python 中的二进制数组

如何在 python 中创建大数组创建效率如何在 C C 中 byte data byte memalloc 10000 or byte data new byte 10000 在蟒蛇看看阵列模块 http docs python o
什么是 setContentView(R.layout.main)？

我知道这与应用程序布局有关但我什么时候必须使用它我试图寻找解释此方法的链接但找不到先感谢您在 Android 中视觉设计存储在 XML 文件中每个文件Activity https developer android com g
TeamCity + MSTest - 仅运行失败的测试？

有没有办法只运行 TeamCity 中先前测试运行中失败的测试更好的是有没有办法以某种方式只运行选定的测试就像我们只想运行某些测试类一样我们是否可以通过其他机制来实现这一目标也许在后续测试运行中将某种配置文件传递给 MSTest
用于任意和可变深度的嵌套列表的正确 C++ 类型？

我正在尝试将一些代码从 Python 移植到 C Python代码有一个函数foo可以采用具有可变列表深度的嵌套整数列表例如这些是对 foo 的合法函数调用 foo foo 1 foo 1 2 3 4 5 6 7 8 9 10 对于可以
iOS 上的 UIGraphicsBeginImageContext 与 CGBitmapContextCreate

这可能是一个非常愚蠢的问题但是有人可以告诉我使用 UIGraphicsBeginImageContext 创建 CGContextRef 和使用 CGBitmapContextCreate 绘制图像之间的区别吗特别是现在由于 UIKi
自定义类加载/覆盖 Android 原生类

主要目标是用我自己的实现覆盖 Android 系统类 Activity View 等 http android developers blogspot com 2011 07 custom class loading in dalvik h
如何从 C:\cygdrive\c\ 更改 git 路径

如何将 git 路径从 C cygdrive c 更改为 C 或只是 cygdrive c 我已将 notepad 设置为 git 的编辑器当我尝试执行交互式变基 git rebase i 时记事本打开但由于这个奇怪的路径包括 C
为什么 javascript 语音识别 api 在没有互联网的情况下无法工作？

我正在使用 javascript 语音识别 api new webkitSpeechRecognition 我很惊讶为什么它在没有互联网的情况下无法工作因为它是 javascript 代码所以它应该可以离线工作我检查了chrome开发
AMP 项目 - Google Analytics - 内容分组 amp-analytics 代码

我正在尝试将内容分组变量分配给我的 AMP 标记中的 Google Analytics 代码我的 AMP 分析代码
如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？

我的应用程序是利用 MongoDB 作为平台构建的 DB中的一个集合数据量很大选择了apache Spark来检索并通过计算生成分析数据我已经配置了MongoDB 的 Spark 连接器 https docs mongodb com s

如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？

如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？ 的相关文章

随机推荐

热门标签

如何使用 MongoDB 中过滤的记录构建 Spark 数据框架？的相关文章