如何在 PySpark 中获得不同的字典 RDD？

2023-12-24

我有一个字典的 RDD，我想获得一个仅包含不同元素的 RDD。但是，当我尝试打电话时

rdd.distinct()

PySpark 给我以下错误

TypeError: unhashable type: 'dict'

    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)
    at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207)
    at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.api.python.PairwiseRDD.compute(PythonRDD.scala:342)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
16/02/19 16:55:56 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main
    process()
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process
    serializer.dump_stream(func(split_index, iterator), outfile)
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 2346, in pipeline_func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 2346, in pipeline_func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 317, in func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 1776, in combineLocally
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/shuffle.py", line 238, in mergeValues
    d[k] = comb(d[k], v) if k in d else creator(v)
TypeError: unhashable type: 'dict'

我确实在字典中有一个键，可以将其用作不同的元素，但文档没有提供有关如何解决此问题的任何线索。

EDIT:内容由字符串、字符串数组和数字字典组成

EDIT 2:字典的示例...我希望具有相同“data_fingerprint”键的字典被视为相等：

{"id":"4eece341","data_fingerprint":"1707db7bddf011ad884d132bf80baf3c"}

Thanks

正如 @zero323 在他的评论中指出的那样，您必须决定如何比较字典，因为它们不可散列。一种方法是对键进行排序（因为它们不按任何特定顺序），例如按字典顺序。然后创建一个以下形式的字符串：

def dict_to_string(dict):
    ...
    return 'key1|value1|key2|value2...|keyn|valuen'

如果您嵌套了不可散列的对象，则必须递归地执行此操作。

现在您可以将 RDD 转换为与字符串作为键（或其某种哈希值）配对

pairs = dictRDD.map(lambda d: (dict_to_string(d), d))

要得到你想要的，你只需按如下键减少

distinctDicts = pairs.reduceByKey(lambda val1, val2: val1).values()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

RDD

如何在 PySpark 中获得不同的字典 RDD？的相关文章

将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

在运行时保存并重新加载 app.config(applicationSettings)

我已将应用程序的配置存储在 app config 中通过 Visual Studio 我在项目属性对话框的设置选项卡上创建了一些应用程序密钥然后我在应用程序级别而不是用户级别设置了该密钥 Visual Studio 自动生成以下 x
在操作方法中填充模型后对话框未更新

我正在使用 primefaces 对话框我有一个项目列表每当我选择一个项目时我希望对话框显示该项目名称然而这并没有发生该对话框根本不显示任何名称而不是显示项目名称我在下面发布了我的代码
NSubstitute ILogger .NET Core

我正在尝试围绕异常处理编写单元测试以便可以验证我的记录器是否正确记录了异常我使用 NSubstitute 作为模拟框架Microsoft Extensions Logging ILogger我必须遵循我的测试 Fact public v
链接：警告 LNK4098：defaultlib 'MSVCRT' 与其他库的使用冲突；使用 /NODEFAULTLIB:库

当我尝试构建与 libeay32 lib 链接的源代码时我已经从 OpenSSL 源本地构建了这个我遇到了上述警告 LINK 警告 LNK4098 defaultlib MSVCRT 与其他库的使用冲突使用 NODEFAULTLIB
GIT-SVN克隆命令执行没有错误，但本地master分支丢失

我正在尝试使用 GIT SVN 但在启动时遇到问题我可以克隆 svn 存储库或使用 git svn init 然后使用 git svn fetch 不会出现任何错误但在命令停止处理后 git 存储库为空并且没有本地主分支我的 sv
某些客户端的 HTTP 标头的字符被随机替换

正在进行网络流量和日志分析但有很多从客户端传递的格式错误的标头这些字符被转调或替换为 x 有谁知道它们来自哪里或为什么这是某种安全尝试还是更邪恶的行为例子 xroxy connection Keep Alive cneoction
有人在 Solaris 10x86 上安装了 Rails 3

我想要一种在未连接到互联网的 Solaris 10 x86 服务器上安装 Rails 3 的简单方法我可以下载文件并刻录到 DVD 或记忆棒并以这种方式安装有些软件包是最好的因为并不真正期待从源代码编译有没有人做过这个或看过任何有关
实体框架代码优先迁移和 Firebird

我正在尝试在 Firebird 2 5 数据库上启用迁移我正在使用 VS2015 ADO 驱动程序和实体提供程序已安装并正常工作我对数据库进行了逆向工程进行了必要的更改以使其正常工作我可以在包管理器控制台上执行启用迁移并添加迁移
将 vCard 数据直接添加到系统地址簿

我正在设计一个QR码阅读器它需要检测并导入vCard格式 vcf 的联系人卡片有没有办法直接将名片数据添加到系统地址簿中或者我需要自己解析vCard并单独添加每个字段如果您在 iOS 5 或更高版本上运行以下代码应该可以解决问题
PySpark：搜索文本和子集数据框中的子字符串

我是全新的pyspark并想翻译我现有的pandas python代码到PySpark 我想子集我的dataframe这样只有包含我要查找的特定关键字的行 original problem 字段被返回下面是我在 PySpark 中尝试的
是否可以使用一个 Set-Cookie 设置多个 cookie？

一个HTTP Set Cookie指令只能保存一个cookie 对吗我的意思是一个单name value pair Netscape 的原始 cookie 规范参见这个缓存版本 http web archive org web 200
如何在Ubuntu 15.10中安装最新的JMeter？

当我尝试使用 apt get install JMeter 在 Ubuntu 15 10 中安装 Apache JMeter 时它会安装旧版本 2 11 但是我尝试下载最新的 JMeter 3 0 版本并在尝试运行时jmeter ja
返回延迟承诺对象并解决它

我有一个形式的函数 get members function var group id gid val if this val group id return var deferr Deferred get url done functio
模板多态不起作用？

我正在构建一个小型模板层次结构并尝试利用类多态性下面是一些示例代码无法编译来演示它 template
SwiftUI 如何调整背景颜色的亮度，而不是所有子视图

如何使亮度只影响视图的背景颜色而不影响其子视图我希望文本保持白色但背景变暗这段代码 struct ListCell View let brightness Double var body some View VStack HStack
Python 中的自定义“with open()”语句：生成器没有产生错误

我有一个文件类您可以从中解析数据写入数据等我想从任何应用程序中使用它如下所示 f MyFileClass init method puts a lot of default data in object with f open as
Angular2 - 在动态添加的 HTML 中捕捉/订阅（点击）事件

我正在尝试注入一个包含 click 事件到 Angular2 模板中加载 DOM 后很久就会从后端动态检索字符串 Angular 无法识别注入的内容也就不足为奇了 click event 示例模板 div div 后端给出的示例字符串
JavaFX 模块 javafx.graphics

在修复了 robots awt 的需求问题后我现在在运行应用程序时遇到了另一个问题应用程序构建没有任何问题堆栈跟踪 Exception in Application constructor Exception in thread ma
检测开始和结束标签的奇怪 TagHandler 行为

我正在尝试使用 TextView 显示带有自定义标签的字符串文本字符串
如何在 PySpark 中获得不同的字典 RDD？

我有一个字典的 RDD 我想获得一个仅包含不同元素的 RDD 但是当我尝试打电话时 rdd distinct PySpark 给我以下错误 TypeError unhashable type dict at org apache spar

如何在 PySpark 中获得不同的字典 RDD？

如何在 PySpark 中获得不同的字典 RDD？ 的相关文章

随机推荐

热门标签

如何在 PySpark 中获得不同的字典 RDD？的相关文章