在 PYSPARK 中运行收集时出错

2023-11-24

我正在尝试将网站名称与 URL 分开。例如 - 如果 URL 是 www.google.com，则输出应为“google”。我尝试了下面的代码，除了最后一行“websites.collect()”之外，一切正常。

我使用数据框来存储网站名称，然后将其转换为 rdd，并对这些值应用 split 函数以获得所需的输出。

逻辑似乎很好，但我猜我的包配置和安装中存在一些错误。

错误如下所示：-

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-11-a88287400951> in <module>()
----> 1 websites.collect()

C:\ProgramData\Anaconda3\lib\site-packages\pyspark\rdd.py in collect(self)
    822         """
    823         with SCCallSiteSync(self.context) as css:
--> 824             port = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
    825         return list(_load_from_socket(port, self._jrdd_deserializer))
    826 

C:\ProgramData\Anaconda3\lib\site-packages\py4j\java_gateway.py in __call__(self, *args)
   1158         answer = self.gateway_client.send_command(command)
   1159         return_value = get_return_value(
-> 1160             answer, self.gateway_client, self.target_id, self.name)
   1161 
   1162         for temp_arg in temp_args:

C:\ProgramData\Anaconda3\lib\site-packages\pyspark\sql\utils.py in deco(*a, **kw)
     61     def deco(*a, **kw):
     62         try:
---> 63             return f(*a, **kw)
     64         except py4j.protocol.Py4JJavaError as e:
     65             s = e.java_exception.toString()

C:\ProgramData\Anaconda3\lib\site-packages\py4j\protocol.py in get_return_value(answer, gateway_client, target_id, name)
    318                 raise Py4JJavaError(
    319                     "An error occurred while calling {0}{1}{2}.\n".
--> 320                     format(target_id, ".", name), value)
    321             else:
    322                 raise Py4JError(

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.lang.IllegalArgumentException
    at org.apache.xbean.asm5.ClassReader.<init>(Unknown Source)
    at org.apache.xbean.asm5.ClassReader.<init>(Unknown Source)
    at org.apache.xbean.asm5.ClassReader.<init>(Unknown Source)
    at org.apache.spark.util.ClosureCleaner$.getClassReader(ClosureCleaner.scala:46)
    at org.apache.spark.util.FieldAccessFinder$$anon$3$$anonfun$visitMethodInsn$2.apply(ClosureCleaner.scala:449)
    at org.apache.spark.util.FieldAccessFinder$$anon$3$$anonfun$visitMethodInsn$2.apply(ClosureCleaner.scala:432)
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733)
    at scala.collection.mutable.HashMap$$anon$1$$anonfun$foreach$2.apply(HashMap.scala:103)
    at scala.collection.mutable.HashMap$$anon$1$$anonfun$foreach$2.apply(HashMap.scala:103)
    at scala.collection.mutable.HashTable$class.foreachEntry(HashTable.scala:230)
    at scala.collection.mutable.HashMap.foreachEntry(HashMap.scala:40)
    at scala.collection.mutable.HashMap$$anon$1.foreach(HashMap.scala:103)
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:732)
    at org.apache.spark.util.FieldAccessFinder$$anon$3.visitMethodInsn(ClosureCleaner.scala:432)
    at org.apache.xbean.asm5.ClassReader.a(Unknown Source)
    at org.apache.xbean.asm5.ClassReader.b(Unknown Source)
    at org.apache.xbean.asm5.ClassReader.accept(Unknown Source)
    at org.apache.xbean.asm5.ClassReader.accept(Unknown Source)
    at org.apache.spark.util.ClosureCleaner$$anonfun$org$apache$spark$util$ClosureCleaner$$clean$14.apply(ClosureCleaner.scala:262)
    at org.apache.spark.util.ClosureCleaner$$anonfun$org$apache$spark$util$ClosureCleaner$$clean$14.apply(ClosureCleaner.scala:261)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:261)
    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:159)
    at org.apache.spark.SparkContext.clean(SparkContext.scala:2292)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2066)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2092)
    at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:939)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:938)
    at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:153)
    at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
    at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
    at java.base/java.lang.reflect.Method.invoke(Unknown Source)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.base/java.lang.Thread.run(Unknown Source)

CODE:-

from pyspark import SparkConf, SparkContext
conf = (SparkConf()
         .setMaster("local[*]")
         .setAppName("Test")
         .set("spark.executor.memory", "8g")
       )

sc = SparkContext(conf = conf)
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc) 

schemaWebsite = sc.parallelize([
    (0, "www.google.com"), (1, "www.hackerrank.com"),(2, "www.walmart.com/in"),
    (3, "www.amazon.in"),(4, "www.ndtv.com")]).toDF(["id", "ev"])

websites = schemaWebsite.rdd.map(lambda x : x[1].split(".")[1])
websites.collect()

只是为了让@Anubhav Sarangi 对此问题的评论成为一个答案：我有同样的问题。最初，我安装了 Java SE 10.0.1。但遇到类似的错误。按照@Anubhav Sarangi的建议，我下载并安装了Java SE 开发套件 8u171其中有jdk 1.8并且问题解决了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

RDD

在 PYSPARK 中运行收集时出错的相关文章

Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

在 Android 中从一个活动移动到下一个活动

我正在 Android 中开发一个具有登录屏幕的应用程序现在我可以成功接收服务器的响应成功响应后它应该带我进入下一个活动或课程在其中显示新的屏幕活动为了实现这个目标我应该做什么在 Android 中您可以使用 Intents
Linux 中的环境变量未使用 load_dotenv() 加载

我正在尝试制作一个不和谐的机器人当我尝试使用 load dotenv 加载 env 时它不起作用因为它说 Traceback most recent call last File home fanjin Documents Pytho
shell 中范围之间的随机数

如何在 sh bin sh 而不是 bash 中生成 0 60 之间的随机数这是卫星盒没有 RANDOM变量和其他商品 cksum od od vAn N4 tu4 我想随机化 cron 作业时间如果你有 tr head 和 dev
`PowerShell.Create()` 返回 null

添加参考 PowerShellStandard Library 在默认情况下重现 net core项目 using System Management Automation using System Collections ObjectMo
使用 Lion 上的 FSEvents 跟踪文件重命名/删除

我正在尝试使用 FSEvents 来检测何时从特定文件夹添加删除文件目前我围绕 FSEvents 实现了一个简单的包装器它工作得很好我得到了所有事件但我现在遇到的问题是当我在 Finder 中重命名文件时我捕获了 2 个不同
线程同步。为什么这个锁不足以同步线程[重复]

这个问题在这里已经有答案了可能的重复线程同步锁究竟如何使内存访问变得正确这个问题的灵感来自于这个我们有以下测试课程 class Test private static object ms Lock new object priv
FXML 设置 TableView 列调整大小策略

如何从 FXML 设置 TableView 的调整大小策略我这样累了但它不起作用
使用 Homebrew 更新 OS X 上的 OpenSSL

我使用的是 MacOS X 10 7 5 并且我需要更新的 OpenSSL 版本因为握手失败网上有很多教程我尝试了以下方法 brew install openssl brew link openssl force 然而它不起作用 o
mq_open() - 打开的文件太多

我正在尝试编写一个客户端和服务器它们将使用 POSIX 消息队列交换数据我尝试通过查看在互联网上看到的示例和课程文档来做到这一点但是我陷入困境当我运行它时我收到打开文件太多错误这是我的代码 Client int main
将整数值范围映射到Python中的颜色

我有从 0 到 10000 的整数我想为每个整数映射一种颜色然后根据整数值我想检索与整数值对应的颜色的 RGB 等效值基本上我想在两种或多种颜色之间有插值效果例如如果颜色是绿色和红色则绿色具有最小权重 0 红色具有最高权重 10
使用 AJAX 通过 Flask-WTForms 将条目附加到 FieldList

我使用 Flask WTForms 在 Flask 中制作了一个简单的表单家长可以在其中注册自己和他的孩子家长可以通过单击添加孩子按钮来注册任意数量的孩子 WTForms 通过使用 FieldList 功能使这变得非常容易实现但是
LOAD DATA INFILE 轻松将 YYYYMMDD 转换为 YYYY-MM-DD？

您好我想导入一个 INFILE 但日期的形式为 AADR 20120403 31 43 31 43 31 4 31 4 1100 AAU 20120403 2 64 2 65 2 56 2 65 85700 AAVX 20120403 1
将 mutate_at 有条件地应用于 R 中数据帧中的特定行

我在 R 中有一个数据框如下所示 a b c condition 1 4 2 acap 2 3 1 acap 2 4 3 acap 5 6 8 ncap 5 7 6 ncap 8 7 6 ncap 我正在尝试重新编码条件 ncap 的 a
C++：在二叉树中插入节点的指针与指针的指针

我正在创建一个函数来在二叉树中插入一个元素首先我在 Visual Studio 2012 上执行了以下操作 void Insert Nodo root int x if root NULL Nodo n new Nodo n gt va
使用 redux useDispatch 时 useEffect 缺少依赖项

每当使用反应钩子安装我的组件时我想获取我的类别useEffect而不是在每次重新渲染时但我不断收到此警告React Hook useEffect has a missing dependency dispatch 这是我的代码 cons
Worksheet 类的 ShowAllData 方法失败

我注意到当自动过滤器已打开时我的 VBA 脚本不起作用知道这是为什么吗 wbk Activate Set Criteria Sheets Sheet1 Cells i 1 Set rng Sheets Sheet1 Range Cells
如何在上传目录时删除 Chrome 中的警告消息

使用上传目录时webkitdirectory在 Chrome 中会出现一条丑陋的警告消息该消息内容如下将数量个文件上传到此站点这将上传目录名称中的所有文件仅当您信任该站点时才执行此操作这是最近在 Chrome 版本 66
MSI 不在 C# 中运行

我正在尝试运行一个MSI使用 Process Start 方法从 C 文件 MSI 文件很好因为我可以正常运行它但是当我尝试在某些 C 代码中运行 MSI 文件时我收到以下错误这个安装包无法被打开验证该包存在并且您可以访问它
java.lang.NumberFormatException用于将字符串转换为long [关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我正在尝试将字符串转换为长字符串它会抛出NumberFormatException 我不认为这超出了范围long at all 这是要转换的代码其中count strng
在 PYSPARK 中运行收集时出错

我正在尝试将网站名称与 URL 分开例如如果 URL 是 www google com 则输出应为 google 我尝试了下面的代码除了最后一行 websites collect 之外一切正常我使用数据框来存储网站名称然后将其转

在 PYSPARK 中运行收集时出错

在 PYSPARK 中运行收集时出错 的相关文章

随机推荐

热门标签

在 PYSPARK 中运行收集时出错的相关文章