在 Jupyter 笔记本中使用 PySpark 读取 XML

2024-05-22

我正在尝试读取 XML 文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并收到以下错误：

java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml

我尝试过：

安装 pyspark-xml

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_2.12:0.10.0

使用配置运行 Spark：set jar_path = f'{SPARK_HOME}/jars/spark-xml_2.12-0.10.0.jar' spark = SparkSession.builder.config(conf=conf).config("spark.jars", jar_path).config("spark.executor.extraClassPath", jar_path).config("spark.executor.extraLibrary", jar_path).config("spark.driver.extraClassPath", jar_path).appName('my_app').getOrCreate()
设置环境变量：os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.10.0 pyspark'
下载jar文件并放入SPARK_HOME/jars

Here: https://github.com/databricks/spark-xml https://github.com/databricks/spark-xml在“Pyspark 注释”段落中有 PySpark 的替代解决方案，但我不知道如何读取数据帧以便将其传递到函数 ext_schema_of_xml_df 中。

那么，我还应该怎么做才能在 JupyterLab 中使用 PySpark 读取 XML？

正如您所猜测的，关键是要加载包，以便 PySpark 将在 Jupyter 的上下文中使用它。

使用常规导入启动您的笔记本：

import pandas as pd
from pyspark.sql import SparkSession
import os

在实例化会话之前，请执行以下操作：

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.12.0 pyspark-shell'

Notes:

包版本的第一部分必须与构建 Spark 所用的 Scala 版本相匹配 - 您可以通过从命令行执行 Spark-submit --version 来找到这一点。例如

$ spark-submit --version
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.2
      /_/
                        
Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_292
Branch HEAD
Compiled by user centos on 2021-02-16T06:09:22Z
Revision 648457905c4ea7d00e3d88048c63f360045f0714
Url https://gitbox.apache.org/repos/asf/spark.git
Type --help for more information.

软件包版本的第二部分必须是为给定版本的 Scala 提供的内容 - 您可以在这里找到：https://github.com/databricks/spark-xml https://github.com/databricks/spark-xml- 所以就我而言，由于我使用 Scala 2.12 构建了 Spark，所以我需要的包是 com.databricks:spark-xml_2.12:0.12.0

现在实例化您的会话：

# Creates a session on a local master
sparkSesh = SparkSession.builder.appName("XML_Import") \
    .master("local[*]").getOrCreate()

找到一个简单的 .xml 文件，其结构您知道 - 在我的例子中，我使用了 nmap 输出的 XML 版本

thisXML = "simple.xml"

这样做的原因是您可以为下面的“rootTag”和“rowTag”提供适当的值：

someXSDF = sparkSesh.read.format('xml') \
        .option('rootTag', 'nmaprun') \
        .option('rowTag', 'host') \
        .load(thisXML)

如果文件足够小，您可以执行 .toPandas() 来查看它：

someXSDF.toPandas()[["address", "ports"]][:5]

然后关闭会话。

sparkSesh.stop()

结束语：

如果你想在 Jupyter 之外测试这个，只需进入命令行并执行

pyspark --packages com.databricks:spark-xml_2.12:0.12.0

您应该会看到它在 PySpark shell 中正确加载

如果包版本与 scala 版本不匹配，您可能会收到以下错误： "Exception: Java gateway process exited before sending its port number"这是一个非常有趣的方式来解释包版本号是错误的
如果您为用于构建 Spark 的 Scala 版本加载了错误的包，那么当您尝试读取 XML 时，您可能会收到此错误：py4j.protocol.Py4JJavaError: An error occurred while calling o43.load. : java.lang.NoClassDefFoundError: scala/Product$class
如果读取似乎有效，但您得到一个空数据框，则您可能指定了错误的根标签和/或行标签
如果您需要支持多种读取类型（假设您还需要能够读取同一笔记本中的 Avro 文件），您可以列出多个包，并用逗号（无空格）分隔它们，如下所示：

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.12.0,org.apache.spark:spark-avro_2.12:3.1.2 pyspark-shell'

我的版本信息：Python 3.6.9，Spark 3.0.2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Jupyter 笔记本中使用 PySpark 读取 XML 的相关文章

导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何将 XML 文档嵌入到 XHTML 文档中？

例如我如何嵌入
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
当responseText包含有效的Xml时，IXMLHttpRequest.responseXml为空，没有解析错误

我正在从中获取一些 XML政府网站 http www bankofcanada ca stats assets rates rss noon en all xml http www bankofcanada ca stats assets
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代

随机推荐

在 Pari-GP 中嵌套特定递归

每个人我最初在 Stackexchange 上发布了类似的问题它已移至此处可以在链接中找到在 Matlab 中声明函数递归序列 https stackoverflow com questions 67146061 declaring
捆绑安装到开发

由于某种原因当我跑步时bundle install它安装到生产中 Your bundle is complete It was installed into RAILS ENV production Arrrghh 我如何切换回开发 No
我收到“循环依赖”Android Dagger Hilt 错误

我从头开始检查了所有内容但找不到错误我找不到错误可能是什么我收到以下编译错误 HomeViewModel java 6 error ComponentProcessor MiscError dagger internal codeg
卷积 ImageNet 网络对于翻转图像具有不变性

我正在使用深度学习 caffe 框架进行图像分类我有一些有头像的硬币有些是左向的有些是右向的为了对它们进行分类我使用常见的方法从预训练的 ImageNet 网络中获取权重和结构该网络已经捕获了大量图像模式并主要训练最后一层以
在可观察项目生成时对其进行处理

我有一个IObservable它会生成一次性物品并且在其生命周期内可能会生成无限数量的物品因此我想在每次生成新项目时处理最后一个项目因此Using http reactivex io documentation operators
当字段已经填充时，jQuery Validate 有时无法工作

我的页面中有一个更新表单所有文本框都已填充用户信息我用了jquery 验证 https jqueryvalidation org 我的网站中的插件当表单没有任何默认值时该插件可以正常工作而不会出现任何错误在我的表单中有时错误消息
onActivityResult() 在 startActivityForResult() 之后未使用 Intent.ACTION_GET_CONTENT 调用

我得到了我的主要Activity其中持有不同的Fragment的一个片段使用户可以打开一个DialogFragment 该对话框打开声音文件列表并且该对话框还包含一个添加按钮用户应该能够从中添加自己的声音文件为此我想使用标准的
Kubernetes 反关联规则将 Deployment Pod 分散到至少 2 个节点

我在 k8s 部署中配置了以下反关联性规则 spec selector matchLabels app my app environment qa template metadata labels app my app environmen
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
适用于 Python 的 GitLab CI 共享 Windows 运行器

我在 GitLab 中有一个 python 项目仓库我看到 GitLab 共享了可用的测试版 Windows 运行程序请参阅this https about gitlab com blog 2020 01 21 windows shar
在 iOS 上，边距、边缘插入、内容插入、对齐矩形、布局边距、锚点...之间有什么区别？

iOS 社区中似乎有几种不同的选项术语人们在布局方面使用例如 UIEdgeInsets 是一种类型但有时我听到读到设置插图或布局边距与布局指南我总是能够找到有效的选择但我永远不确定我是否使用了正确的工具来完成这项工作有人
如何强制刷新 CallLog.Calls.CACHED_NAME 列？

我的目标是从通话记录中收集所有未知的电话号码这可以通过以下代码来实现 private static final String CALLOG PROJECTION CallLog Calls ID CallLog Calls CACHED
ggplot2 geom_function 可以跨 arg 值进行分面吗？

我想通过分面 geom function 创建 ggplot2 图以便函数的参数在网格中变化例如像这样的东西 my function lt function x par if par 1 return sin x else return
按字母顺序对组合框值进行排序

我的 Excel 用户表单中有一个组合框按字母顺序排序的最简单方法是什么它的值是在 vba 中硬编码的新的值只是添加到底部因此它们不按任何顺序排列当前正在使用用户表单以便我们的用户可以将数据从我们的数据库导入到 Excel 中
条件对列表的 In 子句

有一个表我需要通过在配对值列表中应用和条件来获取分页记录下面是解释假设我有一堂课Billoflading其中有各个领域表中两个重要字段是 tenant billtype 我有一个包含值的对列表 tenant1 billtype1 t
使用 Linq 进行异步Where过滤

我有一个List通过填充的元素async调用 WebService 没问题我需要过滤该列表以便在应用程序视图上显示某些内容我试过这个 List
标准 C 中的 sizeof 与 sizeof()？ [复制]

这个问题在这里已经有答案了我看到一些直接使用 sizeof 的代码想知道它是否是标准 C 令我惊讶的是它运行得很好这是一个例子 include
使用 AutoMapper 进行 LINQ GroupBy 聚合

试图让查询工作但老实说不确定如何或者是否可能进行它因为我尝试过的一切都不起作用共查询6个表 Person PersonVote PersonCategory Category City FirstAdminDivision Per
Python UPnP/IGD 客户端实现？

我正在寻找一个开源实现UPnP http elinux org UPnPPython 中的客户端更具体地说是它的互联网网关设备 http en wikipedia org wiki Internet Gateway Device Prot
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio

在 Jupyter 笔记本中使用 PySpark 读取 XML

在 Jupyter 笔记本中使用 PySpark 读取 XML 的相关文章

随机推荐

热门标签