如何在 PySpark 中读取 Avro 文件

2023-12-31

我正在使用 python 编写 Spark 作业。但是，我需要读取一大堆 avro 文件。

This https://github.com/apache/spark/blob/master/examples/src/main/python/avro_inputformat.py是我在 Spark 示例文件夹中找到的最接近的解决方案。但是，您需要使用spark-submit 提交此python 脚本。在spark-submit的命令行中，您可以指定驱动程序类，在这种情况下，您所有的avrokey，avrovalue类将被定位。

avro_rdd = sc.newAPIHadoopFile(
        path,
        "org.apache.avro.mapreduce.AvroKeyInputFormat",
        "org.apache.avro.mapred.AvroKey",
        "org.apache.hadoop.io.NullWritable",
        keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
        conf=conf)

就我而言，我需要运行Python脚本中的所有内容，我尝试创建一个环境变量来包含jar文件，手指交叉Python会将jar添加到路径中，但显然它不是，它给了我意想不到的类错误。

os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"

谁能帮我如何在一个 python 脚本中读取 avro 文件？

火花 >= 2.4.0

您可以使用内置 Avro 支持 https://spark.apache.org/docs/latest/sql-data-sources-avro.html。该 API 向后兼容spark-avro包，添加了一些内容（最值得注意的是from_avro / to_avro功能）。

请注意，该模块未与标准 Spark 二进制文件捆绑在一起，必须使用spark.jars.packages或等效机制。

也可以看看Pyspark 2.4.0，使用读取流从 kafka 读取 avro - Python https://stackoverflow.com/q/54693110/10465355

火花

您可以使用spark-avro https://github.com/databricks/spark-avro图书馆。首先让我们创建一个示例数据集：

import avro.schema
from avro.datafile import DataFileReader, DataFileWriter

schema_string ='''{"namespace": "example.avro",
 "type": "record",
 "name": "KeyValue",
 "fields": [
     {"name": "key", "type": "string"},
     {"name": "value",  "type": ["int", "null"]}
 ]
}'''

schema = avro.schema.parse(schema_string)

with open("kv.avro", "w") as f, DataFileWriter(f, DatumWriter(), schema) as wrt:
    wrt.append({"key": "foo", "value": -1})
    wrt.append({"key": "bar", "value": 1})

阅读它使用spark-csv就这么简单：

df = sqlContext.read.format("com.databricks.spark.avro").load("kv.avro")
df.show()

## +---+-----+
## |key|value|
## +---+-----+
## |foo|   -1|
## |bar|    1|
## +---+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 PySpark 中读取 Avro 文件的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24

随机推荐

如何在处理多个文件时组织 Vim 缓冲区、窗口和选项卡

我一生都在使用 VIM 但最近我有点厌倦了它因为在一个大项目有 500k LOC 和数百个文件中同时处理 20 个左右的文件时我迷失在缓冲区窗口和选项卡中每当我这样做 make grep等等新的缓冲区在当前窗口中跳出标签也会
使用 JobStoreTX 配置 CronTriggerFactoryBean 以实现quartz集群

我们使用的是 Quartz 2 1 5 我们设置了以下属性 org quartz jobStore class org quartz impl jdbcjobstore JobStoreTX org quartz jobStore driv
当（当前）只有一个类实现接口时，您是否应该创建一个接口？

如果有可能有其他东西可以使用它您是否应该始终创建一个接口或者等到实际需要它然后重构以使用接口对接口进行编程通常看起来是合理的建议但 YAGNI 我想也许这要视情况而定现在我有一个代表可以包含食谱或其他文件夹的文件夹的对象我不应该
ARM NEON SIMD 版本 2

Cortex A15 中的 NEON SIMD 和 NEON SIMD 版本 2 有什么区别它添加了 SIMD FMA 指令 VFMA F32 并且还强制要求 NEON 半精度扩展 ARM Cortex A7 ARM Cortex A15
HTTPS nonProxyHosts 的 JVM 参数

所以我有一个相当加载的环境变量 JAVA OPTIONS export JAVA OPTIONS Dhttp proxyHost my proxy com Dhttp proxyPort 1080 Dhttps proxyHost my p
Python Eve：请求的资源上不存在“Access-Control-Allow-Origin”标头

我使用Python EVE框架编写了一个API 当尝试从 AngularJS 应用程序访问 API 时它显示错误如下所示 XMLHttpRequest cannot load http 127 0 0 1 5000 user jay3d
创建未知大小的稀疏矩阵

例如我有一个文本文件其中每一行都指示图形上的一条边 2 5 1 表示节点 2 和 5 之间权重为 1 的边我想使用这些元组创建一个稀疏邻接矩阵通常我会将稀疏矩阵初始化为 G scipy sparse lil matrix n n
const char* 的奇怪 std::cout 行为

我有一个方法返回一个字符串以显示为错误消息根据程序中发生此错误的位置我可能会在显示错误消息之前添加更多解释 string errorMessage return this is an error somewhere in the pro
在 Java 面板中包含命令提示符

我有一个批处理文件可以从 SVN 中检出代码并对其调用几个命令这发生在 Windows 命令提示符上我想从我的 java 程序调用这个批处理文件并且命令提示符必须出现在我的应用程序窗口的控制台中而不是作为单独的窗口这样我就可以从
如何在图像周围添加图像边框？

有没有简单的方法可以在图像周围添加图像边框原因是我想在图像周围创建阴影效果图像作为缩略图加载大小为 110x75 像素我正在考虑创建阴影边框但不知道如何将其添加到图像周围有人知道方法吗最好是PHP 您可以使用 GD 库或 Im
我的应用程序中的 ic_launcher 图标错误

我正在开发一个应用程序Honeycomb并遇到了这个非常奇怪的问题我更改了应用程序图标 ic launcher 在每一个drawable文件夹并确保它在清单中正确但我有一个标准 settings 启动器中的图标在应用程序本身中是正确的
SVG 圆中 dasharray 属性的奇怪行为

我正在尝试创建 SVG 圆的无限动画循环我想创建 12 个相等的块并将它们分开一些间隙为了计算我使用的圆片的价值k系数见下表所以我做了 0 25782 160 我的圆的直径我得到 41 2512 它应该是我的棋子的值之后我创建了
获取正在运行的进程的维度

我正在尝试抓取应用程序中特定 x y 位置的屏幕截图有没有办法在 Process 对象中获取正在运行的应用程序然后获取它的尺寸就像是 Process processlist Process GetProcesses foreach P
验证错误：值无效

我的 p selectOneMenu 有问题无论我做什么我都无法让 JSF 调用 JPA 实体上的 setter JSF 验证失败并显示以下消息形式位置验证错误值无效我在同一类型的其他几个类即连接表类上进行了此工作但我一
无法使用 Espresso 将文本添加到 webview 文本字段

我正在尝试将文本添加到 Esprsso 中的文本字段在 Web 视图内但收到此错误引起原因 java lang RuntimeException 评估错误评估状态 13 值 message 无法设置选择结束 hasMessage 真
Java 中的动态绑定==后期绑定吗？

在不同的来源中我读到了有关该主题的不同内容例如维基百科说后期绑定经常与动态调度混淆但两者之间存在显着差异但几行之后在 Java 编程中流行使用术语后期绑定作为动态分派的同义词具体来说这是指与虚拟方法一起使用的 Java
部分选择排序与合并排序查找“数组中最大的 k”

我想知道我的思路是否正确我正在准备面试作为一名大学生我遇到的问题之一是找到数组中最大的 K 个数字我的第一个想法是只使用部分选择排序例如从第一个元素扫描数组并为看到的最低元素及其索引保留两个变量并与数组末尾的该索引交换并继
如何批量加载从其他来源生成的自定义 Avro 数据？

Cloud Spanner 文档说 Spanner 可以导出导入 Avro 格式此路径是否也可用于批量摄取从其他来源生成的 Avro 数据该文档似乎表明它只能导入同样由 Spanner 生成的 Avro 数据我运行了一个快速导出作业
当 MPMovieControlStyle = MPMovieControlStyleNone 时如何触摸/单击 MPMoviePlayerController 视图

在我的一个应用程序中我不想显示任何视频控制器但我需要接触媒体播放器视图我需要在触摸电影播放器时执行一些其他操作我怎样才能实现它请帮忙提前致谢您可以随时附上UITapGestureRecognizer查看并处理水龙头 UITa
如何在 PySpark 中读取 Avro 文件

我正在使用 python 编写 Spark 作业但是我需要读取一大堆 avro 文件 This https github com apache spark blob master examples src main python avr

如何在 PySpark 中读取 Avro 文件

如何在 PySpark 中读取 Avro 文件 的相关文章

随机推荐

热门标签

如何在 PySpark 中读取 Avro 文件的相关文章