如何生成 pandas 数据框行以触发数据框

2024-01-11

嗨，我正在转型，我已经创建了some_function(iter)发电机至yield Row(id=index, api=row['api'], A=row['A'], B=row['B']生成从 pandas 数据帧到 rdd 和 Spark 数据帧的转换行。我收到错误。（我必须使用 pandas 来转换数据，因为有大量遗留代码）

输入 Spark 数据帧

respond_sdf.show()
    +-------------------------------------------------------------------+
    |content                                                            |
    +-------------------------------------------------------------------+
    |{'api': ['api_1', 'api_1', 'api_1'],'A': [1,2,3], 'B': [4,5,6] }   |
    |{'api': ['api_2', 'api_2', 'api_2'],'A': [7,8,9], 'B': [10,11,12] }|
    +-------------------------------------------------------------------+

转换后的预期 Spark Dataframe

transform_df.show()
    +-------------------+
    |  api   |  A  |  B |
    +-------------------+
    | api_1  |  1  |  4 |
    | api_1  |  3  |  5 |
    | api_1  |  4  |  6 |
    | api_2  |  7  | 10 |
    | api_2  |  8  | 11 |
    | api_2  |  9  | 12 |
    +-------------------+

最小示例代码

#### IMPORT PYSPARK ###

import pandas as pd
import pyspark
from pyspark.sql import Row
from pyspark.sql.types import StructType, StructField, IntegerType,StringType
spark = pyspark.sql.SparkSession.builder.appName("test") \
    .master('local[*]') \
    .getOrCreate()
sc = spark.sparkContext


####### INPUT DATAFRAME WITH LIST OF JSONS ########################

rdd_list = [["{'api': ['api_1', 'api_1', 'api_1'],'A': [1,2,3], 'B': [4,5,6] }"],
            ["{'api': ['api_2', 'api_2', 'api_2'],'A': [7,8,9], 'B': [10,11,12] }"]]

schema = StructType([StructField('content', StringType(), True)])

jsons = sc.parallelize(rdd_list)
respond_sdf = spark.createDataFrame(jsons, schema)
respond_sdf.show(truncate=False)


####### TRANSFORMATION DATAFRAME ########################

# Pandas transformation function returning pandas dataframe
def pandas_function(url_json):
    # Complex Pandas transformation
    url = url_json[0]
    json = url_json[1]
    df = pd.DataFrame(eval(json))
    return df

# Generator returing Row from pandas dataframe
def some_function(iter):
  # Pandas generator
  pandas_df = pandas_function(iter)
  for index, row in pandas_df.iterrows():
      ## ERROR COMES FROM THIS ROW
      yield Row(id=index, api=row['api'], A=row['A'], B=row['B'])

# Creating transformation spark dataframe
schema = StructType([
  StructField('API', StringType(), True),
  StructField('A', IntegerType(), True),
  StructField('B', IntegerType(), True)
  ])


rdd = respond_sdf.rdd.map(lambda x: some_function(x))
transform_df = spark.createDataFrame(rdd,schema)
transform_df.show()

我收到以下错误：

raise TypeError(new_msg("StructType can not accept object %r in type %s"
TypeError: StructType can not accept object <generator object some_function at 0x7f69b43def90> in type <class 'generator'>

完整错误：

Py4JJavaError: An error occurred while calling o462.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 37.0 failed 1 times, most recent failure: Lost task 2.0 in stage 37.0 (TID 97, dpc, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/worker.py", line 605, in main
    process()
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/worker.py", line 597, in process
    serializer.dump_stream(out_iter, outfile)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 271, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/util.py", line 107, in wrapper
    return f(*args, **kwargs)
  File "/usr/lib/spark/python/pyspark/sql/session.py", line 612, in prepare
    verify_func(obj)
  File "/usr/lib/spark/python/pyspark/sql/types.py", line 1408, in verify
    verify_value(obj)
  File "/usr/lib/spark/python/pyspark/sql/types.py", line 1395, in verify_struct
    raise TypeError(new_msg("StructType can not accept object %r in type %s"
TypeError: StructType can not accept object <generator object some_function at 0x7f69b43def90> in type <class 'generator'>

我遵循以下链接的建议：pySpark将mapPartitions的结果转换为spark DataFrame https://stackoverflow.com/questions/59262543/pyspark-convert-result-of-mappartitions-to-spark-dataframe

EDIT:Spark 3.0中还有一个mapInPandas函数应该更有效，因为不需要分组。

import pyspark.sql.functions as F

def pandas_function(iterator):
    for df in iterator:
        yield pd.concat(pd.DataFrame(x) for x in df['content'].map(eval))

transformed_df = respond_sdf.mapInPandas(pandas_function, "api string, A int, B int")
transformed_df.show()

另一种方式：使用pandas_udf and apply:

import pyspark.sql.functions as F

@F.pandas_udf("api string, A int, B int", F.PandasUDFType.GROUPED_MAP)
def pandas_function(url_json):
    df = pd.DataFrame(eval(url_json['content'][0]))
    return df

transformed_df = respond_sdf.groupBy(F.monotonically_increasing_id()).apply(pandas_function)
transformed_df.show()

+-----+---+---+
|  api|  A|  B|
+-----+---+---+
|api_2|  7| 10|
|api_2|  8| 11|
|api_2|  9| 12|
|api_1|  1|  4|
|api_1|  2|  5|
|api_1|  3|  6|
+-----+---+---+

旧答案（不太可扩展......）:

def pandas_function(url_json):
    df = pd.DataFrame(eval(url_json))
    return df

transformed_df = spark.createDataFrame(pd.concat(respond_sdf.rdd.map(lambda r: pandas_function(r[0])).collect()))
transformed_df.show()
+-----+---+---+
|  api|  A|  B|
+-----+---+---+
|api_1|  1|  4|
|api_1|  2|  5|
|api_1|  3|  6|
|api_2|  7| 10|
|api_2|  8| 11|
|api_2|  9| 12|
+-----+---+---+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

apachespark

PySpark

apachesparksql

userdefinedfunctions

如何生成 pandas 数据框行以触发数据框的相关文章

pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
将多个 csv 文件连接成具有相同标头的单个 csv

我目前正在使用以下代码导入 6 000 个 csv 文件带标题并将它们导出到单个 csv 文件带单个标题行 import csv files from folder path r data US market merged data
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

我正在尝试抓取该网站上的网络数据而我能够访问数据的唯一方法是迭代表的行将它们添加到列表中然后将它们添加到 pandas 数据框写入csv 然后单击下一页并重复该过程每次搜索大约 50 页我的程序执行 100 多个搜索它非常慢
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
在绘图中的线间隙之间添加注释

I have a graph like this 而不是在上面的日子symbol 我想知道是否有办法可以在行之间添加此注释从一个点到另一个点如果以防万一这可能是重复的我深表歉意 This is my expected output
为每列指定不同的 float_format（科学记数法与小数精度）

我有多个列有些我想要科学记数法其他的则需要特定级别的小数精度 Frequency n 0 0 0023 2 3 1 0 0420 4 5 2 0 5460 6 7 3 0 1230 8 9 频率可以有很小的数量级所以我最终得到了十亿个
AttributeError：模块“pandas.io.sql”没有属性“frame_query”

我正在尝试使用以下代码将 postgresql 表读入 python 数据框架 import psycopg2 as pg import pandas io sql as psql connection pg connect dbname
熊猫按 n 最大总和分组

我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
访问 pandas.Series.apply 中的索引

假设我有一个 MultiIndex 系列s gt gt gt s values a b 1 2 0 1 3 6 0 3 4 4 0 7 我想应用一个使用行索引的函数 def f x conditions or computations us
在html表格的每一行添加点击功能

我最近创建了一个函数它根据用户在网站中的输入进行一些复杂的名称匹配并将结果作为表格格式的 html 文件返回我的问题是如何在每一行添加点击功能 df get cust info returns a pandas dataframe d
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

从更新函数触发操作

有一个希望很简单的问题当我在更新函数中收到操作 A 时我想返回一个执行某些操作的任务然后生成操作 B 更新函数再次接收该操作 B 据我了解从 Update 返回的任何效果都将由 startapp 执行但似乎什么也没有发生这是一个
你能在 TypeScript 中创建嵌套类吗？

有没有办法在 TypeScript 中嵌套类例如我想像这样使用它们 var foo new Foo var bar new Foo Bar 在现代 TypeScript 中我们有类表达式您可以使用它来创建嵌套类例如您可以执行以下
django sekizai {% addtoblock %} 标签无法正常工作

我正在尝试实现 django sekizai 应用程序它正在复制我添加的 js 文件基本模板 load sekizai tags render block my js 使用此基础的模板 load sekizai tags div add
如何获取 AngularJS 中可用模块的列表？

在定义 Angular 模块时我定义了我的依赖项如下所示 var myModule angular module MyModuleName Dep1 Dep2 Dep3 每个依赖项都有自己的依赖项指令控制器等有没有办法询问 Ang
如何在网格中显示菜单 - ExtJS 5？

我正在尝试在网格面板中显示菜单我有一个操作列来显示一个图标我想应用一个效果当鼠标悬停在该图标上时将显示一个菜单我如何在 extjs 5 中做到这一点我的行动栏是这样的 xtype actioncolumn width 70 it
Chronos 不运行作业

我已经为每个服务使用 Docker 映像设置了 Mesos 集群包括 Marathon 和 Chronos 我使用的 Docker 镜像如下动物园管理员 jplock zookeeper 3 4 5 https registry hub
将所有文件和文件夹从一个目录复制到另一个目录 PHP

我有一个名为 mysourcedir 的目录它包含一些文件和文件夹所以我想使用 PHP 将此目录中的所有内容复制到 Linux 服务器上的其他目标文件夹 function full copy source target if is d
SQL Server年份

将 FINANCIALYEAR 声明为 varchar 30 将 FINALFINANCIALYEAR 声明为 int SELECT FINANCIALYEAR CONVERT VARCHAR YEAR GETDATE 2 CONVERT
使用 MySqlDataAdapter 更新不起作用

我正在尝试使用 MySqlDatAdapter 来更新 MySql 表但是该表永远不会更新我以前这样做过但使用的是 SQL Server 我的代码中还缺少其他特定于 MySql 的内容吗 DataTable myTable new
OpenMP“master”编译指示不得包含在“parallel for”编译指示内

为什么英特尔编译器不允许我指定 openmp 中的某些操作parallel for块应该仅由主线程执行吗如果没有这种功能我该如何实现我想要实现的目标我想做的是通过并行回调更新进度条 long num items computed 0
如何在 emacs-ess 中从 R 内部访问 bash 环境变量

在我的 bashrc 中我有以下行 export SETTINGS home user settings xml 如果我在 bash 中加载 R 我可以使用Sys getenv功能 Sys getenv SETTINGS home use
sqlplus：加载共享库时出错：libsqlplus.so：无法打开共享对象文件：没有这样的文件或目录

请提出解决此问题的解决方案下达命令时 sqlplus nolog 发生的错误 sqlplus error while loading shared libraries libsqlplus so cannot open shared ob
如何使用Luigi持续更新目标文件？

我最近开始玩Luigi 我想了解如何使用它不断地将新数据附加到现有的目标文件中想象一下我每分钟都会 ping 一个 api 来检索新数据因为一个Task仅在以下情况下运行Target尚不存在一个简单的方法是通过当前参数来参数化输出文
如何在 Google Maps API 中的完全相同的坐标处渲染多个标记？

我在同一条街上有多个地址门牌号相同但公寓号不同 Google 地图地理编码服务 v2 对于许多地址来说并没有达到公寓级别的精度只是返回了与它们完全相同的地理编码坐标所以问题是当我去显示它们时无论放大多少都只显示一个图钉我的问
将 ActionScript 日期从 UTC 转换为本地时间（以纪元为单位）

这是我的后续行动上一个问题 https stackoverflow com questions 11632421 creating actionscript date object from mysql utc timestamp stri
在python中将ctypes结构转换为bytearray

有没有办法转换 Ctypes 结构包括指向字节数组的指针 class SRamAccess ctypes Structure fields channel ctypes c uint offset ctypes c uint len ct
CompletableFuture 循环中：如何收集所有响应并处理错误

我正在尝试调用rest apiPUT循环请求每个调用都是一个CompletableFuture 每个 api 调用都会返回一个类型的对象RoomTypes RoomType 我想收集响应成功和错误响应在不同的列表中我该如何实现这一
在 Linux debian 中找不到捆绑命令

当我进入bundle install我收到错误 bash bundle 找不到命令如何查看是否安装了bundler gem 环境返回以下内容 RubyGems Environment RUBYGEMS VERSION 1 2 0 RUBY
在 TextField Flutter 中垂直居中对齐文本

我尝试查找大量资源但不幸的是我找不到一种方法来将文本在文本字段中垂直居中对齐我也尝试使用 suffixIcon 而不是 suffix 但仍然不走运这是我的代码 import package flutter material dart
如何生成 pandas 数据框行以触发数据框

嗨我正在转型我已经创建了some function iter 发电机至yield Row id index api row api A row A B row B 生成从 pandas 数据帧到 rdd 和 Spark 数据帧的转换行

如何生成 pandas 数据框行以触发数据框

如何生成 pandas 数据框行以触发数据框 的相关文章

随机推荐

热门标签

如何生成 pandas 数据框行以触发数据框的相关文章