Pyspark dataframe：如何按组应用 scipy.optimize 函数

2024-05-26

我有一段运行良好的代码，但使用 pandas 数据帧 groupby 处理。但是，由于文件很大（> 7000 万组），我需要转换代码以使用 PYSPARK 数据框架。这是使用 pandas dataframe 和小示例数据的原始代码：

import pandas as pd
import numpy as np
from scipy.optimize import minimize

df = pd.DataFrame({
'y0': np.random.randn(20),
'y1': np.random.randn(20),
'x0': np.random.randn(20), 
'x1': np.random.randn(20),
'grpVar': ['a', 'b'] * 10})

# Starting values
startVal = np.ones(2)*(1/2)

#Constraint  Sum of coefficients = 0
cons = ({'type':'eq', 'fun': lambda x: 1 - sum(x)})

# Bounds on coefficients
bnds = tuple([0,1] for x in startVal)

# Define a function to calculate sum of squared differences
def SumSqDif(a, df):
    return np.sum((df['y0'] - a[0]*df['x0'])**2 + (df['y1'] - a[1]*df['x1'])  **2)

# Define a function to call minimize function 
def RunMinimize(data, startVal, bnds, cons):
    ResultByGrp = minimize(SumSqDif, startVal, method='SLSQP',
    bounds=bnds, constraints = cons, args=(data))
return ResultByGrp.x

# Do the calculation by applyng the function by group:
# Create GroupBy object
grp_grpVar = df.groupby('grpVar')

Results = grp_grpVar.apply(RunMinimize, startVal=startVal, bnds=bnds, cons=cons))

现在我尝试使用 pySpark dataframe 为了测试代码，我将 pandas 数据帧转换为 pyspark 数据帧。

sdf = sqlContext.createDataFrame(df)
type(sdf)
#  <class 'pyspark.sql.dataframe.DataFrame'>

# Create GroupBy object
Sgrp_grpVar = sdf.groupby('grpVar')

# Redefine functions
def sSumSqDif(a, sdf):
    return np.sum((sdf['y0'] - a[0]*sdf['x0'])**2 + (sdf['y1'] - a[1]*sdf['x1'])**2)

def sRunMinimize(data=sdf, startVal=startVal, bnds=bnds, cons=cons):
    ResultByGrp = minimize(sSumSqDif, startVal, method='SLSQP',
                       bounds=bnds, constraints = cons, args=(data))
return ResultByGrp.x

from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType
from pyspark.sql.types import StringType

udf = UserDefinedFunction(sRunMinimize , StringType())

Results = Sgrp_grpVar.agg(sRunMinimize())

但是，在我尝试定义用户定义函数 udf 后，出现以下错误 - 见下文。非常感谢任何帮助纠正我的错误或建议替代方法的帮助。

udf = UserDefinedFunction(sRunMinimize , StringType()) 回溯（最近一次调用最后一次）：文件“”，第 1 行，位于文件“/usr/hdp/current/spark2-client/python/pyspark/sql/functions.py”，第 1760 行，位于initself._judf = self._create_judf(名称).......

您正在尝试编写一个用户定义的聚合函数，这在 pyspark 中无法完成，请参阅https://stackoverflow.com/a/40030740 https://stackoverflow.com/a/40030740.

你可以写的是UDF以列表形式收集的每组内的数据：

首先进行设置：

import pandas as pd 
import numpy as np 
from scipy.optimize import minimize
import pyspark.sql.functions as psf
from pyspark.sql.types import *

df = pd.DataFrame({
    'y0': np.random.randn(20),
    'y1': np.random.randn(20),
    'x0': np.random.randn(20), 
    'x1': np.random.randn(20),
    'grpVar': ['a', 'b'] * 10})
sdf = sqlContext.createDataFrame(df)

# Starting values
startVal = np.ones(2)*(1/2)
#Constraint  Sum of coefficients = 0
cons = ({'type':'eq', 'fun': lambda x: 1 - sum(x)})
# Bounds on coefficients
bnds = tuple([0,1] for x in startVal)

我们将广播这些变量，因为我们需要在聚合数据帧的每一行上调用它们，它将把值复制到每个节点，这样它们就不必在驱动程序上获取它们：

sc.broadcast(startVal)
sc.broadcast(bnds)

让我们使用以下方法聚合数据collect_list，我们将更改周围数据的结构，以便我们只有一列（您可以将每一列收集到不同的列中，但随后您必须修改将数据传递给函数的方式）：

Sgrp_grpVar = sdf\
    .groupby('grpVar')\
    .agg(psf.collect_list(psf.struct("y0", "y1", "x0", "x1")).alias("data"))
Sgrp_grpVar.printSchema()

    root
     |-- grpVar: string (nullable = true)
     |-- data: array (nullable = true)
     |    |-- element: struct (containsNull = true)
     |    |    |-- y0: double (nullable = true)
     |    |    |-- y1: double (nullable = true)
     |    |    |-- x0: double (nullable = true)
     |    |    |-- x1: double (nullable = true)

我们现在可以创建我们的UDF，返回的数据类型对于pyspark来说太复杂，numpy arrayspyspark 不支持，所以我们需要稍微改变一下：

def sSumSqDif(a, data):
    return np.sum(
        (data['y0'] - a[0]*data['x0'])**2 \
        + (data['y1'] - a[1]*data['x1'])**2)

def sRunMinimize(data, startVal=startVal, bnds=bnds, cons=cons):
    data = pd.DataFrame({k:v for k,v in zip(["y0", "y1", "x0", "x1"], data)})
    ResultByGrp = minimize(sSumSqDif, startVal, method='SLSQP',
                       bounds=bnds, constraints = cons, args=(data))
    return ResultByGrp.x.tolist()

sRunMinimize_udf = lambda startVal, bnds, cons: psf.udf(
    lambda data: sRunMinimize(data, startVal, bnds, cons), 
    ArrayType(DoubleType())
)

我们现在可以将此函数应用于每组中收集的数据：

Results = Sgrp_grpVar.select(
    "grpVar", 
    sRunMinimize_udf(startVal, bnds, cons)("data").alias("res")
)
Results.show(truncate=False)

    +------+-----------------------------------------+
    |grpVar|res                                      |
    +------+-----------------------------------------+
    |b     |[0.4073139282953772, 0.5926860717046227] |
    |a     |[0.8275186444565927, 0.17248135554340727]|
    +------+-----------------------------------------+

但我不认为 pyspark 是合适的工具。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark dataframe：如何按组应用 scipy.optimize 函数的相关文章

如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
除下一行的值并在数据框中创建列

我有一个像这样的csv id value 1 100 1 150 1 200 1 250 2 300 2 350 2 400 2 450 我想根据每个唯一 ID 的值生成一列例如 id 1 的前 2 行值为 100 150 我正在尝试创建
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
如果满足 NaN 阈值，Python 将删除 DF 中的所有特征实例

Using df dropna thresh x inplace True 我可以成功删除至少缺少的行x非纳米值但因为我的 df 看起来像 2001 2002 2003 2004 bob A 123 31 4 12 bob B 41 1
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
使用 MS Access 获取行的第一个实例

EDITED 我有这个查询我想SELECT表中记录的第一个实例petTable SELECT id pet ID FIRST petName First Description FROM petTable GROUP BY pet ID
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何将数组列表转换为 Spark 数据帧

假设我有一个列表 x 1 10 2 14 3 17 我想转换x具有两列的 Spark 数据框id 1 2 3 和value 10 14 17 我怎么能这么做呢 Thanks x 1 10 2 14 3 17 df sc paralleliz
无法在 virtualenv 中加载 pyspark

我已经在 python virtualenv 中安装了 pyspark 我还安装了新发布的jupyterlabhttp jupyterlab readthedocs io en stable getting started installa
在 Pandas 中将行拆分为多列

所以我有这个数据框 df pd DataFrame Function 1 internal prop 1 external prop 1 Function 2 internal prop 2 external prop 2 Function
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m

随机推荐

向 ASP.NET WebApi 2.2 添加身份验证

我创建了一个 WebApi 2 2 项目来自一个空的新 ASP NET 项目来证明一些实现概念现在我想向其中添加身份验证我注意到在新的 WebApi 应用程序上添加身份验证的唯一方法是使用模板之一在我的例子中是 VS 2013 是
如何在Java中从控制台读取时设置默认输入？

如何将任何单词文本添加到输入流我想读取控制台输入并预填充该行以便用户不必从头开始输入单词 String ANY WORD TEXT System out print Enter some magic here String valu
ValueError：以 10 为基数的 int() 的文字无效：

当我尝试将一些数据插入 django 模型时我收到此值错误我的Python脚本是 from task employeeDetails models import EmployeeDetails def dumpdata userName
Netbeans 和 Maven：不同的编译行为

我正在使用 Netbeans 和 Maven 项目在某些情况下 Netbeans 显示编译失败红色气球但 Maven 编译所有内容都没有任何问题造成这种差异的原因可能是什么我已经检查过两者都使用相同的 JDK 版本一个可能的原因
Node/Express 4.0 中可以声明全局变量吗

我有多个需要访问数据库的路线对于开发我使用本地数据库显然生产我使用托管数据库唯一的问题是每次我去推送版本时我都必须手动更改数据库链接 e g var mongodb require mongojs connect urlhere Co
从车把调用 Javascript 函数

如何从车把脚本内部调用 JavaScript 函数原因我没能打破 each 从车把内部所以我需要将它传递给 JavaScript 来执行逻辑你可以在助手的帮助下做到这一点 Handlebars registerHelper prin
在产品页面上显示最近浏览过的产品

magento 当前的默认功能是在类别页面的右侧显示最近查看的产品现在我想在产品页面底部显示相同的内容使用的 phtml 文件在位置命名为 frontend base default template reports product v
禁用 com.android.systemui 是否安全？

我发现 Android 最近的应用程序对话框可以通过禁用来禁用包裹com android systemui 我想在信息亭模式下运行我的已取得 root 权限的设备因此长按时不要显示最近的应用程序对话框至关重要现在到底是什么com
聪明的。 C# 中的硬盘数据

只是试图从我的应用程序将运行的任何计算机上连接的硬盘驱动器中获取一些智能信息我将 WMI 用于程序中的许多其他内容并且我查看过的有关 SMART 的每个问题都引用了 Win32 DiskDrive 然而这里的数据确实非常少而且可能不
PHP中如何检查输入类型按钮是否被按下？

isset 函数可用于检查输入类型submit被按下但是有没有办法检查输入类型按钮是否被按下在我的代码中按钮什么也不做只是在 Onclick 事件上调用一个函数然后刷新页面并在 PHP 中创建数据库条目并且我希望它仅在按下按钮后
Mvc ViewBag - 无法将 null 转换为“bool”，因为它是不可为 null 的值类型

我想在生成某个视图时在控制器中将 bool 设置为 true 然后相应地更改视图的标题这应该非常简单但我得到的是无法对空引用执行运行时绑定异常详细信息 Microsoft CSharp RuntimeBinder RuntimeBin
如何在 Vim 中创建行号和文本之间的边框

我希望在行号右侧和文本左侧有一条细边框线您可以使用不同的颜色来突出显示LineNr 例如 hi LineNr cterm bold ctermbg gray ctermfg black gui bold guibg gray guifg
安卓。 2D游戏开发[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想开始为 Android 开发一款 2D 游戏但我完全不知道从哪里开始例如愤怒的小鸟游戏是如何开发的我猜这是一个 2D 引
Highcharts 问题 - 在可缩放图表中显示标签

我有一个缩放柱形图 xAxis 中有 200 多个类别因此当它处于初始状态比例1 1 时所有这些家伙都显示在X轴下方即使我将它们垂直放置也无法读取任何内容我需要缩放图表以使标签可见 Here s screenshot of t
Python SQLAlchemy 用户身份验证失败

我尝试使用 SQLAlchemy 连接 PostgreSQL 数据库我创建了一个像这样的新角色首先我使用以下命令登录到 postgres 帐户 sudo i u postgres 接下来发出命令 createuser interac
Cordova 构建 - 无法解析 com.android.tools.build:gradle:1.5.0

升级我的机器 Ubuntu 15 10 的 cordova 和 npm 后我无法使用 cordova 构建新项目构建指责 graddle 中存在错误我做了一些研究并找到了一些可能的解决方案解决方案例如更改版本和 url graddl
checked="checked" 在 Chrome 中不起作用
我的石墨中的 Logstash 指标在哪里？

这可能是一个菜鸟问题但我很难找到答案所以我希望你们能在这里帮助我我有一个running logstash实例将日志从一台服务器传送到另一台运行 Graphite 的服务器这是我的输出配置 output stdout codec gt
如何使用 Google App Engine 和 Python 创建 REST 服务？

我想创建一个 RESTFUL Web 服务通过访问的 URL 获取请求然后为该客户端返回适当的文档例如如果它是一个天气应用程序我想通过网络浏览器获取亚特兰大的天气我会访问http weatherapp appspot com T
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp

Pyspark dataframe：如何按组应用 scipy.optimize 函数

Pyspark dataframe：如何按组应用 scipy.optimize 函数 的相关文章

随机推荐

热门标签

Pyspark dataframe：如何按组应用 scipy.optimize 函数的相关文章