Spark 中的 StandardScaler 未按预期工作

2024-05-16

知道为什么 Spark 会这样做吗StandardScaler？根据定义StandardScaler:

StandardScaler 将一组特征标准化为均值为零标准差为 1。 withStd 标志将数据缩放为单位标准差，而标志 withMean （默认为 false）在缩放之前将数据居中。

>>> tmpdf.show(4)
+----+----+----+------------+
|int1|int2|int3|temp_feature|
+----+----+----+------------+
|   1|   2|   3|       [2.0]|
|   7|   8|   9|       [8.0]|
|   4|   5|   6|       [5.0]|
+----+----+----+------------+

>>> sScaler = StandardScaler(withMean=True, withStd=True).setInputCol("temp_feature")
>>> sScaler.fit(tmpdf).transform(tmpdf).show()
+----+----+----+------------+-------------------------------------------+
|int1|int2|int3|temp_feature|StandardScaler_4fe08ca180ab163e4120__output|
+----+----+----+------------+-------------------------------------------+
|   1|   2|   3|       [2.0]|                                     [-1.0]|
|   7|   8|   9|       [8.0]|                                      [1.0]|
|   4|   5|   6|       [5.0]|                                      [0.0]|
+----+----+----+------------+-------------------------------------------+

在 numpy 世界中

>>> x
array([2., 8., 5.])
>>> (x - x.mean())/x.std()
array([-1.22474487,  1.22474487,  0.        ])

在sklearn世界里

>>> scaler = StandardScaler(with_mean=True, with_std=True)
>>> data
[[2.0], [8.0], [5.0]]
>>> print(scaler.fit(data).transform(data))
[[-1.22474487]
 [ 1.22474487]
 [ 0.        ]]

您的结果不符合预期的原因是pyspark.ml.feature.StandardScaler https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.feature.StandardScaler使用无偏样本标准差而不是总体标准差。

来自文档：

“单位标准差”是使用以下公式计算的修正样本标准差 https://en.wikipedia.org/wiki/Standard_deviation#Corrected_sample_standard_deviation，计算为无偏样本方差的平方根。

如果你想尝试你的numpy使用样本标准差编写代码，您会看到相同的结果：

import numpy as np

x = np.array([2., 8., 5.])
print((x - x.mean())/x.std(ddof=1))
#array([-1.,  1.,  0.])

从建模的角度来看，这几乎肯定不是问题（除非您的数据是整个群体，但事实并非如此）。另请记住，对于大样本量，样本标准差接近总体标准差。因此，如果您的 DataFrame 中有很多行，则此处的差异可以忽略不计。

但是，如果您坚持让缩放器使用总体标准差，一种“hacky”方法是向 DataFrame 添加一行，该行是列的平均值。

回想一下，标准差定义为均值差平方和的平方根。或者作为一个函数：

# using the same x as above
def popstd(x): 
    return np.sqrt(sum((xi - x.mean())**2/len(x) for xi in x))

print(popstd(x))
#2.4494897427831779

print(x.std())
#2.4494897427831779

使用无偏标准差时的区别只是除以len(x)-1代替len(x)。因此，如果您添加等于平均值的样本，则可以增加分母，而不会影响总体平均值。

假设您有以下 DataFrame：

df = spark.createDataFrame(
    np.array(range(1,10,1)).reshape(3,3).tolist(),
    ["int1", "int2", "int3"]
)
df.show()
#+----+----+----+
#|int1|int2|int3|
#+----+----+----+
#|   1|   2|   3|
#|   4|   5|   6|
#|   7|   8|   9|
#+----+----+----+

将此 DataFrame 与每列的平均值合并：

import pyspark.sql.functions as f
# This is equivalent to UNION ALL in SQL
df2 = df.union(df.select(*[f.avg(c).alias(c) for c in df.columns]))

现在衡量你的价值观：

from pyspark.ml.feature import VectorAssembler, StandardScaler
va = VectorAssembler(inputCols=["int2"], outputCol="temp_feature")

tmpdf = va.transform(df2)
sScaler = StandardScaler(
    withMean=True, withStd=True, inputCol="temp_feature", outputCol="scaled"
)
sScaler.fit(tmpdf).transform(tmpdf).show()
#+----+----+----+------------+---------------------+
#|int1|int2|int3|temp_feature|scaled               |
#+----+----+----+------------+---------------------+
#|1.0 |2.0 |3.0 |[2.0]       |[-1.2247448713915892]|
#|4.0 |5.0 |6.0 |[5.0]       |[0.0]                |
#|7.0 |8.0 |9.0 |[8.0]       |[1.2247448713915892] |
#|4.0 |5.0 |6.0 |[5.0]       |[0.0]                |
#+----+----+----+------------+---------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 中的 StandardScaler 未按预期工作的相关文章

如何在spark中将矩阵转换为RDD[Vector]

如何转换自org apache spark mllib linalg Matrix to RDD org apache spark mllib linalg Vector 在火花该矩阵是由 SVD 生成的我正在使用 SVD 的结果进行聚
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

以编程方式更改 DataGridView 行上的只读模式

在不解释整个上下文的情况下我的问题基本上是这样的我在 Windows 窗体上有一个 datagridview 它绑定到实体框架 DbSet dbSet
匹配括号内任何字符的正则表达式

尝试创建一个与括号内的任何字符匹配的正则表达式我的正则表达式模式是这样的 preg match listanswer answer 括号内的所有字符串都是匹配模式但问题是当我尝试匹配例如 this word sample data 它
外部 css 文件在 Flask 框架中不起作用

我正在尝试在我的 html 文件中使用外部 css 文件起初我使用 bootstrap 框架效果很好然而当我尝试通过添加自定义的css文件来自定义网页时它根本不起作用这是我的代码
使用 bouncycastle 库为 Tomcat7 上运行的 JDK1.6 启用 TLSv1.2 时出现问题

我正在尝试从运行 jdk1 6 在 aws ec2 上的 apache tomcat7 服务器向我的 vpc 内的 aws api 网关专用端点进行 api 调用此类专用端点仅允许 TLSv1 2 我使用的是jdk1 6 45 不支持T
Flutter Google 登录 - 电子邮件信息未发送至 Firebase（返回空白）

当我在 Flutter 上制作的应用程序中使用 google 登录时电子邮件以空值返回到 firebase 我在运行时或登录时没有收到任何错误我对 pubspec yaml 文件上的 google sign in 版本进行了更改但结果
c中的整数大小取决于什么？

整数的大小取决于什么 C 中 int 变量的大小取决于机器或编译器吗它依赖于实现 C标准仅要求 char至少有 8 位 short至少有 16 位 int至少有 16 位 long至少有 32 位 long long至少有 64 位 19
一个类应该验证自身还是创建另一个类来验证它？

假设我有一堂课 class NavigationData float roll float pitch double latitude double longitude 如果我想创建一个方法 const bool validate cons
ansible 重新启动 2.1.1.0 失败

我一直在尝试创建一个非常简单的 Ansible 剧本它将重新启动服务器并等待它回来我过去在 Ansible 1 9 上有一个可以运行的但我最近升级到 2 1 1 0 并且失败了我正在重新启动的主机名为 idm IP 为 192 16
SceneKit unproject Z 文档解释？

我正在经历一些 SceneKit 概念而我试图在脑海中巩固的一个概念是 unprojectPoint 我知道该函数将获取 2D 中的一个点并返回 3D 中的一个点因此具有正确的 Z 值当我阅读文档时我读到了以下内容 method u
如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
来自另一个类的 Typescript 函数

我对打字稿还很陌生但现在我遇到了问题我在每个类中都用 Typescript 编写了一个函数 function someFunction 现在我想从另一个 TS 文件调用该函数我将其声明如下 declare function someF
在 Python 中打印守护线程异常

Python 不会打印守护线程中引发的异常的回溯消息例如以下代码创建一个守护线程并在新线程中引发异常 def error raiser raise Exception import threading thread threading
禁用 Bintray 上传的 javadoc 检查

我正在尝试将我的库的新版本上传到 Bintray 但是出现错误我所做的更改之一是向我的 Javadoc 添加自定义属性例如 The method does something param myParameter This is my p
材质滑块和范围滑块工具提示并不总是可见

我希望保持工具提示值始终可见并且工具提示的文本应该背景透明我试过https github com material components material components android blob master docs comp
如何在 Azure 逻辑应用中解析 Excel 电子表格

我需要使用 Azure 逻辑应用从 Excel 电子表格中解析和提取列信息我已经为我的逻辑应用程序设置了从 Outlook 检索最新未读电子邮件的功能此外我的逻辑应用程序执行 FOR EACH 来读取所有附件来自未读电子邮件并确保
如何使用 Python Selenium 选择具有相同类名但不同条件的第一个 div

Python Selenium 新手我想选择第三个 div class inner TPBYkbxL 从以下3 div 具有相同类名的类我不确定是什么意思 lt data is fake main panel true or false
有没有基于 WPF 的 Markdown 渲染器？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我们有基于 WPF 的应用程序我们有单独的字符串存储库其中的文本在网络中进行编辑在我们的 WPF
在RecyclerView中获取随机数据android firebase数据库

Firebase 数据库在 child AdUsersINFO 中我有一个用户的孩子 userid 在这个孩子中我们有一个 posts 我的目标是获得随机帖子并将数据显示在RecyclerView 目前我有这个代码onCreateVi
如何根据同一个表中的先前数据更新 SQL 表

我有一张衡量学生表现的表格student在我的数据库中如下 ID TestDate PerformanceStatus PS 1 15 03 2016 0 1 01 04 2016 2 1 05 05 2016 1 1 07 06 2016
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe

Spark 中的 StandardScaler 未按预期工作

Spark 中的 StandardScaler 未按预期工作 的相关文章

随机推荐

热门标签

Spark 中的 StandardScaler 未按预期工作的相关文章