R.scale() 和 sklearn.preprocessing.scale() 之间的区别

2024-05-12

我目前正在将数据分析从 R 转移到 Python。当在 R 中缩放数据集时，我将使用 R.scale()，根据我的理解，它将执行以下操作：(x-mean(x))/sd(x)

为了替换该函数，我尝试使用 sklearn.preprocessing.scale()。根据我对描述的理解，它做了同样的事情。尽管如此，我运行了一些测试文件，发现这两种方法都有不同的返回值。显然标准差不一样......有人能够解释为什么标准差彼此“偏离”吗？

MWE:

# import packages
from sklearn import preprocessing
import numpy
import rpy2.robjects.numpy2ri
from rpy2.robjects.packages import importr
rpy2.robjects.numpy2ri.activate()
# Set up R namespaces
R = rpy2.robjects.r


np1 = numpy.array([[1.0,2.0],[3.0,1.0]])
print "Numpy-array:"
print np1

print "Scaled numpy array through R.scale()"
print R.scale(np1)
print "-------"
print "Scaled numpy array through preprocessing.scale()"
print preprocessing.scale(np1, axis = 0, with_mean = True, with_std = True)
scaler = preprocessing.StandardScaler()
scaler.fit(np1)
print "Mean of preprocessing.scale():"
print scaler.mean_
print "Std of preprocessing.scale():"
print scaler.std_

Output: Output generated by the MWE

这似乎与标准差的计算方式有关。

>>> import numpy as np
>>> a = np.array([[1, 2],[3, 1]])
>>> np.std(a, axis=0)
array([ 1. ,  0.5])
>>> np.std(a, axis=0, ddof=1)
array([ 1.41421356,  0.70710678])

From numpy.std 文档 http://docs.scipy.org/doc/numpy/reference/generated/numpy.std.html,

ddof ：整数，可选

表示自由度 Delta。计算中使用的除数是 N - ddof，其中 N 表示元素的数量。默认情况下 ddof 为零。

显然，R.scale() uses ddof=1, but sklearn.preprocessing.StandardScaler() uses ddof=0.

编辑：（解释如何使用备用 ddof）

似乎没有一种直接的方法可以在不访问 StandardScaler() 对象本身的变量的情况下使用替代 ddof 计算 std。

sc = StandardScaler()
sc.fit(data)
# Now, sc.mean_ and sc.std_ are the mean and standard deviation of the data
# Replace the sc.std_ value using std calculated using numpy
sc.std_ = numpy.std(data, axis=0, ddof=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

Scale

scikitlearn

R.scale() 和 sklearn.preprocessing.scale() 之间的区别的相关文章

如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

全日历与 UTC 和本地日期的混淆

我确实让 fullcalendar 正常初始化所以它代表当前日期午夜 gt 午夜 1 天 1 小时时段我从其他一些数据源获取带有时间戳的数据格式为 YYYY MM DD HH mm 作为字符串传输无时区信息因此我将该字符串转换
如何安全地将 CGFloat 降低或提高到 int？

我经常需要在地板或天花板上安装CGFloat to an int 用于计算数组索引我永远看到的问题floorf theCGFloat or ceilf theCGFloat 是浮点不准确可能会带来麻烦那如果我的CGFloat is 2
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
React Native 中 fontAwesome 图标的圆形轮廓

我想使用 fontAwesome 图标使其位于圆圈的中间我想将它用作一个图标项我读到我们可以将它与圆形图标一起使用并将其放置在其中但我无法使其工作 import IconFA from react native vector ico
如何拆分 data.frame -> 将合并应用于子集 -> 合并到 data.frame 中

我真的不知道如何在不使用 for 循环的情况下实现这一目标 x lt c a b c d gt x 1 a b c d data lt data frame x c a b a b c a a b c d name c one one tw
异步方法中的异常未被捕获

下面的代码没有捕获我的OperationCancelEException 它是通过调用抛出的ct ThrowIfCancellationRequested public partial class TitleWindow Window IA
单击 btn 而不触发 div 单击未按预期工作

代码沙盒 https codesandbox io s currying breeze depdc9 file package json https codesandbox io s currying breeze depdc9 file
基于 MS Bot Framework 中的响应分支对话框/表单

我们正在尝试使用 MS Bot Framework 但尚未完全弄清楚如何实现此场景我们有一个 LUIS 对话框类型它工作正常并且经过适当的培训以常见的三明治为例 LUIS 意图寻找的基本内容是用户询问订单状态如果问题中提供了订单号
getJson问题，它返回未定义

大家好我有这个代码 var temp if method 1 temp Words val get the words from textbox else getJSON http localhost mine test js funct
2 个 SVG 路径的交集

我需要检查两个 SVG Path 元素是否相交检查边界框与 getBBox 太不准确了我目前正在做的是迭代两条路径 getTotalLength 然后检查是否有两个点 getPointAtLength 是平等的下面是一个片段但正如您
使用 SQL 确定子网掩码的 cidr 值

我想找到一种方法来执行 SQL 查询该查询将计算存储在数据库中的子网掩码的 cidr 位表示例如我在数据库中存储了 255 255 255 0 或其十进制值 4294967040 我想通过查询进行选择并返回 24 表示我已经执行了类
Angular 2 路由器使用 Observable 进行解析

Angular 2 RC 5 发布后引入了路由器解析 Here https angular io docs ts latest guide router html resolve guard使用 Promise 演示了示例如果我使用 Ob
Java 类：匿名类、嵌套类、私有类

有人能解释一下Java中匿名类嵌套类和私有类之间的区别吗我想知道与每个相关的运行时成本以及每个编译器的方法这样我就可以掌握哪个最适合用于例如性能编译器优化的潜力内存使用以及其他 Java 编码人员的普遍可接受性我所说的匿名类是指
用于配置编辑的 wix 自定义对话框

你好我正在尝试使用 wix v3 为我的应用程序设置 msi 我对这项任务有疑问我需要一个用户输入该输入将存储在我的应用程序的配置文件中例如我需要一个用于 sql 连接字符串的对话框并且用户输入将写入应用程序配置文件中我尝试用
Android 应用程序 Phonegap 中的 Admob 实现

我将一个 jquery 脚本转换为 Android 应用程序现在我想将 admob 添加到其中这可能吗谷歌从那时起禁止在移动应用程序中使用 AdSense 在移动应用程序中使用 AdSense 移动广告违反了 AdSense 政策移
您如何评论 RFC？

我有一些关于OAuth RFC 草案 https datatracker ietf org doc html draft hammer oauth 10 特别是关于它包含的一些错误但我不确定可接受的制作方法是什么底部有一个电子邮件地址
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
PHP mail() 函数发送电子邮件，但需要 10 多分钟才能显示

因此我的用户从手机上的 Android 应用程序进行注册注册成功后我会触发一封邮件发送到注册的电子邮件地址其中包含来自我的 PHP 脚本的激活密码这是我使用的代码行非常简单 mail to subject message hea
Range.End() 困惑

我有一个关于 VBA 中 Range End 属性的一般性问题我已经阅读了有关该房产的信息here http msdn microsoft com en us library bb221181 aspx 但我还是很困惑例子 With w
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca

R.scale() 和 sklearn.preprocessing.scale() 之间的区别

R.scale() 和 sklearn.preprocessing.scale() 之间的区别 的相关文章

随机推荐

热门标签

R.scale() 和 sklearn.preprocessing.scale() 之间的区别的相关文章