规范化/标准化 numpy 重新排列

2024-03-23

我想知道规范化/标准化 numpy 的最佳方法是什么recarray是。为了清楚起见，我不是在谈论数学矩阵，而是在谈论一个记录数组，其中还包含例如文本列（例如标签）。

a = np.genfromtxt("iris.csv", delimiter=",", dtype=None)
print a.shape
> (150,)

正如你所看到的，我不能过程a[:,:-1]因为形状是一维的。

我发现最好的方法是迭代所有列：

for nam in a.dtype.names[:-1]:
    col = a[nam]
    a[nam] = (col - col.min()) / (col.max() - col.min())

还有更优雅的方法吗？是否有某种方法，例如“标准化”或“标准化”？

有很多方法可以做到这一点，但有些方法比其他方法更干净。

通常，在 numpy 中，您将字符串数据保存在单独的数组中。

（事情比 R 的数据框架要低一些。通常只需将事情包装在一个类中以进行关联，但将不同的数据类型分开。）

老实说，numpy 并未针对处理此类“灵活”数据类型进行优化（尽管它肯定可以做到）。像pandas http://pandas.pydata.org/index.html为“类似电子表格”的数据提供更好的界面（pandas 只是 numpy 之上的一层）。

但是，结构化数组（这就是您此处所拥有的）将允许您在传递字段名称列表时按列对它们进行切片。（例如。data[['col1', 'col2', 'col3']])

无论如何，一种方法是执行以下操作：

import numpy as np

data = np.recfromcsv('iris.csv')

# In this case, it's just all but the last, but we could be more general
# This must be a list and not a tuple, though.
float_fields = list(data.dtype.names[:-1])

float_dat = data[float_fields]

# Now we just need to view it as a "regular" 2D array...
float_dat = float_dat.view(np.float).reshape((data.size, -1))

# And we can normalize columns as usual.
normalized = (float_dat - float_dat.min(axis=0)) / float_dat.ptp(axis=0)

然而，这远非理想。如果您想就地执行操作（就像您目前的情况一样），最简单的解决方案就是您已经拥有的：只需迭代字段名称即可。

顺便说一下，使用pandas，你会做这样的事情：

import pandas
data = pandas.read_csv('iris.csv', header=None)

float_dat = data[data.columns[:-1]]
dmin, dmax = float_dat.min(axis=0), float_dat.max(axis=0)

data[data.columns[:-1]] = (float_dat - dmin) / (dmax - dmin)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scipy

normalize

recarray

规范化/标准化 numpy 重新排列的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

具有扩展选择参数的 Jenkins 声明式管道

我尝试使用 Jenkins 实现我的第一个声明式管道以便能够将作业的参数定义也放在 SCM 下我想转移具有扩展选择参数的现有作业不幸的是我无法将其添加到脚本的parameters 部分在插件页面上 https wiki jenki
在 HTTP 响应标头中使用内容处置

我发现以下 asp net 代码在从数据库提供文件时非常有用 Response AppendHeader content disposition attachment filename fileName 这允许用户将文件保存到他们的计算机
Android 通过 ID 获取联系人组

我有联系人 ID 如何获取联系人所属的组我确信这与 Contacts Groups 类有关但我无法弄清楚 In GroupMembership PERSON ID你有这个人的 ID 并且在同一张表中GroupMembership GRO
如何在 .ascx 页面中使用 javascript

如何在 ascx 页面中使用 javascript 您可以将脚本标签添加到标记中 Or use 脚本管理器 http msdn microsoft com en us library system web ui scriptmanager
如何在链接期间替换pthread_create

我想维护所有正在运行的线程的列表以及有关每个线程的一些附加信息在这个answer https stackoverflow com a 3476240 4676150提到可以提供我自己的 pthread create 版本并将程序与其链接
将迷你图添加到表中

我试图将所有数据处理转移到 Rmarkdown 而不是 SPSS Excel 但不知道如何创建带有附加图表的表格在 Excel 中这可以通过 Sparklines 功能来完成或者像我一样只需创建一个图表并非常准确地放置它上表是使用
如何使用 JS/nightwatchjs 并行运行多个测试？

我可以通过 Nightwatch 并行执行多个测试用例吗可能吗我正在寻找 java 中线程能力的能力以并行测试用例执行另外你们对于从 Selenium 迁移到 Nightwatch 有何看法您可以看到并行性的线程守夜人 http
Spring 3 bean实例化顺序

是否有指定 bean 实例化的顺序即我希望特定的 bean 在其他 bean 之前实例化就像启动顺序一样我正在使用 Spring 3 2 和基于注释的声明方法 If bean A取决于豆子B通过定义
在 R 的数据框中查找相似的行（不重复）

我有一个超过 800k 行的数据集示例 id fieldA fieldB codeA codeB 120 Similar one addrs example1 929292 0006 3490 Similar oh addrs examp
EF Core 在每次迁移时更新种子数据而不进行更改

所以我看到我的数据库有这样的用户和角色 public static void SeedUsers this ModelBuilder modelBuilder var roles new new Role Id new Guid 51275
IQueryable C# 选择

这是我的代码但我需要仅选择要在我的 Datagridview 中显示的列我需要代码来仅选择某些列示例 Select t gt t usu Login t gt t usu Login public List
github http 克隆返回“您在服务器上运行 git update-server-info 了吗”

我正在尝试在 Windows 上克隆一个 github 项目我在防火墙后面所以无法使用 ssh 跑步 git clone https github com user project git 正在返回https github com us
Pandas 数据框将唯一值转换为列名

我有以下格式的 pandas 数据框 input df gw mac mac val status 0 AC233FC01403 AC233F264A4C 21 Outwards 1 AC233FC015F6 AC233F264A4C 37
AngularJs 路由链接中没有主题标签？

我最近开始学习 AngularJs 进行 Web 开发到目前为止我很喜欢它但是我不太确定在视图之间路由时是否在链接中包含主题标签我主要关心的是 Google 如何缓存网站上的页面以及链接是否双向工作即用户是否可以直接单击 www
使用 google test 将类型名和字符串传递给参数化测试

有没有一种方法可以使用谷歌的测试将类型和字符串传递给参数化测试我想要做 template
mongoskin 只能在 mongodb 1.4 及更早版本上运行吗？

我正在尝试了解nodejs express 和 mongodb 我正在运行 mongodb v 2 0 6 和最新的 Nodejs 和 Express 并尝试通过 mongoskin 将 Express 应用程序与 mongodb 连接问
caffe全卷积cnn - 如何使用裁剪参数

我正在尝试为我的问题训练一个完全卷积网络我正在使用实施https github com shelhamer fcn berkeleyvision org https github com shelhamer fcn berkeleyvis
重复并连接字符串 N 次

在 Ruby 中我可以使用以下命令重复字符串 n 次 E G my string 2 gt my stringmy string 在 R 中是否有同样简单的方法来做到这一点您可以使用replicate or rep replicate
是否有 Ruby 方法来确定同一类的两个实例的所有实例变量是否相等？

是否有一种 Ruby 方法可以根据两个对象的所有实例变量是否相等来比较它们该方法的行为类似于此代码 class Coordinates attr reader x y def initialize x y x x y y end end
规范化/标准化 numpy 重新排列

我想知道规范化标准化 numpy 的最佳方法是什么recarray是为了清楚起见我不是在谈论数学矩阵而是在谈论一个记录数组其中还包含例如文本列例如标签 a np genfromtxt iris csv delimiter dty

规范化/标准化 numpy 重新排列

规范化/标准化 numpy 重新排列 的相关文章

随机推荐

热门标签

规范化/标准化 numpy 重新排列的相关文章