将具有不同大小的行的数据加载到 Numpy 数组中

2024-05-10

假设我有一个包含如下数据的文本文件：

1  2  3  4  5
6  7  8 
9  10 11 12 13 14
15 16 17 18 19

如何将它加载到 numpy 数组中，使其看起来像这样？

[1  2  3  4  5  0
 6  7  8  0  0  0
 9  10 11 12 13 14
 15 16 17 18 19 0 ]

到目前为止，我一直使用的方法包括逐行读取文本文件，将每一行附加到列表中，找到最大长度的行并相应地填充剩余的行。

有人能建议一种更有效的方法吗？

非常感谢！

填充列表列表可以通过多种方式完成，但由于您已经从文件中读取此内容，我认为itertools.zip_longest将是一个好的开始。

In [201]: txt = """1  2  3  4  5
     ...: 6  7  8 
     ...: 9  10 11 12 13 14
     ...: 15 16 17 18 19"""

读取并解析文本行：

In [202]: alist = []
In [203]: for line in txt.splitlines():
     ...:     alist.append([int(i) for i in line.split()])
     ...:     
In [204]: alist
Out[204]: [[1, 2, 3, 4, 5], [6, 7, 8], [9, 10, 11, 12, 13, 14], [15, 16, 17, 18, 19]]

zip_longest（此处以 PY3 形式）采用填充值：

In [205]: from itertools import zip_longest
In [206]: list(zip_longest(*alist, fillvalue=0))
Out[206]: 
[(1, 6, 9, 15),
 (2, 7, 10, 16),
 (3, 8, 11, 17),
 (4, 0, 12, 18),
 (5, 0, 13, 19),
 (0, 0, 14, 0)]
In [207]: np.array(_).T
Out[207]: 
array([[ 1,  2,  3,  4,  5,  0],
       [ 6,  7,  8,  0,  0,  0],
       [ 9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19,  0]])

zip(*)也可用于“转置”列表列表：

In [209]: list(zip(*alist1))
Out[209]: 
[(1, 2, 3, 4, 5, 0),
 (6, 7, 8, 0, 0, 0),
 (9, 10, 11, 12, 13, 14),
 (15, 16, 17, 18, 19, 0)]

我猜你正在做类似的事情：

In [211]: maxlen = max([len(i) for i in alist])
In [212]: maxlen
Out[212]: 6
In [213]: arr = np.zeros((len(alist), maxlen),int)
In [214]: for row, line in zip(arr, alist):
     ...:     row[:len(line)] = line
     ...:     
In [215]: arr
Out[215]: 
array([[ 1,  2,  3,  4,  5,  0],
       [ 6,  7,  8,  0,  0,  0],
       [ 9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19,  0]])

这对我来说看起来不错。

一位普通的发帖者 Divakar 喜欢发布一个使用以下方法的解决方案：cumsum。让我们看看我是否可以重现它。它涉及构造一个一维掩码，其中非零值应该位于其中。逆向工作，我们需要一个像这样的掩码：

In [240]: mask=arr.ravel()>0
In [241]: mask
Out[241]: 
array([ True,  True,  True,  True,  True, False,  True,  True,  True,
       False, False, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False], dtype=bool)

以便：

In [242]: arr.flat[mask] = np.hstack(alist)

这个映射有一个我还没有完全内化的技巧！

诀窍是广播长度[0,1,2,3,4,5]:

In [276]: lens=[len(i) for i in alist]
In [277]: maxlen=max(lens)
In [278]: mask=np.array(lens)[:,None]>np.arange(maxlen)
In [279]: mask
Out[279]: 
array([[ True,  True,  True,  True,  True, False],
       [ True,  True,  True, False, False, False],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True, False]], dtype=bool)
In [280]: arr = np.zeros((len(alist), maxlen),int)
In [281]: arr[mask] = np.hstack(alist)
In [282]: arr
Out[282]: 
array([[ 1,  2,  3,  4,  5,  0],
       [ 6,  7,  8,  0,  0,  0],
       [ 9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19,  0]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

将具有不同大小的行的数据加载到 Numpy 数组中的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di

随机推荐

如何在控制器中使用多个 DBContext

如何在控制器中使用多个 DBContext 我尝试以不同的方式重载构造函数一些控制器 public C1 DBContext1 a DBContext2 b DBContext3 c public C1 DBContext1 a publ
tomcat 8 无法在自由端口上启动

PROBLEM 通过 Windows 服务停止 gt 启动 tomcat 8 失败因为 tomcat 关闭不知何故以不可见状态继续侦听端口 8080 并且 tomcat 无法启动因为它无法绑定到端口 8080 背景我们的一个构建脚
按序列大小对 fasta 进行排序

我目前想按序列大小对 hudge fasta 文件 10 8 行和序列进行排序 fasta 是生物学中用于存储序列遗传或蛋白质的明确定义的格式 gt id1 序列 1 可以位于多行 gt id2 序列2 我运行了一个提供 tsv 格式
当容器大小更改时，JTable 仅调整选定列的大小

对于面板内的 JTable 如果面板变大我如何将额外的空间仅分配给某些列在我的例子中分配给最后一列尽管提供第 3 4 列和8 将获得额外的空间我想允许用户手动更改所有列的列大小我尝试了 table setAutoResizeM
如何在球拍中查看扩展宏？

我得到了这个答案https stackoverflow com a 70318991 https stackoverflow com a 70318991关于编写一个简单的宏来记录宏扩展时的时间然后始终返回该时间 lang racket
参数映射不能用于 MERGE 模式

我收到错误参数映射不能在合并模式中使用我如何解决此错误我正在使用下面的代码我非常感谢任何帮助提前致谢 MERGE u Person names RETURN u and data2 names name Keanu Reeves1
如何测试“If-Modified-Since”HTTP 标头支持

使用 PHP 如何准确测试远程网站supports If Modified Since HTTP 标头据我所知如果您获取的远程文件自标头请求中指定的日期以来已被修改它应该返回 200 OK 状态如果尚未修改则应返回 304 Not
如何在 Fragment 中使用 onNewIntent(Intent Intent) 方法？

我正在尝试从我的设备使用 NFC 硬件但是问题是当我注册 Activity 来接收 Intent 时 PendingIntent pendingIntent PendingIntent getActivity this 0 new In
如何在UITextField上自动打开键盘？

我有一个非常简单的表格当触摸单元格时它会打开一个带有一个 UITextfield 的新视图我想要的只是键盘会自动打开而用户无需触摸 UITextfield 这一切都是在 Interface Builder 中完成的所以我不确定如何
如何从命名空间内重载运算符<<

这是我能想到的最小的包含示例首先是类的标题每当使用 pragma once ifndef EURO H define EURO H include
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
无法在 Visual Studio 和 vcpkg 中构建 cmake 项目（致命错误 C1083）

我今天安装了vcpkg 启用了与Visual Studio的集成即 vcpkg集成安装并开始安装库我基本上安装了 cpprestsdk 并触发了 boost 库的安装然后我在 Visual Studio CMake 中打开该项目当
Javascript - 对父母调用 super 父母？

我在 Odoo 中定义了当前自定义 javascript 视图的扩展 openerp account move journal test function instance var t instance web t lt instance
绘制自定义 Windows 控件时出现问题

我正在尝试使用 Windows 中的 uxTheme 库绘制自己的自定义控件但我无法弄清楚为什么我的控件看起来不像常规 Windows 控件据说使用我正在使用的相同主题上图显示了标准的 Windows ComboBox 顶部和使用
为什么在 Windows 上安装预编译版本的 LAPACK 时出现错误？

我正在尝试使用犰狳矩阵库进行矩阵计算它需要 BLAS 和 LAPACK Armadillo 文档建议从以下位置获取预编译版本http www stanford edu vkl code libs html http www stanfor
捆绑包 - 从另一台电脑复制粘贴宝石

我正在尝试设置 Rails 应用程序该应用程序依赖于大量的宝石宝石已预先安装在vendor gems我从朋友那里获得的副本的文件夹现在考虑到那些闭源宝石的不可用性 bundle install path home umang pro
别碰我的女人

我讨厌的一件事迪斯图尔斯 http docs python org distutils 我猜他是邪恶的人他这样做了 https github com python cpython blob 300dd552b15825abfe0e367a
XMLHttpRequest、jQuery.ajax、jQuery.post、jQuery.get 之间有什么区别

我如何找出最适合某种情况的方法有人可以提供一些例子来了解功能和性能方面的差异吗 XMLHttpRequest是原始浏览器对象 jQuery 将其包装成更可用和简化的形式以及跨浏览器一致的功能 jQuery ajax是 jQuery 中的通
Xcode 新手无法用 C++ 打开文件？

我一直在我参加的课程中使用 Windows 但我正在尝试运行基本代码来弄清楚如何从 Xcode 上的文件打开关闭输入输出而我通常在 Visual Studio 上使用的代码不是不知道为什么谢谢 include
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1

将具有不同大小的行的数据加载到 Numpy 数组中

将具有不同大小的行的数据加载到 Numpy 数组中 的相关文章

随机推荐

热门标签

将具有不同大小的行的数据加载到 Numpy 数组中的相关文章