numpy 数组：快速填充和提取数据

2023-11-30

请参阅此问题底部的重要说明。

我正在使用 numpy 来加速经度/纬度坐标的一些处理。不幸的是，我的 numpy“优化”使我的代码运行速度提高了大约 5 倍slowly比它在不使用 numpy 的情况下运行。

瓶颈似乎在于用我的数据填充 numpy 数组，然后在完成数学转换后提取该数据。为了填充数组，我基本上有一个像这样的循环：

point_list = GetMyPoints() # returns a long list of ( lon, lat ) coordinate pairs
n = len( point_list )
point_buffer = numpy.empty( ( n, 2 ), numpy.float32 )

for point_index in xrange( 0, n ):
    point_buffer[ point_index ] = point_list[ point_index ]

该循环仅在对其进行操作之前填充 numpy 数组，速度非常慢，比没有 numpy 的整个计算慢得多。（也就是说，这不仅仅是 python 循环本身的缓慢，而且显然在实际将每个小数据块从 python 传输到 numpy 时存在巨大的开销。）另一端也有类似的缓慢；处理完 numpy 数组后，我在循环中访问每个修改的坐标对，再次如下

some_python_tuple = point_buffer[ index ]

同样，提取数据的循环比没有 numpy 的整个原始计算慢得多。那么，我如何实际填充 numpy 数组并从 numpy 数组中提取数据，而不会违背首先使用 numpy 的目的？

我正在使用 C 库从形状文件中读取数据，该库将数据作为常规 python 列表提供。我知道，如果库向我提供了 numpy 数组中已有的坐标，则不需要“填充”numpy 数组。但不幸的是，我的数据起点是一个常规的 python 列表。更重要的是，一般来说，我想了解如何使用 python 中的数据快速填充 numpy 数组。

澄清

上面显示的循环实际上过于简单化了。我在这个问题中这样写是因为我想专注于我所看到的尝试在循环中缓慢填充 numpy 数组的问题。我现在明白这样做只是缓慢的。

在我的实际应用程序中，我拥有的是坐标点的形状文件，并且我有一个 API 来检索给定对象的点。大约有 200,000 个对象。所以我反复调用一个函数GetShapeCoords( i )获取对象 i 的坐标。这将返回一个列表列表，其中每个子列表都是经度/纬度对的列表，它是列表列表的原因是某些对象是多部分的（即多多边形）。然后，在我的原始代码中，当我读取每个对象的点时，我通过调用常规 python 函数对每个点进行转换，然后使用 PIL 绘制转换后的点。整个过程花了大约 20 秒来绘制所有 200,000 个多边形。并不可怕，但还有很大的改进空间。我注意到这 20 秒中至少有一半花在了转换逻辑上，所以我想我应该在 numpy 中这样做。我最初的实现只是一次读入一个对象，然后将子列表中的所有点不断附加到一个大的 numpy 数组中，然后我可以在 numpy 中进行数学运算。

所以，我现在明白，简单地将整个 python 列表传递给 numpy 是设置大数组的正确方法。但就我而言，我一次只读取一个对象。所以我能做的一件事就是在一个大的Python列表列表中不断地添加点。然后，当我以这种方式编译了一些大量对象的点（例如 10000 个对象）时，我可以简单地将怪物列表分配给 numpy。

所以我现在的问题是三个部分：

(a) numpy 真的可以接受那么大的、不规则形状的列表列表，并快速快速地读取它吗？

(b) 然后我希望能够变换该怪物树叶子中的所有点。例如，获取 numpy 的表达式是什么，“进入每个子列表，然后进入每个子子列表，然后对于在这些子子列表中找到的每个坐标对，将第一个（lon 坐标）乘以 0.5”？我可以这样做吗？

下面温斯顿的回答似乎暗示了我如何使用 itertools 来完成这一切。我想做的与温斯顿所做的非常相似，将列表展平。但我不能完全把它弄平。当我去绘制数据时，我需要能够知道一个多边形何时停止以及下一个多边形何时开始。所以，我认为如果有一种方法可以用特殊的坐标对（例如（-1000，-1000）或类似的东西）快速标记每个多边形（即每个子列表）的末端，我就可以让它工作。然后我可以像温斯顿的答案一样用 itertools 进行展平，然后在 numpy 中进行转换。然后我需要使用 PIL 从点到点进行实际绘制，在这里我想我需要将修改后的 numpy 数组重新分配回 python 列表，然后在常规 python 循环中迭代该列表来进行绘图。除了编写一个 C 模块来一步处理所有阅读和绘图之外，这似乎是我的最佳选择吗？

您将您的数据描述为“坐标列表列表的列表”。由此我猜你的提取看起来像这样：

for x in points:
   for y in x:
       for Z in y:
           # z is a tuple with GPS coordinates

Do this:

# initially, points is a list of lists of lists
points = itertools.chain.from_iterable(points)
# now points is an iterable producing lists
points = itertools.chain.from_iterable(points)
# now points is an iterable producing coordinates
points = itertools.chain.from_iterable(points)
# now points is an iterable producing individual floating points values
data = numpy.fromiter(points, float)
# data is a numpy array containing all the coordinates
data = data.reshape( data.size/2,2)
# data has now been reshaped to be an nx2 array

itertools 和 numpy.fromiter 都是用 C 语言实现的，而且非常高效。因此，这应该会非常快地完成转换。

您问题的第二部分并没有真正表明您想要如何处理数据。索引 numpy 数组比索引 python 列表慢。您可以通过对数据进行大量操作来提高速度。如果不了解更多关于您如何处理这些数据的信息，就很难建议如何修复它。

UPDATE:

我已经使用 itertools 和 numpy 完成了所有工作。对于因尝试理解此代码而造成的任何脑损伤，我不承担任何责任。

# firstly, we use imap to call GetMyPoints a bunch of times
objects = itertools.imap(GetMyPoints, xrange(100))
# next, we use itertools.chain to flatten it into all of the polygons
polygons = itertools.chain.from_iterable(objects)
# tee gives us two iterators over the polygons
polygons_a, polygons_b = itertools.tee(polygons)
# the lengths will be the length of each polygon
polygon_lengths = itertools.imap(len, polygons_a)
# for the actual points, we'll flatten the polygons into points
points = itertools.chain.from_iterable(polygons_b)
# then we'll flatten the points into values
values = itertools.chain.from_iterable(points)

# package all of that into a numpy array
all_points = numpy.fromiter(values, float)
# reshape the numpy array so we have two values for each coordinate
all_points = all_points.reshape(all_points.size // 2, 2)

# produce an iterator of lengths, but put a zero in front
polygon_positions = itertools.chain([0], polygon_lengths)
# produce another numpy array from this
# however, we take the cumulative sum
# so that each index will be the starting index of a polygon
polygon_positions = numpy.cumsum( numpy.fromiter(polygon_positions, int) )

# now for the transformation
# multiply the first coordinate of every point by *.5
all_points[:,0] *= .5

# now to get it out

# polygon_positions is all of the starting positions
# polygon_postions[1:] is the same, but shifted on forward,
# thus it gives us the end of each slice
# slice makes these all slice objects
slices = itertools.starmap(slice, itertools.izip(polygon_positions, polygon_positions[1:]))
# polygons produces an iterator which uses the slices to fetch
# each polygon
polygons = itertools.imap(all_points.__getitem__, slices)

# just iterate over the polygon normally
# each one will be a slice of the numpy array
for polygon in polygons:
    draw_polygon(polygon)

您可能会发现最好一次处理一个多边形。将每个多边形转换为 numpy 数组并对其进行向量运算。这样做您可能会获得显着的速度优势。将所有数据放入 numpy 可能有点困难。

由于数据形状奇特，这比大多数 numpy 的东西更困难。 Numpy 几乎假设一个数据形状统一的世界。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

numpy 数组：快速填充和提取数据的相关文章

如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Google App Engine 如何预编译 Java？

App Engine 对应用程序的 Java 字节码使用预编译过程以增强应用程序在 Java 运行时环境中的性能预编译代码的功能与原始字节码相同有没有详细的信息这是做什么的我在一个中找到了这个谷歌群组消息 http groups
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
在 Javascript 中连接空数组

我正在浏览一些代码我想知道这有什么用处 grid push concat row 根据我的理解它等同于 grid push row 为什么要大惊小怪连接你想使用 concat当您需要展平数组并且没有由其他数组组成的数组时例如 va
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

Angular 范围函数执行了两次，而它只应该运行一次？

演示在这里简单问题在下面的代码中我只调用该函数isSpecificPage 一次为什么console log两次 div p Hello p div Angular 监视你的ng hide函数以便每个摘要循环它都可以查看结果是否发生
跳过带有超时的输入函数

我正在制作任何程序Python 3 7 我想跳过input特定时间后起作用我的代码具有类似于以下粗略代码的结构 def functionA skip def functionB skip TIMEOUT 0 5 while True TX
网络调用时 android.net.ConnectivityManager$TooManyRequestsException

override fun setR2SettingData cmd String status String val requestbuilder NetworkRequest Builder requestbuilder addTrans
SQL Server：从一个表插入到另一个表

我面临着将数据从一个表插入到另一个表的问题该表具有相同的表结构但列位置不同 Example Table 1 emp1 Name char 50 Age int Salary Float Table 2 emp2 Name char 50
使用 jsoup 将 HTML 解析为格式化的纯文本

我正在开发一个 Maven 项目该项目允许我解析网站中的 html 数据我能够使用下面的代码解析它 public void parseData String url http stackoverflow com help on topi
表达式___在检查后发生了变化

为什么组件这么简单plunk Component selector my app template div I m message div export class App message string loading ngAfterVie
在模态 NSWindow 中使用 WebView 不起作用？

您应该如何将 WebKit 的 WebView 与模式对话框一起使用 webView setMainFrameURL NSString fromStdString url nsWindow makeKeyAndOrderFront nil
如何在R中循环将多个数据帧写入单个csv文件？

我想在单个 CSV 文件中写入多个数据帧 neighbours dataframe 我使用这一行将多个数据帧写入多个文件 for i in 1 vcount karate write csv neighbours dataframe i f
void 函数中的 return 语句有什么用[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心我是java新手什么是return 意思是是不是像break public
每次进行更改时都必须退出黑莓模拟器吗？

在我想查看 sim 上的最新代码更改之前我是否必须先关闭模拟器或者有没有办法让 BB 模拟器获取最新的代码更改而无需退出当前实例并再次启动模拟器模拟器运行时似乎无法更改可执行文件因为 jar 文件已加载到内存中所以是的每次更改
在 JSP/Servlet 中填充级联下拉列表

假设我有三个名为dd1 dd2 and dd3 每个下拉列表的值来自数据库 dd3的值取决于的值dd2 and dd2的值取决于的值dd1 谁能告诉我如何调用servlet来解决这个问题基本上有三种方法可以实现这一目标在第一个下拉列
带有 selenium webdriver 的 Bamboo

Tools Java Selenium WebDriver Maven Git Bamboo 我不知道如何在 Bamboo 下运行我的测试用例这些测试用例由 java 编写由 maven 构建并存储到 Git 存储库中 Bamboo无法
如何在android中检测整个应用程序是否关闭

有时应用程序通过按主页按钮关闭并且 onDestroy 不会调用我想在整个应用程序关闭时调用一个方法并且我不会在所有活动的 onDestroy 中调用我的方法在应用程序类中实现 LifecycleObserver 然后使用如下 p
Interop ExcelUsedRange 行计数不正确

我正在尝试将 Excel 电子表格读入内存但是当我使用 worksheet UsedRange Rows Count 时返回值不正确我的电子表格中有 1670 行数据但行数显示为 694 行 var excelApp new Mic
当s3数据存储同时具有json和.gz压缩文件时，如何通过Glue爬虫创建AWS Athena表？

我的预期解决方案有两个问题 1 我的S3存储结构如下 mainfolder date 2019 01 01 hour 14 abcd json mainfolder date 2019 01 01 hour 13 abcd2 json gz
如何从 Pandas 数据框中的列表中删除值？

我创建了一个数据框 in testing df pd DataFrame test array columns transaction id product id Split the product id s for the testing
使用 Flexdashboard 部署 Shiny 应用程序

我知道如何使用部署闪亮的应用程序http www shinyproxy io 基本上我只需要 server R 和 ui R 然后使用 docker 这是一个非常简单的工作但是当使用 flexdashboard 时我只有 rmd 文件
具有边框半径的元素的可选区域不一致

jsFiddle HTML div div img src http i ytimg com vi tntOCGkgt98 maxresdefault jpg CSS body background color blue div backg
多平台编译：System.Configuration.ConfigurationManager.GetSection 在.NetCore 上抛出错误

背景我们正在将 Net 应用程序迁移到 Net Core 作为一项策略我们希望在完整框架上保持现有功能完整同时将部分应用程序迁移到 Net Core 完整的应用程序将支持通过 Net 远程处理和 REST API 的 services
numpy 数组：快速填充和提取数据

请参阅此问题底部的重要说明我正在使用 numpy 来加速经度纬度坐标的一些处理不幸的是我的 numpy 优化使我的代码运行速度提高了大约 5 倍slowly比它在不使用 numpy 的情况下运行瓶颈似乎在于用我的数据填充 num

numpy 数组：快速填充和提取数据

numpy 数组：快速填充和提取数据 的相关文章

随机推荐

热门标签

numpy 数组：快速填充和提取数据的相关文章