查找列表内列表之间的相关性的效率问题

2024-01-05

如果我有两个小列表，我想找到里面每个列表之间的相关性list1里面的每个列表list2，我可以做这个

from scipy.stats import pearsonr

list1 = [[1,2,3],[4,5,6],[7,8,9],[10,11,12]]
list2 = [[10,20,30],[40,50,60],[77,78,79],[80,78,56]]

corrVal = []
for i in list1:
    for j in list2:
        corrVal.append(pearsonr(i,j)[0])

print(corrVal)

OUTPUT: [1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588]

效果很好……差不多。（编辑：刚刚注意到我上面的相关输出似乎给出了正确的答案，但它们重复了 4 次。不太确定为什么这样做）

然而，对于列表中包含 1000 个值的较大数据集，我的代码会无限期冻结，不会输出任何错误，因此每次都会强制退出 IDE。有什么想法我在这里滑倒了吗？不确定 pearsonr 函数可以处理的数量是否存在固有限制，或者我的编码是否导致了问题。

scipy 模块scipy.spatial.distance http://docs.scipy.org/doc/scipy/reference/spatial.distance.html包括称为距离函数皮尔逊距离 https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient#Pearson.E2.80.99s_distance，即 1 减去相关系数。通过使用参数metric='correlation' in scipy.spatial.distance.cdist http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html，您可以有效计算两个输入中每对向量的 Pearson 相关系数。

这是一个例子。我将修改您的数据，使系数更加多样化：

In [96]: list1 = [[1, 2, 3.5], [4, 5, 6], [7, 8, 12], [10, 7, 10]]

In [97]: list2 = [[10, 20, 30], [41, 51, 60], [77, 80, 79], [80, 78, 56]]

所以我们知道会发生什么，这里是使用计算得出的相关系数scipy.stats.pearsonr:

In [98]: [pearsonr(x, y)[0] for x in list1 for y in list2]
Out[98]: 
[0.99339926779878296,
 0.98945694873927104,
 0.56362148019067804,
 -0.94491118252306794,
 1.0,
 0.99953863896044937,
 0.65465367070797709,
 -0.90112711377916588,
 0.94491118252306805,
 0.93453339271427294,
 0.37115374447904509,
 -0.99339926779878274,
 0.0,
 -0.030372836961539348,
 -0.7559289460184544,
 -0.43355498476205995]

在数组中查看它们更方便：

In [99]: np.array([pearsonr(x, y)[0] for x in list1 for y in list2]).reshape(len(list1), len(list2))
Out[99]: 
array([[ 0.99339927,  0.98945695,  0.56362148, -0.94491118],
       [ 1.        ,  0.99953864,  0.65465367, -0.90112711],
       [ 0.94491118,  0.93453339,  0.37115374, -0.99339927],
       [ 0.        , -0.03037284, -0.75592895, -0.43355498]])

这是使用计算得出的相同结果cdist:

In [100]: from scipy.spatial.distance import cdist

In [101]: 1 - cdist(list1, list2, metric='correlation')
Out[101]: 
array([[ 0.99339927,  0.98945695,  0.56362148, -0.94491118],
       [ 1.        ,  0.99953864,  0.65465367, -0.90112711],
       [ 0.94491118,  0.93453339,  0.37115374, -0.99339927],
       [ 0.        , -0.03037284, -0.75592895, -0.43355498]])

Using cdist is much比打电话更快pearsonr在嵌套循环中。这里我将使用两个数组，data1 and data2，每个大小为 (100, 10000)：

In [102]: data1 = np.random.randn(100, 10000)

In [103]: data2 = np.random.randn(100, 10000)

我会用方便的%timeit命令输入ipython测量执行时间：

In [104]: %timeit c1 = [pearsonr(x, y)[0] for x in data1 for y in data2]
1 loop, best of 3: 836 ms per loop

In [105]: %timeit c2 = 1 - cdist(data1, data2, metric='correlation')
100 loops, best of 3: 4.35 ms per loop

嵌套循环需要 836 毫秒，cdist.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找列表内列表之间的相关性的效率问题的相关文章

使用Python开发Web应用程序

我一直在用 python 做一些工作但这都是针对独立应用程序的我很想知道 python 的任何分支是否支持 Web 开发有人还会建议一个好的教程或网站吗我可以从中学习一些使用 python 进行 Web 开发的基础知识既然大家都说
Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

为什么以模态方式呈现视图控制器会破坏表视图中的自动布局？

示例项目 http cl ly 1o2K2m2r262q http cl ly 1o2K2m2r262q 我有一个UITableView具有从自动布局自动计算高度的自定义单元格自定义单元格内有三个标签每个标签与内容视图之间都有垂直间距
Errno::ENOENT: 没有这样的文件或目录 ruby

我收到以下错误 Errno ENOENT No such file or directory 当我尝试将文件下载到不存在的目录时例如 ftp Net FTP new example com ftp login files ftp chdi
如何将一个远程分支覆盖而不是合并到另一个分支？

我有两个分支机构分期和测试版暂存中包含我根本不想要的代码包括文件如何让 Beta 完全覆盖 Staging 以便这些文件或代码都不会从 Staging 合并到 Beta 中我看到有些人建议这样做 git checkout stag
REGEXP_REPLACE 捕获组

我想知道是否有人可以帮助我了解如何使用 Hive 的 regexp replace 函数来捕获正则表达式中的组并在替换字符串中使用这些组我正在解决一个涉及日期修改的示例问题在此示例中我的目标是获取与 SimpleDateFormat
在 iOS 12 上从 FCM 接收远程推送通知时播放自定义声音

我正在尝试在以下情况下播放自定义声音REMOTE当应用程序完全关闭或在后台时收到通知但我尝试过的一切都不起作用我使用的音频文件是受支持的 caf 文件它的长度为 20 秒在苹果的限制之内该文件位于主应用程序包中而不是在特定方案中
TensorFlow 1.2 如何使用 Seq2Seq 在推理时设置时间序列预测

我正在尝试使用玩具模型研究 TensorFlow 库的 tf contrib seq2seq 部分目前我的图表如下 tf reset default graph Placeholders enc inp tf placeholder t
将操作栏的标题替换为微调器（下拉菜单）

我试图在操作栏默认标题出现的同一位置显示微调器我按照类似的指示进行操作所以这里的情况 https stackoverflow com questions 11983120 remove the title text from the ac
数据库设计：如何支持多语言网站？

假设我有一张桌子 TABLE product product id name description 1 Widget 1 Really nice widget Buy it now 如果
使用 ionic 2 中的 navcontroller 修复导航

我正在尝试实现一个具有登录身份验证的简单离子应用程序当用户输入凭据并点击登录时我将导航的根设置为包含主页联系方式和关于页面的选项卡页面问题是当我点击主页中的注销按钮它将主页选项卡请参阅 home ts 中的注销功能重定向到登录
为什么 gcc 报告“隐式声明函数‘round’”？

我有以下 C 代码 include
为什么相同的 SQLite 查询在仅获取两倍结果时却慢了 30 倍？

我一直在努力加快我正在使用的查询大约一周的时间并在这里提出了几个有关它的问题运行 sqlite 查询后如何加快获取结果的速度 https stackoverflow com questions 10412604 how can i sp
搜索条件值后查询Oracle约束

我想在 Oracle SQL 中找到具有特定 search condition 的约束像这样的事情 SELECT constraint name constraint type search condition FROM USER CON
“未修改”标头后跟带有 sitemesh3 和 mod-jk 的意外内容正文

在我的 Java Struts2 Tomcat 应用程序中当请求某些生成 304 Not Modified 响应的资源时该文件仍在响应中发送这是使用 Fiddler 捕获的响应示例 HTTP 1 1 304 Not Modified
从选项卡切换到折叠以获得响应

目标是当网站宽度小于 676 像素时从选项卡切换到手风琴样式折叠我们正在使用引导程序我们将使用 css 分别隐藏 ul nav tabs 和 a accordtion toggle 选项卡在这里可以工作但 a accordion t
“使用声明”功能在 C# 7.3 中不可用。请使用语言版本 8.0 或更高版本 - 在一台计算机上出错，但在另一台计算机上正常

使用时Visual Studio 企业版 16 3 7在两台独立的机器上一台构建正常另一台机器抛出错误使用声明功能在 C 7 3 中不可用请用语言版本 8 0 或更高版本这可以通过设置在非工作机器上轻松解决LangVersio
我有一个 has_many 关系，我想设置自定义限制和偏移量。以及计算它们

Hy My code profile images 我只想一次只获取 10 张图像偏移量为 10 就像这样 profile images limit gt 10 offset gt 10 不是这样的 has many images lim
Java 是否有与 C# 的 Environment.GetCommandLineArgs() 等效的函数？

我知道我可以在 main 方法中获取命令行参数但我需要能够获取它们间接地感谢您的帮助以下表达式正是您想要的 System getProperty sun java command
将数据转换为分位数箱

我有一个带有数字列的数据框对于每一列我想计算分位数信息并将每一行分配给其中之一我尝试使用qcut method http pandas pydata org pandas docs dev groupby html highlight
Coq 中的程序定点和函数有什么区别？

它们似乎有相似的目的到目前为止我注意到的一个区别是Program Fixpoint将接受复合措施例如 measure length l1 length l2 Function似乎拒绝这一点并且只会允许 measure length l1
查找列表内列表之间的相关性的效率问题

如果我有两个小列表我想找到里面每个列表之间的相关性list1里面的每个列表list2 我可以做这个 from scipy stats import pearsonr list1 1 2 3 4 5 6 7 8 9 10 11 12 lis

查找列表内列表之间的相关性的效率问题

查找列表内列表之间的相关性的效率问题 的相关文章

随机推荐

热门标签

查找列表内列表之间的相关性的效率问题的相关文章