从 pandas DataFrame 计算 p 值

2024-01-16

我有一个 DataFrame 统计数据，其中包含 Multiindex 和 8 个样本（此处仅显示两个），每个样本有 8 个基因。

 In[13]:stats
    Out[13]: 
                       ARG/16S                                            \
                         count          mean           std           min   
    sample      gene                                                       
    Arnhem      IC        11.0  2.319050e-03  7.396130e-04  1.503150e-03   
                Int1      11.0  7.243040e+00  6.848327e+00  1.364879e+00   
                Sul1      11.0  3.968956e-03  9.186019e-04  2.499074e-03   
                TetB       2.0  1.154748e-01  1.627663e-01  3.816936e-04   
                TetM       4.0  1.083125e-04  5.185259e-05  5.189226e-05   
                blaOXA     4.0  4.210963e-06  3.783235e-07  3.843571e-06   
                ermB       4.0  4.111081e-05  7.894879e-06  3.288865e-05   
                ermF       4.0  2.335210e-05  4.519758e-06  1.832037e-05   
    Basel       Aph3a      4.0  7.815592e-06  1.757242e-06  5.539389e-06   
                IC        11.0  5.095161e-03  5.639278e-03  1.302205e-03   
                Int1      12.0  1.333068e+01  1.872207e+01  4.988048e-02   
                Sul1      11.0  1.618617e-02  1.988817e-02  2.970397e-03

我正在尝试计算每个样本的 p 值（学生 t 检验），比较它们之间的每个基因。

我使用了 scipy.stats.ttest_ind_from_stats 但我设法获取一个基因的不同样本的 p 值，并且仅获取彼此相邻的样本的 p 值。

Experiments = list(values1_16S['sample'].unique())
for exp in Experiments:
    if Experiments.index(exp)<len(Experiments)-1:
        second = Experiments[Experiments.index(exp)+1]
    else:
        second = Experiments[0]
    tstat, pvalue = scipy.stats.ttest_ind_from_stats(stats.loc[(exp,'Sul1')]['ARG/16S','mean'],
                                    stats.loc[(exp,'Sul1')]['ARG/16S','std'],
                                    stats.loc[(exp,'Sul1')]['ARG/16S','count'],
                                    stats.loc[(second,'Sul1')]['ARG/16S','mean'],
                                    stats.loc[(second,'Sul1')]['ARG/16S','std'],
                                    stats.loc[(second,'Sul1')]['ARG/16S','count'])
    d.append({'loc1':exp, 'loc2':second, 'pvalue':pvalue})


stats_Sul1 = pd.DataFrame(d)
stats_Sul1

如何获得所有样本之间的 p 值？有没有一种方法可以同时对所有基因执行此操作，而无需为每个基因逐一运行代码？

假设 Y 样本具有相同的 X 基因。我尝试使用 X=3 和 Y=2 的方法，但我想您可以概括。我开始于：

df1 = 
             count       mean        std       min
sample gene                                       
Arnhem IC       11   0.002319   0.000740  0.001503
       Int1     11   7.243040   6.848327  1.364879
       Sul1     11   0.003969   0.000919  0.002499
Basel  IC       11   0.005095   0.005639  0.001302
       Int1     12  13.330680  18.722070  0.049880
       Sul1     11   0.016186   0.019888  0.002970

请注意，基因的顺序必须相同。第一的reset_index() with df_reindex = df1.reset_index()，我不确定我正在做的事情是否可以使用多重索引：

df_reindex =
   sample  gene  count       mean        std       min
0  Arnhem    IC     11   0.002319   0.000740  0.001503
1  Arnhem  Int1     11   7.243040   6.848327  1.364879
2  Arnhem  Sul1     11   0.003969   0.000919  0.002499
3   Basel    IC     11   0.005095   0.005639  0.001302
4   Basel  Int1     12  13.330680  18.722070  0.049880
5   Basel  Sul1     11   0.016186   0.019888  0.002970

我创建了一个滚动的 DF 并将其加入df_reindex:

nb_genes = 3
df_rolled = pd.DataFrame(pd.np.roll(df_reindex,nb_genes,0), columns = df_reindex.columns)
df_joined = df_reindex.join(df_rolled, rsuffix='_')
# rsuffix='_' is to be able to perform the join

现在在同一行，我有您需要计算的所有数据pvalue并创建列apply:

df_joined['pvalue'] = df_joined.apply(lambda x: stats.ttest_ind_from_stats(x['mean'],x['std'],x['count'], x['mean_'],x['std_'],x['count_'])[1],axis=1)

最后，我使用所需的数据创建一个 DF 并重命名列：

df_output = df_joined[['sample','sample_','gene','pvalue']].rename(columns = {'sample':'loc1', 'sample_':'loc2'})

你最终得到的数据是：

df_output = 
     loc1    loc2  gene    pvalue
0  Arnhem   Basel    IC  0.121142
1  Arnhem   Basel  Int1  0.321072
2  Arnhem   Basel  Sul1  0.055298
3   Basel  Arnhem    IC  0.121142
4   Basel  Arnhem  Int1  0.321072
5   Basel  Arnhem  Sul1  0.055298

您可以根据需要重新索引。

如果你想对每个样本进行相互比较，我认为是一个循环for能做到这。

EDIT: Using pivot_table，我认为有一个更简单的方法。

根据您的输入stats作为多索引表仅用于ARG/16S（不知道如何处理这个级别），所以我从（这可能是你的stats['ARG/16S']):

df=
               count       mean           std       min
sample gene                                            
Arnhem IC         11   0.002319  7.396130e-04  0.001503
       Int1       11   7.243040  6.848327e+00  1.364879
       Sul1       11   0.003969  9.186019e-04  0.002499
       TetB        2   0.115475  1.627663e-01  0.000382
       TetM        4   0.000108  5.185259e-05  0.000052
       blaOXA      4   0.000004  3.783235e-07  0.000004
       ermB        4   0.000041  7.894879e-06  0.000033
       ermF        4   0.000023  4.519758e-06  0.000018
Basel  Aph3a       4   0.000008  1.757242e-06  0.000006
       IC         11   0.005095  5.639278e-03  0.001302
       Int1       12  13.330680  1.872207e+01  0.049880
       Sul1       11   0.016186  1.988817e-02  0.002970

具有功能pivot_table，您可以重新排列数据，例如：

df_pivot = df.pivot_table(values = ['count','mean','std'], index = 'gene', 
                               columns = 'sample', fill_value = 0)

In this df_pivot（为了便于阅读，我没有在此处打印它，但在新列的末尾），您可以使用以下命令为每对（sample1，sample2）创建一个列itertools and apply:

import itertools
for sample1, sample2 in itertools.combinations(df.index.levels[0],2):
    # itertools.combinations create all combinations between your samples
    df_pivot[sample1+ '_' + sample2 ] = df_pivot.apply(lambda x: stats.ttest_ind_from_stats(x['mean'][sample1],x['std'][sample1],x['count'][sample1], 
                                                                                        x['mean'][sample2 ],x['std'][sample2 ],x['count'][sample2 ],)[1],axis=1).fillna(1)

我认为这种方法与样本、基因的数量无关，如果基因不完全相同，你最终会得到df_pivot like:

        count            mean                      std            Arnhem_Basel
sample Arnhem Basel    Arnhem      Basel        Arnhem      Basel             
gene                                                                          
Aph3a       0     4  0.000000   0.000008  0.000000e+00   0.000002     1.000000
IC         11    11  0.002319   0.005095  7.396130e-04   0.005639     0.121142
Int1       11    12  7.243040  13.330680  6.848327e+00  18.722070     0.321072
Sul1       11    11  0.003969   0.016186  9.186019e-04   0.019888     0.055298
TetB        2     0  0.115475   0.000000  1.627663e-01   0.000000     1.000000
TetM        4     0  0.000108   0.000000  5.185259e-05   0.000000     1.000000
blaOXA      4     0  0.000004   0.000000  3.783235e-07   0.000000     1.000000
ermB        4     0  0.000041   0.000000  7.894879e-06   0.000000     1.000000
ermF        4     0  0.000023   0.000000  4.519758e-06   0.000000     1.000000

让我知道它是否有效

EDIT2:要回复评论，我认为你可以这样做：

没有变化df_pivot然后创建一个多索引 DFdf_multi将结果写入：

df_multi = pd.DataFrame(index = df.index.levels[1], 
                        columns = pd.MultiIndex.from_tuples([p for p in itertools.combinations(df.index.levels[0],2)])).fillna(0)

然后你使用循环for来实现这里的数据df_multi:

for sample1, sample2 in itertools.combinations(df.index.levels[0],2):
    # itertools.combinations create all combinations between your samples
    df_multi.loc[:,(sample1,sample2)] = df_pivot.apply(lambda x: stats.ttest_ind_from_stats(x['mean'][sample1],x['std'][sample1],x['count'][sample1], 
                                                                                        x['mean'][sample2 ],x['std'][sample2 ],x['count'][sample2 ],)[1],axis=1).fillna(1)

最后，您可以使用transpose and unstack在第 1 级以达到您要求的方式（如果我误解了，则关闭）

df_output = df_multi.transpose().unstack(level=[1]).fillna(1)

您将看到索引中没有最后一个样本，列中没有第一个样本（因为它们不存在我构建所有内容的方式）如果您想要它们，则需要替换itertools.combinations by itertools.combinations_with_replacement在双方的创作中df_multi并在循环中for（我没有尝试过，但应该可以）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 pandas DataFrame 计算 p 值的相关文章

如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

调用 getSystemService(Context.LOCATION_SERVICE) 时出现 NullpointerException 并且未调用 onLocationChanged

我正在尝试创建一个后台服务来更新当前的 GPS 位置我得到了NullPointerException在线LocationManager lm LocationManager getSystemService Context LOCATIO
在 HTML 中定位图像（使用创建图像的按钮）

我一直在使用这段代码 div class divClassName div
从终端检测脚本中的键盘输入的最简单方法是什么？

我有一个简单的 python 脚本它有一些循环运行的函数我正在读取传感器读数 while True print Doing a function 如果按下键盘我想打印按键已按下在 Python 中执行此操作的最简单方法是什么我已
jquery ajax 调用可以在本地主机上运行，但不能在实时服务器上运行

我已经研究了这个问题一整天这似乎是一个有点常见的问题但我一直无法找到解决方案我正在使用 jquery 的 ajax 函数进行服务调用以更新数据库中的某些值它在本地主机上运行良好但在实际服务器上我在控制台窗口中收到 500 内部服
JQuery 将类添加到克隆元素

这是我的脚本 addprop click function clone clone insertAfter addprop 我需要向正在创建的新元素添加一个类是否可以是的 addprop click function clone clo
sql选择多行的最早日期

我有一个如下所示的数据库 circuit uid customer name location reading date reading time amps volts kw kwh kva pf key cu1 cb1 r1 Custom
heroku 还有其他搜索选项吗

我即将推出一个测试版网站并且heroku看起来是一个不错的选择唯一让我失望的是 Websolr 附加组件的唯一搜索选项是 20 美元月我确信 Websolr 很棒但在这个项目的早期阶段我宁愿不花这笔费用有没有免费的搜索选项可以
使用 OpenSSL 解密字符串在终端中有效，但在 PHP 脚本中无效

我正在尝试解密一个文件我可以使用以下字符串在终端中使用 OpenSSL 对其进行解密 openssl enc d aes 192 ecb in file crypt out file K 0123456789abcdef iv 0 但是
如何将 PHP glob 指向特定目录？

所以我得到了这段代码来列出目录中的所有 jpg 图像但它只适用于我的根目录我不知道如何将它指向我的图像目录 ul li a href gt img src gt a li ul 有人能帮我吗这应该有效 glob images N T
撰写中两个活动之间的共享元素转换？

目前是否有任何东西可以允许在 Jetpack Compose 中使用共享元素动画在结果列表和详细信息屏幕之间制作经典过渡动画就像是我知道一些实验库允许这样做但它们都适用于单一活动我想知道更传统的方法有两个活动 The 官方 Jetp
angularJS：页面刷新时更改图像。否则（如果不刷新）想在5秒内自动更改

这里创建了一个页面形象改变而页面刷新从这个问题在 angularJS 中刷新页面时更改图像 https stackoverflow com questions 42948044 change image when page refresh
在java中将关联、聚合和组合转换为代码？

我知道java中关联聚合和组合的转换有不同的表示方式但是当我们将它们转换为代码 java类时它们都以相同的方式表示就像老师教的学生一样关联将用具有班级老师实例变量的学生类来表示部门有教授聚合也将用具有班级教授实例变量数组
如何在 PHP 中解析 JSON 对象？

我有一个 JSON 对象正在发送到 PHP 脚本但在解析 JSON 时遇到问题这是 POST 请求 http mywebsite com action somefunction 22id 22 1 22Name 22 22Mike 2
Firebase如何为树深处的2级随机ID的子级编写安全规则

我有一个名为 people 的数据库节点如下所示 people UserID1 which is a random id UserId2 which is a random id name some name id UserId2 ima
指令中0x0表示什么

什么是0x0在以下指令中注明 lea 0x0 esi eiz 1 esi 整个语句是一个很棒的 noop 它看起来是一个 7 字节的 noop http www technovelty org code arch noop html htt
Python：编译成 Unix 命令行应用程序

我不确定我是否搜索了错误的术语但我在这个主题上找不到太多内容我在 osx 上我想将命令行 python 脚本编译成一个小型命令行应用程序我可以将其放入 usr local bin 中这样我就可以从任何地方调用它有没有一种直接的方
Celery 任务中每个查询的 Python cassandra-driver OperationTimeOut

我对在 celery 任务中异步执行的每个插入查询小查询都有问题在同步模式下当我插入时一切都完成得很好但是当它在 apply async 中执行时我得到这个 OperationTimedOut errors errors er
使用 Flexbox 实现等高列

我正在尝试构建一个具有两个独立内容组的布局一个位于左侧和右侧目前具有固定宽度 20 80 在每一侧我都尝试使用 flexbox left panel 来排列内容flex direction column和右侧面板flex direct
从类中调用方法

我有 2 个表格 Form1 和 Form2 和一个班级 Class1 Form1 包含一个按钮 Button1 Form2 包含一个 RichTextBox textBox1 当我在 Form1 上按 Button1 时我希望调用方法
从 pandas DataFrame 计算 p 值

我有一个 DataFrame 统计数据其中包含 Multiindex 和 8 个样本此处仅显示两个每个样本有 8 个基因 In 13 stats Out 13 ARG 16S count mean std min sample gen

从 pandas DataFrame 计算 p 值

从 pandas DataFrame 计算 p 值 的相关文章

随机推荐

热门标签

从 pandas DataFrame 计算 p 值的相关文章