p-value，q-value,FDR

2023-11-11

假阴性错误（false-negative errors）: 高水平的基因可能偶尔没有检测到
假阳性错误（false-positive errors）: 低水平表达的基因由于扩增偏差，可能显得过于丰富，导致假阳性错误
错误发现率(False Discovery Rate,FDR)：事先犯I-型错误的最大概率，控制FDR值来决定p值的值域，FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡，将假/真阳性比例控制到一定范围之内https://www.omicsclass.com/article/28
P and q values in RNA Seq

The q-value is an adjusted p-value, taking in to account the false discovery rate (FDR). Applying a FDR becomes necessary when we’re measuring thousands of variables (e.g. gene expression levels) from a small sample set (e.g. a couple of individuals). A p-value of 0.05 implies that we are willing to accept that 5% of all tests will be false positives. An FDR-adjusted p-value (aka a q-value) of 0.05 implies that we are willing to accept that 5% of the tests found to be statistically significant (e.g. by p-value) will be false positives. Such an adjustment is necessary when we’re making multiple tests on the same sample

一、P值和q值的定义

P值（P-value）
       即概率，反应某一事件发生的可能性大小。统计学根据显著性检验方法得到的P值，通常以P＜0.05为显著，P＜0.01为极显著，其含义为：抽样误差导致的样本间的差异的概率小于0.05或0.01。
     根据定义，P值可简单理解为判断结果的“出错率（即假阳性比率，假阳性：不是样本本身有差异，是其他原因（比如抽样）导致的检测结果有差异）”。

q值
       q值（q-value）是p值校正后的结果。可定义为：多重假设检验过程中，错误拒绝（拒绝真的原假设（零假设））的个数占所有拒绝的原假设个数的比例的期望值（也是代表出错率）。   

总结：   p-value和q-value是统计学检验变量，衡量“假阳性概率”，应用到基因检测结果中，可衡量“某个基因差异表达的假阳性概率”，代表差异显著性，小于0.05代表结果有差异。
        如果p-value或q-value/越低，那么“该基因差异结果”是假阳性的概率就越低，可靠性就越高。
        q-value相比于p-value更加严格，当差异基因结果较少时，可退而求其次根据p-value筛选。
        当然，用q值筛选可能会过滤掉少部分真的有差异的基因，所以，q值是个双刃剑。但，相比绝大部分基因的假阳性，以及真阳性被滤掉的小概率，这部分的真阳性的丢失也不是很重要了。
        https://zhuanlan.zhihu.com/p/59731307

二、为什么差异结果可能存在假阳性？

 举个例子，如下：
        一个胖子一个瘦子，哪个更重？如果让普通人做判断：“这不废话吗，当然是胖子重了。”但，如果让一个严谨的统计学专家做判断，他会说，“这必须要有证据来做判断”。于是，统计学家拿来一个电子秤，把胖瘦两人各称了一遍。结果是：50kg vs 90kg。
        但，专家还是不放心：“虽然从检测结果来看两者有差异，但这个可能是真实差异，也可能是我看走眼、电子秤不稳定… …”。总之，必须要把误差因素考虑上才可以。
        于是，接下来就是多次测量求平均值、t检验，非把犯错的概率P value 算出来才放心。“90.3 > 50.0，P<1.0E-10，”这个结果的含义是：胖子重，而且我看走眼的概率是十亿份之一（假阳性的概率是1.0E-10）”。
        在任何一个严谨的科学测量中，判断两个数值是否有差异，必须要考虑这个差异可能来源两个方面：可能是真实的差异，也可能来自检测误差。
        一般的显著检验的目的，就是计算出观测到的差异来源于随机误差的概率，这样才能评判“结论是否可靠”。例如，通常说的P value（E value是blast中一种特殊的p value）小于1%，代表“做出的判断（胖子比瘦子重）是错误的概率是1%（即假阳性率，False positiverate）”。虽然可能犯错，但犯错是小概率事件，我们就忍了吧，于是接受了这个判断。（类似，上街都可能遭遇车祸，因为是小概率事件，所以，我们也就忍了……）。

三、为什么要进行校正？

        但是，在很多科学实验中，我们要做多次判断。例如，我们要判断两组样本的10000个基因的表达量是否存在组间差异：基因A是否有差异？基因B是否有差异？基因C是否有差异？….. ，如此下去，我们要进行10000次判断。如果以p value=1% (假阳性的概率是1%)作为阈值，并假设每次判断都是彼此独立的，那么即使这10000个基因实际上都没差异，也可能得出有100个差异基因的结论（100=10000*1%，阳性结果的错误率（FDR值）为100%，下文会讲到）。
        也就是说，一个小效率事件在多次反复尝试后，变成了一个多次出现的事件。也就是俗话说的，“常在河边走，哪有不湿鞋”。举个极端的例子，虽然扎针患艾滋病的概率很低，但是，普通人去医院检查偶尔扎针，和经常注射吸毒人相比，哪个感染艾滋病的概率更高？
        假如10000个基因中有100个基因是真正有差异的，在 p value=1%的阈值下，可能会得出199个基因有差异的结论（为什么是199个？真正有差异的100个基因 + 错误判断得出的99个假阳性基因。阳性结果的错误率，即FDR值约为50%(=99/199)。
        此结果表明，在进行多次检验后（即多重检验，multiple test），基于单次比较的检验标准变得过于宽松，使得阳性结果中的错误率（FDR值）已经大到令人不可忍受的地步。
        那怎么办？提高判断的标准（qvalue），单次判断的犯错概率就会下降，那么总体犯错的概率也将下降（类似，在多次相亲中，你可通过提高标准来减少看走眼的概率）。在多重检验中提高判断标准的方法，就是统计学里经常提到的“多重检验校正”。

四、矫正方法

最简单严厉的方法要属Bonferroni校正。

  举例：判断10000个基因是否有差异时，单次比较判断的出错率p value=1 %，判断10000次，犯错的次数就是100次，将p value进行校正，提高其阈值，怎样提高？1% / 100000 = 10-6（10的负6次方）。即，用原来的P值除以比较的次数，1万个基因要比较1万次，就用1% 除以10000，整体假阳性次数被控制在0.01次（1×10-6✖️10000次），最终使得预期犯错误的次数不到1次，抹杀了一切假阳性的概率。
  Perfect，滴水不漏，管控够严了。但有一个问题，标准定太高了，导致最后找不到显著表达的蛋白，如果一些基因真的存在表达差异，也很有可能达不到我们的阈值标准，被误判为没有差异，这就是假阴性率提高了（类似如果相亲标准定太高了，也可能会导致我们错失本来合适的另一半）。
  其他参考资料：https://wenku.baidu.com/view/c0008226a58da0116d17492e.html

于是，各路统计学的大侠设计了各种折中的方案。

 目前在RNA-seq结果分析中，应用最广泛的是Benjamini andHochberg在1995年第一次提出的FDR(FalseDiscoveryRate)的概念以及相应的多重检验校正方法（这个非参数的方法简单、粗暴、实用，谷歌学术显示此文章被引用了21670次，神一般的文章）。
 其出发点就是基于Bonferroni的保守性，给出了控制FDR的方法（这是FDR控制方法的祖师爷了），努力在假阳性和假阴性间达到平衡。FDR本质是一种控制阳性结果中的假阳性率的思路，其将假/真阳性比例控制到一定范围之内。
 举例：判断10000个基因是否有差异，设定的阈值为FDR值＜5%，意味着：无论得到多少个差异蛋白，这些差异蛋白中出现假阳性的概率保持在5%之内，这就叫FDR＜5%。
 
那么，怎么从p value 来估算FDR？
 举例：Benjamini andHochberg对p值进行多重检验校正的过程实际上非常简单，总结起来就2句话，如下：
 1.  当同一个数据集有n次（n>=2）假设检验时，要做多重假设检验(multipletesting)校正，改进其对假阳性估计的保守性。
 2. BH校正是对每个p-value做校正，转换为q-value。q=p*n/rank，其中rank是指p-value从小到大排序后的次序。（Bonferroni校正，是简单地将p-value的cutoff除以n，然后整体都采用这个标准，没有针对每一次比较的p值进行区分对待。）

举个具体的实例：

     检测了M个基因在A,B,C,D,E一共5个时间点的表达量，求其中的差异基因，具体做法：
     （1）首先做ANOVA，确定这M个基因中有哪些基因至少出现过差异
     （2）5个时间点之间两两比较，一共比较5*4/2=10次，则多重假设检验的比较次数n=10
     （3）每个基因做完10次假设检验后都有10个p-value，对这10个p值进行校正，得到q-value
     （4）根据q-value判断在哪两组之间存在差异

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

统计学

生物信息学

p-value，q-value,FDR 的相关文章

【读书笔记-＞统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

总体比例与样本比例假设一个情境曼帝糖果公司再一次进行了抽样以便利用调查结果预测总体中有多大比例的人可能偏爱曼帝公司的糖球结果发现在40个人中有32个人偏爱他们的口香糖球其余8个人则偏爱竞争对手的口香糖球首席执行官感兴趣的是
统计学1：基本知识——均值、方差、标准差

总体 Population 抽样 Sample 均值 mean i
蓄水池抽样算法（Reservoir Sampling）

蓄水池抽样算法 Reservoir Sampling 问题描述问题分析代码实现数学证明问题描述给定一个数据流数据流长度N很大且长度不可预知问如何在仅遍历一次数据的情况下如何等概率抽取m个样本问题分析首先明确概念等概
shell中for循环变量常见使用场景

shell中for循环变量常见使用场景 1 目的在shell脚本for循环使用过程中经常出现非常规使用场景如在awk的条件语句中输出文本中变量后有字符等这些场景中需要对for循环中的变量做处理希望持续完善 2不同场景 2 1 变量
PRML_频率与贝叶斯（一）

我们从数据中能得到以下信息总体信息总体所属分布或者所属的分布族带来的信息样本信息从总体中抽样得来的样本给我们提供的信息以上两种信息进行的统计推断称为经典统计学它的观点是把样本看成来自具有一定概率分布的总体先验信息在抽样之前
python q-q图和PP图

转载于https www cnblogs com king lps p 7840268 html以供学习侵权即删一 QQ图分位数图示法 Quantile Quantile Plot 简称 Q Q 图统计学里Q Q图 Q代表分位数是
R语言和医学统计学（10）：正态性和方差齐性检验

本文首发于公众号医学和生信笔记完美观看体验请至公众号查看本文医学和生信笔记专注R语言在临床医学中的使用 R语言数据分析和可视化文章目录前言正态性检验 shapiro wilk检验 kolmogorov smimov检验方差齐
数据分析之非参数检验与二元逻辑回归结果不一致的原因

在对两组数据进行非参数检验时各项属性间无统计学差异但以分类变量作为因变量使用二元逻辑回归进行分析时其中存在属性p值小于0 05 即该变量对因变量的影响具有显著性导致该情况的原因可能是由于两个检验方法所用的假设和检验策略不同所致非
MATLAB实现多元线性回归

function b bint r rint stats Multiple linear regression X y alpha Multiple linear regression 多元线性回归对于输入数据必须是去除量纲之后的数据
卡方分布

以上讲了一种称为服从正态分布的概率密度函数今天讲一讲服从卡方分布的概率密度函数首先给出该函数的定义自由度是公式中一个重要参数自由度不同图形的形状也完全不同众所周知直线方程中的参数k是斜率它控制着直线的倾斜角度它不同
伯努利分布、二项分布、泊松分布、指数分布、Gamma分布的联系

伯努利分布 0 1分布伯努利分布是二项分布在N 1时的特例随机变量为取值为0或者1 二项分布 N次重复且独立的伯努利实验随机变量为在N次实验中出现某种情况概率为p 的次数K 泊松分布二项分布的极限形式 N趋于无穷大 P趋于0 描述
参数估计（点估计和区间估计）

参数估计是以抽样分布为中介用样本的参数特征对总体的参数进行数值估计的过程一点估计 1 点估计就是用样本统计量来估计总体参数概念理解当我们想知道某一总体的某个指标的情况时测量整体该指标的数值的工作量太大或者不符合实际这时我们
Illumina输出文件详解

Illumina输出文件详解 Illumina测序原理 next seq 550 基本过程基本概念 BCL文件 Base Call Files BCI文件 Base Call Index Files BGZF文件 Block GNU ZI
分类与回归树（CART）- 机器学习ML

参考 1 统计学习方法李航 2 https www cnblogs com en heng p 5035945 html 3 http blog csdn net baimafujinji article details 53269040
假设检验（一）：假设检验总体概念

写在前面的话最近在学习统计学这里仅仅是一些学习笔记方便我自己回顾以及供大家参考对于统计学我只是初学者有什么错误之处欢迎大家指出共同学习共同进步一总体概念假设检验是一种统计推断方法其主要用来判断样本与样本样本与总体之间
序列比对算法-计算生物学

1 序列比对指将两个或多个序列排列在一起标明其相似之处序列中可以插入间隔通常用短横线表示对应的相同或相似的符号在核酸中是A T 或U C G 在蛋白质中是氨基酸残基的单字母表示排列在同一列上这一方法常用于研究由共同祖先进化而
统计学习之方差分析

零案例说明为了检验某小学六年级教学质量的差异从该小学六年级的三个班级中分别选取一定数量的学生分成三个组三个样本对他们期末考试的平均分进行统计分析如果实验显示每个每组的均值相同即三个班期末考试的成绩差异不大则表明该小学六年级
统计学---之样本方差与总体方差的区别

前段日子重新整理了一下这个问题的解答跟大家分享一下如果有什么错误的话希望大家能够提出来我会及时改正的话不多说进入正题首先我们来看一下样本方差的计算公式刚开始接触这个公式的话可能会有一个疑问就是为什么样本方差要除以 n 1 而
统计学:方差分析和相关分析的区别和联系

区别方差分析目的是检验因素是否对总体起作用方法是不同的分组施加不同的因素水平然后看组间差距是否明显大于组内差距若明显大于则认为因素对总体起作用具体过程中方差分析只读取因变量数据而不读取自变量数值相关分析是检验变量之间是否有依
时间序列平稳性相关检验方法

理解平稳性一般来说平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列特别是在均值和方差方面平稳性可能是一个比较模糊的概念将序列排除为不平稳可能比说序列是平稳的更容易通常不平稳序列有几个特征平均值随时间推移发生变化

随机推荐

Sharding-JDBC分布式事务之（五）BASE事务（Seata框架——AT模式的启动）

Seata框架启动 Seata框架 AT模式的启动 1 服务中心为nacos方式启动seata 1 1 nacos启动与建表 1 2 registry conf 1 3 客户端 TM RM 配置 2 服务中心为file 直连方式启动sea
springCloud微服务系列——分布式日志采集

目录一简介二思路三自定义Logback appender 属性注入 Logback标签注入属性 Spring配置信息注入属性 Logback代码注入属性 Elasticsearch模板设计示例代码一简介分布式应用必须有一
[附源码]SSM计算机毕业设计基于web场馆预约管理系统JAVA

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 SSM mybatis Ma
Java的HttpServletResponse对象使用（请求和响应）

一学习目标 1 HttpServletResponse对象 2 HttpServletResponse应用 3 RequestDispatcher接口二重点知识 Servlet最主要的作用就是处理客户端请求并向客户端做出响应为此
2021-10-04

Centos 7安装Notepad 安装snap sudo yum install epel release sudo yum install snapd sudo systemctl enable now snapd socket sud
使用TWRP Recovery刷入CM13等第三方ROM教程

http www miui com thread 4492914 1 1 html 首先可以使用论坛里发布的中文TWRP或者我改的http www miui com forum php mo page 1 pid124770869里的中文
巧解高并发之消息压缩

随着互联网的发展高并发问题几乎是每个企业都会面临的问题而目前解决高并发最受欢迎的便是微服务通过类似于增加服务器数量而达到一种人多力量大的效果而解决这类问题除了增加人的数量还可以精简任务降低繁琐度那么目标就到了消息上既
量化投资学习——一些牛比的量化投资公司

Jane Street Jane Street是华尔街最神秘的交易公司以关注科技和股票交易而闻名去年他们总交易额达到了5万亿美元 Jane Street公司成立于2000年目前拥有600多名员工每天股权交易量高达130亿美元有消息
多线程造成的资源以及系统状态问题 ==> 多线程造成状态混乱 :参考文章

为什么80 的码农都做不了架构师 gt gt gt 实战体会Java多线程编程精要在 Java 程序中使用多线程要比在 C 或 C 中容易得多这是因为 Java 编程语言提供了语言级的支持本文通过简单的编程示例来说明 Java 程序中
jeesite图片上传并显示

前几天大哥叫我搞个这的需求出来上传图片并展示出来并且后台对图片进行裁剪上传前端传来的图片是个base64的编码格式的图片点击新增点击上传图片可进行裁剪然后上传并且展示出来前端form页面附上记住 path路径一定要对上
jmeter

我整理了一下性能测试的一些常见指标大家看看还有没有需要完善的性能测试是评估系统在特定工作负载下的能力和可靠性的过程常见的性能测试指标包括以下几种 1 响应时间 Response Time 系统从接收请求到返回响应所需的时间 2 吞吐量
一文读懂运放规格书参数（2）

1 电源抑制比 Power supply rejection ratio PSRR 定义双电源供电电路中保持负电源电压不变输入不变而让正电源产生变化幅度为 VS 频率为 f 的波动那么在输出端会产生变化幅度为 Vout 频率为 f
IEEEE trans模板中怎么使用algorithm2e

IEEEE trans模板中怎么使用algorithm2e 本文主要记录如何在IEEEE trans模板中使用algorithm2e 避免踩坑找不到解决方案目录 IEEEE trans模板中怎么使用algorithm2e 1 注释掉该注
2003系统internet信息服务器,WindowsServer2003创建和管理Internet信息服务器.docx

F图 F图 Windows Server 2003 实训报告班级软件设计10 2姓名学号得分实训九创建和管理In ternet信息服务器实训目的掌握Web FTP服务器的配置实训环境 1 装有 Windows Server 2
pssh远程批量执行命令

Pssh pssh是python写的可以并发在多台机器上批量执行命令的工具它的用法可以媲美ansible的一些简单用法执行起来速度比ansible快它支持文件并行复制远程命令执行杀掉远程主机上的进程等等杀手锏是文件并行复制当进行
【Spring Boot】详解restful api

目录 1 restful api 1 1 历史 1 2 内容 1 3 传参 2 Spring Boot中的Restful Api 1 restful api 1 1 历史 RESTful API Representational State
netty入门实例

Netty 5用户指南 http ifeve com netty5 user guide Netty是一个NIO框架使用它可以简单快速地开发网络应用程序比如客户端和服务端的协议 Netty大大简化了网络程序的开发过程比如TCP和UDP的
PCL 获取格网最低点（C++详细过程版）

格网最低点一概述二代码实现三结果展示 1 原始点云 2 滤波结果一概述获取格网最低点在PCL里有现成的调用函数具体算法原理和实现代码见 PCL GridMinimum获取栅格最低点为充分了解GridMinimum算法实
Mysql binlog 日志

Mysql binlog 日志一 Binlog格式介绍模式1 Row 日志中会记录成每一行数据被修改的形式然后在slave端再对相同的数据进行修改优点 row level模式下 bin log中可以不记录执行的sql语句的上下文相关
p-value，q-value,FDR

假阴性错误 false negative errors 高水平的基因可能偶尔没有检测到假阳性错误 false positive errors 低水平表达的基因由于扩增偏差可能显得过于丰富导致假阳性错误错误发现率 False Disc

p-value，q-value,FDR

p-value，q-value,FDR 的相关文章

随机推荐

热门标签