蛋白质组学数据的归一化/标准化处理

2023-11-01

1.前言

  • 目的:
    调整由于技术,如处理、上样、预分、仪器等造成的样本间误差。这实际上是一种数据缩放的方法。一般在一个表达矩阵中,会涉及到多个样本,其表达量差异比较大,不能直接进行比较。比如某个样本表达量很大,在总体中就会占据绝对领导地位,这样就会掩盖掉表达量小的样本的作用,但并不代表它不重要,也有可能是这个样本含有较多的低表达基因,所以需要指定一个统一的标准,提前对样本原始表达量进行一定的处理。

  • 起源:
    处理方法借鉴基因表达数据,如RNAseq和芯片数据。在RNAseq数据中,通常需要消除基因长度、测序量等因素产生的误差。转录组和芯片数据处理相对比较成熟,有现成的方法和工具可用,如RPM/CPM、TPM、RPKM等等。当然蛋白质组数据的标准化也有其独特的地方,如它主要通过是峰面积来定量的,需要对不同run之间的峰面积进行标准化,这在大部分搜库软件中都有处理。

  • 归一化与标准化的区别:
    归一化是特殊的标准化,在生信领域不严格区分。归一化Normalization一般是把数据缩放到一定范围,如[0,1], 受离群点影响大;标准化Standardization一般把数据缩放成均值为0,方差为1的状态,即重新创建一个新的数据分布,受离群点影响小,但变换后的数据边界不确定。

  • 特点:
    消除了量纲(单位)的影响,真正突出数据的差别,有点绝对值变为相对值的感觉。
    对指标进行了统一,解决数据性质不同的问题。
    标准化后的数据收敛速度更快,计算时间会短很多。

数据缩放scaling(标准化、归一化)的那些事
表达矩阵的归一化和标准化,去除极端值,异常值
基因芯片数据分析(一)--芯片数据预处理

2.主要方法及代码实现

蛋白质组中标准化的工具较少,一般是自己编写代码。一般用apply结合sweep函数来实现。

一个表达矩阵,通常行为蛋白,列为不同样本,我们可以标准化行,也可标准化列,具体问题具体分析,关键在于要解释什么问题。比如我们要尽可能减弱系统偏差对样本蛋白定量值的影响,使各个样本和平行实验的数据处于相同的水平,让下游分析更为准确可靠,我们需要对列进行归一化。类似于我们做WB或QPCR实验时,会选择内参校正多个样本的定量值。添加内参或QC的方法在代谢组学的标准化中常用。

image.png

前四种方法通过将每个蛋白原始定量值除以对应样本的某指定值(如平均值、中位数、最大值和总和等)实现校正,每个样本的指定值在校正后变为1;后三种方法通过一定标准对原始数据进行缩放实现校正。

  • 中位数/均值/总和标准化

sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位数不受数列的极大值或极小值影响。
sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”)
sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/")
  • 中心化变换
    将每一个数据减去对应列的均值,数据变换后,均值为0,方差不变。中心化以后,由于数据的均值变成0,可以消除量纲、数据自身差异所带来的影响(此处是做减法而不是除法,所以变量的单位还是保留的),而且对线性回归以及模型预测方面也有好处。

sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函数:

scale(data,center=T,scale=F) #center中心化,scale标准化
  • 极差标准化
    将每一个数据减去对应列的均值,然后除以对应列最大值与最小值之间的差值。

datacenter <- sweep(data_read,2,apply(data_read,2,mean,na.rm=T),FUN="-")
daraR <- apply(data_read,2,max,na.rm=T) - apply(data_read,2,min,na.rm=T)
sweep(datacenter,2,dataR,FUN="/")
  • 正态标准化
    将每一个数据减去对应列的均值,然后除以对应列的标准差,称之z-score(标准差标准化),其实就是scale函数中的scale参数。

scale(data,center=T,scale=T)

中位数、均值、中心化之类的标准化方法是将数据按照一定的比例进行缩小,但是缩小的范围是不确定的;而总和标准化、极差标准化、正态标准化之类的标准化方法可以将原始数据缩小到一个很有限的范围(比如缩小到[0,1]范围以内),比如有些机器学习方法,是要求对数据做正态标准化的,这种标准化的数据可以保证后续的运算速度更快。

如果要对行进行标准化,要求数据尽量在同一个尺度(scale)下进行比较,比如做层次聚类热图,建议将行的数据也进行标准化,这样每一行的数据就会控制在同一个尺度之下,颜色的深浅能更好地表现出数据的变化趋势。

http://www.360doc.com/content/19/0628/17/52645714_845432507.shtml

3.标准化方法评估

有一些类似的文章发表,简单看了下。
以下一篇是综述,描述了整个蛋白鉴定过程中(包括实验部分)有可能遇到的标准化处理的过程。
What is Normalization? The Strategies Employed inTop-Down and Bottom-Up Proteome Analysis Workflows

下面一篇文章综合比较了11种不同归一化的性能:

image.png


variance stabilization normalization(VSN)方法能降低的技术重复间差异最大。Linear regression normalization and local regression normalization的总体效果也不错。
A systematic evaluation of normalization methods in quantitative label-free proteomics

4.MaxQuant中的Intensity,LFQ和iBAQ

大佬的软件,三种定量算法都发了文章。

  • Intensity是将某Protein Groups里面的所有Unique和Razor peptides的信号强度加起来,作为一个原始强度值。用得很少。
  • iBAQ是在Intenstiy的基础上,将原始强度值除以本蛋白的理论肽段数目。一般用于样本内不同蛋白的比较,因为它表征的是蛋白的摩尔比值(copy number)。也可用于不同样本比较,即通过归一化手工校准样本间误差:蛋白IBAQ值除以此样品所有蛋白的强度的和,计算比例(这也是组学中“等质量上样”和“等体积上样”的核心区别,等质量上样来看的是比例,但是计算比例是有压缩效应的)。用得较少。
  • LFQ则是将原始强度值在样本之间进行校正,以消除处理、上样、预分、仪器等造成的样本间误差。一般用于同一蛋白不同样本间的比较。不过我们拿到数据后,我们还是会过滤、填充、转换、标准化一条龙走一遍。用得最多。

蛋白组学定量值的比较说明

5.资源列表



作者:米源MY
链接:https://www.jianshu.com/p/de25afe02a33
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

蛋白质组学数据的归一化/标准化处理 的相关文章

随机推荐

  • 基于Qt的OpenGL编程(3.x以上GLSL可编程管线版)---(十六)实例化

    Vries的原教程地址如下 https learnopengl cn github io 04 20Advanced 20OpenGL 10 20Instancing 关于实例化的详细设置介绍与设置与参数设置请查看这个教程 本篇旨在对Vir
  • C++的嵌套依赖别名(typename的用法)

    看了很多遍 还是记录一下 1 在模板声明时typename和class是等价的 template
  • PyTorch训练时准确率不变

    今天复现了文章中的一个模型 刚开始学习率lr 0 01 准确率总是为20 分类目标有5个类 基本不变 刚开始我以为给模型的数据传错了 或者模型的处理有那个步骤有问题 最终多次尝试后 发现把学习率降低 结果就有效了 如我把学习率降低为lr 0
  • 我所钟爱的电影之二-公路片

    我爱公路片 人生只不过一次流浪 命运之途中 沿途风景或许都会遗忘 咫尺和遥远或许就在一瞬间 逝去的我们会怀念 一辈子就是活着的每一天 也许我不能环游世界 但幸好这个世界上有电影可以带我去 不管出走的初衷为何 在途中我们都会遇见爱 只因我们在
  • Selenium六 find_element_by_xpath()的几种方法

    Xpath XML Path Language 是W3C定义的用来在XML文档中选择节点的语言 一 从根目录 开始 有点像Linux的文件查看 代表根目录 一级一级的查找 直接子节点 相当于css selector中的 gt 号 html
  • SpringCloudAlibaba - Seata (2) AT 模式源码分析

    seata AT 模式的业务零侵入性 依靠的就是自动装配 starter 包 1 如何开启的全局事务 实现核心为 SeataAutoConfiguration 注入的 GlobalTransactionScanner Conditional
  • Qt 开发应用--颜色选择器ColorCopy

    Qt 开发应用 颜色选择器ColorCopy Qt颜色选择器 提供10大类100种颜色可选 点击即为复制 随处 Ctrl V 粘贴使用 提供有 Red Pink Purple Indigo Blue Green Yellow Orange
  • 进程和线程以及协程

    1 基本概念 进程和线程 进程 是系统资源分配的基本单位 实现了操作系统的并发 线程 是CPU调度的基本单位 实现了进程内的并发执行 并发是把任务在不同的时间点交给处理器进行处理 在同一时间点 任务并不会同时运行 并行是把每一个任务分配给每
  • 个人经济学管理tips

    摘录一些观点 作为茶余饭后的谈资 不清楚自己的热爱和目标时 每天把头脑最清醒的1小时留给自己 学习 思考 3个小时陪伴家人 剩下的时间 谁给钱多就给谁干 一居室好过养老年金险 房产保值升值 租金跑得赢通胀 一套刚需 一套改善 一套投资 三套
  • Win10系统下编译FFmpeg

    1 使用git下载源码 git clone git source ffmpeg org ffmpeg git ffmpeg 2 FFmpeg在windows平台编译需要使用MinGW w64来编译 单独使用MinGW w64比较麻烦 推荐使
  • pip镜像安装 python 安装库

    pip install openpyxl i https mirrors aliyun com pypi simple pip 本身更新 pip install upgrade pip vvv 上面是阿里云的 我用了特别快 语法 安装pip
  • 专利情况的基本了解

    专利 目标专利的拆解 提前关键词 构建检索式 适当的进行补充检 拆解已有技术的技术特征 申请书 说明书 权利要求 摘要 附图 优先权请求 发明 实用新型和外观设计 发明专利 实用新型专利和外观设计专利 发明专利 针对产品 方法或者产品 方法
  • c语言中两个有序数组合并,C语言算法:有序数组合并-2020-08-21

    方法 就是同时遍历两个数组 通过比大小 组成一个新数组 数组参数最好带上一个长度参数 防止越界 代码 合并数组 其中a b都是从小到大有序排列的数组 void mergeList int a int aLen int b int bLen
  • 高德地图api 地理编码(地址-->坐标)geocoder.getLocation在官方可以测试出结果,下载代码到本地却用不了 问题解决

    问题 高德地图api 地理编码 地址 gt 坐标 功能 通过输入 地址信息 得到 经纬度信息 geocoder getLocation在官方可以测试出结果 下载代码到本地却用不了 官方示例测试 可以从地址得到坐标 下载官方代码本地运行却出不
  • 最全的雅思8000词汇pdf_雅思听力场景分类词汇汇总,听力提分先搞定它!

    很多烤鸭来和哥聊天 聊听力的时候 大部分都会出现以下对话内容 为了让大家更加身临其境 我就做的趣味性点了哈 一 定 要 看 完 对 大家都是拿完资料就溜 一有问题就找哥谈心 不夸哥就算了 还不拿赞出来给哥 哼 抱住坚强的自己 擦干眼泪给你们
  • 2023 K8s 认证工程师 CKA 考题分析和题库练习(下)

    目录 10 考核知识 检查可用节点数量 题目内容 题目内容中文解释 做题解答 11 考核知识 一个 Pod 封装多个容器 题目内容 题目内容中文解释 官方文档搜索关键字 pod 编辑做题解答 12 考核知识 持久卷 PersistentVo
  • python列表+元组+字典+集合

    声明 本人的所有博客皆为个人笔记 作为个人知识索引使用 因此在叙述上存在逻辑不通顺 跨度大等问题 希望理解 分享出来仅供大家学习翻阅 若有错误希望指出 感谢 Python列表 序列中的每个元素都分配一个数字 它的位置 或索引 第一个索引是0
  • java设置多个数据源

    1 设置config properties文件 设置两个数据库连接 2 设置spring context xml文件 定义名为testDataSource和dataSource两个连接
  • LeetCode刷题顺序(新手入门)

    本刷题策略为leetcode官方的新手村策略 跟着主页官方的新手村策略刷题 按照每天刷三简单题或两中等题或一难题的速度刷题 每天预计花费1 5h 下面的顺序是探索卡中的顺序 数组 分为三部分 1 做好初始定义 2 运用基础算法思想 3 双索
  • 蛋白质组学数据的归一化/标准化处理

    1 前言 目的 调整由于技术 如处理 上样 预分 仪器等造成的样本间误差 这实际上是一种数据缩放的方法 一般在一个表达矩阵中 会涉及到多个样本 其表达量差异比较大 不能直接进行比较 比如某个样本表达量很大 在总体中就会占据绝对领导地位 这样