论文剖析
热门论文:
AgeGuess,一种预测人类年龄的甲基化模型
///
1. 介绍
衰老是一个生物过程,受到遗传因子和细胞内各种分子修饰的影响。多项研究表明,使用甲基组数据可以准确预测实际年龄。本篇文章针对年龄回归问题,提出了一种三步特征选择算法。AgeGuess选择了107个甲基化特征作为性别独立的年龄生物标志物,使用这些生物标志物的支持向量回归模型(SVR)预测的年龄与实际年龄的平均绝对偏差(MAD)达到2.0267。性别独立的年龄预测模型可以通过建立两个性别特异性模型来进一步完善。
2. 介绍
衰老是几乎所有多细胞生物普遍存在的现象。越来越多的证据表明,衰老是一个严格受表观遗传修饰调控的生物过程,而不是随机事件。DNA甲基化被认为参与了各种与年龄相关的生物学过程。DNA甲基化是在DNA甲基转移酶的促进下选择性地将一个甲基添加到胞嘧啶中形成5胞嘧啶的生物学过程。这种表观遗传修饰在转录调控等生物过程中发挥着至关重要的作用。
特征选择算法在许多生物医学研究领域得到了应用。特征选择算法可以显著降低模型复杂度和过拟合的可能性。特征选择不仅广泛应用于基因的生物信息学问题、蛋白质,和新陈代谢系统,而且在生物医学图像分析和时间序列数据也发挥了重要作用。
本研究提出了一个三步特征选择算法,AgeGuess,使用甲基组谱以找到最佳年龄预测生物标志物。指标的最大信息系数(MIC)是一个敏感的相关测量,用于去除那些MIC与年龄相关性较小的甲基体特征。剩余的特征基于支持向量回归的评价被递归消除。最后一步基于彻底筛选,迭代地删除特征。
3.材料和方法
1.1 数据集
本研究使用了甲基组数据集GSE40279,该数据集从数据库Gene Expression Omnibus (GEO)中公开获得。使用甲基体平台Illumina HumanMethylation450BeadChip (accession GPL13534)对数据集GSE40279进行了分析。在这个数据集中有656个按实际年龄排序的样本,每个样本都对485,577个甲基体进行了分析。甲基体是使用从年龄19-101岁的426名白种人和230名西班牙人的全血样本生成的。与现有研究一样,本研究的分析中也排除了性染色体。因此,还有473,034个CpG特征可供进一步分析。
1.2 特征选择算法 AgeGuess
这些50万个甲基体特征并非都与衰老过程有关,现有的所有研究都选择了一个特征子集来构建其年龄预测模型。因此本研究提出了一种特征选择算法AgeGuess来寻找年龄预测性能最好的特征子集。
单步特征选择算法大致可以分为两大类:、过滤器和包装器。为了充分利用过滤器和包装器的优点,多步特征选择算法可以在第一步显著减少特征的数量。然后可以使用更复杂和更慢的算法。下面的算法AgeGuess就是根据这个规则设计的。
首先,AgeGuess选择了10000个与样本标签(实际年龄)高度相关的甲基化特征。在这个数据集中,每个样本有473,034个甲基化特征,并不是所有这些特征都对年龄预测有贡献。度量最大信息系数(MIC)在检测两个变量之间的线性和非线性相关性方面显示出非常灵敏的能力。本研究计算了各甲基化特征的MIC与实足年龄的相关性,并保留了MIC值最大的10000个特征以供进一步分析。
然后采用递归特征消除策略对不相关的特征进行去除。递归特征消除策略依赖于特征排序,迭代去除k个排序最末的特征。本研究所研究的问题是一个回归模型,并使用支持向量回归因子(SVR)计算指标来对特征进行排序。经过训练的SVR模型产生一个权值向量特征重要度,并根据权值的下降顺序对特征进行排序。这个过程是迭代进行的,直到所有的特征被删除。返回回归性能最佳的特征子集。
最后,再进行一次冗余去除步骤,进一步细化上述步骤得到的特征子集。对性能下降最小的特征进行迭代排除,与其他研究中的backFS策略相同。性能通过10倍交叉验证策略进行计算。
一个好的特征选择算法往往选择较少的特征,从而获得较高的预测性能。但是这两个性能指标通常不能同时实现。因此,本研究以综合评价指标(EI)为优化目标。EI定义为(MAD+FNum/100),其中MAD为平均绝对偏差,FNum为特征选择算法选择的特征个数。这个回归性能指标表明,多选择一个特性可以使总体性能提高0.01。并利用指标EI对上述backFS策略进行优化。
3.3 绩效评价指标
本研究利用平台GEO的656个样本研究了年龄预测问题。多重回归性能指标用于评估生成的回归模型的执行情况。指标均值绝对偏差是预测年龄与实际年龄之间的平均绝对误差值。均方误差(MSE)和均方根版本的MSE (RMSE)是另外两个广泛使用的回归性能指标。指标拟合优度(R2)定量评估回归模型拟合数据的程度。这些回归指标在Python版本3.6.4的软件包scikit-learn版本0.19.1中实现。
4.结果
提出的特征选择算法AgeGuess从473,034个MIC系数最大的甲基体特征中选择了1万个具有实际年龄的甲基体特征。AgeGuess假设排除的特征的贡献可能被忽略,因为它们与实际年龄的MIC系数很小。
AgeGuess的第二步利用RFE框架迭代地删除特性,如图1所示。由于剩余特征的数量仍然很大,本研究设k = 50,即每次迭代去除50个经训练的SVR模型计算出的特征重要度权重最小的特征。图1A表明,在10000个甲基化特征中,大部分对年龄预测性能没有贡献。在图1A的线形图中,有一个小于1500个特征的“谷”。因此,图1B在区间内放大了线形图[2000,50]。数据表明,MAD值在900 ~ 500之间,比较小。750个特征,得到最小值MAD = 0.5809。
提出的算法AgeGuess通过函数backFS进一步消除了甲基化特征中的冗余。对上述步骤中选择的750个甲基化特征进行迭代评估,如果删除的特征对年龄预测性能指标EI的贡献最小,则每次迭代删除一个特征。如图2A所示,在横轴上谷值大约为100个特征。图中进一步放大了50到150个特性,如图2B所示。选取107个特征时,年龄回归指标EI达到最小值3.0316。
使用107个甲基化特征训练SVR回归模型,并通过以下回归性能指标进行评估。图3显示RealAge和PredAge非常接近。对10次交叉验证的预测性能进行平均,并对10个随机rusns进行平均得到最终结果。平均绝对偏差为2.0267年。AgeGuess的模型实现了其他两个指标RMSE和R2分别为1.6149和0.9672。
更多有趣资讯扫码关注 BBIT