最大信息系数mic python_生物信息学

2023-11-10

论文剖析

热门论文：

AgeGuess，一种预测人类年龄的甲基化模型

///

1. 介绍

衰老是一个生物过程，受到遗传因子和细胞内各种分子修饰的影响。多项研究表明，使用甲基组数据可以准确预测实际年龄。本篇文章针对年龄回归问题，提出了一种三步特征选择算法。AgeGuess选择了107个甲基化特征作为性别独立的年龄生物标志物，使用这些生物标志物的支持向量回归模型(SVR)预测的年龄与实际年龄的平均绝对偏差(MAD)达到2.0267。性别独立的年龄预测模型可以通过建立两个性别特异性模型来进一步完善。

2. 介绍

衰老是几乎所有多细胞生物普遍存在的现象。越来越多的证据表明，衰老是一个严格受表观遗传修饰调控的生物过程，而不是随机事件。DNA甲基化被认为参与了各种与年龄相关的生物学过程。DNA甲基化是在DNA甲基转移酶的促进下选择性地将一个甲基添加到胞嘧啶中形成5胞嘧啶的生物学过程。这种表观遗传修饰在转录调控等生物过程中发挥着至关重要的作用。

特征选择算法在许多生物医学研究领域得到了应用。特征选择算法可以显著降低模型复杂度和过拟合的可能性。特征选择不仅广泛应用于基因的生物信息学问题、蛋白质,和新陈代谢系统,而且在生物医学图像分析和时间序列数据也发挥了重要作用。

本研究提出了一个三步特征选择算法，AgeGuess，使用甲基组谱以找到最佳年龄预测生物标志物。指标的最大信息系数(MIC)是一个敏感的相关测量，用于去除那些MIC与年龄相关性较小的甲基体特征。剩余的特征基于支持向量回归的评价被递归消除。最后一步基于彻底筛选，迭代地删除特征。

3.材料和方法

1.1 数据集

本研究使用了甲基组数据集GSE40279，该数据集从数据库Gene Expression Omnibus (GEO)中公开获得。使用甲基体平台Illumina HumanMethylation450BeadChip (accession GPL13534)对数据集GSE40279进行了分析。在这个数据集中有656个按实际年龄排序的样本，每个样本都对485,577个甲基体进行了分析。甲基体是使用从年龄19-101岁的426名白种人和230名西班牙人的全血样本生成的。与现有研究一样，本研究的分析中也排除了性染色体。因此，还有473,034个CpG特征可供进一步分析。

1.2 特征选择算法 AgeGuess

这些50万个甲基体特征并非都与衰老过程有关，现有的所有研究都选择了一个特征子集来构建其年龄预测模型。因此本研究提出了一种特征选择算法AgeGuess来寻找年龄预测性能最好的特征子集。

单步特征选择算法大致可以分为两大类:、过滤器和包装器。为了充分利用过滤器和包装器的优点，多步特征选择算法可以在第一步显著减少特征的数量。然后可以使用更复杂和更慢的算法。下面的算法AgeGuess就是根据这个规则设计的。

首先，AgeGuess选择了10000个与样本标签(实际年龄)高度相关的甲基化特征。在这个数据集中，每个样本有473,034个甲基化特征，并不是所有这些特征都对年龄预测有贡献。度量最大信息系数(MIC)在检测两个变量之间的线性和非线性相关性方面显示出非常灵敏的能力。本研究计算了各甲基化特征的MIC与实足年龄的相关性，并保留了MIC值最大的10000个特征以供进一步分析。

然后采用递归特征消除策略对不相关的特征进行去除。递归特征消除策略依赖于特征排序，迭代去除k个排序最末的特征。本研究所研究的问题是一个回归模型，并使用支持向量回归因子(SVR)计算指标来对特征进行排序。经过训练的SVR模型产生一个权值向量特征重要度，并根据权值的下降顺序对特征进行排序。这个过程是迭代进行的，直到所有的特征被删除。返回回归性能最佳的特征子集。

最后，再进行一次冗余去除步骤，进一步细化上述步骤得到的特征子集。对性能下降最小的特征进行迭代排除，与其他研究中的backFS策略相同。性能通过10倍交叉验证策略进行计算。

一个好的特征选择算法往往选择较少的特征，从而获得较高的预测性能。但是这两个性能指标通常不能同时实现。因此，本研究以综合评价指标(EI)为优化目标。EI定义为(MAD+FNum/100)，其中MAD为平均绝对偏差，FNum为特征选择算法选择的特征个数。这个回归性能指标表明，多选择一个特性可以使总体性能提高0.01。并利用指标EI对上述backFS策略进行优化。

3.3 绩效评价指标

本研究利用平台GEO的656个样本研究了年龄预测问题。多重回归性能指标用于评估生成的回归模型的执行情况。指标均值绝对偏差是预测年龄与实际年龄之间的平均绝对误差值。均方误差(MSE)和均方根版本的MSE (RMSE)是另外两个广泛使用的回归性能指标。指标拟合优度(R2)定量评估回归模型拟合数据的程度。这些回归指标在Python版本3.6.4的软件包scikit-learn版本0.19.1中实现。

4.结果

提出的特征选择算法AgeGuess从473,034个MIC系数最大的甲基体特征中选择了1万个具有实际年龄的甲基体特征。AgeGuess假设排除的特征的贡献可能被忽略，因为它们与实际年龄的MIC系数很小。

AgeGuess的第二步利用RFE框架迭代地删除特性，如图1所示。由于剩余特征的数量仍然很大，本研究设k = 50，即每次迭代去除50个经训练的SVR模型计算出的特征重要度权重最小的特征。图1A表明，在10000个甲基化特征中，大部分对年龄预测性能没有贡献。在图1A的线形图中，有一个小于1500个特征的“谷”。因此，图1B在区间内放大了线形图[2000,50]。数据表明，MAD值在900 ~ 500之间，比较小。750个特征，得到最小值MAD = 0.5809。

提出的算法AgeGuess通过函数backFS进一步消除了甲基化特征中的冗余。对上述步骤中选择的750个甲基化特征进行迭代评估，如果删除的特征对年龄预测性能指标EI的贡献最小，则每次迭代删除一个特征。如图2A所示，在横轴上谷值大约为100个特征。图中进一步放大了50到150个特性，如图2B所示。选取107个特征时，年龄回归指标EI达到最小值3.0316。

使用107个甲基化特征训练SVR回归模型，并通过以下回归性能指标进行评估。图3显示RealAge和PredAge非常接近。对10次交叉验证的预测性能进行平均，并对10个随机rusns进行平均得到最终结果。平均绝对偏差为2.0267年。AgeGuess的模型实现了其他两个指标RMSE和R2分别为1.6149和0.9672。

更多有趣资讯扫码关注 BBIT

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

最大信息系数mic python

最大信息系数mic python_生物信息学的相关文章

hi35 web服务器

在hi3516A上移植好的boa嵌入式web服务器代码 boa有61k 一次只能处理一个请求 https download csdn net download ganxiaoyagn000 9239729 appweb Appweb 6 1
android 11 存储权限,Android 11存储权限强制申请

private static final int REQUEST CODE 1024 private void requestPermission if Build VERSION SDK INT gt Build VERSION CODE
OC中的基本容器和基本数据类型

基本数据类型 NSRange 是一个结构体里面有两个数据成员数据类型都为NSUInteger 就是c语言中的无符号整形一个是location表示集合的起始地址另外一个变量是length表示从起始地址开始算多少个元素 NSRange的三
CTF-web 简介

web部分是CTF的重要组成部分之一素有WEB大魔王之称题目种类繁多关键是如何发现漏洞的类型和怎样构造特殊的负载绕过过滤 CTF分为三种模式解题模式攻防模式混合模式在线工具 https www ctftools com dow
JVM运行时数据区

文章目录 JVM内存结构图 1 运行时数据区域 JDK 1 7 JDK 1 8 1 线程栈虚拟机栈 2 本地方法栈 3 程序计数器 4 方法区元空间 5 堆 6 运行时常量池 Runtime Constant Pool 7 直接内存 D
新版MetaMask如何获取当前账户地址

window addEventListener load async gt Modern dapp browsers if window ethereum let ethereum window ethereum window web3 n
C语言中 -＞和 . 的区别

在C语言中 gt 和都是用于访问结构体 struct 成员的运算符但它们的使用场景略有不同 1 gt 运算符用于访问结构体指针的成员当你有一个指向结构体的指针时你可以使用 gt 运算符来访问该结构体的成员例如 struct Per
Linux使用第三方库链接的使用方式——静态式

目录二第三方库为静态库时方法1 两个窗口去分别模拟两个窗口公司A 客户端公司B 服务端的视角案例实现提前插播一条指令生成静态库文件的指令方法2 优化该方法在上述方法1的第10步后开始进行这里强调一个问题今天我们来学习将
记录一个AFR去嵌S参数异常的案例。

最近在使用AFR去嵌一个S参数的时候遇到了如下问题首先介绍一下这个S参数一端是MCIO连接器另一端是CEM连接器所以测试的时候一端接MCIO测试治具一端接CEM测试治具再通过线缆将测试治具连接到VNA上我大概画了一个简图如下
Java 输出机制数据类型基本数据类型转换基本数据类型和String类型的转换

目录一输出机制 1 print和println的差别 2 可接收不同类型参数 3 输出函数中符号的使用二数据类型 1 整型类型 2 浮点类型 3 字符类型三基本数据类型转换 1 自动类型转换 2 强制类型转换 3 练习题四
目标检测算法回顾之发展概览

目标检测算法的发展时间线发展历史轴时间轴线图算法方法概览思维导图说明本文仅供学习发展历史轴时间轴线图目标检测的算法发展可以追溯到很久之前这里我根据前两年的综述论文加上这两年的发展也画了两个部分的相关模型发展轴可以看到
linux命令之ssh详解

ssh openssh套件中的客户端连接工具 Linux在线工具 linux命令在线工具个人博客网站博客 Java17中文文档 JDK17中文手册 Gradle8 1 1中文文档 Gradle中文文档补充说明 ssh命令是opens
（转载）Linux 系统内核的调试

调试是软件开发过程中一个必不可少的环节在 Linux 内核开发的过程中也不可避免地会面对如何调试内核的问题但是 Linux 系统的开发者出于保证内核代码正确性的考虑不愿意在 Linux 内核源代码树中加入一个调试器他们认为内核中的调
PHP实现微信小程序状态检测（违规、暂停服务、维护中、正在修复）

实现原理进入那些状态不正常的小程序会被重定向至一个Url 使用抓包软件抓取这个Url 剔除不必要参数使用cURl函数请求网页获得HTML内容根据内容解析出当前APPID的小程序的状态代码
thrust库学习（一） —— cub::DeviceRadixSort

1 cub DeviceRadixSort 1 1 介绍 DeviceRadixSort提供设备范围内的并行操作用于跨驻留在设备可访问内存中的数据项序列计算基数排序基数排序方法按升序或降序排列项目该算法依赖于键的位置表示即每个键
LeetCode-动态规划-路径的数目

1 题目剑指 Offer II 098 路径的数目 62 不同路径 2 实现 class Solution public vector
原生js方法小记

ps 无框架时使用js的一些功能完成一些小demo 记录方法方便自己查询原生js方法小记 String 和Array 方法替换所有追加replaceAll方法 String prototype replaceAll functio
spring提供的登录j_spring_security_check

2019独角兽企业重金招聘Python工程师标准 gt gt gt 第一步 form表单提交
芯片中的上百亿个晶体管是如何设计的？

2021年4月21日在芯片界的顶级会议Hot Chips大会上 Cerebras Systems公司发布了一款晶圆级引擎芯片 Wafer Scale Engine 2 这款芯片采用台积电7纳米工艺制程拥有85万个AI核心包含2 6万亿

随机推荐

如何在html中把按钮设置为超链接

如何给按钮加上链接功能脚本说明把如下代码加入区域中
【Spring】Spring之publishEvent

观察者模式Spring之publishEvent事件处理 1 使用场景这个一般什么时候使用我们一般是在不同的bean直接进行信息传递比如我们beanA的事件处理完后需要beanB进行处理一些业务逻辑的时候这种情况就一般可以使用pub
在Linux（Ubantu)下用 PNNX 转换 TorchScript 模型到 ncnn 模型

初次使用 PNNX 的相关步骤记录目的转换 PyTorch 的 TorchScript 格式的模型文件到 ncnn 的模型文件环境操作系统 Windows Ubuntu macOS 均可 pnnx和pytorch都是跨平台的 Pyt
系统检测到您的账户不符合国家相关法律法规或《支付宝用户服务协议》约定

改用个人账户登录需要上传营业执照这样就成功了
权限设计=功能权限+数据权限

权限管理 Authority Management 目前主要是通过用户角色资源三方面来进行权限的分配具体来说就是赋予用户某个角色角色能访问及操作不同范围的资源通过建立角色系统将用户和资源进行分离来保证权限分配的实施一般指根
逆向爬虫01 requests模块

python requests模块 requests是一个python模拟浏览器发送http请求的模块 1 使用requests模块发送get请求获取网页源代码 import requests url http www baidu com
strictfp有什么作用

关键字 strictfp 是 sitict float point 的缩写指的是精确浮点它用来确保浮点数运算的准确性 JVM 在执行浮点数运算时如果没有指定 strictip 关键字此时计算结果可能会不精确而且计算结果在不同平台或
一不小心就弄懂了冒泡，选择，插入，希尔,归并和快速排序

今天我们主要看一些简单的排序常见的时间复杂度常数阶 1 对数阶 log2n 线性阶 n 线性对数阶 nlog2n 平方阶 n 立方阶 n K次方阶 n k 指数阶 2 n 常见的时间复杂度对应图 1 log2n n nlog2n n n
PKU2019暑期学堂游记

诈尸写博客QaQ 一塔湖图 Day 0 18 00 从学校出发 with另外三个同学前往南站 20 20上动车感觉人好少的样子房间灯是坏的还换了一间在火车上刷知乎提前体验一下夏令营而其他人都在弯道QwQ 好多人水群啊QwQ D
新手入门哪个视频剪辑软件好用

当下视频剪辑已成为一种全新记录生活的方式许多人剪辑视频都是从零基础开始学习那么从入门开始选择的软件就显得比较重要了今天在这里给大家推荐一款适合新手入门的视频剪辑软件会声会影图1 会声会影软件会声会影是一款很亲民的视频剪辑软件
C语言

include
vue实现页面停留时间统计

前言在实际业务中埋点需求是前端开发中非常重要的数据指标获取的方式之一今天主要聊一下页面停留时间的统计简略版每个页面独自实现相关统计并上报数据 export default data return startTime 0 cre
SQL注入-联合注入

页面有显示位时可用联合注入本次以 SQLi 第一关为案例第一步判断注入类型参数中添加单引号如果报错说明后端没有过滤参数即存在注入 id 1 从数据库的报错中我们可得知最外边的一对单引号是错误提示自带的我们不用管我们
pip install -r requirements.txt报错ERROR解决办法

这个问题困扰了我很长时间因为做的时候没有保存错误的截图所以只能写一些思路 1 首先是vscode的环境然后在里面安装Build Tools 这个很重要否则会一直报错安装包图片是上面这两个下载的话Visual Studio Cod
脚本收集服务器信息,shell脚本批量收集linux服务器的硬件信息快速实现

获取默认IP default ip ifconfig head n 2 tail n 1 cut d f 2 cut d f 1 获取产品的名称如果是简化版的linux系统需要先安装dmidecode工具包 product name d
java高并发的处理--锁机制

对于我们开发的网站如果网站的访问量非常大的话那么我们就需要考虑相关的并发访问问题了而并发问题是绝大部分的程序员头疼的问题但话又说回来了既然逃避不掉那我们就坦然面对吧今天就让我们一起来研究一下常见的并发和同步吧为了更好的理解并
phpstudy小皮 sqli-libs 靶场搭建

sqli libs靶场搭建 1 下载靶场 sqli labs mster https github com Audi 1 sqli labs archive refs heads master zip 解压 2 下载安装 phpstudy
Python(解非线性方程和线性方程)求水力学法向深度-浪涌高度速度及互连反应器中的浓度和流体分布

非线性方程在水力学领域遇到的非线性方程的一个例子是通过长梯形通道寻找流动的法向深度 y n y n yn 这样的流动深度出现在均匀流动区域远离任何不均匀原因的影响例如堰的上游法向深度 y
《GPT-4技术报告》【中文版、英文版下载】

大预言模型时代已经到来但是真正的智能之路还很长一以下是连接大家请自取英文原版 https arxiv org pdf 2303 08774 pdfhttps arxiv org pdf 2303 08774 pdf 中文翻译版本
最大信息系数mic python_生物信息学

论文剖析热门论文 AgeGuess 一种预测人类年龄的甲基化模型 1 介绍衰老是一个生物过程受到遗传因子和细胞内各种分子修饰的影响多项研究表明使用甲基组数据可以准确预测实际年龄本篇文章针对年龄回归问题提出了一种三步特征选择算法

最大信息系数mic python_生物信息学

最大信息系数mic python_生物信息学 的相关文章

随机推荐

热门标签

最大信息系数mic python_生物信息学的相关文章