最大信息系数mic python_生物信息学

2023-11-10

论文剖析

热门论文:

AgeGuess,一种预测人类年龄的甲基化模型

///

1. 介绍

衰老是一个生物过程,受到遗传因子和细胞内各种分子修饰的影响。多项研究表明,使用甲基组数据可以准确预测实际年龄。本篇文章针对年龄回归问题,提出了一种三步特征选择算法。AgeGuess选择了107个甲基化特征作为性别独立的年龄生物标志物,使用这些生物标志物的支持向量回归模型(SVR)预测的年龄与实际年龄的平均绝对偏差(MAD)达到2.0267。性别独立的年龄预测模型可以通过建立两个性别特异性模型来进一步完善。

2.  介绍

衰老是几乎所有多细胞生物普遍存在的现象。越来越多的证据表明,衰老是一个严格受表观遗传修饰调控的生物过程,而不是随机事件。DNA甲基化被认为参与了各种与年龄相关的生物学过程。DNA甲基化是在DNA甲基转移酶的促进下选择性地将一个甲基添加到胞嘧啶中形成5胞嘧啶的生物学过程。这种表观遗传修饰在转录调控等生物过程中发挥着至关重要的作用。

特征选择算法在许多生物医学研究领域得到了应用。特征选择算法可以显著降低模型复杂度和过拟合的可能性。特征选择不仅广泛应用于基因的生物信息学问题、蛋白质,和新陈代谢系统,而且在生物医学图像分析和时间序列数据也发挥了重要作用。

本研究提出了一个三步特征选择算法,AgeGuess,使用甲基组谱以找到最佳年龄预测生物标志物。指标的最大信息系数(MIC)是一个敏感的相关测量,用于去除那些MIC与年龄相关性较小的甲基体特征。剩余的特征基于支持向量回归的评价被递归消除。最后一步基于彻底筛选,迭代地删除特征。

3.材料和方法

1.1 数据集

本研究使用了甲基组数据集GSE40279,该数据集从数据库Gene Expression Omnibus (GEO)中公开获得。使用甲基体平台Illumina HumanMethylation450BeadChip (accession GPL13534)对数据集GSE40279进行了分析。在这个数据集中有656个按实际年龄排序的样本,每个样本都对485,577个甲基体进行了分析。甲基体是使用从年龄19-101岁的426名白种人和230名西班牙人的全血样本生成的。与现有研究一样,本研究的分析中也排除了性染色体。因此,还有473,034个CpG特征可供进一步分析。

1.2 特征选择算法 AgeGuess

这些50万个甲基体特征并非都与衰老过程有关,现有的所有研究都选择了一个特征子集来构建其年龄预测模型。因此本研究提出了一种特征选择算法AgeGuess来寻找年龄预测性能最好的特征子集。

单步特征选择算法大致可以分为两大类:、过滤器和包装器。为了充分利用过滤器和包装器的优点,多步特征选择算法可以在第一步显著减少特征的数量。然后可以使用更复杂和更慢的算法。下面的算法AgeGuess就是根据这个规则设计的。

首先,AgeGuess选择了10000个与样本标签(实际年龄)高度相关的甲基化特征。在这个数据集中,每个样本有473,034个甲基化特征,并不是所有这些特征都对年龄预测有贡献。度量最大信息系数(MIC)在检测两个变量之间的线性和非线性相关性方面显示出非常灵敏的能力。本研究计算了各甲基化特征的MIC与实足年龄的相关性,并保留了MIC值最大的10000个特征以供进一步分析。

然后采用递归特征消除策略对不相关的特征进行去除。递归特征消除策略依赖于特征排序,迭代去除k个排序最末的特征。本研究所研究的问题是一个回归模型,并使用支持向量回归因子(SVR)计算指标来对特征进行排序。经过训练的SVR模型产生一个权值向量特征重要度,并根据权值的下降顺序对特征进行排序。这个过程是迭代进行的,直到所有的特征被删除。返回回归性能最佳的特征子集。

最后,再进行一次冗余去除步骤,进一步细化上述步骤得到的特征子集。对性能下降最小的特征进行迭代排除,与其他研究中的backFS策略相同。性能通过10倍交叉验证策略进行计算。

一个好的特征选择算法往往选择较少的特征,从而获得较高的预测性能。但是这两个性能指标通常不能同时实现。因此,本研究以综合评价指标(EI)为优化目标。EI定义为(MAD+FNum/100),其中MAD为平均绝对偏差,FNum为特征选择算法选择的特征个数。这个回归性能指标表明,多选择一个特性可以使总体性能提高0.01。并利用指标EI对上述backFS策略进行优化。

3.3 绩效评价指标

本研究利用平台GEO的656个样本研究了年龄预测问题。多重回归性能指标用于评估生成的回归模型的执行情况。指标均值绝对偏差是预测年龄与实际年龄之间的平均绝对误差值。均方误差(MSE)和均方根版本的MSE (RMSE)是另外两个广泛使用的回归性能指标。指标拟合优度(R2)定量评估回归模型拟合数据的程度。这些回归指标在Python版本3.6.4的软件包scikit-learn版本0.19.1中实现。

4.结果

提出的特征选择算法AgeGuess从473,034个MIC系数最大的甲基体特征中选择了1万个具有实际年龄的甲基体特征。AgeGuess假设排除的特征的贡献可能被忽略,因为它们与实际年龄的MIC系数很小。

AgeGuess的第二步利用RFE框架迭代地删除特性,如图1所示。由于剩余特征的数量仍然很大,本研究设k = 50,即每次迭代去除50个经训练的SVR模型计算出的特征重要度权重最小的特征。图1A表明,在10000个甲基化特征中,大部分对年龄预测性能没有贡献。在图1A的线形图中,有一个小于1500个特征的“谷”。因此,图1B在区间内放大了线形图[2000,50]。数据表明,MAD值在900 ~ 500之间,比较小。750个特征,得到最小值MAD = 0.5809。

fd3d79d6b937c79dec0119a1ab59d63f.png

提出的算法AgeGuess通过函数backFS进一步消除了甲基化特征中的冗余。对上述步骤中选择的750个甲基化特征进行迭代评估,如果删除的特征对年龄预测性能指标EI的贡献最小,则每次迭代删除一个特征。如图2A所示,在横轴上谷值大约为100个特征。图中进一步放大了50到150个特性,如图2B所示。选取107个特征时,年龄回归指标EI达到最小值3.0316。

549ed4cca83a199d9e55e73680297e91.png

使用107个甲基化特征训练SVR回归模型,并通过以下回归性能指标进行评估。图3显示RealAge和PredAge非常接近。对10次交叉验证的预测性能进行平均,并对10个随机rusns进行平均得到最终结果。平均绝对偏差为2.0267年。AgeGuess的模型实现了其他两个指标RMSE和R2分别为1.6149和0.9672。

f81d8eb9af72043964c286016b131962.png

更多有趣资讯扫码关注 BBIT

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

最大信息系数mic python_生物信息学 的相关文章

  • hi35 web服务器

    在hi3516A上移植好的boa嵌入式web服务器代码 boa有61k 一次只能处理一个请求 https download csdn net download ganxiaoyagn000 9239729 appweb Appweb 6 1
  • android 11 存储权限,Android 11存储权限强制申请

    private static final int REQUEST CODE 1024 private void requestPermission if Build VERSION SDK INT gt Build VERSION CODE
  • OC中的基本容器和基本数据类型

    基本数据类型 NSRange 是一个结构体 里面有两个数据成员数据类型都为NSUInteger 就是c语言中的无符号整形 一个是location表示集合的起始地址 另外一个变量是length表示从起始地址开始算多少个元素 NSRange的三
  • CTF-web 简介

    web部分是CTF的重要组成部分之一 素有WEB大魔王之称 题目种类繁多 关键是如何发现漏洞的类型和怎样构造特殊的负载绕过过滤 CTF分为三种模式 解题模式 攻防模式 混合模式 在线工具 https www ctftools com dow
  • JVM运行时数据区

    文章目录 JVM内存结构图 1 运行时数据区域 JDK 1 7 JDK 1 8 1 线程栈 虚拟机栈 2 本地方法栈 3 程序计数器 4 方法区 元空间 5 堆 6 运行时常量池 Runtime Constant Pool 7 直接内存 D
  • 新版MetaMask如何获取当前账户地址

    window addEventListener load async gt Modern dapp browsers if window ethereum let ethereum window ethereum window web3 n
  • C语言中 -> 和 . 的区别

    在C语言中 gt 和 都是用于访问结构体 struct 成员的运算符 但它们的使用场景略有不同 1 gt 运算符用于访问结构体指针的成员 当你有一个指向结构体的指针时 你可以使用 gt 运算符来访问该结构体的成员 例如 struct Per
  • Linux使用第三方库链接的使用方式——静态式

    目录 二 第三方库为静态库时 方法1 两个窗口去分别模拟两个窗口公司A 客户端 公司B 服务端 的视角案例实现 提前插播一条指令 生成静态库文件的指令 方法2 优化 该方法在上述方法1的第10步后开始进行 这里强调一个问题 今天我们来学习将
  • 记录一个AFR去嵌S参数异常的案例。

    最近在使用AFR去嵌一个S参数的时候 遇到了如下问题 首先介绍一下这个S参数 一端是MCIO连接器 另一端是CEM连接器 所以测试的时候一端接MCIO测试治具 一端接CEM测试治具 再通过线缆将测试治具连接到VNA上 我大概画了一个简图如下
  • Java 输出机制 数据类型 基本数据类型转换 基本数据类型和String类型的转换

    目录 一 输出机制 1 print和println的差别 2 可接收不同类型参数 3 输出函数中 符号的使用 二 数据类型 1 整型类型 2 浮点类型 3 字符类型 三 基本数据类型转换 1 自动类型转换 2 强制类型转换 3 练习题 四
  • 目标检测算法回顾之发展概览

    目标检测算法的发展时间线 发展历史轴 时间轴线图 算法方法概览 思维导图 说明 本文仅供学习 发展历史轴 时间轴线图 目标检测的算法发展可以追溯到很久之前 这里我根据前两年的综述论文加上这两年的发展也画了两个部分的相关模型发展轴 可以看到
  • linux命令之ssh详解

    ssh openssh套件中的客户端连接工具 Linux在线工具 linux命令在线工具 个人博客网站 博客 Java17中文文档 JDK17中文手册 Gradle8 1 1中文文档 Gradle中文文档 补充说明 ssh命令 是opens
  • (转载)Linux 系统内核的调试

    调试是软件开发过程中一个必不可少的环节 在 Linux 内核开发的过程中也不可避免地会面对如何调试内核的问题 但是 Linux 系统的开发者出于保证内核代码正确性的考虑 不愿意在 Linux 内核源代码树中加入一个调试器 他们认为内核中的调
  • PHP实现微信小程序状态检测(违规、暂停服务、维护中、正在修复)

    实现原理 进入那些状态不正常的小程序会被重定向至一个Url 使用抓包软件抓取这个Url 剔除不必要参数 使用cURl函数请求网页获得HTML内容 根据内容解析出当前APPID的小程序的状态 代码
  • thrust库学习(一) —— cub::DeviceRadixSort

    1 cub DeviceRadixSort 1 1 介绍 DeviceRadixSort提供设备范围内的并行操作 用于跨驻留在设备可访问内存中的数据项序列计算基数排序 基数排序方法按升序 或降序 排列项目 该算法依赖于键的位置表示 即每个键
  • LeetCode-动态规划-路径的数目

    1 题目 剑指 Offer II 098 路径的数目 62 不同路径 2 实现 class Solution public vector
  • 原生js方法小记

    ps 无框架时 使用js的一些功能完成一些小demo 记录方法 方便自己查询 原生js方法小记 String 和Array 方法 替换所有 追加replaceAll方法 String prototype replaceAll functio
  • spring提供的登录j_spring_security_check

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 第一步 form表单提交
  • 芯片中的上百亿个晶体管是如何设计的?

    2021年4月21日 在芯片界的顶级会议Hot Chips大会上 Cerebras Systems公司发布了一款晶圆级引擎芯片 Wafer Scale Engine 2 这款芯片采用台积电7纳米工艺制程 拥有85万个AI核心 包含2 6万亿

随机推荐

  • 如何在html中把按钮设置为超链接

    如何给按钮加上链接功能 脚本说明 把如下代码加入区域中
  • 【Spring】Spring之publishEvent

    观察者模式Spring之publishEvent事件处理 1 使用场景 这个一般什么时候使用 我们一般是在不同的bean直接进行信息传递 比如我们beanA的事件处理完后 需要beanB进行处理一些业务逻辑的时候这种情况就一般可以使用pub
  • 在Linux(Ubantu)下用 PNNX 转换 TorchScript 模型到 ncnn 模型

    初次使用 PNNX 的相关步骤记录 目的 转换 PyTorch 的 TorchScript 格式的模型文件到 ncnn 的模型文件 环境 操作系统 Windows Ubuntu macOS 均可 pnnx和pytorch都是跨平台的 Pyt
  • 系统检测到您的账户不符合国家相关法律法规或《支付宝用户服务协议》约定

    改用个人账户登录 需要上传营业执照 这样就成功了
  • 权限设计=功能权限+数据权限

    权限管理 Authority Management 目前主要是通过用户 角色 资源三方面来进行权限的分配 具体来说 就是赋予用户某个角色 角色能访问及操作不同范围的资源 通过建立角色系统 将用户和资源进行分离 来保证权限分配的实施 一般指根
  • 逆向爬虫01 requests模块

    python requests模块 requests是一个python模拟浏览器发送http请求的模块 1 使用requests模块发送get请求 获取网页源代码 import requests url http www baidu com
  • strictfp有什么作用

    关键字 strictfp 是 sitict float point 的缩写 指的是精确浮点 它用来确保浮点数运算的准确性 JVM 在执行浮点数运算时 如果没有指定 strictip 关键字 此时计算结果可能会不精确 而且计算结果在不同平台或
  • 一不小心就弄懂了 冒泡,选择,插入,希尔,归并和快速排序

    今天我们主要看一些简单的排序 常见的时间复杂度 常数阶 1 对数阶 log2n 线性阶 n 线性对数阶 nlog2n 平方阶 n 立方阶 n K次方阶 n k 指数阶 2 n 常见的时间复杂度对应图 1 log2n n nlog2n n n
  • PKU2019暑期学堂 游记

    诈尸写博客QaQ 一塔湖图 Day 0 18 00 从学校出发 with另外三个同学 前往南站 20 20上动车 感觉人好少的样子 房间灯是坏的 还换了一间 在火车上刷知乎 提前体验一下夏令营 而其他人都在弯道QwQ 好多人水群啊QwQ D
  • 新手入门 哪个视频剪辑软件好用

    当下 视频剪辑已成为一种全新记录生活的方式 许多人剪辑视频都是从零基础开始学习 那么从入门开始选择的软件就显得比较重要了 今天在这里给大家推荐一款适合新手入门的视频剪辑软件 会声会影 图1 会声会影软件 会声会影是一款很亲民的视频剪辑软件
  • C语言

    include
  • vue实现页面停留时间统计

    前言 在实际业务中 埋点需求是前端开发中非常重要的数据指标获取的方式之一 今天 主要聊一下页面停留时间的统计 简略版 每个页面独自实现相关统计 并上报数据 export default data return startTime 0 cre
  • SQL注入-联合注入

    页面有显示位时 可用联合注入 本次以 SQLi 第一关为案例 第一步 判断注入类型 参数中添加 单引号 如果报错 说明后端没有过滤参数 即 存在注入 id 1 从数据库的报错中我们可得知 最外边的一对单引号是错误提示自带的 我们不用管 我们
  • pip install -r requirements.txt报错ERROR解决办法

    这个问题困扰了我很长时间 因为做的时候没有保存错误的截图 所以只能写一些思路 1 首先是vscode的环境 然后在里面安装Build Tools 这个很重要 否则会一直报错 安装包图片是上面这两个 下载的话Visual Studio Cod
  • 脚本收集服务器信息,shell脚本批量收集linux服务器的硬件信息快速实现

    获取默认IP default ip ifconfig head n 2 tail n 1 cut d f 2 cut d f 1 获取产品的名称 如果是简化版的linux系统 需要先安装dmidecode工具包 product name d
  • java高并发的处理--锁机制

    对于我们开发的网站 如果网站的访问量非常大的话 那么我们就需要考虑相关的并发访问问题了 而并发问题是绝大部分的程序员头疼的问题 但话又说回来了 既然逃避不掉 那我们就坦然面对吧 今天就让我们一起来研究一下常见的并发和同步吧 为了更好的理解并
  • phpstudy小皮 sqli-libs 靶场搭建

    sqli libs靶场搭建 1 下载靶场 sqli labs mster https github com Audi 1 sqli labs archive refs heads master zip 解压 2 下载 安装 phpstudy
  • Python(解非线性方程和线性方程)求水力学法向深度-浪涌高度速度及互连反应器中的浓度和流体分布

    非线性方程 在水力学领域遇到的非线性方程的一个例子是通过长梯形通道寻找流动的法向深度 y n y n yn 这样的流动深度出现在均匀流动区域 远离任何不均匀原因的影响 例如堰的上游 法向深度 y
  • 《GPT-4技术报告》【中文版、英文版下载】

    大预言模型时代已经到来 但是真正的智能之路还很长 一 以下是连接 大家请自取 英文原版 https arxiv org pdf 2303 08774 pdfhttps arxiv org pdf 2303 08774 pdf 中文翻译版本
  • 最大信息系数mic python_生物信息学

    论文剖析 热门论文 AgeGuess 一种预测人类年龄的甲基化模型 1 介绍 衰老是一个生物过程 受到遗传因子和细胞内各种分子修饰的影响 多项研究表明 使用甲基组数据可以准确预测实际年龄 本篇文章针对年龄回归问题 提出了一种三步特征选择算法