基因富集分析 GSEA for time-course

2023-10-27

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。

统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。
在这里插入图片描述

安装GSEA软件

在安装GSEA软件之前,你的电脑先要安装JAVA, 因为GSEA是在JAVA的环境下运行的。安装JAVA,可以参考https://blog.csdn.net/qq_42040731/article/details/82598034

下载GSEA软件

http://software.broadinstitute.org/gsea/downloads.jsp

在这里插入图片描述
然后按照默认情况下,安装GSEA

打开GSEA,界面如下:

**加粗样式**

数据准备

GSEA的数据准备都有它的格式的,

1. 样品表达量文件(res, gct, pcl, or txt)——必需文件

通常用.gct为后缀。

  • 文件第一行以“#1.2”开头;
  • 文件第二行的第一列为基因个数、第二列为样品个数;
  • 文件的第三行为表达谱的矩阵的title信息,第一列为基因symbol/探针号,第二列为基因/探针的描述信息(如果没有,可以用NA),第三列以后为样品id。接下来的行对应每个基因/探针在每个样品中的表达信息。文件以tab作为分隔符。
    在这里插入图片描述

2. 样品表型分类文件(cls)——必需文件

(1)以分类(例如肿瘤与正常)类文件格式(*.cls)

CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。

CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。分类标签定义了不连续的表型; 例如,正常与肿瘤。对于分类标签,CLS文件格式组织如下:

在这里插入图片描述
样品表型分类文件需以.cls为后缀。

  • 文件第一行为三个数字,第一个是样品的总数,第二个是样品分为几类,第三个数字通常为1。
  • 第二行也通常三个字符串,第一个为#,第二个为分类1的名称,第三个位分类2的名称。
  • 第三行为每个样品的分类信息,0代表分类1,1则代表分类2。文件以空格或者tab分割。

(2)连续(例如时间序列或基因谱)文件格式(.cls)
CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。

CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。连续表型用于时间序列实验或寻找与目的基因(基因邻居)相关的基因组。用于连续标签的CLS文件可以包含一个或多个标签。以下示例显示了定义两个连续标签的CLS文件:

#numeric
#AFFX-BioB-5_st
206.0 31.0 252.0 -20.0 -169.0 -66.0 230.0 -23.0 67.0 173.0 -55.0 -20.0 469.0 -201.0 -117.0 -162.0 -5.0 -86.0 350.0 74.0 -215.0 193.0 506.0 183.0 350.0 113.0 -17.0 29.0 247.0 -131.0 358.0 561.0 24.0 524.0 167.0 -56.0 176.0 320.0
#AFFX-BioDn-5
75.0 142.0 32.0 109.0 -38.0 -80.0 62.0 39.0 196.0 -42.0 199.0 49.0 171.0 327.0 115.0 -71.0 85.0 80.0 270.0 182.0 208.0 -94.0 292.0 233.0 34.0 0.0 59.0 233.0 48.0 466.0 -7.0 -96.0 297.0 38.0 208.0 -15.0 30.0 357.0

第一行: #numeric 指示所述文件定义为连续型标签。其余部分定义连续的表型。

对于每一种表型:

  • 先用一行定义表型的名称:例如: #AFFX-BioB-5_st
  • 第二行表示每个样本对应的时间点

3. 预定义基因集(gmx or gmt)——非必需文件

GMT文件格式是以制表符分隔的文件格式,用于描述基因集。在GMT格式中,每行代表一个基因集; 在GMX格式中,每列代表一个基因集。GMT文件格式组织如下:
在这里插入图片描述
每个基因组由名称,描述和基因组中的基因描述。GSEA使用描述字段来确定报告中为基因集描述提供的超链接:如果描述为“na”,则GSEA提供指向MSigDB中命名基因集的链接; 如果描述是URL,则GSEA提供指向该URL的链接。

4. 查看更多GSEA文件格式

http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats查看关于GSEA文件格式的要求。

RunGSEA

1. 导入文件

点左侧的Load data,选择Browse for files..., 然后找到对应的文件,进行导入。如果成功的话,会有消息告诉你导入成功,如果不成功,就需要自己再去检查文件格式等等是否正确了。
在这里插入图片描述
在这里插入图片描述

2.参数选择

点击左侧Run GSEA,接下来右侧面板会弹出参数选择框。上方的为必需的参数设置,下方的为非必需的。此处,主要讲解一下必需的参数设置。

Expression dataset(表达文件): 选择上一步上传的表达gct文件

Gene sets database (功能基因集数据库):GSEA包含了MSigDB数据库中的功能基因集,可以从中选择感兴趣的通路、癌症标记、转录因子数据库等。比如,我使用的是c2.cp.kegg.v7.0.symbols.gmt
在这里插入图片描述
Number of permutations(扰动/随机次数):通常设置1000,此参数不可过小。

Phenotypes labels(样品表型分类文件):选择上一步上传的表型cls文件
在这里插入图片描述
Collapse dataset to gene symbols

  • 选择ture的情况时,你的表达数据是用probe id 作为基因名的,如果你这里选择的是true,那在Chip platform中就要选择对应的平台号才可以运行。
  • 选择false的情况是, 你的表达数据是用symbol作为基因名的。如果你这里选择的是false,那在Chip platform中就不需要选择了,空着就可以的。

Permutation type(扰动类型): 通常选择phenotype,如果样品数目较少可以选择gene_set。

Chip platform(芯片类型):如果表达gct文件的第一列为芯片探针id则此处需要选择对应的芯片平台,如果是基因symbol则无需选择。

如果是分类型的数据,就可以不进行下面参数的选择,直接默认,然后去最下面run就可以了。
因为我的数据是时间系列的,所以,我还需要在basic fields中设置参数。点basic fields 右侧的那条线就可以出现它这个区域下的参数了。

Anlysis name : 看你想不想改咯,这里可以设定你自己想要的名字。
Enrichment statistic : 默认是 weighted
Metric for ranking genes: 因为我的数据时时间型的,所以在这个参数选择,我必须要改成 pearson, cosine, manhattanEuclidean其中一个

时间连续型的数据,Metric for ranking genes必须要改成 pearson, cosine, manhattanEuclidean其中一个

Save results in this folder: 选择自己想要保存在哪里的文件夹中

参数选择完毕点击右下角的Run运行GSEA。点击完成后在左下方面板会出现Gsea running字样。如果分析完成,Running状态会更改为Success状态。点击Success则可查看分析结果。这个运行时间与所选的功能基因集、扰动的次数有关。

结果解读

主要还是看这个图:
在这里插入图片描述

  • 图的顶部部分显示了基因集的运行ES,分析沿着排序列表进行。图中最高分(离0.0最远的分数)是该基因集的ES值。在开始(如这里所示)或列表末尾具有不同峰值的基因集通常是最有趣的。
  • 图的中间部分显示了该基因集的成员出现在排列好的基因列表中的位置。
  • 基因集的前缘子集是对ES贡献最大的成员子集。对于正ES(如这里所示),前缘子集是出现在排名列表中的成员集,这些成员出现在最高分之前。对于负数ES,它是出现在最高分之后的一组成员
  • 图的底部部分显示了排序指标的值,当您向下移动排序基因列表时。排名指标衡量的是基因与表型的相关性。当您沿着排名列表向下移动时,排名指标的值从正变为负。阳性值表示与第一个表型相关,阴性值表示与第二个表型相关。对于连续表型(时间序列或感兴趣的基因),阳性值表示与表型谱相关,阴性值表示不相关或反向相关

注意:默认情况下,排名指标是信噪比。要让GSEA根据不同的度量对基因进行排序,请在Run
GSEA
页面查看度量对基因参数进行排序。使GSEA分析您所创建的基因的排序列表,请使用GSEAPreranked页面。

参考:

GSEA User Guide

超详细教程│GSEA基因集富集分析

如何实现GSEA-基因富集分析?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基因富集分析 GSEA for time-course 的相关文章

  • 鹏仔暴力刷导航网页排行榜HTML模板,网站如何测压

    现在很多站长都做了导航站 大多数导航站都有网站排行榜 也就是今日浏览榜 月最高浏览榜 总浏览榜等 你页面阅读量越高 那么排名越靠前 曝光的几率就更高 很多站长在某些导航站提交完收录后 手动刷新增加阅读量 真的特别慢 那么本次鹏仔就给大家简单
  • 头文件路径包含问题

    头文件包含两种 系统头文件和自定义头文件 系统头文件不说了 格式统一 自定义头文件在包含的时候要注意路径 其实是头文件与主文件的相对位置关系的问题 ps 另外 LInux和Windows下也有所区别 举4个例子 应该就能看明白了 一 这种情
  • InnoSetup 脚本打包及管理员权限设置

    InnoSetup使用教程 InnoSetup打包安装 脚本详细 1 定义变量 1 define MyAppName TranslationTool 2 define MyAppChineseName 翻译工具 3 define MyApp
  • ios系统下input边框有默认阴影

    修复代码 1 input outline none webkit appearance none 去除系统默认的样式 webkit tap highlight color rgba 0 0 0 0 点击高亮的颜色 2 input appea
  • 深度学习实战11(进阶版)-BERT模型的微调应用-文本分类案例

    文章目录 一 前期工作 导入库包 导入数据 二 模型加载三 模型训练 四 模型测试 大家好 我是微学AI 今天给大家带来一个基于BERT模型做文本分类的实战案例 在BERT模型基础上做微调 训练自己的数据集 相信之前大家很多都是套用别人的模
  • 选择正确的DDoS解决方案:按需云服务

    迁移到云端的优势 与部署独立硬件设备相比 迁移到云端有许多优势 保护基于云的应用程序 托管在云中的应用程序无法通过本地设备保护 因此需要基于云的保护 更大容量 随着容量 DDoS 攻击变得越来越大 许多攻击很容易超过典型企业级 DDoS 缓
  • java HashSet 如何判断元素是否存在

    HashSet不能添加重复的元素 当调用add Object 方法时候 首先会调用Object的hashCode方法判hashCode是否已经存在 如不存在则直接插入元素 如果已存在则调用Object对象的equals方法判断是否返回tru
  • Spring 中的Advice类型介绍

    Spring 中的 Advice 类型介绍 翻译原文链接 Introduction to Advice Types in Spring 1 概述 在本文中 我们将讨论可以在 Spring 中创建的不同类型的 AOP 通知 In this a
  • javaweb:监听域对象创建和销毁的Listener

    1 什么是Servlet监听器 先来看看什么是监听器 监听器是专门用于对其它对象身上发生的事件或状态改变进行监听和相应处理的对象 当被监视的对象发生情况时立即采取相应的行动 Servlet监听器是Servlet规范中定义的一种特殊类 它用于
  • ubuntu安装code

    进入链接 http code visualstudio com下载 deb 在下载好的文件处终端输入sudo dpkg i code xxx
  • sklearn 数据处理与特征工程

    1 数据处理的流程 2 数据预处理 Preprocessing Impute 2 1 数据无量纲化 在机器学习算法实践中 我们往往有着将不同规格的数据转换到同一规格 或不同分布的数据转换到某个特定分布的需求 这种需求统称为将数据 无量纲化

随机推荐

  • java对list分组_Java List排序,分组等操作

    假定有一列实体类对像 List list UserServer getList 去重 去除重复对象 每个属性的值都一样的 需要注意的是要先重写对象User的equals和hashCode方法 List distinctList list s
  • 冒泡排序,快速排序,选择排序详细过程

    一 冒泡排序 1基本思想 相邻的两个数之间进行比较 按照规则进行交换 2 实现思路 以升序排列为例 第一趟比较 先用第一个和第二个元素进行比较 将较大的交换到第二个位置上 然后第二个和第三个进行比较 将较大的放在第三个位置上 依次类推 第一
  • 宝藏软件Obsidian知识体系搭建,免费的多端云同步

    宝藏软件Obsidian知识体系搭建 免费的多端云同步 为什么推荐Obsidian 人很奇怪 在关注短期目标的时候 会有成功失败之说 但是如果关注体系呢 就不那么会在乎短期收益了 为什么呢 因为体系可能会创造强大的滚雪球效应 使用笔记软件颇
  • Blender设置相机围绕物体旋转

    以下内容参考视频 https www bilibili com video BV1X7411g75c 1 首先随便添加一个物体 选中摄像机 位置 旋转归零 缩放归一 这一步不能少 快捷键 位置归零 Alt G 旋转归零 Alt R 缩放归一
  • C语言创建多线程

    线程是计算机中独立运行的最小单位 每个线程占用的CPU时间是由系统分配的 因此可以把线程看成操作系统分配CPU时间的基本单位 每个线程只有在系统分配给它的时间片内才能取得CPU控制权 执行线程中的代码 Linux操作系统在一个进程内生成多个
  • multipart/form-data (一种POST 数据提交的方式)

    一 初识multipart form data enctype属性 enctype 规定了form表单在发送到服务器时候编码方式 它有如下的三个值 application x www form urlencoded 默认的编码方式 但是在用
  • 解决数字字母不换行的问题

    当在标签中输入的是字母和数字的时候 会出现不换行的情况 导致内容不能显示完整 给p标签或者父标签div增加一下属性 text word break break all container word break break all 实现数字和
  • 博客摘录「 mysql char,mysql to_char」2023年6月12日

    场景 mysql 相仿to char to date 函数mysql 类似to char to date 函数mysql日期和字符相互转换方法date format date Y m d gt oracle中的to char str to
  • 文件没保存怎么恢复?3种方法恢复未保存office文档

    是否遇到过Excel Word或者PPT程序由于电脑断电 崩溃导致没有及时保存文档 如何恢复未保存的office文档文件 本文中提供了3种方法 用以帮助用户了解如何恢复未保存的office文档 以Word为例 数据蛙为大家图文介绍每种办法的
  • spring提前加载,懒加载,bean的作用域和注入注解讲解

    前言 sping知识随笔笔记 spring提前加载 懒加载 bean的作用域和注入注解讲解 spring提前加载 懒加载 bean的作用域和注入注解讲解 前言 1 depends on 2 bean的作用域 3 lazy init 懒加载
  • Spring Boot事务配置管理

    Spring Boot事务配置管理 场景 我们在开发企业应用时 由于数据操作在顺序执行的过程中 线上可能有各种无法预知的问题 任何一步操作都有可能发生异常 异常则会导致后续的操作无法完成 此时由于业务逻辑并未正确的完 成 所以在之前操作过数
  • HJ32 密码截取

    题目 HJ32 密码截取 题解 暴力截取所有子串 利用双指针判断子串是否为回文串 获取最大长度回文串 public int interceptPassword String password int maxLength 100 for in
  • vue 单页面(SPA) ,IOS端页面跳转后调用微信jssdk 时报错: "invalid signature"的解决方案

    背景 1 JS接口安全域名 OK 2 Android手机 微信开发者工具 测试分享都没问题 问题 在IOS手机微信端 从A页面 http a com A 跳转到B页面 http a com B 后 B页面进行分享时就会报签名 invalid
  • div让两个按钮并排显示在一行中

    做微信小程序 查了一些方法 对于我来说都不适用 有各种各样的问题 下面的这个试了 可以 wxml语法
  • java android小程序_java和android一些小程序

    Java 和 android 的一些小程序 1 给定字符串 String str a b c g b h l b h r v 剔除重 复的 并统计出之后其个数 public class zhaoshu1 构造遍历字符串及将重复出现的字符置空
  • 基于YOLOv5&opencv的交通道路三角锥检测系统(部署教程&源码)

    1 研究背景与意义 随着城市化进程的加快和交通流量的不断增加 交通安全问题成为了一个日益突出的社会问题 其中 交通道路上的三角锥是一种常见的交通安全设施 用于标记道路施工 交通事故现场 道路封闭等情况 然而 由于道路规模庞大 人力资源有限
  • GCN初步尝试

    任务如下 读取cora数据集 有2708个节点 每个节点有1433个特征 每个节点属于7类中的一类 节点之间存在边 注 cora的节点标号不是从0开始计数 故需要进行处理 附上一份简约代码 建立一个两层的GCN 这里的edges是经过节点重
  • GitBucket 搭建属于自己的GitHub。

    GitBucket是一个开源的代码管理仓库 就像GitHub一样 什么意思了 说白了我们可以下载GitBucket 然后放到自己服务器的Tomca容器上 就可以把代码往上面提交 GitHub你提交的代码都是可以被其它人看到的 除非你付费 但
  • 西数ZN540如何修改sector size

    写在前面 因需要在ZN540上挂载F2FS 故需要两块盘 一块传统SSD一块ZNS SSD 对于ZN540 信息如下 由于其扇区大小为4KiB 而自己服务器上没有逻辑扇区为4KiB的盘 例如三星883 所以当用883做传统盘的时候 格式化m
  • 基因富集分析 GSEA for time-course

    基因富集分析 Gene Set Enrichment Analysis GSEA 是一种针对全基因组表达谱芯片数据的分析方法 将基因与预定义的基因集进行比较 即综合现有的对基因的定位 性质 功能 生物学意义等信息基础 构建一个分子标签数据库