HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

2023-05-16

软件官网：

Hisat2： Manual | HISAT2

StringTie：StringTie

文章：Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown | Nature Protocols

建议看保姆级教程：

1. RNA-seq : Hisat2+Stringtie+DESeq2 – 恒诺新知

2. RNA-seq用hisat2、stringtie、DESeq2分析 - 简书

基本用法：

1. 构建参考基因组索引

# 提取剪接位点和外显子信息
extract_splice_sites.py Mus_musculus.GRCm39.104.gtf > Mus_musculus.ss
extract_exons.py Mus_musculus.GRCm39.104.gtf > Mus_musculus.exon
# 建立索引
# 最后的 Mus_musculus.GRCm39_tran 为索引文件前缀
hisat2-build --ss Mus_musculus.ss --exon Mus_musculus.exon              Mus_musculus.GRCm39.dna.primary_assembly.fa \
               Mus_musculus.GRCm39_tran
# 时间超长，大于12h，建议晚上跑

2. 参考基因组比对

# -x跟索引名前缀，-1，-2跟双端测序文件，-U跟单端测序文件，-S输出为sam格式的文件,-p线程数量
# 我们直接输出为排序好的bam文件
# --dta输出为转录本组装的reads，--summary-file输出比对信息
hisat2 -p 10 --dta -x path/to/Mus_musculus.GRCm39_tran 
         --summary-file test1_summary.txt 
         -1 1.fastq-data/test1_R1_rep1.fq.gz 
         -2 1.fastq-data/test1_R2_rep1.fq.gz 
         -S test1.sam

3. samtools 对输出 sam 文件排序并转为 bam 文件

# -@为samtools的线程数
samtools sort -@ 10 -o test1.sorted.bam test.sam

4. 转录本组装

# 组装转录本，-p为线程数，-G为组装参考注释文件，-l为输出文件名前缀
# 单个样本运行
stringtie -p 10 -G Mus_musculus.GRCm38.102.gtf 
                -l test1 
                -o test1.gtf 
                test1.sorted.bam

5. 注释文件合并

# 创建 mergelist.txt 文件，指明组装后注释文件的路径
path/to/test1.gtf
path/to/test2.gtf
path/to/test3.gtf

# 合并gtf文件
$ stringtie --merge -p 10 -G ./Mus_musculus.GRCm38.102.gtf 
                    -o stringtie_merged.gtf 
                    mergelist.txt

6. 利用生成的注释文件对转录本进行定量

# 创建一个新的 test1 文件夹，转录本定量结果保存到文件夹中
mkdir test1/
stringtie  -p 10 -e -G ./stringtie_merged.gtf 
             -o test1/test1.gtf 
             -A test1/gene_abundances.tsv 
             test1.sorted.bam
# 相应文件夹下生成样本名.gtf和gene_abundances.tsv的两个文件，对应每个样本的 count 值定量结果，我们需要合并到一个文件里。

7. 提取基因定量结果

prepDE.py 需要一个 sample_list，第一列为样本名，第二列为 gtf 文件路径

# sample_list.txt 文件内容如下
test1 path/to/test1/test1.gtf
test2 path/to/test1/test2.gtf
test3 path/to/test1/test3.gtf
test4 path/to/test1/test4.gtf

# 提取合并count结果，-i为输入sample_list
prepDE.py -i sample_list.txt

# 生成gene_count_matrix.csv和transcript_count_matrix.csv文件

8. 选做：提取 FPKM/TPM 或 coverage 结果

需要用到stringtie_expression_matrix.pl，下载地址如下：

rnaseq_tutorial/stringtie_expression_matrix.pl at master · griffithlab/rnaseq_tutorial · GitHub

# 提取TPM
$ ./stringtie_expression_matrix.pl --expression_metric=TPM 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_tpms_all_samples.tsv 
                                   --gene_matrix_file=gene_tpms_all_samples.tsv

# 提取FPKM
./stringtie_expression_matrix.pl --expression_metric=FPKM 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_fpkms_all_samples.tsv 
                                   --gene_matrix_file=gene_fpkms_all_samples.tsv

# 提取coverage
./stringtie_expression_matrix.pl --expression_metric=coverage 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_coverage_all_samples.tsv 
                                   --gene_matrix_file=gene_coverage_all_samples.tsv
# 在当前目录就会生成相应的基因和转录本的tpm、fpkm、coverage 结果

9. DESeq2 差异分析

# 安装DESeq2包
BiocManager::install('DESeq2')
# 加载包
library(DESeq2)
# 设置工作路径
setwd('D:rnaseq')
# 读入counts矩阵
gene_count_matrix <- read.csv("D:/rnaseq/gene_count_matrix.csv",row.names = 1)
count <- gene_count_matrix[rowSums(gene_count_matrix)>0,]
# 构建表型矩阵
colData <- data.frame(row.names = colnames(count),
                      condition = factor(c(rep('control',2),rep('treat',2)),
                                           levels=c('control','treat'))
                      )
# 查看
colData
#            condition
# test1_rep1   control
# test1_rep2   control
# test2_rep1     treat
# test2_rep2     treat

dds <- DESeqDataSetFromMatrix(countData = count, colData = colData,design = ~ condition)
dds <- DESeq(dds)
res <- results(dds)
diff_res <- as.data.frame(res)
diff_res$gene_name <- rownames(diff_res)
# 输出差异结果
write.table(diff_res,file = 'DESeq2_diff_results.csv',quote = F,sep = ',',row.names = F,col.names = T)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HISAT2

StringTie

deseq2

pipeline

bulk

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq 的相关文章

使用jedis管道获取值

我有一个 id 列表我想用它来使用 java 客户端 jedis 从 Redis 服务器检索哈希值正如文档中提到的 Jedis 提供了一种通过声明 Response 对象来使用管道的方法然后同步管道以获取值 Pipeline p je
Reasonml 中 -> 和 |> 有什么区别？

经过一段时间的激烈谷歌搜索我得到了一些例子人们在一个代码中使用两种类型的运算符但通常它们看起来就像做一件事的两种方式它们甚至具有相同的名称 tl dr 决定性的区别在于 gt 管道到第一个参数同时 gt 管道到最后那是 x gt
Django：批量操作

商业我遇到了一个问题当使用 Django ORM 操作大型数据集时规范的方法是操作每个元素但当然这种方式效率很低所以我决定使用原始 SQL 物质我有一个形成 SQL 查询的基本代码它更新表的行并提交它 from myapp i
Gitlab CI：仅在工件存在时运行作业

我有 monorepo 我想根据已更改的目录内容运行子管道在工作中prepare config我检查最新更改在哪里我创建子配置 yml 并在下一阶段的工作中run child我从运行子管道问题是如果model gitlab ci
RESTful API 和批量操作

我有一个中间层它在共享数据库上执行 CRUD 操作当我将产品转换为 NET Core 时我想我还会考虑使用 REST 作为 API 因为 CRUD 应该是它擅长的地方看起来 REST 对于单条记录操作来说是一个很好的解决方案但是当
Javamail，Transport.send() 非常慢

我写了一个批量发送电子邮件的方法但它非常非常慢每 10 秒大约 3 封邮件我想发送数千封邮件有什么办法可以更快地做到这一点吗我现在使用 gmail 但仅用于测试最后我想使用我自己的 SMTP 服务器发送这是代码 public
使用 Batchblock.Triggerbatch() 在 TPL 数据流管道中进行数据传播

在我的生产者消费者场景中我有多个消费者每个消费者都向外部硬件发送一个操作这可能需要一些时间我的管道看起来有点像这样 BatchBlock gt TransformBlock gt BufferBlock gt 几个 ActionB
MySQL 批量插入或更新

有没有办法批量执行查询例如INSERT OR UPDATE在 MySQL 服务器上 INSERT IGNORE 不起作用因为如果该字段已经存在它将简单地忽略它并且不插入任何内容 REPLACE 不起作用因为如果该字段已经存在它将首
在 PowerShell 中使用管道连接的 ffmpeg 和 ffplay

我已将当前的视频项目从命令提示符切换到 PowerShell 以便我可以充分利用Tee Object对于多输出代码目前我有一个批量运行的代码版本但我需要通过 T 恤添加一项功能这是我第一次使用 PowerShell 所以这可能是一个
从 GitLab 运行程序/管道中创建版本

随着 2019 年 1 月 Gitlab 11 7 的发布我们获得了新的关键功能为您的项目发布版本 https about gitlab com 2019 01 22 gitlab 11 7 released publish releas
Github 操作 `on` 中没有定义事件触发器

我创建了一个管道我想在每次推送任何分支时触发有我的default yml name default on push branches jobs build runs on macOS latest steps uses actions
C# TPL 数据流 - 完成不起作用

此代码永远不会到达最后一行因为完成不会从 saveBlock 传播到 sendBlock 我究竟做错了什么 var readGenerateBlock new TransformBlock
python 管道中的特征选择：如何确定特征名称？

我使用 pipeline 和 grid search 选择最佳参数然后使用这些参数来拟合最佳管道 best pipe 然而由于 feature selection SelectKBest 处于管道中因此尚未对 SelectKBest
Bash 错误：需要整数表达式

在下面的部分中您将看到我尝试在 UNIX 计算机上运行的 shell 脚本以及脚本当我运行这个程序时它给出了预期的输出但它也给出了记录中显示的错误可能是什么问题以及如何解决它首先脚本 usr bin bash while re
scikit learn Pipeline 是否将 StandardScaler 应用于 y？

鉴于我的管道是 pipe Pipeline scaler StandardScaler regressor LinearRegression 然后我打电话pipe fit X train y train 管道是否将缩放器应用于特征和目标还
在获得响应之前发出多个请求

当并行发送多个请求时在获得响应之前我无法理解 HTTP 的工作原理有两种情况 1 With Connection Keep Alive 根据HTTP规范 http www w3 org Protocols rfc2616 rfc261
如何将node.js管道传输到redis？

我有很多数据要插入 SET INCR 到redis DB 所以我正在寻找pipeline http redis io topics pipelining 质量插入 http redis io topics mass insert通过node
从 azure pipeline.yml 将变量组参数传递到模板时出现问题

我已经声明了一个变量组Agile Connections 如下所示该组对任何管道没有任何限制我正在使用另一个名为 vars yml 的模板来存储一些其他变量 variables group Agile Connections name
如何使用ssh直接连接远程docker容器

我想直接使用 ssh 连接到远程运行的 Docker 容器通常我可以 ssh i privateKey user host docker ps which will list all running containers docker e
PHP 资产管道/框架

背景我正在致力于现代化一个现有的 PHP 驱动的网站该网站最初是一个带有一些 php 方法的静态网站它现在有一个移动网络应用程序多个模型和大量动态内容然而随着时间的推移应用程序本身的结构与它主要是静态站点时相比并没有太大变

随机推荐

[错误日志]ArchLinux: libpangox-1.0.so.0 =＞ not found

错误日志 ArchLinux libpangox 1 0 so 0 61 gt not found 前言解决过程前言今天在运行程序时遇到了缺少 so依赖的情况 xff0c 而度娘没能给出arch的解决方案 xff08 主要是缺源 xff
Android Studio 手机调试

我手机是小米9 CC xff0c 找了很多博主的文章都是没有讲不显示 34 Run 34 app 34 34 的问题解决方案安装好Android studio 配置环境打开Android studio File Settings 选中A
xtigerVNC systemd失败提示 Unrecoverable failure in required component org.gnome.Shell.desktop

Unrecoverable failure in required component org gnome Shell desktop 2月 23 09 47 36 jiudao HP Z230 Tower Workstation gnom
浅谈Android指纹识别技术

浅谈Android指纹识别技术当今时代 xff0c 随着移动智能手机的普及 xff0c 指纹解锁早已是手机不可或缺的一个功能除了现在比较新款的iPhone或者部分手机采用了Face ID之外 xff0c 人们几乎天天都会用到指纹解锁技术
安装ubuntu分区建议

前言 xff1a 备份用 xff0c 非原创 Step1 xff1a Start the installation Proceed to Step 4 and choose Something else Step2 xff1a Create
为贝尔吉比特电信G-120W-B光猫添加自动重启功能

定时重启光猫 xff0c 有利于清除光猫进行中产生的垃圾提升光猫的运行速度 xff0c 还能防止遭受黑客的GPT攻击 xff08 家用光猫重启后会重新分配IP地址 xff09 xff0c 既然有这么多好处 xff0c 快来把我们的光猫设置为
使用yolo-v5训练测试自己的数据

使用环境 xff1a python3 6 8 CUDA10 0 Centos7 5 目录一前言 1 1下载yolov5代码 1 2安装yolov5运行时需要的包 1 3下载预训练模型和测试二制作自己的训练数据集 2 1使用Label
ImportError: libSM.so.6: cannot open shared object file: No such file or directory一系列错误解决方式

Centos7系统出现 xff1a ImportError libSM so 6 cannot open shared object file No such file or directory的解决方式 xff1a 错误1 xff1a 解
Centos7开放和关闭某个端口

1 开放端口 firewall cmd zone 61 public add port 61 8688 tcp permanent 开放8688端口 firewall cmd reload 使配置立刻生效 2 关闭端口 firewall c
解决error C2059: 语法错误:“::”问题

错误代码提示 xff1a 1 gt f opencv opencv build include opencv2 flann lsh table h 266 error C2059 语法错误 f opencv opencv build inc
C++ string字符串的UTF-8与GBK(GB2312)编码相互转换转换

UTF8 GBK Tools hpp内容如下 xff1a pragma once include lt iostream gt include lt string gt include lt fstream gt include lt wi
Ubuntu卸载protobuf并安装3.6.0版本的protobuf

1 卸载Ubuntu自带的protobuf xff1b sudo apt get remove libprotobuf dev which protoc 运行完 which protoc 会显示一个protoc的路径 xff0c 如果没有显
python 图片上添加中文文字

1 在 C Windows Fonts Microsoft YaHei UI 目录下搜索找到 msyh ttc xff0c 复制到工程目录 2 编写代码 xff1a from PIL import Image from PIL import
移除数组中某个数

移除数组中某个数 span class token macro property span class token directive keyword include span span class token string lt stdi
Ubuntu系统修改用户名，主机名

0 Ubuntu是一个Linux操作系统 xff0c 修改密码和用户名是有危险的动作 xff0c 请谨慎修改提示 xff1a 如果你要修改密码和用户名的话 xff0c 请先修改密码 xff0c 重启后 xff0c 再修改用户名 xff0c
Ubuntu 多用户管理及 SSH 远程连接

目录 1 Ubuntu 多用户管理的场景 2 多用户管理理解 3 多用户管理 1 创建用户组 2 创建用户 3 给用户分配权限 4 SSH远程连接 1 Ubuntu 多用户管理的场景多人需要远程登录服务器完成各自的任务 xff0c 同时各
如何使用Typora快速高效的写Csdn博客

最近终于有时间写点东西了 xff0c 准备写一些技术博客 xff0c 一是为了记录自己学习工作中的一些心得 xff0c 二是多年来自己的知识几乎都是从别的大牛那里白嫖来的 xff0c 现在有时间了也想把自己的一些感想贡献给爱好学习的年经人
keil5工程重命名

有一个简单的办法假设原来的工程文件名是first xff0c 在工程文件目录中 xff0c 你可以看到很多主文件名为first的文件 xff0c 其中有两个文件分别叫做 first uvopt和first uvproj 你只要把这两个文件
由ModuleNotFoundError: No module named ‘_ssl‘引发的一场血案

本人需要在服务器上 xff08 用户 xff09 安装cutadapt软件 xff0c 安装该软件需要用到下面这个命令 xff0c 非常明显使用python软件 xff0c 通过pip插件线上安装cutadapt软件 xff0c 于是开始了
HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

软件官网 xff1a Hisat2 xff1a Manual HISAT2 StringTie xff1a StringTie 文章 xff1a Transcript level expression analysis of RNA seq

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq 的相关文章

随机推荐

热门标签