sam格式的结构和意义_全长转录组结构分析

2023-05-16

全长转录组-结构分析

Iso-seq测序经初步分析获得高质量的转录本之后(全长转录本鉴定，全长转录本比对)，便可以对转录本的结构进行精确鉴定、注释。本次小编通过结合一个全长转录本后续分析的工具集Cupcake的使用方法，来给大家介绍一下Iso-seq测序得到高质量转录本之后的一些分析。

Cupcake安装

在介绍Iso-seq后续分析之前，先来看一下Cupcake如何安装使用。

Cupcake是一个Python和R脚本的合集，可直接通过python的形式安装，其安装方法可以参考下方代码，目前均支持python2和python3版本，以下示例均基于python2版本。

1git clone https://github.com/Magdoll/cDNA_Cupcake.git
2#export PATH=$PATH:/sequence/
3#export PATH=$PATH:/rarefaction/
4cd cDNA_Cupcake
5#git checkout -b tofu2 tofu2_v21
6python setup.py build
7python setup.py install

转录本去冗余

Iso-seq测序后经过smrtlink和IsoSeq3软件进行全长转录本鉴定后(cluster&polish)，就获得了高质量的转录本(hq.isoform.fq)。这些高质量转录本均为全长非嵌合的高质量转录本(包含polyA，准确率>=0.99，至少2个全长序列支持)，但是因为IsoSeq3的聚类算法的敏感性和特异性，以及天然RNA5‘端的易降解的特性，得到的高质量转录本中仍然存在冗余的转录本，所以需要进一步去除。

可使用Cupcake的“collapse_isoforms_by_sam.py”脚本，具体代码以及说明可参考如下：

1python ~/software/Python-2.7.8/bin/collapse_isoforms_by_sam.py --input sample.hq.fasta \
2    --dun-merge-5-shorter --sam sample.sort.sam --prefix sample_name --min-coverage 0.85 \
3    --min-identity 0.95 2>sample.collapse_isoforms.log
4# --min-coverage --min-identity 为去冗余时的覆盖率和一致性，默认为0.99和0.85可根据实际情况调整
5# --dun-merge-5-shorter
6# 得到的结果中sample.collapsed.group.txt为记录合并冗余后的转录本信息,转录本格式为：PB..
7# sample.ignored_ids.txt为去除的转录本信息
8# sample.collapsed.rep.fq和sample.collapsed.gff分别为非冗余的转录本序列及其gff文件

此种去冗余方式是针对的有参考基因组序列的样本，需要用到跟参考基因组比对的Sam文件，如果没有参考基因组，可以使用CD-HIT对序列进行聚类去冗余，具体方式可参考：https://github.com/Magdoll/cDNA_Cupcake/wiki/Tutorial:-Collapse-redundant-isoforms-without-genome

转录本定量

得到unique的转录本之后，再结合前边聚类分析得到report文件cluster_report.csv是可以计算出来每个unique转录本的count数目的，Cupcake提供了计算的脚本。但是目前PacBio测序得到的CCS对于做定量来说数据还是不太够的，建议用ONT平台测序的数据去做定量，ONT的数据reads足够长，数据量足够多的。

1python ~/software/Python-2.7.8/bin/get_abundance_post_collapse.py sample.collapsed sample.cluster_report.csv
2#  sample.collapsed为样本去冗余后的文件前缀名称

过滤5'端降解的转录本

去完冗余之后的转录本仍然存在一部分转录本比对到参考基因组的位置一致，但5'端长度不一致的转录本，这种情况是因为建库过程中，使用的cDNA试剂盒并不会对5'端进行加帽处理，所以再整个过程中很可能会发生5'端的降解，而发生降解的这些转录本是没有任何生物学意义的，所以可以将5'端降解的转录本过滤掉，再用于后续的分析。过滤也可以使用Cupcake工具包提供的脚本。

1python ~/software/Python-2.7.8/bin/filter_away_subset.py sample.collapsed
2# sample.collapsed为样本去冗余后的文件前缀名称
3# 得到输出结果文件sample.collapsed.filtered.gff, sample.collapsed.filtered.abundance.txt,
4# sample.collapsed.filtered.rep.fq

融合基因分析

基因融合在基因组层面上可能由于基因组变异(染色体易位、中间缺失、染色体倒位)使得两个不同基因的部分序列或全部序列融合到一起，形成一个新的基因，可能表达也可能不表达；转录组层面上可能由于两个基因转录产生的RNA，由于某种原因融合在一起，形成新的融合RNA，当然该RNA可能编码蛋白也可能不编码蛋白。
对于Iso-seq测序得到的转录本数据，寻找融合基因，可以采用Cupcake 中的“fusion_finder.py” 这个脚本进行，鉴定的默认标准有如下4点：

比对到2个或更多位置；
比对到的每一个位置至少覆盖5%的转录本；
融合转录本(各个位置的相加)比对率至少99%以上；
每一个比对位置的距离至少10kb以上。

 1## Best practice for fusion transcript finding
 2## https://github.com/Magdoll/cDNA_Cupcake/wiki/Best-practice-for-fusion-transcript-finding
 3gmap -D [dir] -d hg38 -f samse -n 0 input.fasta > input.fasta.gmap.sam
 4minimap2 -ax splice -uf --secondary=no hg38.fa input.fasta > input.fasta.minimap2.sam
 5
 6sort -k 3,3 -k 4,4n input.fasta.minimap2.sam > input.fasta.minimap2.sorted.sam
 7fusion_finder.py --input input.fasta -s input.fasta.minimap2.sorted.sam \
 8    --cluster_report cluster_report.csv \
 9     -o output.fusion \
10     --min_locus_coverage_bp 500 -d 1000000

结语

除了我们介绍的，Cupcake有很多强大的cDNA序列分析功能，关于其详细的介绍可以查阅其githup仓库：https://github.com/Magdoll/cDNA_Cupcake 。

作者：Arno

审稿：童蒙

编辑：angelica

往期回顾

全长转录本与参考基因组比对

你要的单细胞全长转录本建库方案：smart-seq3来了

全长转录本的鉴定

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sam格式的结构和意义_全长转录组结构分析的相关文章

Linux 设备驱动开发实例

编译和运行驱动编译要用到kernel的Makefile文件也就是源码树的编译系统因此 xff0c 源码需要被配置和编译 xff0c 以ubuntu自带的源码为例 xff1a 编译外部模块 ko 的编译命令是 xff1a make C
VSCode 常用插件及配置使用

title VSCode 常用插件及配置使用 date 2022 04 05 20 38 14 tags VSCode编辑器Java categories 开发工具及环境 cover https cover png feature fals
本地win10服务器不能复制文件,win10复制不了文件怎么办_win10不能复制文件夹解决方法-win7之家...

在win10系统中 xff0c 每当创建好的文件出现路径错误的时候 xff0c 同时有些用户又不想要删除重新创建的情况下就可以通过复制文件来解决 xff0c 可是最近有用户发现自己的win10系统在复制文件却是复制不了的情况 xff0c 那
jeter监控服务器性能指标,Jmeter系列（38）- 详解性能监控工具 nmon

如果你想从头学习Jmeter xff0c 可以看看这个系列的文章哦前言做性能测试 xff0c 服务器监控是至关重要的 xff0c 前面也讲了通过 ServerAgent 去监控服务器这一篇博文将详细讲解 nmon 监控工具 nmon
sip国内服务器系统,sip服务器系统 sip server clusters.pdf

sip服务器系统 sip server clusters 计算机系统应用 2016 年第25 卷第 5 期 SIP 服务器系统 1 1 2 1 1 林浒王久远杨海波贾正峰 1 中国科学院沈阳计算技术研究所沈阳 1
python数组 swig_使用SWIG Python动态绑定C++对象

SWIG Simplified Wrapper and Interface Generator 是一个为C C 43 43 库提供脚本调用支持的工具 xff0c 支持Lua Perl Python Go等多种脚本语言如果不了解可以参考In
ubuntu 串口调试工具推荐_玩客云刷ubuntu系统（不写入emmc）

写在最前 xff1a 友情提示刷机有风险 xff0c 请自己承担本教程只做分享 xff0c 不提供技术支持 xff01 部分固件下载地址刷机有风险 xff0c 且刷且珍惜 1 刷机前的准备工作刷机需要哪些条件只要玩客云主板没坏都可以
qt gridlayout如何设置行数和列数_2020年高考数学如何复习？可以从数列开始

从历年高考数学题型来看 xff0c 数列可以和函数方程不等式三角等相关知识进行串联 xff0c 形成更为复杂的综合性问题 xff1b 或是结合实际生活例子 xff0c 考查考生运用数列知识解决实际问题的能力要想学好数列基础知识内容
ae怎么设置gpu渲染_有玩AE的吗？求教GPU渲染问题！！

iMac2013 3 1GHz 四核 Intel Core i7 xff0c Turbo Boost 高达 3 9GHz 8GB 1600MHz DDR3 SDRAM 2X4GB 1TB Serial ATA Drive 64 5400 r
Linux的exe加图标,lubuntu 如何给可执行文件加图标

来自于此文章问题来源比如我经常下载一个只需要解压就可以执行的打包文件 xff0c 由于其中的可执行文件与 icon 是分开的 xff0c 所以此可执行文件上就没有此图标 xff0c 使用起来多有不便通俗方法一般在 windows
signature=095ed28e83b68620637b3a67436b0f8f,SMB 3.1.1 Encryption in Windows 10

SMB 3 1 1 Encryption in Windows 10 09 09 2015 13 分钟可看完本文内容 SMB 3 encryption offers data packet confidentiality and prev
linux 查找py文件命令_Linux文件查找

find grep sgrep rgrep locate whereis whereis 命令用来定位指令的二进制程序源代码文件和man手册页等相关文件的路径 whereis命令只能用于程序名的搜索 xff0c 而且只搜索二进制文件参数
AbstractApplicationContext的refresh方法

AbstractApplicationContext的refresh方法文章目录 AbstractApplicationContext的refresh方法prepareRefreshobtainFreshBeanFactory prepa
android intent参数是上次的结果,【Android解决方案】在onResume里调用getIntent()得到的是上一次数据...

我有四个媒体分类 Record xff0c Music xff0c Video xff0c Picture xff0c 里面除了数据不同 xff0c 界面都是相似的 xff0c 所以我把它们用一个MediaActivity装载 xff0c
泊松分布的分布函数_10分钟了解泊松分布

什么是泊松分布 xff1f 当一个事件的发生满足以下条件时 xff0c 可以认为这个事件在某一固定时间段内的发生次数满足柏松分布事件是独立发生的事件发生的概率在给定的固定时间内不随时间变化总结起来就是 xff0c 事件的发生是随机且独立
4位先行进位加法器_行波进位/超前进位加法器详解

行波进位加法器是串行执行的 xff0c 其高位的运算要依赖低位的进位 xff0c 所以当输入数据的位数较多时 xff0c 会形成很大的延迟并可能成为芯片的关键路径采用超前进位加法器也叫先行进位加法器可以有效减小这种延迟下面介绍超前进
玩客云刷windows做服务器_精选 | 搭建一个私人服务器如何？

图文来源 sufentanyl 首先说说我的硬件设备主板 3条PCIE 3 0 x16插槽和3条PCIE x1插槽板载两个SATA Express接口和4个SATA 3接口 1个千兆网口 1个M2 0接口扩展神马的不用愁一个偶然的机
单场淘汰制场次计算方法_体育编排

体育编排名词解释 xff1a 1 体育竞赛 xff1a 是各类体育运动项目比赛的总称体育竞赛是以增强人民体质丰富社会文化生活以及在比赛中夺取优胜为目的 xff0c 以比赛项目为内容 xff0c 以运动规则为裁判尺度所进行的个人或集体之
php维语,关于维语书写 - 维吾尔语 | Uyghur | ئۇيغۇرچە - 声同小语种论坛 - Powered by phpwind...

阿拉伯字母改编而来的维文字的书写顺序 xff1a 总体规则是 xff0c 先右后左 xff0c 先主笔后次笔 xff0c 先下后上 xff0c 如果有中间横向长笔画的先中间后下最后上这点有点同印地语字母写法举例 xff1a 字母 xff
计算机在职考研一月联考院校,在职研究生一月联考的分数线是多少？

众所周知 xff0c 专硕在职研究生是一种学历式教育 xff0c 所以一些文凭不高的在职人员都想以专业硕士攻读在职研究生 xff0c 那么 xff0c 专业硕士一月联考初试有固定分数线吗 xff0c 是多少呢 xff1f 据了解 xff0c

随机推荐

容器和云服务器集群,什么是docker集群与镜像

什么是 1 集群是一组运行加入集群之后 xff0c 你可以继续运行自己的docker命令 xff0c 但是现在这些机器由集群管理器在集群上执行集群中的机器可以是物理或者虚拟的 xff0c 加入群组后 xff0c 每台机器都被称之为节点
战双帕弥什显示服务器满员,战双帕弥什星火和信标服务器有何区别

战双帕弥什星火和信标服务器有何区别 2019 12 05 10 40 作者 xff1a 佚名来源 xff1a 本站整理浏览 xff1a 893 评论 xff1a 1 战双帕弥什星火服和信标服有什么不同 xff1f 人气手游大作战双帕弥
天干地支计算公式_高大上：天干地支计算方法

天干地支是我国古代计算年月日的重要依据 xff0c 作为现代人的我们 xff0c 有必要去了解一下 xff0c 他们 xff0c 以备不时之需首先介绍一下 xff0c 天干和地支共有十天干和十二地支十天干 xff1a 甲 ji 乙 y
Eclipse下配置Spring，并跑通HelloWorld

首先我安装Spring的时候是通过Eclipse Marketplace来进行安装 xff0c 当然也可以在help中的install new software来进行安装 1 配置spring环境打开后搜索spring xff0c 安装如
edge linux 下载软件,如何在Linux中安装Microsoft Edge浏览器

Edge浏览器最初是在Windows 10上发布的 xff0c 随后是Mac OS xff0c X Box和Andoird 开发版据说是预览版 xff0c 旨在让想要在Linux上构建和测试其站点和应用程序的开发人员使用目前尚无法使用网络
linux 拷贝文件到另一个目录下_小白养成记之Linux——目录简介！！

一根目录 linux与windows分区是一样的 xff0c 都有主分区扩展分区逻辑分区 xff0c 只是他们的目录结构不一样 xff0c 所以导致表现形式也不一样 xff01 xff01 winodws是森林型目录结构 xff0c
风云2号卫星云图_哪里可以找到超清的实时卫星地图？

一实时的卫星地图 xff1f 可以看到实时更新的卫星地图吗 xff0c 答案是 xff1a 不可以以谷歌地区举例 xff0c 谷歌地球是世界最先进的虚拟地球仪 xff0c 囊括的卫星地图数据之海量 xff0c 可谓世界之前列 BIGEM
小米路由器r2d_小米路由器二代R2D怎样设置无线中继模式

方法步骤首先 xff0c 请大家将路由器的电源插好 xff0c 等到路由器正常工作以后 xff0c 连接到路由器放出的无线网络或者是使用网线连接到电脑终端在浏览器中输入192 168 31 1 默认IP地址是这个 xff0c 如果修改
ieee32位浮点格式转十进制_什么是浮点数？

阅读本文大约需要 7 分钟在上一篇文章 xff1a 什么是定点数 xff1f 我们主要介绍了在计算机中使用定点数表示数字的方式简单回顾一下 xff0c 简单来说 xff0c 用定点数表示数字时 xff0c 会约定小数点的位置固定不变 x
android 锁屏广告,华为手机锁屏后总是出现广告该怎么办？-安卓手机屏幕解锁后总是有个广告...

大家在使用 lt gt 开锁 gt 过程中可能会有 lt gt 安卓手机打开锁屏总有新闻广告 gt 的问题 xff0c 今天就由极速到家为大家从以下几个方面 xff1a lt gt 华为手机锁屏后总是出现广告该怎么办 xff1f gt 和大
ajax json上传,ajax json用法上传文件登录

1 json json 是一种数据结构跨平台跨语言 1 python中json数据的转换 1 数据类型字符串数字布尔值列表字典 None 2 序列化 python的数据类型 json字符串 json dumps python的数
购买服务器后怎么上传网页,买了云服务器后怎么上传网页

买了云服务器后怎么上传网页内容精选换一换当云服务器网络异常防火墙未放行本地远程桌面端口云服务器CPU负载过高等场景均可能导致云服务器无法正常登录当您的云服务器无法远程登录时 xff0c 我们建议您首先检查是否可以通过控制台远程登
比尔沃服务器位置,防辐射植物哪个更好？

一沙漠甘泉仙人掌如果在你的计算机旁放置一二盆仙人掌 xff0c 可以帮助人体尽量少地吸收计算机所释放出的辐射因为仙人掌是在日照很强的地方生长 xff0c 所以吸收辐射的能力特别强原因 xff1a 1 仙人掌球可抗辐射仙人掌和多肉
java http cookie_在java中http请求带cookie的例子

在java中http请求带cookie的例子如下所示 xff1a String urlPath 61 34 你的请求链接 34 String cookie 61 34 要发送的cookie 34 URL url 61 new URL ur
go web gin框架实战1

文章目录 go web gin框架实战1 参考资料2 demo3 demo运行4 demo解析 go web gin框架实战 1 参考资料 gin框架官方文档链接 2 demo span class token keyword packa
centos7 安装图形界面_Centos7 使用ssh进行x11图形界面转发

Secure Shell SSH 是一种加密协议 xff0c 可以在不安全的网络上安全地传输数据 X11 forwarding是一个安全的shell特性 xff0c 它允许通过现有的SSH shell会话转发X11连接 xff0c 用于在服
from . import_python首行代码import *，from * import * 解析

python代码 xff0c 一般第一行代码都是import 或from import xff0c 作用是导入功能模块 xff0c 然后利用模块内的函数编写代码 xff0c 减少大量的代码编写时间 xff0c 是python的一大特色但是
aix开启图形化界面_AIX上启动xmanager界面

在aix上安装oracle xff0c 用图形界面进行安装 xff0c 首先的一点是要让oracle用户能启动xwindow 由于之前一直在HP平台下 xff0c 对AIX还不是很熟悉 xff0c 此文章是以为记我们假定root可以启动x
.net mvc 获取iis基本登录网站登录账号_超赞！终于有网友用 Java 实现了第三方 QQ 账号登录。。。...

来源 uidaima com blog 4725615031700480 htm QQ互联注册一个账号加入jar包登录页面Controller编写AuthComment类编写登录成功跳转到页面成功后的页面indexfreemarker配置
sam格式的结构和意义_全长转录组结构分析

全长转录组结构分析 Iso seq测序经初步分析获得高质量的转录本之后全长转录本鉴定 xff0c 全长转录本比对 xff0c 便可以对转录本的结构进行精确鉴定注释本次小编通过结合一个全长转录本后续分析的工具集Cupcake的使用方法

sam格式的结构和意义_全长转录组结构分析

sam格式的结构和意义_全长转录组结构分析 的相关文章

随机推荐

热门标签

sam格式的结构和意义_全长转录组结构分析的相关文章