TCGA数据库详解

2023-11-03

TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

TCGA官网:https://portal.gdc.cancer.gov/

1. 数据等级和分类:

TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。这些数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)

Level 2:比对好的bam文件

Level 3:为经过处理及标准化的数据


2.如何寻找数据:

2.1 如何进入Project

如图1所示,点击以下五个标注的地方都可以找到自己需要的Project。1会把所有的Project全部列出,然后点击自己需要的ProjectID;2会列出所有的case,在左侧的导航栏可以选择自己需要的条件,然后点击自己需要的ProjectID;3可以直接搜索ProjectID;4可以直接点击身体器官进入对应的一个或多个Project,然后点击自己需要的ProjectID;5和4是一样的,只不过变成了文字。进入某一个Project的页面如图2(Project ID为TCGA-BRCA)所示。

 

2.2 如何选择数据

如图2所示,从自己所需数据类型的Files属性点进去,也可以点击右上角的FILES,然后通过左侧导航栏筛选。如图3、图4所示,导航栏分为Cases和Files两部分,Cases的筛选条件有Case ID、Primary Site、Program、Project、Disease Type、Gender、Age at Diagnosis、Vital Status、Days to Death、Race、Ethnicity;Files的筛选条件有Data Category、Data Type、Experimental Strategy、Workflow Type、Data Format、Platform、Access。

在网页上方会显示出勾选条件,如图5所示,选择条件是TCGA-BRCA中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是1080个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中,下载清单可以通过页面右上角的Cart查看。

3.如何下载数据:

TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。数据下载支持本地下载和官方下载工具下载,官方下载工具支持Windows、Ubuntu、OSX和CentOS系统。

官方下载工具下载页面:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

点开Cart页面后,如图6所示,可以点击Download=>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,下载方式如图7所示。

Centos命令行下载示例

gdc-client download -t gdc-user-token.2018-10-25T07_07_18.260Z.txt -m gdc_manifest_20181025_070650.txt

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TCGA数据库详解 的相关文章

随机推荐

  • 《计算机视觉中的多视图几何》笔记(3)

    3 Projective Geometry and Transformations of 3D 这章主要讲的是3D的射影几何 与2D的射影几何差不多 主要区别是 3D射影几何对偶的是点和平面 直线是自对偶的 3D空间中直线有4个自由度 这一
  • CTF—Python爬虫-WEB目录爆破和指纹识别

    编写自己的web目录爆破脚本 首先我们要准备一个字典 用来爆破web目录 而且为了使扫描效果好一点 这个字典里面的内容几乎都是dedecms可能的目录 其实要实现这个功能 原理很简单 只用读取字典文件中的每一项 与访问的url拼接成一个新的
  • ObiRope的一些笔记

    之前用ObiRope做的两个小功能 分别是绳子剪裁以及绳子拖拽 但是项目没做完 公司黄了 记录一下相关的笔记 ObiRope下载 链接 https pan baidu com s 1D6330eonD4SALxTOJ2a bg 提取码 hg
  • 获取网络,本地连接的具体名称(Friendly Name)

    工作需要 程序需要 以下代码可以得到 本地连接的具体名称 在VC 6 0下需安装sdk 添加 以下代码 include
  • Android游戏开发中的优化策略

    绘图优化 1 脏矩形 每次都重绘整个背景图 其实是非常浪费的 前后两帧的图其实只有很少的一部发生了变化 因此可以只重绘变化的部分 这是一种常用的绘图优化方式 需要注意的是 android用了双缓冲 也就是说 使用脏矩形的时候 需要连续绘制两
  • TensorFlow低版本安装

    更新pip pip install upgrade pip 查看已有的环境 conda env list 激活环境与取消环境 To activate this environment use conda activate tensorflo
  • 卷积神经网络CNN原理+代码(pytorch实现MNIST集手写数字分类任务)

    目录 卷积神经网络 前言 卷积运算 卷积运算中几个常用的参数 1 padding 2 stride 3 Max Pooling Layer 实战演练 设计一个卷积神经网络 GPU的使用 整体代码 运行结果 卷积神经网络 前言 若将图像数据输
  • git clone no matching host key type found. Their offer: ssh-rsa,ssh-dss... 报错

    Unable to negotiate with 主机地址 port 端口号 no matching host key type found Their offer ssh rsa ssh dss fatal Could not read
  • 红黑树与平衡二叉树区别?

    如果说平衡二叉树是一个类的话 那么红黑树就是该类的一个实例 算法的书我丢久了 一下子也找不到 我是凭记忆说的 红黑树的算法比较麻烦 但它的思想很好 如果理解了它的思想也就理解它的算法 我也只记得思想 具体算法记不得了 我就在这说说思想吧 红
  • oracle归档空间满且启动报错总结

    oracle归档空间满且启动报错总结 今天oracle数据库归档日志过满导致oracle数据库挂掉 解决思路 删除归档日志 看oracle能否可用 如果不可用重启oracle数据库 并把归档关掉 测试库 生产库一定要起归档 在重启数据库的过
  • WIN32 消息总结

    1 键盘消息 键盘会产生如下两种消息 1 按键消息 消息分类 WM KEYDOWN WM KEYUP WM SYSKEYDOWN 系统按键按下时产生 如ALT F10 WM SYSKEYUP 参数 WPARAM 按键的vritual key
  • 【JMeter-Hive】使用JMeter对Hive的查询性能进行压测

    JMeter Hive 使用JMeter对Hive的查询性能进行压测 1 生成测试数据 2 查询性能压测 2 1 创建线程用户并指定参数配置 2 2 创建JDBC Connection Configuration并配置连接信息 2 3 导入
  • C语言题目代码总结解析

    目录 简单版三子棋实现 简单的扫雷的实现 简单的通讯录实现 最大公约数 辗转相除法 判断一个数是否是素数 二分查找 有序数组查找 递归实现字符串反转 递归实现汉诺塔问题 青蛙跳台阶问题 几个字符串库函数的实现 qsort的冒泡实现版本 杨式
  • 用代码写出浪漫__合集(python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心)

    活动地址 CSDN21天学习挑战赛 用代码写出浪漫合集 爱心 玫瑰花 本文目录 一 前言 二 用python matplotlib Matlab java绘制爱心 1 爱心图形1 弧线型 显示的文字写在代码里 2 爱心图形2 直线型 显示的
  • openeuler 欧拉操作系统的几个图形界面安装方法

    欧拉操作系统openeuler 安装的时候默认是不带图形界面的 安装完成后如果要使用图形需要手工往系统里面补 目前为止最新的21 09版本ISO安装完后在线源配置里面EPOL源路径是错误的 需要手工修改一下路径 否则是无法更新源里面的软件包
  • let和const 和var 的区别

    1 let和const是什么 声明变量或声明常量l var声明变量 let 代替var 声明变量 const声明常量constant 2 let和const的用法 var一样 var username Alex let age 18 con
  • 图解LeetCode14:最长公共前缀(递归,二分查找)

    LeetCode14 最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀 如果不存在公共前缀 返回空字符串 示例 输入 strs flowers flow flight 输出 fl 输入 strs dog racecar car 输
  • Linux的shell入门和版本控制(五)

    0 前言 这部分简单介绍了Linux系统中的shell编程 1 服务监听 在Linux中的服务监听 相当于在windows中的任务管理器 常用指令 示例一 查询进程 ps aux grep 要查询的程序名 这样查询会连带这条查询指令的进程一
  • 嵌入式Linux开发: 从0开始编译并启动ARM Linux内核(全志)

    引言 最近看见很多小白不会编译Linux内核 自己瞎折腾走了很多弯路 本文章将会以Orange Pi 香橙派 Zero开发板为例 带您成功编译内核并在板子上启动它 准备 您需要一台Ubuntu PC 版本最好在20 04以上 一个可以用的U
  • TCGA数据库详解

    TCGA The cancer genome atlas 癌症基因组图谱 由 National Cancer Institute NCI 美国国家癌症研究所 和 National Human Genome Research Institut