如何从TCGA数据库下载DNA甲基化数据
发布网友
发布时间:2024-10-23 22:37
我来回答
共1个回答
热心网友
时间:2024-10-25 03:37
欢迎来到TCGA数据库下载DNA甲基化数据的指南!我们以胆管癌(TCGA-CHOL)为例,带你一步步轻松获取所需数据。
首先,访问TCGA数据库官网portal.gdc.cancer.gov。在搜索框输入“胆管癌”(TCGA-CHOL),点击“PR”找到数据。
接着,点击“Methylation Array”后的“36(Cases数)”。在页面左侧,勾选“Methylation Beta Value”,文件数量将从145个减少至45个。点击“Add All Files to Cart”。
之后,前往购物车,下载样本信息表,命名为“gdc_sample_sheet.2022-08-06.tsv”。完成下载后,获取名为“gdc_download_20220806_013206.570127.tar.gz”的压缩文件。
将文件解压至“TCGA_CHOL/methylation”文件夹中,同时将“gdc_sample_sheet.2022-08-06.tsv”复制并重命名为“methylation_sample_sheet.tsv”。至此,数据结构已整理完毕。
解压后,将看到45个单独的样本文件夹,每个文件夹对应一个样本的DNA甲基化数据。打开“betas.txt”文件,查看数据格式:第一列是450K芯片的探针ID,对应CpG位点,其余列代表甲基化水平的beta值(0-1,0表示非甲基化,1表示完全甲基化)。
本教程暂告一段落,后续我们将指导您使用R代码将这45个样本的甲基化值整合为矩阵。敬请期待!