新版TCGAbiolinks包学习03:差异分析
发布网友
发布时间:2024-09-17 02:31
我来回答
共1个回答
热心网友
时间:2024-09-17 20:08
本文主要介绍如何使用TCGAbiolinks包进行差异分析,包括数据加载、预处理、差异分析以及使用DESeq2进行差异分析的详细步骤。
在进行差异分析之前,需要加载好R包和数据。在本例中,数据已经提前下载并整理好,可以直接加载使用。
接下来,我们进行数据预处理。首先,我们通过spearman相关系数去除异常值,同时生成相关图以帮助理解数据关系。之后,进行标准化处理,使用EDASeq包中的方法。接着,过滤掉低表达的基因,从19962个基因中筛选出14600个,去除了5000多个基因。
对数据进行分组,选择实体瘤和部分正常组织进行分析,通过检查样本barcode的第14和15位数来判断类型。分组操作相对简单,只需要根据特定规则进行判断即可。
差异分析主要采用edgeR和limma两种方法,同时支持无缝连接DESeq2进行分析。结果非常理想,提供了gene_name和gene_type信息,使得无需取子集也能进行分析。
若想使用DESeq2进行差异分析,只需将SummarizedExperiment对象传入DESeqDataSet()函数即可,但需要注意分组信息的准备。在本例中,通过调整样本类型信息,轻松完成了分组操作。
进行差异分析时,先进行基因筛选,这里采用简单设置,选择Tumor-Normal作为比较对象。完成筛选后,即可进行差异分析,结果令人满意,虽然没有提供gene_symbol,但可通过其他方式添加。
总结而言,TCGAbiolinks包提供了强大的工具进行TCGA数据的差异分析,从数据加载、预处理到差异分析,整个流程清晰且高效,为生物信息学研究提供了有力支持。