geo数据库找差异基因?
发布网友
发布时间:2024-10-20 18:00
我来回答
共1个回答
热心网友
时间:2024-11-13 21:20
GEO数据库-简介
NCBI-GEO数据库是全球最大的公共基因表达数据存储库之一,包含各种平台的数据,包括常见的芯片数据、高通量数据(如RNAseq、ChIP、单细胞测序等)。由于允许作者上传高通量数据,数据集存在多样性,可能包括缺失数据。高通量数据可能没有提供标准化下游数据,分析需求较高。
如何找到自己需要的数据?
1、通过直接检索GEO数据库
访问NCBI-GEO检索页面,选择Series限定为GSE,确保结果的完整性。使用Xiantao的数据集检索工具进行检索,注意结果与GEO数据库可能有差异。增加关键词缩小检索范围,检查数据集设计和分组是否满足研究需求。查看标题、数据集介绍、平台类型、平台号、样本量。特别关注高通量数据集的样本信息,查看芯片数据集的补充信息。
2、通过文献搜索
在PubMed中搜索相同领域文章,查找使用过的GEO数据集,了解数据集应用场景。这种方法可能不全面,工作量较大。适用于寻找一两个验证分子表达或预后的数据集。
如何整理GEO数据?
找到合适的GEO数据后,提取和整理数据。
1、高通量数据整理
下载包含原始counts值的数据,整理数据集,创建差异分析表格。提取分子表达数据,生成分组比较图。
2、芯片数据整理
下载series_matrix和平台文件,使用GPL文件(探针-分子对应文件)获取分子探针号。在series_matrix中搜索探针号,提取表达数据和临床信息,整理数据用于分析。
数据整理后,按照上传数据模块要求的格式上传数据进行分析和可视化。