关于人参考基因组的一些总结
发布网友
发布时间:2023-02-12 08:39
我来回答
共1个回答
热心网友
时间:2024-11-23 18:43
人参考基因组fasta文件的组成部分说明
样性,基因组是由单倍体类型表现的,基因的多样性(如等位基因)无法通过一条序列表示,就有
了alt序列来补充说明,这样的alt序列在测序分析map过程容易产生multiple-mapping低质量的
reads,GATK的zeroMappingQuality会将这样的reads过滤掉。
需要其中一条染色体上的par区域mask掉。
decoy基因组 包含人疱疹病毒EBV基因组的序列。
关于基因组版本
GRCh38版本,也有GRCh38.p6, GRCh38.p11等小版本,p指的patchs指定期对基因组的修补,并且每
次修补并没有扰乱染色体位置信息,两种patch
fix patches表示下次主版本发布时将要替换的序列
Novel patches表示上面提到的alternate loci,也就是将新的patches看做变异序列。
analysis set
常用的基因组文件只包含primary assembly,而analysis set 还包含alt序列,PAR序列,decoy基
因组。这些时做基因组变异分析必须的。
1参考基因组的选择
1.1三种选择
如果比对到GRCh37/hg19, ftp://ftp-
trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
如果比对到GRCh37/hg19,并且认为包含decoy序列能够更准确地进行变异检测,使用:
ftp://ftp-
trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_seque
nce/hs37d5.fa.gz
如果比对到GRCh38/hg38,使用:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_fo
r_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
1.2ALT contig序列是为了反映人群多态性的一段替补序列,和原染色体位置对应的序列之间有一
定的差异。放在ref中的隐患是人为增加了重复序列。
用很长的N间隔这些ALT contig序列增加了不必要的ref的size
Ensembl
可以下到最新版
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/
GATK
https://software.broadinstitute.org/gatk/download/bundle
包括SNP, InDel这类为变异检测提供参考的文件。
NCBI
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13
UCSC
http://hgdownload.soe.ucsc.e/goldenPath/hg38/bigZips/
包含很多的文件,
NCBI
https://www.ncbi.nlm.nih.gov/genome/guide/human/
包含各种文件
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
[1] https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
[2] https://www.biostars.org/p/73100/
[3] https://software.broadinstitute.org/gatk/blog?id=8180
[4] https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/