VCF和GVCF格式說明


注意:本文的內容主要來自於GATK官網的講解,所以vcf也是GATK產生的,用其他caller,比如varscan2產生的vcf文件的內容注釋可能不一致。

參考:https://gatkforums.broadinstitute.org/gatk/discussion/1268/what-is-a-vcf-and-how-should-i-interpret-it 

 

VCF:由HEADER和RECORDS組成。

 

RECORDS的FORMAT內容詳解:

 

QUAL:指的是caller正確的識別該變異位點的可能性,屬於phred-scale quality score的一個應用。

 

GT,GQ,PL三者的關系:

GT是指該位點最有可能的基因型。

GQ是該位點第二有可能的基因型的PL值。

PL是不同基因型對應的標准化的可能性。

對於二倍體生物來說,PL有三個值,分別對應0/0,0/1,1/1。最有可能的基因型的PL值為0,第二小的是第二個可能。GQ反映的是第二個小的基因型的PL值,如果該值超過99,則定位99,因為超過了99,其幾乎不能威脅第一個可能的地位。

計算方法:

PL(0/1) = 0 (the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,

but the next PL is PL(1/1) = 26 (which corresponds to 10^(-2.6), or 0.0025).

 

QUAL和GQ的區別:

 

 

GVCF和VCF的最大區別是在於GVCF文件會記錄所有的點,包括哪些沒有突變的點。

在GVCF模式下,那些沒有變異的點會形成一個未變異塊,non-var block record。

 

GVCF的好處:能更方便把一群樣本的GVCF聯合起來,以便進行下一步分析,提高分析效率。而且GVCF的records還會提供一個

The records in a gVCF include an accurate estimation of how confident we are in the determination that the sites are homozygous-reference or not. This estimation is generated by the HaplotypeCaller's built-in reference model


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com