Dette er relatert til spørsmålet jeg stilte her. Tenk på en vcf-fil som inneholder duplikatvarianter, men der duplikatene ikke bare er det samme i samme notasjon, men i stedet er den ene en delmengde av den andre. For eksempel:
## fileformat = VCFv4.1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1chr12 529514. AACAC AATAC. SENDE . GT 0 / 1chr12 529516. C T. SENDE . GT 0/1
Disse de to variantene er faktisk de samme. De resulterer i nøyaktig samme genotype. Å endre AACAC til AATAC i posisjon 529514 betyr bare å endre C til T i posisjon 529516.
Er det noe verktøy som kan oppdage slike duplikater og fjerne dem? Jeg prøvde vcfuniq
fra vcflib
, men det ser ikke ut til å gjenkjenne dette som et duplikat. Jeg tror det bare ser på de første 4 feltene og anser bare duplikater av disse variantene med nøyaktig de samme verdiene i de første 4 feltene:
$ ./bin/vcfuniq test.vcf ## fileformat = VCFv4.1 ## referanse = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample1. AACAC AATAC. SENDE . GT 0 / 1chr12 529516. C T. SENDE . GT 0/1
Men som forklart i spørsmål knyttet til, anser EBIs vcf_validator
dette som ugyldig. Og det er egentlig ikke fornuftig å ha disse duplikatene i alle fall, så er det noen måte jeg kan oppdage og fjerne dem? Gjerne et eksisterende verktøy, men jeg er også åpen for skriptløsninger.
Dette kompliseres ytterligere av tilfeller som denne:
## fileformat = VCFv4 .1 ## referanse = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" >
## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1chr12 529514 529514 AACAC AAT, AATAC 0.00. . GT 0 / 1chr12 529516 529516 C T. SENDE . GT 0/1
Dessverre vil denne ikke bli fanget av tilnærmingen i Daniels smarte skript:
$ cat test2.vcf | foo.py ## fileformat = VCFv4.1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT KVALTFILTERINFORMASJONSFORM Eksempel1chr12 529514 529514 AACAC AAT, AATAC 0,00. . GT 0 / 1chr12 529516 529516 C T. SENDE . GT 0/1