Spørsmål:
Kan en datafil i VCF-format konverteres til FASTA?
WagonWheelWilly
2018-02-27 21:01:29 UTC
view on stackexchange narkive permalink

Jeg vurderer å kjøpe 'MyGenome' produktet av Veritas Genetics for å analysere genomet mitt for et prosjekt. Jeg vil at dataene skal være i FASTA-format, men Veritas gir bare VCF-data. Er det mulig å konvertere disse VCF-dataene til FASTA-format?

Hva er "MyGenome" nøyaktig? Vil de sekvensere hele genomet ditt? Bare ditt eksom? Spesifikke regioner i exome?
@terdon Hele genomet 30X på HiseqX. [Link] (https://www.veritasgenetics.com/sites/default/files/media/documents/VG_ProductOnePager_myGenome_email.pdf)
Ja, det høres ikke ut som et helt genom. Eller rettere sagt, det høres ut som om de kan sekvensere hele genomet, men så bare analysere bestemte regioner av det (som er en rimelig ting å gjøre, jeg sier ikke at de svindler deg). "myGenome er et helt genom *** screening *** test [...]". I så fall vil metoden i b.notas svar ikke nøyaktig rekonstruere * genomet ditt, men bare de regionene i genomet ditt som skiller seg fra referansegenomet i regionene de skjedde på.
@terdon avhenger litt av hvordan de lager VCF-filen, tror du ikke? Tolkningen er bare basert på bestemte regioner, men de skal ha en fil med alle varianter som OP skal få for denne VCF -> FASTA-øvelsen.
@b.nota mitt gjetning (og det er bare en gjetning) er at de bare vil gjøre en variant som krever målrettede regioner. Dette gir raskere prosess og reduserer ressursene som trengs, og beskytter dem også mot søksmål i noen land.
God sjanse du gjetter riktig. OP vil kanskje først kontrollere med MyGenome, om alle varianter er rapportert i VCF-fil.
Mulig duplikat av [Hvordan manipulere en referanse FASTA eller bam for å inkludere varianter fra en VCF?] (Https://bioinformatics.stackexchange.com/questions/2223/how-to-manipulate-a-reference-fasta-or-bam -til å inkludere-varianter-fra-en-vcf)
Det er mulig å lage "a" fasta som diskutert, men er i tvil om det er et nyttig format for deg å jobbe med. Men det er ikke spørsmålet, antar jeg.
En svar:
benn
2018-02-27 21:15:03 UTC
view on stackexchange narkive permalink

Du kan prøve gatk funksjon FastaAlternateReferenceMaker

  java -jar GenomeAnalysisTK.jar \ -T FastaAlternateReferenceMaker \ -R reference.fasta \ -o output.fasta \ -L input.intervals \ -V input.vcf \ [--snpmask mask.vcf]  
Det kan være verdt å påpeke at dette bare vil rekonstruere OPs genom hvis OP har WGS-data. Hvis ikke, vil jeg dette verktøyet antagelig bruke referansegenomet for alt som ikke eksplisitt er nevnt i filen, så det vil ikke være OPs genom.
@b.nota takk for svaret ditt. Vil bare gi deg beskjed om at jeg har kontaktet veritas support for mer informasjon (venter fortsatt på svaret deres) og vil godta svaret når jeg kan bekrefte at dette fungerer.


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...