Spørsmål:
Hvordan kan jeg telle antall avlesninger som støtter en variant i en bam-fil?
terdon
2018-01-15 16:13:52 UTC
view on stackexchange narkive permalink

Jeg kaller varianter fra et menneskelig utvalg ved hjelp av bwa mem for å justere lesingene og gatk for å kalle variantene. Jeg prøver å forstå hvorfor en bestemt variant ikke ble kalt i prøven min. Jeg har sjekket bam-justeringene i en GUI-visning, og jeg kan se at det er leser som støtter den manglende varianten. Det ser ut til at problemet er en lav allelbalanse, med langt flere lesinger som støtter referansen enn den alternative allelen, men jeg ønsker å få de faktiske tallene.

Så gitt en spesifikk variant som denne:

  chr22 425236 CT  

Hvordan kan jeg telle antall lesinger i min sample.bam -fil som støtter den varianten og antallet som ikke er på Linux?

Tre svar:
Devon Ryan
2018-01-15 16:39:33 UTC
view on stackexchange narkive permalink

Hvis du ikke har noe imot litt manuell telling, vil samtools mpileup -f reference.fa -r chr22: 425236-425236 alignments.bam produsere output der du kan telle basene for den stillingen. Du kan selvfølgelig bruke kommandolinjen for å gjøre det meste av det automatisk:

  samtools mpileup -f reference.fa -r chr22: 425236-425236 alignments.bam | kutt -f 5 | tr '[a-z]' '[A-Z]' | brett -w 1 | sorter | uniq -c  

Det vil gi deg en opptelling av hvor mange av hver base som ble sett.

dariober
2018-01-16 02:00:04 UTC
view on stackexchange narkive permalink

ASCIIGenome (jeg er forfatter) har en kommando, filterVariantReads, designet for å inspisere leser med en variant i en posisjon eller rekkevidde. Det vil gå langs disse linjene:

  ASCIIGenome -fa genom.fa aln.bam  

Gå deretter til regionen av interesse og bruk:

  goto chr9: 4917981-4918161filterVariantReads -r 4918011  

Fra dette:

enter image description here

Du får:

enter image description here

Du kan også skrive ut på skjermen eller lagre for å arkivere de underliggende sam-postene med:

  skriv ut > reads.sam  

For flere regioner kan hele prosessen skriptes for automatisering.

Håper dette hjelper!

Geraldine_VdAuwera
2020-04-23 22:54:53 UTC
view on stackexchange narkive permalink

Variantrekorden i VCF produsert av GATK bør inneholde informasjon om dybde - både total lesedybde (DP) og allel dybde (AD), dvs. dybde per allel.

Husk imidlertid at den som ringer tar sin beslutning basert på mer enn bare allel dybde. Det er noen ekstra statistikker involvert, inkludert kvaliteten på de enkelte basene. Også, hvis det ble brukt filtrering, kan varianten din ha blitt ekskludert på grunn av annen statistikk, for eksempel hvis det er bevis på streng bias - for eksempel hvis alle lesningene som støtter varianten din er i samme retning, er det en klassisk rød flagg som antyder at det er en gjenstand.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...