Spørsmål:
Brukes mykt klippte baser til variantanrop i samtools + bcftools?
mattm
2017-05-19 23:50:05 UTC
view on stackexchange narkive permalink

Hvis det er mykklipte basepar angitt i CIGAR-strengen for en avlesning i en SAM / BAM-fil, vil disse brukes til variantanrop i en samtools + bcftools arbeidsflyt?

GATK HaplotypeCaller har for eksempel et eksplisitt alternativ --dontUseSoftClippedBases for om det skal brukes myke klippte baser. Samtools-dokumentasjonen nevner ikke klippet baser.

En svar:
Devon Ryan
2017-05-20 00:19:13 UTC
view on stackexchange narkive permalink

Nei, samtools (og derfor bcftools) bruker ikke mykklipte baser. Du kan raskt bekrefte dette ved å bruke enten samtools depth eller samtools mpileup for å se på en region med en myk klippet justering. Du vil merke at den mykklipte regionen ikke brukes i dybden / pileupen (begge verktøyene bruker den samme underliggende koden, så det spiller ingen rolle hvilken du bruker). Hvis du er nysgjerrig, ignorerer samtools soft-clipped baser fordi det er basert på å lage en per-base stabel med justeringer som dekker hver posisjon. I BAM-formatet blir justeringer sortert og tilordnet søppel i henhold til start- / sluttposisjonene, som ikke inkluderer soft-clipping. Følgelig, når samtools lager pileup, vil den ikke engang se justeringene som vil overlappe en gitt base hvis softklippte baser ble inkludert.

Dette stiller liksom spørsmålet om hva GATKs HaplotypeCaller gjør annerledes. Der er regioner i genomet hovedsakelig samlet i en liten de Bruijn-graf, som gjør det mulig å løse myke klipp baser rundt indels, gitt at grafen vil starte / slutte litt på hver side av indels. Dette er også grunnen til at du ikke trenger å gjøre omjustering med HaplotypeCaller (dette var nødvendig i den gamle UnifiedGenotyper).

Rediger : For mer informasjon om HaplotypeCaller, se denne fine siden på GATKs nettside, som går mye mer i detalj enn jeg gjorde her.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...