Hvordan raskt finne mutasjoner i en avlesning av en sam-fil?

Spørsmål:

rraadd88

2017-05-18 08:14:29 UTC

view on stackexchange narkive permalink

Etter DNA-sekvensering genererte jeg en sam-fil gjennom justering av en fastq-fil. Før jeg bruker kjente varianteroppkallingsprogrammer (f.eks. Annovar osv.), Vil jeg velge noen lesninger og vite hva slags mutasjoner som er der.

Er det noen rask måte å gjøre det på?

Du kan visualisere uoverensstemmelser med noe som [IGB] (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)

Tre svar:

Scott Gigante

2017-05-18 08:24:19 UTC

view on stackexchange narkive permalink

For kvalitativ analyse er det sannsynligvis bedre å bruke noe mindre detaljert som IGV eller IGB. Men hvis du virkelig vil se på et par lesninger:

Hvis du er villig til å ignorere sekvenseringsfeil, kan du inspisere CIGAR-strengen eller MD-koden, som begge gir informasjon om justeringen av en enkelt lesing.

CIGAR-strengen gir detaljer om innsettinger, slettinger, utklipp, treff og uoverensstemmelser. Fra Genome Analysis Wiki,

Sekvensen som er justert til en referanse kan ha flere baser som ikke er i referansen, eller mangler baser som er i referansen. CIGAR-strengen er en sekvens av baselengder og tilhørende operasjon. De brukes til å indikere ting som hvilke baser som stemmer overens (enten samsvar / uoverensstemmelse) med referansen, blir slettet fra referansen og er innsettinger som ikke er i referansen. For eksempel:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Referanse: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TW Med justeringen ovenfor får du : POS: 5CIGAR: 3M1I3M1D5M

Den vanligste bruken av CIGAR-strengen bruker M (match / mismatch), I (innsetting), D (sletting), S (soft clipping) og H (hard klipping). Merk at = (match) og X (mismatch) er tilgjengelige som alternativer til den mindre informative M, men de er mindre brukt.

MD-koden gir spesifikke detaljer om mismatches og slettinger. Fra SAMtools-kodespesifikasjonen,

MD-feltet har som mål å oppnå SNP / indel-anrop uten å se på referansen. For eksempel betyr en streng ‘10A5 ^ AC6’ fra venstre referansebase i justeringen, det er 10 treff etterfulgt av et A på referansen som er forskjellig fra den justerte lesebasen; de neste 5 referansebasene er samsvar etterfulgt av en 2bp-sletting fra referansen; den slettede sekvensen er AC; de siste 6 basene er kamper. MD-feltet bør samsvare med CIGAR-strengen.

Vær oppmerksom på at ingen av disse vil gi deg noen ide om strukturelle varianter i korte lesninger, og ingen av dem vil være spesielt lesbare (eller nyttige på grunn av den høyere feilraten) i lange avlesninger.

dariober

2017-05-21 22:47:47 UTC

view on stackexchange narkive permalink

Jeg skrev et program, ASCIIGenome, som jeg synes er nyttig i tilfeller der du vil se raskt på genomdata. Det er en genomleser for kommandolinjen.

Hvis du bare vil vise lesninger som inneholder uoverensstemmelser, kan du bruke den interne funksjonen awk . For å filtrere for avlesninger der NM-koden (antall feilparringer) er> 0:

  ASCIIGenome -fa genom.fa aln.bam ... [h] for hjelp: awk 'getSamTag (" NM ") > 0 '

Visningen på terminalskjermen kan se omtrent slik ut:

Tilsvarende, for å få bare leser som inneholder indeler, kan du bruke awk '$ 6 ~ "D | I"'

Håper dette hjelper og gjerne rapportere feil &-problemer.

Det er veldig kult. Jeg liker det.

gringer

2017-05-18 21:23:10 UTC

view on stackexchange narkive permalink

samtools mpileup kan gjøre dette raskt:

  samtools mpileup -f reference.fasta -uv input.sam > variants.vcf

Dette vil produsere en VCF-formatert fil som inneholder informasjon om hvilke varianter som er sett i SAM-filen, samlet for alle kartlagte lesninger.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese