For kvalitativ analyse er det sannsynligvis bedre å bruke noe mindre detaljert som IGV eller IGB. Men hvis du virkelig vil se på et par lesninger:
Hvis du er villig til å ignorere sekvenseringsfeil, kan du inspisere CIGAR-strengen eller MD-koden, som begge gir informasjon om justeringen av en enkelt lesing.
CIGAR-strengen gir detaljer om innsettinger, slettinger, utklipp, treff og uoverensstemmelser. Fra Genome Analysis Wiki,
Sekvensen som er justert til en referanse kan ha flere baser som ikke er i referansen, eller mangler baser som er i referansen. CIGAR-strengen er en sekvens av baselengder og tilhørende operasjon. De brukes til å indikere ting som hvilke baser som stemmer overens (enten samsvar / uoverensstemmelse) med referansen, blir slettet fra referansen og er innsettinger som ikke er i referansen. For eksempel:
RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Referanse: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TW Med justeringen ovenfor får du : POS: 5CIGAR: 3M1I3M1D5M
Den vanligste bruken av CIGAR-strengen bruker M (match / mismatch), I (innsetting), D (sletting), S (soft clipping) og H (hard klipping). Merk at = (match) og X (mismatch) er tilgjengelige som alternativer til den mindre informative M, men de er mindre brukt.
MD-koden gir spesifikke detaljer om mismatches og slettinger. Fra SAMtools-kodespesifikasjonen,
MD-feltet har som mål å oppnå SNP / indel-anrop uten å se på referansen. For eksempel betyr en streng ‘10A5 ^ AC6’ fra venstre referansebase i justeringen, det er 10 treff etterfulgt av et A på referansen som er forskjellig fra den justerte lesebasen; de neste 5 referansebasene er samsvar etterfulgt av en 2bp-sletting fra referansen; den slettede sekvensen er AC; de siste 6 basene er kamper. MD-feltet bør samsvare med CIGAR-strengen.
Vær oppmerksom på at ingen av disse vil gi deg noen ide om strukturelle varianter i korte lesninger, og ingen av dem vil være spesielt lesbare (eller nyttige på grunn av den høyere feilraten) i lange avlesninger.