Spørsmål:
Hvorfor har denne menneskelige bam-filen bare en kopi av hvert kromosom?
Lot_to_learn
2018-12-24 11:15:53 UTC
view on stackexchange narkive permalink

Som vi vet at i menneskelig DNA-sekvens kommer en kopi av kromosom fra mors DNA og en annen kopi kommer fra fars DNA for å danne to kopier av hvert kromosom i humant DNA. Så hvis vi trekker ut eksomsekvens fra dens DNA, må hvert eksom også ha to kopier av hvert kromosom (en fra mor og en annen fra far). Men i enten fastq-fil eller bam-fil i WES-data, finner jeg alltid bare en kopi av hvert kromosom.

Q1: Hvor er den andre genkopien i sekvensen eller har jeg savnet noe?

Q2: Hvordan kan jeg sjekke ploidien og finne ut om det er to kopier av hvert kromosom i WES-data? Hvordan kan jeg gjøre dette hvis WES-dataene mine blir tilordnet referansen og lagret i en bam-fil?

Ikke alle gener har to eksemplarer, for eksempel. Y-kromosom. Er (vanligvis) bare ett.
En svar:
conchoecia
2018-12-24 12:21:41 UTC
view on stackexchange narkive permalink

Mødre- og fedrekopiene av et kromosom kalles haplotyper . Mange metazoans (dyr) er diploide og har kromosom fra mor og far under seksuell reproduksjon, ikke bare mennesker som spørsmålet ditt sier.

Svar på Q1

Spørsmålet ditt er med andre ord: Hvorfor skiller .bam -filer ikke mellom haplotyper?

Spørsmålet ditt kommer til en mer grunnleggende kjerne av hvordan folk flest gjør "genomikk" i dag. Når folk flest monterer et genom eller lager et referansegenom, produserer de faktisk bare en fasta-fil som inneholder en enkelt sekvens for hvert kromosom. Dette er selvfølgelig ikke biologisk nøyaktig, da det er to veldig forskjellige sekvenser per kromosom. De fleste genomer rapporterer bare en kimær konsensus mellom de to og kaller dette en referanse. Disse referansegenene er haploide, eller haplotype-kollapset.

Dette er hvor spørsmålet ditt kommer inn: Du har kartlagt transkripsjoner som biologisk er avledet fra to forskjellige haplotyper til et referansegenom som inneholder bare en konsensus sekvens som (utilstrekkelig) representerer begge haplotypene. Som et resultat vil det på et enkelt sted i bam-filen bli kartlagt lesninger fra begge haplotypene. Hvis referansefasta-filen din inneholdt den nøyaktige sekvensen til begge haplotypene, hvis du tilordnet leser til referansen, og hvis du bare ser på primære justeringer, vil lesningene for det meste tilordnes til deres haplotype-of-origin.

Dette kommer inn på et annet emne kalt fasing , hvor rekkefølgen og orienteringen av de fleste polymorfismene som er unike for hver haplotype, bestemmes ved hjelp av sekvenseringsdata. Det er noen problemer med dette da det er avhengig av å oppdage variantnettsteder på riktig måte. Programvare som GATK og andre kan finne enkle nukleotidpolymorfier (SNP) hvis det er god sekvenseringsdekning, men det er mye vanskeligere å oppdage innsettinger og slettinger. Dette gir et veldig SNP-skjevt syn på haplotypeforskjellene i et hvilket som helst genom. Etter å ha funnet variantnettsteder, bestemmer fasingsprogramvare som hapcut2 hvilke varianter som faller på hvilken haplotype og sender ut blokker av varianter som antas å tilhøre samme haplotype.

Fasing alene er ikke nok å nøyaktig rekonstruere den nøyaktige sekvensen til begge haplotypene på grunn av manglende evne til å oppdage alle varianter med lest kartlegging. Fremtidens gullstandard er diploid de novo genomforsamling der hver haplotype er montert uavhengig. Dette er et aktivt forskningsområde for mennesker som utvikler genommonterere og er tett knyttet til fremskrittene i PacBio og Oxford Nanopore. Denne artikkelen om trio canu er en god start for å lære om en vellykket dioploid monteringsteknikk.

Svar på Q2

Hvis du vil sjekke ploidy av alle av kromosomene, trenger du minst 10X dekning av helgenoms hagledata og et verktøy som smudgeplot og genomescope.

Hvis du prøver å sjekk lokale dupliseringer eller hel-kromosom-duplikasjoner for noe som en kreftprøve, du trenger også helgenoms hagle-data. WES-data gir ikke pålitelig informasjon om ploidi, siden avlesningen på et gitt sted er avhengig av transkripsjonsnivået, ikke den faktiske mengden homologt kromosomalt DNA for den aktuelle regionen.

Hvis du prøver å (bruke en bam-fil til) å lete etter bevis på kromosomal duplisering eller duplisering av et lokus i kreftprøver, vil du se etter en økning i helgenomskudddekning på det stedet sammenlignet med et kjent normalt sted. For eksempel hvis alle kromosomene, bortsett fra en, har en dekning på 22, og ett kromosom har en gjennomsnittlig dekning på 33, er dette bevis på en trisomi. Denne logikken kan også brukes på mindre regioner (utelukker repeterende regioner, paraloger osv.).

Takk for fin forklaring. Hvis det er mulig, vil jeg gi +50. Dette svaret kan være en fin start for videre studier.


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 4.0-lisensen den distribueres under.
Loading...