Spørsmål:
Hvordan bestemmer kmer-tellere hvilken kmer som er 'kanonisk'?
conchoecia
2018-02-04 22:24:36 UTC
view on stackexchange narkive permalink

Når man teller kanoniske kmers, dvs. kmers der både fremover og bakover komplement av en sekvens blir behandlet som identiske, hvordan bestemmer kmer-telleprogrammer hvilken kmer som skal brukes som den kanoniske sekvensen? Fungerer de alle på samme måte?

For å undersøke laget jeg en streng med GAGTGCGGAATACCACTCTT som inneholder alle de 16 mulige 2merne. Jeg brukte deretter kmc for å finne ut hvordan de bestemmer hvilken kmer som brukes. Bare kmers i filtrert kolonnen nedenfor dukket opp. Så det ser ut som KMCs '' kanoniske 'kmers er de som først forekommer alfabetisk.

  ╔════════════════╦═══ ══╦════════════════════╦══════════╗║ Mulige Kmers ║ RC-er ║ RC oppstår tidligere? ║ filtrert ║╠════════════════╬═════╬════════════════════╬══ ════════╣║ TT ║ AA ║ JA ║ TA ║║ TG ║ CA ║ JA ║ GC ║║ TC ║ GA ║ JA ║ GA ║║ TA ║ TA ║ ║ CG ║║ GT ║ AC ║ JA ║ CC ║║ GG ║ CC ║ JA ║ CA ║║ GC ║ GC ║ ║ AT ║║ GA ║ TC ║ ║ AG ║║ CT ║ AG ║ JA ║ AC ║║ CG ║ CG ║ ║ AA ║║ CC ║ GG ║ ║ ║║ CA ║ TG ║ ║ ║║ AT ║ AT ║ ║ ║║ AG ║ CT ║ ║ ║║ AC ║ GT ║ ║ ║║ AA ║ TT ║ ║ ║╚════════════ ════╩═════╩════════════ ════════╩══════════╝  

Bruker alle kmer-telleprogrammer de samme kanoniske kmers, og i så fall har du dokumentasjon som forklarer dette? Jeg kunne ikke finne noe i papirene for maneter eller kmc .

En svar:
user172818
2018-02-05 10:49:05 UTC
view on stackexchange narkive permalink

Når en k-mer er identisk med dens omvendte komplement, er begge kanoniske. Merk at en kanonisk k-mer er en sekvens, irrelevant for dens posisjon (er) i inngangsstrengen. Mer presist, gi en streng $ s $, dens kanoniske streng er $$ {\ rm canonical} (s | h) = \ left \ {\ begin {array} {ll} s & \ mbox {if $ h (s) <h (\ overline {s}) $} \\\ overline {s} & \ mbox {ellers} \\\ end {array} \ right. $$ where $ \ overline {s} $ er Watson-Crick omvendt komplement på $ s $ og $ h $ er en vilkårlig streng hash-funksjon. I praksis bruker vi oftest 2-bits koding som $ h $. Orden under en slik hashfunksjon tilsvarer den leksikografiske rekkefølgen.

Uttalt annerledes kan hvert program ha forskjellige kanoniske k-mers gitt samme innspill.
Takk for kommentaren. Min mindre sjargong-y-oversettelse er: "Kmer-telleprogrammer lagrer kmers ved hjelp av en hash, ikke en streng. Hash-funksjonen produserer den samme verdien for en kmer og dens omvendte komplement til Watson-Crick. Når kmer-tellingsprogrammet skriver ut tellingen i menneskelig -lesbart format, oversetter det kmerens hash-verdi til en streng. Hvorvidt en strengrepresentasjon av en kmer eller det omvendte komplementet rapporteres, avhenger av den programdefinerte "alfabetiske rekkefølgen." Når det gjelder KMC, er "alfabetisk rekkefølge" {ACGT}. Dette forklarer hvorfor kmers som ble observert ovenfor ble rapportert.


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...