Jeg vil gjerne vite hva som menes med "seed" for forskjellige sekvensjusterere. Hvordan er det viktig?
Jeg vil gjerne vite hva som menes med "seed" for forskjellige sekvensjusterere. Hvordan er det viktig?
Frøet er delmengden av en avlesning som ble brukt i første trinn av en justering. Mange aligners arbeider etter en seed-and-expand-modell, der de først finner alle regioner som samsvarer med "seedet" og deretter utvider justeringen rundt det som tillater feiltilpasninger og indeller til den enten gir opp (og bruker derfor et annet frø) eller finner en tilstrekkelig god innretting.
Devons svar gir en god, kortfattet definisjon. Men det er også nyttig å vurdere hvorfor seed-and-extens brukes og hvilke fordeler det gir.
Å finne omtrentlige strengmatcher krever operasjoner som er dyre beregningsmessig. På den annen side kan det å finne eksakte strengmatcher utføres med mye billigere operasjoner - det vil si at det kan gjøres raskere med mindre minne. Så raskt å finne plasseringen til alle frøkamper og deretter bruke den omtrentlige matching KUN PÅ DE BELIGGENHETEN (frø-og-utvid-strategien) sørger for at mindre tid blir kastet bort på å jage falske likheter.
Så hvor lenge skal et frø være? Hvis du ser bort fra din kommentar, ville et frø på 3 bp i lengden være helt ineffektivt siden den samme 3 bp-sekvensen kommer til å forekomme HELE GENOMET I RANDOM STEDER: gener, pseudogener, transponerbare elementer, regulatoriske sekvenser, du nevner den. På den annen side vil et frø på 51 bp i lengde også være ineffektivt siden nesten hvert frø vil inneholde minst en sekvenseringsfeil eller variant / polymorfisme, og dermed forhindre en perfekt samsvar.
I praksis er kartleggere designet for å justere 100-300 bp Illumina leser bruker vanligvis frø i de høye tenårene eller de lave 20-årene.