Jeg prøver for øyeblikket å samle et genom fra en gnagerparasitt, Nippostrongylus brasiliensis . Dette genomet har et eksisterende referansegenom, men det er sterkt fragmentert. Her er noen kontinuitetsstatistikker for stillasene til det nåværende Nippo-referansegenomet (samlet fra Illumina leser):
Totale sekvenser: 29375 Total lengde: 294.400206 Mb Lengste sekvens: 394.171 kb Korteste sekvens: 500 bMean Lengde: 10.022 kbMedian Lengde: 2,682 kbN50: 2024 sekvenser; L50: 33,527 kbN90: 11638 sekvenser; L90: 4,263 kb
Dette genomet er mest sannsynlig vanskelig å montere på grunn av den svært repeterende naturen til de genomiske sekvensene. Disse repeterende sekvensene kommer i (minst) tre klasser:
- Tandem gjentas med en repeteringsenhet lengde som er større enn leselengden på Illumina-sekvenser (f.eks. 171bp)
- Tandem gjentas med en kumulativ lengde som er større enn fragmentlengden på Illumina-sekvenser, eller mallengden for lenket lesing (f.eks. 20 kb)
- Kompleks (dvs. ikke- repeterende) sekvens som vises flere steder i hele genomet
Canu ser ut til å takle ganske bra de to første typene repetisjoner, til tross for overflod av repeterende struktur i genomet. Her er enhetsoppsummeringen produsert av Canu på en av forsamlingene jeg har prøvd. Legg merke til at omtrent 30% av avlesningene enten spenner over eller inneholder en lang repetisjon:
kategorien leser% leselengde funksjonsstørrelse eller dekningsanalyse -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- mellommanglende 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (dårlig beskjæring) midt -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (dårlig trimming) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (dårlig trimming)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (dårlig beskjæring) lav dekning 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (lett å montere, potensial for lavere konsensus) unik 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (enkel å montere, perfekt, yay) repeat-cont 48398 4.62 4099.55 + - 3002.72 335.54 + - 451.43 (potensial for konsensusfeil, ingen innvirkning på montering) repeat-due 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (vanskelig å montere, vil sannsynligvis ikke monteres riktig eller til og med i det hele tatt) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (les spenner over en stor repetisjon, vanligvis lett å montere) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (skal være unikt plassert, lite potensial for konsensusfeil, ingen innvirkning på montering) uniq-repeat-due 28248 2,70 12499 .99 + - 8446,95 (vil avslutte kontig, potensial for feilmontering) uniq-anker 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (gjenta lese, med unik seksjon, sannsynlig dårlig lesing)
Den tredje typen gjentakelse gir meg imidlertid litt sorg. Ved hjelp av ovennevnte montering er her kontinuitetsparametrene fra de sammensatte kontigene:
Totale sekvenser: 3505Total lengde: 322.867456 MbLengste sekvens: 1.762243 MbKorteste sekvens: 2.606 kbMiddel lengde: 92.116 kbMedian Lengde: 42.667 kbN50: 417 sekvenser; L50: 194,126 kbN90: 1996 sekvenser; L90: 35.634 kb
Det er ikke en dårlig samling, spesielt gitt genomets kompleksitet, men jeg føler at det kan forbedres ved å takle de komplekse genomiske gjentakelsene på en eller annen måte. Omtrent 60Mb av kontigene i denne forsamlingen er knyttet til hverandre på et enormt nett (basert på GFA-utdata fra Canu):
De repeterende regionene er vanligvis over 500 bp i lengde, gjennomsnittlig ca 3 kb, og jeg har sett minst ett tilfelle som ser ut til å være en 20 kb sekvens duplisert i flere regioner.
Canu-standardene ser ut til å gi de beste monteringsresultatene for de få parametrene jeg har prøvd, med ett unntak: trimming. Jeg har prøvd å leke litt rundt beskjæringsparametrene, og merkelig nok synes en beskjæringsdekning på 5X (med overlapping på 500 bp) å gi en mer sammenhengende montering enn med en beskjæringsdekning på 2X (med samme overlapping). p>
Hvis noen er interessert i å se på disse dataene selv, kalles FASTQ-filer fra Nippo-sekvenseringskjøringer her. Jeg er fortsatt i ferd med å laste opp de rå nanopore-signalfilene, men de vil være tilgjengelige i løpet av de neste par ukene knyttet til ENA-prosjektet PRJEB20824. Det er også et Zenodo-arkiv her som inneholder GFA og forsamlinger.
Har noen andre forslag til hvordan jeg kan løse disse komplekse gjentakelsene?