Hvordan kan jeg forbedre en langlest samling med et repeterende genom?

gringer

2017-05-25 16:46:36 UTC

view on stackexchange narkive permalink

Jeg prøver for øyeblikket å samle et genom fra en gnagerparasitt, Nippostrongylus brasiliensis . Dette genomet har et eksisterende referansegenom, men det er sterkt fragmentert. Her er noen kontinuitetsstatistikker for stillasene til det nåværende Nippo-referansegenomet (samlet fra Illumina leser):

  Totale sekvenser: 29375 Total lengde: 294.400206 Mb Lengste sekvens: 394.171 kb Korteste sekvens: 500 bMean Lengde: 10.022 kbMedian Lengde: 2,682 kbN50: 2024 sekvenser; L50: 33,527 kbN90: 11638 sekvenser; L90: 4,263 kb

Dette genomet er mest sannsynlig vanskelig å montere på grunn av den svært repeterende naturen til de genomiske sekvensene. Disse repeterende sekvensene kommer i (minst) tre klasser:

Tandem gjentas med en repeteringsenhet lengde som er større enn leselengden på Illumina-sekvenser (f.eks. 171bp)
Tandem gjentas med en kumulativ lengde som er større enn fragmentlengden på Illumina-sekvenser, eller mallengden for lenket lesing (f.eks. 20 kb)
Kompleks (dvs. ikke- repeterende) sekvens som vises flere steder i hele genomet

Canu ser ut til å takle ganske bra de to første typene repetisjoner, til tross for overflod av repeterende struktur i genomet. Her er enhetsoppsummeringen produsert av Canu på en av forsamlingene jeg har prøvd. Legg merke til at omtrent 30% av avlesningene enten spenner over eller inneholder en lang repetisjon:

  kategorien leser% leselengde funksjonsstørrelse eller dekningsanalyse -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- mellommanglende 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (dårlig beskjæring) midt -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (dårlig trimming) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (dårlig trimming)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (dårlig beskjæring) lav dekning 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (lett å montere, potensial for lavere konsensus) unik 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (enkel å montere, perfekt, yay) repeat-cont 48398 4.62 4099.55 + - 3002.72 335.54 + - 451.43 (potensial for konsensusfeil, ingen innvirkning på montering) repeat-due 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (vanskelig å montere, vil sannsynligvis ikke monteres riktig eller til og med i det hele tatt) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (les spenner over en stor repetisjon, vanligvis lett å montere) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (skal være unikt plassert, lite potensial for konsensusfeil, ingen innvirkning på montering) uniq-repeat-due 28248 2,70 12499 .99 + - 8446,95 (vil avslutte kontig, potensial for feilmontering) uniq-anker 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (gjenta lese, med unik seksjon, sannsynlig dårlig lesing)

Den tredje typen gjentakelse gir meg imidlertid litt sorg. Ved hjelp av ovennevnte montering er her kontinuitetsparametrene fra de sammensatte kontigene:

  Totale sekvenser: 3505Total lengde: 322.867456 MbLengste sekvens: 1.762243 MbKorteste sekvens: 2.606 kbMiddel lengde: 92.116 kbMedian Lengde: 42.667 kbN50: 417 sekvenser; L50: 194,126 kbN90: 1996 sekvenser; L90: 35.634 kb

Det er ikke en dårlig samling, spesielt gitt genomets kompleksitet, men jeg føler at det kan forbedres ved å takle de komplekse genomiske gjentakelsene på en eller annen måte. Omtrent 60Mb av kontigene i denne forsamlingen er knyttet til hverandre på et enormt nett (basert på GFA-utdata fra Canu):

De repeterende regionene er vanligvis over 500 bp i lengde, gjennomsnittlig ca 3 kb, og jeg har sett minst ett tilfelle som ser ut til å være en 20 kb sekvens duplisert i flere regioner.

Canu-standardene ser ut til å gi de beste monteringsresultatene for de få parametrene jeg har prøvd, med ett unntak: trimming. Jeg har prøvd å leke litt rundt beskjæringsparametrene, og merkelig nok synes en beskjæringsdekning på 5X (med overlapping på 500 bp) å gi en mer sammenhengende montering enn med en beskjæringsdekning på 2X (med samme overlapping). p>

Hvis noen er interessert i å se på disse dataene selv, kalles FASTQ-filer fra Nippo-sekvenseringskjøringer her. Jeg er fortsatt i ferd med å laste opp de rå nanopore-signalfilene, men de vil være tilgjengelige i løpet av de neste par ukene knyttet til ENA-prosjektet PRJEB20824. Det er også et Zenodo-arkiv her som inneholder GFA og forsamlinger.

Har noen andre forslag til hvordan jeg kan løse disse komplekse gjentakelsene?

For å avklare: vil du ha beregningsløsninger, eller er du åpen for å stille på nytt med spesifikke teknikker for å forbedre monteringen?

Beregningsløsninger vil være å foretrekke, men det er ikke utelukket å omsette seg.

Jeg er forvirret med spørsmålet. Det høres ut som om du har statistikk fra en illumina-forsamling, og også nanoporedata som ikke er en del av den rapporterte statistikken. Så det åpenbare svaret ser ut til å være å gjøre f.eks. Canu + pilon (eller lignende) for å prøve en bedre samling som kombinerer begge datatypene. Men jeg antar at det ikke er det du leter etter. Kan du avklare?

Ix Canu [denne samleren] (https://github.com/marbl/canu)? Hvem ser kontigene til forsamlingen med Illumina ut. Det ser ut til at med nanoPore er monteringen mye bedre.

Ja, jeg kan bruke Illumina-dataene til å korrigere Canu-forsamlingen, men det hjelper ikke med å løse "type 3" -repetisjonene. Regionene er tilstrekkelig like at lys fra lys blir kartlagt til flere punkter i genomet.

Illumina-kontigene er av høy kvalitet (dvs. de har gode BUSCO-poeng, noe som indikerer få variantfeil), men ganske korte. Enhver sniff av en repetisjon og contig slutter. Jeg har mer enn noen få eksempler på regioner som ville få en Illumina til å lese (til og med 10 ganger koblet leser) til å kaste seg i frykt.

Selv om Illumina contigs er av høy kvalitet, betyr det ikke at de fungerer bra for et slikt gjentatt genom.