Innføre feil i referansetranskripter i henhold til ekstern datasettfeilmodell

Spørsmål:

aechchiki

2017-08-22 21:39:43 UTC

view on stackexchange narkive permalink

Jeg vil endre noen referanseutskrifter fra Ensembl ( D. melanogaster ) for å introdusere en kontrollert frekvens av tilfeldige feil i sekvensene. Ideen ville være å introdusere tilfeldige basesubstitusjoner i disse sekvensene, ingen indels for nå, fordi jeg vil beholde transkripsjonslengden slik den er i referansen.

Feilfrekvensen per transkripsjon vil bli bestemt i henhold til en feilprofil beregnet fra et eksternt sett med RNA-seq-lesninger (f.eks. generert med ONT MinION)

Målet med dette modifikasjon ville være å etablere et grovt referanseindeks for prestasjonene til aligners som skal brukes over transkripsjoner fra spleisede leser (rna-til-genom), også kjent med mer enn ett exon. for dette formålet?

Fire svar:

gringer

2017-08-23 00:43:37 UTC

view on stackexchange narkive permalink

Hjelper noen av svarene på dette spørsmålet? Karel Brinda har nevnt noen lesesimulatorer i svaret på det spørsmålet, og har en avhandling med mer informasjon.

Ekskludering av INDEL-feil gjør ikke høres ut som en god idé; lengden kan fortsatt bevares, selv om du gjør det, trenger den bare en justering på slutten av sekvensen. Vær oppmerksom på at hvis du prøver å modellere nanoporelesninger, er det du virkelig modellerer basen som ringer, snarere enn sequenceren. Jeg nevner dette mer detaljert i mitt svar.

I de fleste tilfeller der feil er modellert, synes jeg det er bedre å bruke offentlig tilgjengelige data i stedet. Spesielt for nanoporedata er det umodellerte systematiske feil i basesamtaler og sequencer som ikke kan simuleres ved hjelp av noen programmer (fordi de ikke er modellerte). Følgende papir ville være et godt sted å starte for cDNA-sekvenser, som ser på enkeltcelledata fra mus (C57Bl / 6) B1a-celler:

http://www.biorxiv.org / content / early / 2017/04/13/126847

Illumina og ONT leser for den studien finner du i SRA under tiltredelsesnummer SRP082530.

Jeg vet ikke om noen nylig D. melanogaster studier som er gjort med nanopore. Det er alltid muligheten til å bruke $ 1000 på et kjøp av en MinION med et RNA-startpakke for å gjøre studien selv. Her er en eldre målrettet genstudie, men husk at den brukte en R7.3-strømningscelle, så feilraten vil være mye høyere enn det som er tilgjengelig for øyeblikket:

https: // genomebiologi .biomedcentral.com / articles / 10.1186 / s13059-015-0777-z

user172818

2017-08-25 16:42:25 UTC

view on stackexchange narkive permalink

Dette fortrykket bruker pbsim for å simulere ONT RNA-seq-lesninger for fruktflue. Det er sannsynligvis verdt å lese hvis du vil gjøre det samme.

Du bør inkludere INDEL-feil. Det er det som gjør RNA-seq-justering utfordrende. For referansemålet øker ikke kompliseringen i det hele tatt å legge til INDEL-er. Du kan analysere skjøtkryss på referansen fra CIGAR og sammenligne dem med kommentaren. Du trenger ikke å bekymre deg for basenivåjusteringen.

I tillegg er det offentlige reelle ONT-data (AC: SRP082530) for SIRV-innfelling kontroll og mus B-celler. Du trenger faktisk ikke simulering.

PS: la bare merke til at du er forfatter av det første fortrykket jeg siterte. Jeg vil bruke reelle data for evaluering.

Devon Ryan

2017-08-22 22:39:20 UTC

view on stackexchange narkive permalink

Det høres ut som det du virkelig ser etter er en lesesimulator. Et kortvarig søk viser NanoSim, som er designet for å simulere lesninger fra en MinION. Dette har fordelen av i det minste å ha blitt brukt i noe av den publiserte litteraturen, noe som alltid er et fint tegn.

Du kan også finne denne gjennomgangsartikkelen på lesesimulatorer nyttige. Det nevner ikke spesifikt NanoSim, men det bør vise seg å være en nyttig gjennomgang av de generelle begrepene uansett hvis du trenger å lese om dem.

Hum, egentlig ikke det jeg leter etter fordi `simuleringsverktøyet bruker modellen bygget i forrige trinn for å produsere i silico leser for et gitt referansegenom` - og det jeg trenger er å først beregne feilraten fra det eksperimentelle leser (kan gjøres parsing av en justeringsfil i sam), og for det andre, erstatt i referansen så mange nukleotider som er nødvendig for å nå den gjennomsnittlige feilraten for reelle ONT-lesninger. for NanoSim har jeg inntrykk av at de genererer helt denovo 'leser' direkte fra genomet.

@AminaEchchiki Hvis du ikke vil bruke en av deres forhåndstrente modeller, kan du få den til å trene på ekte data, og deretter vil den lese ut med riktig feilprofil. Selvfølgelig, siden den bruker SISTE, vil det som er mest likt ha den beste ytelsen i referansene dine.

aechchiki

2017-08-24 18:36:56 UTC

view on stackexchange narkive permalink

Den kjørbare fastq-sim i DNemulator -pakken er i stand til å endre et sett inngangssekvenser i fasta -format i henhold til et eksternt sett med kvalitetspoeng rapportert i en fastq -fil.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese