Jeg vil endre noen referanseutskrifter fra Ensembl ( D. melanogaster ) for å introdusere en kontrollert frekvens av tilfeldige feil i sekvensene. Ideen ville være å introdusere tilfeldige basesubstitusjoner i disse sekvensene, ingen indels for nå, fordi jeg vil beholde transkripsjonslengden slik den er i referansen.
Feilfrekvensen per transkripsjon vil bli bestemt i henhold til en feilprofil beregnet fra et eksternt sett med RNA-seq-lesninger (f.eks. generert med ONT MinION)
Målet med dette modifikasjon ville være å etablere et grovt referanseindeks for prestasjonene til aligners som skal brukes over transkripsjoner fra spleisede leser (rna-til-genom), også kjent med mer enn ett exon. for dette formålet?