Er det en praktisk måte å trekke ut de lengste isoformene fra en transkripsjonsfasta-fil? Jeg hadde funnet noen skript på biostjerner, men ingen er funksjonelle, og jeg har problemer med å få dem til å fungere.
Jeg er klar over at de lengste isoformene ikke nødvendigvis er "de best 'men det vil passe til mine formål.
Fasta ble generert via Augustus. Her er hva FASTA fil ser ut i dag (sekvens forkortet for å spare plass)
>Doug_NoIndex_L005_R1_001_contig_2.g7.t1atggggcataacatagagactggtgaacgtgctgaaattctacttcaaagtctacctgattcgtatgatcaactcatcattaatataaccaaaaacctagaaattctagccttcgatgatgttgcagctgcggttcttgaagaagaaagtcggcgcaagaacaaagaagatagaccg>Doug_NoIndex_L005_R1_001_contig_2.g7.t2atggggcataacatagagactggtgaacgtgctgaaattctacttcaaagtctacctgattcgtatgatcaactcatca
Formatet er som slik:
Gen 1 isoform 1 Gen 1 isoform 2 Gen 2 isoform 1 Gen 2 isoform 2
og så videre. Det er flere gener som har mer enn ett par isoformer (opptil 3 eller 4). Det er omtrent 80 000 transkripsjoner totalt, sannsynligvis 25 000 gener. Jeg vil gjerne trekke ut den lengste isoformen for hvert gen.