Jeg tror du først må identifisere regionene som er homologe med de som er definert i GFF, og deretter overføre kommentarene. Selvfølgelig er antagelsen der at homologen også vil ha den samme kommentaren som ofte ikke er sant. Imidlertid kan jeg ikke se hvordan du kan gjøre det på noen annen måte, siden du ikke kan bruke genomiske koordinater (og du fortsatt ville ha den samme antagelsen selv om du kunne, uansett) når genomene er så forskjellige.
For en veldig forenklet tilnærming (som kan være nok hvis, som du sier, sekvensene dine er nesten identiske), kan du gjøre noe sånt som:
-
Samle sekvensene av interesse fra den allerede kommenterte arten din.
-
Bruk et verktøy som ny
eller exonerate
for å kartlegge disse i målgenomet. Begge verktøyene kan returnere gff-formatert utgang, og begge kan finne flere treff i målgenomet. For det du vil, vil jeg foreslå at du bruker en veldig høy terskel for sekvenslikhet og spørringsdekning (der målsekvensen som er funnet dekker hele eller det meste av spørringssekvensen som brukes).
Siden dette er mikrobielle genomer og derfor skjøting er ikke et problem, du kan gjøre det samme med til og med en enkel BLASTn eller tBLASTn hvis du starter fra proteinsekvenser.
-
På dette tidspunktet bør du ha en liste av homologer (hvorav noen vil være ortologer og andre paraloger), og du kan overføre kommentarene til spørresekvensen til målet.
Igjen understreker jeg at dette gir en enorm enorm antagelse: at homologe sekvenser har samme funksjon og automatisk kan kommenteres som hva du hadde i spørringsgenomet. Dette kommer til å være sant i mange tilfeller, men det vil også være falskt for andre. Spesielt hvis du ser på paraloger (gener hvis duplisering skjedde etter spesieringshendelsen og derfor sannsynligvis har avviket i funksjon).
Imidlertid, som jeg sa tidligere, ville dette problemet være nøyaktig det samme selv om du greide å overføre merknader bare ved å identifisere de synteniske områdene i genomene 1 , så det er ikke mye forskjell der.
1 Som jeg sa i kommentarene, ser jeg ikke hvordan dette kan være mulig. Per definisjon, hvis du har omfattende duplikasjoner, vil de genomiske koordinatene være helt forskjellige, og det er umulig å kartlegge fra det ene genomet til det andre.