Hvordan overføre gff-merknader i genomet med omfattende duplikasjoner?

scalefreegan

2017-05-31 16:01:10 UTC

view on stackexchange narkive permalink

Mikrobielle genomer kan inneholde omfattende duplikasjoner. Ofte vil vi overføre merknader fra en merket art til en som er nylig sekvensert.

Eksisterende verktøy (f.eks. RATT, LiftOver, Kraken) antar enten spesifikke forutsetninger om hvor nært beslektede artene er eller ikke overfører når flere treff finnes i det nye genomet, spesielt hvis sekvensene er svært like.

Spesielt har jeg en syntetisk biologi-applikasjon der gener kan dupliseres mye. De er identiske i rekkefølge, men dupliseres mange ganger og blir flyttet (dvs. ikke bare ved siden av hverandre). Ingen av de ovennevnte verktøyene er i stand til å overføre koordinater for merknader til genomer med flere kopier av funksjoner.

Er det noen eksisterende verktøy eller programvare som overfører merknader i dette scenariet? Ideer for måter å gjøre dette robust på?

Kan du gi mer detaljer? Hva er dine innspill (f.eks. Rålesninger, samlinger, rammer med åpen lesing)? hva slags sekvensering? hva er den eksakte produksjonen du vil ha? 'Jeg er ikke sikker på at jeg forstår poenget ditt med antagelsene. LiftOver og Kraken er også forskjellige verktøy med forskjellige bruksområder

Ville dette til og med være teoretisk mulig? Hvordan kan du anta at kommentarene kan overføres hvis det er omfattende duplikasjoner? Det er sannsynligvis bedre å se etter homologer i stedet.

@terdon mener du ortologer? homologer = ortologer (ikke dupliserte) + paralogs (dupliserte)

@Chris_Rands Nei, jeg mente homologer. Nettopp fordi vi ikke kan vite om de er orto- eller para- (jeg har et fint innlegg om forskjellen mellom de to [her] (https://biology.stackexchange.com/a/4964/1306), av måte), så alt du kan gjøre først er å finne homologer og deretter prøve å finne ut om de er like nok til å overføre kommentarer.

@terdon Jeg ser godt å løse ortologer / paraloger er selvfølgelig ikke lett, men det kan gjøres, avhengig av de nøyaktige dataene (jeg vet ikke hvordan OP-dataene ser ut), for eksempel opprettholder noen av kollegene mine kjeveortoped http: / /www.orthodb.org/

Å, selvfølgelig kan det gjøres! Poenget mitt var at det å se etter homologiregioner (av hvilken som helst type) virker som en bedre måte å overføre merknader på enn å prøve å oversette genomiske koordinater mellom genomer av forskjellige arter.

@Chris_Rands: Input ville være forsamlinger, f.eks. de novo fra gDNA-sekvensering. Output vil være en overføring av merknader (f.eks. Gff-format) fra karakteriserte arter til nylig montert genom (koordinatoverføring). Både LiftOver og Kraken (denne, bare for å være sikker på at de var på samme side: https://github.com/nedaz/kraken) gjør dette. LiftOver mer hensiktsmessig for koordinatoverføring mellom nært beslektede sekvenser, f.eks. forskjellige forsamlinger; Kraken bruker genomjustering (MUMer, Satsuma) så bedre for mer divergerende sekvenser.

@terdon: å skille mellom type / opprinnelse til homologi vil gå utover omfanget av hva jeg ønsker å oppnå, men forskjellen er viktig som du påpeker. også riktig å si at overføring av mindre homologe regioner ville være bedre, spesielt for divergerte arter. fyi om applikasjon: Jeg har en syn bio-applikasjon der gener kan duplisere mye. de er identiske i rekkefølge, men dupliserte mange ganger og flyttet (dvs. ikke tilstøtende). Ingen av de ovennevnte verktøyene klarte å overføre koordinater for merknader til genomer med flere kopier av merknader.

Ja, og heller ikke ville jeg forvente at de skulle gjøre det. Det var det jeg sa. Liftover-verktøyene kartlegger bare koordinater, de vil ikke kunne håndtere denne typen ting. Jeg er redd du må gjøre det manuelt ved å få en liste over gener / proteiner av interesse, finne deres homologer og overføre kommentarene (med de åpenbare advarslene om hvorvidt du kan anta at kommentarene kan overføres). Blir ikke så gøy, dessverre.

unnskyldninger Jeg trodde du mente kraken: http://ccb.jhu.edu/software/kraken/, hvem kaller disse verktøyene? uansett, dette er ganske ikke trivielt å gjøre ordentlig. du må gjøre genommontering, genforutsigelser og ortolog / paralog oppgave; det er forskjellige rørledninger (noen gjennomgått her: https://www.ncbi.nlm.nih.gov/pubmed/27043882), men de tar litt tid. alternativt, for noe mer "raskt og skittent", virker @terdons forslag fornuftige