Spørsmål:
Hvordan overføre gff-merknader i genomet med omfattende duplikasjoner?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Mikrobielle genomer kan inneholde omfattende duplikasjoner. Ofte vil vi overføre merknader fra en merket art til en som er nylig sekvensert.

Eksisterende verktøy (f.eks. RATT, LiftOver, Kraken) antar enten spesifikke forutsetninger om hvor nært beslektede artene er eller ikke overfører når flere treff finnes i det nye genomet, spesielt hvis sekvensene er svært like.

Spesielt har jeg en syntetisk biologi-applikasjon der gener kan dupliseres mye. De er identiske i rekkefølge, men dupliseres mange ganger og blir flyttet (dvs. ikke bare ved siden av hverandre). Ingen av de ovennevnte verktøyene er i stand til å overføre koordinater for merknader til genomer med flere kopier av funksjoner.

Er det noen eksisterende verktøy eller programvare som overfører merknader i dette scenariet? Ideer for måter å gjøre dette robust på?

Kan du gi mer detaljer? Hva er dine innspill (f.eks. Rålesninger, samlinger, rammer med åpen lesing)? hva slags sekvensering? hva er den eksakte produksjonen du vil ha? 'Jeg er ikke sikker på at jeg forstår poenget ditt med antagelsene. LiftOver og Kraken er også forskjellige verktøy med forskjellige bruksområder
Ville dette til og med være teoretisk mulig? Hvordan kan du anta at kommentarene kan overføres hvis det er omfattende duplikasjoner? Det er sannsynligvis bedre å se etter homologer i stedet.
@terdon mener du ortologer? homologer = ortologer (ikke dupliserte) + paralogs (dupliserte)
@Chris_Rands Nei, jeg mente homologer. Nettopp fordi vi ikke kan vite om de er orto- eller para- (jeg har et fint innlegg om forskjellen mellom de to [her] (https://biology.stackexchange.com/a/4964/1306), av måte), så alt du kan gjøre først er å finne homologer og deretter prøve å finne ut om de er like nok til å overføre kommentarer.
@terdon Jeg ser godt å løse ortologer / paraloger er selvfølgelig ikke lett, men det kan gjøres, avhengig av de nøyaktige dataene (jeg vet ikke hvordan OP-dataene ser ut), for eksempel opprettholder noen av kollegene mine kjeveortoped http: / /www.orthodb.org/
Å, selvfølgelig kan det gjøres! Poenget mitt var at det å se etter homologiregioner (av hvilken som helst type) virker som en bedre måte å overføre merknader på enn å prøve å oversette genomiske koordinater mellom genomer av forskjellige arter.
@Chris_Rands: Input ville være forsamlinger, f.eks. de novo fra gDNA-sekvensering. Output vil være en overføring av merknader (f.eks. Gff-format) fra karakteriserte arter til nylig montert genom (koordinatoverføring). Både LiftOver og Kraken (denne, bare for å være sikker på at de var på samme side: https://github.com/nedaz/kraken) gjør dette. LiftOver mer hensiktsmessig for koordinatoverføring mellom nært beslektede sekvenser, f.eks. forskjellige forsamlinger; Kraken bruker genomjustering (MUMer, Satsuma) så bedre for mer divergerende sekvenser.
@terdon: å skille mellom type / opprinnelse til homologi vil gå utover omfanget av hva jeg ønsker å oppnå, men forskjellen er viktig som du påpeker. også riktig å si at overføring av mindre homologe regioner ville være bedre, spesielt for divergerte arter. fyi om applikasjon: Jeg har en syn bio-applikasjon der gener kan duplisere mye. de er identiske i rekkefølge, men dupliserte mange ganger og flyttet (dvs. ikke tilstøtende). Ingen av de ovennevnte verktøyene klarte å overføre koordinater for merknader til genomer med flere kopier av merknader.
Ja, og heller ikke ville jeg forvente at de skulle gjøre det. Det var det jeg sa. Liftover-verktøyene kartlegger bare koordinater, de vil ikke kunne håndtere denne typen ting. Jeg er redd du må gjøre det manuelt ved å få en liste over gener / proteiner av interesse, finne deres homologer og overføre kommentarene (med de åpenbare advarslene om hvorvidt du kan anta at kommentarene kan overføres). Blir ikke så gøy, dessverre.
unnskyldninger Jeg trodde du mente kraken: http://ccb.jhu.edu/software/kraken/, hvem kaller disse verktøyene? uansett, dette er ganske ikke trivielt å gjøre ordentlig. du må gjøre genommontering, genforutsigelser og ortolog / paralog oppgave; det er forskjellige rørledninger (noen gjennomgått her: https://www.ncbi.nlm.nih.gov/pubmed/27043882), men de tar litt tid. alternativt, for noe mer "raskt og skittent", virker @terdons forslag fornuftige
To svar:
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Det er en veldig forenklet måte jeg bruker som kan fungere for det du gjør, det ligner på hva terdon foreslo.

Ta en de-novo mikrobiell genomkommentar verktøyet (jeg har mitt eget, men du kan bruke / endre prokka). Verktøy som disse forutsier ofte først gengrenser (med andre verktøy som fortapte eller glimmer) og prøver deretter å tilordne en funksjon til funnet gener. Denne funksjonsoppgaven gjøres ofte med BLAST og andre verktøy ... og det er der du kan gå inn og endre for å gjøre det du trenger.

Jeg bruker en "kunnskaps" proteindatabase med gener jeg vil har veldig strengt kommentert som en første linje med merknader (f.eks. i ditt tilfelle: de merkede genomene). For det slår jeg gjennom veldig strenge identitets- / likhetsparametere som blir gradvis avslappet.

F.eks: Loop 0: bare overfør annoteringer med 100% DNA-identitet, samme lengde. Loop 1: bare overfør annoteringer med 100% likhet , samme lengde. sløyfe 2: bare overfør annoteringer med 99% likhet, lengde +/- 1% ... sløyfe n: bare overfør annoteringer ved 100- (n-1)% likhet, lengde +/- (n-1 )%.

I hver sløyfe skal du tydeligvis bare kommentere det som ikke er kommentert i tidligere sløyfer.

Deretter bruker du den "normale" kommentarrørledningen til verktøyet for å kommentere resten.

Krever ikke det at målgenomets gener først er funnet? Eller kan verktøyet ditt også gjøre de-novo genet prediksjon? (høres ut som et veldig nyttig verktøy, forresten, kudos!)
Prokaryotisk genfunn / prediksjon er et mer eller mindre løst problem, eksisterende verktøy fungerer rimelig bra. Se http://prodigal.ornl.gov/ og http://prodigal.ornl.gov/ (bare for å nevne to).
Ja, jeg vet, jeg ble bare overrasket over at du ikke nevnte det i svaret ditt. Hvis jeg forstår riktig, ville det første trinnet være at OP skulle finne listen over antatte gener i deres nylig sekvenserte genom, ikke sant?
Riktig. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) bruker et helt batteri med tredjepartsverktøy (inkludert fortapte) for å kommentere et genom de novo, jeg startet med å modifisere prokka før jeg skrev min egen , som bruker noen ideer fra prokka-rørledningen.
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Jeg tror du først må identifisere regionene som er homologe med de som er definert i GFF, og deretter overføre kommentarene. Selvfølgelig er antagelsen der at homologen også vil ha den samme kommentaren som ofte ikke er sant. Imidlertid kan jeg ikke se hvordan du kan gjøre det på noen annen måte, siden du ikke kan bruke genomiske koordinater (og du fortsatt ville ha den samme antagelsen selv om du kunne, uansett) når genomene er så forskjellige.

For en veldig forenklet tilnærming (som kan være nok hvis, som du sier, sekvensene dine er nesten identiske), kan du gjøre noe sånt som:

  1. Samle sekvensene av interesse fra den allerede kommenterte arten din.

  2. Bruk et verktøy som ny eller exonerate for å kartlegge disse i målgenomet. Begge verktøyene kan returnere gff-formatert utgang, og begge kan finne flere treff i målgenomet. For det du vil, vil jeg foreslå at du bruker en veldig høy terskel for sekvenslikhet og spørringsdekning (der målsekvensen som er funnet dekker hele eller det meste av spørringssekvensen som brukes).

    Siden dette er mikrobielle genomer og derfor skjøting er ikke et problem, du kan gjøre det samme med til og med en enkel BLASTn eller tBLASTn hvis du starter fra proteinsekvenser.

  3. På dette tidspunktet bør du ha en liste av homologer (hvorav noen vil være ortologer og andre paraloger), og du kan overføre kommentarene til spørresekvensen til målet.

Igjen understreker jeg at dette gir en enorm enorm antagelse: at homologe sekvenser har samme funksjon og automatisk kan kommenteres som hva du hadde i spørringsgenomet. Dette kommer til å være sant i mange tilfeller, men det vil også være falskt for andre. Spesielt hvis du ser på paraloger (gener hvis duplisering skjedde etter spesieringshendelsen og derfor sannsynligvis har avviket i funksjon).

Imidlertid, som jeg sa tidligere, ville dette problemet være nøyaktig det samme selv om du greide å overføre merknader bare ved å identifisere de synteniske områdene i genomene 1 , så det er ikke mye forskjell der.


1 Som jeg sa i kommentarene, ser jeg ikke hvordan dette kan være mulig. Per definisjon, hvis du har omfattende duplikasjoner, vil de genomiske koordinatene være helt forskjellige, og det er umulig å kartlegge fra det ene genomet til det andre.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...