Hvilke verktøy kan jeg bruke for en rørledning av bakteriekjerne / pannegenom?

Spørsmål:

Hvilke verktøy kan jeg bruke for en rørledning av bakteriekjerne / pannegenom?

AudileF

2017-07-14 16:13:43 UTC

view on stackexchange narkive permalink

Jeg ønsker å utføre en genom-sammenligning på en gruppe isolater. Jeg vil se på to brede grupper av taxa og sammenligne tilbehørsgenomet i hver gruppe. Jeg har brukt prokka (v1.12) og roary (v3.8.2) for å gjøre dette, men det ser ut til at filen accessory_binary_genes.fa faktisk er en usann representasjon.

Merk: gene_presence_absence.Rtab inneholder all den fulle tilstedeværelsen / fraværet for tilbehørssett til genet. Til tross for dette er jeg fremdeles misfornøyd med nenklaturen til gengruppene [utgave for en annen dag]

[github issue 335] Ditt beste å ignorere filen accessory_binary_genes.fa. Det er bare for å lage et raskt og skittent tre med FastTree. Selve filen er filtrert for å fjerne veldig vanlig og ikke vanlig variasjon for å øke tregenerasjonen, derav forskjellen i tall.

De øverste 5% og de nederste 5% er ekskludert. Det er avkortet ved 4000 gener.

Jeg har sett på alternative rørledninger og en ny programvare BPGA ser lovende ut. Er det noen som har erfaring med dette?

Jeg vil egentlig ha et verktøy som vil gi meg kjerne- og tilbehørssettene uten støy fra delvis genstreff.

Du kan bruke OrthoMCL som er en eldre og mindre brukervennlig implementering av samme arbeidsflyt. Jeg tror det vil gi deg * alle * gennavnene tilbake i stedet for å avkutte noe.

Du kan fortsatt bruke brøl og bruke informasjonen i filen 'gene_presence_absence.csv`, som er fullstendig og inneholder gen-ID-ene for hver ortologgruppe

To svar:

Jason Sahl

2017-07-17 19:19:36 UTC

view on stackexchange narkive permalink

LS-BSR skal kunne gi deg det du leter etter. Se artikkelen.

Etter at du har kjørt primæranalysen, er det en enkel dokumentert arbeidsflyt for å dele pangenomen i kjerne og tilbehør, basert på en brukerdefinert terskel. Jeg er utvikler, så det kan hjelpe hvis du får problemer.

Hei Jason, takk for svaret. Er ikke LS-BSR ment å være mindre følsom enn brøl? Kan du også oppgi en lenke / kilde for arbeidsflyten du nevner. Takk.

Også hvordan adresserer LS-BSR gener ødelagt på grunn av kontiggrenser?

Dette vil åpenbart føre til problemer. Det avkortede genet ser ut til å være divergerende eller mangler, avhengig av hvor det er brutt. En måte å løse dette problemet på er å kartlegge rådataene mot pan-genomet og avgjøre om regionen virkelig mangler eller ikke, selv om dette ikke er en del av LS-BSR-pakken.

Jeg tror dette er veldig viktig innsikt som du bør integrere i svaret ditt ved å [redigere] det. Ikke nøl med å bruke hyperkoblinger til skriptene dine, men prøv å gi et fullstendig svar, så neste gang noen vil ha lignende pan-genomproblem, vil han forstå hva han skal gjøre nå.

Sergio Arredondo

2017-07-17 16:21:39 UTC

view on stackexchange narkive permalink

Roary tar også hensyn til paraloger, så noen ganger deles to kjernegener i forskjellige grupper basert på nabo-genene, og de ender opp med annen nomenklatur (gruppe _ * ...). Som foreslått av Andrew Page i github-utgaven, vil jeg vurdere genet_presence_absence.Rtab (dette inneholder alle de ortologiske gener) og fjerne rader som tilsvarer vektorer som bare inneholder 1s (kjernegener). På denne måten vil du ha en matrise på 1 og 0 som tilsvarer tilstedeværelse / fravær av et bestemt tilbehørsgen i isolatene dine.

Hei Sergio, ja dette er riktig, men mitt største bekymring er med gennavn. Hvis et gen blir ødelagt / delt mellom contigs, kan det ende med å bli merket som f.eks. Gene_1 og Gene_2 dette vil da være en feil fremstilling av det genetiske innholdet. det er delvis et problem med prokka også.

Du har rett, contigs border kan føre til en falsk representasjon av geninnholdet.

Tilsynelatende kan det være en ny programvare for å løse dette problemet snart https://github.com/tseemann/prokka/issues/244

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese

Loading...