Hva er den beste metoden for å estimere et fylogenetisk tre fra et stort datasett på> 1000 loci og> 100 arter

Spørsmål:

Hva er den beste metoden for å estimere et fylogenetisk tre fra et stort datasett på> 1000 loci og> 100 arter

roblanf

2017-06-10 08:57:27 UTC

view on stackexchange narkive permalink

Jeg har en stor fylogenomisk justering på> 1000 loci (hvert lokus er ~ 1000 bp) og> 100 arter. Jeg har relativt lite manglende data (<10%).

Jeg ønsker å estimere et fylogenetisk tre med maksimal sannsynlighet fra disse dataene, med mål for statistisk støtte på hver node.

Det er mange fylogenetiske programmer som hevder å være i stand til å analysere datasett som dette (f.eks. RAxML, ExaML, IQtree, FastTree, PhyML ?, etc). Gitt at jeg har tilgang til en stor server (512 GB RAM, 56 kjerner), hva er fordelene og ulempene med hvert program. Hvilket vil sannsynligvis gi meg det mest nøyaktige estimatet av ML-treet for et datasett av denne størrelsen?

Du vil at vi skal gjennomgå alle fylogenetiske programmer eller bare de du har oppført: RAxML, ExaML, IQtree, FastTree, PhyML (Som jeg fremdeles synes er ganske bredt). Hvordan måler du nøyaktigheten til ML-treet?

Jeg er interessert i alle meninger, bevis og lenker til sammenligninger mellom programvare som er i stand til å estimere ML-trær fra store datasett som dette. Det ville være mange måter å måle nøyaktighet på, inkludert: (i) bevis fra simulering; (ii) sammenligninger av sannsynlighetspoeng av estimerte trær i en felles ramme.

RAxML er goto-programmet. Problemet med FastTree er at nøyaktigheten er begrenset til datasettene som brukes, det vil si at dine kan være en outlier.

En svar:

Leo Martins

2017-06-10 16:58:11 UTC

view on stackexchange narkive permalink

Dette papiret hevder at FastTree er nesten like nøyaktig som RAxML, samtidig som det er mye raskere. Du må imidlertid bare være forsiktig med at støtteverdiene som leveres av FastTree ikke er bootstrap-verdier, de er basert på Shimodaira-Hasegawa-testen. (Se også se denne kommentaren for saken du har veldig korte grenlengder). [ oppdatering: I følge utførte den nylige sammenligningspapiret som er nevnt nedenfor FastTree ganske dårlig i forhold til RAxML eller IQ-tree.]

Fra hva Jeg forstår at du bør bruke ExaML bare hvis dataene dine er for store til at de kan håndteres av RAxML i en enkelt node. ExaML skal utføre som RAxML, men med noe overordnet parallellisering. For alle effekter behandler jeg dem som de samme. Jeg vet ikke om fordeler med phyML fremfor RAxML (for meg er det lettere å bruke, men jeg er veldig vant til phyML).

Jeg er ikke kjent med IQ-tree, men det er forfattere hevder at selv gitt samme tid som RAxML eller phyML, finner IQ-tree allerede bedre sannsynlighet oftere enn ikke (selv om det som standard tar litt lengre tid å konvergere). En nylig sammenligning mellom alle disse programmene favoriserte IQ-TREE for både enkeltgen- og sammenkoblingsanalyser (med RAxML veldig nær). Det kan også estimere grenstøtte gjennom en SH-lignende test, men jeg er ikke sikker. [ oppdatering: IQ-treet tilbyr 3 målinger av støtte, standard bootstrap, aLRT og ultrahurtig bootstrap. Se OPs kommentar nedenfor for detaljer.]

Men siden du har få data som mangler, kan det også være lurt å prøve en enkeltlokustre-inferens etterfulgt av gentresamling (ved hjelp av treescape eller treeCL) for å se hvor spredte dataene dine er, eller for å se effekten av fjerning av outliers, eller for å bruke ideer som ligner statistisk binning.

I den nylige sammenligningen du nevner, bemerker jeg at RAxML bare presterte bedre enn IQtree da de gjorde 10 uavhengige søk per replikat. Så man kan bare favorisere IQtree her også, og merke seg at det er fornuftig å gjøre en haug med uavhengige søk. Også FastTree utførte veldig dårlig i alle sammenligninger av den ms.

Tiltak for støtte i IQtree: (i) standard bootstrap; (ii) aLRT (omtrentlig sannsynlighetsforholdstest, som er omtrent som å spørre om en gitt grenlengde er betydelig> 0); (iii) Ultrafast bootstrap (ikke den samme tolkningen som en standard bootstrap, mer som en bakre sannsynlighet hvis jeg har forstått det riktig).

Vær oppmerksom på at sannsynlighets sammenligninger mellom programutfall også avhenger av valg av modell og datadeling. Jeg har ikke sett på detaljene, men noen programmer kan implementere modeller som ikke er tilgjengelige i andre. Dette kan være et valgkriterium.

Takk for kommentarene @roblanf, Jeg tok meg friheten til å oppdatere svaret mitt med denne informasjonen.

merk deg også at det er en nylig utgitt omskrivning av RAxML tilgjengelig [her] (https://github.com/amkozlov/raxml-ng). Den kombinerer de beste delene av RAxML og ExaML, samtidig som den er raskere generelt. Imidlertid er ikke alle nåværende RAxML-funksjoner implementert ennå.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese

Loading...