Kommentarformatdesign

Daniel Standage

2017-06-08 12:06:30 UTC

view on stackexchange narkive permalink

Bashing filformater er et yndet tidsfordriv innen bioinformatikk, og kommentarfilformater som GFF og BED ser ut til å få spesiell oppmerksomhet. Mye av denne frustrasjonen stammer fra samfunnets sjokkerende inkonsekvente overholdelse av spesifikasjoner og konvensjoner, men det er også noen (tør jeg si objektivt) problematiske designvalg i hvert av disse formatene.

GFF (og dens mer vanlige derivater GTF og GFF3) bruker 1-basert lukket intervallnotasjon, som optimaliserer for menneskelig forståelse, men er langt dårligere enn 0-basert halvåpent intervallnotasjon (som brukt av BED) for beregninger som involverer intervallaritmetikk. / p>
Selv om BED og GTF var designet for svært spesifikke brukssaker (henholdsvis visualisering og genforutsigelse), har de blitt brukt og misbrukt i et mye bredere sett med sammenhenger. For eksempel er BED-feltene relatert til den tykke delen ikke relevante hvis du ikke plotter dem i en genomleser.
BED støtter en enkelt nivå av funksjonsnedbrytning (en funksjon kan deles opp i blokker). GTF støtter to nivåer (eksoner gruppert etter transcript_id, transkripsjoner gruppert etter gene_id). Derimot støtter GFF3 et vilkårlig antall nivåer, og bruker foreldre / barn-relasjoner definert av ID og Parent attributter for å erklære en rettet asyklisk graf med funksjoner.
Data som ikke passer inn i obligatoriske forhåndsdefinerte felt, må henvises til valgfrie felt eller friformattributtnøkkel / verdipar. Selv om denne fleksibiliteten er kraftig, er en vanlig klage at "all handlingen" skjer i disse valgfrie / frie formfeltene.
Det er mangel på valideringsverktøy, og de som eksisterer fokuserer primært på å validere syntaksen og ikke semantikken. For å bruke en aldrende analogi er det en ting å si at en XML-fil er gyldig, men det er helt annerledes å validere den mot et skjema. Det er i det vesentlige ingen brukte verktøy som gjør sistnevnte for merknadsfiler.

Hvis vi fikk i oppgave å lage et nytt merknadsformat, og hvis vi var garantert de ressursene som trengs for å utvikle den, og interesse og bred adopsjon fra samfunnet (man kan drømme!), hvilke designkriterier bør vurderes i utviklingen av dette nye formatet? Hva, hvis noe, gir et objektivt godt kommentardataformat?

Spør du bare om et format som beskriver genomiske funksjoner? "Kommentar" er et veldig bredt begrep, men det ser ut som om du bare vurderer genomiske regioner her, eller i det minste ting som har i) en definert "region" og ii) en definert "funksjon". Dette vil fremdeles ekskludere fenotype-merknader for proteiner eller GI-merknader for gener osv. Kan du [redigere] og avklare hva slags "merknader" du vurderer?

BED-konseptet med autoSql er en ganske fin funksjon i et kommentarformat og gir mye utvidbarhet. Konseptet med funksjonshierarki er fortsatt i utgangspunktet et enkelt nivå