Bashing filformater er et yndet tidsfordriv innen bioinformatikk, og kommentarfilformater som GFF og BED ser ut til å få spesiell oppmerksomhet. Mye av denne frustrasjonen stammer fra samfunnets sjokkerende inkonsekvente overholdelse av spesifikasjoner og konvensjoner, men det er også noen (tør jeg si objektivt) problematiske designvalg i hvert av disse formatene.
-
GFF (og dens mer vanlige derivater GTF og GFF3) bruker 1-basert lukket intervallnotasjon, som optimaliserer for menneskelig forståelse, men er langt dårligere enn 0-basert halvåpent intervallnotasjon (som brukt av BED) for beregninger som involverer intervallaritmetikk. / p>
-
Selv om BED og GTF var designet for svært spesifikke brukssaker (henholdsvis visualisering og genforutsigelse), har de blitt brukt og misbrukt i et mye bredere sett med sammenhenger. For eksempel er BED-feltene relatert til den tykke delen ikke relevante hvis du ikke plotter dem i en genomleser.
-
BED støtter en enkelt nivå av funksjonsnedbrytning (en funksjon kan deles opp i blokker). GTF støtter to nivåer (eksoner gruppert etter transcript_id, transkripsjoner gruppert etter gene_id). Derimot støtter GFF3 et vilkårlig antall nivåer, og bruker foreldre / barn-relasjoner definert av
ID
ogParent
attributter for å erklære en rettet asyklisk graf med funksjoner. -
Data som ikke passer inn i obligatoriske forhåndsdefinerte felt, må henvises til valgfrie felt eller friformattributtnøkkel / verdipar. Selv om denne fleksibiliteten er kraftig, er en vanlig klage at "all handlingen" skjer i disse valgfrie / frie formfeltene.
-
Det er mangel på valideringsverktøy, og de som eksisterer fokuserer primært på å validere syntaksen og ikke semantikken. For å bruke en aldrende analogi er det en ting å si at en XML-fil er gyldig, men det er helt annerledes å validere den mot et skjema. Det er i det vesentlige ingen brukte verktøy som gjør sistnevnte for merknadsfiler.
Hvis vi fikk i oppgave å lage et nytt merknadsformat, og hvis vi var garantert de ressursene som trengs for å utvikle den, og interesse og bred adopsjon fra samfunnet (man kan drømme!), hvilke designkriterier bør vurderes i utviklingen av dette nye formatet? Hva, hvis noe, gir et objektivt godt kommentardataformat?