FDR står for False Discovery Rate. Det er et statistikkverktøy som brukes i flere hypotesetester.
Som du kanskje vet, når du bruker en p-verdi cutoff (vanligvis 0,05) for eksperimentene dine, betyr det strengt tatt at "hvis det faktisk ikke var noe signal, ville det være en sannsynlighet på 0,05 å observere denne typen ekstreme verdier ". Dette kan forstås som "det er en 5% sjanse for at det du kaller et treff egentlig ikke er signal, bare noen ekstreme verdier som skjedde ved en tilfeldighet, og egentlig er det ingenting å se her".
Denne definisjonen har dype konsekvenser hvis du kjører mange eksperimenter: forestill deg at du kjører 100 eksperimenter (si, du tester effekten av 100 forskjellige molekyler), hvis ingen av dem har noen effekt, kan du i gjennomsnitt fortsatt få 5% av falske positive. Så hvis du kjører disse 100 eksperimentene, og du får, si, 10 treff med en p-verdi under treslaget på 0,05; hvordan kan du fortelle hvilke som er reelle og hvilke som bare er tilfeldigheter i fravær av biologisk signal?
Dette er hvor du kan bruke FDR.
Hvis du kontrollerer for en falsk oppdagelsesrate på for eksempel 0,2 (20%), betyr det at du etter noen beregninger (Benjamini-Hochberg-prosedyren beskrevet på wikipedia er enkel og ofte brukt) vil du senke din p-verdi cutoff for å være sikker på at blant N treffene (sannsynligvis mindre enn de 10 du opprinnelig valgte ovenfor) som du fikk over, maksimalt 20% faktisk er falske positive (dvs. ingen biologisk effekt, men overraskende høye / lave signalverdier ved en tilfeldighet).
I artikkelen nevner du at de har en annen FDR-verdi for hver prøve, noe som er uvanlig. Verdiene er ikke runde tall, så det virker sannsynlig at de er tall oppnådd etter å ha brukt FDR-korreksjonen (dvs. de er "transformerte p-verdier") som de baserte sin beslutning om å inkludere prøvene eller ikke. FDR-avskjæringen som de valgte, skal skrives et sted i hovedteksten.