Hva betyr en FDR-verdi på 1 i RNA-seq?

Spørsmål:

Hva betyr en FDR-verdi på 1 i RNA-seq?

leah

2018-12-01 07:50:21 UTC

view on stackexchange narkive permalink

Jeg ser på tilleggsdataene fra papiret " En allel serie av miR-17 ∼ 92-mutante mus avdekker funksjonell spesialisering og samarbeid mellom medlemmer av en microRNA polycistron" som viser gener som uttrykkes differensielt mellom en bestemt knock-out-mus og villtypekontrollen. I tillegg til å vise logFC-endringene for hvert av genene, inkluderer tabellen FDR-verdien. I mange tilfeller er FDR-verdien 1. Hva betyr dette?

En lenke / doi til papiret vil være nyttig.

Sikker! Her er lenken: https://www.ncbi.nlm.nih.gov/pubmed/26029871 Tusen takk, Leah

@leah Jeg ser ikke hvor de rapporterer FDR-verdier på 1 i det papiret, men Mowglis svar er riktig for hva FDR er og sannsynligvis riktig at tallene du ser er ment å være FDR-korrigerte p-verdier. De skal ikke kalles "FDR-verdier", men forfatterne kan ha gjort en feil eller bare et uheldig valg av forkortelse (eller du gjorde det). FDR er en terskel, som når du velger en alfa-verdi som kriterium for betydning.

To svar:

Mowgli

2018-12-02 03:57:05 UTC

view on stackexchange narkive permalink

FDR står for False Discovery Rate. Det er et statistikkverktøy som brukes i flere hypotesetester.

Som du kanskje vet, når du bruker en p-verdi cutoff (vanligvis 0,05) for eksperimentene dine, betyr det strengt tatt at "hvis det faktisk ikke var noe signal, ville det være en sannsynlighet på 0,05 å observere denne typen ekstreme verdier ". Dette kan forstås som "det er en 5% sjanse for at det du kaller et treff egentlig ikke er signal, bare noen ekstreme verdier som skjedde ved en tilfeldighet, og egentlig er det ingenting å se her".

Denne definisjonen har dype konsekvenser hvis du kjører mange eksperimenter: forestill deg at du kjører 100 eksperimenter (si, du tester effekten av 100 forskjellige molekyler), hvis ingen av dem har noen effekt, kan du i gjennomsnitt fortsatt få 5% av falske positive. Så hvis du kjører disse 100 eksperimentene, og du får, si, 10 treff med en p-verdi under treslaget på 0,05; hvordan kan du fortelle hvilke som er reelle og hvilke som bare er tilfeldigheter i fravær av biologisk signal?

Dette er hvor du kan bruke FDR.

Hvis du kontrollerer for en falsk oppdagelsesrate på for eksempel 0,2 (20%), betyr det at du etter noen beregninger (Benjamini-Hochberg-prosedyren beskrevet på wikipedia er enkel og ofte brukt) vil du senke din p-verdi cutoff for å være sikker på at blant N treffene (sannsynligvis mindre enn de 10 du opprinnelig valgte ovenfor) som du fikk over, maksimalt 20% faktisk er falske positive (dvs. ingen biologisk effekt, men overraskende høye / lave signalverdier ved en tilfeldighet).

I artikkelen nevner du at de har en annen FDR-verdi for hver prøve, noe som er uvanlig. Verdiene er ikke runde tall, så det virker sannsynlig at de er tall oppnådd etter å ha brukt FDR-korreksjonen (dvs. de er "transformerte p-verdier") som de baserte sin beslutning om å inkludere prøvene eller ikke. FDR-avskjæringen som de valgte, skal skrives et sted i hovedteksten.

Tom Kelly

2018-12-03 05:49:06 UTC

view on stackexchange narkive permalink

I praksis kan du tolke den akkurat som en p-verdi.

En FDR-verdi er en p-verdi justert for flere tester (ved Benjamini-Hochberg-prosedyren). Den står for den "falske oppdagelsesfrekvensen" den korrigerer for flere tester ved å gi andelen tester over terskel-alfa som vil være falske positive (dvs. oppdages når nullhypotesen er sann). Merk at dette er mindre streng enn Holm-Bonferroni FWER-justerte p-verdi (som vurderer sjansen for falske positive blant signifikante resultater).

Så for en FDR p-verdi på 0,05, opptil 5% av disse testene vil være falske positive (merk at dette ikke er tilfelle for ukorrigerte rå p-verdier).

For en FDR p-verdi på 1 vil opptil 100% av disse testene være falske positive. Dette er fornuftig, hvis du tar test med en p-verdi hvis 1, så bør den inkludere alle de negative resultatene, der nullhypotesen ikke kan avvises. Bare tester med lavere p-verdier, har noen sjanse til å bli avvist under nullhypotesen som sanne positive. Hvis du får FDR-justerte p-verdier, har du gjort så mange tester at du ikke har makten til å oppdage sanne positive og ikke kan utelukke at disse er falske positive på grunn av støy fra flere tester. Så en FDR p-verdi på 1 er definitivt ikke signifikant under noen omstendigheter.

Jeg tror du ikke kan tolke det akkurat som en p-verdi i en Benjamini Hochberg-prosedyre. Det krever 1) rangering av p-verdiene, 2) beregning av justerte verdier basert på rangering og 3) å finne den største indeksen som tilfredsstiller FDR-ulikhetsberegningen og 4) velge alle verdiene under denne indeksen. Det kan være verdier som ender opp med å bli valgt (dvs. indeksen deres er tilstrekkelig liten) selv om beregningen fører til en verdi over valgterskelen.

I tillegg forteller en FDR deg bare om den maksimale prosentandelen av falske positive du er villig til å akseptere - så selv å korrigere for en FDR på 1 kan føre til 100% av riktige treff, det betyr bare at du er villig til å godta opptil 100 % av type I-feil i verste fall (og du vet bare ikke om det skjer eller ikke)

For p = 1 eller når det gjelder å tolke resultatene av et eksperiment, er det ikke mye annerledes. Enhver algoritme for å beregne FDR-korreksjon vil beregne dem for deg. Det er ikke nødvendig for en biolog å vite detaljene, selv om dette kan være mer hensiktsmessig for Cross Validated.

Jeg er ikke helt enig; denne nyansen kan tilføre resultatene dine titalls treff i et eksperiment i stor skala som RNAseq med høy gjennomstrømning. Og ja, jeg tror det er nødvendig for en biolog - eller en hvilken som helst annen forsker for den saks skyld - å forstå nøyaktig de statistiske verktøyene de bruker til forskning :) min personlige mening.

For dette spesifikke tilfellet er det et spørsmål om FDR på 1. Dette bør ikke brukes som en terskel for å definere treff under noen omstendigheter. Dette vil gjøre hvert resultat til en hit per definisjon. Det er de mest falske positive du vil tillate, og du tillater alle dem. Forskere bør forstå verktøyene de bruker, men de bør søke ytterligere informasjon om dem. Dette er ikke det rette forumet for det detaljnivået.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 4.0-lisensen den distribueres under.

about - legalese

Loading...