Spørsmål:
Normalisering av RNAseq for PCA og CCA
llrs
2017-12-18 17:08:39 UTC
view on stackexchange narkive permalink

Vanligvis blir uttrykksdataene transformert til loggplass ved hjelp av enten RPKM, FPKM eller CPM, dette er nødvendig når du leter etter differensialuttrykk fordi dataene testes mot normalfordeling (limma) eller negativ bionimal fordeling (DESeq2).

I vektet genekspresjonsanalyse (WGCNA) er det også anbefaling å normalisere dataene (se FAQ 4), men sier "RPKM, FPKM, eller bare normaliserte teller ikke ikke utgjøre en stor forskjell for WGCNA "fordi den er basert på sammenhenger.

For PCA-data bør dataene være på samme skala for å unngå å savne skalaen som en faktor. Se dette for flere referanser. Men burde det også normaliseres for å se ut som en normalfordeling ved hjelp av logaritmer?

Hvordan strekker dette seg til andre metoder som CCA? Bør dataene se ut som en normalfordeling for CCA? Siden det er basert på korrelasjon, forventer jeg ikke mye endring, så jeg bruker rå tellinger (RSEM-utgang), men eksemplene jeg har sett bruker normaliserte data.

Dette spørsmålet kommer etter leser en kommentar

En svar:
gringer
2017-12-19 00:34:58 UTC
view on stackexchange narkive permalink

Jeg har gitt et svar om hvordan jeg normaliserer for PCA her. PCA fungerer best hvis dataene er normale, men som modellene går er det ganske robust til ganske store avvik fra det normale. Transformering er ikke viktig, men hvis data lett kan transformeres til noe som ser litt mer normalt ut, bør konklusjoner avledet av å se på PCA være litt mer robuste.

Jeg er ikke kjent med kanonisk -korrelasjonsanalyse (CCA), men fordi jeg ser summer og kvadratrøtter i formlene, vil jeg anta at den har lignende datarengjøringskrav som PCA. Dessverre har R-dokumentasjonen for cancor ingen informasjon om noen antagelser om dataene.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...