Normalisering av RNAseq for PCA og CCA

llrs

2017-12-18 17:08:39 UTC

view on stackexchange narkive permalink

Vanligvis blir uttrykksdataene transformert til loggplass ved hjelp av enten RPKM, FPKM eller CPM, dette er nødvendig når du leter etter differensialuttrykk fordi dataene testes mot normalfordeling (limma) eller negativ bionimal fordeling (DESeq2).

I vektet genekspresjonsanalyse (WGCNA) er det også anbefaling å normalisere dataene (se FAQ 4), men sier "RPKM, FPKM, eller bare normaliserte teller ikke ikke utgjøre en stor forskjell for WGCNA "fordi den er basert på sammenhenger.

For PCA-data bør dataene være på samme skala for å unngå å savne skalaen som en faktor. Se dette for flere referanser. Men burde det også normaliseres for å se ut som en normalfordeling ved hjelp av logaritmer?

Hvordan strekker dette seg til andre metoder som CCA? Bør dataene se ut som en normalfordeling for CCA? Siden det er basert på korrelasjon, forventer jeg ikke mye endring, så jeg bruker rå tellinger (RSEM-utgang), men eksemplene jeg har sett bruker normaliserte data.

_{Dette spørsmålet kommer etter leser en kommentar}