Spørsmål:
Hvordan bestemme antall naboer og oppløsning for Louvain-klynging
gc5
2018-05-08 01:19:22 UTC
view on stackexchange narkive permalink

Jeg bruker Louvain-klynging (1,2) til å klynge celler i scRNAseq-data, som implementert av scanpy.

En av parameterne som kreves for denne typen klynging er antall naboer som ble brukt til å konstruere nabolagsgrafen over celler ( docs).

Større verdier gir et mer globalt syn på manifolden, noe som fører til lavere antall klynger, mens å redusere antall naboer går i motsatt retning. Det er imidlertid uklart hvordan du velger denne parameteren.

Oppløsningsparameteren ser ut til å fungere på motsatt måte.

Kjenner du til noen metodikk og / eller tommelfingerregel å definere disse parametrene? F.eks. avhengig av størrelsen på datasettet?

  1. Levine, Jacob H., et al. "Datadrevet fenotypisk disseksjon av AML avslører stamfarlignende celler som korrelerer med prognosen." Cell 162.1 (2015): 184-197.
  2. Blondel, Vincent D., et al. "Rask utfoldelse av lokalsamfunn i store nettverk." Journal of statistical mechanics: theory and experiment 2008.10 (2008): P10008.
Den Louviske algoritmen har et problem med frakoblede samfunn. Leiden-algoritmen anbefales for å løse dette. Se Traag et al. https://arxiv.org/abs/1810.08473
Hvis jeg ikke husker riktig, viser fenografpapiret at algoritmen deres er ganske robust for forskjellige (rimelige) verdier for k.
@gc5 fikk du svaret? Jeg vil også vite hva som er den beste oppløsningen? Da vi kan få flere lokalsamfunn når vi øker oppløsningen og omvendt. Takk
@KhalidUsman ikke noe tilfredsstillende svar så langt.
To svar:
galicae
2018-08-10 16:57:40 UTC
view on stackexchange narkive permalink

En generell tommelfingerregel er at du trenger $ n ^ 2 $ naboer for å forbedre avviket $ n $ ganger. Dette gjelder bare hvis du anser $ n ^ 2 $ nærmeste naboer i en celle for å være biologisk identiske (dvs. "like nok"); hvis dataene dine inneholder 10 typer celler med 10 celler hver, så vil de 20 nærmeste naboene for utjevning skjule dataene.

Så vidt jeg vet er det ikke noe eneste beste svar på dette spørsmålet. Jeg foreslår at du prøver forskjellige tall og holder oss til det som stemmer mer overens med datasettets biologi.

Kan du legge noen referanser til tommelfingerregelen du skrev? Imidlertid endte jeg med å velge progressive oppløsninger. Merk at forskjellige deler av et datasett kan trenge forskjellige oppløsninger. Takk.
Phoenix Mu
2020-03-29 03:25:58 UTC
view on stackexchange narkive permalink

Jeg leste et papir der forfatterne brukte forskjellige kombinasjoner av parametere for å iterativt utføre LSI til noen kriterier. Kanskje en lignende strategi kan brukes på Louvain-klynger også?

Papiret finner du her: https://www.nature.com/articles/s41587-019-0332-7



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 4.0-lisensen den distribueres under.
Loading...