Jeg gjør noen analyser, og jeg må dele en stor VCF-fil (~ 8 GB gziped) gitt et sengintervall og identifisere i en delmengde av rsid.
Dessverre tar begge de vanlige valgene mine for å gjøre denne analysen ( snpSift
og bedtools
) langt eller mislykkes på grunn av minneproblemer i min lokale datamaskin og en ekstern server.
Kjenner dere noen andre alternativer eller forslag for å øke hastigheten på denne prosessen?
Følg kommandoene jeg bruker:
sengeverktøy krysser -a <myvcf>.vcf.gz -b <myinterval>.bed -wa | \ java -Xmx10g -jar snpSift.jar filter - sett <myrsid>.txt "ID i SET [0]"
eller
gzcat <myvcf>. .gz | \ java -Xmx10g -jar snpSift.jar intervaller <mybed>.bed | \ java -Xmx10g -jar snpSift.jar filter - sett <myrsid>.txt "ID i SET [0]"
Kommandoen bedtools
mislykkes vanligvis på grunn av ukjent grunn og SnpSift
løper over 6 timer til og med gitt 10 GB ram. Min lokale maskin har 8 GB RAM, men serveren har 32 GB.