두 번째 @suncoolsu 의견 : 데이터 세트의 차원이 특정 소프트웨어를 지향하는 유일한 기준은 아닙니다. 예를 들어, 감독되지 않은 클러스터링을 수행하거나 PCA를 사용하려는 경우 게놈 연구에서 일반적으로 발생하는 대규모 데이터 세트에 대처할 수있는 몇 가지 전용 도구가 있습니다.
이제 R (64 비트)은 대용량 데이터를 잘 처리하지만 여전히 RAM 액세스 대신 디스크 스토리지를 사용하는 옵션이 있지만 CRAN 작업보기 R을 사용한 고성능 및 병렬 컴퓨팅을 참조하십시오 . 표준 GLM은 20,000 개의 obs를 쉽게 수용 할 수 있습니다. 적절한 시간 내에 아래에 표시된대로 (단, speedglm 참조 )
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
좀 더 구체적으로 설명하기 위해 R을 사용하여 큰 유전자 데이터 (800 개 개인 x 800k SNP) 를 처리하고 분석했습니다 . 여기서 주요 통계 모델은 여러 공변량 (2 분)을 가진 층화 된 GLM이었고 효율적인 R 덕분에 가능했습니다. snpMatrix 패키지 에서 사용할 수있는 C 코드 ( 비교적으로 , 동일한 종류의 모델은 전용 C ++ 소프트웨어 ( plink )를 사용하여 약 8 분이 걸렸으며 임상 연구 (12k 환자 x 관심 변수 50 개)에도 참여했으며 R은 내 요구에 맞습니다. 마지막으로, lme4 패키지는 (대규모 교육 평가에서와 같이) 불균형 및 대규모 데이터 세트에 혼합 효과 모델을 적용 할 수있는 유일한 소프트웨어입니다.
Stata / SE는 대용량 데이터 세트를 처리 할 수있는 또 다른 소프트웨어입니다 . SAS 및 SPSS는 파일 기반 소프트웨어이므로 대량의 데이터를 처리합니다. 데이터 마이닝 소프트웨어에 대한 비교 검토는 데이터 마이닝 도구 : CRM에 가장 적합한 소프트웨어 중 하나 에서 확인할 수 있습니다 . 시각화를 위해 많은 옵션이 있습니다. 어쩌면 좋은 시작은 대규모 데이터 세트의 그래픽입니다. 백만개 시각화 ( P Murrell의 JSS에서 검토 )와이 사이트의 모든 관련 스레드입니다.