데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다.
데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다.
데이지 방법은 혼합 유형 데이터에서 작동 할 수 있지만 거리 행렬이 너무 큽니다. 200,000 x 200,000이 2 ^ 31-1보다 훨씬 큽니다 (R 3.0.0 이전의 벡터 길이 제한).
어제 출시 된 새로운 R 3.0.0은 길이가 2 ^ 31-1보다 긴 긴 벡터를 지원합니다. 그러나 200,000 x 200,000의 이중 행렬에는 16Gb보다 큰 연속 RAM이 필요하며 내 컴퓨터에서는 불가능합니다.
병렬 컴퓨팅 및 bigmemory 패키지에 대해 읽었으며 도움이 될지 확실하지 않습니다. 데이지를 사용하는 경우 어쨌든 메모리에 맞지 않는 큰 행렬을 생성합니다.
샘플링에 관한 게시물에 대해서도 읽었습니다. '빅 데이터'시점에서 샘플링이 관련이 있습니까?
내 경우에는 데이터 세트에서 샘플링을 사용하고 샘플에서 클러스터를 사용한 다음 전체 데이터 세트의 구조를 유추하는 것이 관련이 있습니까?
제발 좀 제안 해 주시겠습니까? 감사합니다!
내 컴퓨터 정보 :
R 버전 3.0.0 (2013-04-03)
플랫폼 : x86_64-w64-mingw32 / x64 (64 비트)
운영체제 : Windows 7 64bit
램 : 16.0GB