3
R의 빅 데이터 클러스터링 및 샘플링과 관련이 있습니까?
데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다. 데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다. 데이지 방법은 혼합 …