웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다.
내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다.
목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다.
아래 그림과 같이 샘플 사진을 첨부했습니다.
제품에 대한 1940 개의 고유 카테고리와 13845 개의 고유 키워드가 모두 있습니다. 웹 사이트의 경우 13063 개의 고유 키워드가 있습니다. 전체 데이터 세트는 일일 로깅 데이터이므로 매우 큽니다.
나는 감독되지 않았기 때문에 클러스터링을 생각하고 있지만 그 ID는 숫자 의미가없는 주문 번호입니다. 그런 다음 알고리즘을 적용하는 방법을 모르겠습니다. 나는 또한 분류를 생각하고 있습니다. 구매 한 제품의 판매량에 따라 수업 열을 추가하는 경우 클러스터링이 더 바람직하다고 생각합니다. 키워드 ID의 크기가 10000을 초과 할 수 있으므로이 경우에 어떤 알고리즘을 사용해야하는지 모르겠습니다 (각 제품에는 많은 키워드가있을 수 있으므로 웹 사이트도 마찬가지 임). 이 프로젝트에 Spark를 사용해야합니다.
누구든지 아이디어 나 제안으로 나를 도울 수 있습니까?
정말 고맙습니다!