전통적으로 혼합 모델을 사용하여 종 방향 데이터, 즉 다음과 같은 데이터를 모델링합니다.
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
우리는 다른 사람에 대한 임의의 가로 채기 또는 기울기를 가정 할 수 있습니다. 그러나 내가 해결하려고하는 질문에는 거대한 데이터 세트 (수백만 명의 사람, 매일 1 개월 관찰, 즉 각 사람이 30 번 관찰)가 포함될 것입니다. 현재 패키지 가이 수준의 데이터를 수행 할 수 있는지 알 수 없습니다.
spark / mahout에 액세스 할 수 있지만 혼합 모델을 제공하지 않습니다. 제 질문은 RandomForest 또는 SVM을 사용 하여이 데이터 세트를 모델링 할 수 있도록 데이터를 수정할 수 있습니까?
RF / SVM이 자동 상관 관계를 설명하는 데 도움을 줄 수있는 기능 엔지니어링 기술은 무엇입니까?
많은 감사합니다!
몇 가지 잠재적 인 방법이지만 스파크에 쓸 시간이 없었습니다.