나는 기계 학습, CART 기술 등을 처음 접했고, 순진한 것이 너무 명확하지 않기를 바랍니다.
Random Forest는 다단계 / 계층 적 데이터 구조를 어떻게 처리합니까 (예 : 교차 수준 상호 작용이 필요한 경우)?
즉, 여러 계층 적 수준에서 분석 단위가 포함 된 데이터 세트 ( 예 : 학교 내에 중첩 된 학생, 학생과 학교에 대한 데이터)
예를 들어, 첫 번째 수준의 개인 ( 예 : 투표 행동, 인구 통계 등의 데이터)이 두 번째 수준의 국가 (국가 수준 데이터 ( 예 : 인구) )에 내포 된 다단계 데이터 집합을 고려 하십시오 .
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
즉 말할 수 voted
응답 / 종속 변수이며, 다른 예측 / 독립 변수이다. 예 마진 약간 높은 수준 변수 (가변 (부분 의존성)의 한계 효과 이러한 종류 즉 , population
상이한 개인 수준 변수 등), 매우 흥미로운 일 수있다. 이와 비슷한 경우 glm
물론 더 적합하지만 변수가 많을 때, 상호 작용 및 / 또는 결 측값 및 / 또는 매우 큰 규모의 데이터 세트 등 glm
은 그다지 신뢰할 수 없습니다.
하위 질문 : Random Forest는 이러한 방식으로 이러한 유형의 데이터 구조를 명시 적으로 처리 할 수 있습니까? 관계없이 사용하면 어떤 종류의 편견이 생깁니 까? Random Forest가 적절하지 않은 경우 다른 앙상블 형식 방법이 있습니까?
그룹화 된 데이터의 질문 임의 포리스트 는 아마도 비슷하지만 실제로는 대답하지 않습니다.