예측 모델링의 경우 무작위 효과 및 비 독립적 관측치 (반복 측정)와 같은 통계 개념에 관심을 가져야합니까? 예를 들어 ...
다양한 속성과 구매 플래그가있는 5 개의 DM 캠페인 (1 년 동안 발생) 데이터가 있습니다. 이상적으로는이 모든 데이터를 결합하여 캠페인 당시 고객 속성이 지정된 구매 모델을 구축하는 것이 이상적입니다. 구매 이벤트가 드물기 때문에 가능한 한 많은 정보를 사용하고 싶습니다. 특정 고객이 캠페인의 1 ~ 5 개 위치에있을 가능성이 있습니다. 즉, 레코드간에 독립성이 없습니다.
다음을 사용할 때 중요합니까?
1) 기계 학습 접근법 (예 : 트리, MLP, SVM)
2) 통계적 접근 (로지스틱 회귀)?
**ADD:**
예측 모델링에 대한 나의 생각은 모델이 작동하면 사용하는 것입니다. 그래서 나는 가정의 중요성을 결코 고려하지 않았습니다. 위에서 설명한 사건에 대해 생각하면 궁금합니다.
와 같은 머신 러닝 알고리즘을 사용하십시오 MLP and SVM
. 이들은 위의 예제와 같은 이진 이벤트뿐만 아니라 명확하게 상관 된 시계열 데이터를 모델링하는 데 성공적으로 사용됩니다. 그러나 많은 사람들이 오류가 iid라고 가정하고 유추 될 가능성이있는 손실 함수를 사용합니다. 예를 들어, R의 그래디언트 부스트 트리는 gbm
이항에서 파생 된 이탈 손실 기능을 사용합니다 ( 10 페이지 ).