예측 모델링-혼합 모델링에 관심을 가져야합니까?


19

예측 모델링의 경우 무작위 효과 및 비 독립적 관측치 (반복 측정)와 같은 통계 개념에 관심을 가져야합니까? 예를 들어 ...

다양한 속성과 구매 플래그가있는 5 개의 DM 캠페인 (1 년 동안 발생) 데이터가 있습니다. 이상적으로는이 모든 데이터를 결합하여 캠페인 당시 고객 속성이 지정된 구매 모델을 구축하는 것이 이상적입니다. 구매 이벤트가 드물기 때문에 가능한 한 많은 정보를 사용하고 싶습니다. 특정 고객이 캠페인의 1 ~ 5 개 위치에있을 가능성이 있습니다. 즉, 레코드간에 독립성이 없습니다.

다음을 사용할 때 중요합니까?

1) 기계 학습 접근법 (예 : 트리, MLP, SVM)

2) 통계적 접근 (로지스틱 회귀)?

**ADD:**

예측 모델링에 대한 나의 생각은 모델이 작동하면 사용하는 것입니다. 그래서 나는 가정의 중요성을 결코 고려하지 않았습니다. 위에서 설명한 사건에 대해 생각하면 궁금합니다.

와 같은 머신 러닝 알고리즘을 사용하십시오 MLP and SVM. 이들은 위의 예제와 같은 이진 이벤트뿐만 아니라 명확하게 상관 된 시계열 데이터를 모델링하는 데 성공적으로 사용됩니다. 그러나 많은 사람들이 오류가 iid라고 가정하고 유추 될 가능성이있는 손실 함수를 사용합니다. 예를 들어, R의 그래디언트 부스트 트리는 gbm이항에서 파생 된 이탈 손실 기능을 사용합니다 ( 10 페이지 ).


1
반복되는 측정을 처리하기 때문에 레코드 간의 독립성을 가정하는 통계적 접근 방식에 중요합니다.
Michelle

4
예측에 중점을 둔 머신 러닝과 추론에 중점을 둔 통계의 주요 차이점 중 하나는 B_Miner입니다. 머신 러닝은 기존 통계가 가정에 특별한주의를 기울이는 동안 작동하는 것에 더 관심이 있습니다. 두 경우 모두 접근 방식의 가정 / 속성을 알고 있어야하며, 중요한지 여부에 대한 정보에 근거한 결정을 내립니다. 접근법의 가정 / 속성을 이해하지 못하면 모델이 작동하는지 여부에 대한 예측 모델링에서 자신을 속일 수 있습니다.
Anne Z.

2
@AnneZ. 예측 모델링에서 훈련, 테스트 및 검증 세트 (모든 샘플의 크기가 충분 함)의 권장 검증 방법을 따르고 효과가있는 것을 발견 한 경우 기본 가정이 충족되면 여전히 귀찮게해야합니까? 나는 ML의 마음이없는 적용을 추천하지 않는다. 나는 단지 궁금했다.
steffen

2
이러한 맥락에서, "통계 모델링 : 두 문화" 라는 논문
steffen

답변:


14

나는 이것을 스스로 궁금해 했으며 여기에 잠정적 인 결론이 있습니다. 누구나 자신의 지식 과이 주제에 대한 참조로 이것을 보완 / 수정할 수 있다면 기쁠 것입니다.

통계적 유의성을 확인하여 로지스틱 회귀 계수에 대한 가설을 테스트하려면 관측 간 상관 관계를 모델링해야합니다 (그렇지 않은 경우 독립성에 대해서는 올바른 경우). 클러스터 효과. 그러나 회귀 계수는 상관 된 관측 값으로도 편향되지 않으므로 예측에 이러한 모델을 사용하는 것이 좋습니다.

예측 모델링에서는 로지스틱 회귀 분석을 사용하든 다른 접근 방식을 사용하든 모델 학습시 상관 관계를 명시 적으로 설명 할 필요가 없습니다. 그러나 표본 외 오차의 검증 또는 계산에 홀드 아웃 세트를 사용하려는 경우 각 개인에 대한 관측치가 훈련 또는 검증 중 하나의 세트에만 나타나고 둘 다가 아닌지 확인해야합니다. 그렇지 않으면 모델은 이미 일부 정보를 가지고있는 개인을 예측할 것이며 표본 외부 분류 능력에 대한 정확한 정보를 얻지 못하고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.