나는 겉으로는 쉬운 문제에 부딪 쳤지 만 지금은 몇 주 동안 적합한 해결책을 찾지 못했습니다.
필자는 가중치, 계층화, 특정 라우팅 등을 사용하여 복잡한 디자인 설문 조사라고 부르는 설문 조사라고 불리는 많은 설문 조사 / 설문 조사 데이터 (데이터 세트 당 50k와 같은 수천 명의 응답자)를 보유하고 있습니다. 각 응답자에 대해 인구 통계 (연령, 지역 ...)와 같은 수백 가지 변수가 있고 대부분 이진 (거의 범주 형) 변수가 있습니다.
나는 컴퓨터 과학 / 기계 학습 배경에서 더 많이 왔으며 고전적인 조사 통계 및 방법론에 대해 많은 것을 배워야했습니다 . 이제 고전 머신 러닝 을 해당 데이터 에 적용하려고합니다 (예 : 응답자의 하위 집합에 대한 일부 누락 된 값 예측-기본적으로 분류 작업). 그러나 보라, 나는 그것을하는 적절한 방법을 찾을 수 없다. 이러한 계층, 가중치 또는 라우팅을 어떻게 통합해야합니까 (예 : 질문 1이 옵션 2로 답변 한 경우 질문 3을 질문하거나 그렇지 않으면 건너 뛰기)?
내 모델 (트리, 로지스틱 회귀, SVM, XGBoost ...)을 적용하는 것만으로도 데이터가 단순한 임의 샘플 또는 iid에서 온 것으로 가정하기 때문에 위험합니다 (대부분의 경우 실패).
많은 방법에는 최소한 가중치가 있지만별로 도움이되지 않습니다. 또한, 계층화에 대해 이야기하지 않고 설문 정의에 의해 주어진 불균형 클래스와 가중치를 어떻게 결합해야하는지 불분명합니다. 또한 결과 모델은 잘 보정되어야합니다. 예상 분포는 원래 분포와 매우 비슷해야합니다. 예측의 좋은 성능 만이 유일한 기준은 아닙니다. 이를 고려하여 최적화 메트릭을 변경했습니다 (예 : 실제 분포 + 정확도 / MCC에서 예측 된 분포 거리 ). 다른 경우에는 성능을 저하시키는 데 도움이되는 경우가있었습니다.
이 문제를 처리하는 방법은 정식 방법이 있습니까? 그것은 저에게 매우 과소 평가 된 연구 분야 인 것 같습니다. IMO 많은 설문 조사가 ML의 힘으로 혜택을 얻을 수 있지만 출처는 없습니다. 이처럼 서로 상호 작용하지 않는 두 세계가 있습니다.
내가 지금까지 찾은 것 :
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
예를 들어, 복잡한 표본 조사에서 데이터를 가져올 때 회귀 트리를 수행하는 방법에 대한 논문은 여전히 하나만 알고 있습니다 (Toth & Eltinge, 2011).
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
복잡한 표본 추출 설계로 여러 설문 조사를 분석 한 150 개의 표본 연구 논문에 대한 최근의 메타 분석에서, 복잡한 표본 설계 기능의 무지 또는 잘못된 사용으로 인한 분석 오류가 자주 발생하는 것으로 나타났습니다.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
관련 이력서 관련 질문이 있지만이 중 어느 것에도 접근 할 수있는 유용한 답변이 포함되어 있지 않습니다 (답변 없음, 내가 요청한 내용이 아니거나 오해의 소지가있는 권장 사항 제시).