두 세계의 충돌 : 복잡한 설문 조사 데이터에 ML 사용


14

나는 겉으로는 쉬운 문제에 부딪 쳤지 만 지금은 몇 주 동안 적합한 해결책을 찾지 못했습니다.

필자는 가중치, 계층화, 특정 라우팅 등을 사용하여 복잡한 디자인 설문 조사라고 부르는 설문 조사라고 불리는 많은 설문 조사 / 설문 조사 데이터 (데이터 세트 당 50k와 같은 수천 명의 응답자)를 보유하고 있습니다. 각 응답자에 대해 인구 통계 (연령, 지역 ...)와 같은 수백 가지 변수가 있고 대부분 이진 (거의 범주 형) 변수가 있습니다.

나는 컴퓨터 과학 / 기계 학습 배경에서 더 많이 왔으며 고전적인 조사 통계 및 방법론에 대해 많은 것을 배워야했습니다 . 이제 고전 머신 러닝 을 해당 데이터 에 적용하려고합니다 (예 : 응답자의 하위 집합에 대한 일부 누락 된 값 예측-기본적으로 분류 작업). 그러나 보라, 나는 그것을하는 적절한 방법을 찾을 수 없다. 이러한 계층, 가중치 또는 라우팅을 어떻게 통합해야합니까 (예 : 질문 1이 옵션 2로 답변 한 경우 질문 3을 질문하거나 그렇지 않으면 건너 뛰기)?

내 모델 (트리, 로지스틱 회귀, SVM, XGBoost ...)을 적용하는 것만으로도 데이터가 단순한 임의 샘플 또는 iid에서 온 것으로 가정하기 때문에 위험합니다 (대부분의 경우 실패).

많은 방법에는 최소한 가중치가 있지만별로 도움이되지 않습니다. 또한, 계층화에 대해 이야기하지 않고 설문 정의에 의해 주어진 불균형 클래스와 가중치를 어떻게 결합해야하는지 불분명합니다. 또한 결과 모델은 잘 보정되어야합니다. 예상 분포는 원래 분포와 매우 비슷해야합니다. 예측의 좋은 성능 만이 유일한 기준은 아닙니다. 이를 고려하여 최적화 메트릭을 변경했습니다 (예 : 실제 분포 + 정확도 / MCC에서 예측 된 분포 거리 ). 다른 경우에는 성능을 저하시키는 데 도움이되는 경우가있었습니다.

이 문제를 처리하는 방법은 정식 방법이 있습니까? 그것은 저에게 매우 과소 평가 된 연구 분야 인 것 같습니다. IMO 많은 설문 조사가 ML의 힘으로 혜택을 얻을 수 있지만 출처는 없습니다. 이처럼 서로 상호 작용하지 않는 두 세계가 있습니다.

내가 지금까지 찾은 것 :

관련 이력서 관련 질문이 있지만이 중 어느 것에도 접근 할 수있는 유용한 답변이 포함되어 있지 않습니다 (답변 없음, 내가 요청한 내용이 아니거나 오해의 소지가있는 권장 사항 제시).


" 대부분의 경우 실패 "라는 의미를 정의 할 수 있습니까 ? 이 현재 설정에서 모델의 성공 여부를 어떻게 판단합니까?
usεr11852는 20:08에 Reinstate Monic

그것들은 원래 배포판에 가깝지 않거나 실행하는 것이 무의미 해 보입니다 (예 : 라우팅이 포함 된 경우).
kotrfa

답변:


3

( 업데이트 : 복잡한 설문 조사 데이터가 포함 된 "현대"ML 방법에 대해서는 아직 많은 연구가 없지만 통계 과학의 최신 호 에는 몇 가지 검토 기사가 있습니다. 특히 Breidt and Opsomer (2017), "Model-Assisted 현대 예측 기법을 이용한 설문 조사 추정 " .

또한 언급 한 Toth 및 Eltinge 용지를 기반으로 이제 복합 측량 데이터에 CART를 구현 하는 R 패키지 rpm이 있습니다.)

이제 고전 머신 러닝을 해당 데이터에 적용하려고합니다 (예 : 응답자의 하위 집합에 대한 일부 누락 된 값 예측-기본적으로 분류 작업).

나는 당신의 목표에 대해 명확하지 않습니다. 다른 사람에게 제공하기 위해 "완전한"데이터 집합을 갖기 위해 누락 된 관측치를 대치하려고합니까? 아니면 이미 완전한 데이터를 가지고 있고 새로운 관측의 반응을 예측 / 분류하기위한 모델을 구축하고 싶습니까? 모델에 대한 특별한 질문이 있거나 데이터 마이닝이 더 광범위합니까?

두 경우 모두 복합 표본 조사 / 측량 가중 로지스틱 회귀 분석은 합리적이고 이해하기 쉬운 방법입니다. 또한 2 개 이상의 범주에 대한 순서 회귀가 있습니다. 이것은 지층과 측량 가중치를 설명합니다. 이보다 더 멋진 ML 방법이 필요하십니까?

예를 들어 svyglmR에서 사용할 수 있습니다 .survey 패키지 . R을 사용하지 않더라도 패키지 작성자 인 Thomas Lumley는 또한 로지스틱 회귀 분석과 누락 된 측량 데이터를 다루는 유용한 책 "복합 측량 : R을 사용한 분석 안내서"를 작성했습니다.

(대치의 경우 데이터 누락과 관련된 일반적인 문제에 대해 이미 잘 알고 있기를 바랍니다. 그렇지 않은 경우 대치 단계가 추정 / 예측에 미치는 영향을 설명하기 위해 다중 대치와 같은 접근법을 살펴보십시오.)

질문 라우팅은 실제로 추가 문제입니다. 어떻게 처리해야하는지 잘 모르겠습니다. 대치의 경우 라우팅에서 한 번에 하나의 "단계"를 대치 할 수 있습니다. 예를 들어, 글로벌 모델을 사용하는 경우, 먼저 "얼마나 많은 아이들이 있습니까?"에 대한 모든 사람의 대답을 무시하십시오. 그런 다음 관련 하위 인구 (아이가 0 명 이상인 사람)에 대한 새 모델을 실행하여 "아이는 몇 살입니까?"의 다음 단계를 무시합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.