설문 조사 응답에서 체계적인 오류를 설명하기위한 대치


9

나는 학생들에게 무엇보다도 어머니의 교육 수준에 대한 질문을 받았습니다. 어떤 사람들은 그것을 건너 뛰었고 어떤 사람들은 잘못 대답했습니다. 나는 초기 응답자 어머니의 하위 표본이 나중에 인터뷰되고 같은 질문을했기 때문에 이것을 알고 있습니다. (어머니의 응답과 관련된 약간의 오류가 있음을 확신합니다.)

저의 도전은이 두 번째의보다 안정적인 데이터 소스를 최대한 활용하는 방법을 결정하는 것입니다. 최소한 완전한 경우에만 의존 할 수있는 경우보다 더 지능적으로 누락 된 데이터를 대치하는 데 사용할 수 있습니다. 그러나 데이터를 교차 점검 할 수 있고 "어머니가 초등학교를 졸업 한 적이 없다"고 대답하는 어린이의 3/4이 어머니의 답변과 모순되는 경우, 불확실성을 포착하기 위해 여러 데이터 집합을 만드는 데 대치를 사용해야하는 것 같습니다. [Added : 3/4 포인트를 주겠다고 말했지만 이제 데이터를 확인 했으므로 40 %에 가까울수록 차이가 있음을 알 수 있습니다]

나는 개인적으로 어머니의 교육을 혼합 모델에서 예측 자로 사용하지만 다른 상황에 대해 할 말이 있으면 그들도 배우고 싶습니다.

나는 대폭발이나 세부 사항에서 조언을 받고 싶습니다. 감사합니다!

업데이트 : Will과 Conjugate_Prior의 답변에 감사하지만 지금은 질문을 해결하지 않은 채로두고 있지만 더 구체적이고 기술적 인 피드백을 기대하고 있습니다.

아래 산포도는 두 변수가 존재하는 10,000 개의 경우에 두 변수가 어떻게 관련되는지에 대한 아이디어를 제공합니다. 그들은 100 개 이상의 학교에 중첩되어 있습니다. 0.78, 학생의 답변-평균 : 5.12 sd = 2.05, 엄마의 답변, 평균 = 5.02, sd = 1.92에 상관합니다. 학생의 답변은 약 15 %의 사례에서 누락되었습니다.

여기에 이미지 설명을 입력하십시오


호기심으로, "어머니는 초등학교를 마치지 않았다"는 교육 질문에 대한 첫 번째 응답 옵션이 있었습니까? 그렇다면 시험 응시자의 나머지 시험 결과의 정확성에 대해 걱정할 것입니다.
Michelle

"얼마나 학교에 다녔습니까?" -1) 8 학년 이하
Michael Bishop

각 질문에 첫 번째 응답 옵션을 선택한 테스트 테이커 하위 집합이있을 수 있습니다. 확인할 수 있습니까?
Michelle

그 음모는 매우 통찰력이 있습니다. 실제로 많은 아이들이 첫 번째 답변을 똑딱 거리면 기대하지 않는 대칭으로 보입니다. 이 경우 사례는 맨 아래 행을 따라 클러스터되는 경향이 있습니다. 물론 '보이는'대칭은 실제로 그것이 보장한다고 보장하지는 않지만 좋은 출발입니다. 어머니와 자녀의 반응 사이에서 관찰되는 강력한 상관 관계도 이와 일치합니다.
Will

1
아 내가 참조. 그리고 나는 또한 기존 데이터를 전가하기 꺼려 (좀 더) 것 그리고 그것은 논쟁의 이런 종류에도 불구하고, 전혀 수행하지 않은 것이 좋습니다 : gking.harvard.edu/gking/files/measure.pdf
conjugateprior

답변:


2

가장 먼저 알아야 할 것은 여러분의 변수는 "학생의 어머니 교육에 대해 말한 것"과 "학생의 어머니가 학생의 어머니의 교육에 관해 말한 것"입니다. 이들을 각각 S와 M이라고하고, 관찰되지 않은 실제 어머니 교육 수준을 T라고 표시하십시오.

S와 M은 결 측값을 얻었으며 M과 S를 대치 모델에 넣었지만 후속 분석에서 이들 중 하나만 사용하는 데에는 아무런 문제가 없습니다 (아래 관측치). 다른 방법은 항상 바람직하지 않습니다.

이것은 세 가지 다른 질문과는 별개입니다.

  1. 결 측값이 학생이 자신의 어머니에 대해 그렇게 많이 말하고 싶지 않다는 것을 의미합니까?
  2. S와 M을 사용하여 T에 대해 배우는 방법?
  3. 여러 대치가 가능하도록 올바른 유형의 누락이 있습니까?

무지와 실종

T에 관심이있을 수도 있지만 교육 성취에 대한 인식 (S 및 M을 통해)에 대한 인식 이나 학생 지식 부족 이 T 자체보다 더 인과 적으로 흥미로울 수 있습니다. 대치는 첫 번째에 대한 합리적인 경로 일 수 있지만 두 번째에 대한 것일 수도 있고 아닐 수도 있습니다. 결정해야합니다.

T에 대해 배우기

실제로 T에 관심이 있다고 가정하십시오. 금 표준 측정이없는 경우 (때로는 M을 의심하기 때문에) S와 M을 비중 재로 결합하여 T에 대해 배우는 방법을 알기는 어렵습니다. M이 사용 가능할 때 M을 올바른 것으로 기꺼이 처리하려는 경우 S를 사용하여 학생들의 다른 정보가 포함 된 분류 모델에서 M을 예측 한 다음 최종 분석에서 S가 아닌 M을 사용할 수 있습니다. 여기서 문제는 훈련 한 경우의 선택 편향에 관한 것이며, 이는 세 번째 문제로 이어집니다.

실종

다중 대치가 작동 할 수 있는지 여부는 데이터가 무작위로 완전히 누락되거나 (MCAR) 무작위로 누락되었는지 (MAR)에 따라 다릅니다. S가 임의로 누락 되었습니까 (MAR)? 아마도 학생들은 어머니의 교육 부족에 대해 대답하고 질문을 건너 뛰는 것을 부끄러워 할 수도 있습니다. 그런 다음 값만으로도 누락 여부를 결정하고 다중 대치가 여기에서 도움이 될 수 없습니다. 다른 한편으로, 조사에서 일부 질문과 답변 이 포함 된 저학력 covaries가 소득의 지표와 같은 경우 MAR이 더 합리적 일 수 있고 다중 대치가 문제가 될 수 있습니다. M이 무작위로 누락 되었습니까? 동일한 고려 사항이 적용됩니다.

마지막으로 T에 관심이 있고 분류 접근법을 사용하더라도 해당 모델에 적합하도록 대치하고 싶습니다.


1

"모순 비율"이 전체 샘플에 대해 어머니가 폴링 된 서브 샘플과 동일하다고 가정하려면 서브 샘플을 임의로 추출해야합니다. 당신의 설명에서 당신이 말하지 않기 때문에, 나는이 문제를 제기합니다. 왜냐하면 하위 샘플 에서이 정보를 사용하여 전체 학생 샘플에 대한 결론을 내리는 방법 또는 방법에 중요한 영향을 미치기 때문입니다.

이 모순 문제에는 세 가지 측면이있는 것 같습니다.

1은 모순 비율입니다. 실제로 3/4의 학생들이 잘못 추측 한 것입니까?

2는 잘못의 정도입니다. 어머니가 실제로 초등학교를 마치더라도 학교를 마치지 않았다고 말하는 것은 한 가지입니다. 박사 학위를 받았을 때 초등학교를 마치지 않았다는 말도 있습니다.

3은 교차 점검 할 수있는 샘플의 비율입니다. 이 결론을 20의 하위 표본에서 도출한다면 추정치는 상당히 불안정하고 아마도 그만한 가치가 없을 것입니다.

당신이하는 일은이 질문들과 내가 처음 제기 한 질문에 대한 당신의 대답에 달려있는 것 같습니다. 예를 들어 1이 매우 높고 3이 매우 높은 경우 하위 샘플을 사용하여 완료 할 수 있습니다. 1이 높지만 2가 낮 으면 문제는 그렇게 나쁘지 않은 것으로 보이며 다시 언급 할 가치가 없습니다.

오류가 임의적이거나 체계적인지 아는 것도 가치가 있습니다. 만약 학생들이 체계적으로 어머니의 교육을 평가하는 경향이 있다면, 때로는 가끔 완전히 잘못하는 것보다 더 문제가됩니다.

나는 몇 가지 논문에 약간의 대치가 있었으며 결과적으로 항상 나 자신에게 더 많은 문제를 일으키는 것처럼 보입니다. 적어도 내 분야의 검토 자들은 종종 방법을 잘 다루지 못하기 때문에 그 사용을 의심합니다. 간혹 출판상의 관점에서 문제를 인정하고 나아가는 것이 더 나을 것 같습니다. 그러나이 경우 실제로 '실종 데이터를 측정하는'것은 아니지만 변수에 대해 일종의 예측 오류 분산이 발생합니다. 그것은 매우 흥미로운 질문이며, 모든 문제를 제쳐두고, 최선의 행동 과정이라고 결정하면 어떻게 할 것인지조차 확실하지 않습니다.


1
고마워 윌, 나는 내 원래 게시물에서 몇 가지를 명확히했다. 하위 샘플은 무작위입니다. 나는 포인트에서 3/4 스탯을 모자에서 뽑았다. 진정한 통계는 적습니다. 약 10,000 건의 사례를 교차 점검 할 수 있습니다. 오류가 순전히 무작위가 아니라고 확신합니다.
Michael Bishop
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.