나는 학생들에게 무엇보다도 어머니의 교육 수준에 대한 질문을 받았습니다. 어떤 사람들은 그것을 건너 뛰었고 어떤 사람들은 잘못 대답했습니다. 나는 초기 응답자 어머니의 하위 표본이 나중에 인터뷰되고 같은 질문을했기 때문에 이것을 알고 있습니다. (어머니의 응답과 관련된 약간의 오류가 있음을 확신합니다.)
저의 도전은이 두 번째의보다 안정적인 데이터 소스를 최대한 활용하는 방법을 결정하는 것입니다. 최소한 완전한 경우에만 의존 할 수있는 경우보다 더 지능적으로 누락 된 데이터를 대치하는 데 사용할 수 있습니다. 그러나 데이터를 교차 점검 할 수 있고 "어머니가 초등학교를 졸업 한 적이 없다"고 대답하는 어린이의 3/4이 어머니의 답변과 모순되는 경우, 불확실성을 포착하기 위해 여러 데이터 집합을 만드는 데 대치를 사용해야하는 것 같습니다. [Added : 3/4 포인트를 주겠다고 말했지만 이제 데이터를 확인 했으므로 40 %에 가까울수록 차이가 있음을 알 수 있습니다]
나는 개인적으로 어머니의 교육을 혼합 모델에서 예측 자로 사용하지만 다른 상황에 대해 할 말이 있으면 그들도 배우고 싶습니다.
나는 대폭발이나 세부 사항에서 조언을 받고 싶습니다. 감사합니다!
업데이트 : Will과 Conjugate_Prior의 답변에 감사하지만 지금은 질문을 해결하지 않은 채로두고 있지만 더 구체적이고 기술적 인 피드백을 기대하고 있습니다.
아래 산포도는 두 변수가 존재하는 10,000 개의 경우에 두 변수가 어떻게 관련되는지에 대한 아이디어를 제공합니다. 그들은 100 개 이상의 학교에 중첩되어 있습니다. 0.78, 학생의 답변-평균 : 5.12 sd = 2.05, 엄마의 답변, 평균 = 5.02, sd = 1.92에 상관합니다. 학생의 답변은 약 15 %의 사례에서 누락되었습니다.