표본 크기가 다른 그룹 평균을 기반으로하는 예측 변수가있는 경우 어떻게해야합니까?


14

당신은 결과가 어디 고전적인 데이터 분석 문제를 고려 Yi 그리고 그것은 예측의 수와 관련되는 방법 Xi1,...,Xip . 여기서 염두에 두어야 할 기본 응용 프로그램 유형은

  1. Yi 는 도시 의 범죄율과 같은 그룹 수준의 결과 입니다.i

  2. 예측 변수는 도시 인구 통계 학적 특징과 같은 그룹 레벨 특성 입니다.i

기본 목표는 회귀 모델을 맞추는 것입니다 (아마 임의 효과가 있지만 지금은 잊어 버립니다).

E(Yi|Xi)=β0+β1Xi1+...+βpXip

예측기 중 하나 이상이 각 단위에 대해 서로 다른 표본 크기를 가진 측량의 결과 일 때 약간의 기술적 어려움이 발생합니까? 예를 들어, 가정 도시에 대한 요약 점수 인 도시에서 개인의 샘플에서 평균 응답입니다 하지만 샘플이 평균의 기반이되었다 크기는 격렬하게 다르다 :Xi1ii

CitySample size120210033004553

예측 변수는 각 도시마다 같은 의미를 갖지 않기 때문에 회귀 모델에서 이러한 변수를 조건부로 조정하면 마치 "평등하게"만들어지는 것처럼 오해의 소지가있을 수 있습니다.

이 유형의 문제에 대한 이름이 있습니까? 그렇다면이를 처리하는 방법에 대한 연구가 있습니까?

내 생각은 그것을 오류로 측정 된 예측 변수로 취급 하고이 선을 따라 무언가를 수행하지만 측정 오류에는 이분산성이 있으므로 매우 복잡합니다. 나는 이것을 잘못된 방식으로 생각하거나 더 복잡하게 만들 수 있지만 여기서 논의하면 도움이 될 것입니다.


8
이를 "이 분산 오류 ​​변수"문제라고합니다. (이 문구는 Google 검색의 좋은 목표입니다.) 최근 Delaigle과 Meister는 JASA 기사 에서 비모수 적 커널 밀도 추정기를 제안했습니다 . 일부 파라 메트릭 방법 (모멘트 및 MLE)에 대한 요약은 sciencedirect.com/science/article/pii/S1572312709000045 와 같은 추가 접근 방식을 제안 합니다. (특정 데이터 세트를 처리하는 방법에 대한 권위있는 답변을 제공 할 수있는 연구에 익숙하지 않습니다.)
whuber

1
두 의견 모두 @whuber +1입니다. '변수 오류'는 내가 찾던 키워드가 누락 된 것 같습니다. 아래에서 아무도 받아 들일 수있는 강력한 답변을 제공하지 않으면 문헌을 살펴보고 내가 답변으로하는 모든 일을 다시 게시 할 것입니다.
매크로

답변:



0

이를 해결하는 한 가지 방법은 모든 도시 에 개별 반응에 대해 동일한 분산 를 갖는 분포가 있다고 가정하는 것 입니다. 그런 다음 예측 변수에 대한 각 도시의 평균 측정 X i 는 분산 σ 2 / n i를 가지며 , 여기서 n i 는 도시 i 에 대한 평균의 개인 수입니다 . 그것은 이분산성을 다루는 간단한 방법 일 것입니다. 이 형태의 회귀 문제에 대한 특별한 이름을 모르겠습니다.σ2Xiσ2/ninii


측정 오차를 전혀 모델링하지 않기를 바랐지만 합리적인 것으로 보입니다. 내가 그 방향으로 가면, 오차로 측정 된 예측 변수의 효과를 추정하기 위해 무엇을 사용 하시겠습니까? SIMEX라는 하나의 방법을 사용했지만 이것은 드문 것 같으며 다른 옵션이 있는지 궁금합니다.
매크로

@ 매크로 나는 분산 함수로 추정하는 회귀 모델링을위한 특정 소프트웨어에 익숙하지 않다.
Michael R. Chernick

3
가변성 오차-회귀 오류 회귀 분석의 경험상 매크로는 IV의 오류가 DV의 오류에 비해 작 으면 전자를 무시하고 일반 회귀에 의존 할 수 있습니다. 이를 통해 문제를 신속하고 간단하게 분류 할 수 있습니다.
whuber

1
@ whuber, 감사합니다-유용합니다. 만약 경험 법칙이 이치에 맞다면 이분법적인 경우에 "IV에서 가장 큰 오차 분산이 DV의 오차 분산에 비해 작 으면 문제를 무시해도됩니다"를 사용하는 것이 합리적 일 것입니다. 내가보고있는 데이터에서 실제로 충족 될 수있는 조건 인 합리적인 경험 법칙.
매크로

1
σ211/(.05,1)Yi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.