더미 변수 트랩 문제


10

모든 독립 변수 (약 400 개)가 더미 변수 인 큰 OLS 회귀 분석을 실행 중입니다. 모든 것이 포함되면 완벽한 다중 공선 성 (더미 변수 트랩)이 있으므로 회귀를 실행하기 전에 변수 중 하나를 생략해야합니다.

첫 번째 질문은 어떤 변수를 생략해야합니까? 몇 개만있는 것보다는 많은 관측치에있는 변수를 생략하는 것이 좋습니다 (예 : 거의 모든 관찰이 "남성"또는 "여성"이고 일부만 "알 수없는 경우" ","male "또는"female "을 생략하십시오. 이것이 정당한가?

변수가 생략 된 상태에서 회귀를 실행 한 후 모든 독립 변수의 전체 평균이 0이어야한다는 것을 알기 때문에 생략 된 변수의 계수 값을 추정 할 수 있습니다. 따라서이 사실을 사용하여 모든 포함 된 변수 및 생략 된 변수에 대한 추정값을 얻습니다. 다음 질문은 생략 된 변수의 계수 값에 대한 표준 오차를 추정하는 데 사용할 수있는 유사한 기술이 있는지 여부입니다. 원래 생략 된 변수의 계수에 대한 표준 오차 추정치를 얻으려면 다른 변수를 생략하고 회귀를 다시 실행해야합니다 (첫 번째 회귀에서 생략 한 변수 포함).

마지막으로, (0을 중심으로 다시 중심을 둔 후) 얻는 계수 추정치가 생략되는 변수에 따라 약간 다릅니다. 이론적으로, 각각 다른 변수를 생략하고 여러 회귀 분석을 실행하고 모든 회귀 분석에서 계수 추정치를 평균하는 것이 더 좋을까요?


"내 독립 변수의 전체 평균이 0이어야 함"과 그 의미를 어떻게 알 수 있습니까?
onestop

기본적으로 평균 (모든 변수의 평균)을 기준으로 모든 변수를 평가하려고합니다. 회귀의 계수는 생략 된 변수에 상대적입니다. 따라서 각 계수 값에서 모든 계수 (생략 된 변수의 계수 0 포함)의 평균을 빼면 조정 된 값은 평균 0이되고 각 계수 값은 평균으로부터의 거리로 볼 수 있습니다.
James Davison

답변:


8

어떤 변수를 생략하든 "동일한"추정값을 가져와야합니다. 계수는 다를 수 있지만 특정 양 또는 추정 기대는 모든 모델에서 동일해야합니다.

간단한 경우 남성 은 , 여성은 0으로 설정하십시오. 그런 다음 이제 여자들 이라고하자 . 그런 다음 여성 의 예상 값 은 이고 입니다. 남성의 경우xi=1

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
zi=1
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
yβ0γ0+γ1β0+β1그리고 .γ0

이 결과는 두 모델의 계수가 어떻게 관련되어 있는지 보여줍니다. 예를 들어 입니다. 데이터를 사용하는 비슷한 운동은 당신이 얻는 "다른"계수는 단지 합과 차이라는 것을 보여줍니다.β1=γ1


4

제임스, 왜 회귀 분석이 아닌 ANOVA 가 아닌가 (이러한 분석에는 많은 전문가들이 도움이 될 수 있습니까?) 분산 분석 의 장점 은 실제로 관심있는 모든 것은 더미 변수 (고유 범주 또는 프로파일)의 조합으로 설명되는 다른 그룹의 평균 차이라는 것입니다. 포함하는 각 범주 형 변수의 영향을 연구하면 회귀 분석을 실행할 수도 있습니다.

여기에있는 데이터 유형은 공동 분석 의 의미로 설명됩니다 . 각각 여러 범주가있는 객체의 많은 속성 (성별, 연령, 교육 등)을 설명합니다. 따라서 단순히 최대 프로파일을 생략합니다. 하나의 더미 변수. (이 다음과 같이 일반적인 방법은 코드에 속성 내에서 범주입니다 링크 , 유용 할 수 있습니다 당신은 아마 여기 컨 조인트 분석을 수행하지 않지만, 코딩과 유사) : 당신이 생각 카테고리 (세, 당신이 제안, 남성, 여성 , 알 수 없음), 처음 두 개는 평소와 같이 코딩됩니다. 두 인형 (남성, 여성)을 포함하여 남성의 경우 , 여성의 경우 및n(1,0)(0,1)(1,1)알 수없는 경우. 이런 식으로 결과는 실제로 절편 항 주위에 배치됩니다. 그러나 다른 방식으로 코딩 할 수 있지만 언급 된 해석 이점을 잃게됩니다. 요약하면 각 범주 에서 하나의 범주를 삭제 하고 설명 된 방식으로 관측치를 코딩합니다. 인터셉트 용어도 포함합니다.

가장 큰 프로파일의 범주를 생략하는 것이 나에게는 좋지만, 중요하지는 않지만 적어도 비어있는 것은 아닙니다. 변수를 특정 방식으로 코딩하기 때문에 포함 된 더미 변수 (남녀 모두, F 검정으로 테스트 할 수 있음)의 공동 통계적 유의성은 생략 된 변수의 의미를 의미합니다.

결과가 약간 다를 수 있지만 이에 영향을 미치는 잘못된 코딩 일 수 있습니까?


내 글이 명확하지 않은 경우 구걸을 용서하십시오. 리투아니아에서는 자정입니다.
Dmitrij Celov

왜 (0,0) 대신 알 수없는 (-1, -1)입니까?
siamii

1

분석의 정확한 특성을 모르고 효과 코딩을 고려 했습니까? 이런 식으로 각 변수는 특정 생략 된 범주가 아닌 해당 특성 / 속성의 영향 대 전체 대 평균의 효과를 나타냅니다. 카테고리 / 속성 중 하나 (-1에 할당 한 계수)에 대한 계수가 여전히 누락 된 것으로 판단됩니다. 그럼에도 불구하고,이 많은 인형들과 함께, 나는 큰 평균이 특정 생략 범주보다 더 의미있는 비교 그룹을 만들 것이라고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.