모든 독립 변수 (약 400 개)가 더미 변수 인 큰 OLS 회귀 분석을 실행 중입니다. 모든 것이 포함되면 완벽한 다중 공선 성 (더미 변수 트랩)이 있으므로 회귀를 실행하기 전에 변수 중 하나를 생략해야합니다.
첫 번째 질문은 어떤 변수를 생략해야합니까? 몇 개만있는 것보다는 많은 관측치에있는 변수를 생략하는 것이 좋습니다 (예 : 거의 모든 관찰이 "남성"또는 "여성"이고 일부만 "알 수없는 경우" ","male "또는"female "을 생략하십시오. 이것이 정당한가?
변수가 생략 된 상태에서 회귀를 실행 한 후 모든 독립 변수의 전체 평균이 0이어야한다는 것을 알기 때문에 생략 된 변수의 계수 값을 추정 할 수 있습니다. 따라서이 사실을 사용하여 모든 포함 된 변수 및 생략 된 변수에 대한 추정값을 얻습니다. 다음 질문은 생략 된 변수의 계수 값에 대한 표준 오차를 추정하는 데 사용할 수있는 유사한 기술이 있는지 여부입니다. 원래 생략 된 변수의 계수에 대한 표준 오차 추정치를 얻으려면 다른 변수를 생략하고 회귀를 다시 실행해야합니다 (첫 번째 회귀에서 생략 한 변수 포함).
마지막으로, (0을 중심으로 다시 중심을 둔 후) 얻는 계수 추정치가 생략되는 변수에 따라 약간 다릅니다. 이론적으로, 각각 다른 변수를 생략하고 여러 회귀 분석을 실행하고 모든 회귀 분석에서 계수 추정치를 평균하는 것이 더 좋을까요?