R이 NA를 lm () 계수로 반환하는 이유는 무엇입니까?


32

나는 피팅하고있다 lm()(Q4에게 기본을, Q1, Q2, Q3) 금융 분기 지표를 포함하는 데이터 세트에 모델. 사용 lm(Y~., data = data) 내가 얻을 NAQ3에 대한 계수, 하나 개의 변수가 있기 때문에 특이성의 제외 것을 경고한다.

Q4 열을 추가해야합니까?

답변:


39

회귀 계수로 NA는 문제의 변수가 다른 변수와 선형으로 관련되어 있음을 나타냅니다. 귀하의 경우 이는 일부 a , b , c에 대해 입니다 . 이 경우 변수 중 하나를 삭제하지 않고 회귀에 대한 고유 한 솔루션이 없습니다. Q 4를 추가하면 문제가 악화 될뿐입니다.=에이×1+×2+기음에이,,기음4


1
동의합니다 ... 더미 변수 정의에 문제가있는 것 같습니다.
Dominic Comtois

14
(+1). NA는 일반적으로 계수를 추정 할 수 없음을 의미합니다. 이것은 앞에서 언급했듯이 정확한 공선 성으로 인해 발생할 수 있습니다. 그러나 관련 파라미터를 추정하기에 충분한 관측치가 없기 때문에 발생할 수도 있습니다 (예 : ). 예측 변수가 범주 형이고 교호 작용 항을 추가하는 경우 NA는 요인의 조합 수준에 대한 관측치가 없음을 의미 할 수도 있습니다. p>n
매크로

2
p>

Q3 = 1 iff Q1 = Q2 = 0이므로 변수는 선형 적으로 관련이 없습니다. 또한 stepAIC ()을 사용하고 모델에 세 변수를 모두 강제로 포함 시키면 문제가 발생하지 않습니다. 또한 변수에 대한 관측치의 약 3 배입니다. 가장 좋은 추측은 Q3와 다른 변수 사이에 공선 성이 있다는 것입니다. 이것은 stepAIC에 포함되지 않은 것입니다.
Fraijo April
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.