선형 회귀 분석에서 왜 절편을 억제합니까?


20

SAS, SPSS 등을 포함한 여러 통계 패키지에는 "절편을 억제"하는 옵션이 있습니다. 왜 그렇게 하시겠습니까?

답변:


16

어떤 이유로 인터셉트 를 알고 있다면 (특히 0 인 경우) 이미 알고있는 것을 추정하기 위해 데이터의 분산을 낭비 하지 않고 추정해야하는 값에 대해 더 많은 확신을 가질 수 있습니다.

다소 단순화 된 예는 하나의 변수가 (평균적으로) 한 변수가 다른 변수의 배수라는 것을 이미 알고있는 경우입니다 (여러 개를 찾으려고 시도하는 경우).


나는 그것을 완전히 이해하지 못하지만 R에서 만드는 모델에는 b와 c 사이의 상호 작용을 생성하고 절편 ( "-1")을 억제함으로써 lm (a ~ b / c-1)과 같은 것이 있습니다. R)에서는 인터셉트를 억제하지 않는 것과 본질적으로 동일한 해석하기 쉬운 대답을 얻습니다. 어떻게 든 상호 작용이 가능해집니다.
Wayne

본질적으로 동일한 더 쉽게 해석 가능한 답변? 모순되는 것 같습니다. 어쩌면 이것을 새로운 질문으로 소개해야할까요?
Nick Sabbe

내가 계수를 보면, 절편을 가진이 (절편)tempwarmer을 (내 변수 중 하나는 온도 될 수 있습니다 따뜻한 또는 쿨러 ). 계수를 해석하려면 (절편)tempcooler 와 직접 일치 하고 tempwarmer + (절편) 이 직접 해석 가능한 tempwarmer임을 알아야 합니다. 차단을 억제하면 tempcoolertempwarmer가 직접 표시됩니다. 아마도 R의 공식과 선형 모델링의 단점 일지 모르지만 ...
Wayne

12

3 단계 범주 형 공변량의 경우를 고려하십시오. 인터셉트가있는 경우 2 개의 표시기 변수가 필요합니다. 지표 변수에 대해 일반적인 코딩을 사용하면 지표 변수에 대한 계수는 참조 그룹과 비교 한 평균 차이입니다. 절편을 억제하면 범주 공변량을 나타내는 3 개의 변수가 2가 아닌 2가됩니다. 계수는 해당 그룹의 평균 추정치입니다. 이 작업을 수행 할 수있는보다 구체적인 예는 미국의 50 개 주를 연구 할 수있는 정치학입니다. 상태에 대한 절편 및 49 개의 지표 변수를 갖는 대신, 절편을 억제하고 대신 50 개의 변수를 갖는 것이 종종 바람직합니다.


훨씬 쉽게 계수를 해석하는 그런 식으로
probabilityislogic

1
예, 그러나 둘 이상의 범주 형 변수로 분류됩니다!
kjetil b halvorsen

2

@Nick Sabbe의 요점을 구체적인 예로 설명합니다.

한때 연구원이 폭의 함수로 나무의 나이 모델을 제시하는 것을 보았습니다. 나무의 나이가 0 일 때 효과적으로 너비가 0이라고 가정 할 수 있습니다. 따라서 인터셉트가 필요하지 않습니다.


8
그 지혜 또는 부족은 종속 관심 변수의 범위에 달려 있습니다. 속도와 정지 거리가있는 자동차 브레이크 데이터를 고려하십시오. 절편 유무에 관계없이 2 차 모형을 적합 할 수 있습니다. 관심있는 속도는 일반적으로 약 50km / hr에서 시작하여 130km / hr로 올라갑니다. 이 경우 절편에 2 차법 적용 하면 절편을 0으로 강제하는 것은 (실제적으로) 중대한 적합성 결여 문제가 발생할 수 있기 때문에 더 의미가 있다고 생각합니다. 정지 된 자동차의 "제동 거리"가 0이라는 사실은 현재 모델링 문제와 관련이 없습니다.
추기경

@ cardinal yes 나는 비슷한 점을 만들어야하는지 궁금합니다. 비선형 회귀 모델링 컨텍스트에서 데이터의 범위를 정확하게 예측할 수없는 이론적으로 그럴듯한 모델을 제공하는 모델에 더 큰 관심이 있음을 발견했습니다 (예 : 곡선 데이터 속도 학습에서 모델은 0 초 미만의 속도를 예측해서는 안 됨) ). 이러한 경우, 인터셉트를 0으로 제한하면 데이터 예측이 저하 되더라도 더 적절할 수 있습니다.
Jeromy Anglim

@cardinal 나는 다항식 모델이 데이터의 범위 밖에서 그럴듯하게 예측하는 경우가 거의 없다는 것에 동의한다. 따라서 그러한 모델에서 절편을 0으로 제한하는 것은 좋은 생각이 아니다.
Jeromy Anglim

귀하의 의견에 감사드립니다. 내 말은 다항식 모델을 목표로하지 않았습니다. 2 차법의 선택은 단순히 실제 물리적 동기 (즉, 고전 역학)에 기초합니다. 내가 분명히 말하려는 요점은 관심있는 모델링 문제를 신중하게 고려해야한다는 것이었다. 때때로 "이론적으로 정당화되지 않은"것을하는 것이 실제로 통계적으로 더 적절하다.
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.