답변:
이동 / 확장 변수는 반응과의 상관 관계에 영향을 미치지 않습니다
이것이 사실 인 이유를 보려면 와 의 상관 관계 가 라고 가정하십시오 . 그러면 와 의 상관 관계 는
이것은 상관 관계의 정의 와 세 가지 사실에 따른 것입니다.
따라서 선형 적합 회귀 계수는 변수 간의 상관 관계와 관련되어 있으므로 모형 적합 (예 : 또는 적합 값) 측면에서 변수를 이동하거나 크기를 조정 (예 : 동일한 척도로 설정)하면 모형이 변경되지 않습니다 . 회귀 계수의 척도 만 변경하므로 예측 변수를 변환하기로 선택한 경우 출력을 해석 할 때 명심해야합니다.
편집 : 위의를 사용하여 일반 회귀에 대해 얘기하고 있다고 가정하고있다 와 절편. 이것과 관련된 몇 가지 점이 더 있습니다 (@ cardinal 덕분에).
변수를 변환 할 때 절편이 변경 될 수 있으며 주석에서 @cardinal이 지적했듯이 모형에서 절편을 생략하면 변수를 이동할 때 계수가 변경됩니다. 정당한 이유가 있습니다 (예 : 이 답변 참조 ).
어떤 방식으로 계수를 정규화하는 경우 (예 : 올가미, 능선 회귀) 중심 맞춤 / 확장이 적합에 영향을줍니다. 예를 들어, (능선 회귀 페널티)에 벌을 부과하는 경우 모든 변수가 처음에 같은 척도에 있지 않으면 표준화 후 동등한 적합을 복구 할 수 없습니다. 동일한 페널티를 회복 할 상수 배수는 없습니다.
연구원이 예측 인을 변형시키고 싶을 때 / 이유에 관하여
일반적인 상황 (@Paul의 후속 답변에서 논의 됨)은 모든 계수가 동일한 척도에 있도록 연구원이 예측 변수 를 표준화 한다는 것입니다. 이 경우, 점 추정치의 크기는 예측 변수의 숫자 크기가 표준화되면 예측 변수가 가장 큰 효과에 대한 대략적인 아이디어를 제공 할 수 있습니다.
연구원이 매우 큰 변수를 스케일링하려는 또 다른 이유는 회귀 계수가 매우 작은 스케일이 아니기 때문입니다. 예를 들어 범죄율에 대한 국가 인구 규모의 영향을 살펴 보려면 (더 나은 예는 생각할 수 없음) 계수가 있기 때문에 원래 단위가 아닌 수백만 단위로 인구 규모를 측정 할 수 있습니다. 과 같은 것일 수 있습니다 .
소위 "정규화"는 대부분의 회귀 분석법에 대한 일반적인 루틴입니다. 두 가지 방법이 있습니다.
선형 회귀는 변수 범위에 매우 민감 하므로 의존성에 대한 사전 지식이없고 모든 변수가 상대적으로 중요 할 것으로 예상되는 경우 일반적으로 모든 변수 를 정규화 하는 것이 좋습니다 .
반응 변수는 그다지 중요하지 않지만 반응 변수도 마찬가지입니다.
정규화 또는 표준화를 수행하는 이유는 무엇입니까? 대부분 모델에서 다른 변수의 상대적인 영향을 결정하기 위해 모든 변수가 동일한 단위에있는 경우 달성 할 수 있습니다.
도움이 되었기를 바랍니다!
x1,x2,y
이 두 명령 : summary(lm(y~x1+x2))$r.sq
와 summary(lm(y~scale(x1)+scale(x2)))$r.sq
-계수를 표준화하지 않았을 때의 값과 동일한 값을 제공하면 동등한 적합을 나타냅니다.