선형 회귀 분석에서 표준화 된 설명 변수를 사용하는시기와 방법


37

선형 회귀에 대한 두 가지 간단한 질문이 있습니다.

  1. 설명 변수를 표준화하는 것이 언제 권장됩니까?
  2. 일단 표준화 된 값으로 평가를 수행하면 새로운 값으로 어떻게 예측할 수 있습니까 (새로운 값을 어떻게 표준화해야합니까)?

일부 참조가 도움이 될 것입니다.


3
소프트웨어가 제대로 작성되면 수치 정밀도 문제를 피하기 위해 내부적으로 자동으로 표준화됩니다. 특별한 것을 할 필요는 없습니다.
whuber

1
다음 스레드는 관련이 있으며 관심이있을 것입니다. 데이터를 언제 중심에두고 언제 표준화해야합니까? .
gung-Monica Monica 복원

답변:


26

용어는 논쟁의 여지가 있지만 "설명"변수, "예측 자"변수라고 부르는 것을 선호합니다.

예측 변수를 표준화 할시기 :

  • 다중 선형 회귀 분석을 수행하기위한 많은 소프트웨어는 예측 변수와 반응 변수를 수동으로 표준화하는 표준화되지 않은 계수와 동등한 표준화 된 계수를 제공합니다 (물론, 예측 변수 표준화에 대해서만 말하는 것처럼 들립니다).
  • 제 생각에는 표준화는 회귀 방정식을보다 의미있게 만드는 유용한 도구입니다. 변수의 메트릭이 회귀 방정식을 해석하는 사람에게 의미가없는 경우 (예 : 임의의 메트릭의 심리적 척도)에 특히 그렇습니다. 또한 예측 변수의 상대적 중요성 비교를 용이하게하는 데 사용될 수 있습니다 (상대적 중요성을 평가하기위한 다른 더 정교한 접근 방법이 존재하지만 토론에 대한 내 게시물 참조 ). 메트릭이 회귀 방정식을 해석하는 사람에게 의미가있는 경우 표준화되지 않은 계수가 종종 더 유익합니다.
  • 또한 표준화 된 변수에 의존하는 것은 독자에게 변수의 메트릭을 더 의미있게 만드는 방법에 대해 생각하지 않았다는 사실에서 주목을 끌 수 있다고 생각합니다.

  • Andrew Gelman은이 주제에 대해 공정한 의견을 가지고 있습니다. 예를 들어 표준화에 대한 그의 페이지 와 특히 Gelman (2008, Stats Med, 무료 PDF) 을 참조하십시오.

표준화에 따른 예측 :

  • 예측에 표준화 된 회귀 계수를 사용하지 않습니다.
  • 원래 표본에서 예측 변수의 평균 및 표준 편차를 알고있는 경우 항상 표준화 된 계수를 표준화되지 않은 계수로 변환 할 수 있습니다.

3
+1이지만 예측에 표준화되지 않은 회귀 계수를 사용하지 않는 이유는 무엇입니까?
onestop

1
(+1) 변수의 중요성을 평가하는 것에 관해, relaimpo R 패키지가 잘 작동 한다고 생각합니다 (그러나 현대적인 회귀 접근 방법 시작하기 참조 ). 지배력 분석에 대한 David V. Budescu 의 멋진 논문도있었습니다 (요청시 무료로 제공).
chl

@onestep 죄송합니다. 오식. 지금 바뀌 었습니다.
Jeromy Anglim

1
@Jeromy, 예측에 표준화 된 회귀 계수를 사용하지 않는 이유에 대해 자세히 설명해 주시겠습니까?
Michael Bishop

3
@MichaelBishop 나는 회귀 모델을 가져 와서 샘플 데이터를 예측하기 위해 적용하는 컨텍스트를 생각하고 있습니다. 일반적으로 표준화되지 않은 예측을 원할 것입니다. 또한 평균과 표준 편차는 샘플마다 다를 수 있습니다. 따라서 표준화되지 않은 예측 변수를 사용하면 더 의미있는 결과를 제공해야합니다.
Jeromy Anglim

-4

짧은 답변 반죽으로 답장을 드리겠습니다. 이전에 작성된 훌륭한 답변과 겹칠 수 있습니다.

  1. 회귀 분석, 특히 회귀 계수를 더 잘 해석 할 수 있도록 항상 표준화하십시오.

  2. 표준화되지 않은 새 데이터의 경우 최대 및 최소와 같이 표준화 할 각 변수에 사용한 값을 저장 한 다음 홀 데이터 세트에서 수행 한 것과 동일한 변환을 수행하는 것이 좋습니다. 단일 인스턴스.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.