데이터 정규화와 관련된 혼란


9

선형 회귀 모델을 배우려고합니다. 그러나 데이터 정규화와 관련하여 혼란이 있습니다. 기능 / 예측자를 평균 및 단위 분산을 0으로 정규화했습니다. 대상에 대해서도 동일한 작업을 수행해야합니까? 그렇다면 왜?


1
기능 / 예측자를 정규화 한 이유는 무엇입니까?
Peter Flom

4
BTW 나는 '표준화'가 더 나은 용어라고 생각합니다.
Scortchi-복원 모니카

답변:


6

선형 회귀 분석에서 대상을 정규화하는 것은 중요하지 않습니다. 선형 회귀 분석에서

y^i=a0+axi.
예측 변수 xi 가 중심에 있을 때 상수 항 a0 은 항상 y_i 의 평균이 됩니다yi . 따라서 회귀 분석을 실행하기 전에 y_i 를 중앙에 배치yi 하면 a0=0 이되지만 다른 모든 계수는 변경되지 않습니다.

(현재 말한대로 예측 변수를 정규화하는 것이 좋습니다.)


1
예측 변수를 정규화하는 것이 좋은 생각 인 이유는 무엇입니까?
Scortchi-복원 모니카

@ 스테판. 예, 예측 변수를 중앙에 배치하면 상수 항 이 y의 평균이됩니다. 그러나 나는 그것이 어떻게 평균이되는지 얻지 못했습니다. 그 뒤에 수학을 말해 줄 수 있습니까? a0
user34790

2
@Scortchi 예측 변수를 정규화 할 필요는 없지만 회귀의 계수를 더 쉽게 해석 할 수 있습니다. 정규화 후 큰 계수는 중요한 예측 변수에 해당합니다. 또한 정규화가 없으면 상호 작용 항의 계수가 심각하게 오도 될 수 있습니다. 즉, 정규화는 모형에서 얻은 예측에 영향을 미치지 않으므로 회귀 분석의 계수를 해석하려는 경우에만 정규화가 중요합니다.
Stefan Wager


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.