로지스틱 회귀를 맞추기 전에 표준화가 필요합니까?


39

제 질문은 로지스틱 회귀를 맞추기 전에 모든 변수가 [0,1] 사이에서 동일한 척도를 갖도록 데이터 세트를 표준화해야한다는 것입니다. 공식은 다음과 같습니다.

ximin(xi)max(xi)min(xi)

내 데이터 세트에는 2 개의 변수가 있으며 두 채널에 대해 동일한 것을 설명하지만 볼륨이 다릅니다. 두 상점의 고객 방문 횟수라고 가정하면 여기에서 고객의 구매 여부가 결정됩니다. 고객은 구매하기 전에 두 상점 또는 두 번째 상점을 방문 할 수 있기 때문에 두 번째 상점을 방문 할 수 있습니다. 그러나 첫 번째 상점에 대한 총 고객 방문 수는 두 번째 상점보다 10 배 더 큽니다. 표준화없이이 로지스틱 회귀 분석에 적합 할 때 coef(store1)=37, coef(store2)=13; 데이터를 표준화하면 coef(store1)=133, coef(store2)=11. 이 같은. 어떤 접근법이 더 합리적입니까?

의사 결정 트리 모델을 피팅하면 어떻게됩니까? 모델 자체가 어떻게 든 조정되므로 트리 구조 모델은 표준화가 필요하지 않습니다. 그러나 당신 모두와 함께 확인하십시오.


10
회귀가 정규화되지 않으면 표준화 할 필요가 없습니다. 그러나 때로는 해석 가능성에 도움이되며 거의 아프지 않습니다.
alex

3
\ frac {x_i- \ bar {x}} {sd (x)} 를 표준화하는 일반적인 방법이 xix¯sd(x)아닙니까?
Peter Flom-Monica Monica 복원

1
@ 피터, 그게 내가 생각한 것이지만 기사 benetzkorn.com/2011/11/data-normalization-and-standardization/… >을 찾았습니다. 정규화와 표준화는 다른 것 같습니다. 하나는 평균 0 분산 1을 만드는 것이고 다른 하나는 각 변수의 크기를 재조정하는 것입니다. 내가 혼란스러워하는 곳입니다. 답장을 보내 주셔서 감사합니다.
user1946504

7
나에게 표준화는 해석을 훨씬 어렵게 만든다.
Frank Harrell

2
@alex가 말한 것을 명확히하기 위해 데이터를 확장하면 최적의 정규화 요소가 C변경됩니다. 따라서 C데이터를 표준화 한 후에 선택해야합니다 .
akxlr

답변:


37

로지스틱 회귀 분석에는 표준화가 필요하지 않습니다. 기능 표준화의 주요 목표는 최적화에 사용 된 기술의 수렴을 돕는 것입니다. 예를 들어 Newton-Raphson을 사용하여 가능성을 최대화하는 경우 기능을 표준화하면 수렴 속도가 빨라집니다. 그렇지 않으면 기능에 대한 표준화 처리없이 로지스틱 회귀 분석을 실행할 수 있습니다.


답장을 보내 주셔서 감사합니다. 이것이 표준화가 선호되는 것을 의미합니까? 모델이 수렴되기를 원하고 수백만 개의 변수가있는 경우 필요에 따라 변수를 하나씩 조정하는 것보다 모델링 파이프 라인에서 표준화 논리를 구현하는 것이 더 쉽습니다. 이해하고 있습니까?
user1946504

4
분석의 목적에 따라 다릅니다. 최신 소프트웨어는 표준화하지 않고도 매우 극단적 인 데이터를 처리 할 수 ​​있습니다. 각 변수 (연도, 유로, kg 등)에 대한 자연 단위가있는 경우 표준화를 주저 할 것이지만, 더 의미가있을 때마다 단위를 kg에서 예를 들어 톤 또는 그램으로 자유롭게 바꿀 수 있습니다.
Maarten Buis

19

@Aymen이 맞습니다. 로지스틱 회귀 분석을 위해 데이터를 정규화 할 필요는 없습니다. (보다 일반적인 정보는이 CV 스레드를 읽는 데 도움이 될 수 있습니다. 언제 데이터를 중앙에 배치해야하고 언제 표준화해야합니까? ; 또한 변환을 더 일반적으로 '정규화'라고 합니다. 분포가 정규화 되었습니까? ) 문제의 다른 요점을 설명하겠습니다.

여기서 로지스틱 회귀 분석에서 계수는 '성공'의 로그 확률에 대한 예측 변수의 1 단위 변화 효과를 나타냅니다. 변수를 변환하면 (예 : 표준화 또는 정규화) 모델 컨텍스트에서 '단위'라고 부르는 것을 변경하는 것입니다. 원시 데이터는 원래 측정 항목의 일부 단위에 따라 다릅니다. 정규화 한 후 데이터의 범위는 에서 입니다. 즉, 이제 한 단위의 변경은 가장 낮은 값의 관측치에서 가장 높은 값의 관측치로 이동하는 것을 의미합니다. 성공 로그 확률의 증가량은 변경되지 않았습니다. 이 사실로부터, 첫 번째 변수 ( )가 걸쳐 있다고 생각합니다.x01store1133/373.6원래 단위와 두 번째 변수 ( store2)는 원래 단위에 걸쳐 있습니다. 11/130.85


17

LASSO와 함께 로지스틱 회귀를 사용하거나 Weka Logistic 클래스 와 마찬가지로 능선 회귀를 사용하는 경우 해야합니다. Hastie, Tibshirani 및 Friedman이 지적한 바와 같이 (pdf 82 페이지 또는 책 63 페이지) :

릿지 솔루션은 입력 스케일링에서 등변이 아니므로 해결하기 전에 일반적으로 입력을 표준화합니다.

또한 스레드는 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.