제 질문은 로지스틱 회귀를 맞추기 전에 모든 변수가 [0,1] 사이에서 동일한 척도를 갖도록 데이터 세트를 표준화해야한다는 것입니다. 공식은 다음과 같습니다.
내 데이터 세트에는 2 개의 변수가 있으며 두 채널에 대해 동일한 것을 설명하지만 볼륨이 다릅니다. 두 상점의 고객 방문 횟수라고 가정하면 여기에서 고객의 구매 여부가 결정됩니다. 고객은 구매하기 전에 두 상점 또는 두 번째 상점을 방문 할 수 있기 때문에 두 번째 상점을 방문 할 수 있습니다. 그러나 첫 번째 상점에 대한 총 고객 방문 수는 두 번째 상점보다 10 배 더 큽니다. 표준화없이이 로지스틱 회귀 분석에 적합 할 때 coef(store1)=37, coef(store2)=13
; 데이터를 표준화하면 coef(store1)=133, coef(store2)=11
. 이 같은. 어떤 접근법이 더 합리적입니까?
의사 결정 트리 모델을 피팅하면 어떻게됩니까? 모델 자체가 어떻게 든 조정되므로 트리 구조 모델은 표준화가 필요하지 않습니다. 그러나 당신 모두와 함께 확인하십시오.
C
변경됩니다. 따라서 C
데이터를 표준화 한 후에 선택해야합니다 .