변수를 변환 할 때 동일한 변환을 모두 사용해야합니까? 예를 들어 다음과 같이 다르게 변형 된 변수를 선택하고 선택할 수 있습니까?
을 연령, 고용 기간, 거주 기간 및 소득 이라고합시다 .
Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)
아니면 변환과 일치해야하고 모두 동일하게 사용해야합니까? 에서처럼 :
Y = B1*log(x1) + B2*log(x2) + B3*log(x3)
저의 이해는 변혁의 목표는 정상 문제를 해결하는 것입니다. 각 변수의 히스토그램을 살펴보면 분포가 매우 다른 것을 알 수 있으므로 변수에 따라 필요한 변환이 변수마다 다르다고 믿게됩니다.
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav",
use.value.labels=T, to.data.frame=T)
hist(df[1:7])
## R Code
plot(df[1:7])