회귀 : 변수 변환

변수를 변환 할 때 동일한 변환을 모두 사용해야합니까? 예를 들어 다음과 같이 다르게 변형 된 변수를 선택하고 선택할 수 있습니까?

을 연령, 고용 기간, 거주 기간 및 소득 이라고합시다 . $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

아니면 변환과 일치해야하고 모두 동일하게 사용해야합니까? 에서처럼 :

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

저의 이해는 변혁의 목표는 정상 문제를 해결하는 것입니다. 각 변수의 히스토그램을 살펴보면 분포가 매우 다른 것을 알 수 있으므로 변수에 따라 필요한 변환이 변수마다 다르다고 믿게됩니다.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

대체 텍스트

$\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

대체 텍스트

r regression logistic data-transformation

— 브랜든 베르 텔슨
소스

하나는 종속 변수를 변환하여 잔차 의 근사 대칭 및 동질성 을 달성 합니다 . 독립 변수의 변환은 다른 목적을 갖습니다. 결국,이 회귀에서 모든 독립 값은 무작위가 아닌 고정 된 것으로 간주되므로 "정규"는 적용 할 수 없습니다. 이러한 변환의 주요 목표 는 종속 변수 (또는 실제로는 로짓)와 선형 관계 를 달성하는 것 입니다. (이 목표는 초과 레버리지 감소와 같은 보조 목표보다 우선 합니다.이러한 관계는 데이터의 속성과 데이터를 생성 한 현상이므로 각 변수의 적절한 표현을 다른 변수와 별도로 선택할 수있는 유연성이 필요합니다. 특히, 로그, 루트 및 역수를 사용하는 것은 문제가되지 않을뿐만 아니라 일반적입니다. 원칙적으로 데이터가 원래 표현되는 방식에 특별한 것이 없기 때문에 데이터가 효과적이고 정확하며 유용하며 (가능한 경우) 이론적으로 정당화 된 모델로 이어지는 재 표현을 제안하도록해야합니다.

일 변량 분포를 반영하는 히스토그램은 종종 초기 변환을 암시하지만 분산 적이지는 않습니다. 산점도 행렬과 함께 모든 변수 간의 관계를 조사 할 수 있습니다.

$\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$ 그렇지 않으면 0입니다. 이 용어는 합계에 기여

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

$x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

— 우버
소스

내 질문에 대한 지시와 세부 사항에 감사드립니다.

— Brandon Bertelsen

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002)은 분포에서 최소값을 정확히 1.0으로 고정 할 것을 권장합니다. pareonline.net/getvn.asp?v=8&n=6

— Chris

1

$1$

1

$1$

내가 작업하고있는 데이터 세트 중 하나에서 종속 응답 변수를 1로 고정하고 상자 콕스 변환을 사용하여 왜곡을 제거하면 결과 변환이 약화되어 비판에 대한 신뢰가 약화되었습니다. ;)

— Chris

β_{0}

$\beta_0$

z_{x}

$z_x$