회귀 : 변수 변환


41

변수를 변환 할 때 동일한 변환을 모두 사용해야합니까? 예를 들어 다음과 같이 다르게 변형 된 변수를 선택하고 선택할 수 있습니까?

을 연령, 고용 기간, 거주 기간 및 소득 이라고합시다 .x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

아니면 변환과 일치해야하고 모두 동일하게 사용해야합니까? 에서처럼 :

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

저의 이해는 변혁의 목표는 정상 문제를 해결하는 것입니다. 각 변수의 히스토그램을 살펴보면 분포가 매우 다른 것을 알 수 있으므로 변수에 따라 필요한 변환이 변수마다 다르다고 믿게됩니다.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

대체 텍스트

log(xn+1)xn00

## R Code 
plot(df[1:7])

대체 텍스트

답변:


59

하나는 종속 변수를 변환하여 잔차 의 근사 대칭동질성 을 달성 합니다 . 독립 변수의 변환은 다른 목적을 갖습니다. 결국,이 회귀에서 모든 독립 값은 무작위가 아닌 고정 된 것으로 간주되므로 "정규"는 적용 할 수 없습니다. 이러한 변환의 주요 목표 는 종속 변수 (또는 실제로는 로짓)와 선형 관계 를 달성하는 것 입니다. (이 목표는 초과 레버리지 감소와 같은 보조 목표보다 우선 합니다.이러한 관계는 데이터의 속성과 데이터를 생성 한 현상이므로 각 변수의 적절한 표현을 다른 변수와 별도로 선택할 수있는 유연성이 필요합니다. 특히, 로그, 루트 및 역수를 사용하는 것은 문제가되지 않을뿐만 아니라 일반적입니다. 원칙적으로 데이터가 원래 표현되는 방식에 특별한 것이 없기 때문에 데이터가 효과적이고 정확하며 유용하며 (가능한 경우) 이론적으로 정당화 된 모델로 이어지는 재 표현을 제안하도록해야합니다.

일 변량 분포를 반영하는 히스토그램은 종종 초기 변환을 암시하지만 분산 적이지는 않습니다. 산점도 행렬과 함께 모든 변수 간의 관계를 조사 할 수 있습니다.


log(x+c)cxlog(x)xzxxx=0그렇지 않으면 0입니다. 이 용어는 합계에 기여

βlog(x)+β0zx

x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)


1
내 질문에 대한 지시와 세부 사항에 감사드립니다.
Brandon Bertelsen

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002)은 분포에서 최소값을 정확히 1.0으로 고정 할 것을 권장합니다. pareonline.net/getvn.asp?v=8&n=6
Chris

1
11

1
내가 작업하고있는 데이터 세트 중 하나에서 종속 응답 변수를 1로 고정하고 상자 콕스 변환을 사용하여 왜곡을 제거하면 결과 변환이 약화되어 비판에 대한 신뢰가 약화되었습니다. ;)
Chris

1
β0zx
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.