선형성을 달성하기 위해 최상의 변형을 선택하는 방법은 무엇입니까?


10

여러 선형 회귀 분석을 한 다음 외삽이 거의없는 새로운 값을 예측하고 싶습니다. 내 반응 변수는 -2에서 +7까지의 범위와 세 개의 예측 변수 (약 +10-+200 범위)입니다. 분포는 거의 정상입니다. 그러나 반응과 예측 변수 사이의 관계는 선형이 아니며 플롯에서 곡선을 볼 수 있습니다. 예를 들면 다음과 같습니다. http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

선형성을 달성하기 위해 변환을 적용하고 싶습니다. 다른 함수를 확인하고 결과 플롯을보고 응답 변수와 예측 변수 사이의 선형 관계를 확인하여 응답 변수를 변환하려고했습니다. 그리고 나는 눈에 보이는 선형 관계를 줄 수있는 많은 기능이 있음을 발견했습니다. 예를 들어, 함수

t1=log(y+2.5)

t2=1log(y+5)

=1와이+5

4=1(와이+10)

5=1(와이+)1 등도 비슷한 결과를 제공합니다. http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg

예측 된 값을 역변환 ( 경우 등). 분포는 정규과 다소 비슷합니다. y=1=1(와이+10)와이'=1110

데이터에 가장 적합한 변환을 어떻게 선택할 수 있습니까? 선형성을 평가하는 정량적이며 (매우 복잡하지 않은) 방법이 있습니까? 선택한 변환이 최고임을 증명하거나 가능한 경우 자동으로 찾습니다.

아니면 비선형 다중 회귀를 수행하는 것이 유일한 방법입니까?


수식의 형식을 개선하는 데 도움이되었지만 실수가 발생할 수 있습니다. 확인하십시오.
피터 엘리스

너를 안 믿어. 에서 까지는 범위에서 여섯 번째 변수와 선형 관계를 동시에 가질 수 없습니다 . 이러한 변환을 계산하는 데 실수를 한 것 같습니다 . t 5 0 200 y1t50200와이
whuber

1
@ whuber 답변 주셔서 감사합니다. 나는 R cs9579.userapi.com/u17020874/153949434/z_9fa17c02.jpg에 줄거리를 만들었습니다. cs9579.userapi.com/u17020874/153949434/z_7fa6891c.jpg
nadya

2
네가 옳아. y의 광범위한 재발 현이 r과 선형 관계를 유지한다는 것은 놀라운 일입니다. 공유해 주셔서 감사합니다. 잔차를 플로팅하면 가 가장 잘 보이는 것을 알 수 있으며 은 다시 표현할 필요가 없습니다 . r1/(y+5)아르 자형plot(lm(1/(y+5)~r))
whuber

답변:


14

이것은 다소 예술적이지만, 항상 시도 할 수있는 표준적이고 간단한 것들이 있습니다.

가장 먼저해야 할 일은 종속 변수 ( )를 다시 표현 하여 잔차를 정규화하는 것입니다. 이 예에서는 점이 매우 산란되어 부드러운 비선형 곡선을 따라 떨어지는 것처럼 보이는이 예에서는 실제로 적용 할 수 없습니다. 다음 단계로 진행합니다.와이

다음 은 독립 변수 ( )를 다시 표현 하여 관계를 선형화하는 것입니다. 이 작업을 수행하는 간단하고 쉬운 방법이 있습니다. 커브를 따라 세 개의 대표 점을 선택하십시오 (양쪽과 중간). 첫 번째 그림에서 나는 순서 쌍 = , 및 . 이외의 정보 가 항상 양수인 것처럼 보이지 않으면 다양한 전력 대해 Box-Cox 변환 를 탐색하는 것이 좋습니다 . 일반적으로 배수로 선택됩니다 또는 및 일반적으로( R , Y ) ( 10 , 7 ) ( 90 , 0 ) ( 180 , - 2 ) R R ( R P - 1 ) / P (P) 1 / 2 1 / 3 - 1 1 P 0 로그 ( R )아르 자형(아르 자형,와이)(10,7)(90,0)(180,2)아르 자형 아르 자형(아르 자형1)/1/21/1 및 . ( 가 에 접근함에 따라 제한값 은 입니다.)이 변환은 처음 두 점 사이의 기울기가 두 번째 쌍 사이의 기울기와 같으면 대략적인 선형 관계를 만듭니다.10로그(아르 자형)

예를 들어, 형질 전환되지 않은 데이터의 기울기는 - = 및 = . 이것들은 상당히 다릅니다. 하나는 다른 것의 약 4 배입니다. 시도 하면 등 및 : 이제 그 중 하나는 다른 것의 두 배에 불과하므로 개선되었습니다. 이 방식으로 계속하면 (스프레드 시트가 편리함) 이 잘 작동 한다는 것을 알았 습니다. 경사는 이제 및0.088 ( - 2 - 0 ) / ( 180 - 90 ) - 0.022 (P) = - 1 / 2 ( 0 - 7 ) / ( 90 - 1 / 2 - 1(07)/(9010)0.088(20)/(18090)0.022=1/216.632.4p07.36.6y=α+β로그(r)y(07)/(901/211/2101/211/2)16.632.407.36.6거의 같은 값입니다. 따라서 형식의 모델을 시도해야합니다 . 그런 다음 반복하십시오. 선을 맞추고 잔차를 검사하고 의 변형을 식별하여 거의 대칭으로 만들고 반복하십시오.와이=α+β로그(아르 자형)와이

John Tukey는 그의 고전 저서 탐색 데이터 분석 (Addison-Wesley, 1977) 에서 자세한 내용과 예를 제공합니다 . 그는 분산 안정화 변환을 식별하기 위해 유사한 (그러나 약간 더 관련이있는) 절차를 제공 합니다. 그가 운동으로 제공하는 한 샘플 데이터 세트는 다양한 온도에서 측정 된 수은 증기압에 관한 오래된 데이터에 관한 것입니다. 이 절차에 따라 Clausius-Clapeyron 관계 를 재발견 할 수 있습니다 . 최종 맞춤에 대한 잔차는 원자 거리에서 발생하는 양자 역학적 효과로 해석 할 수 있습니다!와이


Box-Cox 변환에 대한 조언을 주셔서 감사합니다. lm (1 / (y + 5) ~ r)의 R- 제곱과 다른 함수의 lm을 확인한 다음 이러한 R- 제곱을 비교하는 것이 이치에 맞습니까?
nadya

는 잔차의 분산에 대한 프록시 r이기 때문에 고정 되면 의미 가 있습니다. 그러나 (독립 변수)를 다시 표현 하는 경우 는 가치가 없거나 오해의 소지가 있습니다. stats.stackexchange.com/questions/13314/…을 참조하십시오 . R 2아르 자형2rR2
whuber

답변 주셔서 감사합니다! 독립 변수를 변환하지 않겠습니다
nadya

@ whuber : 하나의 변수 만 있다고 가정하면 변환을 선택하는 가장 좋은 방법은 무엇입니까? Tukey의 EDA 서적이 있지만 길을 찾기가 어렵습니다. 펜과 종이를 다시 표현하는 데 많은 관심이있는 것 같습니다. 매우 가치있는 페이지 / 장을 찾으십니까? 와이
Erich Schubert

@Erich 그 책의 모든 부분은 깊이 보람이 있습니다. 결국, 연필과 종이로 무언가를 할 수 있다면, 컴퓨터가 그것을 할 수 있도록 프로그램 할 수 있습니다 :-). 단일 변수를 사용하면 종종 (실험 경험 분포의) 대칭 을 위해 변수를 변환하는 것이 좋습니다 . Tukey는 이것을 "작은 거래"라고 부릅니다. 이러한 변환을 식별하는 간단한 방법은 3E 절 "빠른 찾기"에 설명되어 있습니다. N 문자 요약에서 한 눈에 배울 수있는 내용을 보여줍니다 (Tukey는 7 자 또는 9 자 요약을 제안합니다). 이 기술을 습득하면 컴퓨터 프로그램에서 계산하는 것보다 더 가치가 있습니다.
whuber

1

원래 척도의 반응 변수 (또는 오히려 반응 변수의 잔차가 될 것)에 정규 분포가있는 경우 다른 변수와 선형 관계를 만들기 위해 변환하면 더 이상 정상이 아닙니다. 또한 분산과 평균값 간의 관계도 변경됩니다. 따라서 설명의 해당 부분에서 비선형 회귀를 사용하는 것이 응답을 변환하는 것보다 낫습니다. 그렇지 않으면 응답을 선형으로 변환 한 후에는보다 복잡한 오류 구조가 필요합니다 (단, 판단이 문제가 될 수 있으며 그래픽 방법을 사용하여 확인해야 함).

또는 설명 변수의 변환을 조사 하십시오. 직선 변환뿐 아니라 2 차 항을 추가 할 수도 있습니다.

더 일반적으로, 변형의 기초로 사용해야 할 것을 제안하는 기존 이론이 없다면 변형은 과학보다 예술입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.