직교 적으로 할 수 없다면 생식으로하십시오 (다항식 회귀)


11

에 대해 대한 다항식 회귀 분석을 수행 할 때 때때로 사람들은 원시 다항식, 때로는 직교 다항식을 사용합니다. 그러나 그들이 완전히 임의적 인 것처럼 보이는 것을 사용할 때.X와이엑스

여기 에서 여기에 원시 다항식이 사용됩니다. 그러나 여기여기 에서 직교 다항식은 올바른 결과를 제공하는 것으로 보입니다. 왜, 어떻게, 왜?!

반면에 교과서 (예 : ISLR ) 에서 다항식 회귀에 대해 학습 할 때 원시 또는 직교 다항식은 언급하지 않으며 적합 할 모형 만 제공됩니다.

그래서 언제 무엇을 사용해야합니까?
왜 , 등 의 개별 p- 값 이이 두 값 사이에서 크게 다른가?X 2엑스엑스2


1
원시 및 직교 다항식과 해석을 사용하여 동일한 모형을 동일한 데이터에 적합시킬 때 어떤 p- 값이 다른지 생각해야합니다 . 모델 예측은 어떻습니까?
Scortchi-Monica Monica 복원

@Scortchi 나는 내 질문에 관련 정보를 추가했습니다.
l7ll7

4
직교 다항식을 사용해야하는 또 다른 좋은 이유는 수치 안정성입니다. 높은 차수의 모노마 이어는 "매우 선형 적으로 의존적"(수학적으로 더 정밀하게 만들 수있는 개념)이기 때문에, 모노 미어 기반으로 피팅하기위한 관련 디자인 매트릭스는 고차 피팅에 대해 상당히 좋지 않다. 직교 다항식의 경우 약간 더 나은 동작을합니다. 여기서는 등 간격 횡좌표 (Gram) 사례에 대해 논의 했지만 비등 간적 경우와 거래는 유사합니다.
JM은 통계학자가 아니다

(그럼에도 불구하고, 하나는 이렇게위한 좋은 이유없이 높은 수준의 다항식에 맞지한다.)
JM은 통계하지

답변:


7

변수 X 2 는 선형 적으로 독립적이지 않습니다. 그래서 경우에도 추가, 어떤 차 효과가없는 X 2 의 예상 효과를 수정합니다 모델에 X를 .XX2X2X

매우 간단한 시뮬레이션으로 살펴 봅시다.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

이제 모형에 2 차 항이 적합합니다.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

물론 옴니버스 테스트는 여전히 중요하지만, 우리가보고있는 결과는 이것이 아니라고 생각합니다. 해결책은 직교 다항식을 사용하는 것입니다.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

x첫 번째 모델과 poly(x,2)1두 번째 모델 의 계수는 같지 않으며 인터셉트도 다릅니다. 이는 poly직교 법선 벡터를 제공 하기 때문에 벡터와 직교합니다 rep(1, length(x)). 따라서 그보다 poly(x,2)1x오히려 (x -mean(x))/sqrt(sum((x-mean(x))**2))...

중요한 점은이 마지막 모델에서 Wald 테스트가 독립적이라는 것입니다. 직교 다항식을 사용하여 Wald 테스트를보고 원하는 정도까지 결정할 수 있습니다. 여기서 는 유지 하지만 X 2는 유지 하지 않기로 결정합니다 . 물론 처음 두 개의 적합 모델을 비교하여 동일한 모델을 찾을 수 있지만이 방법은 더 간단합니다. 더 높은 각도로 올라가는 것을 고려하면 훨씬 더 간단합니다.XX2

유지할 항을 결정한 후에 는 해석 가능성 또는 예측을 위해 원시 다항식 X 2 로 돌아갈 수 있습니다 .XX2


+1 마침내 명확한 답변! 감사합니다! 내가 수락하기 전에 R ^ 2 또는 F- 통계량과 같은 다른 통계가 원래의 것보다 직교 플롯 요약을 더 잘 읽어야하는 다른 통계가 있습니까? 변수를 플로팅하는 것 외에도 원시 다항식을 사용하는 적합은이 시나리오의 다른 것에 적합합니까?
l7ll7

예측 변수가 여러 개인 경우에도 마찬가지입니까?
l7ll7

"직교 다항식을 사용하여 2 차 항을 포함할지 여부를 결정하는 방법"은 무엇입니까?
Scortchi-Monica Monica 복원

1
점은 최상위 효과,이 경우 2 차의 검정은 원시 다항식을 사용하든 직교 다항식을 사용하든 동일합니다. 그렇다면 왜 직교 다항식으로 귀찮게합니까?
Scortchi-Monica Monica 복원

4
물론, 그 모델에서 그러한 한계 테스트를 수행해서는 안됩니다. 가장 높은 차수를 버린 후에 다시 장착해야합니다. 직교 다항식은 귀찮게 해주므로 손쉬운 스텝 다운 절차가 가능합니다. 아마도 입방체 항으로 설명 할 수 있습니다.
Scortchi-Monica Monica 복원

3

상황을 순진하게 평가하려면 :

일반적으로 : 두 개의 서로 다른 기본 함수 시스템 과 일부 함수 (hilbert-) 공간에 대해 { ~ p } n = 1 을 가지고 있다고 가정합니다 (일반적으로 L 2 ( [ a , b ] )). 즉, 모든 제곱 적분 함수의 공간입니다.{pn}n=1{p~}n=1L2([a,b])

L2([a,b])yL2([a,b])θθ~n아르 자형n=1,2,2

=1θ~~=와이==1θ.

케이<

{}=1케이
{~}=1케이,
2([,])

{~}=1{}=1와이{}=1케이케이2([,])

따라서 예측 측면에서 (이 경우) 차이가 없습니다.

V아르 자형(θ~^)=나는σ²


가장 잘린 기본 시스템이 있으면 자연스런 문제가 발생합니다. 그러나 질문에 대한 대답은 단순하거나 독특하지 않으며 예를 들어 "최고"라는 단어의 정의, 즉 보관하려는 대상에 따라 다릅니다.


1
(+1) 예측 측면에서 차이가 없다. & 의미있는 추론 측면에서 차이가 없다고 말할 수 있습니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.