회귀를 사용하여 데이터 범위를 벗어난 투영 확인? 절대 안돼? 때때로 괜찮습니까?


10

회귀를 사용하여 데이터 범위를 벗어나는 것에 대해 어떻게 생각하십니까? 선형 또는 전력 모형 형태를 따르는 것이 확실하다면 모형이 데이터 범위를 넘어서 유용하지 않습니까? 예를 들어, 가격에 따라 수량이 결정됩니다. 우리는 내가 믿는 데이터 범위를 벗어난 가격을 예상 할 수 있어야합니다. 당신의 생각?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
가정이 데이터 범위를 벗어나는 정도에 따라 다릅니다. 관찰되지 않은 대해 예측 하는 것은 처음에 회귀를 수행하는 모든 이유입니다. 와이엑스
Ben

3
당신이 정말로 때도, 정말, 반드시 선형 관계가 예측의 범위를 넘어 계속 의 샘플에서 관찰, 새 관찰에 대한 예측 응답의 분산의 용어 거기에 -viz -걱정해야합니다. 엑스1,,엑스엑스(엑스엑스¯)2나는(엑스나는엑스¯)2
Scortchi-Monica Monica 복원

벤 나는 동의하지 않는 경향이 있는데, 관찰되지 않은 X에 대한 y는 전체 요점을 예측하지 않습니까? 그렇지 않으면 왜 회귀를합니까? 아마도 내가 관찰 한 데이터 범위에서 멀리 떨어져 나갈 수있는 한도를 설정하는 것이 책임질 수 있습니다. 확실히 10 %는 안전 할 것입니다.
Johnson Jason

이 주제에서 내가 가장 좋아하는 척도는 bmj.com/content/317/7155/409 입니다.
Carlo Lazzaro

@ Ben, @ Johnson-아마도 퀴즈 일 것입니다. 회귀에는 또 다른 용도가 있습니다. 예측보다는 설명하는 데 사용할 수 있습니다. 특히 사회 과학에서 이것은 회귀의 주요한 사용이라고 생각합니다. 나는 (변수) A 효과 결과 B, 회귀 분석을 실행하고 A의 계수의 95 % 신뢰 구간에 0이 포함되어 있지 않다고 생각합니다. A 형의 관계는 B를 유발한다. 우연히도 이것은 내가 한 일이 아니다!
meh

답변:


13

거의 모든 답변과 의견은 외삽의 위험에 대해 경고합니다. 예측이 신중한 지 여부를보다 공식적인 방법으로 제공하고 싶습니다. 이 방법은 열이 차지하는 공간의 투영 행렬을 기반으로합니다.엑스우리는 전체 순위를 가정합니다. 즉, 열 공간이 p 차원이라고 가정합니다. 당신이 기억 하듯이

H=엑스(엑스엑스)1엑스

대각선 요소가 H 풀다 0<H나는나는<1, 나는=1,,이것은 this 등식의 결과이며 예측 공간의 중심으로부터의 거리로 해석 될 수 있습니다. 레버리지간에 일대일 대응이 있기 때문에 이것은 사실입니다H나는나는그리고 제곱 Mahalanobis 거리. 숨겨진 외삽을 발견하는 방법은 새로운 관측이 중심으로부터 얼마나 멀리 떨어져 있는지 보는 것입니다. 이것은 새로운 대각선 요소를 계산하여 수행 할 수 있습니다. 행렬 곱셈의 몇 가지 기본 규칙을 상기하면서

H이자형,이자형=엑스이자형(엑스엑스)1엑스이자형

만약 H이자형,이자형다른 대각선 요소보다 훨씬 크다면 새로운 관측 값이 중심과는 거리가 멀고 예측이 위험 할 수 있습니다. 크기가 너무 커서 결정하는 것은 약간의 판단이 필요합니다. 물론이 기술은 절대 안전하지 않습니다. 그럼에도 불구하고 그 아름다움은 단순한 산포도를 볼 수 없을 때 모든 차원에서 작동한다는 것입니다.

사용중인 소프트웨어는 확실하지 않지만 거의 모든 소프트웨어가 올바른 명령으로 모자 매트릭스를 반환합니다. 마음을 정하기 전에 살펴 보는 것이 좋습니다.


JohnK가 잘하셨습니다. 이것은 매우 도움이됩니다. 참고로 Excel 회귀를 사용하고 있습니다.
Johnson Jason

9

예측 오차는 평균으로부터의 거리에 따라 2 차적으로 증가합니다. 회귀 방정식과 결과를 사용하면 관측 된 데이터 범위에 대한 오차의 크기를 측정 할 수 있으며 모델은 동일한 범위에 대해서만 적합합니다.

그 범위를 벗어나면 많은 일들이 일어날 수 있습니다. 먼저, 예측 오차의 증가로 인해 예측이 악화된다.

둘째, 모델이 완전히 고장날 수 있습니다. 이를 확인하는 가장 쉬운 방법은 가격과 시간을 기준으로 모델을 투영하는 것입니다. 부정적인 시간을 예측할 수 없습니다.

셋째, 선형 관계가 부적절 할 수 있습니다. 귀하의 예에서는 규모의 경제가 거의 확실합니다. 관측 된 값의 범위를 훨씬 벗어나서 예측하려고하면 매우 눈에 띄게됩니다.

이 같은 효과에 대한 유머러스 한 예는 Mark Twain작품 중 하나에서 나타나며 , 시간이 지남에 따라 미시시피 강의 길이를 모델링하려고 시도합니다 .- 매년 침식으로 인해 바람이 많이 불고 짧아졌습니다. 수년 동안 카이로, 일리노이, 뉴 올리언스 사이의 거리가 약 1 마일에서 3/4로 줄어든다는 예측과 함께 "구부러진 것"을 포함합니다.

마지막으로 예측 변수가 둘 이상인 경우 관측 값의 범위가 매우 복잡 할 수 있습니다. 예측 변수 간의 상관 관계로 인해 각 예측 변수의 최대 값과 최소값으로 정의 된 상자를 사용할 수없는 경우가 많습니다.


1
(+1) 모델이 관측 된 데이터의 범위에 걸쳐서 적절하다고 말하더라도 조금 강력합니다. 설명하는 문제가 점점 더 멀어 질수록 더 심각해집니다.
Scortchi-Monica Monica 복원

따라서 관측 된 데이터 범위에서 안전 거리가 얼마나 멀어 질지에 대한 해결 방법이 있습니까? 1 표준 편차보다 작습니까?
Johnson Jason

1
@Scortchi. 요점을 알았어. 대부분의 상황에서 모델의 성능 저하는 점진적입니다. 그러나 때로는 어려운 경계 가 있으며 , 그 이상으로 나아가려고하면 슬픔이 생길 수 있습니다.
user3697176

1
@JohnsonJason : 경험 법칙을 찾는 데 의미가 없습니다. 모형을 외삽 할 수 있다고 가정하면 예측 구간을 쉽게 계산할 수 있습니다. 외삽을 신뢰할 수있는 정도는 주제 지식에 따라 달라집니다. 허용되는 것은 사례마다 다릅니다.
Scortchi-Monica Monica 복원

1
우수 점수 (+1). 그러나 부정적인 시간에 대한 가격을 예측하는 데 논리적 문제는 없습니다. 실제 문제는 주어진 시간 동안 (대개 과거에는 실제로) 음의 가격을 예측하는 것입니다. 이는 외삽 법이 선 (또는 곡선)을 너무 많이 늘릴 때 모델이 정 성적으로 잘못되었음을 의미합니다. 예를 들어 로그 링크 함수는 항상 긍정적 예측을 의미합니다.
Nick Cox

4

데이터가없는 영역에 대해서는 데이터 중심 의사 결정을 내릴 수 없습니다. 이야기의 끝. 데이터는 데이터가 수집되는 범위에 대해 선형 모양을 매우 잘 지원할 수 있지만이 모양이 범위 밖에서 계속 선형이라고 믿을만한 데이터 기반 이유는 없습니다. 태양 아래 어떤 모양이든 될 수 있습니다!

선형 모양이 데이터 범위를 벗어난 것으로 가정 할 수 있지만 수집 한 데이터에서 지원하지 않는 주관적인 가정입니다. 주제 전문가에게 문의하여 주제 전문가가이 가정이 얼마나 안전한지 확인하도록 제안합니다.


2
따라서 관측되지 않은 X에 대해 Y를 예측할 수없는 경우 실제로 회귀 분석의 요점은 무엇입니까?
Johnson Jason

2
요점은 범위 내에서 여전히 예측할 수 있다는 것입니다. 범위 밖에서 예측하는 것은 바람직하지 않습니다. 아마도 대부분의 새로운 데이터 포인트가 범위 안에있을 것이므로, 모델은 대부분의 시간 동안 유용하게 유지 될 것입니다.
Ryan Zotti
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.