외삽 vs. 보간


28

외삽 법과 내삽 법의 차이점은 무엇이며 이러한 용어를 사용하는 가장 정확한 방법은 무엇입니까?

예를 들어, 보간법을 사용하여 논문에서 다음과 같은 진술을 보았습니다.

"이 절차는 빈 지점 사이에서 추정 된 함수의 모양을 보간합니다"

외삽 법과 보간법을 모두 사용하는 문장은 다음과 같습니다.

이전 단계에서는 Kernel 방법을 사용하여 보간 함수를 왼쪽 및 오른쪽 온도 꼬리에 외삽했습니다.

누군가 명확하고 쉽게 구별 할 수있는 방법을 제시하고 이러한 용어를 예를 들어 올바르게 사용하는 방법을 안내 할 수 있습니까?




@ usεr11852 두 질문은 비슷한 근거를 다루지 만 보간과의 대조를 요구하기 때문에 다릅니다.
MKT-

보간과 외삽 사이의 이러한 구별이 일반적으로 합의 된 방식으로 (예를 들어, 볼록 껍질을 통해) 엄격하게 공식화 되었습니까?
Nick Alger

답변:


51

이에 대한 시각적 설명을 추가하려면 모델링 할 몇 가지 사항을 고려하십시오.

여기에 이미지 설명을 입력하십시오

그들은 직선으로 잘 묘사 될 수있는 것처럼 보이므로 선형 회귀 분석을 적합하게 만듭니다.

여기에 이미지 설명을 입력하십시오

이 회귀선을 사용하면 보간 (데이터 포인트간에 예상 값 생성)과 외삽 (데이터 포인트 범위 밖에서 예상 값 생성)을 수행 할 수 있습니다. 나는 외삽을 빨간색으로 강조 표시하고 가장 큰 보간 영역을 파란색으로 강조 표시했습니다. 분명히하기 위해 점 사이의 작은 영역조차도 보간되지만 여기서는 큰 영역 만 강조 표시합니다.

여기에 이미지 설명을 입력하십시오

외삽이 왜 일반적으로 더 관심이 되는가? 일반적으로 데이터 범위를 벗어난 관계의 모양에 대해서는 확신이 없기 때문입니다. 더 많은 데이터 포인트 (중공 원)를 수집 할 때 발생할 수있는 상황을 고려하십시오.

여기에 이미지 설명을 입력하십시오

결국 가정 된 관계와의 관계가 잘 파악되지 않은 것으로 나타났습니다. 외삽 된 영역의 예측은 벗어납니다. 이 비선형 관계를 올바르게 설명하는 정확한 함수를 추측하더라도 데이터가 비선형 성을 잘 캡처 할 수있는 범위를 충분히 확장하지 못 했으므로 여전히 멀리 떨어져있을 수 있습니다. 이것은 선형 회귀뿐만 아니라 모든 관계에 대한 문제이므로 외삽이 위험한 것으로 간주됩니다.

보간 된 영역의 예측은 적합치에 비선형 성이 없기 때문에 올바르지 않지만 예측 오차는 훨씬 낮습니다. 포인트 (예 : 보간 영역)간에 예기치 않은 관계가 있다고 보장 할 수는 없지만 일반적으로 가능성은 낮습니다.


외삽 법이 항상 끔찍한 아이디어는 아니라고 덧붙일 것입니다. 데이터 범위 밖에서 약간의 외삽 법을 추정하면 아마 잘못되지는 않을 것입니다 (가능하지만!). 세계에 대한 과학적인 모델이없는 고대인들은 태양이 다음 날과 그 다음날 다시 떠오를 것이라고 예측한다면 그리 잘못되지 않았을 것입니다.

2

주석을 기반으로 편집 : 보간 또는 외삽 여부에 관계없이 항상 기대치를 충족시키는 이론을 갖는 것이 가장 좋습니다. 이론이없는 모델링 수행 해야하는 경우 보간의 위험은 일반적으로 외삽 의 위험 보다 적습니다. 즉, 데이터 포인트 간의 격차가 커지면 보간도 점점 더 위험에 처하게됩니다.


5
나는 당신의 대답을 좋아하며, 그것을 보완하는 것으로 간주하고 어떤 의미로도 경쟁하지 않습니다. 그러나 일부 독자들에게 중요한 작은 요점은 빨간색과 녹색이 상당수의 사람들이 시각적으로 구별하기 어렵다는 것입니다.
Nick Cox

1
@NickCox 좋은 지적, 감사합니다-이제 색 구성표를 변경했습니다.
mkt-

1
@leftaroundabout 필자의 요점은 킬링 커브 패턴이 너무 강해서 경제와 물리를 무시하는 외삽 법이 여전히 몇 년에서 수십 년에 걸쳐 합리적으로 정확하다는 것이었다. 나는 '지난 수십 년'을 정확하게 지적했는데, 그것이 우리가 고해상도 측정을 수행 한 시간 규모이기 때문입니다. 이것은 외삽 법이 당신을 잘못 인도 하지 않았을 때의 예 입니다. 나는이 답변이 이론이없는 외삽을 옹호 한다고 주장하는 데 고의적 인 오판이 필요할 것이라고 생각합니다 .
mkt-복원 모니카

1
이와 관련하여 저는 이 답변 에서 Taleb의 "터키 예"를 외삽을 사용하는 사람들에게 경고로 제공했습니다.
JM은 통계학자가 아닙니다.

1
외삽은 지나치게 적합 할 때 특히 문제가됩니다. 예를 들어, 다항식 모델의 경우 데이터 세트를 크게 벗어나면 가장 높은 항이 터집니다.
누적

21

본질적으로 보간데이터 지원 내에서 또는 기존의 알려진 데이터 포인트 사이 의 작업입니다 . 외삽데이터 지원을 넘어선 것 입니다. 그렇지 않으면, 기준은 다음과 같습니다. 결 측값은 어디에 있습니까?

구별의 한 가지 이유는 외삽이 일반적으로 잘 수행하기가 더 어렵고 심지어 통계적으로 위험하지 않기 때문입니다. 항상 그런 것은 아닙니다. 예를 들어, 강 홍수로 인해 방류 또는 측정 단계 (수직 레벨)를 압도하여 측정 된 기록의 구멍이 찢어 질 수 있습니다. 이러한 상황에서 방전 또는 단계의 보간도 어렵고 데이터 지원 내에있는 것이 큰 도움이되지 않습니다.

장기적으로 질적 변화는 일반적으로 양적 변화를 대체합니다. 1900 년경 말이 끄는 교통량의 증가가 대부분 원치 않는 배설물로 도시를 늪에 빠뜨릴 것이라는 우려가 많았습니다. 내연 기관과 다른 지수에 의해 배출 지수가 대체되었습니다.

트렌드는 트렌드입니다. 트렌드는
문제입니다.
그것은
예상치 못한 힘을 통해 그 행로 를 바꾸고
조기에 끝나게됩니까?

-알렉산더 케른 크로스

Cairncross, A. 1969. 경제 예측. 경제 저널 , 79 : 797-812. doi : 10.2307 / 2229792 ( 797 페이지 인용)


1
좋은 대답입니다. 해석은 바로 이름-보간 = 내림, 외삽 = 넘어서 부드럽게하는 이름입니다.
원자력 왕

1
IMO 정답입니다. "데이터 지원"은 중요한 부분입니다. 가고자하는 지점이 두 개의 측정 된 지점 사이에 있더라도 여전히 데이터 지원 외부에있을 수 있습니다. 예를 들어, 로마 고대와 현대의 사람들에 대한 번영 데이터가 있지만 그 사이의 데이터가 없다면 중세에 보간하는 것은 매우 문제가 될 것입니다. 나는 이것을 외삽 법이라고 부릅니다. OTOH, 전체 기간에 걸쳐 데이터가 희소하지만 균등하게 흩어져 있으면 특정 연도로 보간하는 것이 훨씬 더 타당합니다.
왼쪽

1
@leftaroundabout 보간이 데이터의 큰 차이에 대해 수행 될 수 있다고해서 데이터를 외삽하지는 않습니다. 당신은 절차 자체에 대한 절차의 권고를 착각하고 있습니다. 때때로 보간도 나쁜 생각입니다.
MKT-복원 모니카

1
@ mkt : 보간 대 외삽이 실제로 생각할만큼 잘 정의되지 않았기 때문에 그의 첫 번째 예제 외삽으로 간주 될 수 있다는 것을 왼쪽으로 돌릴 것입니다. 변수의 간단한 변환은 보간을 외삽으로 바꿀 수 있습니다. 그의 예에서, 원시 시간 대신 거리 함수와 같은 것을 사용한다는 것은 원시 시간에 우리가 보간하는 동안 거리에서 외삽하는 중이라는 것을 의미합니다.
Cliff AB

1
이것이 나의 대답이다. 자격이 필요하다고 생각하지 않습니다. 보간법과 외삽 법의 광범위한 구별은 어떤 것이 수행되고 있는지 결정하기가 조금 어렵다는 것을 배제하지 않습니다. 데이터 공간 중간에 큰 구멍이 있으면 레이블링이 어느 쪽이든 될 수 있습니다. 일부 흔들림이 지적했듯이, 하루의 끝과 밤의 시작이 서로 흐려진다는 사실은 낮과 밤의 구분이 무의미하거나 쓸모가 없습니다.
닉 콕스

12

TL; DR 버전 :

  • 인터 polation 기존 데이터 포인트 사이에 발생한다.
  • 여분의 오염은 그 이상으로 일어난다.

니모닉 : terpolation => 측면.

FWIW : 접두어 는 사이그 밖의 추가 수단을 의미 합니다. 또한 주들 사이를 가로 지르는 주 고속도로, 또는 지구 너머에서 여분의 지상파를 생각하십시오 .


1

예:

연구 : 6-15 세의 소녀들을위한 연령의 키에 간단한 선형 회귀를 맞추고 싶다. 샘플 크기는 100이고, 나이는 (측정 날짜-생년월일) /365.25에 의해 계산됩니다.

데이터 수집 후 모형이 적합하고 절편 b0 및 기울기 b1의 추정치를 얻습니다. 그것은 우리가 E (높이) = b0 + b1 * age를 가짐을 의미합니다.

13 세의 평균 키를 원할 때 100 명의 소녀 표본에 13 세 소녀가 없다는 것을 알 수 있습니다. 그 중 하나는 12.83 세이고 하나는 13.24입니다.

이제 연령 = 13을 공식 E (높이) = b0 + b1 * age에 연결합니다. 13 세는 모델에 맞는 데이터 범위에 포함되므로 보간이라고합니다.

30 세의 평균 키를 얻고 해당 수식을 사용하려면 외삽이라고합니다. 30 세가 데이터에서 다루는 연령 범위를 벗어나기 때문입니다.

모형에 여러 공변량이있는 경우 데이터가 포함 된 경계를 그리는 것이 어렵 기 때문에주의해야합니다.

통계 상, 우리는 외삽을 옹호하지 않습니다.


"통계에서 우리는 외삽을 옹호하지 않습니다." 시계열 분석의 주요 부분은 정확히 그렇게합니다 ....
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.