이에 대한 시각적 설명을 추가하려면 모델링 할 몇 가지 사항을 고려하십시오.
그들은 직선으로 잘 묘사 될 수있는 것처럼 보이므로 선형 회귀 분석을 적합하게 만듭니다.
이 회귀선을 사용하면 보간 (데이터 포인트간에 예상 값 생성)과 외삽 (데이터 포인트 범위 밖에서 예상 값 생성)을 수행 할 수 있습니다. 나는 외삽을 빨간색으로 강조 표시하고 가장 큰 보간 영역을 파란색으로 강조 표시했습니다. 분명히하기 위해 점 사이의 작은 영역조차도 보간되지만 여기서는 큰 영역 만 강조 표시합니다.
외삽이 왜 일반적으로 더 관심이 되는가? 일반적으로 데이터 범위를 벗어난 관계의 모양에 대해서는 확신이 없기 때문입니다. 더 많은 데이터 포인트 (중공 원)를 수집 할 때 발생할 수있는 상황을 고려하십시오.
결국 가정 된 관계와의 관계가 잘 파악되지 않은 것으로 나타났습니다. 외삽 된 영역의 예측은 벗어납니다. 이 비선형 관계를 올바르게 설명하는 정확한 함수를 추측하더라도 데이터가 비선형 성을 잘 캡처 할 수있는 범위를 충분히 확장하지 못 했으므로 여전히 멀리 떨어져있을 수 있습니다. 이것은 선형 회귀뿐만 아니라 모든 관계에 대한 문제이므로 외삽이 위험한 것으로 간주됩니다.
보간 된 영역의 예측은 적합치에 비선형 성이 없기 때문에 올바르지 않지만 예측 오차는 훨씬 낮습니다. 포인트 (예 : 보간 영역)간에 예기치 않은 관계가 있다고 보장 할 수는 없지만 일반적으로 가능성은 낮습니다.
외삽 법이 항상 끔찍한 아이디어는 아니라고 덧붙일 것입니다. 데이터 범위 밖에서 약간의 외삽 법을 추정하면 아마 잘못되지는 않을 것입니다 (가능하지만!). 세계에 대한 과학적인 모델이없는 고대인들은 태양이 다음 날과 그 다음날 다시 떠오를 것이라고 예측한다면 그리 잘못되지 않았을 것입니다.
2
주석을 기반으로 편집 : 보간 또는 외삽 여부에 관계없이 항상 기대치를 충족시키는 이론을 갖는 것이 가장 좋습니다. 이론이없는 모델링 을 수행 해야하는 경우 보간의 위험은 일반적으로 외삽 의 위험 보다 적습니다. 즉, 데이터 포인트 간의 격차가 커지면 보간도 점점 더 위험에 처하게됩니다.