보간은 회귀 개념과 어떤 관련이 있습니까?


17

보간이란 무엇을 의미하며 회귀 개념과 어떤 관련이 있습니까?

보간은 표의 선 사이를 읽는 기술이며, 기초 수학에서이 용어는 일반적으로 해당 함수의 주어진 값 또는 테이블 값 세트에서 함수의 중간 값을 계산하는 프로세스를 나타냅니다.

나는 두 번째 질문에 대한 답을 줄 수 없습니다. 도와주세요


4
회귀는 X (독립 변수)가 주어진 Y (종속 변수) 의 예상 값을 설명 하는 함수식별하는 것을 목표로 합니다. 보간은 주어진 X 값에서 Y 값 을 예측 하기 위해 회귀를 사용합니다 . 그 차이는 미묘하지만 Y 가 서로 관련이 있는 모델에서는 앞뒤로 나옵니다 . 예측 된 값은 일반적으로 회귀 값 과 다르기 때문 입니다. 회귀 나 예측은 수학 테이블의 보간에 직접 적용되지 않으며 일반적으로 임의의 오류가 없다고 가정하지만 알고리즘 을 계속 사용할 수 있습니다. YXYXY
우버

2
이 수업은 어떤 수업에 적용됩니까?
Glen_b-복지 주 모니카

답변:


23

보간과 회귀의 주요 차이점은 그들이 해결하는 문제의 정의입니다.

데이터 점이 주어지면 보간 할 때 지정된대로 정확하게 해당 점에 값이있는 미리 정의 된 형태의 함수를 찾습니다. 즉, 주어진 쌍 ( x i , y i )F ( x i ) = y i 를 충족하는 미리 정의 된 형식의 F 를 찾습니다 . 가장 일반적으로 F 는 다항식, 스플라인 (주어진 점 사이의 간격에서 낮은 정도의 다항식)으로 선택됩니다.n(xi,yi)FF(xi)=yiF

회귀 분석을 수행 할 때 비용을 최소화하는 함수 (일반적으로 오차 제곱합)를 찾습니다. 주어진 지점에서 함수가 정확한 값을 가질 필요는 없으며 좋은 근접성을 원합니다. 일반적으로, 찾은 함수 는 모든 데이터 포인트에 대해 F ( x i ) = y i 를 만족하지 않을 수 있지만 비용 함수, 즉 n i = 1 ( F ( x i ) y i ) 2 가 가장 작습니다. 주어진 형태의 모든 기능.FF(xi)=yii=1n(F(xi)yi)2

보간 대신에 단지 근사치 만 원할 수있는 좋은 예는 주식 시장의 가격입니다. 당신은 몇 가지의 가격이 걸릴 수 있습니다 시간의 최근 단위, 시간의 다음 단위 가격의 몇 가지 예측을 얻기 위해 그들을 보간하려고합니다. 가격 간의 관계가 다항식으로 정확하게 표현 될 수 있다고 생각할 이유가 없기 때문에 이것은 오히려 나쁜 생각입니다. 그러나 선형 회귀는 가격에 약간의 "기울기"가있을 수 있고 선형 함수는 적어도 로컬에서 좋은 근사치 일 수 있기 때문에 트릭을 수행 할 수 있습니다 (힌트 : 쉽지는 않지만 회귀는이 경우 보간보다 확실히 더 좋습니다. ).k


좋은 대답입니다. 나는 회귀와 함께, 그 뒤에 통계 모델이 있다는 것을 추가 할 것이라고 정의 사이의 관계 X 우리가 (회귀의 다른 맛 등 분위수 또는 중간, 또는) 평균의 추정 일부 유통, 예를 들면 측면에서 통계 .stackexchange.com / questions / 173660 /…와이엑스
Tim

설명 한 예가 보간이 아닌 외삽이 아닌가?
bi_scholar

6

이전의 두 답변은 선형 보간과 선형 회귀 (또는 일반 보간 및 다항 회귀) 사이의 관계를 설명했습니다. 그러나 중요한 연결은 회귀 모델에 적합하면 해당 모델을 사용하여 주어진 데이터 포인트 사이를 보간 할 수 있다는 것입니다.


따라서 성별에 대한 키를 회귀하면 반 남성, 반 여성의 예상 높이를 찾기 위해 보간 할 수 있습니다! 이 환상적인 예는이 반응의 기본 결함을 강조합니다. 회귀 모형의 모든 회귀 변수가 연속 변수 여야한다는 가정입니다.
whuber

2
나의 예측은 모든 예측 변수가 연속적 일 때 적용된다.
Michael R. Chernick

4

바라건대 이것은 간단한 예제와 시각화와 함께 다소 빨리 올 것입니다.

다음과 같은 데이터가 있다고 가정하십시오.

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

회귀를 사용하여 X에 대한 응답으로 Y를 모형화 할 수 있습니다. R 사용 : lm(y ~ x)

결과는 절편 5이며 x는 1입니다. 이는 주어진 X에 대해 임의의 Y를 X + 5로 계산할 수 있음을 의미합니다. 그림과 같이 다음과 같이 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

X 축으로 가면서 어느 곳에서나 선을 적합 선까지 그린 다음 Y 축으로 선을 그리면 값 포인트를 제공했는지 여부에 관계없이 값을 얻을 수 있습니다. Y. 회귀는 기본 관계를 추정하여 데이터가없는 영역을 부드럽게합니다.


2

보간 및 회귀의 기본 차이는 다음과 같습니다. 보간 : 보간에서 n 개의 점 (예 : 10 개의 데이터 점)이 있다고 가정합니다. 모든 데이터 점을 통과 곡선을 을 a 회귀에서와 같이 다항식의 정도 (데이터 포인트 수 -1, 즉 여기서는 9 임). 모든 데이터 포인트가 곡선 피팅에 필요한 것은 아닙니다.

일반적으로 보간 및 회귀의 차수는 차수가 3보다 크면 (1,2 또는 3)이되고 곡선에서 더 많은 진동이 나타납니다.


2
이것은 보간이 다항식을 기반으로 함을 의미하지만, 입방 스플라인, 조각 별 입방 암, 가장 가까운 이웃 등과 같은 몇 가지 다른 방법이 있습니다.
Nick Cox

@Nick 비록 정확하지만 이름을 짓는 모든 방법이 실제로 다항식을 기반으로하는 것이 궁금합니다! 아마도 가장 단순하고 가장 잘 알려진 비 다항식 보간 기는 역 거리 가중 (IDW) 일 것입니다.
whuber

@whuber 합의; 다항식을 제약 조건으로 적용 할 수있는 경우, 대부분의 방법은 가장 가까운 이웃 = 조각 별 상수 등을 포함합니다.
Nick Cox

2

회귀는 가장 적합한 선을 찾는 프로세스입니다 [1]. 보간은 사용중인 값이 데이터 범위 내에있는 경우 가장 적합한 선을 사용하여 한 변수의 값을 다른 변수의 값에서 추정하는 프로세스입니다. 범위를 벗어나면 외삽 [1]을 사용하게됩니다.

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html


2
이 답변은 보간과 외삽을 구별하지 않습니다. 그들은 같은 것을 유지합니까? BTW, 수학 포럼 (및 교과서 및 논문도)은 일반적으로 통계 문제에 대한 좋은 정보원이 아닙니다. 왜냐하면 좁은 수학 의미에 초점을 맞추는 경향이 있기 때문입니다. .
whuber

1

보간 또는 스플라인 피팅을 사용하면 더 큰 크기의 숫자 데이터 (각 원본 데이터 쌍에 보간 된 보간)가 플롯 될 때 부드러운 곡선의 효과를 생성합니다. 실제로, 각 원본 데이터 쌍 사이에 다른 다항식이 피팅되므로, 보간 후 전체 곡선은 조각 별 연속 곡선이며, 각 조각은 다른 다항식으로 구성됩니다.

원래 숫자 데이터의 파라 메트릭 표현을 찾으려면 회귀 분석을 수행해야합니다. 스플라인에 높은 다항식을 적용 할 수도 있습니다. 어쨌든 표현은 근사치입니다. 근사값이 얼마나 정확한지 확인할 수도 있습니다.


Nick Cox의 주석을 아직 읽지 않은 것으로 보이며 , 이는 모든 보간자가 (로컬) 다항식이 아님을 나타냅니다.
whuber

0

회귀와 보간은 다른 변수 (X)의 주어진 값에 대한 변수 (Y)의 값을 예측하는 데 사용됩니다. 회귀 분석에서는 표화 된 값의 범위를 벗어난 경우에도 주어진 독립 변수 (X)에 대한 종속 변수 (Y)의 모든 값을 예측할 수 있지만 보간의 경우 종속 변수의 값만 예측할 수 있습니다 (Y) 독립 변수 (X)의 값에 대해 주어진 X의 값 범위 내에 있습니다.


0

보간은 x = a와 x = b 사이의 여러 점을 보간 다항식에 정확하게 맞추는 과정입니다. 보간법을 사용하면 회귀 기법보다 정확도가 높은 도메인 x = [a, b]에서 y의 근사값 (또는 결 측값)을 찾을 수 있습니다.

반면에 회귀는 최소 제곱 오차로 점을 통과하거나 근처에있는 곡선에 여러 점을 맞추는 과정입니다. 회귀는 보간만큼 정확한 x = [a, b] 도메인의 y 값에 근사하지는 않지만 x = (-infinity, a)와 x = ( b, + 무한대).

In summary, interpolation provide better accuracy in the value of y within the domain of a known x range while regression provides better predictions of y in the domain below and beyond the known range of x.


3
It's not a definition of interpolation that a polynomial is used. Other smooth functions could be appropriate.
Nick Cox

3
There are other issues with your claims. For instance, regression can be more accurate than interpolation. The statistical distinction between the two procedures is quite different from what you represent: please see the other posts in this thread.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.