보간의 통계적 정당화 란 무엇입니까?


16

우리가 두 점 (다음 그림 : 검은 원)을 가지고 있고 그 사이의 세 번째 점 (십자)에 대한 값을 찾고 싶다고 가정하십시오. 실제로 우리는 실험 결과 인 블랙 포인트를 기준으로 추정 할 것입니다. 가장 간단한 경우는 선을 그린 다음 값 (선형 보간)을 찾는 것입니다. 예를 들어, 양쪽에 갈색 점과 같은지지 점이있는 경우 해당 점을 활용하고 비선형 곡선 (녹색 곡선)을 맞추는 것을 선호합니다.

문제는 적십자를 솔루션으로 표시하는 통계적 추론은 무엇입니까? 다른 십자가 (예 : 노랑 십자가)가 왜 대답 할 수 없는가? 어떤 종류의 추론 또는 (?)가 우리에게 붉은 것을 받아들이도록 강요합니까?

이 간단한 질문에 대한 답변을 바탕으로 원래 질문을 개발할 것입니다.

여기에 이미지 설명을 입력하십시오


7
이것은 매우 잘 제기되고 흥미로운 질문입니다. 시계열의 고유 한 방향성으로 인해 시계열 보간과 다른 형태의 보간 (예 : 스플라인 또는 공간 보간)을 구별 할 수 있습니다.
whuber

1
저의 감사는 바로이 동기 부여적인 의견입니다.
개발자

답변:


14

비모수 적 기능 (일반적으로 관련된 곡선의 매끄러움을 가정하는)에도 모든 형태의 함수 피팅은 가정과 그에 따른 믿음의 도약을 포함합니다.

선형 보간의 고대 솔루션은 가지고있는 데이터가 세분화 된 '충분한'경우 ( '원을 가까이서 보면 평평하게 보입니다-콜럼버스에게 물어보십시오),'만약 작동하는 것입니다. 컴퓨터 시대 이전 (많은 현대 스플라인 솔루션에는 해당되지 않음). 함수가 두 지점 사이에서 동일한 (즉, 선형적인) 문제로 계속 될 것이라는 믿음을 가정하는 것이 합리적이지만, 이에 대한 사전 이유 는 없습니다 (현재 개념에 대한 지식은 제외).

비선형 점이 3 개 이상인 경우 (위의 갈색 점을 추가 할 때와 같이) 신속하게 명확 해집니다. 각 점 사이의 선형 보간에는 각 점에서 날카로운 모서리가 곧 포함되므로 일반적으로 원하지 않습니다. 다른 옵션이 등장하는 곳입니다.

그러나 더 도메인 지식없이, 하나 개의 솔루션이 들어, 당신이해야 할 것입니다 (다른 것보다 낫다는 것을 확실 상태로 방법이 없습니다 알고 다른 점의 값의에서 함수를 피팅의 목적을 물리 치고 무엇을 처음).

밝은면에서, 그리고 아마도 '정규 조건'(읽기 : 가정 : 함수가 매끄럽다는 것을 알고 있다면) 에서 귀하의 질문과 더 관련이 있을 수 있습니다. 선형 보간과 다른 인기있는 솔루션 모두 '합리적'인 것으로 입증 될 수 있습니다 근사치. 여전히 : 가정이 필요하며 일반적으로 통계가 없습니다.


이것은 좋은 답변이며 답변으로 표시 될 후보입니다. 그런 공통적 인 선택에 대한 통계적 정당성이 없다는 것을 이해했습니다.
개발자

사실 나는 없다고 믿는다.
Nick Sabbe

2
잘 알려진 데이터 세트의 샘플을 보간하기위한 경쟁과 관련된 일부 문헌은이 응답을 부분적으로 검증하지만 전부는 아닙니다. "정규 조건"없이 데이터 만 통계적으로 분석함으로써 데이터의 공간 상관에 대해 많은 것을 배울 수 있습니다. 필요한 것은 (1) 인체 공학적 가설과 (대부분의 경우) (2) 일종의 정상 성 가정과 함께 확률 론적 과정의 한 가지 실현의 표본으로서의 데이터 모델입니다. 이 프레임 워크에서 보간은 예상의 예측이되지만, 구분할 수없는 곡선도 허용됩니다.
whuber

1
@ whuber : 나는 내 안락 지대를 벗어났습니다.하지만 귀하의 의견에서 "정규 조건"다음에 나오는 모든 것은 상당히 견고한 양의 가정과 같습니다 (정상 성은 규칙적인 조건에 해당 할 것입니다). 실제로, 기능적 형태의 불규칙성과 관련하여 샘플 크기가 큰지 여부에 달려 있다고 생각합니다. 종이가 아닌 경우에 대한 참조를 줄 수 있습니까?
Nick Sabbe

2
가정 없이는 할 수 없습니다, 닉! 그러나 규칙 성 (예 : 함수의 부드러움)은 필요하지 않습니다. 최소한 함수가 샘플링되는 규모로 데이터에서 추론 할 수 있습니다 . (정확도는 매끄러움보다 훨씬 가벼운 가정입니다.) 지연된 샘플이 필요하다는 것은 정확하지만 30-50 개의 잘 선택된 샘플 위치에서도 2D로 배울 수 있습니다. 문헌은 크다; 예를 들어, 수학적 지질학 의 대부분의 문제는 이것에 전념합니다. 자세한 소개는 Cressie의 공간 통계를
whuber

0

가장 적합한 선에 대한 선형 방정식 (예 : y = 0.4554x + 0.7525)을 계산할 수 있지만 레이블이있는 축이있는 경우에만 작동합니다. 그러나 이것은 당신에게 다른 점과 관련하여 가장 적합한 것을 정확하게 대답하지는 않습니다.


그러나 회귀는 보간 이 아닙니다 .
Scortchi-Monica Monica 복원

1
@Scortchi I believe regression can be understood as interpolation. However, proposing regression as a solution does not answer the question, which asks us to explain why any kind of interpolation is justifiable (and implicitly invites us to describe the assumptions needed to justify it).
whuber

@whuber: Thanks. I was thinking of interpolation, prototypically at least, as join-the-dots - stats.stackexchange.com/a/33662/17230.
Scortchi - Reinstate Monica

@Scortchi이 스레드는 주로 테이블에서 보간 의 수학적 개념을 다룹니다 . 그 질문에 대한 의견에서 나는 보간에 대한 기존의 통계적 이해를 지적했는데 , 이는 미묘하게 다릅니다. 회귀 함수는 두 세계에서 모두 작동합니다. 회귀 함수는 수학 보간 기 (표에 샘플링 된 잘 정의 된 함수의 경우)와 통계 보간 기 (예 : 해당 프로세스에서 파생 된 유한 수의 값).
whuber

1
@Cagdas The only way to perfectly reconstruct a function from finite data is to supply enough restrictions on the function that there is only one candidate for it conditional on the data! In particular, given the number of data points n and given the function's supports (but independent of its values at those supports), the set of possible functions must be a finite-dimensional manifold of dimension at most n.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.