외삽이 왜 나쁜 생각인지에 대한 저학년 청문회로서 통계 과정에 앉아있는 것을 기억합니다. 또한 온라인에 대한 다양한 출처가 있습니다. 여기에 대한 언급도 있습니다 .
외삽이 왜 나쁜 생각인지 이해하는 사람이 있습니까? 그렇다면 예측 기술이 통계적으로 유효하지 않은 이유는 무엇입니까?
외삽이 왜 나쁜 생각인지에 대한 저학년 청문회로서 통계 과정에 앉아있는 것을 기억합니다. 또한 온라인에 대한 다양한 출처가 있습니다. 여기에 대한 언급도 있습니다 .
외삽이 왜 나쁜 생각인지 이해하는 사람이 있습니까? 그렇다면 예측 기술이 통계적으로 유효하지 않은 이유는 무엇입니까?
답변:
회귀 모델은 종종 외삽, 즉 모델에 적합하는 데 사용되는 예측 변수의 값 범위를 벗어난 입력에 대한 응답을 예측하는 데 사용됩니다. 외삽과 관련된 위험은 다음 그림에 설명되어 있습니다.
회귀 모형은 보간 모형을 "구축"하여 적절하게 정당화 하지 않는 한 외삽 법에 사용해서는 안됩니다 .
이 xkcd 만화 는 모든 것을 설명합니다.
Cueball (막대기를 가진 남자)은 데이터 포인트를 사용하여 다음 달 말까지 여자에게 "십여 명의"남편이있을 것이라고 외삽했으며,이 외삽 법을 사용하여 웨딩 케이크를 대량 구매하는 결론을 내 렸습니다.
편집 3 : "데이터 포인트가 충분하지 않다"고 말하는 사람들을 위해 xkcd 만화가 있습니다 .
여기서 시간이 지남에 따라 "지속 가능한"이라는 단어의 사용은 세미 로그 플롯에 표시되며 데이터 지점을 추정하여 향후 "지속 가능한"이라는 단어가 얼마나 자주 발생할 지에 대한 비합리적인 추정치를받습니다.
편집 2 : "당신은 모든 과거 데이터 포인트가 필요합니다."
여기에는 모든 과거 데이터 포인트가 있지만 Google 어스의 해상도를 정확하게 예측하지 못합니다. 이것은 세미 로그 그래프이기도합니다.
편집 : 때로는 가장 강한 상관 관계 (이 경우 r = .9979)조차도 명백한 잘못입니다.
다른 근거를 제시하지 않고 추정하면 상관 관계 를 위반 한다고해서 원인이되는 것은 아닙니다 . 통계 세계에서 또 다른 큰 죄.
그러나 X를 Y로 외삽 하는 경우 Y 만으로 X를 정확하게 예측할 수 있어야 합니다 . 거의 항상 영향 X보다 여러 가지 요소가 있습니다.
Nassim Nicholas Taleb의 말로 설명하는 다른 답변에 대한 링크를 공유하고 싶습니다 .
"예측은 미래에 관한 경우 특히 어렵다". 이 인용문은 어떤 형태의 많은 사람들에게 귀속됩니다 . 다음 "외삽 법"에서 "알려진 범위 밖의 예측"으로 제한하고 1 차원 설정에서는 알려진 과거에서 알려지지 않은 미래로의 외삽 법을 제한합니다.
외삽 법의 문제점은 무엇입니까? 첫째, 과거를 모델링하는 것은 쉽지 않습니다 . 둘째, 과거의 모델이 미래에 사용될 수 있는지 알기가 어렵다 . 두 가지 주장 뒤에는 인과 관계 또는 에르고 디 시티, 설명 변수의 충분 성 등에 대한 심층적 인 질문이 있으며, 이는 사례에 따라 다릅니다. 잘못된 점은 많은 추가 정보없이 다른 상황에서 잘 작동하는 단일 외삽 체계를 선택하기 어렵다는 것입니다.
이 일반적인 불일치는 아래 표시된 Anscombe 사중 데이터 세트 에 명확하게 설명되어 있습니다. 선형 회귀는 외삽의 인스턴스 이기도합니다 ( 좌표 범위 외부 ). 동일한 선이 동일한 표준 통계를 사용하여 4 개의 점 집합을 회귀합니다. 그러나 기본 모델은 매우 다릅니다.
그러나 예측은 어느 정도 연장 될 수 있습니다. 다른 답변에 덧붙여, 몇 가지 재료가 실제 외삽에 도움이 될 수 있습니다.
최근에 저는 실시간 환경에서 시뮬레이션 서브 시스템의 통신을위한 값을 추정하는 프로젝트에 참여했습니다. 이 영역의 교리는 외삽이 불안정성을 야기 할 수 있다는 것입니다. 실제로 위의 두 가지 성분을 결합하는 것은 눈에 띄는 불안정성없이 (정확한 증거없이 현재 검토 중인 ) 매우 효율적이라는 것을 깨달았습니다 . 그리고 외삽 법은 계산 부담이 매우 낮은 간단한 다항식으로 작업했으며 대부분의 연산은 미리 계산되어 조회 테이블에 저장되었습니다.
마지막으로 외삽 법에서 재미있는 그림을 제시 할 때 선형 회귀의 역효과는 다음과 같습니다.
모델의 적합도는 " 양호 " 할 수 있지만 데이터 범위를 벗어난 외삽 법은 회의적으로 처리해야합니다. 그 이유는 많은 경우에 외삽은 (불행히도 불가피하게도) 관찰 된 지원을 넘어서 데이터의 행동에 대한 테스트 할 수없는 가정에 의존하기 때문입니다.
외삽 할 때 두 가지 판단 호출을 수행해야합니다. 첫째, 정량적 관점에서 볼 때 데이터가 범위를 벗어난 모델은 얼마나 유효합니까? 둘째, 질적 관점 에서 관찰 된 표본 범위를 벗어난 점 이 표본에 대해 가정 한 모집단의 구성원이되는 것은 얼마나 그럴듯 합니까? 두 질문 모두 어느 정도의 모호함 외삽을 수반하기 때문에 모호한 기술로 간주됩니다. 이러한 가정에 동의해야 할 이유가있는 경우, 외삽은 일반적으로 유효한 추론 절차입니다.
추가적인 비주의 사항은 많은 비모수 적 추정 기술이 기본적으로 외삽을 허용하지 않는다는 것입니다. 이 문제는 장착 된 스플라인을 고정 할 매듭이 더 이상없는 스플라인 스무딩의 경우에 특히 두드러집니다.
외삽은 악과 거리가 멀다는 점을 강조하겠습니다. 예를 들어 통계에서 널리 사용되는 수치 방법 (예 : Aitken의 델타 제곱 프로세스 및 Richardson의 외삽 법 )은 관측 된 데이터에 대해 분석 된 함수의 기본 동작이 기능 지원 전반에 걸쳐 안정적으로 유지된다는 아이디어에 기초한 외삽 법입니다.
다른 답변과 달리 외삽 법에 아무런 의미가없는 한 외삽 법에는 아무런 문제가 없다고 말하고 싶습니다. 먼저 외삽 법은 다음과 같습니다.
원래 관측 범위를 넘어서, 다른 변수와의 관계에 기초하여 변수의 값을 추정하는 과정.
... 이것은 매우 광범위한 용어이며 간단한 선형 외삽 법 에서부터 선형 회귀법, 다항식 회귀법 또는 심지어 고급 시계열 예측 법에 이르기까지 다양한 정의가 그러한 정의에 적합합니다. 실제로 외삽, 예측 및 예측 은 밀접한 관련이 있습니다. 통계에서 우리는 종종 하게 예측과 예측을 . 이것은 또한 당신이 말하는 링크가 말하는 것입니다 :
우리는 통계의 첫날부터 외삽은 절대 대단하지 않다는 것을 배웠습니다. 그러나 그것은 정확히 예측입니다.
또한 많은 외삽 법 이 예측을 위해 사용 되며, 종종 일부 간단한 방법 은 작은 샘플에서 잘 작동 하므로 복잡한 방법보다 선호 될 수 있습니다. 외삽 법을 부적절하게 사용하면 다른 답변에서 알 수 있듯이 문제가 있습니다.
예를 들어, 많은 연구에 따르면 서부 국가에서는 성적인 연령이 시간이 지남에 따라 감소하는 것으로 나타났습니다. 미국에서의 첫 성교 연령에 관한 아래의 도표를 살펴보십시오. 맹목적으로 선형 회귀를 사용하여 첫 번째 성교의 나이를 예측하면 몇 년이 지나면 0 미만으로 떨어질 것으로 예상합니다 (처음 결혼과 첫 번째 출생이 사망 한 후 발생하는 경우에 따라). 1 년 전에 예측하면 선형 회귀가 추세에 대해 매우 정확한 단기 예측으로 이어질 것이라고 생각합니다.
(source guttmacher.org )
정확한 예측을 할 수 없기 때문에 모든 모델이 잘못 되었고 외삽도 잘못되었습니다. 다른 수학 / 통계 도구와 마찬가지로 대략적인 예측 을 수행 할 수 있습니다 . 그것들이 얼마나 정확한지의 여부는 문제에 적합한 방법을 사용하여 모델의 정의와 다른 많은 요소를 가정 한 가정에 따라 데이터 품질에 달려 있습니다. 그러나 이것이 우리가 그러한 방법을 사용할 수 없다는 것을 의미하지는 않습니다. 우리는 할 수 있지만 한계에 대해 기억 하고 주어진 문제에 대한 품질 을 평가해야합니다 .
나는 Nassim Taleb (Bertrand Russell의 이전 예제를 채택한)의 예를 매우 좋아합니다.
매일 먹이를주는 칠면조를 생각해보십시오. 한 번의 모든 먹이는 정치인이 말하는 것처럼 인류의 친근한 사람들이 "최고의 이익을 기대하는"사람들이 매일 먹이를 먹는 것이 일반적인 규칙이라는 새의 신념을 강화할 것입니다. 추수 감사절 전 수요일 오후에는 칠면조에 예기치 않은 일이 발생합니다. 그것은 믿음의 개정을 초래할 것입니다.
일부 수학적 아날로그는 다음과 같습니다.
함수의 처음 몇 테일러 계수에 대한 지식이 후속 계수가 추정 된 패턴을 따를 것을 항상 보장하지는 않습니다.
미분 방정식의 초기 조건에 대한 지식이 항상 점근 적 행동에 대한 지식을 보장하지는 않습니다 (예 : Lorenz의 방정식, 때로는 소위 "나비 효과"로 왜곡됨)
문제에 대한 좋은 MO 스레드 가 있습니다.
원한다면 다음 이야기를 깊이 생각해 본다.
나는 또한 통계 과정에 앉아 기억하고 교수는 외삽이 나쁜 생각이라고 우리에게 말했다. 다음 수업 시간에 그는 다시 나쁜 생각이라고 말했습니다. 사실, 그는 그것을 두 번 말했습니다.
나는 학기의 나머지 기간 동안 아 sick 다. 그러나 나는 지난 주까지 그 사람은 반드시 아무것도하지 않았고 사람들에게 외삽이 어떻게 나쁜 생각인지를 말하고 있었기 때문에 많은 자료를 놓칠 수 없었을 것이라고 확신했다. .
이상하게도 시험에서 높은 점수를 얻지 못했습니다.
문제는 통계적 일뿐만 아니라 인식 론적이기도합니다. 외삽 법은 우리가 자연에 대해 배우는 방법 중 하나이며, 일종의 귀납법 입니다. 섭씨 0도에서 20도 사이의 온도 범위에서 재료의 전기 전도도에 대한 데이터가 있다고 가정합니다. 40 도의 전도도에 대해 무엇을 말할 수 있습니까?
작은 표본 추론과 밀접한 관련이 있습니다. 작은 표본에 대해 수행 한 측정에서 전체 모집단에 대해 무엇을 말할 수 있습니까? 이것은 Gosset에 의해 기네스 (Guiness) 로 시작되었으며 , 학생 t 분포를 생각해 냈습니다. 그 전에 통계 학자들은 표본 크기가 항상 클 수 있다고 가정하고 작은 표본에 대해 생각하지 않았습니다. 그는 Guinnes에 있었고 맥주의 전체 배치를 어떻게 처리할지 결정하기 위해 맥주 샘플을 처리해야했습니다.
따라서 실제 (비즈니스), 공학 및 과학에서는 항상 몇 가지 방식으로 추정해야합니다. 액셀러레이터에서 발생하는 것부터 수십억 마일 떨어진 블랙홀에 이르기까지 작은 샘플을 큰 샘플로, 또는 제한된 입력 조건에서 더 넓은 범위의 조건으로 외삽 할 수 있습니다. 과학에서 특히 중요합니다. 외삽 추정값과 실제 측정 값 간의 불일치를 연구하여 실제로 학습합니다. 불일치가 크거나 일관성이있는 경우 종종 새로운 현상을 발견합니다.
따라서 외삽에는 아무런 문제가 없다고 말합니다. 우리가 매일해야 할 일입니다. 어려워요.
외삽 자체가 반드시 악한 것은 아니지만 내삽으로 도달하는 것보다 더 합리적이지 않은 결론에 적합합니다.
외삽의 궁극적 인 결과를 얻으려면 맨해튼 프로젝트를 고려하십시오. 실제 물리를 만들기 전에 극소 규모의 테스트를 수행 해야하는 물리학 자. 그들은 단순히 테스트에서 낭비 할 우라늄이 충분하지 않았습니다. 그들은 최선을 다했고 똑똑했습니다. 그러나 최종 테스트가 발생했을 때, 각 과학자는 그들이 폭발했을 때 원하는 폭발에서 얼마나 멀리 떨어져 있는지 결정하기로 결정했습니다. 있었다 실질적 으로 모든 과학자들이 자신의 시험에서 상당히 멀리 외삽 된 알고 있기 때문에 멀리 "안전한"얼마나 멀리에 의견의 차이. 그들이 핵폭탄으로 대기에 불을 붙일 수도 있다는 사소한 고려조차 있었으며, 문제는 상당한 외삽으로 쉬게되었습니다!