비선형 회귀에 대한 신뢰 및 예측 밴드가 회귀선에 대해 대칭이어야합니까? 선형 회귀 밴드의 경우처럼 모래 시계 모양을 갖지 않습니다. 왜 그런 겁니까?
문제의 모델은 다음과 같습니다.
그림은 다음과 같습니다.
그리고 방정식은 다음과 같습니다.
비선형 회귀에 대한 신뢰 및 예측 밴드가 회귀선에 대해 대칭이어야합니까? 선형 회귀 밴드의 경우처럼 모래 시계 모양을 갖지 않습니다. 왜 그런 겁니까?
문제의 모델은 다음과 같습니다.
그림은 다음과 같습니다.
그리고 방정식은 다음과 같습니다.
답변:
자신감과 예측 밴드는 일반적으로 끝이 가까워 질수록 예상됩니다. 같은 이유로 항상 평범한 회귀에서 그렇게합니다. 일반적으로 매개 변수 불확실성은 중간에서보다 끝 근처에서 더 넓은 간격으로 이어집니다.
주어진 모델의 데이터를 시뮬레이션하거나 모수 벡터의 샘플링 분포를 시뮬레이션하여 충분히 쉽게 시뮬레이션하여이를 확인할 수 있습니다.
비선형 회귀에 대해 수행되는 일반적인 (대략 정확한) 계산에는 로컬 선형 근사치 (하비의 답변으로 제공됨)를 취하는 것이 포함되지만, 계산하지 않아도 진행 상황에 대한 개념을 얻을 수 있습니다.
그러나 실제 계산을 수행하는 것은 쉬운 일이 아니며 프로그램에서 해당 효과를 무시하는 바로 가기를 계산할 수 있습니다. 일부 데이터 및 일부 모델의 경우 효과가 상대적으로 작고보기 어려울 수 있습니다. 실제로 예측 간격, 특히 분산이 크지 만 많은 데이터가있는 경우 일반 선형 회귀 분석에서 곡선을보기가 어려울 수 있습니다. 거의 직선으로 보일 수 있으며 진 직도와의 편차를 비교적 쉽게 식별 할 수 있습니다.
다음은 평균에 대한 신뢰 구간만으로보기가 어려울 수있는 예입니다 (상대 변동이 훨씬 적기 때문에 예측 구간이 훨씬 더 어려울 수 있음). 다음은 모집단 평균에 대한 신뢰 구간이있는 일부 데이터와 비선형 최소 제곱 법입니다.
자주색 경계는 파란색 예측과 거의 평행 해 보이지만 그렇지 않습니다. 이러한 평균 예측의 샘플링 분포에 대한 표준 오차는 다음과 같습니다.
분명히 일정하지 않습니다.
편집하다:
방금 게시 한 "sp"식은 선형 회귀에 대한 예측 간격에서 바로 나옵니다 !
Y-hat +/- sp(Y-hat)
비선형 회귀에 맞는 곡선의 계산 신뢰도와 예측 밴드의 수학 이이 교차 검증 페이지에 설명되어 있습니다. 밴드가 항상 / 보통 대칭 인 것은 아닙니다.
그리고 더 많은 단어와 더 적은 수학에 대한 설명이 있습니다.
먼저 G | x를 정의 해 봅시다. 이는 특정 X 값에서 매개 변수의 기울기이며 매개 변수의 가장 적합한 값을 모두 사용합니다. 결과는 매개 변수 당 하나의 요소가있는 벡터입니다. 각 매개 변수에 대해 dY / dP로 정의됩니다. 여기서 Y는 X의 특정 값과 모든 가장 적합한 매개 변수 값이 주어지면 곡선의 Y 값이고 P는 매개 변수 중 하나입니다.)
G '| x는 그 그라디언트 벡터가 바뀐 값이므로 행이 아닌 열입니다. Cov는 공분산 행렬입니다 (마지막 반복에서 반전 된 Hessian). 행 수와 열 수가 매개 변수 수와 동일한 정사각 행렬입니다. 행렬의 각 항목은 두 모수 간의 공분산입니다. Cov를 사용하여 정규화 된 공분산 행렬 을 참조합니다. 여기서 각 값은 -1과 1 사이입니다.
이제 계산
c = G '| x * Cov * G | x.
결과는 X 값에 대한 단일 숫자입니다.
신뢰도와 예측 밴드는 최적 곡선에 중심을두고 곡선 위와 아래에서 같은 양으로 확장됩니다.
신뢰 구간은 다음과 같이 곡선 위와 아래로 확장됩니다.
= sqrt (c) * sqrt (SS / DF) * CriticalT (신뢰성 %, DF)
예측 대역은 다음과 같은 곡선 위와 아래의 추가 거리로 확장됩니다.
= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (Confidence %, DF)
이 두 방정식에서 c의 값 (위에 정의 됨)은 X의 값에 따라 달라 지므로 신뢰도 및 예측 밴드는 곡선으로부터 일정한 거리가 아닙니다. SS의 값은 적합치의 제곱합이고 DF는 자유도 (데이터 포인트 수에서 매개 변수 수 빼기)의 수입니다. CriticalT는 원하는 신뢰 수준 (전통적으로 95 %)과 자유도 수를 기반으로 t 분포의 상수입니다. 95 % 한계와 상당히 큰 df의 경우이 값은 1.96에 가깝습니다. DF가 작 으면이 값이 더 높습니다.