비선형 회귀에 대한 신뢰도 및 예측 구간


13

비선형 회귀에 대한 신뢰 및 예측 밴드가 회귀선에 대해 대칭이어야합니까? 선형 회귀 밴드의 경우처럼 모래 시계 모양을 갖지 않습니다. 왜 그런 겁니까?

문제의 모델은 다음과 같습니다. 그림은 다음과 같습니다.

F(x)=(AD1+(xC)B)+D

http://i57.tinypic.com/2q099ok.jpg

그리고 방정식은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오


첫 번째 문장에서 "대칭 적이라고 생각되는"질문에서 문장 2에 있지 않다는 것을 암시하고 (아마도) 문장 3에없는 이유에 대해 질문하기 때문에 질문이 명확하지 않습니다. 이보다 일관되고 명확합니까?
gung-복직 모니카

회귀가 비선형 일 때 회귀선 주위에서 왜 신뢰와 예측 밴드가 대칭 적인가? 선형 일 때 모래 시계 모양을 취하는 이유는 무엇입니까?
서지

그냥 몇 가지 의견은, 경우에 그들은 어떤 도움이 위치 : 당신의 반응은 음이 아닌를하고 수렴해야한다 것 같습니다 에서 (또는 가까운 그것에) 이 밴드는 분명히 독립적 인 첨가제 오류의 모델을 사용하여 세워진 반면,. 특히 왼쪽에서 비현실적입니다. 또한, 파란색 점의 패턴은 오차가 강한 직렬 상관 관계를 가지며이 밴드를 구성 할 때도 고려해야 함을 나타냅니다. 피팅을 수행하기 위해 데이터의 추가 복잡성에 대처하고 싶지 않을 수도 있지만, 그린 밴드가 그다지 가치가 없다는 것을 나타냅니다. 000
whuber

네 말이 맞아 밴드는 부정적인 영역으로 넘어갑니다. 그러나 밴드 자체의 값에는 관심이 없지만 밴드 제한에 해당하는 EC50 값에는 관심이 없습니다. 이런 식으로 밴드를 구성하는 대안이 있습니까?
서지

그렇습니다. 그러나 내가 본대로 그들은 복잡해질 수 있습니다. 일반화 된 최소 제곱 및 시계열 방법은 직렬 상관 관계를 처리 할 수 ​​있습니다. 종속 변수의 비선형 변환은 비가 산 오류를 처리하는 도구 중 하나입니다. 보다 정교한 도구는 일반화 된 선형 모델입니다. 선택은 종속 변수의 특성에 부분적으로 의존합니다. BTW, 비록 "EC50 값"(선량-반응 관계를 모델링하는 것처럼 들린다)이 무엇을 의미하는지 잘 모르겠지만, 설명 된 밴드에서 계산 된 것은 의심됩니다.
whuber

답변:


8

자신감과 예측 밴드는 일반적으로 끝이 가까워 질수록 예상됩니다. 같은 이유로 항상 평범한 회귀에서 그렇게합니다. 일반적으로 매개 변수 불확실성은 중간에서보다 끝 근처에서 더 넓은 간격으로 이어집니다.

주어진 모델의 데이터를 시뮬레이션하거나 모수 벡터의 샘플링 분포를 시뮬레이션하여 충분히 쉽게 시뮬레이션하여이를 확인할 수 있습니다.

비선형 회귀에 대해 수행되는 일반적인 (대략 정확한) 계산에는 로컬 선형 근사치 (하비의 답변으로 제공됨)를 취하는 것이 포함되지만, 계산하지 않아도 진행 상황에 대한 개념을 얻을 수 있습니다.

그러나 실제 계산을 수행하는 것은 쉬운 일이 아니며 프로그램에서 해당 효과를 무시하는 바로 가기를 계산할 수 있습니다. 일부 데이터 및 일부 모델의 경우 효과가 상대적으로 작고보기 어려울 수 있습니다. 실제로 예측 간격, 특히 분산이 크지 만 많은 데이터가있는 경우 일반 선형 회귀 분석에서 곡선을보기가 어려울 수 있습니다. 거의 직선으로 보일 수 있으며 진 직도와의 편차를 비교적 쉽게 식별 할 수 있습니다.

다음은 평균에 대한 신뢰 구간만으로보기가 어려울 수있는 예입니다 (상대 변동이 훨씬 적기 때문에 예측 구간이 훨씬 더 어려울 수 있음). 다음은 모집단 평균에 대한 신뢰 구간이있는 일부 데이터와 비선형 최소 제곱 법입니다.

여기에 이미지 설명을 입력하십시오

자주색 경계는 파란색 예측과 거의 평행 해 보이지만 그렇지 않습니다. 이러한 평균 예측의 샘플링 분포에 대한 표준 오차는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

분명히 일정하지 않습니다.


편집하다:

방금 게시 한 "sp"식은 선형 회귀에 대한 예측 간격에서 바로 나옵니다 !


또한 비선형 회귀의 경우에도 중심에서 멀어짐에 따라 매개 변수 불확실성의 증가로 인해 대역이 넓어 져야하지만 그다지 명확하지 않다고 말하는가? 또는 비선형 회귀의 경우 이러한 확장이 발생하지 않는 이론적 인 이유가 있습니까? 내 밴드는 확실히 매우 대칭 적으로 보입니다.
Serge

1
이러한 확장은 일반적으로 이루어져야하지만 모든 비선형 모델에서 동일한 방식으로 발생하지 않으며 모든 모델에서 명확하지는 않으며 주어진 프로그램으로 계산 하기가 쉽지 않기 때문 입니다. 나는 당신이보고있는 밴드가 어떻게 계산되었는지 알지 못합니다. 나는 독자가 아니며 이름조차 언급하지 않은 프로그램의 코드를 볼 수 없습니다.
Glen_b-복지 주 모니카

@ user1505202, 이것은 완전히 대답하기 어려운 질문으로 남아 있습니다. 모델이 무엇인지 (기능적 형태) 설명 할 수 있습니까? 난처한 인물의 이미지를 첨부 할 수 있습니까?
gung-복직 모니카

1
감사. 나는 숫자를 가지고 있으며 본질적으로 일정합니다-회귀선과 각 예측 한계의 차이는 중간에서 18.21074에서 끝에서 18.24877까지입니다. 따라서 약간 넓어 지지만 아주 약간입니다. 그런데 @gung, 나는 예측 간격을 계산하는 방정식을 얻었습니다. 그것은이다 :Y-hat +/- sp(Y-hat)
서지

1
이는 지연된 샘플이있는 예측 구간에서 볼 수있는 변형의 종류에 관한 것입니다. SP는 무엇입니까?
Glen_b-복지 모니카

5

비선형 회귀에 맞는 곡선의 계산 신뢰도와 예측 밴드의 수학 이이 교차 검증 페이지에 설명되어 있습니다. 밴드가 항상 / 보통 대칭 인 것은 아닙니다.

그리고 더 많은 단어와 더 적은 수학에 대한 설명이 있습니다.

먼저 G | x를 정의 해 봅시다. 이는 특정 X 값에서 매개 변수의 기울기이며 매개 변수의 가장 적합한 값을 모두 사용합니다. 결과는 매개 변수 당 하나의 요소가있는 벡터입니다. 각 매개 변수에 대해 dY / dP로 정의됩니다. 여기서 Y는 X의 특정 값과 모든 가장 적합한 매개 변수 값이 주어지면 곡선의 Y 값이고 P는 매개 변수 중 하나입니다.)

G '| x는 그 그라디언트 벡터가 바뀐 값이므로 행이 아닌 열입니다. Cov는 공분산 행렬입니다 (마지막 반복에서 반전 된 Hessian). 행 수와 열 수가 매개 변수 수와 동일한 정사각 행렬입니다. 행렬의 각 항목은 두 모수 간의 공분산입니다. Cov를 사용하여 정규화 된 공분산 행렬 을 참조합니다. 여기서 각 값은 -1과 1 사이입니다.

이제 계산

c = G '| x * Cov * G | x.

결과는 X 값에 대한 단일 숫자입니다.

신뢰도와 예측 밴드는 최적 곡선에 중심을두고 곡선 위와 아래에서 같은 양으로 확장됩니다.

신뢰 구간은 다음과 같이 곡선 위와 아래로 확장됩니다.

= sqrt (c) * sqrt (SS / DF) * CriticalT (신뢰성 %, DF)

예측 대역은 다음과 같은 곡선 위와 아래의 추가 거리로 확장됩니다.

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (Confidence %, DF)

이 두 방정식에서 c의 값 (위에 정의 됨)은 X의 값에 따라 달라 지므로 신뢰도 및 예측 밴드는 곡선으로부터 일정한 거리가 아닙니다. SS의 값은 적합치의 제곱합이고 DF는 자유도 (데이터 포인트 수에서 매개 변수 수 빼기)의 수입니다. CriticalT는 원하는 신뢰 수준 (전통적으로 95 %)과 자유도 수를 기반으로 t 분포의 상수입니다. 95 % 한계와 상당히 큰 df의 경우이 값은 1.96에 가깝습니다. DF가 작 으면이 값이 더 높습니다.


고마워, 하비 내 함수에 대한 매개 변수의 기울기를 얻는 중입니다. 공분산 행렬을 얻는 방법에 대해서는 확실하지 않기 때문에 실제로 예제를 알고 있습니까?
22:57에

GraphPad Prism 데모를 사용하면 원하는 모델에 데이터를 맞추고 공분산 행렬 (진단 탭에서 선택한 선택 결과)과 신뢰도 또는 예측 밴드 (숫자와 그래프 모두)를 볼 수 있습니다. 진단 탭). 이것은 실제 예제로는 좋지 않지만 최소한 공분산 행렬을 비교하여 문제가 전후인지 확인할 수 있습니다.
Harvey Motulsky

그러나 두 가지. 1. 프리즘은 나에게 Cov 매트릭스를 주었다. 그러나 전체 데이터 세트에 대해 하나의 숫자 일뿐입니다. X 값당 하나의 값을 얻지 않아야합니까? 2. 그래프에 예측 대역이 있지만 출력에 값이 포함되기를 원합니다. 프리즘은 그렇게하지 않는 것 같습니다. 나는 프리즘을 처음 접했기 때문에 어디에서나 보지 못했지만 시도했습니다!
Serge

1. 공분산 행렬은 모수가 얽히는 정도를 보여줍니다. 따라서 비선형 회귀 분석에 적합하도록 모든 매개 변수 쌍마다 하나의 값이 있습니다. 2. 범위 탭에서 프리즘에 신뢰 또는 예측 대역에 대한 +/- 값으로 곡선의 XY 좌표 표를 만들도록 요청하십시오. 3. Prism을 통한 기술 지원은 support@graphpad.com으로 전자 메일을 보내십시오. 기술 지원이 아닌 통계 관련 질문에이 포럼을 사용하십시오.
Harvey Motulsky 2014
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.