GLM : 분배 및 링크 기능 선택 확인


14

가우시안 분포 및 로그 링크 기능을 채택한 일반화 선형 모형이 있습니다. 모델을 피팅 한 후 QQ 플롯, 잔차 대 예측값, 잔차 히스토그램 (적당한주의가 필요함을 인정)을 잔차를 확인합니다. 모든 것이 좋아 보인다. 이것은 가우시안 분포의 선택이 상당히 합리적이라고 제안합니다. 또는 적어도 잔차가 모형에 사용 된 분포와 일치해야합니다.

Q1 : 내가 선택한 배포를 확인한다고 말하기에는 너무 멀었습니까?

응답 변수가 항상 양수이기 때문에 로그 링크 함수를 선택했지만 좋은 선택인지 확인하고 싶습니다.

Q2 : 분포 선택에 대한 잔차 검사와 같은 링크 기능 선택을 지원할 수있는 테스트가 있습니까? (내가 찾을 수있는 유일한 지침은 꽤 모호하고 손이 흔들릴 수 있기 때문에 아마도 링크 기능을 선택하는 것은 약간 임의적 인 것 같습니다.)


2
Q1. 다른 배포판을 사용하여 더 잘 수행되는지 확인할 수 있습니다. Q2. 긍정적 인 예측을 보장하기 위해 로그 링크를 선택하는 것은 나에게 임의적이지 않습니다. 이론적 근거입니다. 그러나 신원 링크를 통해 부정적인 예측을 얻을지 여부와 데이터를 차례로 확인할 수 있습니다. 결론 : 다른 모델을 시도해보기 전까지는 더 나아지지 않을 것입니다.
닉 콕스

1
답장을 보내 주셔서 감사합니다, @Nick. 나는 당신이 말한 것처럼 그것이 단순히 짜증나는 경우가 될까 걱정했다. 나는 그것이 가장 좋은 모델 이라고 생각하지 않고 단지 가정이 정당화 될 수 있다고 생각합니다. 내가 가지고 노는 한 가지 아이디어 는 선형 예측 변수 exp ( η ) 의 지수 변환에 대해 내 관측 값 플로팅하는 것 입니다. 아마도 포인트가 1 : 1 라인에 가까울수록 로그 링크 기능의 가정이 더 좋을까요? 또한 1 : 1 라인 의 R 2 로 이것을 정량화 할 수 있습니다. (나는 통계학자가 아니기 때문에이 말들이 얼마나 웃기는 지 잘 모르겠다.)와이특급(η)아르 자형2
Lyngbakr

2
나는 통계학 자도 아니지만 모델을 평가하기 위해 비슷한 플롯을 사용했습니다. 예를 들어 stata-journal.com/sjpdf.html?articlenum=gr0009 도 참조하십시오 . 아날로그를 너무 죄책감을 느끼지 않고 설명적인 척도로 사용 했습니다. 자세한 내용은 stats.stackexchange.com/questions/68066/… 을 참조하십시오 . R2
닉 콕스

답변:


13
  1. 이것은 귀무 가설을 주장 할 수 있는지 여부와 관련하여 자주 묻는 질문의 변형입니다. 귀하의 경우, 잔차는 가우시안이고 플롯 (qq-plots, histograms 등)의 육안 검사는 '테스트'를 구성합니다. (널을 주장하는 문제에 대한 일반적인 개요를 보려면 여기에서 내 대답을 읽는 것이 도움이 될 수 있습니다. 통계학자가 왜 중요하지 않은 결과가 널 가정을 받아들이는 것과 달리 널을 거부 할 수 없다는 것을 의미한다고 말합니까? ) 특정 경우에, 도표는 잔차가 정규성 가정과 일치하지만 가정을 "확인"하지 않는다고 말할 수 있습니다.

  2. 다른 링크 함수를 사용하여 모델을 맞추고 비교할 수는 있지만 단일 링크 함수를 단독으로 테스트하지는 않습니다 (아마도 잘못된 것 입니다. @Glen_b의 답변 참조 ). 로짓과 프로 빗 모델의 차이점에 대한 나의 대답에서 ( 독립적 이지는 않지만 읽을만한 가치가있을 수 있습니다) 링크 기능은 다음을 기반으로 선택되어야한다고 주장합니다.

    1. 반응 분포에 대한 지식
    2. 이론적 고려 사항
    3. 데이터에 경험적으로 적합합니다.

    Y와이부정적이지 않기 때문에 곡선 관계에 특정한 모양을 유도합니다. 잔차 대 적합치의 표준 도표 (아마도 황토 적합 중첩)는 데이터의 고유 곡률이 로그 링크에 의해 부과 된 특정 곡률에 적합한 지 여부를 식별하는 데 도움이됩니다. 앞서 언급했듯이 다른 변환이 원하는 이론적 기준에 맞는 모든 것을 시도하고 두 적합을 직접 비교할 수도 있습니다.


16

내가 선택한 배포판의 유효성을 검사한다고 말하기에는 너무 멀었습니까?

그것은 정확히 '유효하다'라는 말의 의미에 달려 있지만, 실제로 "널은 사실로 표시됩니다"라고 말할 수없는 것과 같은 방식으로 '예, 너무 멀어집니다'라고 말하고 싶습니다 (특히 포인트 널이 있지만 적어도 어떤 의미에서는 더 일반적으로). 당신은 정말로 "잘, 우리는 그것이 틀렸다는 강력한 증거를 가지고 있지 않습니다"라고 말할 수 있습니다. 그러나 어떤 경우에 우리는 우리의 모델은 완벽하게, 그들이있는 거 기대하지 않는 모델 . Box & Draper가 말한 것처럼 중요한 것은 " 유용하지 않아야하는 것은 얼마나 잘못입니까? "입니다.

다음 두 문장 중 하나입니다.

이것은 가우시안 분포의 선택이 상당히 합리적이라고 제안합니다. 또는 적어도 잔차가 모형에 사용 된 분포와 일치해야합니다.

로그 링크가있는 가우시안 모델이 옳은 것이 아니라 데이터가 합리적이거나 일관성이 있다는 진단이 나타내는 내용을 훨씬 더 정확하게 설명 합니다.

응답 변수가 항상 양수이기 때문에 로그 링크 함수를 선택했지만 좋은 선택인지 확인하고 싶습니다.

그것이 양수 여야한다는 것을 알고 있다면 그 평균은 양수 여야합니다. 적어도 그와 일치하는 모델을 선택하는 것이 합리적입니다. 그것이 좋은 선택 인지 잘 모르겠지만 (더 나은 선택이있을 수도 있지만) 합리적인 방법입니다. 내 출발점이 될 수 있습니다. [하지만 변수 자체가 반드시 양수이면 내 첫 번째 생각은 가우스보다는 로그 링크가있는 감마 인 경향이 있습니다. "필수적으로 긍정적"은 평균에 따라 변하는 왜도 및 분산을 나타냅니다.]

Q2 : 분포 선택에 대한 잔차 검사와 같은 링크 기능 선택을 지원할 수있는 테스트가 있습니까?

'공식 가설 검정'에서와 같이 '테스트'를 의미하는 것이 아니라 '진단 점검'과 같이 들립니다.

두 경우 모두 대답은 그렇습니다.

공식적인 가설 테스트는 Pregibon의 Goodness of link 테스트입니다 [1].

이것은 Box-Cox 매개 변수의 가설 테스트를 수행하기 위해 Box-Cox 제품군에 링크 기능을 포함하는 것을 기반으로합니다.

Breslow (1996) [2]에서 Pregibon의 시험에 대한 간략한 설명을 참조하십시오 ( 14 페이지 참조 ).

η=(μ)엑스

아르 자형나는=(와이나는μ^나는)(ημ)

(이 평가를 위해 기댈 것임) 또는 각 예측 변수에 대해 하나의 플롯을 사용하여 부분 잔차의 선형성 편차를 살펴볼 수 있습니다 (예 : Hardin and Hilbe, 일반화 선형 모형 및 확장, 2 차 에디션 4.5 참조). .4 p54, 정의의 경우)

아르 자형케이나는=(와이나는μ^나는)(ημ)+엑스나는케이β^케이

=아르 자형나는+엑스나는케이β^케이

데이터가 링크 함수에 의해 변환을 허용하는 경우 선형 회귀와 동일한 방식으로 선형성을 찾을 수 있습니다 (내가 비뚤어 짐 및이 분산 가능성을 가지고 있음에도 불구하고).

범주 형 예측 변수의 경우 링크 기능의 선택이 편의성 또는 해석 가능성의 문제이므로 적합도는 같아야합니다 (따라서 평가할 필요가 없음).

Pregibon의 접근 방식을 기반으로 진단을 내릴 수도 있습니다.

이것들은 철저한 목록을 형성하지 않습니다. 논의 된 다른 진단을 찾을 수 있습니다.

[저는 링크 기능의 선택이 가능하다면 이론적 인 고려 사항에 기초해야한다는 gung의 평가에 동의합니다.]

이 게시물 의 토론 중 일부를 참조하십시오 .

[1] : Pregibon, D. (1980),
"일반 선형 모형에 대한 링크 테스트의 우수성"
, 왕립 통계 학회지. 시리즈 C (응용 통계) ,
Vol. 29, No. 1, 15-23 쪽.

[2] : Breslow NE (1996),
"일반화 된 선형 모델 : 가정 확인 및 결론 강화",
Statistica Applicata 8 , 23-41.
pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.