GLM 계열은 반응 변수 또는 잔차의 분포를 나타 냅니까?


13

나는 이것에 관해 몇몇 실험실 멤버들과 논의하고 있으며, 우리는 몇 가지 소스로 갔지만 여전히 대답이 없습니다.

GLM에 포아송 계열이 있다고 가정 하면 잔차 또는 반응 변수의 분포에 대해 이야기하고 있습니까?

경합의 포인트

  1. 기사를 읽으면 GLM의 가정은 통계적 독립성 , 링크 및 분산 함수의 정확한 사양 (응답 변수가 아닌 잔차에 대해 생각하게 함), 응답 변수의 정확한 측정 척도입니다 단일 지점의 과도한 영향 부족

  2. 질문에는 각각 두 개의 점이있는 두 개의 답이 있습니다. 첫 번째는 잔차에 대해 이야기하고 두 번째는 응답 변수에 대해 나타납니다.

  3. 블로그 포스트 에서 가정에 대해 이야기 할 때 " 잔차 분포는 이진법과 같은 다른 것일 수 있습니다 "라고 말합니다.

  4. 장의 시작 부분에서 그들은 오류의 구조가 포아송이어야한다고 말하지만 잔차는 반드시 양수와 음수 값을 가질 것입니다. 어떻게 그것이 푸아 송이 될 수 있습니까?

  5. 질문과 같은 질문에 자주 인용되는 질문에는 대답이 없습니다.

  6. 질문에 대한 답변은 잔차가 아닌 응답에 대해 이야기합니다.

  7. 에서 Pensilvania 대학의 교육 과정 설명 그들은 가정이 아닌 잔차의 반응 변수에 대해 이야기

답변:


18

가족 GLM 모델 인수를위한 분배 결정 가족 반응의 조건부 분포 하지 잔차합니다 (제외한 준의 -models).

일반적인 선형 회귀 분석의 경우 모델을 로 쓸 수 있습니다 이는 반응 에 정규 분포 (일정 분산)가 있지만 기대 값은 마다 다릅니다 . 따라서 반응의 조건부 분포는 정규 분포입니다 (그러나 각 에 대해 다른 분포 ). 이 모델을 작성하는 다른 방법은 여기서 각 는 입니다.

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

정규 분포 패밀리의 경우 두 설명 모두 정확합니다 (정확하게 해석 될 때). 이는 일반적인 선형 모델의 경우 시스템 부분 ( )과 간단하게 추가 된 교란 부분 ( ) 의 모델이 분리되어 있기 때문입니다 . 그러나 다른 가족 기능의 경우이 분리가 불가능합니다 ! 잔차 가 무엇을 의미 하는지에 대한 명확한 정의조차 없다 (그러한 이유로 "잔여"에 대한 많은 다른 정의들).β0+xiTβϵi

따라서 다른 모든 패밀리에 대해 위의 첫 번째 표시된 방정식 스타일로 정의를 사용합니다. 즉, 응답의 조건부 분포입니다. 따라서, 포아송 회귀 분석에서 잔차 (정의 된 것)는 푸 아송 분포를 갖지 않습니다.


13

Kjetil의 탁월한 답변 외에도 조건부 분포 의 의미를 명확히하는 데 도움이되는 몇 가지 구체적인 예를 추가하고 싶었습니다. 이는 다소 어려운 개념 일 수 있습니다.

호수에서 100 마리의 물고기를 무작위로 채취하여 물고기의 나이가 여러 결과 변수에 어떤 영향을 미치는지 알고 싶다고 가정 해 봅시다.

  1. 생선 무게 (무게);
  2. 물고기가 30cm 이상인지 여부;
  3. 생선 비늘의 수

첫 번째 결과 변수는 연속적이며 두 번째 결과는 이진 (0 = 물고기는 30cm보다 길지 않고 1 = 물고기는 30cm보다 길다)이고 세 번째는 개수 변수입니다.

간단한 선형 회귀

나이는 체중에 어떤 영향을 미칩니 까? 다음과 같은 간단한 선형 회귀 모델을 공식화하려고합니다.

Weight=β0+β1Age+ϵ

여기서 은 평균이 0이고 표준 편차가 정규 분포에 따라 독립적이고 동일하게 분포 됩니다. 이 모델에서, 같은 연령을 공유하는 호수의 모든 물고기에 대한 가중치 변수의 평균은 연령에 따라 선형으로 변한다고 가정합니다. 조건부 평균은 됩니다. 같은 나이 의 호수에있는 모든 물고기의 평균 무게이기 때문에 조건부라고합니다 . (무조건적인 평균 무게는 나이에 관계없이 호수에있는 모든 물고기의 평균 무게가됩니다.) ϵσβ0+β1Age

단순 이항 로지스틱 회귀

나이는 물고기의 길이가 30cm 이상인지에 어떤 영향을 미칩니 까? 다음과 같은 간단한 이항 로지스틱 회귀 모델을 공식화하려고합니다.

log(p1p)=β0+β1Age

여기서 는 주어진 연령의 물고기가 30cm보다 길다는 조건부 확률을 나타냅니다. 이 모델에서, 같은 연령을 공유하는 호수의 모든 물고기에 해당하는 변수 "물고기가 30cm보다 긴지 여부"의 조건부 평균은 로짓 변환에 공급 된 후 연령에 따라 선형으로 변하는 것으로 가정합니다. 로짓 변환 된 조건 평균은 됩니다. 이 모델은 우리가 주어진 연령에 대해 "물고기가 30cm 이상인지 여부"변수 값의 분포가 베르누이 분포라고 가정하기 때문에 작동합니다. 이 분포에서 분산은 평균값의 함수이므로 평균값을 추정 할 수 있으면 분산도 추정 할 수 있습니다.pβ0+β1Agep 및 분산은 입니다.) https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/참조하십시오 .p(1p)

단순 포아송 회귀

나이는 어류 비늘 수에 어떤 영향을 미칩니 까? 다음과 같은 간단한 포아송 회귀 모형을 공식화하려고합니다.

log(μ)=β0+β1Age

여기서 는 주어진 연령의 물고기에 대한 결과 변수 "물고기 비늘 수"의 조건부 평균값을 나타냅니다 (즉, 주어진 연령의 호수에있는 모든 물고기에 대한 예상 물고기 비늘 수). 이 모델에서 결과 변수의 조건부 평균은 로그 변환에 입력 된 후 연령에 따라 선형으로 변하는 것으로 가정합니다. 로그 변환 된 조건 평균은 됩니다. 이 모델은 주어진 연령의 호수에있는 모든 물고기에 대한 가변 "물고기 비늘 수"값의 분포가 포아송 분포라고 가정하기 때문에 작동합니다. 이 분포에 대해 평균과 분산이 같으므로 평균값을 모델링하기에 충분합니다.μβ0+β1Age

요약하면 , 조건부 분포는 모형에 포함 된 예측 변수의 특정 값에 대한 결과 값의 분포를 나타냅니다 . 위에 예시 된 각 유형의 회귀 모델은 연령에 따른 결과 변수의 조건부 분포에 대한 특정 분포 가정을 부과합니다. 이러한 분포 가정에 기초하여, 모델은 (1) 조건부 분포의 평균이 연령의 함수에 따라 어떻게 변하는 지 (단순 선형 회귀), (2) 조건부 분포의 로짓 변환 된 평균이 연령 (단순 이진 로지스틱 회귀) 또는 (3) 조건부 분포의 로그 변환 평균은 연령의 함수에 따라 다릅니다.

각 모델 유형에 대해 모델 검사 목적으로 해당 잔차를 정의 할 수 있습니다. 특히, 로지스틱 및 포아송 회귀 모형에 대해 Pearson 및 이탈 잔차를 정의 할 수 있습니다.


2
탁월한 답변. 둘 다 고마워 "실제"잔차가 일반 GLM 프레임 워크에서 정규 배포 사례에서와 같이 실제로 명시 적이 지 않다는 것을 결코 알지 못했습니다.
mlofton

1
@ mlofton : 친절한 말씀 감사합니다. 훌륭한 질문은 훌륭한 답변을 초대했습니다. 우리는 모두이 지식 교환으로부터 혜택을받습니다.
Isabella Ghement

4
나는 GLM을 오랜 시간 (10 년 전과 같이 1 년 또는 2 년 동안) 사용했지만 항상 혼란 스러웠지만 그것이 명확하게 요구되고 명확하게 설명 될 때까지는 그것이 혼란인지 몰랐습니다. 따라서 때때로 혼란은 올바른 질문을 할 수 없다는 것을 의미합니다. 다시 감사합니다.
mlofton

1
너가 확실히 맞아! 혼란은 학습의 한 부분입니다. 우리가 잠시 동안 어려움을 겪을 때, 갑자기 명확한 설명을 발견 할 때 더 잘 이해하게됩니다.
Isabella Ghement

1
@IsabellaGhement
Patrick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.