종속 변수를 로그 변환했습니다. LOG 링크 기능과 함께 GLM 정규 분포를 사용할 수 있습니까?


10

GLM (Generalized Linear Models)과 관련하여 질문이 있습니다 .DV (종속 변수)는 연속적이고 정상이 아닙니다. 그래서 로그를 변환했습니다 (여전히 정상은 아니지만 개선되었습니다).

DV를 두 가지 범주 형 변수와 하나의 연속 공변량과 관련시키고 싶습니다. 이를 위해 GLM (SPSS를 사용하고 있음)을 수행하려고하지만 선택할 배포 및 기능을 결정하는 방법을 잘 모르겠습니다.

Levene의 비모수 검정을 수행했으며 분산의 동질성이 있으므로 정규 분포를 사용하는 경향이 있습니다. 선형 회귀 분석을 위해 데이터가 정상 일 필요는 없으며 잔차가 있음을 읽었습니다. 따라서 각 GLM에서 선형 예측 변수에 대한 표준화 된 Pearson 잔차 및 예측 값을 개별적으로 인쇄했습니다 (GLM 정규 식별 함수 및 정규 로그 함수). 나는 정규성 테스트 (히스토그램 및 Shapiro-Wilk)를 수행하고 예측 값에 대해 잔차를 플로팅했습니다 (임의 및 분산을 확인하기 위해). 항등 함수의 잔차는 정상이 아니지만 로그 함수의 잔차는 정상입니다. Pearson 잔차가 정규 분포되어 있기 때문에 로그 링크 기능을 사용하여 정규를 선택하는 경향이 있습니다.

그래서 내 질문은 :

  • 이미 로그 변환 된 DV에서 LOG 링크 기능과 함께 GLM 정규 분포를 사용할 수 있습니까?
  • 분산 균질성 검정이 정규 분포를 사용하여 정당화하기에 충분합니까?
  • 링크 기능 모델 선택을 정당화하기 위해 잔차 점검 절차가 정확합니까?

왼쪽의 DV 분포 및 오른쪽의 로그 링크 기능이있는 GLM 노멀의 잔차 이미지.

왼쪽의 DV 분포와 오른쪽의 GLM 법선으로부터의 잔차


" GLM의 Pearson 잔차를 일반 항등 함수 및 정규 로그 함수와 비교했습니다. "
Glen_b -Reinstate Monica

당신의 의견에 감사드립니다. 나는 각 GLM (identity and log)에서 잔차와 예측 값을 개별적으로 인쇄하고 정규성을 검사하고 표준화 된 Pearson 잔차를 각 모델의 개별 값에 대해 플롯했습니다. 항등 함수의 경우 잔차가 정상이 아닌 반면 로그 함수의 경우 잔차가 정상입니다.
과학자

예측 된 값에 대한 표준화 된 Pearson 잔차 그림은 데이터가 실제로 정상인지 여부를 어떻게 나타 냅니까?
Glen_b-복지 주 모니카

잔차 히스토그램을 플로팅하고 Shapiro-Wilk (로그 함수의 경우 P> 0.05)를 수행하여 정규성을 확인했습니다. 그런 다음 예측 값에 대해 잔차를 플로팅하여 값이 무작위로 분포되어 있는지 확인하고 분산을 확인했습니다. (중요한 정보를 말하지 않아서 죄송합니다. 처음 게시 할 때)
과학자

"identity function"은 여기서 "density function"에 대한 homophone slip이라고 생각합니다.
Nick Cox

답변:


7

이미 로그 변환 된 DV에서 LOG 링크 기능과 함께 GLM 정규 분포를 사용할 수 있습니까?

예; 그 규모로 가정이 만족된다면

분산 균질성 검정이 정규 분포를 사용하여 정당화하기에 충분합니까?

분산의 평등이 왜 정규성을 의미합니까?

링크 기능 모델 선택을 정당화하기 위해 잔차 점검 절차가 정확합니까?

히스토그램과 적합도 검정을 모두 사용하여 가정의 적합성을 확인해야합니다.

1) 정규성을 평가하기 위해 히스토그램사용 하십시오 . (또한 여기 참조 )

요컨대, 당신이 선택한 binwidth의 작은 변화 또는 bin 경계의 위치만큼 단순한 것에 따라 데이터 모양에 대해 상당히 다른 인상을 줄 수 있습니다.

잔차의 두 히스토그램

동일한 데이터 세트의 두 히스토그램입니다. 여러 가지 다른 폭을 사용하면 노출이 그에 민감한 지 여부를 확인할 수 있습니다.

2) 정규성 가정이 합리적이라는 결론에 대해 적합도 검정을 사용하도록주의하십시오. 공식 가설 검정은 실제로 올바른 질문에 답하지 않습니다.

예를 들어 항목 2 의 링크를 참조하십시오 . 여기

분산에 대해서는 유사한 분포를 사용하는 일부 논문에서 "분포에 균일 한 분산이 있었기 때문에 가우시안 분포의 GLM이 사용되었습니다"라고 언급했습니다. 이것이 정확하지 않은 경우 어떻게 배포를 정당화하거나 결정할 수 있습니까?

정상적인 상황에서 질문은 '내 오류 (또는 조건부 분포)가 정상입니까?'가 아닙니다. -확인하지 않아도됩니다. 보다 관련성이 높은 질문은 '현재 존재하는 비정규도가 내 추론에 얼마나 나쁜 영향을 미치는가?'입니다.

커널 밀도 추정값 또는 일반 QQplot (잔류 그림 대 정규 점수)을 제안합니다. 분포가 합리적으로 보이면 걱정할 필요가 거의 없습니다. 사실, 분명히 비정규 적 일지라도 여전히 수행하려는 작업에 따라 중요하지 않을 수 있습니다 (예를 들어 정규 예측 간격은 실제로 정규성에 의존하지만 다른 많은 것들이 큰 표본 크기에서 작동하는 경향이 있습니다) )

재미있게도, 큰 표본에서 정규성은 일반적으로 덜 중요 해지고 (위에서 언급 한 PI와는 별개) 정규성을 거부하는 능력은 점점 커집니다.

편집 : 분산의 동등성에 대한 요점은 큰 표본 크기에서도 실제로 추론에 영향을 줄 있다는 것 입니다. 그러나 가설 검정으로도 평가해서는 안됩니다. 분산 가정을 잘못 얻는 것은 가정 한 분포에 관계없이 문제가됩니다.

올바른 적합을 위해 크기 조정 편차가 Np 주위에 있어야한다는 것을 읽었습니다.

정규 모형에 적합하면 척도 모수가 있으며,이 경우 분포가 정상이 아니더라도 축척 편차는 약 Np입니다.

귀하의 의견으로는 로그 링크가있는 정규 분포가 좋은 선택입니다

무엇을 측정하고 있는지 또는 추론을 사용하고 있는지를 계속 알지 못하는 경우에도 GLM에 다른 분포를 제안 할 것인지, 또는 추론에 대한 정규성이 얼마나 중요한지를 판단 할 수 없습니다.

그러나 다른 가정이 합리적이라면 (선형성과 분산의 동등성이 적어도 점검되어야하고 잠재적 인 의존성의 원인이 고려되어야 함), 대부분의 상황에서 CI를 사용하고 계수 또는 대비에 대한 테스트를 수행하는 것과 같은 일을하는 것이 매우 편안합니다 -잔차에 약간의 왜곡이 생길 수 있습니다. 실제 잔차 일지라도 그러한 종류의 추론에 실질적인 영향을 미치지 않아야합니다.

요컨대, 당신은 괜찮을 것입니다.

(다른 배포 및 링크 기능 은 적합 측면에서 조금 더 나을 있지만 제한된 상황에서만 더 이해하기 쉬울 것입니다.)


다시 감사합니다! 분산에 대해서는 유사한 분포를 사용하는 일부 논문에서 "분포에 균일 한 분산이 있었기 때문에 가우시안 분포의 GLM이 사용되었습니다"라고 언급했습니다. 이것이 정확하지 않은 경우 어떻게 배포를 정당화하거나 결정할 수 있습니까? 잔차 정규 분포와 관련하여 더 적합하다는 것을 의미합니까? 올바른 적합을 위해 크기 조정 편차가 Np 주위에 있어야한다는 것을 읽었습니다. 이 값은 GLM과 Np에서 동일합니다. 또한 AIC 기준을 사용하여 모델에서 가장 적합한 모델을 식별했습니다. 이것이 당신이 의도 한 것인지 확실하지 않습니다.
과학자

위의 내 편집 내용에 대한 토론을 참조하십시오
Glen_b -Reinstate Monica

좋은 설명을 위해 @Glen_b에게 감사드립니다. Shapiro-Wilk를 사용하여 테스트 한 히스토그램도 모든 것을 고려하지 않습니까? QQ는 예상 정상 및 관찰 된 Pearson 잔차 값을 플로팅했으며 점은 약간 위쪽으로가는 팁을 제외하고 선에 맞습니다. 이것이 당신이 의미 한 것입니까? 잔차 분포가 정상적으로 보이므로 계속 진행할 수 있습니까? (기록 된 DV가 정상이 아닌 경우에도) (링크를 계속 읽고 있지만이 질문을하고
과학자

1
" 이 모형에 대해 정규 QQ 도표가 정상적으로 분포 되었기 때문에? ... ..."잔차의 QQ 도표가 정규성의 가정이 합리적임을 암시합니다 "또는"잔차가 정상에 합리적으로 가깝습니다 "라고 말할 수 있습니다. 잠재 고객이 가설 검정을 기대하는 경우 여전히 가설 검정을 인용 할 수 있습니다 (그러나 이것이 도움이되지 않는다는 사실은 변경하지 않습니다). " 데이터 세트의 문제점은 DV의 히스토그램에서 "... 무조건 DV 또는 IV의 분포에 대한 가정이 없다는 것입니다.
Glen_b-복지 주 모니카

1
내 답변의 맨 아래에있는 추가 토론을 참조하십시오. 더 일찍 대답하지 않아서 미안하지만 자고있었습니다. 다른 질문에서, 내가 물었던 이유는 두 모델이 대부분의 가정을 공유했기 때문에 DV가 다르더라도 거의 모든 논의가 그 질문과 관련이 있기 때문입니다. 그것은 아니다 정확히 같은 상황 (그래서 새로운 질문이어야 함),하지만 당신은 어떤 다른 또는 추가적인 문제가 있는지 여부 등이 논의의 맥락에서 질문을 요청할 수 있도록이 문제는, 그것에서 연결되어야한다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.