로그 변환 응답이있는 선형 모델과 로그 링크가있는 일반화 된 선형 모델


46

에서 본 논문 제목 "일반화 선형 모델 APPLIED TO 의료 데이터 중 선택"저자는 쓰기 :

일반화 된 선형 모형에서 평균은 반응 자체를 변환하는 대신 링크 함수에 의해 변환됩니다. 두 가지 변환 방법은 결과가 매우 다를 수 있습니다. 예를 들어, 로그 변환 된 반응의 평균은 평균 반응의 로그와 같지 않습니다 . 일반적으로 전자는 평균 응답으로 쉽게 변환 할 수 없습니다. 따라서 평균을 변환하면 결과를 더 쉽게 해석 할 수 있습니다. 특히 평균 매개 변수가 측정 된 응답과 동일한 척도로 유지됩니다.

그들은 로그 변환 된 응답이있는 선형 모델 (LM) 대신 로그 링크가있는 일반화 선형 모델 (GLM)을 피팅하는 것이 좋습니다. 나는이 접근법의 장점을 이해하지 못하며 나에게는 매우 드문 것 같습니다.

내 응답 변수는 로그 정규 분포로 보입니다. 계수와 표준 오류 측면에서 비슷한 결과를 얻습니다.

여전히 궁금합니다 : 변수에 로그 정규 분포가 있는 경우 평균 변환되지 않은 변수의 로그 보다 로그 변환 변수의 평균이 바람직 하지 않습니다 . 평균은 정규 분포의 자연적인 요약이며 로그입니다. 변형 된 변수는 정규 분포되지만 변수 자체는 그렇지 않습니까?


3
로그 정규 분포 변수가 있다면 나는 당신의 단서에 동의합니다. 그러나 원래 데이터 규모를 기반으로 쉽게 이해할 수있는 통계를 얻으려면 평균을 "역변환"해야합니다. 이 기사의 결론을 설명 할 수 있습니다. 또한 로그 변환 후 정규 분포 변수를 얻지 못할 수 있으며이 경우 어떤 접근법이 더 나은지 알 수 없습니다.
soufanom

답변:


46

실제적인 관점에서 로그 변환 된 변수의 평균이 선호되는 것처럼 보일 수 있지만 (이는 로그 노멀이 일반적으로 매개 변수화되는 방식이므로) 평균의 로그가 일반적으로 훨씬 더 유용합니다.

이것은 모델이 정확하게 정확하지 않고 George Box를 인용 할 때 특히 그렇습니다. "모든 모델이 잘못되었고 일부는 유용합니다."

일정량의 로그가 정상적으로 분포되어 있다고 가정하고 혈압이 (의료인이 아닙니다!) 남성과 여성이 있습니다. 평균 혈압은 남성보다 여성에서 더 높다고 가정 할 수 있습니다. 이것은 평균 혈압의 로그가 남성보다 여성에서 더 높은지 묻는 것과 정확히 일치합니다. 그것은 남성의 여성에서 로그 혈압의 평균이 더 높은지를 묻는 것과 동일하지 않습니다 .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

분명히 그렇게하면 대수학이 끔찍하게 복잡해 지지만 여전히 작동하며 동일한 것을 의미합니다.

ln(μ)σln2μln

μln

지금까지 우리는 혈압이 진정으로 정상이라고 가정했습니다. 실제 분포가 대수 정규 분포가 아닌 경우 데이터 변환은 "일반적인"매개 변수가 실제로 무엇을 의미하는지 알 수 없기 때문에 (보통) 위의 것보다 훨씬 나빠질 것입니다. 즉, 위에서 얻은 평균과 분산에 대한 두 가지 방정식이 올바른지 알 수 없습니다. 이를 사용하여 앞뒤로 변환하면 추가 오류가 발생합니다.


나는 이것이 매우 유용하다는 것을 발견했다 : christoph-scherber.de/content/PDF%20Files/…
Aditya

2
코 로네, 나는 당신의 대답에서 두 가지 중요한 문장을 강조했습니다. 나는 당신이 상관하지 않기를 바랍니다. 동의하지 않으면 롤백하십시오.
Stefan

17

다음은 생물 통계학을 공부하는 동안 수행 한 고급 데이터 분석 과정에서 얻은 2 센트입니다 (교수의 메모 외에 다른 참고 자료는 없지만).

데이터의 선형성 및 이분산성 (불균형 분산)을 해결해야하는지 아니면 선형성 만 사용해야하는지 여부로 요약됩니다.

그녀는 데이터 변환이 모델의 선형성 및 분산 가정 모두에 영향을 준다고 지적합니다. 예를 들어, 잔차에 두 가지 모두에 문제가있는 경우 데이터 변환을 고려하여 잠재적으로 두 가지를 모두 해결할 수 있습니다. 변환은 오류와 그에 따른 분산을 변환합니다.

반대로 링크 함수를 사용하면 분산이 아닌 선형성 가정에만 영향을줍니다. 로그는 평균 (예상 값)을 취하므로 잔차의 분산에는 영향을 미치지 않습니다.

요약하면, 일정하지 않은 분산에 문제가없는 경우 변형에 대해 링크 기능을 사용하는 것이 좋습니다 .이 경우 분산을 변경 하지 않기를 하기 때문 입니다 (이미 가정을 충족하고 있음).


6
링크 기능은 평균에만 영향을 주지만 링크 기능은 GLM의 일부일뿐입니다. 귀하의 의견은 로그 링크가있는 가우시안 glm에 적용됩니다. 감마 로그 링크 GLM은 로그 스케일로 일정한 분산을 로그를 취하고 피팅 같은 분산 기능 가정 (제곱 평균 편차에 비례)를 가질 것이다. GLM 프레임 워크 내의 다른 제품군에는 다른 분산 기능이 있습니다. 불행하게도 GLM에 대한 Wikipedia 페이지의 표에는 배포 제품군에 대한 분산 기능이 생략되어 있습니다.
Glen_b

2
그들은 여기서 몇 가지 예를 언급합니다 . 여기는 감마입니다
Glen_b 2

-1

검증 가능한 응답이 대칭이 아니고 (정상으로 분배되지 않음) 로그 변환 응답이 정상이면 변환 응답에 대한 선형 회귀가 사용되며 지수 계수는 기하 평균의 배급을 제공합니다.

검증 가능한 응답이 대칭 (정상으로 분배 됨)이지만 설명 (X)과 응답 간의 관계가 선형이 아니지만 로그 예상 값이 X의 선형 함수 인 경우 로그 링크가있는 GLM이 사용되며 지수 계수는 산술 평균의 비율을 제공합니다


이 답변은 명확하지 않습니다. "실제"가 아니라 "가변"을 의미 했습니까?
Michael Chernick

이것은 답변의 일부입니다. 이것이 어떻게 질문과 관련이 있는지, 그리고 질문에 대한 답이 실제로이 통찰력을 바탕으로 무엇인지 명확히해야합니다.
ReneBt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.