로그 선형 회귀와 로지스틱 회귀


21

누구든지 로그 선형 회귀와 로지스틱 회귀의 명확한 차이점 목록을 제공 할 수 있습니까? 전자가 단순한 선형 회귀 모델이라는 것을 알고 있지만 각 모델을 언제 사용해야하는지 명확하지 않습니다.

답변:


19

이름은 약간의 오해입니다. 전통적으로 로그 선형 모델은 우발성 테이블 형식의 데이터 분석에 사용되었습니다. "수 데이터"가 반드시 포아송 분포를 따를 필요는 없지만, 로그 선형 모델은 실제로 포아송 회귀 모델 일뿐입니다. 따라서 "로그"이름 (포아송 회귀 모델에는 "로그"링크 기능이 포함됨).

선형 회귀 모델의 "로그 변환 결과 변수"는 로그 선형 모델이 아닙니다 ( "로그 선형"이 제안한대로 지수화 된 결과 변수도 아닙니다). 로그 선형 모델과 로지스틱 회귀는 일반화 된 선형 모델의 예이며 , 선형 예측 변수 (예 : log-odds 또는 log-rates) 간의 관계 는 모형 변수에서 선형입니다. 그것들은 "단순 선형 회귀 모델"(또는 일반적인 형식을 사용하는 모델)이 아닙니다 .이자형[와이|엑스]=에이+엑스

그럼에도 불구하고 로지스틱 회귀와 포아송 회귀를 사용하여 범주 형 변수 간의 연관성에 대해 동등한 추론을 얻을 수 있습니다. 포아송 모형에서 결과 변수는 공변량처럼 취급됩니다. 흥미롭게도, 비례 배당률 모델과 매우 유사한 방식으로 그룹 전체에 정보를 빌리는 일부 모델을 설정할 수 있지만 이것은 잘 이해되지 않고 거의 사용되지 않습니다.

R을 사용하여 로지스틱 및 포아송 회귀 모델에서 동등한 추론을 얻는 예는 다음과 같습니다.

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

흥미롭고 와 사이의 연관성이 없다는 것은 로지스틱 회귀 모형에서 승산 비가 1이고, 로그 선형 모형에서 교호 작용 항이 0임을 의미합니다. 우발 사태 테이블 데이터에서 조건부 독립성을 측정하는 방법에 대한 아이디어를 제공합니다.x와이엑스


다시 말하지만, 아마도 내 경험이 부족한 것 같지만 우발 상황 테이블에 대한 정의를 제공 할 수 있습니까? 이 질문을 겪는 다른 사람들에게도 도움이 될 수 있습니다.
user38133

우발 테이블은 (보통) 2 차원 테이블로, 두 변수의 가능한 모든 반응을 열거하고 셀의 관측 빈도를 보여줍니다. 예를 들어 흡연과 암 위험 사이의 연관성을 추정하는 데 사용할 흡연 상태 (절대 vs. 현재)와 암 (폐 ca 대 암 없음)을 나타내는 2 x 2 비 상표가있을 수 있습니다.
AdamO

15

나는 그것들 중 하나를 "간단한 선형 회귀 모델"이라고 부르지 않을 것이라고 생각합니다. 로그 또는 로짓 변환을 여러 다른 모델의 링크 함수로 사용할 수 있지만 일반적으로 특정 모델을 참조하는 것으로 이해됩니다. 예를 들어, "로지스틱 회귀"는 반응 변수가 이항으로 분포 된 상황에서 GLiM ( Generalized Linear Model )으로 이해됩니다 . 또한, "log-linear regression"은 일반적으로 다 방향 우연성 테이블에 적용되는 Poisson GLiM으로 이해됩니다.. 다시 말해, 그것들이 모두 회귀 모델 / GLiM이라는 사실을 넘어서서, 나는 그것들이 반드시 매우 유사한 것으로 보지 않습니다 (@AdamO가 지적한 것처럼 그들 사이에 약간의 연결이 있지만 전형적인 사용법은 상당히 다릅니다). 가장 큰 차이점은 로지스틱 회귀 분석에서 반응이 이항 분포로 가정되고 로그 선형 회귀 분석에서 반응이 포아송 으로 분포된다고 가정한다는 것 입니다. 사실, 로그 선형 회귀는 응답 변수가 실제로는 (일반적인 의미에서) 변수 중 하나가 아니라 변수 조합과 관련된 빈도 수 세트라는 점에서 대부분의 회귀 모델과는 다릅니다. 다 방향 우발 사태 표에서.


감사! 그렇다면 내 경험 부족을 보여주는 자연스러운 후속 질문은 주어진 문제를 모델링하는 데 적합한 분포가 무엇인지 결정하는 방법에 관한 것입니다. 항상 올바르게 선택할 수 있도록 조금 더 읽어야한다고 생각합니다.
user38133

2
{0, 1}

0

명확히하기 위해 "이진"로지스틱 회귀 분석에는 두 가지 결과가있는 종속 변수가 있습니다. 내 이해는 종속 결과 변수가 2 개 이상의 범주를 갖는 경우 "다항식"로지스틱 회귀를 사용하는 옵션도 있다는 것입니다. 여기를 참조 하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.