다항 로지스틱 회귀 분석과 일대일 이진 로지스틱 회귀 분석


36

범주가 적고 독립 변수 세트 가있는 종속 변수 가 있다고 가정 해 봅시다 . Y

이항 로지스틱 회귀 분석에 비해 다항 로지스틱 회귀 분석의 장점은 무엇입니까 (즉, 1 대 휴식 계획 )? 이항 로지스틱 회귀 집합을 사용 하면 일 때 각 범주 대해 target = 1로 별도의 이진 로지스틱 회귀 모델을 작성 하고 그렇지 않으면 0을 의미합니다.yiYY=yi


3
수학적으로 다항 로짓 모델은 기본 이진과 비교되는 이진 로짓 모델 집합입니다. 그러나 일반 매개 변수를 축소하고 다른 매개 변수를 결합 할 수 있기 때문에 MNL은 항상 적어도 효율적일 것입니다. 일련의 이항 모델을 사용할 이유가 없습니다.
gregmacfarlane

2
@ gmacfarlane : MNL이 일련의 이진 로지스틱 회귀보다 나은 데이터를 시뮬레이션하려고 시도했지만 평균 품질은 항상 동일했습니다. 리프트 차트를 비교하고 몇 번의 시뮬레이션 결과를 평균 한 후에 거의 동일하게 보입니다. 어쩌면 MNL이 이진 로지스틱 회귀를 능가하도록 데이터를 생성하는 방법을 알고 있습니까? MNL은 큰 장점을 가지고 있지만 점수는 확률로 해석 될 수 있습니다.
Tomek Tarczynski

다항 로지스틱 회귀는 이진 로짓 회귀의 확장입니다. 연구의 종속 변수가 3 이상인 경우에 사용되는 반면, 이진로 짓은 연구의 종속 변수가 2 인 경우에 사용됩니다.

독자에게 : @julieth의 답변에서 시작하여 ttnphns '를 읽어 보는 것이 좋습니다. 전자는 원래 질문에 더 직접적으로 대답하지만 후자는 흥미로운 맥락을 추가한다고 생각합니다. 또한 ttnphns는 널리 사용되는 소프트웨어 루틴에서 사용할 수있는 다양한 기능을 보여줍니다.이 기능은 다른 소프트웨어를 사용하는 이유를 구성 할 수 있습니다 (gregmacfarlane의 설명 참조).
벤오고 렉

답변:


21

경우 아마 의미가 다른 통해 하나의 회귀 "장점"에 대한 두 개 이상의 범주 질문이 당신이 모델 '매개 변수를 비교하는 것을 목표로하는 경우 모델이 근본적으로 다를 수 있기를 :Y

logP(i)P(not i)=logiti=linear combination 이항 로지스틱 회귀에 대한 및i

logP(i)P(r)=logiti=linear combination 다중 로지스틱 회귀 분석의 각 범주에 대한 은 선택된 참조 범주 ( )입니다.irir

귀하의 경우, 목표는 확률 예측 아니라 각 카테고리의 하나 접근 방식을 서로 다른 확률 추정치를 제공 할 수 있습니다 불구하고, 정당화된다. 확률을 추정하는 공식은 다음과 같습니다.i

P(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr) 여기서 은 모든 범주입니다. 이 참조로 선택 되면 입니다. 따라서 이항 로지스틱의 경우 동일한 공식이 됩니다. 다항 로지스틱은 관련이없는 대안독립성 (항상 현실적인 것은 아님)을 가정 하지만 일련의 이진 로지스틱 예측은 그렇지 않습니다.i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


별도의 주제는 가 이분법 인 경우 다항식과 이항 로지스틱 회귀의 기술적 차이점 입니다. 결과에 차이가 있습니까? 공변량이없는 경우 대부분 결과는 동일하지만 알고리즘과 출력 옵션에 차이가 있습니다. SPSS의 해당 문제에 대한 SPSS 도움말을 인용하겠습니다.Y

이항 로지스틱 회귀 모델은 로지스틱 회귀 프로 시저 또는 다항 로지스틱 회귀 프로 시저를 사용하여 적합 할 수 있습니다. 각 절차에는 다른 옵션을 사용할 수 없습니다. 중요한 이론적 구별은 로지스틱 회귀 분석 절차는 데이터 입력 방법 및 공변량 패턴의 수에 관계없이 개별 사례 수준에서 데이터를 사용하여 모든 예측, 잔차, 영향 통계 및 적합도 검정을 생성한다는 것입니다. 다항 로지스틱 회귀 분석 프로시 저는 내부적으로 사례를 집계하여 예측 변수에 대해 동일한 공변량 패턴으로 하위 집단을 형성하고 이러한 하위 집단을 기반으로 예측, 잔차 및 적합도 검정을 생성합니다.

로지스틱 회귀 는 다음과 같은 고유 한 기능을 제공합니다.

• 모델에 적합한 Hosmer-Lemeshow 테스트

• 단계별 분석

• 모델 매개 변수화를 정의하는 대비

• 분류를위한 대체 컷 포인트

• 분류 도표

• 한 세트의 케이스에 고정 된 케이스 세트에 장착 된 모델

• 예측, 잔차 및 영향 통계를 저장합니다

다항 로지스틱 회귀 분석은 다음과 같은 고유 한 기능을 제공합니다.

• 모델의 적합도에 대한 피어슨 및 편차 카이-제곱 검정

적합도 검정을위한 데이터 그룹화를위한 소집단 지정

• 소집단 별 카운트, 예측 카운트 및 잔차 목록

•과 분산에 대한 분산 추정치 보정

모수 추정치의 공분산 행렬

• 매개 변수의 선형 조합 테스트

• 중첩 모델의 명시 적 사양

• 차분 변수를 사용하여 1-1 개의 일치하는 조건부 로지스틱 회귀 모형 적합


나는이 모델들이 다를 것이라는 것을 알고 있지만 어떤 상황에서 어떤 모델이 더 나은지 모르겠습니다. 나는 다른 방법으로 질문을 할 것입니다. 업무를 수행 한 경우 : 각 개인마다 일부 휴대 전화 회사가 가장 선호하는 확률을 예측하십시오 (모두 휴대 전화 회사가 선호하는 것으로 가정). 어떤 방법을 사용하고 두 번째 방법에 비해 장점이 있습니까?
Tomek Tarczynski

@Tomek 나는 나의 대답을 조금 확장했다
ttnphns

@ julieth 's가 OP의 원래 질문에 대한 최선의 답변이라고 생각하지만, 관련없는 대안의 독립 가정에 대한 소개에 대해 귀하에게 빚을집니다. 내가 아직도 가지고있는 한 가지 질문은 별도의 물류가 진정으로 그 주위를 돌아 다니는지의 여부입니다. 언급 된 프로 빗 및 "중첩 된 로짓"에 링크 한 Wikipedia 기사
Ben Ogorek

참조 범주를 선택하여 모델을 맞추는 방법을 설명 할 수 있습니까? 범주의 , 우리는 단지 참조 카테고리에 하나있는 데이터의 하위 집합 사용합니까 또는 카테고리 위해 ? iriir
user21359

13

제목 때문에 "다중 로지스틱 회귀의 장점"은 "다항식 회귀"를 의미한다고 가정합니다. 모델이 동시에 적합 할 때 장점이 있습니다. 이 특정 상황은 Agresti (Categorical Data Analysis, 2002) pg 273에 설명되어 있습니다. 요약하면 (Paramrasing Agresti) 관절 모델의 추정치가 계층화 된 모델과 다를 것으로 예상합니다. 별도의 로지스틱 모델은 더 큰 표준 오류를 갖는 경향이 있지만 가장 빈번한 결과 수준이 참조 수준으로 설정 될 때 그리 나쁘지는 않을 수 있습니다.


감사! 이 책을 찾으려고 노력하겠습니다. unfortunatelly google.books는 268 페이지까지만 콘텐츠를 제공합니다.
Tomek Tarczynski

@TomekTarczynski 나는 단락의 관련 정보를 요약 했으므로 책을 보면이 질문과 관련된 정보를 더 이상 얻지 못할 수 있습니다 (책은 훌륭하지만 다른 좋은 정보를 얻을 수 있습니다).
Julieth

4
Agresti 책의 인용문 : "별도 적합 추정치는 J-1 로짓의 동시 피팅에 대한 ML 추정치와 다릅니다. 효율성이 떨어지고 표준 오류가 더 큰 경향이 있습니다. 그러나 Begg and Gray 1984는 효율 손실을 보여주었습니다 유병률이 가장 높은 반응 범주가 기준선 인 경우에는 미미합니다. "
Franck Dernoncourt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.