로짓과 프로 빗 모델의 차이점


299

LogitProbit 모델 의 차이점은 무엇입니까 ?

로지스틱 회귀를 사용할시기와 Probit를 언제 사용해야 하는지를 알고 싶습니다.

R 을 사용하여 정의한 문헌 이 있으면 도움이 될 것입니다.


5
두 (볼이 PAAP & Franses 2000)의 결과의 차이 거의가 존재하지 않는다

1
나는 한때 우리가 프로 빗이 조금 더 잘 맞는 것을 볼 수있는 광범위한 (생체 분석) 데이터 세트를 가지고 있었지만 결론에 아무런 차이가 없었습니다.
kjetil b halvorsen

1
@Alyas Shah : 이것이 왜 내 데이터 프로 빗이 (마지막으로) 더 잘 맞는지에 대한 설명입니다 .-- 일정한 복용량을 초과하면 사망률이 100 %이고 일부 위험 등급을 초과하면 사망률이 0 %이므로 느린 접근 방식을 볼 수 없습니다 로짓의!
kjetil b halvorsen 2016 년

3
실제 데이터의 경우 로짓 또는 프로 빗에서 생성 된 데이터와 반대로이 문제에 대한 신중한 접근 방식은 모델 비교를 실행하는 것입니다. 내 경험상 데이터는 두 모델 중 하나에 거의 의존하지 않습니다.
시안

2
로지스틱 분포의 실제 사용은 일반 CDF와의 유사성과 훨씬 간단한 누적 분포 함수에서 비롯된 것으로 들었습니다. 실제로 정상적인 CDF에는 평가해야 할 필수 요소가 포함되어 있습니다. 계산에 많은 비용이 들었습니다.
dv_bn

답변:


144

주로 링크 기능이 다릅니다.

로짓에서 : Pr(Y=1X)=[1+eXβ]1

Probit에서 : (누적 일반 pdf)Pr(Y=1X)=Φ(Xβ)

다른 방법으로, 물류에는 꼬리가 약간 더 평평합니다. 즉, 프로 빗 곡선이 로짓 곡선보다 축에 더 빠르게 접근합니다.

로 짓은 프로 빗보다 해석이 쉽습니다. 로지스틱 회귀 분석은 로그 확률을 모델링하는 것으로 해석 될 수 있습니다 (즉, 하루에 25 개가 넘는 담배를 피우는 사람은 65 세 이전에 사망 할 확률이 6 배 더 높습니다). 일반적으로 사람들은 로짓으로 모델링을 시작합니다. 각 모델의 우도 값을 사용하여 로짓 대 프로 빗을 결정할 수 있습니다.


6
귀하의 답변 Vinux에 감사드립니다. 그러나 나는 언제 logit을 사용하고 probit을 사용 해야하는지 알고 싶습니다. 나는 로짓이 프로 빗보다 인기가 있고 우리가 로짓 회귀를 사용하는 경우가 많다는 것을 알고 있습니다. 그러나 Probit 모델이 더 유용한 경우가 있습니다. 그 사건이 무엇인지 말씀해 주시겠습니까? 그리고 그러한 사례를 일반 사례와 구별하는 방법.
Beta

5
곡선의 꼬리 부분과 관련하여 때때로 로짓 또는 프로 빗의 선택이 중요합니다. 프로 빗 또는 로짓을 선택하는 정확한 규칙은 없습니다. 우도 (또는 로그 우도) 또는 AIC를보고 모델을 선택할 수 있습니다.
Vinux

12
충고 감사합니다! 로짓과 프로 빗 중에서 선택하는 방법을 자세히 설명 할 수 있습니까? 특히 : (1) 곡선의 꼬리 부분이 걱정되는 시점을 어떻게 알 수 있습니까? (2) 우도, 로그 우도 또는 AIC를보고 모델을 어떻게 선택합니까? 무엇을 구체적으로 살펴 봐야하며, 어떤 모델을 사용해야하는지에 대한 결정에 어떤 영향을 미칩니 까?
DW

글쎄, 프로 빗에 비해 로짓이 실패하는 예를 들어 줄 수 있습니까? 당신이 생각하는 것을 찾을 수 없습니다.
Wok

1
@flies 여기서 는 행렬 의 조옮김을 나타냅니다 . XXX
Mathemanic

445

표준 선형 모형 (예 : 단순 회귀 모형)은 '파트'가 두 개인 것으로 생각할 수 있습니다. 이를 구조적 구성 요소랜덤 구성 요소 라고합니다 . 예를 들면 다음과 같습니다. 처음 두 항 (즉, )은 구조적 구성 요소이며 (정규 분포 된 오류 조건을 나타냄)은 임의 구성 요소입니다. 응답 변수가 정규 분포를 따르지 않는 경우 (예 : 응답 변수가 이진 인 경우)이 방법은 더 이상 유효하지 않을 수 있습니다. 일반화 선형 모델
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(GLiM)은 이러한 경우를 해결하기 위해 개발되었으며 로짓 및 프로 빗 모델은 이진 변수 (또는 프로세스에 일부 적응 된 다중 범주 응답 변수)에 적합한 GLiM의 특수 사례입니다. GLiM은 구조적 구성 요소 , 링크 기능응답 분포의 세 부분으로 구성 됩니다 . 예를 들면 : 여기서 는 다시 구조적 구성 요소이고, 는 링크 함수이며,
g(μ)=β0+β1X
β0+β1Xg()μ공변량 공간의 주어진 지점에서 조건부 반응 분포의 평균입니다. 여기서 구조적 구성 요소에 대해 생각하는 방식은 표준 선형 모델을 사용하는 방식과 실제로 다르지 않습니다. 사실, 이것이 GLiM의 가장 큰 장점 중 하나입니다. 많은 분포에서 분산은 평균의 함수이며 조건부 평균에 적합하고 (응답 분포를 규정 한 경우) 선형 모형 (NB : 실제로는 더 복잡합니다).

링크 함수는 GLiM의 핵심입니다 : 응답 변수의 분포는 비정규이기 때문에 구조적 구성 요소를 응답에 연결하는 것입니다. 로짓과 프로 빗은 링크 (@vinux가 설명했듯이)이므로 링크 기능을 이해하면 어느 것을 사용할지 지능적으로 선택할 수 있습니다. 수용 할 수있는 많은 링크 기능이있을 수 있지만 종종 특수한 기능이 있습니다. 잡초에 너무 멀리 들어가고 싶지 않으면 (이것은 매우 기술적 일 수있다) 예측 된 평균 는 반드시 수학적 분포의 정식 위치 파라미터 와 수학적으로 동일 할 필요는 없다 .β ( 0 , 1 ) ln ( ln ( 1 μ ) )μ. 이것의 장점은 " 대한 최소한의 충분한 통계 가 존재한다는 것"입니다 ( German Rodriguez ). 이항 반응 데이터에 대한 정식 링크 (특히 이항 분포)는 로짓입니다. 그러나, 구조적 구성 요소를 구간 에 맵핑 할 수있는 기능이 많이 있으므로 수용 가능합니다. 프로 빗도 인기가 있지만 때때로 사용되는 다른 옵션 (예 : 보완 로그 로그, , 종종 'cloglog'라고도 함)이 있습니다. 따라서, 가능한 링크 기능이 많이 있으며 링크 기능의 선택이 매우 중요 할 수 있습니다. 다음의 조합에 따라 선택해야합니다. β(0,1)ln(ln(1μ))

  1. 반응 분포에 대한 지식
  2. 이론적 고려 사항
  3. 데이터에 경험적으로 적합합니다.

이러한 아이디어를보다 명확하게 이해하는 데 필요한 개념적인 배경을 조금만 살펴 보았습니다 (용서해주십시오). 이러한 고려 사항을 사용하여 링크 선택을 안내하는 방법에 대해 설명하겠습니다. (@David의 의견 은 실제로 다른 링크가 실제로 선택된 이유를 정확하게 캡처 한다고 생각 합니다 .) 우선, 응답 변수가 Bernoulli 시행의 결과 (즉, 또는 )이면 응답 분포는 다음과 같습니다. 이항식이고 실제로 모델링하는 것은 관측 값이 일 확률입니다 (즉, ). 결과적으로 실수 라인 을 간격 매핑하는 함수011π(Y=1)(,+)(0,1)작동합니다.

실체 이론의 관점에서 공변량 이 성공 확률 과 직접 연결된 것으로 생각하는 경우 일반적으로 로지스틱 회귀 분석은 정식 연결이므로 선택합니다. 그러나 다음 예를 고려하십시오 high_Blood_Pressure. 일부 공변량의 함수 로 모델링 해야합니다. 혈압 자체는 일반적으로 모집단에 분포되어 있습니다 (실제로 알지 못하지만 합리적인 초기 단계 인 것 같습니다). 그러나 임상의는 연구 중에 그것을이 분화했습니다 (즉, 그들은 '높은 혈압'또는 '정상'만을 기록했습니다 ). 이 경우 이론적 인 이유로 프로 빗이 선호됩니다. 이것이 @Elvis가 의미하는 것은 "이진 결과는 숨겨진 가우스 변수에 달려 있습니다"입니다.symmetrical , 성공 확률이 0에서 느리게 상승한다고 생각하지만 1에 가까워지면 더 빨리 테이퍼링됩니다.

마지막으로, 데이터에 대한 모델의 경험적 적합은 문제의 링크 기능의 모양이 실질적으로 다르지 않은 한 (로지트와 프로 빗이 아닌 경우) 링크를 선택하는 데 도움이되지 않을 것입니다. 예를 들어 다음 시뮬레이션을 고려하십시오.

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

우리가 데이터가 프로 빗 모델에 의해 생성되었고 1000 개의 데이터 포인트를 가지고 있음을 알고 있더라도, 프로 빗 모델은 70 %의 시간에 더 잘 맞는다. 마지막 반복을 고려하십시오.

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

그 이유는 로짓 및 프로 빗 링크 함수가 동일한 입력이 주어지면 매우 유사한 출력을 생성하기 때문입니다.

여기에 이미지 설명을 입력하십시오

@vinux가 언급했듯이 로짓과 코너가 '모퉁이를 돌 때'경계에서 약간 더 멀다는 점을 제외하면 로짓과 프로 빗 기능은 실제로 동일합니다. (로짓과 프로 빗이 최적으로 정렬되도록하려면 로짓의 은 프로 빗에 해당하는 기울기 값의 배가 되어야합니다 . 또한, 나막신을 약간 위로 움직여서 위에 올릴 수있었습니다. 그림을 더 읽기 쉽게하기 위해 측면으로 남겨 두었습니다.) cloglog는 비대칭이지만 다른 것들은 그렇지 않습니다. 더 일찍 0에서 멀어지기 시작하지만 더 느리게 접근하고 1에 가까워지고 급격히 회전합니다. β11.7

링크 기능에 대해 몇 가지 더 말할 수 있습니다. 먼저, 항등 함수 ( )를 링크 함수로 고려하면 표준 선형 모형을 일반화 된 선형 모형의 특별한 경우 (즉, 반응 분포는 정상이며, 신원 기능입니다). 또한 링크 인스턴스화하는 모든 변환 이 실제 응답 데이터가 아닌 응답 분포를 제어하는 매개 변수 (즉, )에 적절하게 적용된다는 것을 인식하는 것이 중요 합니다.g(η)=ημ. 마지막으로, 실제로 변환 할 기본 매개 변수가 없기 때문에 이러한 모델에 대한 논의에서 실제 링크로 간주되는 것은 암시 적으로 남겨지고 모델은 대신 구조 구성 요소에 적용된 링크 함수 의 으로 표시됩니다. . 즉 : 예를 들면, 로지스틱 회귀 분석은 일반적으로 표현된다 : 대신 :

μ=g1(β0+β1X)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

일반화 된 선형 모형에 대한 빠르고 명확하지만 확실한 개요는 Fitzmaurice, Laird, & Ware (2004) 10 장 ( 이 답변의 일부에 의존 함 ) 를 참조하십시오. -그리고 다른-소재, 실수는 내 자신의 것입니다). 이러한 모델을 R에 맞추는 방법 에 대해서는 기본 패키지 의 함수 ? glm 에 대한 설명서를 확인하십시오 .

(나중에 한 가지 마지막 메모가 추가되었습니다.) 때때로 사람들은 프로 비트를 해석 할 수 없기 때문에 프로 빗을 사용해서는 안된다고 말합니다. 베타의 해석이 덜 직관적이지만 이것은 사실이 아닙니다. 로지스틱 회귀 분석으로의 하나 개의 단위 변화 와 연관된 '성공'(또는,의 로그 확률 변동 모든 다른 동일하고, 확률에 -fold 변경). 프로 빗의 경우 이것은 의 변화입니다 . ( 예를 들어 점수가 1과 2 인 데이터 세트에서 두 개의 관측 값을 고려하십시오 .) 예측 된 확률 로 변환하기 위해 일반 CDF를 통해 전달할 수 있습니다.X1β1exp(β1)β1 zz또는 테이블 에서 찾아보십시오 . z

(@vinux와 @Elvis 모두 +1입니다. 여기에서 이러한 것들에 대해 생각하고 로짓과 프로 빗 사이의 선택을 해결하기 위해이를 사용하는 더 광범위한 프레임 워크를 제공하려고했습니다.)


79
고마워요 이것이 잘 어울려서 다행입니다. 이것은 실제로 질문 에 답하고 다른 사람의 답변을 묻고 읽음으로써 이력서에 대해 배울 수있는 좋은 예입니다 . 나는이 정보를 미리 알고 있었지만 감기에 쓸 수있을만큼 충분하지는 않았습니다. 그래서 나는 실제로 오래된 텍스트를 통해 자료를 정리하고 명확하게 제시하는 방법을 알아내는 데 시간을 보냈습니다.
gung

6
@gung이 설명에 감사드립니다. 일반적으로 GLM에 대한 가장 명확한 설명 중 하나입니다.
fmark

@whuber "응답 변수가 정규 분포를 따르지 않는 경우 (예 : 응답 변수가 이진 경우)이 접근법 [표준 OLS]은 더 이상 유효하지 않을 수 있습니다." 이것으로 당신을 귀찮게해서 유감이지만, 조금 혼란 스럽습니다. OLS의 종속 변수에 대한 무조건 분포 가정 이 없다는 것을 이해합니다 . 이 인용문은 응답이 너무 비정규 (즉 이진 변수) 이기 때문에 주어진 조건부 분포 (따라서 잔차의 분포)가 정규성에 접근 할 수 없다는 것을 의미합니까? X
landroni

7
@landroni, 당신은 이것에 대해 새로운 질문을 할 수 있습니다. 간단히 말해, 반응이 이항이면 X = xi가 주어진 Y의 조건부 분포는 정규성에 접근 할 수 없습니다. 항상 이항입니다. 미가공 잔차의 분포도 정규성에 근접하지 않습니다. 항상 pi & (1-pi)입니다. 그러나 X = xi (즉, pi)가 주어지면 Y의 조건부 평균의 샘플링 분포 는 정규성에 접근합니다.
gung

2
나는 landroni의 관심사 중 일부를 공유합니다. 결국, 정규 분포 결과 비정규 분포 잔차 및 비정규 분포 결과는 정규 분포 잔차를 가질 수 있습니다. 결과에 대한 문제 는 그 범위보다 분포 자체 에 관한 것보다 적습니다 .
Alexis

47

Vinux의 답변 외에도 이미 가장 중요합니다.

  • 로짓 회귀 분석 의 계수 는 승산 비 측면에서 자연스럽게 해석됩니다.β

  • 이진 결과는 숨겨진 가우스 변수 [eq. 1]과 결정적 방식 : 정확히 .Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • 당신은 결과가이라고 생각하면 더 일반적으로, 더 자연스럽게, probistic 회귀가 더 자연스러운 모델 정확히 어떤 임계 값을 초과 함께, . 이것은 앞에서 언급 한 경우로 축소 될 수 있음을 쉽게 알 수 있습니다. 을 . 방정식 [eq. 1]은 여전히 ​​유지합니다 (계수를 재조정하고 절편을 변환합니다). 이 모델은 의료 상황에서, 예를 들어, 옹호 한 관측되지 않은 연속 변수가 될 것이며, 예를 들면 나타나는 질환 때1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 "병리학 적 임계 값"을 초과합니다.

두 로짓과 프로 빗 모델 만입니다 모델 . Box가 한 번 말한 것처럼 "모든 모델이 잘못되었습니다. 일부는 유용합니다"! 두 모델 모두 결과 에 대한 의 영향의 존재 를 감지 할 수 있습니다 . 매우 특별한 경우를 제외하고는 그들 중 어느 것도 "진정한 사실" 이 아니며 해석 은 신중하게 수행되어야합니다.XY


17
프로 빗 대 로짓 모델의 사용은 징계 전통에 크게 영향을 받는다는 점도 주목할 가치가 있습니다. 예를 들어, 경제학자는 분석을 촉진하는 데 훨씬 더 익숙한 것처럼 보이지만, 심리학 연구원은 주로 로짓 모델에 의존합니다.
David

동전 뒤집기의 모델은 무엇입니까?
skan

32

당신의 진술에 대하여

로지스틱 회귀를 언제 사용해야하는지, 언제 프로 빗을 사용해야하는지 알고 싶습니다.

여기에 둘 중 하나를 선택할 때 고려해야 할 사항이 이미 많이 있지만 아직 언급되지 않은 중요한 고려 사항이 하나 있습니다. 혼합 효과 로지스틱 또는 프로 빗 모델에는 프로 빗 모델을 선호하는 이론적 근거가 있습니다. 물론 이것은 로지스틱 모델을 선호 하는 선험적 인 이유 가 없다고 가정합니다 (예 : 시뮬레이션을 수행하고 실제 모델임을 알고있는 경우).

첫째 , 이것이 왜 참인지를보기 위해 먼저이 두 모델을 임계 연속 회귀 모델로 볼 수 있습니다. 예를 들어 군집 내의 관측치 대한 간단한 선형 혼합 효과 모델을 고려하십시오 .ij

yij=μ+ηj+εij

여기서 는 군집 랜덤 효과이고 는 오류 항입니다. 그런 다음 로지스틱 및 프로 빗 회귀 모델 모두이 모델에서 생성되고 0에서 임계 값으로 동등하게 공식화됩니다.ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

는 IF 용어는 정규 분포, 당신은 프로 빗 회귀를 가지고이 물류 분산되어있는 경우 당신은 로지스틱 회귀 모델을 가지고있다. 척도를 식별하지 못하기 때문에 이러한 잔차 오차는 각각 표준 정규 및 표준 물류로 지정됩니다.εij

Pearson (1900) 은 다변량 정규 데이터가 생성되어 범주 형으로 임계 된 경우 기본 변수 간의 상관 관계는 여전히 통계적으로 식별 되었으며, 이러한 상관 관계는 다항식 상관 관계 라고 하며 이진 경우에는 테트라 코릭 상관 관계 라고 합니다. 이는 프로 빗 모델에서 기본 정규 분포 변수의 클래스 내 상관 계수를 의미합니다.

ICC=σ^2σ^2+1

이는 프로 빗 경우 기본 잠재 변수의 공동 분포를 완전히 특성화 할 수 있음을 의미 합니다 .

이 때문에, 물류 모델에서, 물류 모델의 임의의 효과의 차이는 여전히 식별하지만 완전히 의존 구조 (및 조인트 분포)을 특성화하지 않고 정상 및 물류 랜덤 변수 사이 혼합물 없는 평균과 공분산 행렬로 완전히 지정된 속성. 기본 잠재 변수에 대한이 이상한 모수 적 가정을 주목하면 로지스틱 모델의 랜덤 효과 해석이 일반적으로 해석하기가 덜 명확 해집니다.


6
프로 빗을 선호하는 다른 상황도 있습니다. 계량 선택 모델 (예 : Heckman)은 프로 빗 모델을 통해서만 입증됩니다. 나는 확실하지 않지만 이진 변수가 내생 적 인 일부 SEM 모델도 최대 가능성 추정에 필요한 다변량 정규성의 가정 때문에 프로 빗 모델을 사용한다고 생각합니다.
Andy W

1
@AndyW, 당신은 바이너리 SEM에 대해 옳습니다. 그리고 그것은 내가 여기에서 한 지점과 밀접한 관련이 있습니다-추정 (및 후속 해석)은 기본 상관 관계가 식별되고 공동 분포를 완전히 특성화한다는 사실에 의해 뒷받침됩니다. .
Macro

29

이전 (우수한) 답변에서 다루지 않은 중요한 점은 실제 추정 단계입니다. 다항 로짓 모형에는 쉽게 통합 할 수있는 PDF가 있으므로 선택 확률의 닫힌 형태로 표현됩니다. 정규 분포의 밀도 함수는 그렇게 쉽게 통합되지 않으므로 프로 빗 모델에는 일반적으로 시뮬레이션이 필요합니다. 따라서 두 모델 모두 실제 상황에 대한 추상화이지만로 짓은 더 큰 문제 (여러 대안 또는 큰 데이터 세트)에서 사용하는 것이 일반적으로 더 빠릅니다.

이를보다 명확하게보기 위해 특정 결과가 선택 될 확률은 예측 변수 및 오류 항의 함수입니다 ( Train )xε

P=I[ε>βx]f(ε)dε
여기서 지표 함수 달리 선택한 경우 (1) 및 제로이다. 이 적분을 평가하는 것은 의 가정에 크게 의존 합니다. 로짓 모델에서 이것은 로지스틱 함수이며 프로 빗 모델의 정규 분포입니다. 로짓 모형의 경우If(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

프로 빗 모델에는 이러한 편리한 형태가 없습니다.


4
이것이 실제 현상이 프로 ​​빗에 의해 더 잘 모델링 되더라도 다항식 로짓 함수가 공간적 이산 선택 문제를 추정하기 위해 고전적으로 사용되는 이유입니다.
fmark

공간 요소를 DC 모델에 어떻게 통합 하시겠습니까? 매우 관심이 있습니다.
gregmacfarlane

2
그러나 선택 상황에서는 프로 빗이 더 유연하므로 무어는 오늘 사용했습니다! 다항로 짓은 경험적으로 정당화되지 않는 관련없는 대안의 부적합성을 가정합니다.
kjetil b halvorsen

1
귀하는 IIA가 항상 정당화되는 것은 아니며, 현대식 추정기를 사용하여 프로 빗 모델을 합리적으로 신속하게 추정 할 수 있다는 것도 귀하의 의견입니다. 그러나 GEV 모델은 IIA 문제를 해결하고 특정 상황에서 선택 구조를 더 잘 나타낼 수 있습니다. 또한 프로 빗이 "오늘날 더 많이 사용된다"고 확신하지 않습니다. 내 분야 (운송 모델링)에서 프로 빗 모델은 참신함을 유지합니다.
gregmacfarlane

13

내가 말하려고하는 것은 지금까지 말한 것을 무효화하지 않습니다. 프로 빗 모델은 IIA (Independence of Inrelevant alternatives) 가정으로 고통받지 않으며 로짓 모델은 그 점을 지적하고 싶습니다.

Train의 훌륭한 책의 예를 사용합니다. 파란색 버스를 탈지 또는 내 차를 운전할 것인지를 예측하는 로짓이 있으면 빨간색 버스를 추가하면 자동차와 파란색 버스에서 비례 적으로 그릴 수 있습니다. 그러나 프로 빗 모델을 사용하면이 문제를 피할 수 있습니다. 본질적으로, 양쪽에서 비례 적으로 그리는 대신 파란색 버스에서 더 많이 대체 할 수 있으므로 더 많이 끌 수 있습니다.

위에서 언급 한 것처럼 닫힌 양식 솔루션이 없다는 것이 희생입니다. Probit는 IIA 문제에 대해 걱정할 때 자주 방문하는 경향이 있습니다. 로지트 프레임 워크 (GEV 배포)에서 IIA를 해결할 방법이 없다고 말하는 것은 아닙니다. 그러나 나는 항상 이러한 종류의 모델을 문제를 해결하는 어리석은 방법으로 보았습니다. 당신이 얻을 수있는 계산 속도로, 나는 프로 빗과 함께 가겠다 고 말할 것입니다.


1
"관련없는 대안의 독립성"을 설명해 주시겠습니까?
skan

3
Stata의 mprobit 명령에서와 같이 IIA 가정의 변형을 적용하는 다항식 프로 비트 모델을 추정 할 수 있습니다. 다항식 프로 비트에서 IIA를 제거하려면 반응 변수의 각 대안에 대한 잠재 변수 오차의 분산 공분산 행렬을 모델링해야합니다.
Kenji

8

로짓과 프로 빗의 가장 잘 알려진 차이점 중 하나는 (이론적) 회귀 잔차 분포입니다.


2
그러나 데이터를 이론상 정규 분포 또는 로지스틱 잔차 분포로 표시해야하는지 어떻게 알 수 있습니까?
skan

8

나는 통계적 세부 사항에 들어 가지 않고 "로지스틱 회귀를 사용할 때와 프로 빗을 사용할 때"에만 중점을 두는 것이 아니라 통계에 기반한 의사 결정에 중점을 둔 실질적인 대답을 제공합니다. 답은 두 가지 주요한 사항에 달려 있습니다. 징계 선호도가 있고 데이터에 더 잘 맞는 모델 만 신경 쓰십니까?

기본 차이

로짓 및 프로 빗 모델은 모두 종속 반응 변수가 0 또는 1 일 확률을 제공하는 통계 모델을 제공합니다. 매우 유사하고 종종 실질적으로 동일한 결과가 제공되지만 확률을 계산하기 위해 다른 함수를 사용하기 때문에 결과가 약간 다른.

징계 선호

일부 학문 분야는 일반적으로 둘 중 하나를 선호합니다. 특정 전통적인 선호도를 가진 학문 분야에 결과를 게시하거나 발표하려는 경우, 결과를보다 쉽게 ​​수용 할 수 있도록 선택을 지시하십시오. 예를 들어 ( Methods Consultants에서 )

로지스틱 회귀 분석이라고도하는로 짓은 계수가 승산 비로 해석 될 수 있기 때문에 역학과 같은 건강 과학에서 더 많이 사용됩니다. 프로 비트 모델은 고급 이코노 메트릭 설정 (이 분산 프로 빗 모델이라고 함)에서 일정하지 않은 오차 분산을 설명하기 위해 일반화 될 수 있으므로 일부 상황에서 경제학자와 정치 과학자가 사용합니다.

요점은 결과의 차이가 너무 적어서 일반 사용자가 결과를 이해하는 능력이 두 가지 접근 방식의 사소한 차이보다 중요하다는 것입니다.

관심있는 모든 것이 더 적합하다면 ...

당신의 연구는 하나이 질문의 다른 한 다음 내 연구 선호하지 않는 분야에있는 경우 (더 나은, 로짓 또는 프로 빗이)가 사용하는 것이 일반적으로 더 나은 결론 나를 이끌었다 프로 빗를 하기 때문에 거의 항상 것입니다, 로짓 모델의 데이터와 같거나 우수한 데이터에 통계적으로 적합합니다. 로짓 모델이 더 적합 할 때 가장 주목할만한 예외는 "극단적 독립 변수"(아래 설명)입니다.

저의 결론은 거의 전적으로 (많은 다른 출처를 찾은 후) Hahn, ED & Soyer, R., 2005에 근거하고 있습니다. Probit and logit 모델 : 다변량 영역의 차이점. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf 에서 사용 가능합니다 . 다음은 로짓 대 프로 빗 다변량 모델이 데이터에 더 잘 맞는지 여부에 관한이 기사의 실질적인 결정 결론에 대한 요약입니다.

  • 대부분의 시나리오에서 로짓 및 프로 빗 모델은 다음 두 가지 예외를 제외하고는 데이터를 동일하게 적합합니다.

  • "극단적 독립 변수"의 경우 Logit이 더 좋습니다 . 이들은 독립적으로 큰 변수 또는 작은 값 중 하나가 종속 변수가 0인지 1인지를 압도적으로 결정하여 대부분의 다른 변수의 영향을 무시하는 독립 변수입니다. Hahn과 Soyer는 공식적으로이를 정의합니다 (4 페이지).

극단적으로 독립적 인 변수 수준에는 세 가지 이벤트의 충돌이 포함됩니다. 첫째, 극단 독립 변수 수준은 독립 변수의 상한 또는 하한에서 발생합니다. 예를 들어, 독립 변수 x가 값 1, 2 및 3.2를 취한다고 가정하십시오. 극단적 인 독립 변수 수준에는 x = 3.2 (또는 x = 1)의 값이 포함됩니다. 둘째, 총 n의 실질적인 비율 (예 : 60 %)이이 수준에 있어야합니다. 셋째,이 수준에서 성공할 확률은 그 자체가 극단이어야합니다 (예 : 99 % 이상).

  • 표본 크기가 보통이거나 큰 "무작위 효과 모델"의 경우 프로 비트가 더 좋습니다 (작은 표본 크기의 경우 로짓과 동일). 고정 효과 모델의 경우 프로 빗과 로짓이 동일합니다. 나는 한과 소이어가 그들의 기사에서 "무작위 효과 모델"이 무엇을 의미하는지 이해하지 못한다. 이 스택 교환 질문에서와 같이 많은 정의가 제공되지만 용어의 정의는 실제로 모호하고 일관성이 없습니다 . 그러나 이와 관련하여 로짓이 프로 빗보다 우월하지 않기 때문에 단순히 프로 빗을 선택하여 요점을 무의미하게 만듭니다.

Hahn and Soyer의 분석에 근거하여, 극단적 인 독립 변수의 경우를 제외하고 항상 로짓을 선택해야하는 경우를 제외하고 항상 프로 빗 모델을 사용 하는 것이 결론입니다 . 극단적 인 독립 변수는 그다지 일반적인 것은 아니며 인식하기가 쉬워야합니다. 이 경험 규칙을 사용하면 모델이 임의 효과 모델인지 여부는 중요하지 않습니다. 모델이 랜덤 효과 모델 (프로 빗이 선호되는 경우)이지만 극한의 독립 변수가있는 경우 (로짓이 선호되는 경우) 한과 소이어는 이에 대해 언급하지 않았지만 기사에서 얻은 인상은 극단적 인 독립 변수가 더 우세하므로 로짓이 선호됩니다.


5

아래에서는 프로 빗과 로짓을 특별한 경우로 중첩하고 더 적합한 것을 테스트 할 수있는 추정기를 설명합니다.

프로 빗과로 짓은 잠재적 변수 모델에 중첩 될 수 있습니다.

yi=xiβ+εi,εiG(),

관찰 된 구성 요소가있는 곳

yi=1(yi>0).

를 선택하면 일반 CDF로, 당신은 당신이 물류 CDF를 선택하면, 당신은 로짓을 얻을, 프로 빗를 얻을. 어느 쪽이든, 우도 함수는 형태를 취합니다.G

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

그러나 어떤 가정을했는지 걱정이된다면 Klein & Spady (1993; Econometrica) 추정기를 사용할 수 있습니다. 이 추정값을 사용하면 cdf 의 스펙을 완전히 유연하게 할 수 있으며 , 결과적으로 정규성 또는 로지스틱 (?)의 유효성을 테스트 할 수도 있습니다.G

Klein & Spady에서는 기준 기능이 대신 사용됩니다.

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

여기서 는 cdf의 비모수 추정치입니다 (예 : Nadaraya-Watson 커널 회귀 추정기 사용).G^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

여기서 는 "Kernel"(일반적으로 Gaussian cdf 또는 삼각형 커널이 선택됨)이라고하며 는 "대역폭"입니다. 후자를 위해 선택할 플러그인 값이 있지만 훨씬 더 복잡 할 수 있으며 모든 단계에서 변경 되면 대한 외부 최적화가 더 복잡해질 수 있습니다 ( 는 소위 치우침-균형 상충 관계를 균형 잡습니다 ).Khβhh

개선 사항 : Ichimura는 커널 회귀 가 번째 관찰을 생략해야한다고 제안했습니다 . 그렇지 않으면 의 선택은 표본의 과적 합 (너무 높은 분산) 문제로 인해 복잡해질 수 있습니다.G^ih

토론 : Klein-Spady 추정기의 한 가지 단점은 로컬 최소값에 갇힐 수 있다는 것입니다. 이는 cdf가 주어진 -parameters에 적응하기 때문입니다. 나는 그것을 구현하려고 시도하고 수렴을 달성하고 수치 문제를 피하는 데 문제가있는 여러 학생을 알고 있습니다. 따라서 작업하기 쉬운 추정기가 아닙니다. 더욱이, 추정 된 파라미터에 대한 추론은 대한 반모 수적 사양에 의해 복잡해진다 .GβG


5

그들은 매우 비슷합니다.

두 모델에서 가 주어진 확률은 임의의 숨겨진 변수 (특정 고정 분포) 에 선형으로 의존 하는 특정 임계 값 미만일 확률로 볼 수 있습니다 .Y=1XSX

P(Y=1|X)=P(S<βX)

또는 동등하게 :

P(Y=1|X)=P(βXS>0)

그렇다면 의 분포를 위해 무엇을 선택 하느냐가 중요합니다 .S

  • 로지스틱 회귀 분석에서 는 로지스틱 분포를 갖습니다.S
  • 프로 빗 회귀 분석에서 는 정규 분포를 갖습니다.S

분산은 에 상수를 곱하여 자동으로 보정되므로 중요하지 않습니다 . 절편을 사용하는 경우 평균도 중요하지 않습니다.β

이것은 임계 값 효과로 볼 수 있습니다. 보이지 않는 결과 는 선형 회귀와 같이 노이즈 추가 된 의 선형 함수이며 다음 과 같이 말하면 0/1 결과를 얻습니다.X - SE=βXSXS

  • 일 때 결과는Y = 1E>0Y=1
  • 일 때 결과는Y = 0E<0Y=0

로지스틱과 프로 빗의 차이점은 로지스틱과 정규 분포의 차이에 있습니다. 그다지 많지 않습니다. 조정되면 다음과 같이 보입니다. 여기에 이미지 설명을 입력하십시오

물류는 꼬리가 무겁습니다. 이것은 작은 (<1 %) 또는 높은 (> 99 %) 확률의 사건이 어떻게 적용되는지에 약간의 영향을 줄 수 있습니다. 실제로 대부분의 상황에서 차이는 눈에 띄지 않습니다. 로짓과 프로 빗은 본질적으로 동일한 것을 예측합니다. http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article을 참조 하십시오

"철학적으로", 로지스틱 회귀는 최대 엔트로피의 원리와 동일하게함으로써 정당화 될 수 있습니다 . 엔트로피 모델 /

계산 측면에서 : 물류 분포의 누적 분포는 정규 분포와 달리 닫힌 공식을 가지므로 물류는 더 간단합니다. 그러나 정규 분포는 다차원으로 갈 때 좋은 특성을 가지므로, 고급 사례에서는 종종 프로 빗이 선호됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.