Logit 과 Probit 모델 의 차이점은 무엇입니까 ?
로지스틱 회귀를 사용할시기와 Probit를 언제 사용해야 하는지를 알고 싶습니다.
R 을 사용하여 정의한 문헌 이 있으면 도움이 될 것입니다.
Logit 과 Probit 모델 의 차이점은 무엇입니까 ?
로지스틱 회귀를 사용할시기와 Probit를 언제 사용해야 하는지를 알고 싶습니다.
R 을 사용하여 정의한 문헌 이 있으면 도움이 될 것입니다.
답변:
주로 링크 기능이 다릅니다.
로짓에서 :
Probit에서 : (누적 일반 pdf)
다른 방법으로, 물류에는 꼬리가 약간 더 평평합니다. 즉, 프로 빗 곡선이 로짓 곡선보다 축에 더 빠르게 접근합니다.
로 짓은 프로 빗보다 해석이 쉽습니다. 로지스틱 회귀 분석은 로그 확률을 모델링하는 것으로 해석 될 수 있습니다 (즉, 하루에 25 개가 넘는 담배를 피우는 사람은 65 세 이전에 사망 할 확률이 6 배 더 높습니다). 일반적으로 사람들은 로짓으로 모델링을 시작합니다. 각 모델의 우도 값을 사용하여 로짓 대 프로 빗을 결정할 수 있습니다.
표준 선형 모형 (예 : 단순 회귀 모형)은 '파트'가 두 개인 것으로 생각할 수 있습니다. 이를 구조적 구성 요소 및 랜덤 구성 요소 라고합니다 . 예를 들면 다음과 같습니다.
처음 두 항 (즉, )은 구조적 구성 요소이며 (정규 분포 된 오류 조건을 나타냄)은 임의 구성 요소입니다. 응답 변수가 정규 분포를 따르지 않는 경우 (예 : 응답 변수가 이진 인 경우)이 방법은 더 이상 유효하지 않을 수 있습니다. 일반화 선형 모델
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ
링크 함수는 GLiM의 핵심입니다 : 응답 변수의 분포는 비정규이기 때문에 구조적 구성 요소를 응답에 연결하는 것입니다. 로짓과 프로 빗은 링크 (@vinux가 설명했듯이)이므로 링크 기능을 이해하면 어느 것을 사용할지 지능적으로 선택할 수 있습니다. 수용 할 수있는 많은 링크 기능이있을 수 있지만 종종 특수한 기능이 있습니다. 잡초에 너무 멀리 들어가고 싶지 않으면 (이것은 매우 기술적 일 수있다) 예측 된 평균 는 반드시 수학적 분포의 정식 위치 파라미터 와 수학적으로 동일 할 필요는 없다 .β ( 0 , 1 ) ln ( − ln ( 1 − μ ) ). 이것의 장점은 " 대한 최소한의 충분한 통계 가 존재한다는 것"입니다 ( German Rodriguez ). 이항 반응 데이터에 대한 정식 링크 (특히 이항 분포)는 로짓입니다. 그러나, 구조적 구성 요소를 구간 에 맵핑 할 수있는 기능이 많이 있으므로 수용 가능합니다. 프로 빗도 인기가 있지만 때때로 사용되는 다른 옵션 (예 : 보완 로그 로그, , 종종 'cloglog'라고도 함)이 있습니다. 따라서, 가능한 링크 기능이 많이 있으며 링크 기능의 선택이 매우 중요 할 수 있습니다. 다음의 조합에 따라 선택해야합니다.
이러한 아이디어를보다 명확하게 이해하는 데 필요한 개념적인 배경을 조금만 살펴 보았습니다 (용서해주십시오). 이러한 고려 사항을 사용하여 링크 선택을 안내하는 방법에 대해 설명하겠습니다. (@David의 의견 은 실제로 다른 링크가 실제로 선택된 이유를 정확하게 캡처 한다고 생각 합니다 .) 우선, 응답 변수가 Bernoulli 시행의 결과 (즉, 또는 )이면 응답 분포는 다음과 같습니다. 이항식이고 실제로 모델링하는 것은 관측 값이 일 확률입니다 (즉, ). 결과적으로 실수 라인 을 간격 매핑하는 함수작동합니다.
실체 이론의 관점에서 공변량 이 성공 확률 과 직접 연결된 것으로 생각하는 경우 일반적으로 로지스틱 회귀 분석은 정식 연결이므로 선택합니다. 그러나 다음 예를 고려하십시오 high_Blood_Pressure
. 일부 공변량의 함수 로 모델링 해야합니다. 혈압 자체는 일반적으로 모집단에 분포되어 있습니다 (실제로 알지 못하지만 합리적인 초기 단계 인 것 같습니다). 그러나 임상의는 연구 중에 그것을이 분화했습니다 (즉, 그들은 '높은 혈압'또는 '정상'만을 기록했습니다 ). 이 경우 이론적 인 이유로 프로 빗이 선호됩니다. 이것이 @Elvis가 의미하는 것은 "이진 결과는 숨겨진 가우스 변수에 달려 있습니다"입니다.symmetrical , 성공 확률이 0에서 느리게 상승한다고 생각하지만 1에 가까워지면 더 빨리 테이퍼링됩니다.
마지막으로, 데이터에 대한 모델의 경험적 적합은 문제의 링크 기능의 모양이 실질적으로 다르지 않은 한 (로지트와 프로 빗이 아닌 경우) 링크를 선택하는 데 도움이되지 않을 것입니다. 예를 들어 다음 시뮬레이션을 고려하십시오.
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
우리가 데이터가 프로 빗 모델에 의해 생성되었고 1000 개의 데이터 포인트를 가지고 있음을 알고 있더라도, 프로 빗 모델은 70 %의 시간에 더 잘 맞는다. 마지막 반복을 고려하십시오.
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
그 이유는 로짓 및 프로 빗 링크 함수가 동일한 입력이 주어지면 매우 유사한 출력을 생성하기 때문입니다.
@vinux가 언급했듯이 로짓과 코너가 '모퉁이를 돌 때'경계에서 약간 더 멀다는 점을 제외하면 로짓과 프로 빗 기능은 실제로 동일합니다. (로짓과 프로 빗이 최적으로 정렬되도록하려면 로짓의 은 프로 빗에 해당하는 기울기 값의 배가 되어야합니다 . 또한, 나막신을 약간 위로 움직여서 위에 올릴 수있었습니다. 그림을 더 읽기 쉽게하기 위해 측면으로 남겨 두었습니다.) cloglog는 비대칭이지만 다른 것들은 그렇지 않습니다. 더 일찍 0에서 멀어지기 시작하지만 더 느리게 접근하고 1에 가까워지고 급격히 회전합니다.
링크 기능에 대해 몇 가지 더 말할 수 있습니다. 먼저, 항등 함수 ( )를 링크 함수로 고려하면 표준 선형 모형을 일반화 된 선형 모형의 특별한 경우 (즉, 반응 분포는 정상이며, 신원 기능입니다). 또한 링크 인스턴스화하는 모든 변환 이 실제 응답 데이터가 아닌 응답 분포를 제어하는 매개 변수 (즉, )에 적절하게 적용된다는 것을 인식하는 것이 중요 합니다.. 마지막으로, 실제로 변환 할 기본 매개 변수가 없기 때문에 이러한 모델에 대한 논의에서 실제 링크로 간주되는 것은 암시 적으로 남겨지고 모델은 대신 구조 구성 요소에 적용된 링크 함수 의 역 으로 표시됩니다. . 즉 :
예를 들면, 로지스틱 회귀 분석은 일반적으로 표현된다 :
대신 :
일반화 된 선형 모형에 대한 빠르고 명확하지만 확실한 개요는 Fitzmaurice, Laird, & Ware (2004) 10 장 ( 이 답변의 일부에 의존 함 ) 를 참조하십시오. -그리고 다른-소재, 실수는 내 자신의 것입니다). 이러한 모델을 R에 맞추는 방법 에 대해서는 기본 패키지 의 함수 ? glm 에 대한 설명서를 확인하십시오 .
(나중에 한 가지 마지막 메모가 추가되었습니다.) 때때로 사람들은 프로 비트를 해석 할 수 없기 때문에 프로 빗을 사용해서는 안된다고 말합니다. 베타의 해석이 덜 직관적이지만 이것은 사실이 아닙니다. 로지스틱 회귀 분석으로의 하나 개의 단위 변화 와 연관된 '성공'(또는,의 로그 확률 변동 모든 다른 동일하고, 확률에 -fold 변경). 프로 빗의 경우 이것은 의 변화입니다 . ( 예를 들어 점수가 1과 2 인 데이터 세트에서 두 개의 관측 값을 고려하십시오 .) 예측 된 확률 로 변환하기 위해 일반 CDF를 통해 전달할 수 있습니다.또는 테이블 에서 찾아보십시오 .
(@vinux와 @Elvis 모두 +1입니다. 여기에서 이러한 것들에 대해 생각하고 로짓과 프로 빗 사이의 선택을 해결하기 위해이를 사용하는 더 광범위한 프레임 워크를 제공하려고했습니다.)
Vinux의 답변 외에도 이미 가장 중요합니다.
로짓 회귀 분석 의 계수 는 승산 비 측면에서 자연스럽게 해석됩니다.
이진 결과는 숨겨진 가우스 변수 [eq. 1]과 결정적 방식 : 정확히 .
당신은 결과가이라고 생각하면 더 일반적으로, 더 자연스럽게, probistic 회귀가 더 자연스러운 모델 정확히 어떤 임계 값을 초과 함께, . 이것은 앞에서 언급 한 경우로 축소 될 수 있음을 쉽게 알 수 있습니다. 을 . 방정식 [eq. 1]은 여전히 유지합니다 (계수를 재조정하고 절편을 변환합니다). 이 모델은 의료 상황에서, 예를 들어, 옹호 한 관측되지 않은 연속 변수가 될 것이며, 예를 들면 나타나는 질환 때 "병리학 적 임계 값"을 초과합니다.
두 로짓과 프로 빗 모델 만입니다 모델 . Box가 한 번 말한 것처럼 "모든 모델이 잘못되었습니다. 일부는 유용합니다"! 두 모델 모두 결과 에 대한 의 영향의 존재 를 감지 할 수 있습니다 . 매우 특별한 경우를 제외하고는 그들 중 어느 것도 "진정한 사실" 이 아니며 해석 은 신중하게 수행되어야합니다.
당신의 진술에 대하여
로지스틱 회귀를 언제 사용해야하는지, 언제 프로 빗을 사용해야하는지 알고 싶습니다.
여기에 둘 중 하나를 선택할 때 고려해야 할 사항이 이미 많이 있지만 아직 언급되지 않은 중요한 고려 사항이 하나 있습니다. 혼합 효과 로지스틱 또는 프로 빗 모델에는 프로 빗 모델을 선호하는 이론적 근거가 있습니다. 물론 이것은 로지스틱 모델을 선호 하는 선험적 인 이유 가 없다고 가정합니다 (예 : 시뮬레이션을 수행하고 실제 모델임을 알고있는 경우).
첫째 , 이것이 왜 참인지를보기 위해 먼저이 두 모델을 임계 연속 회귀 모델로 볼 수 있습니다. 예를 들어 군집 내의 관측치 대한 간단한 선형 혼합 효과 모델을 고려하십시오 .
여기서 는 군집 랜덤 효과이고 는 오류 항입니다. 그런 다음 로지스틱 및 프로 빗 회귀 모델 모두이 모델에서 생성되고 0에서 임계 값으로 동등하게 공식화됩니다.
는 IF 용어는 정규 분포, 당신은 프로 빗 회귀를 가지고이 물류 분산되어있는 경우 당신은 로지스틱 회귀 모델을 가지고있다. 척도를 식별하지 못하기 때문에 이러한 잔차 오차는 각각 표준 정규 및 표준 물류로 지정됩니다.
Pearson (1900) 은 다변량 정규 데이터가 생성되어 범주 형으로 임계 된 경우 기본 변수 간의 상관 관계는 여전히 통계적으로 식별 되었으며, 이러한 상관 관계는 다항식 상관 관계 라고 하며 이진 경우에는 테트라 코릭 상관 관계 라고 합니다. 이는 프로 빗 모델에서 기본 정규 분포 변수의 클래스 내 상관 계수를 의미합니다.
이는 프로 빗 경우 기본 잠재 변수의 공동 분포를 완전히 특성화 할 수 있음을 의미 합니다 .
이 때문에, 물류 모델에서, 물류 모델의 임의의 효과의 차이는 여전히 식별하지만 완전히 의존 구조 (및 조인트 분포)을 특성화하지 않고 정상 및 물류 랜덤 변수 사이 혼합물 없는 평균과 공분산 행렬로 완전히 지정된 속성. 기본 잠재 변수에 대한이 이상한 모수 적 가정을 주목하면 로지스틱 모델의 랜덤 효과 해석이 일반적으로 해석하기가 덜 명확 해집니다.
이전 (우수한) 답변에서 다루지 않은 중요한 점은 실제 추정 단계입니다. 다항 로짓 모형에는 쉽게 통합 할 수있는 PDF가 있으므로 선택 확률의 닫힌 형태로 표현됩니다. 정규 분포의 밀도 함수는 그렇게 쉽게 통합되지 않으므로 프로 빗 모델에는 일반적으로 시뮬레이션이 필요합니다. 따라서 두 모델 모두 실제 상황에 대한 추상화이지만로 짓은 더 큰 문제 (여러 대안 또는 큰 데이터 세트)에서 사용하는 것이 일반적으로 더 빠릅니다.
이를보다 명확하게보기 위해 특정 결과가 선택 될 확률은 예측 변수 및 오류 항의 함수입니다 ( Train )
프로 빗 모델에는 이러한 편리한 형태가 없습니다.
내가 말하려고하는 것은 지금까지 말한 것을 무효화하지 않습니다. 프로 빗 모델은 IIA (Independence of Inrelevant alternatives) 가정으로 고통받지 않으며 로짓 모델은 그 점을 지적하고 싶습니다.
Train의 훌륭한 책의 예를 사용합니다. 파란색 버스를 탈지 또는 내 차를 운전할 것인지를 예측하는 로짓이 있으면 빨간색 버스를 추가하면 자동차와 파란색 버스에서 비례 적으로 그릴 수 있습니다. 그러나 프로 빗 모델을 사용하면이 문제를 피할 수 있습니다. 본질적으로, 양쪽에서 비례 적으로 그리는 대신 파란색 버스에서 더 많이 대체 할 수 있으므로 더 많이 끌 수 있습니다.
위에서 언급 한 것처럼 닫힌 양식 솔루션이 없다는 것이 희생입니다. Probit는 IIA 문제에 대해 걱정할 때 자주 방문하는 경향이 있습니다. 로지트 프레임 워크 (GEV 배포)에서 IIA를 해결할 방법이 없다고 말하는 것은 아닙니다. 그러나 나는 항상 이러한 종류의 모델을 문제를 해결하는 어리석은 방법으로 보았습니다. 당신이 얻을 수있는 계산 속도로, 나는 프로 빗과 함께 가겠다 고 말할 것입니다.
나는 통계적 세부 사항에 들어 가지 않고 "로지스틱 회귀를 사용할 때와 프로 빗을 사용할 때"에만 중점을 두는 것이 아니라 통계에 기반한 의사 결정에 중점을 둔 실질적인 대답을 제공합니다. 답은 두 가지 주요한 사항에 달려 있습니다. 징계 선호도가 있고 데이터에 더 잘 맞는 모델 만 신경 쓰십니까?
기본 차이
로짓 및 프로 빗 모델은 모두 종속 반응 변수가 0 또는 1 일 확률을 제공하는 통계 모델을 제공합니다. 매우 유사하고 종종 실질적으로 동일한 결과가 제공되지만 확률을 계산하기 위해 다른 함수를 사용하기 때문에 결과가 약간 다른.
징계 선호
일부 학문 분야는 일반적으로 둘 중 하나를 선호합니다. 특정 전통적인 선호도를 가진 학문 분야에 결과를 게시하거나 발표하려는 경우, 결과를보다 쉽게 수용 할 수 있도록 선택을 지시하십시오. 예를 들어 ( Methods Consultants에서 )
로지스틱 회귀 분석이라고도하는로 짓은 계수가 승산 비로 해석 될 수 있기 때문에 역학과 같은 건강 과학에서 더 많이 사용됩니다. 프로 비트 모델은 고급 이코노 메트릭 설정 (이 분산 프로 빗 모델이라고 함)에서 일정하지 않은 오차 분산을 설명하기 위해 일반화 될 수 있으므로 일부 상황에서 경제학자와 정치 과학자가 사용합니다.
요점은 결과의 차이가 너무 적어서 일반 사용자가 결과를 이해하는 능력이 두 가지 접근 방식의 사소한 차이보다 중요하다는 것입니다.
관심있는 모든 것이 더 적합하다면 ...
당신의 연구는 하나이 질문의 다른 한 다음 내 연구 선호하지 않는 분야에있는 경우 (더 나은, 로짓 또는 프로 빗이)가 사용하는 것이 일반적으로 더 나은 결론 나를 이끌었다 프로 빗를 하기 때문에 거의 항상 것입니다, 로짓 모델의 데이터와 같거나 우수한 데이터에 통계적으로 적합합니다. 로짓 모델이 더 적합 할 때 가장 주목할만한 예외는 "극단적 독립 변수"(아래 설명)입니다.
저의 결론은 거의 전적으로 (많은 다른 출처를 찾은 후) Hahn, ED & Soyer, R., 2005에 근거하고 있습니다. Probit and logit 모델 : 다변량 영역의 차이점. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf 에서 사용 가능합니다 . 다음은 로짓 대 프로 빗 다변량 모델이 데이터에 더 잘 맞는지 여부에 관한이 기사의 실질적인 결정 결론에 대한 요약입니다.
대부분의 시나리오에서 로짓 및 프로 빗 모델은 다음 두 가지 예외를 제외하고는 데이터를 동일하게 적합합니다.
"극단적 독립 변수"의 경우 Logit이 더 좋습니다 . 이들은 독립적으로 큰 변수 또는 작은 값 중 하나가 종속 변수가 0인지 1인지를 압도적으로 결정하여 대부분의 다른 변수의 영향을 무시하는 독립 변수입니다. Hahn과 Soyer는 공식적으로이를 정의합니다 (4 페이지).
극단적으로 독립적 인 변수 수준에는 세 가지 이벤트의 충돌이 포함됩니다. 첫째, 극단 독립 변수 수준은 독립 변수의 상한 또는 하한에서 발생합니다. 예를 들어, 독립 변수 x가 값 1, 2 및 3.2를 취한다고 가정하십시오. 극단적 인 독립 변수 수준에는 x = 3.2 (또는 x = 1)의 값이 포함됩니다. 둘째, 총 n의 실질적인 비율 (예 : 60 %)이이 수준에 있어야합니다. 셋째,이 수준에서 성공할 확률은 그 자체가 극단이어야합니다 (예 : 99 % 이상).
Hahn and Soyer의 분석에 근거하여, 극단적 인 독립 변수의 경우를 제외하고 항상 로짓을 선택해야하는 경우를 제외하고 항상 프로 빗 모델을 사용 하는 것이 결론입니다 . 극단적 인 독립 변수는 그다지 일반적인 것은 아니며 인식하기가 쉬워야합니다. 이 경험 규칙을 사용하면 모델이 임의 효과 모델인지 여부는 중요하지 않습니다. 모델이 랜덤 효과 모델 (프로 빗이 선호되는 경우)이지만 극한의 독립 변수가있는 경우 (로짓이 선호되는 경우) 한과 소이어는 이에 대해 언급하지 않았지만 기사에서 얻은 인상은 극단적 인 독립 변수가 더 우세하므로 로짓이 선호됩니다.
아래에서는 프로 빗과 로짓을 특별한 경우로 중첩하고 더 적합한 것을 테스트 할 수있는 추정기를 설명합니다.
프로 빗과로 짓은 잠재적 변수 모델에 중첩 될 수 있습니다.
관찰 된 구성 요소가있는 곳
를 선택하면 일반 CDF로, 당신은 당신이 물류 CDF를 선택하면, 당신은 로짓을 얻을, 프로 빗를 얻을. 어느 쪽이든, 우도 함수는 형태를 취합니다.
그러나 어떤 가정을했는지 걱정이된다면 Klein & Spady (1993; Econometrica) 추정기를 사용할 수 있습니다. 이 추정값을 사용하면 cdf 의 스펙을 완전히 유연하게 할 수 있으며 , 결과적으로 정규성 또는 로지스틱 (?)의 유효성을 테스트 할 수도 있습니다.
Klein & Spady에서는 기준 기능이 대신 사용됩니다.
여기서 는 cdf의 비모수 추정치입니다 (예 : Nadaraya-Watson 커널 회귀 추정기 사용).
여기서 는 "Kernel"(일반적으로 Gaussian cdf 또는 삼각형 커널이 선택됨)이라고하며 는 "대역폭"입니다. 후자를 위해 선택할 플러그인 값이 있지만 훨씬 더 복잡 할 수 있으며 모든 단계에서 변경 되면 대한 외부 최적화가 더 복잡해질 수 있습니다 ( 는 소위 치우침-균형 상충 관계를 균형 잡습니다 ).
개선 사항 : Ichimura는 커널 회귀 가 번째 관찰을 생략해야한다고 제안했습니다 . 그렇지 않으면 의 선택은 표본의 과적 합 (너무 높은 분산) 문제로 인해 복잡해질 수 있습니다.
토론 : Klein-Spady 추정기의 한 가지 단점은 로컬 최소값에 갇힐 수 있다는 것입니다. 이는 cdf가 주어진 -parameters에 적응하기 때문입니다. 나는 그것을 구현하려고 시도하고 수렴을 달성하고 수치 문제를 피하는 데 문제가있는 여러 학생을 알고 있습니다. 따라서 작업하기 쉬운 추정기가 아닙니다. 더욱이, 추정 된 파라미터에 대한 추론은 대한 반모 수적 사양에 의해 복잡해진다 .
그들은 매우 비슷합니다.
두 모델에서 가 주어진 확률은 임의의 숨겨진 변수 (특정 고정 분포) 가 에 선형으로 의존 하는 특정 임계 값 미만일 확률로 볼 수 있습니다 .
또는 동등하게 :
그렇다면 의 분포를 위해 무엇을 선택 하느냐가 중요합니다 .
분산은 에 상수를 곱하여 자동으로 보정되므로 중요하지 않습니다 . 절편을 사용하는 경우 평균도 중요하지 않습니다.
이것은 임계 값 효과로 볼 수 있습니다. 보이지 않는 결과 는 선형 회귀와 같이 노이즈 추가 된 의 선형 함수이며 다음 과 같이 말하면 0/1 결과를 얻습니다.X - S
로지스틱과 프로 빗의 차이점은 로지스틱과 정규 분포의 차이에 있습니다. 그다지 많지 않습니다. 조정되면 다음과 같이 보입니다.
물류는 꼬리가 무겁습니다. 이것은 작은 (<1 %) 또는 높은 (> 99 %) 확률의 사건이 어떻게 적용되는지에 약간의 영향을 줄 수 있습니다. 실제로 대부분의 상황에서 차이는 눈에 띄지 않습니다. 로짓과 프로 빗은 본질적으로 동일한 것을 예측합니다. http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article을 참조 하십시오
"철학적으로", 로지스틱 회귀는 최대 엔트로피의 원리와 동일하게함으로써 정당화 될 수 있습니다 . 엔트로피 모델 /
계산 측면에서 : 물류 분포의 누적 분포는 정규 분포와 달리 닫힌 공식을 가지므로 물류는 더 간단합니다. 그러나 정규 분포는 다차원으로 갈 때 좋은 특성을 가지므로, 고급 사례에서는 종종 프로 빗이 선호됩니다.