프로 빗 및 로짓 모델의 한계 효과


12

누구나 평신도의 관점에서 Probit 및 Logit 모델의 한계 효과를 계산하는 방법을 설명 할 수 있습니까?

나는 통계에 익숙하지 않으며이 두 모델에 대해 혼란스러워합니다.


Probit 및 Logit 모델에서 나오는 숫자는 마치 거의 같은 것으로 측정되지만 숫자가 다른 경우가 있습니다. 그것들을 다시 실생활로 번역 할 때, 둘 사이의 차이는 대개 훨씬 작아집니다.
Henry

답변:


15

와 같이 주어진 변수의 한계 효과를 보는 더 좋은 방법 은 세로 축에 예측 확률의 산포도를 생성 하고 가로 축에 를 갖는 것 입니다. 이것은 주어진 변수가 얼마나 영향력이 있는지를 나타낼 수있는 가장 "레이맨"방식입니다. 수학은없고 그림 만 있습니다. 많은 데이터 포인트가있는 경우 boxplot 또는 scatterplot smoother가 더 많은 데이터 포인트를 파악하는 데 도움이 될 수 있습니다 (포인트 클라우드와 반대).XjXj

다음 섹션의 "레이맨"이 얼마나 확실하지는 않지만 유용 할 수 있습니다.

우리는 한계 효과를 보면,이 전화 것을주의 , 우리가 얻을mjg(p)=kXkβk

mj=pXj=βjg[g1(XTβ)]=βjg(p)

따라서 한계 효과는 베타 외에 추정 된 확률과 링크 함수의 기울기에 따라 달라집니다. 나누는 것은 차별화를위한 연쇄 규칙과 . 이것은 명백히 진정한 방정식 양변을 구별하여 나타낼 수 있습니다 . 정의에 따라 있습니다. 로짓 모델의 경우 이며 주변 효과는 다음과 같습니다.g(p)g1(z)z=1g[g1(z)]z=g[g1(z)]g1(XTβ)=pg(p)=log(p)log(1p)g(p)=1p+11p=1p(1p)

mjlogit=βjp(1p)

이것은 무엇을 의미 하는가? 우물 는 및 에서 이며 , 에서 최대 값 에 도달합니다 . 따라서 주변 효과는 확률이 에 가까울 때 가장 크고 가 에 가까우 거나 가까울수록 가장 작습니다 . 그러나 여전히 의존 하므로 한계 효과가 복잡합니다. 실제로 의존하기 때문에 다른 대해 다른 한계 효과를 얻을 수 있습니다p(1p)p=0p=10.25p=0.50.5p01p(1p)XjpXk,kj가치. 아마도 간단한 산점도를 수행해야하는 한 가지 좋은 이유는 사용할 공변량의 값을 선택할 필요가 없다는 것입니다.

프로 빗 모델의 경우 여기서 는 표준 일반 CDF이고 는 표준 일반 pdf입니다. 그래서 우리는 얻는다 :g(p)=Φ1(p)g(p)=1ϕ[Φ1(p)]Φ(.)ϕ(.)

mjprobit=βjϕ[Φ1(p)]

이것은 앞에서 언급 한 한계 효과의 대부분의 속성을 가지고 있으며 에 대해 대칭 인 링크 함수에서도 마찬가지입니다 (물론 예를 , ). 에 대한 의존 은 더 복잡하지만 여전히 일반적인 "혹"모양 ( 에서 가장 높은 지점 , 에서 가장 낮은 지점)을가 집니다. 링크 기능은 최대 높이의 크기를 변경합니다 (예 : 프로 빗 최대 값은 , logit는 ).mjlogit0.5g(p)=tan(π2[2p1])p0.50112π0.40.25


effectsR 의 패키지는 가로 축에서 X 대 세로 축에서 예측 확률의 이러한 플롯을 쉽게 생성 할 수 있습니다. socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html
landroni를


5

로짓 및 프로 빗 모델은 일반적으로 종속 변수 y가 여러 입력 변수를 기반으로 0 또는 1 일 확률을 파악하는 데 사용됩니다.

영어로 : 누군가가 일생 동안 심장병을 앓을 지 여부와 같은 이진 값을 예측하려고한다고 가정합니다. 혈압, 나이, 흡연자 여부, BMI, 거주지 등 다양한 입력 변수가 있습니다. 이러한 모든 변수는 어떤 방식으로 누군가가 심장병 발병 가능성에 기여할 수 있습니다.

단일 입력 변수의 한계 효과는 해당 변수를 조금씩 올리면 심장병 발병 확률에 어떤 영향을 미칩니 까? 혈압이 약간 증가한다고 가정하면 심장 질환의 가능성이 어떻게 변합니까? 아니면 나이를 1 년 늘리면?

이러한 효과 중 일부는 비선형적일 수도 있습니다. BMI를 약간 씩 늘리면 BMI가 건강한 사람과 그렇지 않은 사람에 비해 효과가 크게 다를 수 있습니다.


1

한계 효과는 관심 변수에 대한 적합 확률의 미분이므로, 평신도가 미적분학을 알고 싶어 할 것입니다. 적합 확률은 적합 값에 적용되는 링크 함수 (logit, probit 또는 무엇이든)이므로이를 계산하려면 연쇄 규칙이 필요합니다. 따라서 선형 인덱스 모델 (매개 변수가 X'b와 같은 형식으로 입력 됨)에서는 매개 변수 추정 시간과 링크 함수의 미분 값이 같습니다. 미분은 선형 모델의 경우와 달리 회귀 변수의 값이 다르므로 한계 효과를 평가할 위치를 결정해야합니다. 자연 선택은 모든 회귀 분석기의 평균 값입니다. 또 다른 접근법은 각 관측치에 대한 효과를 평가 한 다음 평균을 초과하는 것입니다. 해석은 그에 따라 다릅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.