답변:
와 같이 주어진 변수의 한계 효과를 보는 더 좋은 방법 은 세로 축에 예측 확률의 산포도를 생성 하고 가로 축에 를 갖는 것 입니다. 이것은 주어진 변수가 얼마나 영향력이 있는지를 나타낼 수있는 가장 "레이맨"방식입니다. 수학은없고 그림 만 있습니다. 많은 데이터 포인트가있는 경우 boxplot 또는 scatterplot smoother가 더 많은 데이터 포인트를 파악하는 데 도움이 될 수 있습니다 (포인트 클라우드와 반대).
다음 섹션의 "레이맨"이 얼마나 확실하지는 않지만 유용 할 수 있습니다.
우리는 한계 효과를 보면,이 전화 것을주의 , 우리가 얻을
따라서 한계 효과는 베타 외에 추정 된 확률과 링크 함수의 기울기에 따라 달라집니다. 나누는 것은 차별화를위한 연쇄 규칙과 . 이것은 명백히 진정한 방정식 양변을 구별하여 나타낼 수 있습니다 . 정의에 따라 있습니다. 로짓 모델의 경우 이며 주변 효과는 다음과 같습니다.
이것은 무엇을 의미 하는가? 우물 는 및 에서 이며 , 에서 최대 값 에 도달합니다 . 따라서 주변 효과는 확률이 에 가까울 때 가장 크고 가 에 가까우 거나 가까울수록 가장 작습니다 . 그러나 여전히 의존 하므로 한계 효과가 복잡합니다. 실제로 의존하기 때문에 다른 대해 다른 한계 효과를 얻을 수 있습니다가치. 아마도 간단한 산점도를 수행해야하는 한 가지 좋은 이유는 사용할 공변량의 값을 선택할 필요가 없다는 것입니다.
프로 빗 모델의 경우 여기서 는 표준 일반 CDF이고 는 표준 일반 pdf입니다. 그래서 우리는 얻는다 :
이것은 앞에서 언급 한 한계 효과의 대부분의 속성을 가지고 있으며 에 대해 대칭 인 링크 함수에서도 마찬가지입니다 (물론 예를 , ). 에 대한 의존 은 더 복잡하지만 여전히 일반적인 "혹"모양 ( 에서 가장 높은 지점 , 에서 가장 낮은 지점)을가 집니다. 링크 기능은 최대 높이의 크기를 변경합니다 (예 : 프로 빗 최대 값은 , logit는 ).
effects
R 의 패키지는 가로 축에서 X 대 세로 축에서 예측 확률의 이러한 플롯을 쉽게 생성 할 수 있습니다. socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html
로짓 및 프로 빗 모델은 일반적으로 종속 변수 y가 여러 입력 변수를 기반으로 0 또는 1 일 확률을 파악하는 데 사용됩니다.
영어로 : 누군가가 일생 동안 심장병을 앓을 지 여부와 같은 이진 값을 예측하려고한다고 가정합니다. 혈압, 나이, 흡연자 여부, BMI, 거주지 등 다양한 입력 변수가 있습니다. 이러한 모든 변수는 어떤 방식으로 누군가가 심장병 발병 가능성에 기여할 수 있습니다.
단일 입력 변수의 한계 효과는 해당 변수를 조금씩 올리면 심장병 발병 확률에 어떤 영향을 미칩니 까? 혈압이 약간 증가한다고 가정하면 심장 질환의 가능성이 어떻게 변합니까? 아니면 나이를 1 년 늘리면?
이러한 효과 중 일부는 비선형적일 수도 있습니다. BMI를 약간 씩 늘리면 BMI가 건강한 사람과 그렇지 않은 사람에 비해 효과가 크게 다를 수 있습니다.
한계 효과는 관심 변수에 대한 적합 확률의 미분이므로, 평신도가 미적분학을 알고 싶어 할 것입니다. 적합 확률은 적합 값에 적용되는 링크 함수 (logit, probit 또는 무엇이든)이므로이를 계산하려면 연쇄 규칙이 필요합니다. 따라서 선형 인덱스 모델 (매개 변수가 X'b와 같은 형식으로 입력 됨)에서는 매개 변수 추정 시간과 링크 함수의 미분 값이 같습니다. 미분은 선형 모델의 경우와 달리 회귀 변수의 값이 다르므로 한계 효과를 평가할 위치를 결정해야합니다. 자연 선택은 모든 회귀 분석기의 평균 값입니다. 또 다른 접근법은 각 관측치에 대한 효과를 평가 한 다음 평균을 초과하는 것입니다. 해석은 그에 따라 다릅니다.