우리는 로지스틱 회귀 분석을 진행하고 있으며 평균 추정 확률은 항상 표본의 확률과 같다는 것을 깨달았습니다. 즉, 적합치의 평균은 샘플의 평균과 같습니다.
아무도 나에게 이유를 설명 하거나이 데모를 찾을 수있는 참조를 줄 수 있습니까?
우리는 로지스틱 회귀 분석을 진행하고 있으며 평균 추정 확률은 항상 표본의 확률과 같다는 것을 깨달았습니다. 즉, 적합치의 평균은 샘플의 평균과 같습니다.
아무도 나에게 이유를 설명 하거나이 데모를 찾을 수있는 참조를 줄 수 있습니까?
답변:
관찰하는 동작은 로지스틱 회귀 분석의 "일반적인"사례이지만 항상 사실 은 아닙니다 . 또한 훨씬 더 일반적입니다 (아래 참조). 세 가지 개별 사실의 합류의 결과입니다.
상기 중 하나가 존재하지 않는 경우, 평균 추정 확률은 일반적으로 표본의 비율과 일치하지 않습니다.
그러나 (거의) 모든 통계 소프트웨어는 이러한 모델에 대해 최대 우도 추정을 사용하므로 실제로 항목 1과 2는 본질적으로 항상 존재하며 특별한 경우를 제외하고는 일반적으로 항목 3이 존재합니다.
일부 세부 사항
전형적인 로지스틱 회귀 프레임 워크에서 우리는 확률 갖는 독립 이항 실험의 결과를 관찰합니다 . 하자 Y 내가 관찰 응답합니다. 그러면 총 우도는 L = n ∏ i = 1 p y i i ( 1 − p i ) 1 − y i = n ∏입니다. 로그 우도가되도록 ℓ = N Σ 난 = 1 , Y 나 로그 ( p는 I / ( 1 - P I ) ) + N Σ 난 = 1 로그 ( 1 - P I )
이제, 우리는 예측의 벡터가 각각 관찰과 사실 1에서 로지스틱 회귀 모델을 가정한다, 위의 그 로그 P는 내가 매개 변수의 알 수없는 벡터 β . 참고:이를 재정렬하면 p i = 1 / ( 1 + e - β T x i )가 됩니다.
모형에 맞는 최대 우도 (Fact 2)를 사용하면 을 고려하여 풀어야 할 일련의 방정식이 생성됩니다 . ∂ ℓ를 관찰하십시오
시뮬레이션
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
일반적인 경우 : 위에서 언급 한 바와 같이, 평균 응답이 평균 예측 평균과 같다는 특성 은 표준 링크 함수를 사용하고 표준 링크 함수를 사용하여 최대 가능성에 맞는 일반화 된 선형 모델 의 클래스에 대해 훨씬 더 큰 일반성을 유지 합니다. 모델.
참고 문헌
관련 이론에 대한 좋은 참고 문헌은 다음과 같습니다.