로지스틱 회귀 특성


17

우리는 로지스틱 회귀 분석을 진행하고 있으며 평균 추정 확률은 항상 표본의 확률과 같다는 것을 깨달았습니다. 즉, 적합치의 평균은 샘플의 평균과 같습니다.

아무도 나에게 이유를 설명 하거나이 데모를 찾을 수있는 참조를 줄 수 있습니까?


2
그 이유는 로지스틱 회귀 분석에서 이전 확률 ( "평균")을 포함한 데이터 분포 모델링을 정확하게 달성하려고하기 때문입니다. 이 동작이 바람직하지 않습니까?
bayerj

1
@bayer 링크 함수의 비선형 성은이 현상이 특성화보다 깊음을 나타냅니다. 여기에 실제로 설명해야 할 것이 있습니다.
whuber

로지스틱 회귀 분석을 사용하여 위험을 추정 할 때이 특성을 큰 규모의 교정이라고도합니다.
줄리엣

답변:


26

관찰하는 동작은 로지스틱 회귀 분석의 "일반적인"사례이지만 항상 사실 은 아닙니다 . 또한 훨씬 더 일반적입니다 (아래 참조). 세 가지 개별 사실의 합류의 결과입니다.

  1. 로그 확률을 예측 변수의 선형 함수로 모델링하는 선택
  2. 로지스틱 회귀 모형에서 계수의 추정치를 얻을 수있는 최대 가능성의 사용
  3. 모형에 절편을 포함시킵니다.

상기 중 하나가 존재하지 않는 경우, 평균 추정 확률은 일반적으로 표본의 비율과 일치하지 않습니다.

그러나 (거의) 모든 통계 소프트웨어는 이러한 모델에 대해 최대 우도 추정을 사용하므로 실제로 항목 1과 2는 본질적으로 항상 존재하며 특별한 경우를 제외하고는 일반적으로 항목 3이 존재합니다.

일부 세부 사항

전형적인 로지스틱 회귀 프레임 워크에서 우리는 확률 갖는 독립 이항 실험의 결과를 관찰합니다 . 하자 Y 내가 관찰 응답합니다. 그러면 총 우도는 L = n i = 1 p y i i ( 1 p i ) 1 y i = n ∏입니다.나는와이나는 로그 우도가되도록 = N Σ= 1 , Y 로그 ( p는 I / ( 1 - P I ) ) + N Σ= 1 로그 ( 1 - P I )

=나는=1나는와이나는(1나는)1와이나는=나는=1특급(와이나는로그(나는/(1나는))+로그(1나는)),
=나는=1와이나는로그(나는/(1나는))+나는=1로그(1나는).

이제, 우리는 예측의 벡터가 각각 관찰과 사실 1에서 로지스틱 회귀 모델을 가정한다, 위의 그 로그 P는 내가엑스나는 매개 변수의 알 수없는 벡터 β . 참고:이를 재정렬하면 p i = 1 / ( 1 + e - β T x i )가 됩니다.

로그나는1나는=β엑스나는,
β나는=1/(1+이자형β엑스나는)

모형에 맞는 최대 우도 (Fact 2)를 사용하면 을 고려하여 풀어야 할 일련의 방정식이 생성됩니다 . ℓ를 관찰하십시오 /β=0

β=나는와이나는엑스나는나는엑스나는1+특급(β엑스나는)=나는와이나는엑스나는나는나는엑스나는,
나는와이나는엑스나는=나는^나는엑스나는,
^나는=(1+특급(β^엑스나는))1

엑스나는제이나는나는와이나는엑스나는제이=나는와이나는=나는^나는

시뮬레이션

아르 자형

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

일반적인 경우 : 위에서 언급 한 바와 같이, 평균 응답이 평균 예측 평균과 같다는 특성 은 표준 링크 함수를 사용하고 표준 링크 함수를 사용하여 최대 가능성에 맞는 일반화 된 선형 모델 의 클래스에 대해 훨씬 더 큰 일반성을 유지 합니다. 모델.

참고 문헌

관련 이론에 대한 좋은 참고 문헌은 다음과 같습니다.

  1. A. Agresti (2002), Categorical Data Analysis , 2nd ed., Wiley.
  2. P. McCullagh and JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (일반적인 방법의 원저자로부터의 텍스트)

4
+1이 데모 (모든 GLM을 일반화하지 않고 로지스틱 회귀 모델에만 해당)는 Maddala (1983) 계량 경제학의 한정된 종속 및 정성 변수 , 25-26 페이지에도 나와 있습니다.
StasK

@ StasK : 익숙하지 않은 추가 참조에 감사드립니다. 건배.
추기경

@ cardinal : 나는 이것을 논의하는 Agresti를 기억하지 못한다. McCullagh와 Nelder에서 논의 되었습니까?
줄리엣
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.