로지스틱 회귀 분석에서 확률 비에 대한 신뢰 구간을 생성하는 다양한 방법


12

로지스틱 회귀에서 얻은 계수에서 승산 비에 대한 95 % 신뢰 구간을 구성하는 방법을 연구하고 있습니다. 로지스틱 회귀 모형을 고려하면

log(p1p)=α+βx

되도록 대조군 및 의 경우의 그룹.x=0x=1

나는 가장 간단한 방법은 대해 95 % CI를 구성하는 것임을 읽었 으며 지수 함수를 적용했습니다.β

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

내 질문은 :

  1. 이 절차를 정당화하는 이론적 이유는 무엇입니까? 나는 알고있다 및 최대 우도 추정량을 불변이다. 그러나 나는이 요소들 사이의 연결을 모른다.odds ratio=exp{β}

  2. 델타 방법이 이전 절차와 동일한 95 % 신뢰 구간을 생성해야합니까? 델타 방법을 사용하면

    exp{β^}˙N(β, exp{β}2Var(β^))

    그때,

    exp{β^}±1.96×exp{β}2Var(β^)

    그렇지 않은 경우 가장 좋은 절차는 무엇입니까?


1
매개 변수 값이나 충분한 크기의 교육 데이터가있는 경우 CI의 부트 스트랩도 좋아합니다.
EngrStudent 1

2
더 좋은 방법이 있습니다. 자세한 내용은 stats.stackexchange.com/questions/5304/… 를 참조하십시오
mdewey

답변:


7
  1. 절차에 대한 타당성은 에 대한 MLE의 점근 적 정규성이며 중앙 한계 정리와 관련된 인수의 결과입니다.β

  2. 델타 방법은 MLE를 중심으로 함수의 선형 (즉, 1 차 Taylor) 확장에서 비롯됩니다. 결과적으로 우리는 MLE의 점근 적 정상 성과 편견에 호소합니다.

무증상 적으로 동일한 대답을 제공합니다. 그러나 실제로는 더 밀접하게 보이는 것을 선호합니다. 이 예에서는 첫 번째가 덜 대칭적일 수 있으므로 첫 번째를 선호합니다.


3

ISL의 예에서 신뢰 구간 방법 비교

Tibshirani, James, Hastie의 "통계 학습 소개" 책 은 임금 데이터 에서 다항 로지스틱 회귀도 4에 대한 신뢰 구간의 267 페이지에 를 제공합니다 . 책 인용하기 :

우리는 4 차 다항식으로 로지스틱 회귀를 사용하여 이진 이벤트 을 모델링합니다 . $ 250,000을 초과하는 적합 후부 임금 확률은 추정 95 % 신뢰 구간과 함께 파란색으로 표시됩니다.wage>250

다음은 이러한 간격을 구성하는 두 가지 방법과 처음부터 구현하는 방법에 대한 주석을 간략히 요약 한 것입니다.

Wald / Endpoint 변환 간격

  • 선형 조합 에 대한 신뢰 구간의 상한 및 하한을 계산합니다 (Wald CI 사용).xTβ
  • 끝점 에 단조로운 변환을 적용 하여 확률을 구합니다.F(xTβ)

이후 의 단조 변화 인Pr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

구체적으로 이것은 를 계산 한 다음 로짓 변환을 결과에 적용하여 하한과 상한을 얻습니다.βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

표준 오차 계산

최대 우도 이론은 의 근사 분산은 다음을 사용 하여 회귀 계수 의 공분산 행렬 를 사용하여 계산할 수 있음을 알려줍니다.xTβΣ

Var(xTβ)=xTΣx

설계 행렬 와 행렬 를 다음 과 같이 정의하십시오.XV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

여기서 는 번째 관측치에 대한 번째 변수 의 값 이고 는 관측치 대한 예측 확률을 나타냅니다 .xi,jjiπ^ii

공분산 행렬은 다음과 같이 찾을 수 있습니다. 및 표준 오류는Σ=(XTVX)1SE(xTβ)=Var(xTβ)

예측 확률에 대한 95 % 신뢰 구간은 다음과 같이 표시 될 수 있습니다.

여기에 이미지 설명을 입력하십시오


델타 방법 신뢰 구간

이 방법은 함수 의 선형 근사 분산을 계산하고 이를 사용하여 큰 표본 신뢰 구간을 구성하는 것입니다.F

Var[F(xTβ^)]FT Σ F

여기서 는 기울기이고 는 추정 된 공분산 행렬입니다. 한 차원에서 : Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

여기서 는 의 미분입니다 . 이것은 다변량 사례에서 일반화됩니다.fF

Var[F(xTβ^)]fT xT Σ x f

우리의 경우 F는 미분 값이 로지스틱 함수 ( 표시됨)입니다.π(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

위에서 계산 된 분산을 사용하여 신뢰 구간을 구성 할 수 있습니다.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

다변량 사례에 대한 벡터 형식

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • 참고 단일 데이터 포인트 나타내는 설계 행렬의, 즉, 하나의 행xRp+1X

여기에 이미지 설명을 입력하십시오


개방 된 결론

확률과 음의 로그 확률에 대한 정규 QQ 그림을 보면 어느 것도 정규 분포가 아님을 알 수 있습니다. 이것이 차이점을 설명 할 수 있습니까?

여기에 이미지 설명을 입력하십시오

출처:


1

이 페이지 의 로그 변환과 관련하여 논의 된 것처럼 대부분의 경우 가장 간단한 방법이 가장 좋습니다 . 통계적 테스트를 수행하고 해당 로짓 척도에 신뢰 구간 (CI)을 정의하여 로짓 척도에서 분석되는 종속 변수를 생각해보십시오. 배당률에 대한 역변환은 단순히 그 결과를 독자가 더 쉽게 파악할 수있는 규모로 만드는 것입니다. 예를 들어, 콕스 생존 분석에서 회귀 계수 (및 95 % CI)를 지수화하여 위험 비율과 CI를 구합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.