12

로지스틱 회귀에서 얻은 계수에서 승산 비에 대한 95 % 신뢰 구간을 구성하는 방법을 연구하고 있습니다. 로지스틱 회귀 모형을 고려하면

\log (\frac{p}{1 - p}) = α + β x

$\log\left(\frac{p}{1 - p}\right) = \alpha + \beta x \newcommand{\var}{\rm Var} \newcommand{\se}{\rm SE}$

되도록 대조군 및 의 경우의 그룹. $x = 0$ $x = 1$

나는 가장 간단한 방법은 대해 95 % CI를 구성하는 것임을 읽었 으며 지수 함수를 적용했습니다. $\beta$

\hat{β} \pm 1.96 \times S E (\hat{β}) \to \exp {\hat{β} \pm 1.96 \times S E (\hat{β})}

$\hat{\beta} \pm 1.96\times \se(\hat{\beta}) \rightarrow \exp\{\hat{\beta} \pm 1.96\times \se(\hat{\beta})\}$

내 질문은 :

이 절차를 정당화하는 이론적 이유는 무엇입니까? 나는 알고있다 및 최대 우도 추정량을 불변이다. 그러나 나는이 요소들 사이의 연결을 모른다. $\mbox{odds ratio} = \exp\{\beta\}$
델타 방법이 이전 절차와 동일한 95 % 신뢰 구간을 생성해야합니까? 델타 방법을 사용하면

$\exp {\hat{β}} \dot{\sim} N (β, \exp {β}^{2} V a r (\hat{β}))$ $\exp\{\hat{\beta}\} \dot{\sim} N(\beta,\ \exp\{\beta\}^2 \var(\hat{\beta}))$
그때,

$\exp {\hat{β}} \pm 1.96 \times \sqrt{\exp {β}^{2} V a r (\hat{β})}$ $\exp\{\hat{\beta}\} \pm 1.96\times \sqrt{\exp\{\beta\}^2 \var(\hat{\beta})}$
그렇지 않은 경우 가장 좋은 절차는 무엇입니까?

— 마드리드 아우 구스토 디 니즈
소스

1

매개 변수 값이나 충분한 크기의 교육 데이터가있는 경우 CI의 부트 스트랩도 좋아합니다.

— EngrStudent 1

2

더 좋은 방법이 있습니다. 자세한 내용은 stats.stackexchange.com/questions/5304/… 를 참조하십시오

— mdewey

7

절차에 대한 타당성은 에 대한 MLE의 점근 적 정규성이며 중앙 한계 정리와 관련된 인수의 결과입니다. $\beta$
델타 방법은 MLE를 중심으로 함수의 선형 (즉, 1 차 Taylor) 확장에서 비롯됩니다. 결과적으로 우리는 MLE의 점근 적 정상 성과 편견에 호소합니다.

무증상 적으로 동일한 대답을 제공합니다. 그러나 실제로는 더 밀접하게 보이는 것을 선호합니다. 이 예에서는 첫 번째가 덜 대칭적일 수 있으므로 첫 번째를 선호합니다.

— 아미르
소스

3

ISL의 예에서 신뢰 구간 방법 비교

Tibshirani, James, Hastie의 "통계 학습 소개" 책 은 임금 데이터 에서 다항 로지스틱 회귀도 4에 대한 신뢰 구간의 267 페이지에 예 를 제공합니다 . 책 인용하기 :

우리는 4 차 다항식으로 로지스틱 회귀를 사용하여 이진 이벤트 을 모델링합니다 . $ 250,000을 초과하는 적합 후부 임금 확률은 추정 95 % 신뢰 구간과 함께 파란색으로 표시됩니다. $wage>250$

다음은 이러한 간격을 구성하는 두 가지 방법과 처음부터 구현하는 방법에 대한 주석을 간략히 요약 한 것입니다.

Wald / Endpoint 변환 간격

선형 조합 에 대한 신뢰 구간의 상한 및 하한을 계산합니다 (Wald CI 사용). $x^T\beta$
끝점 에 단조로운 변환을 적용 하여 확률을 구합니다. $F(x^T\beta)$

이후 의 단조 변화 인 $Pr(x^T\beta) = F(x^T\beta)$ $x^T\beta$

[P r (x^{T} β)_{L} \leq P r (x^{T} β) \leq P r (x^{T} β)_{U}] = [F (x^{T} β)_{L} \leq F (x^{T} β) \leq F (x^{T} β)_{U}]

$[Pr(x^T\beta)_L \leq Pr(x^T\beta) \leq Pr(x^T\beta)_U] = [F(x^T\beta)_L \leq F(x^T\beta) \leq F(x^T\beta)_U]$

구체적으로 이것은 를 계산 한 다음 로짓 변환을 결과에 적용하여 하한과 상한을 얻습니다. $\beta^Tx \pm z^* SE(\beta^Tx)$

[\frac{e^{x^{T} β - z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β - z^{*} S E (x^{T} β)}}, \frac{e^{x^{T} β + z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β + z^{*} S E (x^{T} β)}},]

$[\frac{e^{x^T\beta - z^* SE(x^T\beta)}}{1 + e^{x^T\beta - z^* SE(x^T\beta)}}, \frac{e^{x^T\beta + z^* SE(x^T\beta)}}{1 + e^{x^T\beta + z^* SE(x^T\beta)}},]$

표준 오차 계산

최대 우도 이론은 의 근사 분산은 다음을 사용 하여 회귀 계수 의 공분산 행렬 를 사용하여 계산할 수 있음을 알려줍니다. $x^T\beta$ $\Sigma$

V a r (x^{T} β) = x^{T} Σ x

$Var(x^T\beta) = x^T \Sigma x$

설계 행렬 와 행렬 를 다음 과 같이 정의하십시오. $X$ $V$

X = [\begin{matrix} 1 & x_{1, 1} & \dots & x_{1, p} \\ 1 & x_{2, 1} & \dots & x_{2, p} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n, 1} & \dots & x_{n, p} \end{matrix}] V = [\begin{matrix} {\hat{π}}_{1} (1 - {\hat{π}}_{1}) & 0 & \dots & 0 \\ 0 & {\hat{π}}_{2} (1 - {\hat{π}}_{2}) & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & {\hat{π}}_{n} (1 - {\hat{π}}_{n}) \end{matrix}]

$\textbf{X = }\begin{bmatrix} 1 & x_{1,1} & \ldots & x_{1,p} \\ 1 & x_{2,1} & \ldots & x_{2,p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n,1} & \ldots & x_{n,p} \end{bmatrix} \ \ \ \ \textbf{V = } \begin{bmatrix} \hat{\pi}_{1}(1 - \hat{\pi}_{1}) & 0 & \ldots & 0 \\ 0 & \hat{\pi}_{2}(1 - \hat{\pi}_{2}) & \ldots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \hat{\pi}_{n}(1 - \hat{\pi}_{n}) \end{bmatrix}$

여기서 는 번째 관측치에 대한 번째 변수 의 값 이고 는 관측치 대한 예측 확률을 나타냅니다 . $x_{i,j}$ $j$ $i$ $\hat{\pi}_{i}$ $i$

공분산 행렬은 다음과 같이 찾을 수 있습니다. 및 표준 오류는 $\Sigma = \textbf{(X}^{T}\textbf{V}\textbf{X)}^{-1}$ $SE(x^T\beta) = \sqrt{Var(x^T\beta)}$

예측 확률에 대한 95 % 신뢰 구간은 다음과 같이 표시 될 수 있습니다.

델타 방법 신뢰 구간

이 방법은 함수 의 선형 근사 분산을 계산하고 이를 사용하여 큰 표본 신뢰 구간을 구성하는 것입니다. $F$

Var [F (x^{T} \hat{β})] \approx \nabla F^{T} Σ \nabla F

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx \nabla F^T \ \Sigma \ \nabla F$

여기서 는 기울기이고 는 추정 된 공분산 행렬입니다. 한 차원에서 : $\nabla$ $\Sigma$

\frac{\partial F (x β)}{\partial β} = \frac{\partial F (x β)}{\partial x β} \frac{\partial x β}{\partial β} = x f (x β)

$\frac{\partial F(x\beta)}{\partial \beta} = \frac{\partial F(x\beta)}{\partial x\beta} \frac{\partial x\beta}{\partial \beta} = x f(x\beta)$

여기서 는 의 미분입니다 . 이것은 다변량 사례에서 일반화됩니다. $f$ $F$

Var [F (x^{T} \hat{β})] \approx f^{T} x^{T} Σ x f

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx f^T \ \mathbf{x^T} \ \Sigma \ \mathbf{x} \ f$

우리의 경우 F는 미분 값이 로지스틱 함수 ( 표시됨)입니다. $\pi(x^T\beta)$

π^{'} (x^{T} β) = π (x^{T} β) (1 - π (x^{T} β))

$\pi'(x^T\beta) = \pi (x^T\beta) (1 - \pi (x^T\beta) )$

위에서 계산 된 분산을 사용하여 신뢰 구간을 구성 할 수 있습니다.

C . I . = [P r (x \hat{β}) - z^{*} \sqrt{Var [π (x \hat{β})]} \leq P r (x \hat{β}) + z^{*} \sqrt{Var [π (x \hat{β})]}]

$C.I. = [Pr(x\hat \beta) - z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} \leq Pr(x\hat \beta) + z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} ]$

다변량 사례에 대한 벡터 형식

C . I . = [π (x^{T} \hat{β}) \pm z^{*} \sqrt{{(π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β})))}^{T} x^{T} Var [\hat{β}] x π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β}))]}

$C.I. = \mathbf{[\pi(x^T\hat \beta) \pm z^* \sqrt{ \left(\pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) \right)^T x^T \ \ \text{Var}[ \hat \beta] \ \ x \ \ \pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) ]}}$

참고 단일 데이터 포인트 나타내는 설계 행렬의, 즉, 하나의 행 $\mathbf{x}$ $\mathbb{R}^{p+1}$ $X$

개방 된 결론

확률과 음의 로그 확률에 대한 정규 QQ 그림을 보면 어느 것도 정규 분포가 아님을 알 수 있습니다. 이것이 차이점을 설명 할 수 있습니까?

출처:

— 자비에르 버렛 시콧
소스

1

이 페이지 의 로그 변환과 관련하여 논의 된 것처럼 대부분의 경우 가장 간단한 방법이 가장 좋습니다 . 통계적 테스트를 수행하고 해당 로짓 척도에 신뢰 구간 (CI)을 정의하여 로짓 척도에서 분석되는 종속 변수를 생각해보십시오. 배당률에 대한 역변환은 단순히 그 결과를 독자가 더 쉽게 파악할 수있는 규모로 만드는 것입니다. 예를 들어, 콕스 생존 분석에서 회귀 계수 (및 95 % CI)를 지수화하여 위험 비율과 CI를 구합니다.

— EdM
소스

로지스틱 회귀 분석에서 확률 비에 대한 신뢰 구간을 생성하는 다양한 방법

ISL의 예에서 신뢰 구간 방법 비교

Wald / Endpoint 변환 간격

표준 오차 계산

델타 방법 신뢰 구간

개방 된 결론