베타 분포와 로지스틱 회귀 모형의 관계는 무엇입니까?


16

내 질문은 : 베타 분포로지스틱 회귀 모델 의 계수 사이의 수학적 관계는 무엇입니까 ?

설명하기 : 로지스틱 (시그 모이 드) 기능은

f(x)=11+exp(x)

로지스틱 회귀 모델에서 확률을 모델링하는 데 사용됩니다. 하자 이분법 수 득점 결과와 디자인 매트릭스. 로지스틱 회귀 모델은A(0,1)X

P(A=1|X)=f(Xβ).

참고 는 상수 (절편) 의 첫 번째 열을 가지며 는 회귀 계수의 열 벡터입니다. 예를 들어, 하나의 표준 정규 회귀 있고 (절편) 및 하면 결과 '확률 분포'를 시뮬레이션 할 수 있습니다.X1βxβ0=1β1=1

P의 히스토그램 (A = 1 | X)

이 플롯은 베타 분포 (의 다른 선택에 관해서는 할 플롯 생각 나게 밀도에 의해 주어진다)β

g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p1)(1y)(q1).

최대 가능성 또는 모멘트 방법을 사용하면 의 분포로부터 와 를 추정 할 수 있습니다 . 따라서 내 질문은 선택 사이의 관계는 무엇 입니까? 이것은 우선 위에서 주어진 이변 량 사례를 해결합니다.pqP(A=1|X)βpq


나는 3 시간 전에 나의 베이지안 통계 수업에서 이것을 궁금해하고있었습니다
Alchemist

답변:


16

베타의 값의 분포 거의 위해 이렇게, 그것의 모양이 매우 유연 범위 모든 의 값의 단봉 경험적 분포 당신은 쉽게 베타 분포가 "유사"형태의 매개 변수를 찾을 수 있습니다 분포의.(0,1)(0,1)

로지스틱 회귀는 조건부 확률 을 제공하지만 플롯 에서 예측 확률 의 한계 분포 를 제시합니다 . 그것들은 두 가지 다른 이야기입니다.Pr(Y=1X)

로지스틱 회귀 모형으로부터 예측 분포를 볼 때 로지스틱 회귀 모수와 베타 분포 모수간에 직접적인 관계는 없습니다. 아래에서 로지스틱 함수를 사용하여 변환 된 정규, 지수 및 균일 분포를 사용하여 시뮬레이션 된 데이터를 볼 수 있습니다. 정확히 동일한 로지스틱 회귀 모수 (예 : )를 사용하는 것 외에도 예측 확률의 분포는 매우 다릅니다. 따라서 예측 된 확률의 분포는 로지스틱 회귀의 모수뿐만 아니라 의 분포에도 의존 하며 이들 사이에 간단한 관계는 없습니다.β0=0,β1=1X

정규, 지수 및 균일 분포에서 시뮬레이션 된 데이터의 로지스틱 기능

베타는 의 값 분포이므로 로지스틱 회귀 분석과 같이 이진 데이터를 모델링하는 데 사용할 수 없습니다. 베타 회귀를 사용하는 방식으로 확률 을 모델링하는 데 사용할 수 있습니다 ( 여기여기 참조 ). 따라서 확률 변수 (임의 변수로 이해 됨)에 관심이있는 경우 베타 회귀를 이러한 목적으로 사용할 수 있습니다.(0,1)


따라서 베타가 그러한 분포에 근접 할 수 있다면 매개 변수와 사이에 관계가 없어야 합니까? β
tomka

4
@tomka 그러나 분포는 데이터의 분포 매개 변수에 따라 다르 므로 그러한 관계조차도 매우 복잡합니다. 회귀 매개 변수와 베타 배포 매개 변수 사이에는 직접적인 관계가 없습니다. 에 대해 서로 다른 분포를 사용하여 동일한 모수 에서 로지스틱 회귀 예측을 시뮬레이트 하면 한계 분포는 각 경우에 따라 다릅니다. X

4
베타 배포판은 그다지 유연하지 않으며 멀티 모달 배포판에 근접 할 수 없습니다.
Marcus PS

@MarcusPS 더 명확하게 만들었습니다.
Tim

1
0과 1의 모드와 멀티 모달 분포의 특별한 경우 ... 제외 @MarcusPS
벤 Bolker

4

로지스틱 회귀 분석은 GLM (Generalized Linear Model)의 특별한 경우입니다. 이항 데이터의이 특별한 경우에, 로지스틱 함수는 비선형 회귀 문제를 선형 문제로 변환하는 표준 링크 함수 입니다. GLM은 지수 군 분포 (예 : 이항 분포)에만 적용된다는 점에서 다소 특별합니다.

베이지안 추정에서 베타 분포는 이항 분포 이전의 켤레입니다. 즉, 이항 관측으로 베타에 대한 베이지안 업데이트는 베타 후부를 초래합니다. 따라서 이진 데이터 관측치가있는 경우 베타를 사용하여 이항 분포의 모수에 대한 분석 베이지안 추정치를 얻을 수 있습니다.

따라서 다른 사람들의 말에 따르면 직접적인 관계는 없다고 생각하지만 베타 분포와 로지스틱 회귀는 이항 분포를 따르는 무언가의 매개 변수를 추정하는 것과 밀접한 관계가 있습니다.


1
나는 이미 베이지안 관점에 대해 +1했지만 회귀 모델의 경우 베타 이항 모델을 사용하지 않으며 일반적으로 베타 분포는 매개 변수에 대한 사전으로 사용되지 않습니다. 적어도 전형적인 베이지안 물류의 경우 회귀 . 따라서 이것은 베타 이항 모델로 직접 변환되지 않습니다.

3

아마도 직접적인 연결이 없습니까? 의 분포 대부분의 시뮬레이션에 따라 X . 당신이 시뮬레이션 경우 X를 함께 N ( 0 , 1 ) , EXP ( - X β ) 으로해야합니다 로그 정규 분포 μ = - 1 주어진 β 0 = β 1 = 1 . P 의 분포 ( A = 1 | XP(A=1|X)XXN(0,1)exp(Xβ)μ=1β0=β1=1 는 다음과 같이 명시 적으로 찾을 수 있습니다. cdf F ( x ) = 1 Φ [ ln ( 1P(A=1|X)역 cdfQ(x)=1

F(x)=1Φ[ln(1x1)+1],
및 PDFF(X)=1
Q(x)=11+exp(Φ1(1x)1),
베타 배포판과 유사하지 않습니다.
f(x)=1x(1x)2πexp((ln(1/x1)+1)22),

R 에서 위의 결과를 확인할 수 있습니다 .

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

여기에 이미지 설명을 입력하십시오


xf(x)[inf,inf]P(A|X)[0,1]f(x)P(A|X)

1/x1>0x(0,1)f

X

@ whuber : 내가 잘못 생각한 것 같습니다. 나는 그 부분을 제거했습니다.
Francis
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.