로지스틱 회귀 분석에서 확률 예측에 대한 간단한 예측 해석


29

나는 로지스틱 회귀를 사용하는 것에 다소 익숙하지 않고 다음과 같은 가치에 대한 해석이 일치하지 않을 것이라고 혼동했습니다.

  • 지수 베타 값
  • 베타 값을 사용하여 결과의 ​​예측 확률.

영양 부족과 보험이 모두 이진이며 부가 연속적 인 경우 사용중인 모델의 단순화 된 버전이 있습니다.

Under.Nutrition ~ insurance + wealth

내 (실제) 모델은 보험에 대해 지수 .8의 베타 값을 반환합니다.

"피보험자에 대한 영양 부족 확률은 비보험 자에 대한 영양 부족 확률의 8 배입니다."

그러나 보험 변수에 0과 1의 값과 부의 평균 값을 넣어 개인의 확률 차이를 계산할 때 영양 부족의 차이는 .04에 불과합니다. 이는 다음과 같이 계산됩니다.

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

누군가이 값이 왜 다른지 설명하고 더 나은 해석 (특히 두 번째 값)이 무엇인지 설명 할 수 있다면 정말 감사하겠습니다.


추가 설명 편집
내가 이해 한 바와 같이, 비보험 자 (B1이 보험에 해당)에 대해 영양이 부족할 확률은 다음과 같습니다.

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

피보험자에 대한 영양 부족의 가능성은 다음과 같습니다.

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

피보험자에 비해 비보험 자에게 영양이 부족할 확률은 다음과 같습니다.

exp(B1)

이 값들 사이를 (수학적으로) 변환하는 방법이 있습니까? 나는 여전히이 방정식에 약간 혼란 스럽습니다 (RHS에서 다른 값이어야합니다).

Prob(Ins) - Prob(Unins) != exp(B)

평신도의 관점에서 볼 때, 문제는 확률 확률이 나타내는 것만 큼 영양이 부족할 확률을 개인이 보장하지 않는 이유는 무엇입니까? 내 데이터에서 Prob (Ins)-Prob (Unins) = .04, 지수 베타 값은 .8입니다 (왜 차이가 .2가 아닌가?)


2
이 훌륭하고 명확한 설명이 로그 로지스틱 모델 / 회귀에 적용됩니까?

답변:


50

그것은 나에게 자명 보인다 하지 않는 한 입니다. 따라서 혼란이 무엇인지 명확하지 않습니다. 내가 말할 수있는 것은 (안) 등호의 왼쪽 (LHS)이 있다는 것이다 확률 우변은 반면, 영양 될 확률 영양 실조되는. 자체 검사를 할 때, 의 인 교차비 는 확률 (이동할 수있는 곱셈 요인, 확률 (에) ).

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

추가 / 다른 정보가 필요한 경우 알려주십시오.

업데이트 :
나는 이것이 확률과 확률에 익숙하지 않은 문제와 서로 관련이 있다고 생각합니다. 그 중 어느 것도 매우 직관적이지 않습니다. 앉아서 잠시 동안 작업하고 그 용어로 생각하는 배워야 합니다. 자연스럽게 누구에게도 오지 않습니다.

문제는 절대 숫자는 독자적으로 해석하기가 매우 어렵다는 것입니다. 내가 동전을 가지고 있었던 시간에 대해 말하고 있고 그것이 공정한지 궁금해 봅시다. 그래서 나는 그것을 약간 뒤집었고 6 머리를 얻었다. 그게 무슨 뜻이야? 6은 조금 많습니까? 말하기가 정말 어렵습니다. 이 문제를 다루기 위해 우리는 숫자를 약간의 맥락을 제시하고자합니다. 이와 같은 경우 필요한 컨텍스트를 제공하는 방법에 대한 두 가지 분명한 선택이 있습니다. 총 플립 수를 줄 수도 있고 꼬리 수를 줄 수도 있습니다. 두 경우 모두 6 개의 머리를 이해하기에 충분한 정보가 있으며, 내가 말한 값이 원하는 값이 아닌 경우 다른 값을 계산할 수 있습니다. 확률은 헤드 수를 총 이벤트 수로 나눈 값입니다. 승산은 헤드 수와 헤드 수의 비율입니다.비 머리 (직관적으로 우리는 꼬리 수를 말하고 싶습니다.이 경우에는 효과가 있지만 두 가지 이상의 가능성이있는 경우는 아닙니다.) 배당률로, 예를 들어 4에서 5까지의 두 숫자를 제공 할 수 있습니다. 이것은 장기적으로 어떤 일이 5 번 발생할 때마다 4 번 발생한다는 것을 의미합니다. 이런 방식으로 배당률을 제시하면 " 라스 베이거스 배당률 "이라고합니다. 그러나 통계에서 우리는 일반적으로 표준화를 위해 확률을 .8 (즉, 4/5 = .8)로 나눕니다. 확률과 확률을 변환 할 수도 있습니다 :

probability=odds1+odds                odds=probability1probability
(이 공식을 사용하면 확률이 최고 LHS이고 확률이 RHS임을 인식하기 어려울 수 있지만 중간의 등호아니라는 점을 기억하십시오 .) 승산 비 는 다른 것의 가능성; 로지스틱 회귀의 맥락에서 각 는 다른 모든 것이 동일하게 유지 될 때 연관된 공변량의 연속적인 값에 대한 확률의 비율입니다. exp(β)

이 모든 방정식에서 인식해야 할 중요한 점은 확률, 확률 및 승산 비가 직접적인 방식으로 동일하지 않다는 것입니다. 확률이 .04만큼 올라간다고 해서 확률 또는 확률 비율이 .04와 같아야한다는 것을 의미하지는 않습니다 ! 또한 확률의 범위는 이고 ln 확률 (원시 로지스틱 회귀 방정식의 출력)은 범위 일 수 있고 확률과 확률의 비율은 . 이 마지막 부분은 매우 중요합니다. 한정된 범위의 확률로 인해 확률은 비선형 이지만 확률은 선형 일 수 있습니다. 즉, 예를 들어[0,1](,+)(0,+)wealth일정한 증가량으로 증가하면 영양 부족의 확률은 양에 따라 증가하지만 ln 확률은 일정한 양만큼 증가하고 확률은 일정한 곱셈 계수만큼 증가합니다. 로지스틱 회귀 모형의 특정 값 집합에 대해 일부 및 이지만 다른 곳에서는 불평등합니다.

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(다른 질문의 맥락에서 작성되었지만 여기에 내 대답 에는 로지스틱 회귀 및 관련 문제를보다 완전하게 이해하는 데 도움이 될 수있는 로지스틱 회귀에 대한 많은 정보가 포함되어 있습니다.)


답변 주셔서 감사합니다-위의 편집에서 혼란을 더 설명했습니다.
mike

시간을내어 자세한 설명을 작성해 주셔서 대단히 감사합니다.
mike

천만에요, @mike, CV가 그랬습니다.
gung-복원 Monica Monica

다시 라스베가스 확률 링크 : 나는 그들이 분수 확률을 인용 (머니 반대)가 "에 대한 확률"의 영국의 시스템에 따라 베이거스 기반의 사이트에서 제공하는 일부 가격하지 베이거스에 가본하지만 찾는 적이 통계적 "홀수". 따라서 귀하의 링크에있는 "라스 베이거스 확률"은 실제 도박 확률과 일치하지 않습니다. 여기서 "9-1"은 가능성이 거의없는 이벤트 일뿐입니다 ( "9-1"은 통계 학자에게 해당됨). 내가 여기서 다루려고하는 혼란의 근원
Silverfish

@ Silverfish, 나는 오랫동안 라스 베이거스에 가본 적이 없습니다. 나는 그들이 일반적으로 배당률과 배당률을 나열하는지 기억이 안납니다. 그럼에도 불구하고 '4-5'는 라스 베이거스 확률 이라고 합니다.
gung-Monica Monica 복원


-1

승산 비 OR = Exp (b)는 확률 A = SQRT (OR) / (SQRT (OR) +1)로 변환되며, 여기서 확률 A는 이벤트 A의 확률이고 OR은 발생하는 이벤트 A의 비율 / 발생하지 않은 이벤트 A (또는 위의 질문에서와 같이 보험에 의해 노출되거나 노출되지 않음). 해결하는 데 꽤 오랜 시간이 걸렸습니다. 왜 잘 알려진 공식이 아닌지 잘 모르겠습니다.

예가 있습니다. 대학에 10 명이 입학했다고 가정하자. 그들 중 7 명은 남자입니다. 따라서 모든 사람에게 입학 가능성은 70 %입니다. 남성에게 허용되는 승률은 7 / 3 = 2.33이며 3 / 7 = 0.43은 허용되지 않습니다. 승률 비 (OR)는 2.33 / 0.43 = 5.44로, 남성의 경우 여성보다 5.44 배 더 높은 확률로 입학 할 수 있습니다. OR에서 사람에게 인정 될 확률을 찾아 보자 : P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7

업데이트 이것은 인정 된 남녀 수가 신청자 수와 동일한 경우에만 해당됩니다. 즉, OR이 아닙니다. 추가 정보를 모른 채 요인에 따라 확률 증가 (또는 손실)를 찾을 수 없습니다.


잘못된 난 두려워 우리가 가능성 (확률) 대학에 입학 누군가가 한 남자 (또는 여자)이다,하지만 확률 추정 할 수있다이 예에서는 비율이 많은 남자 & 여자를 사이에 얼마나 모르고 지원자 . 잘못된 난 두려워 우리가 가능성 (확률) 대학에 입학 누군가가 한 남자 (또는 여자)이다,하지만 확률 추정 할 수있다이 예에서는 비율이 많은 남자 & 여자를 사이에 얼마나 모르고 지원자 . 여기서 OR이라고 부르는 것은 실제로 확률 제곱 입니다. 7232
Scortchi-Monica Monica 복원

네, 그렇습니다. 감사합니다. 알려진 OR (예를 들어 로지스틱 회귀 출력으로 얻는)을 사전 확률에 대한 정보를 알지 못하면 확률 손익으로 변환 할 수 없다는 것을 알았습니다. 나는 대답을 업데이트했다.
Niksr
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.