승률 은 기회를 표현하는 방법입니다. 승률 은 단지 하나입니다. 한 배당률은 다른 배당률로 나뉩니다. 즉, 승산 비는 한 승산에 다른 승산을 곱한 것입니다. 이 일반적인 상황에서 어떻게 작동하는지 봅시다.
확률과 확률 사이의 변환
이진 응답 확률 (코딩이 일어나는 확률의 비율이다 1 기록) 잠 ( Y = 1 ) 가 (코딩되지 않는 확률로 0 기입) 잠 ( Y = 0 ) :와이1Pr ( Y= 1 )0Pr ( Y= 0 )
승률 ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 − Pr ( Y= 1 ).
오른쪽의 등가 표현 은 확률을 찾기 위해 모델이면 충분하다는 것을 보여줍니다 . 반대로, 우리는 해결할 수 있습니다Pr ( Y= 1 )
Pr ( Y= 1 ) = 승률 ( Y)1 + 승률 ( Y)= 1 - 11 + 승률 ( Y).
로지스틱 회귀
로지스틱 회귀 분석 은 Y 확률의 로그 를 설명 변수의 선형 함수로 모델링합니다 . 가장 일반적으로 이러한 변수를 x 1 , … , x p 로 쓰고 선형 함수에 가능한 상수 항을 포함하여 계수 (데이터에서 추정되어야 함)의 이름을 β 1 , … , β p 및 β 0 . 공식적으로 이것은 모델을 생성합니다와이엑스1, … , x피β1, … , β피β0
로그(Odds(Y))=β0+β1x1+⋯+βpxp.
로그를 취소하면 확률 자체를 복구 할 수 있습니다.
Odds(Y)=exp(β0+β1x1+⋯+βpxp).
범주 형 변수 사용
예컨대 연령, 성별, 녹내장의 존재와 같은 범주 형 변수 등 , "코딩 더미."에 의하여 포함된다 변수가 어떻게 코딩되는지는 중요하지 않다는 것을 보여주기 위해 하나의 작은 그룹에 대한 간단한 예를 제공 할 것입니다. 여러 그룹에 대한 일반화는 분명해야합니다. 이 연구에서 변수 하나는 "대형", "중간"및 "소형"의 세 가지 범주가있는 "학생 크기"입니다. (연구 취급이 분명히 고유의 순서에 아무런주의를 기울이지 않는다. 순전히 범주로) 직관적으로, 각 카테고리는 자신의 확률을 가지고 말 , "대형"에 대한 α M "중간"을위한 α S "작은"에 대한 . 이것은 다른 모든 것들이 동일하다는 것을 의미합니다.αLαMαS
Odds(Y)=exp(αL+β0+β1x1+⋯+βpxp)
'큰'카테고리의 모든 사용자에게
Odds(Y)=exp(αM+β0+β1x1+⋯+βpxp)
'중간'카테고리의 모든 사용자
Odds(Y)=exp(αS+β0+β1x1+⋯+βpxp)
"작은"카테고리의 사용자
식별 가능한 계수 만들기
첫 번째 두 계수를 색칠하여 강조 표시했습니다. 왜냐하면 간단한 변경이 가능하다는 것을 알기를 원하기 때문입니다. 우리는 임의의 숫자 선택할 수 있고 β 0 에 더하고 α L , α 에서 각각 빼서 M , 및 α S는 , 우리는 어떤 예측 가능성을 변경하지 않을 것입니다. 이것은 형식의 명백한 동등성 때문입니다γβ0αLαMαS
αL+β0=(αL−γ)+(γ+β0),
등 모델에 대한 문제는이 선물을 비록 - 아직 정확히 같은 일을 예측하지 - 매개 변수가 그 자체로 해석되지된다는 사실을 보여줍니다. 이 더하기 빼기 조작을 수행 할 때 동일하게 유지되는 것은 계수 간의 차이 입니다. 일반적으로, 이러한 식별성의 부족 을 해결하기 위해 사람들 (및 기본적으로 소프트웨어)은 각 변수의 범주 중 하나를 "기본"또는 "참조"로 선택하고 계수가 0이되도록 간단히 규정합니다. 모호성을 제거합니다.
이 논문은 참조 범주를 먼저 나열합니다. 이 경우 "큰"입니다. 따라서, 각각으로부터 감산 α L , α M , 및 α S 및 첨가 β 0 보상.αLαL,αM,αSβ0
따라서 모든 기본 범주에 속하는 가상의 개인에 대한 로그 확률은 과 다른 모든 "공변량"(비범 주형 변수)과 관련된 많은 용어와 같습니다.β0
Odds(Base category)=exp(β0+β1X1+⋯+βpXp).
βiαj
확률 비교
확률을 비교해 봅시다. 가상의 개인이
흰색 백내장, 재정적 견해 및 전문 등록 기관이 운영하는 작은 학생이있는 80-89 세 남성 환자 ...
α80-89αmale
α80-89+αmale+αno Glaucoma+⋯+αspecialist registrar.
이것은 정확하게이 환자의 로그 확률이베이스와 다른 정도입니다. 로그 승산에서 변환하려면 로그를 취소하고 더하기가 곱셈으로 바뀌는 것을 상기하십시오. 따라서 기본 배당률은
exp(α80-89)exp(αmale)exp(αno Glaucoma)⋯exp(αspecialist registrar).
These are the numbers given in the table under "Adjusted OR" (adjusted odds ratio). (It is called "adjusted" because covariates x1,…,xp were included in the model. They play no role in any of our calculations, as you will see. It is called a "ratio" because it is precisely the amount by which the base odds must be multiplied to produce the patient's predicted odds: see the first paragraph of this post.) In order in the table, they are exp(α80-89)=1.58, exp(αmale)=1.28, exp(αno Glaucoma)=1.00, and so on. According to the article, their product works out to 34.5. Therefore
Odds(Charlie)=34.5×Odds(Base).
(Notice that the base categories all have odds ratios of 1.00=exp(0), because including 1 in the product leaves it unchanged. That's how you can spot the base categories in the table.)
Restating the results as probabilities
Finally, let us convert this result to probabilities. We were told the baseline predicted probability is 0.736%=0.00736. Therefore, using the formulas relating odds and probabilities derived at the outset, we may compute
Odds(Base)=0.007361−0.00736=0.00741.
Consequently Charlie's odds are
Odds(Charlie)=34.5×0.00741=0.256.
Finally, converting this back to probabilities gives
Pr(Y(Charlie)=1)=1−11+0.256=0.204.