순서화 된 로지스틱 회귀 분석에 대한보다 나은 설명과 이해를 위해 범주 형 데이터 분석 (Alan Agresti의 범주 형 데이터 분석, 2002 참조)에 관한 책을 참조하십시오 . 당신이 묻는 모든 질문은 기본적으로 그러한 책의 몇 장으로 대답됩니다. 당신은 단지에 관심이 있다면 R
, 관련 예 R에서 선형 모델을 확장 하여 줄리안 원경 (CRC 출판사, 2008) 좋은 참조입니다.
귀하의 질문에 대답하기 전에 순서 로지스틱 회귀 분석 은 범주가 정렬 된 다항 로짓 모형 입니다. 우리가 가정 카테고리 정렬 개별 동안 그 I 서수 응답, Y I ,
P I J = P를 ( Y 난 = J가 ) 에 대한 J = 1 , . . . , J . 정렬 식 응답을 사용하면 누적 확률을 사용하는 것이 더 쉽습니다. γ i j = PJ나는와이나는피나는 j= P( Y나는 = j )J = 1 , . . . , J . 누적 확률은 증가하고 인접 범주를 결합하는 데 변하지 않습니다. 또한 γ i J = 1 이므로 모형확률만 필요합니다.γ나는 j= P( Y나는≤ j )γ나는 J= 1J– 1
이제 를 공변량 에 연결하려고합니다 . 귀하의 경우, 3 개 주문 수준이 있습니다 , , . 순서가 아닌 순서대로 처리하는 것이 더 합리적입니다. 나머지 변수는 공변량입니다. 고려중인 특정 모델은 비례 승산 모델 이며 수학적으로 다음과 같습니다. xγ나는 j엑스Sat
low
medium
high
여기서 γ j ( x i ) = P ( Y i ≤ j | x i )
로짓 γj( x나는) = θj− β티엑스나는, j = 1 … J− 1
여기서 γj( x나는) = P( Y나는≤ j | 엑스나는)
과 비교 하는 대한 상대 확률 은 다음 과 같습니다.x 1 x 2와이≤ j엑스1엑스2
( γj( x1)1 - γj( x1)) / ( γj( x2)1 - γj( x2)) =exp( − β티( x1− x2) )
위의 표현은 의존하지 않습니다 . 물론, 주어진 데이터 집합에 대해 비례 배당률의 가정을 확인해야합니다.j
이제 몇 가지 (1, 2, 4) 질문에 대답하겠습니다.
모델이 잘 맞는지 어떻게 알 수 있습니까? summary (house.plr)는 잔류 편차 3479.149와 AIC (Akaike Information Criterion?)가 3495.149임을 보여줍니다. 그것은 좋습니까? 상대 측정법으로 만 유용한 경우 (예 : 다른 모형 적합과 비교) 좋은 절대 측정법은 무엇입니까? 잔차 이탈은 대략 카이 제곱 분포입니까? 원본 데이터 또는 일부 교차 검증에서 "정확하게 예측 된 %"를 사용할 수 있습니까? 가장 쉬운 방법은 무엇입니까?
적합 모델 polr
은 특별 glm
하므로 glm
여기 에서 전통적으로 적용 되는 모든 가정이 적용됩니다. 모수를 올바르게 관리하면 분포를 알아낼 수 있습니다. 특히, 모델이 좋은지 아닌지 를 테스트하기 위해 다음과 같은 null을 테스트하는 fit of goodness fit 을 수행 할 수 있습니다 (이것은 미묘한 점입니다. 잘 맞으려면 거부하십시오.) :
H영형: 현재 모델이 충분합니다
이를 위해 카이-제곱 테스트 를 사용합니다. p- 값은 다음과 같이 얻습니다.
1-pchisq(deviance(house.plr),df.residual(house.plr))
대부분의 경우 모델이 적합하다는 결론을 내기 위해 null을 거부하지 않도록 0.05보다 큰 p- 값을 얻으려고합니다 (철도 적 정확성은 무시 됨).
많은 수의 매개 변수를 원하지 않는 동시에 AIC가 잘 맞아야합니다. stepAIC
이것을 확인하는 좋은 방법입니다.
예, 교차 검증을 사용하여 예측이 유지되는지 확인할 수 있습니다. 참조 predict
기능 (옵션 : type = "probs"
)에 ?polr
. 주의해야 할 것은 공변량입니다.
홍보에는 어떤 정보가 포함되어 있습니까? 프로파일의 도움말 페이지는 일반적이며 polr에 대한 지침을 제공하지 않습니다.
@chl 및 기타에서 지적한 바와 같이 pr
CI를 얻는 데 필요한 모든 정보 및의 가능성 관련 정보가 포함되어 polr fit
있습니다. 모든 glm
로그는 로그 우도에 대해 반복 가중 최소 제곱 추정 방법을 사용하여 적합합니다. 이 최적화에서는 분산 공분산 행렬, CI, t- 값 등을 계산하는 데 필요한 많은 정보 (참조를 참조하십시오)를 얻습니다. 여기에는 모든 정보가 포함됩니다.
각 계수의 t 값을 어떻게 해석합니까? 일부 모형 적합과 달리 여기에는 P 값이 없습니다.
일반 선형 모형 (special glm
) 과는 달리 glm
, 회귀 계수에 대한 다른 t 분포는 좋지 않습니다. 따라서 최대 우도 이론을 사용하여 모수 추정값과 점근 적 분산 공분산 행렬 만 얻을 수 있습니다. 따라서:
분산 ( β)^) = ( X티여엑스)− 1ϕ^
추정치를 표준 오류로 나눈 것은 BDR과 WV가 t- 값을 부르는 것입니다 ( MASS
여기서는 규칙을 가정 합니다). 정규 선형 회귀 분석의 t- 값과 동일하지만 t- 분포를 따르지 않습니다. CLT를 사용하면 무 정규 정규 분포입니다. 그러나 그들은이 근사치를 사용하지 않기를 원하므로 p- 값은 없습니다. (내가 틀리지 않았 으면 좋겠다. 만약 내가 BDR이이 포럼에 있지 않기를 바란다. 내가 틀렸다면 누군가 나를 교정 할 것이다.)
methods("profile")
Rprofile
객체 와 관련된 (이 경우 S3) 방법 을 제공하면polr
결과에 대한 전용 방법보다 더 많이 볼 수 있습니다.getAnywhere("profile.polr")
R 프롬프트에서 입력하여 온라인 .