결과를 범주가 아닌 서수로 간주하면 무엇을 얻을 수 있습니까?


12

순서 변수와 범주 변수를 예측하는 방법에는 여러 가지가 있습니다.

내가 이해하지 못하는 것은이 구별이 어떻게 중요한지입니다. 주문을 취소하면 무엇이 잘못되었는지 분명히 알 수있는 간단한 예가 있습니까? 어떤 상황에서 중요하지 않습니까? 예를 들어, 독립 변수가 모두 범주 형 / 소수 형인 경우 차이가 있습니까?

이 관련 질문 은 독립 변수의 유형에 중점을 둡니다. 여기서는 결과 변수에 대해 묻습니다.

편집 : 순서 구조를 사용하면 모델 매개 변수의 수가 줄어 듭니다. 그러나 여전히 확신하지는 않습니다.

다음은 순서 로지스틱 회귀 분석이 다항 로지스틱 회귀 분석보다 성능이 좋지 않은 것을 볼 수있는 순서화 된 로지스틱 회귀에 대한 소개 에서 가져온 예입니다 .

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

이는 두 알고리즘의 올바른 추측 횟수 (40 개 중)의 분포를 보여줍니다.

polr_vs_multinom

편집 2 : 스코어링 방법으로 사용할 때 다음은

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

"매우 잘못된"예측에 불이익을 주면 polr은 여전히 ​​나빠 보입니다. 즉, 위의 도표는 크게 변하지 않습니다.


1
귀하의 예는 불연속적인 부적절한 점수 규칙을 사용하는데, 이는 일반적으로 예측 세트를 비교하기에 적합하지 않습니다 (임의의 힘과 정밀도가 부족함).
Frank Harrell 2016 년

출력 변수를로 설정해야 ordered factor결과를 향상시킬 수 있다고 가정 gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)했지만 차이는 없습니다. 정확성을 보면 두 가지가 거의 비슷합니다. 하지만 정확도는 전적으로 의존하기에 좋은 지표는 아닙니다.
Zhubarb

답변:


10

적절한 경우 Y를 서수로 취급하면 큰 힘과 정밀도를 얻을 수 있습니다. 이는 모델에서 훨씬 더 적은 수의 매개 변수에서 발생합니다 (k는 Y의 범주 수보다 1이 작음). 몇 가지 서수 모델이 있습니다. 가장 일반적으로 사용되는 비율은 승률과 연속 비율 서수 로지스틱 모형입니다.


1
+1 모수의 감소는 또한 서수 모형이 훨씬 더 적합 할 수 있음을 의미합니다.
JMS

4

순서가 지정된 변수의 특성을 무시하면 적절한 방법으로도 올바른 분석이 제공되지만 순서가 지정된 데이터에 방법을 사용하면 중요한 변수의 순서와 크기에 대한 더 많은 정보를 얻을 수 있다는 이점이 있습니다.


주문에 대한 정보가 제공되지 않습니다.
Karsten W.

1
변수에 low, med, high의 세 가지 수준이 있다고 가정합니다. 서수 분석은 낮음과 약의 차이는 없지만 높음의 중요성을 암시 할 수 있습니다. 모수 추정값은 '변수 X가 높을 때 효과가 낮음 또는 중간 값보다 2.5 배 더 큰 것으로 추정되므로'방향 및 크기와 같은 정보를 제공 할 수 있습니다.
Murray

2

데이터를 모형화하고 종속 범주 형 변수에 순서 (공칭)가없는 경우 다항식 로짓 모델을 사용해야합니다. 종속 변수에 순서 (순서)가있는 경우 누적 로짓 모델 (비례 확률 모델)을 사용할 수 있습니다.

개인적으로, 특히 통계적으로 지식이없는 사람에게 결과를보고하려는 경우 다항식 모델에 비해 비례 승산 모델에 대한 결과를 해석하기가 훨씬 쉽다는 것을 알게되었습니다.

이것들은 당신이 사용할 수있는 유일한 모델은 아니지만 매우 전형적인 모델입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.