연속 변수에 대한 최적의 이산 화법을 찾고 평가하는 방법


9

연속 변수와 이진 대상 변수 (0 및 1)가있는 데이터 세트가 있습니다.

목표 변수와 관련하여 연속 변수 (로지스틱 회귀 분석)를 불연속 화하고 각 구간의 관측 빈도가 균형을 이루도록 제한해야합니다. Chi Merge, 의사 결정 트리와 같은 기계 학습 알고리즘을 시도했습니다. Chi merge는 각 구간에서 매우 불균형 한 수의 구간을 제공했습니다 (3 개의 관측 값이있는 구간과 1000의 다른 구간). 의사 결정 트리는 해석하기 어려웠습니다.

최적의 이산화는 χ2 이산화 변수와 목표 변수 사이의 통계량으로, 대략 같은 양의 관측 값을 포함하는 구간을 가져야합니다.

이 문제를 해결하기위한 알고리즘이 있습니까?

이것은 R에서와 같이 보일 수 있습니다 (def는 대상 변수이고 x는 이산 될 변수입니다). 나는 Tschuprow의 계산T 변환 된 변수와 목표 변수 사이의 "상관"을 평가하기 위해 χ2통계는 간격 수에 따라 증가하는 경향이 있습니다. 이것이 올바른 방법인지 확실하지 않습니다.

내 이산화가 Tschuprow 's 이외의 것이 최적인지 평가하는 다른 방법이 있습니까? T (클래스 수가 감소하면 증가)?

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
아마 이것을 알고있을 것입니다. 그러나 기록을 위해 (1) 로지스틱 회귀 분석에 대한 예측 변수를 불연속화할 필요도없고, 종종 바람직하지도 않으며, (2) 예측 변수를 정의하기위한 반응을 사용하여 모형의 예측 성능 추정에 낙관적 편견을 도입합니다. 따라서 전체 피팅 절차 (예 : 예측 변수를 구성하는 데 사용하는 방법 포함)의 유효성을 검사하는 것이 중요합니다 .
Scortchi-복원 Monica Monica

좋아요, 이산화를 어떻게 확인할 수 있습니까? 어떻게 작동합니까?
샬럿

예를 들어 교차 유효성 검사를 사용하는 경우 각 접기에서 전체 표본에서 결정된 예측 변수의 "최적"이산화를 사용하여 로지스틱 회귀를 수행 할뿐만 아니라 "최적"이산화도 다시 계산하십시오.
Scortchi-Monica Monica 복원

답변:


8

연속 변수를 구별하는 방법에는 여러 가지가 있습니다. [Garcia 2013]

739 페이지에서 카이 제곱을 기반으로 최소 5 가지 방법을 볼 수있었습니다. 이산화의 최적 성은 실제로 이산화 변수를 사용하려는 작업에 따라 다릅니다. 로지스틱 회귀 분석의 경우입니다. Garcia2013에서 논의했듯이 작업이 주어지면 최적의 이산화를 찾는 것은 NP- 완료입니다.

휴리스틱이 많이 있습니다. 이 논문에서 그들은 적어도 50 가지에 대해 논의합니다. 기계 학습 배경을 감안할 때 (통계에있는 사람들이 다른 것을 선호한다고 생각합니다) 나는 종종 Fayyad와 Irani의 최소 설명 길이 (MDL) 방법에 편향되어 있습니다. R 패키지 이산화 에서 사용할 수 있습니다

당신이 말했듯이, 카이 제곱은 많은 수의 간격으로 편향되어 있으며 많은 다른 통계 (MDL 방법에서 사용되는 정보 획득)가 있습니다. 그러나 MDL은 이산화 변수와 클래스의 정보 획득과 ​​이산화 변수의 복잡성 (간격 수) 사이에서 적절한 절충점을 찾으려고합니다. 시도 해봐.


Garcia 2013 링크가 깨져있는 것 같습니다 ...이 기사에 대한 자세한 내용을 게시하거나 다시 연결 하시겠습니까?
Kiran K.

2
@KiranK. 알려 줘서 고마워. 링크를 수정했습니다.
Simone
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.