의사 결정 트리 또는 로지스틱 회귀 분석?


14

분류 문제를 해결하고 있습니다. 동일한 수의 범주 형 변수와 연속 변수를 포함하는 데이터 세트가 있습니다. 어떤 기술을 사용해야하는지 어떻게 알 수 있습니까? 의사 결정 트리와 로지스틱 회귀 분석

로지스틱 회귀 분석이 연속 변수에 더 적합하고 의사 결정 트리가 연속 + 범주 변수에 더 적합하다고 가정하는 것이 옳습니까?


행 수, 열 수 (범주 / 연속 수)와 같은 세부 정보를 추가 할 수 있습니까?
Nitesh

안녕하세요 @Nitesh, 32 개의 입력 변수 + 1 개의 대상 변수가 있습니다. 훈련 데이터에 대한 기록은 2.5 라크에 가까우며 약 1 라크의 시험 데이터를 말합니다. 테스트 데이터가 시간이 지난 데이터입니다.
Arun

답변:


22

짧은 이야기 : @untitledprogrammer가 말한 것을 수행하고 모델을 선택하고 교차 검증을 시도하여 하나를 선택하십시오.

의사 결정 트리 (예 : 구현에 따라 C4.5)와 로지스틱 회귀 모두 연속적이고 범주적인 데이터를 잘 처리 할 수 ​​있어야합니다. 로지스틱 회귀 분석의 경우 범주 형 변수더미 코딩해야합니다 .

@untitledprogrammer가 언급했듯이, 지속적이거나 다른 기능의 유형에 따라 어떤 기술이 더 좋을지 선험적으로 알기가 어렵습니다. 실제로는 특정 문제와 가지고있는 데이터에 따라 다릅니다. ( 무료 점심 정리 없음 참조 )

로지스틱 회귀 모델은 형상 공간에서 단일 선형 결정 경계를 검색하는 반면 의사 결정 트리는 기본적으로 축 정렬 선형 결정 경계를 사용하여 형상 공간을 절반 공간으로 분할한다는 점을 명심해야합니다 . 결과적으로 비선형 의사 결정 경계가있을 수 있습니다 (둘 이상).

데이터 포인트를 단일 초평면으로 쉽게 분리 할 수없는 경우에 유용하지만, 의사 결정 트리는 너무 유연하여 과적 합하기 쉽습니다. 이를 방지하기 위해 가지 치기를 시도 할 수 있습니다. 로지스틱 회귀 분석은 과적 합에 덜 영향을받는 경향이 있습니다 (그러나 면역성이 아님).

엑스와이엑스와이

따라서 스스로에게 물어봐야합니다.

  • 특정 문제에 어떤 종류의 결정 경계가 더 합리적입니까?
  • 바이어스와 분산의 균형을 어떻게 조정 하시겠습니까?
  • 내 기능간에 상호 작용이 있습니까?

물론 두 모델을 모두 시도하고 교차 유효성 검사를 수행하는 것이 항상 좋습니다. 이렇게하면 어떤 것이 더 일반화 오류를 일으킬 가능성이 큰지 알 수 있습니다.


정확히 @Victor.
untitledprogrammer

@Victor 매우 자세한 설명을 주셔서 감사합니다.
Arun

6

회귀 트리와 의사 결정 트리를 모두 사용해보십시오. 10 배 교차 검증을 사용하여 각 기술의 효율성을 비교하십시오. 더 높은 효율로 고수하십시오. 데이터 집합이 연속적이거나 범주 적이라는 것을 알면 어떤 방법이 더 적합한 지 판단하기 어려울 것입니다.


1

실제로 데이터의 기본 배포 구조에 따라 다릅니다. 데이터가 Bernoulli 분포와 비슷하다고 믿을만한 강력한 이유가 있으면 다항 로지스틱 회귀 분석이 잘 수행되고 해석 가능한 결과를 얻을 수 있습니다. 그러나 기본 분포에 비선형 구조가있는 경우 비모수 적 방법을 심각하게 고려해야합니다.

의사 결정 트리를 비모수 적 방법으로 사용할 수는 있지만 임의 포리스트 생성을 고려할 수도 있습니다. 이는 기본적으로 데이터 하위 집합에서 많은 수의 개별 의사 결정 트리를 생성하며 최종 분류는 모든 트리의 집계 된 투표입니다. . 랜덤 포레스트는 각 예측 변수가 반응에 기여하는 비율에 대한 아이디어를 제공합니다.

명심해야 할 또 다른 요소는 해석 가능성입니다. 데이터를 분류하려는 경우 설명 변수와 응답 변수 간의 기본 관계에 신경 쓰지 않을 것입니다. 그러나 해석에 관심이 있다면 다항 로지스틱 회귀 분석은 해석하기가 훨씬 쉽습니다. 일반적으로 모수 적 방법은 기본 분포에 대한 가정을하기 때문에보다 직관적으로 해석 가능한 관계를 알려줍니다.


0

의사 결정 트리를 사용하려면 연속 변수를 범주 형으로 변환해야합니다.

한 가지 더, 로지스틱 회귀는 일반적으로 확률에 따라 결과를 예측하는 데 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.