의사 결정 트리 대 신경망


20

은행 등과 같은 금융 시스템에서 사기를 시도하고 예측하기 위해 기계 학습 구조를 구현하고 있습니다. 이는 모델을 훈련시키는 데 사용할 수있는 다양한 데이터가 있다는 것을 의미합니다. 카드 번호, 카드 소지자 이름, 금액, 국가 등

이 문제에 가장 적합한 구조를 결정하는 데 문제가 있습니다. 의사 결정 트리에 대한 경험이 있지만 현재 신경 네트워크가 이러한 종류의 문제에 더 적합한 지 의문을 가지기 시작했습니다. 또한 다른 방법이 가장 좋으면 저에게 계몽을 주시기 바랍니다.

각 구조의 장단점은 무엇이며이 문제에 가장 적합한 구조는 무엇입니까?

또한이 사실에 대해서는 확신하지 못하지만 의사 결정 트리는 실행 속도 측면에서 신경망보다 큰 이점이 있다고 생각합니다. 이 프로젝트에서 속도 또한 중요한 요소이기 때문에 이것은 중요합니다.

답변:


24

이 둘 사이에는 많은 차이점이 있지만 실제로는 속도, 해석 및 정확성이라는 세 가지 주요 사항을 고려해야합니다.

의사 결정 트리

  • 일단 훈련되면 더 빨라야합니다 (두 알고리즘 모두 정확한 알고리즘과 데이터의 양 / 차원에 따라 느리게 훈련 될 수 있지만). 의사 결정 트리는 본질적으로 유용하지 않은 입력 기능을 "버릴"때문에 신경망은 일부 기능 선택을 전처리 단계로 수행하지 않는 한 모든 기능을 사용하기 때문입니다.
  • 모델이하는 일을 이해하는 것이 중요하다면, 나무는 매우 해석하기 쉽습니다.
  • 데이터의 축-평행 분할 인 모델 함수 만 해당되며, 그렇지 않을 수도 있습니다.
  • 과적 합 을 피하기 위해 나무를 가지 치기 해야 할 것입니다 .

신경망

  • 속도가 느리고 (훈련 및 분류 모두) 해석하기가 어렵습니다.
  • 데이터가 스트림에 도착하면 기본적으로 배치 학습 알고리즘을 사용하는 의사 결정 트리와 달리 확률 적 그라디언트 디센트를 사용하여 증분 업데이트를 수행 할 수 있습니다.
  • 더 많은 임의의 기능 (비선형 상호 작용 등)을 모델링 할 수 있으므로 충분한 훈련 데이터가있는 경우 더 정확할 수 있습니다. 그러나 과잉 피팅되기 쉽습니다.

어느 쪽이 더 나은지 확인하고 실행 시간을 벤치마킹하기 위해 데이터를 구현하고 실험을 실행 해 볼 수 있습니다. 또는 Weka GUI takelit과 같은 대표적인 데이터 샘플을 사용하여 두 방법 모두를 테스트 할 수 있습니다.

의사 결정 트리와 함께 "bagging"또는 "boosting"알고리즘을 사용하면 단순성과 속도를 유지하면서 정확성을 향상시킬 수 있습니다. 요컨대, 속도와 해석 능력이 정말로 중요하다면 나무가 시작될 곳일 것입니다. 그렇지 않으면, 그것은 의존하고 당신은 경험적 탐구를해야합니다.


이것에 대해 조금 알고있는 것 같습니다. 베이지 네트워크 또는이 문제에 도움이 될 수있는 다른 기계 학습 방법에 대한 경험이 있습니까?
Topo

1
나는 완전한 베이지안 네트워크, 주로 순진한 베이 즈 및 주제 모델을 많이 사용하지 않았습니다. 나는 사기 탐지 문제에 대해 일한 적이 없지만 순진한 베이 즈 또는 로지스틱 회귀 는 여기에서도 합리적인 접근법 일 수 있습니다.
burr
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.