데이터 마이닝에서 연관 규칙과 의사 결정 트리의 실제 차이점은 무엇입니까?


19

이 두 기술의 실제 차이점에 대한 간단한 설명이 있습니까?

  • 둘 다 감독 학습에 사용되는 것으로 보입니다 (연관 규칙은 감독되지 않은 사람도 처리 할 수 ​​있음).

  • 둘 다 예측에 사용될 수 있습니다

내가 '좋은'설명에서 찾은 가장 가까운 것은 Statsoft Textbook에서 입니다. 그들은 협회 규칙 이 다음을 위해 사용 된다고 말합니다 .

... 대용량 데이터 세트에서 범주 형 변수의 특정 값 사이의 관계 또는 연관을 감지합니다.

반면 의사 결정 트리 분류가 사용되는 것으로 설명되어 있습니다 :

... 하나 이상의 예측 변수에 대한 측정치에서 범주 형 종속 변수 클래스의 케이스 또는 객체의 구성원을 예측합니다.

그러나 R 데이터 마이닝에서는 대상 필드와 함께 사용되는 연관 규칙 의 예를 제공 합니다 .

따라서 둘 다 그룹 멤버십을 예측하는 데 사용될 수 있습니다. 의사 결정 트리가 비 분류 입력 데이터를 처리 할 수있는 반면 연관 규칙이 할 수없는 주요 차이점은 무엇입니까? 아니면 더 근본적인 것이 있습니까? 한 사이트 ( sqlserverdatamining.com )에 따르면 주요 차이점은 다음과 같습니다.

의사 결정 트리 규칙은 정보 획득을 기반으로하지만 연결 규칙은 인기 및 / 또는 신뢰를 기반으로합니다.

따라서 (내 자신의 질문에 대답 할 수 있음) 의사 결정 트리가 실제로 분산을 최소화하려고 시도하는 동안 연관 규칙이 데이터 세트에 얼마나 자주 나타나는지 (그리고 얼마나 '참'인지) 순전히 연관 규칙을 평가한다는 것을 의미합니까?

누군가 좋은 설명을 알고 있다면 저를 향해 기꺼이 가리킬 것입니다.

답변:


14

에프=에프1,,에프미디엄에프에프

1={나는1,나는2}2={나는1,나는,나는4,나는5}={나는2,나는,나는4,나는5}={나는2,나는,나는4,나는5}
{나는,나는5}{나는4}

예를 들어 모든 기능이 범주 형인 경우와 같이 특정 분류 작업에 연관 분석을 사용할 수 있습니다. 항목을 기능으로 만보아야하지만 연관 분석이 만들어진 것은 아닙니다.


3
  • "연관 규칙은 중복 레코드 하위 집합을 포함하는 주어진 임계 값 이상의 모든 규칙을 찾는 것을 목표로하지만 의사 결정 트리는 대부분의 레코드가 동일한 클래스에 속하는 공간의 영역을 찾습니다. 반면에 의사 결정 트리는 연관 규칙에서 찾은 많은 예측 규칙을 놓칠 수 있습니다. 의사 결정 트리에서 찾은 규칙을 연관 규칙에서 찾을 수없는 경우 제한 조건이 검색 공간을 잘라내거나 지원 또는 신뢰도가 너무 높기 때문입니다. "

  • "조합 공간에서 작동하기 때문에 문헌에서 제안 된 많은 최적화에도 불구하고 연관 규칙 알고리즘이 느려질 수 있지만, 각 분할은 연속적으로 더 작은 레코드의 하위 집합을 얻으므로 의사 결정 트리는 비교적 훨씬 빠릅니다."

  • 또 다른 문제는 의사 결정 트리가 동일한 규칙에 대해 동일한 속성을 여러 번 반복 할 수 있다는 것입니다. 이러한 속성은 좋은 판별 기이기 때문입니다. 규칙이 연결되어 있으므로 속성에 대해 규칙을 하나의 간격으로 단순화 할 수 있기 때문에 큰 문제는되지 않지만 이러한 간격은 일반적으로 작고 규칙이 너무 구체적입니다. "

발췌 :

Ordonez, C., & Zhao, K. (2011). 연관 규칙 및 의사 결정 트리를 평가하여 여러 대상 속성을 예측합니다. 지능형 데이터 분석, 15 (2), 173–192.

이 주제를 다루는 훌륭한 기사, 확실히 읽을 가치가 있습니다.


2

연관 규칙과 의사 결정 트리 모두 사용자에게 규칙 세트를 제안하므로 둘 다 비슷하지만, 의사 결정 트리와 연관 규칙 간의 이론적 차이점을 이해해야하며, 두 규칙에서 제안한 규칙이 어떻게 다른지 이해해야합니다. 사용.

첫째, 의사 결정 트리는 알고리즘이 "결과"를 예측하려고하는 감독 된 접근 방식입니다. 실제 상황에서 "결과"의 전형적인 예는 이탈, 사기, 캠페인에 대한 응답 등일 수 있습니다. 따라서 의사 결정 트리 규칙은 결과를 예측하는 데 사용됩니다.

연관 규칙 학습 은 알고리즘이 종종 대규모 상용 데이터베이스 내에서 항목 간 연관을 찾으려고하는 감독되지 않은 접근 방식입니다. 대형 상업 데이터베이스의 전형적인 예는 전자 상거래 웹 사이트의 고객 구매 내역과 같은 소매 업체의 거래를 포함하는 데이터베이스입니다. 항목은 상점에서 구매 한 제품이거나 온라인 스트리밍 플랫폼에서 본 영화 일 수 있습니다. 연관 규칙 학습은 한 제품의 구매가 다른 제품의 구매를 유도하는 방법에 관한 것입니다.

둘째, 의사 결정 트리는 정보 획득, 지니 계수 또는 엔트로피와 같은 일부 불확실성 / 불확실성 메트릭을 기반으로 구성되는 반면 연결 규칙은 지원, 신뢰 및 리프트를 기반으로 파생됩니다.

셋째, 의사 결정 트리는 "감독 된"접근 방식이므로 정확도를 측정 할 수있는 반면, 연관 규칙 학습은 "감독되지 않은"접근 방식이므로 정확성은 주관적입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.