가장 해석 가능한 분류 모델


10

의사 결정 트리와 로지스틱 회귀를 제외하고 어떤 다른 분류 모델이 좋은 해석을 제공합니까? 나는 정확성이나 다른 매개 변수에 관심이 없으며 결과의 해석 만 중요합니다.


정확성이나 매개 변수에 적어도 약간 관심이 있어야합니다. 그렇지 않으면 왜 분류를 귀찮게합니까?
Kodiologist

기능과 클래스 사이의 관계를보기 위해 이것에 관심이 있습니까?
Cem Kalyoncu

@CemKalyoncu 예, 그것은 또한 해석의 일부입니다.
Miroslav Sabo

답변:


30

1) 의사 결정 트리는 사람들이 생각하는 것만 큼 해석 할 수 없다고 주장합니다. 각 노드는 단순한 이진 결정이므로 해석 가능해 보입니다 . 문제는 트리를 내려갈 때 각 노드가 그 위에있는 모든 노드에 대해 조건부라는 것입니다. 만약 당신의 나무가 4 ~ 5 레벨 밖에 안된다면, 여전히 하나의 터미널 노드 경로 (4-5 개의 분할)를 해석 할 수있는 것으로 변환하는 것은 어렵지 않습니다 (예 : "이 노드는 여러 계정을 가진 고소득 남성 인 장기 고객을 반영합니다) ")이지만 여러 터미널 노드를 추적하는 것은 어렵습니다.

고객이 모델을 해석 할 수 있음을 확신시키기 만하면 ( "여기서 각 원에는 간단한 예 / 아니요 결정이 있고 이해하기 쉽지 않습니다"), 결정 트리를 목록에 유지합니다. . 실행 가능한 해석 가능성을 원한다면 컷을하지 못할 수도 있습니다.

2) 또 다른 문제는 "결과의 해석 가능성"이 의미하는 바를 명확히하는 것입니다. 나는 네 가지 맥락에서 해석 가능성에 부딪쳤다.

  1. 클라이언트는 방법론을 이해할 수 있습니다. (당신이 요구하는 것은 아닙니다.) 랜덤 포레스트는 비유로 간단하게 설명 할 수 있으며, 대부분의 고객은 간단히 설명하면 편안하게 느낍니다.

  2. 방법론이 모델에 어떻게 적합한 지 설명합니다. (의사 결정 트리가 결과를보다 지능적으로 사용하는 방법을 이해하는 데 도움이된다고 판단했기 때문에 의사 결정 트리가 적합한 방법을 설명해달라고 요청한 고객이있었습니다. 해석 / 이해에 전혀 도움이되지 않습니다.) 다시, 나는 이것이 당신이 요구하는 것이 아니라고 생각합니다.

  3. 일단 모형이 적합하면 모형이 예측 변수에 대해 "믿거 나"말하는 것을 해석합니다. 의사 결정 트리는 해석 가능해 보이지만 첫인상보다 훨씬 복잡합니다. 로지스틱 회귀는 여기에서 매우 간단합니다.

  4. 특정 데이터 포인트가 분류 될 때 해당 결정이 내려진 이유 를 설명 합니다. 왜 로지스틱 회귀 분석에서 사기 확률이 80 %라고합니까? 의사 결정 트리가 위험이 낮다고 말하는 이유는 무엇입니까? 클라이언트가 터미널 노드로 이어지는 결정 노드를 인쇄하는 데 만족하면 의사 결정 트리에서 쉽게 수행 할 수 있습니다. "왜"가 인간의 발언으로 요약되어야하는 경우 ( "이 사람은 회사에 많은 수입을 가지고 있고 회사에 여러 계좌를 가지고있는 장기 남성 고객이기 때문에 낮은 위험 등급으로 평가됩니다") 훨씬 더 어렵습니다.

따라서 K-Nearest Neighbor 는 한 수준의 해석 가능성 또는 설명 가능성 (위의 # 4를 가진 1 위)에서 다음과 같이 쉽습니다. X, Y, Z의 관점에서 그들과 유사한 위험이 높은 것으로 밝혀졌습니다. " 실행 가능한 풀 레벨 # 4에서는 그렇게 해석 할 수 없습니다. (실제로 다른 8 명의 고객을 고객에게 소개하려고했지만 고객이 공통적으로 가지고있는 것과 고객이 공통적으로 가지고있는 것을 수동으로 파악하기 위해 해당 고객을 드릴 다운해야합니다.)

최근에 민감도 분석과 같은 방법을 사용하여 유형 # 4에 대한 자동 설명을 제시하는 몇 가지 논문을 읽었습니다. 그래도 손이 없습니다. 아마도 누군가가 주석에 링크를 던질 수 있습니까?


1
기술적으로 정교하지 않고 수많은 청중에게 분석을 제시하는 기술에 대한 훌륭하고 사려 깊은 논평.
Mike Hunter

1
+6, 매우 간단하고 간단한 질문에 대한 포괄적이고 통찰력있는 답변입니다. 며칠 내로 상기시켜주십시오. 그리고 나는 이것에 현상금을 넣을 것입니다.
gung-복직 모니카

@Wayne, 여기에 # 4 유형의 자동 설명이 나온 논문이 있습니다 : arxiv.org/abs/1602.04938
madness

7

사용중인 데이터에 따라 다릅니다. 정확성에 관심이 없다면 데이터 및 분류의 시각화가 데이터 및 알고리즘의 성능을 해석하는 가장 좋은 방법 중 하나라고 생각합니다.

다음은 다양한 분류기의 비교 예입니다. 각 행은 다양한 분리 가능성을 가진 데이터가있는 다른 데이터 세트입니다. 각 열은 각 분류기의 시각화입니다.

여기에 이미지 설명을 입력하십시오

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html


5

판별 분석은 원래 분류 모델로, 100 년 이상 RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis )로 거슬러 올라갑니다 . 오늘날의 기계 및 통계 학습 모델 세계에서는 너무 자주 무시되며 가장 최근의 전문 용어와 일치하는 접근 방식으로 대체되었습니다.

이 논문은 Journal of Machine Learning에 실 렸으며 실제 분류 문제를 해결하기 위해 수백 가지 분류 기가 필요한가? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf


0

기능과 클래스 간의 관계를 찾으려면 관계 메소드를 사용할 수 있습니다. 기능이 클래스와 연관되어 있는지 확인하기 위해 카이 제곱 방법을 사용할 수도 있습니다. 이렇게하려면 클래스 레이블 평등을 사용해야합니다. 예를 들어, 기능 1과 클래스 1을 테스트하는 경우 기능 1에 대해 비닝을 수행하고 비닝 확률과 클래스가 1 일 때 값이 1 인 멤버쉽 변수 사이의 chi ^ 2를 계산해야하며, 그렇지 않으면 0입니다. 이런 식으로 클래스 1이 기능 1에 종속되는 경우 일부 빈은 클래스 1보다 높은 비율을 가지지 만 일부 빈은 더 낮습니다.

중간 정도의 성공으로 시도한 추가 방법은 클래스의 기능을 정규 분포에 맞추는 것입니다. 그런 다음 클래스의 모든 표본에 대해 표본의 분포에 대한 적합성으로 피쳐의 점수를 향상시킵니다. 수업에 포함되지 않은 모든 샘플에 대해 피트니스 기능에 불이익을줍니다. 분명히 클래스에 있고 클래스에없는 샘플 수에 대해 정규화해야합니다. 이것은 정규 분포에 가깝게 분포 된 기능에서만 작동합니다. 이 방법을 사용하여 모든 클래스에 기능 당 점수를 할당했습니다.


0

가장 가까운 이웃 분류에 대해 언급 한 사람이 없습니다. 이것은 설명하기가 매우 간단합니다. 관측치는 가장 가까운 관측치 중에서 가장 일반적인 분류에 따라 분류됩니다. 우리는 일반적으로 가까운 수의 가장 가까운 이웃을 선택하여 끊을 관계가 없습니다.


2
> 아무도 가장 가까운 이웃 분류에 대해 언급하지 않았습니다. 정말? 답을 다시 한 번 읽어야합니다.
Alleo

좋아, 나는 플롯의 한계 레이블이 거의 카운트라고 생각한다. 그러나 NN은 특히 청중이 전혀 수학적이지 않은 경우 설명하기 가장 쉬운 방법에 관한 것입니다.
JDL
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.