SHAP (Shapley Additive Description)와 LIME (Local Interpretable Model-Agnostic Descriptions)의 비교


20

두 가지 인기있는 포스트 모델 해석 기술에 대해 읽고 있습니다 : LIMESHAP

이 두 기술의 주요 차이점을 이해하는 데 어려움을 겪고 있습니다.

SHAP의 핵심 인 Scott Lundberg인용 하면 :

SHAP 값은 LIME의 블랙 박스 로컬 추정 이점과 함께 제공되며 게임 이론의 일관성 및 로컬 정확도에 대한 이론적 보증도 제공합니다 (우리가 통합 한 다른 방법에서 기인).

이 ' 게임 이론일관성과 로컬 정확성에 대한 이론적 보장 '이 무엇인지 이해하는 데 어려움 이 있습니다. SHAP는 LIME 이후에 개발되었으므로 LIME가 해결하지 못하는 약간의 차이를 메운다고 가정합니다. 저게 뭐야?

Shapley Estimation에 관한 장에서 Christoph Molnar의 은 다음과 같이 말합니다.

예측과 평균 예측의 차이는 인스턴스의 특성 값인 shapley 효율 특성에 상당히 분산되어 있습니다. 이 속성은 Shapley 값을 LIME과 같은 다른 방법과 별도로 설정합니다. LIME은 효과를 완벽하게 분배한다고 보증하지 않습니다. 그것은 Shapley 가치를 완전한 설명을 제공하는 유일한 방법으로 만들 수 있습니다

이것을 읽으면 SHAP가 로컬이 아니라 데이터 포인트에 대한 glocal 설명이라는 것을 알 수 있습니다. 나는 여기에 잘못이있을 수 있으며 위의 인용문이 의미하는 바에 대한 통찰력이 필요합니다. 내 질문을 요약하면 LIME은 로컬 설명을 생성합니다. SHAP의 설명은 LIME과 어떻게 다릅니 까?


2
좋은 질문 (+1), 시간이되면 대답을 시도하지만 주목해야 할 것은 LIME이 SHAP 가하는 동안 전 세계적으로 일관된 설명을 제공하지 않는다는 것입니다. 또한, SHAP는 확실히 LIME 이전에 개발되었습니다. SHAP는 latE 00/10 년대 초의 Strumbelj & Kononenko의 연구를 기반으로하고 양도 가능한 유틸리티 협동 게임 (예 : Lipovetsky & Conklin (2001))에 관한 경제학 연구를 바탕으로합니다. 또한 민감도 분석 측정 (예 : Sobol 지수)에 대한 많은 작업도 진행됩니다. 핵심 SHAP 아이디어는 NIPS 2017 이전에 일반적으로 잘 알려져 있습니다.
usεr11852는 Reinstate Monic이

2
(위의 내 의견의 후반부에 대해 분명하게 말하면 NIPS 2017 논문이 표절이나 그와 비슷한 것이 아니라고 제안하는 것은 아닙니다. 사람들이 종종 이전의 많은 작업을 무시하는 것을 보게됩니다. 지식 분야의 다른 유기적 진화에 대한 최근의 단면을 주요 방법 론적 돌파구로 취급하는 경우이 특별한 경우 : 알고리즘 게임 이론은 AI의 일부로서 수십 년 동안 존재 해 왔으며, 이제 막 시원해 졌다. )
usεr11852는 Reinstate Monic이

1
@ usεr11852 답변을 기다리는 중입니다. 이것에 대한 아이디어를 제공하십시오.
user248884

2
필요한 시간을 아직 얻지 못했습니다. 나는 약 400 단어를 썼지 만 논문을 다시 읽고 텍스트를 강화해야하기 때문에 적어도 6-7 시간의 작업이 필요합니다. 과도하게 단순화하지 않고 SHAP를 설명하는 것은 약간 어렵습니다 (적어도 나에게는). 아마도 나는 12 월 중순 전에 그것을 만들 것입니다 ... :)
usεr11852는 말합니다 Reinstate Monic

1
물론입니다. :) 기다리고 것이다
user248884

답변:


8

LIME은 이해하고자하는 예측 단위 주변에 대리 모델을 만듭니다. 따라서 본질적으로 로컬입니다. 매끈한 값은 최종 예측을 각 속성의 기여로 '분해'합니다. 이는 '일관된'의 의미입니다 (값은 실제 모델의 실제 예측에 합산됩니다. 이는 LIME에서 얻을 수있는 것이 아닙니다). 그러나 실제로 정확한 값을 얻으려면해야 할 일 / 어떻게 '남아있는'속성 값을 처리하는 방법에 대해 결정해야합니다. 이것이 값이 도달하는 방식입니다. 이 결정에는 해석을 바꿀 수있는 선택이 있습니다. 속성을 '나가면'모든 가능성을 평균화합니까? '기준선'을 선택합니까?

따라서 Shapely는 실제로 점수를 얻는 방법을 추가 방법으로 알려주지 만 '시작점'(즉, 생략 된 속성에 대한 결정)에 대한 선택이 있습니다.

LIME은 로컬 의미에서 관심있는 데이터 지점에서 가장 중요한 속성을 알려줍니다.


또한 각 모델의 점수 (예 : score 점수)를 추가하는 방법을 추가 할 수 있습니까?이 점수는 정규화되지 않았기 때문에 매우 성가신 것으로 나타 났으며 그 의미를 이해하지 못합니다!
user4581
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.