일반 영어 코헨의 카파


131

데이터 마이닝 책을 읽고 있으며 분류기의 예측 성능을 평가하는 수단으로 Kappa 통계를 언급했습니다. 그러나 나는 이것을 이해할 수 없다. 또한 Wikipedia도 확인했지만 도움이되지 않았습니다 : https://en.wikipedia.org/wiki/Cohen's_kappa .

Cohen의 카파는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 그것은 무엇을 말합니까?

100 % kappa는 분류 기가 임의 분류기와 완전히 일치 함을 의미하지만 분류기의 성능을 평가하는 데 어떻게 도움이되는지 이해하지 못합니까?

40 % kappa는 무슨 뜻인가요? 시간의 40 %, 분류 기가 무작위 분류기와 일치한다는 의미입니까? 그렇다면 분류기를 평가하는 데 무엇이 도움이됩니까?

답변:


226

소개

Kappa 통계량 (또는 값)은 관찰 정확도예상 정확도 (무작위 확률) 를 비교하는 메트릭입니다 . 카파 통계량은 단일 분류 기준을 평가할뿐만 아니라 자체 분류 기준을 평가하는 데에도 사용됩니다. 또한, 계정으로 일반적으로는 단순히 (메트릭으로 정확성을 사용하는 것보다 덜 오해의 소지가 의미 우연 (임의의 분류와 일치), 소요 관측 정확도 80 %가와 훨씬 덜 인상적 예상 정확도 75 %의를 50 % 의 기대 정확도 ). 관찰 정확도기대 정확도 계산은 카파 통계를 이해하는 데 필수적이며 혼란 매트릭스를 사용하여 가장 쉽게 설명됩니다. Cats and Dogs 의 간단한 이진 분류에서 간단한 혼란 매트릭스로 시작해 보겠습니다 .

계산

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

레이블이있는 데이터에 대해 감독 된 머신 러닝을 사용하여 모델을 구축했다고 가정합니다. 항상 그런 것은 아닙니다. 카파 통계는 종종 두 사람의 평가자 사이의 신뢰도의 척도로 사용됩니다. 여하튼, 열은 한 "rater"에 해당하고 행은 다른 "rater"에 해당합니다. 감독 된 머신 러닝에서 하나의 "평가자"는 레이블이 지정된 데이터에서 얻은 실제 사실 (분류 될 각 인스턴스의 실제 값)을 반영 하고 다른 "평가자"는 분류 를 수행하는 데 사용되는 기계 학습 분류기입니다. 궁극적으로 어느 것이 카파 통계를 계산할 것인지는 중요하지 않지만 명확성을 위해 ' 분류.

혼동 행렬에서 총 30 개의 인스턴스 가 있음을 알 수 있습니다 (10 + 7 + 5 + 8 = 30). 첫 번째 열에 따라 15 으로 표시 하였다 고양이 (10 + 5 = 15)이고, 두 번째 열에있어서 15하는 바와 같이 표지 된 (7 = 15 + 8). 또한 모델이 17 개의 인스턴스를 고양이 (10 + 7 = 17) 로 분류 하고 13 개의 인스턴스를 (5 + 8 = 13) 로 분류 한 것을 볼 수 있습니다 .

관측 정확도 로 분류 된 인스턴스의 수, 즉 전체의 혼란 매트릭스를 통해 올바르게 분류 된 경우 단순히 숫자이며, 고양이 를 통해 지상 진실 하고 분류로 고양이 에 의해 기계 학습 분류 로, 또는 표시 를 통해 지상 진실 과 다음으로 분류 바이 기계 학습 분류 . 관찰 정확도 를 계산하기 위해 머신 러닝 분류 기가 기본 사실에 동의 한 인스턴스 수를 추가하기 만하면 됩니다.레이블을 지정하고 총 인스턴스 수로 나눕니다. 이 혼동 행렬의 경우 0.6 ((10 + 8) / 30 = 0.6)입니다.

카파 통계량에 대한 방정식에 도달하기 전에 기대 정확도 라는 하나 이상의 값이 필요합니다 . 이 값은 임의의 분류 기가 혼동 행렬을 기반으로 달성 할 것으로 예상되는 정확도로 정의됩니다. 예상 정확도는 직접 각 클래스 (의 인스턴스의 수와 관련이 고양이 인스턴스의 수와 함께) 기계 학습 분류가 동의 지상 진실 레이블입니다. 계산하려면 예상 정확도를 먼저 곱하면, 우리의 혼란 행렬 한계 주파수고양이를 에 의해 하나의 "평가자"에 대한 한계 주파수두 번째 "쥐"에 대한 고양이 , 그리고 총 인스턴스 수로 나눕니다. 특정 "rater"에 의한 특정 클래스 의 한계 빈도 는 "rater"가 표시된 모든 인스턴스의 합계입니다. 우리의 경우, 15 (10 + 5 = 15) 인스턴스는 근거 에 따라 Cats 로 레이블이 지정 되고 17 (10 + 7 = 17) 인스턴스는 기계 학습 분류 기준에 의해 Cats분류 됩니다. 결과 값은 8.5 (15 * 17/30 = 8.5)입니다. 그런 다음 두 번째 클래스에서도 수행됩니다 (2 개 이상인 경우 각 추가 클래스에 대해 반복 할 수 있음). 15(7 + 8 = 15) 인스턴스는 근거 에 따라 Dogs 로 레이블이 지정 되고 13 (8 + 5 = 13) 인스턴스는 기계 학습 분류 기준에 의해 Dogs분류 됩니다. 결과 값은 6.5입니다 (15 * 13/30 = 6.5). 마지막 단계는 이러한 값을 모두 더한 다음 총 인스턴스 수로 다시 나누면 예상 정확도0.5 ((8.5 + 6.5) / 30 = 0.5)가됩니다. 이 예에서 기대 정확도 는 50 % 인 것으로 나타났습니다. "래터"가 각 분류를 이진 분류에서 동일한 빈도로 분류 할 때 항상 그렇습니다. 포함 (15 개) 에 따라 인스턴스를 지상 진실 우리의 혼란 매트릭스 라벨).

그런 다음 관측 된 정확도 ( 0.60 ) 및 예상 정확도 ( 0.50 )와 공식을 사용하여 카파 통계량을 계산할 수 있습니다 .

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

따라서 우리의 경우 카파 통계량은 (0.60-0.50) / (1-0.50) = 0.20과 같습니다.

다른 예로, 덜 균형 잡힌 혼동 행렬과 해당 계산이 있습니다.

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

지상 진실 : 고양이 (29), 개 (22)
기계 학습 분류기 : 고양이 (31), 개 (20)
총계 : (51)
관찰 된 정확도 : ((22 + 13) / 51) = 0.69
예상 정확도 : ((29 * 31/51) + (22 * 20/51)) / 51 = 0.51
카파 : (0.69-0.51) / (1-0.51) = 0.37

본질적으로, 카파 통계량은 머신 러닝 분류기로 분류 된 인스턴스 가 예상 정확도로 측정 된 랜덤 분류기의 정확도를 제어하는 지면 진실 이라는 레이블이 지정된 데이터와 얼마나 밀접하게 일치 하는지를 측정 한 것입니다. 이 카파 통계량은 분류 자 ​​자체의 수행 방식을 조명 할 수있을뿐만 아니라 한 모델의 카파 통계량은 동일한 분류 작업에 사용 된 다른 모델의 카파 통계량과 직접 비교할 수 있습니다.

해석

카파 통계량에 대한 표준화 된 해석은 없습니다. Wikipedia에 따르면, Landis와 Koch는 0-0.20을 경미한 것으로, 0.21-0.40을 공정한 것으로, 0.41-0.60을 보통으로, 0.61-0.80을 실질적으로, 0.81-1을 거의 완벽한 것으로 간주합니다. Fleiss는 kappas> 0.75가 우수함, 0.40-0.75가 양호 함, <0.40이 불량 함을 고려합니다. 두 스케일 모두 다소 임의적이라는 점에 유의해야합니다. 카파 통계량을 해석 할 때 두 가지 이상의 추가 고려 사항을 고려해야합니다. 먼저, 가장 정확한 해석을 얻기 위해 카파 통계량을 항상 수반되는 혼동 행렬과 비교해야합니다. 다음 혼동 행렬을 고려하십시오.

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

카파 통계량은 0.47로 랜디스와 코흐에 따르면 중도의 임계 값보다 훨씬 높으며 Fleiss에게는 공정한 편입니다. 그러나 Cats 분류에 대한 적중률에 주목하십시오 . 모두의 세 번째 미만 고양이 실제로으로 분류 된 고양이 ; 나머지는 모두 개로 분류되었습니다 . 우리가 고양이를 올바르게 분류하는 데 더 관심이 있다면 (예를 들어, 우리는 고양이에 알레르기가 있지만 에게는 알레르기가 없으며 , 우리가 관심있는 것은 우리가 섭취하는 동물의 수를 최대화하는 대신 알레르기에 굴복하지 않는 것입니다), 카파이지만 고양이 분류 속도가 더 좋을 수 있습니다.

둘째, 허용 가능한 카파 통계량 값은 상황에 따라 다릅니다. 예를 들어, 쉽게 관찰 할 수있는 거동을 갖는 많은 쥐 간 신뢰도 연구에서 0.70 미만의 카파 통계량 값은 낮은 것으로 간주 될 수 있습니다. 그러나 기계 학습을 사용하여 주간 꿈과 같은인지 상태와 같은 관찰 할 수없는 현상을 탐색하는 연구에서 0.40 이상의 kappa 통계 값은 예외적 인 것으로 간주 될 수 있습니다.

따라서 0.40 카파에 대한 귀하의 질문에 대한 답변에 따라 다릅니다. 그렇지 않으면 분류 기가 예상 정확도와 100 % 정확도 사이의 2/5 등급의 등급을 달성했음을 의미합니다. 예상 정확도가 80 % 인 경우 분류 기가 20 %의 40 % (카파가 0.4이므로) (80 %와 100 % 사이의 거리이므로)가 80 % (카파가 0이기 때문에) 또는 랜덤 확률) 또는 88 %. 따라서이 경우 카파가 0.10 씩 증가하면 분류 정확도가 2 % 증가한 것입니다. 정확도가 대신 50 % 인 경우 카파 0.4는 분류 기가 수행 한 정확도가 50 %보다 큰 40 % (카파 0.4)의 50 % (50 %와 100 % 사이의 거리) (50 %보다 큰 정확도)로 수행함을 의미합니다. 0의 카파 또는 임의 확률) 또는 70 %. 다시 말하지만,이 경우 kappa가 0으로 증가한다는 것을 의미합니다.

서로 다른 클래스 분포의 데이터 세트를 기반으로 구축 및 평가 된 분류기는 예상 정확도와 관련하여이 스케일링으로 인해 카파 통계 (정확도를 사용하는 것이 아니라)를 통해보다 안정적으로 비교할 수 있습니다. 클래스 분포가 유사하게 왜곡되면 간단한 정확도가 왜곡 될 수 있기 때문에 모든 인스턴스에서 분류자가 수행 된 방식을 더 잘 나타냅니다. 앞에서 언급했듯이 80 %의 정확도는 75 %의 예상 정확도에 비해 50 %의 기대 정확도로 훨씬 더 인상적입니다. 위에 설명 된대로 예상 정확도는 왜곡 된 클래스 분포에 영향을 받기 때문에 kappa 통계를 통해 예상 정확도를 제어함으로써 다른 클래스 분포 모델을보다 쉽게 ​​비교할 수 있습니다.

그것이 내가 가진 전부에 관한 것입니다. 다른 사람이 빠진 것을 발견하거나 잘못된 것이 있거나 여전히 확실하지 않은 경우 답변을 개선 할 수 있도록 알려주십시오.

내가 찾은 참고 자료 :

간결한 설명 카파 포함 : http://standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

예상 정확도 계산에 대한 설명이 포함되어 있습니다. http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
셀의 예상 빈도가 rowsum * colsum / N과 같은 이유에 대한 배경 지식을 추가하는 이유는 축소 버전이므로 방정식이 왜 시작되는지 명확하지 않습니다. 이것은 카이-제곱 테스트에서도 사용됩니다 : en.wikipedia.org/wiki/…
Zhubarb

2
이것은 훌륭한 답변이지만, 매우 지배적 인 클래스가 kappa의 해석에 어떻게 영향을 미칠 수 있는지에 대해 더 이상 빛을 비출 수 있는지 궁금합니다. 예를 들어, 7 개의 랜드 커버 클래스의 conf 매트릭스가 있으며 그중 하나가 지배적입니다 (모든 데이터의 ~ 70 %). 이 오류가 전체적인 오류라고 가정합니까?
Sam

2
그냥 임의의 의견 : 귀하의 설명은 Wikipedia 페이지보다 훨씬 명확합니다 :)
R.Falque

1
예상 정확도를 위해 다음과 같이 생각하는 것이 더 간단 할 수 있습니다. (15/30) "지상 진실"이 고양이를 분류하는 예상 비율이며 (15/30)은 예상되는 비율입니다. "지상 진실"은 개를 분류합니다. 마찬가지로, ML 분류기 (17/30) 예상 비율 고양이, (13/30) 예상 비율 개에 대해서도. 상관되지 않은 분류자를 가정하면 우리는 (15/30) * (17/30) + (15/30) * (13/30) = .5 (분류 또는 고양이처럼). 따라서 시간 합의의 .5는 우연히입니다.
ClownInTheMoon

1
음, 주석의 비교는 원래 의도입니다. 그러나 과학적 역사는 어떤 공식이나 다른 공식이 산란 풀에서 다른 곳으로 뛰어 들어 세계를 더 나은 곳으로 만든 경우로 가득 차 있습니다. 즉, 사례에 따라 더 나은 측정 항목이있을 수 있습니다. 최종 결정을 내리기 전에 후보 지표의 장단점을 이해해야합니다. 예를 들어 AUPRC가 더 나은 방법 일 수 있습니다.
rbx

14

rbx는 큰 답을 가지고 있습니다. 그러나 조금 장황합니다. 다음은 Kappa 지표에 대한 요약과 직관입니다.


Kappa는 분류기 성능, 특히 불균형 데이터 세트에 대한 중요한 척도 입니다 .

예를 들어, 신용 카드 사기 감지 에서 응답 변수한계 분포 가 왜곡되어 정확도를 측정 값으로 사용하는 것은 유용하지 않습니다. 다시 말해, 주어진 사기 탐지의 예에서, 거래의 99.9 %는 사기가 아닌 거래일 것입니다. 우리는 모든 거래에 항상 사기가 아닌 사소한 분류기를 가질 수 있으며 여전히 99.9 %의 정확도를 갖습니다.

반면에 Kappa는 응답 변수한계 분포를 고려하여이 문제를 "수정" 합니다 . Kappa를 사용하면 위에서 언급 한 간단한 분류기는 매우 작은 Kappa를 갖습니다.

일반 영어에서는 대상 분포를 추측하는 것과 비교하여 클래스가 얼마나 더 나은지 측정합니다.


1
나는 마지막 문단에서 "평범한 영어로, 분류자가 목표 분포를 추측하는 것보다 얼마나 더 나은지를 측정합니다."라고 읽어야합니다.
Silverfish

8

1

"예를 들어 85 % 정확한 확률 코드와 관찰자 :

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

이제 코드가 같지 않지만 "기본 요율"이 다른 경우 어떻게해야합니까?

두 가지 코드에 대해서는 Bruckner et al. ~처럼 보일 것입니다여기에 이미지 설명을 입력하십시오

그럼에도 불구하고 (... 계속되는 Wikipedia 인용) , 문헌에 크기 지침이 나타났습니다. 아마도 첫 번째는 가치를 특징 짓는 Landis와 Koch였습니다.

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

그러나이 지침은 보편적으로 인정되는 것은 아닙니다. 랜디스와 코흐는 개인의 의견에 근거하여 그것을지지 할 증거를 제공하지 않았다. 이 지침은 도움이되는 것보다 더 해로울 수 있습니다. Fleiss의 똑같은 임의의 지침은

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(끝 Wikipedia 인용)

12

비슷한 질문에 대한 이진 분류기평가하기 위해 Cohen의 카파 통계량 사용을 참조하십시오 .

1 베이크 맨, R .; 케라, V .; 맥아더, D .; BF Robinson (1997). "순차적 패턴을 감지하고 오류가있는 관찰자를 사용하여 안정성을 결정합니다." 심리적 방법. 2 : 357–370. 도 : 10.1037 / 1082-989X.2.4.357

2 Robinson BF, Bakeman R. ComKappa : kappa 및 관련 통계를 계산하기위한 Windows 95 프로그램. 행동 연구 방법. 1998; 30 : 731-2.


1

귀하의 질문에 대답하기 위해 (일반 영어 :-)) :

Kappa는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 무엇을 말합니까? !!

결과를 다음과 같이 해석 할 수 있도록 카파를 두 개인 간의 동의 수단으로 고려해야합니다.

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
이 척도를 맹목적으로 적용하지 말고 rbx의 답을 읽으십시오. "kappa 통계에 대한 표준화 된 해석은 없습니다. ... Landis와 Koch는 0-0.20을 약간, 0.21-0.40을 공정, 0.41-0.60을 중간으로 간주합니다. Fleiss는 kappas> 0.75를 우수, 0.40-0.75를 양호로, <0.40를 불량으로 간주합니다. 두 스케일 모두 다소 임의적이라는 점에 유의해야합니다. 카파 통계량을 해석 할 때는 두 가지 이상의 추가 고려 사항을 고려해야합니다. " 이러한 고려 사항은 rbx의 답변
joelostblom의
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.