AUC 대신 정규화 된 Gini Score를 평가로 사용하는 이유는 무엇입니까?


14

Kaggle의 경쟁 Porto Seguro의 Safe Driver Prediction 은 Normalized Gini Score를 평가 지표로 사용 하므로이 선택에 대한 이유가 궁금합니다. 평가에 AUC와 같은 가장 일반적인 지표 대신 정규화 된 gini 점수를 사용하는 이점은 무엇입니까?


1
Kaggle 웹 사이트는 다음과 같이 대답했습니다. "모든 긍정적 인 예가 즉시 발생하는 것은 아니기 때문에"완벽한 "모델에 대한 최대 달성 가능 영역이 있습니다. 우리는 모델의 Gini 계수를 Gini 계수로 나누어 정규화 된 Gini 계수를 사용합니다. 완벽한 모델의 그러나 더 이상 사용할 수 없습니다. webcache.googleusercontent.com/…
Sextus Empiricus

1
따라서, gini는 다른 규모로 auc입니다. 또는 auc와 gini가 다른 곡선에 적용됩니까? 머신 러닝에서 비전문가라는 것은 분명하지 않습니다. 이에 대한 질문은 명확하지 않습니다.
Sextus Empiricus

답변:


3

gini=2×AUC1

6
gini 계수를 사용하는 것 외에도 임의 분류기의 성능을 0의 점수로 설정합니다. 정규화는 스케일의 다른 쪽 끝을 "향상시켜"완벽한 분류기의 점수가 달성 가능한 최대 값이 아닌 1과 동일하게 만듭니다. AUC <1. 보다 직관적 인 척도가 좋은지 아닌지에 따라 상대적으로 개선이 이루어집니다. 이보다 쉬운 해석을 넘어서서 (정규화) 다른 데이터 세트의 일반화 및 비교를 개선한다고 주장 할 수 있습니다.
Sextus Empiricus

macimum의 달성 가능한 AUC가 1보다 작은 이유는 무엇입니까? 또한 gini가 1로 어떻게 설정되어 있는지 알 수 없습니까?
rep_ho

Gini 계수를 계산하는 곡선의 종류에 따라 다릅니다. 아마도 그들은 ROC 곡선과 다른 것을 사용할 것입니다 (최대 AUC는 실제로 1입니다). kaggle 웹 사이트의 단어를 감안할 때 최대 AUC가 1이 아니라는 것이 그럴듯 해 보입니다.> "우리는 왼쪽에서 오른쪽으로 움직입니다."데이터의 가장 왼쪽에있는 x %에서 누적 응답의 양이 얼마나 되셨습니까? "
Sextus Empiricus

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.