지니 계수 대 지니 불순물-결정 트리


25

문제는 의사 결정 트리 구축과 관련이 있습니다. Wikipedia에 따르면 ' Gini coefficient '는 ' Gini impurity ' 와 혼동해서는 안됩니다 . 그러나 의사 결정 트리를 구축 할 때 두 측정 값을 모두 사용할 수 있습니다. 이는 측정 항목을 분할 할 때 선택 항목을 지원할 수 있습니다.

1) '지니 불순물'-표준 의사 결정 트리 분할 메트릭입니다 (위 링크 참조).

2) '지수 계수'-각 분할은 AUC 기준에 따라 평가할 수 있습니다. 각 분할 시나리오마다 ROC 곡선을 구축하고 AUC 메트릭을 계산할 수 있습니다. Wikipedia AUC = (GiniCoeff + 1) / 2;

질문은이 두 가지 방법이 모두 같은가? 한편으로, 나는 지니 계수가 지니 불순물과 혼동되어서는 안된다는 통보를 받았습니다. 반면에,이 두 가지 방법 모두 의사 결정 트리 분할의 품질을 평가하는 동일한 작업을 수행하는 데 사용할 수 있습니다.


답변:


28

아니요, 그들의 이름에도 불구하고 그것들 동등하거나 유사 하지 않습니다 .

  • 지니 불순물 은 오 분류의 척도이며 멀티 클래스 분류기 컨텍스트에 적용됩니다.
  • 지니 계수 는 이진 분류에 적용되며 어떤 방식 으로든 양의 클래스에있을 가능성에 따라 예제 순위를 지정할 수있는 분류기를 필요로합니다.

두 경우 모두 적용 할 수 있지만 서로 다른 측정 방법입니다. 불순물은 의사 결정 트리 에서 일반적으로 사용되는 것입니다 .


7

나는 단위 1과 단위 3이 풍부한 두 사람 A와 B의 데이터 예를 보았습니다. 위키 백과에 따른 지니 불순물 = 1-[(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Wikipedia에 따른 Gini 계수는 다음 그래프에서 빨간색과 파란색 선 사이의 면적과 파란색 선 아래의 총 면적의 비율입니다.

여기에 이미지 설명을 입력하십시오

빨간색 선 아래의 영역은 1/2 + 1 + 3/2 = 3입니다.

파란색 선 아래의 총 면적 = 4

따라서 지니 계수 = 3/4

분명히 두 숫자가 다릅니다. 더 많은 사례를 확인하여 비례인지 또는 정확한 관계가 있는지 확인하고 답변을 편집합니다.

편집 : 다른 조합도 확인했지만 비율이 일정하지 않습니다. 아래는 내가 시도한 몇 가지 조합 목록입니다. 여기에 이미지 설명을 입력하십시오


이 얼마나 설명 !!
특이점

0

둘 다 동일한 개념을 나타냅니다.

분류 트리에서 Gini 인덱스는 데이터 파티션의 불순물을 계산하는 데 사용됩니다. 따라서 4 개의 클래스로 구성된 데이터 파티션 D가 동일한 확률로 가정합니다. 그러면 Gini 지수 (Gini Impurity)는 다음과 같습니다. Gini (D) = 1-(0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

CART에서는 이진 분할을 수행합니다. 따라서 Gini 지수는 결과 파티션의 가중치 합계로 계산되며 가장 작은 Gini 지수를 가진 분할을 선택합니다.

따라서 Gini 불순물 (Gini Index)의 사용은 이진 상황으로 제한되지 않습니다.

지니 불순물에 대한 또 다른 용어는 지니 계수 (Gini Coefficient)로, 일반적으로 소득 분배의 척도로 사용됩니다.


3
지니 계수는 지니 불순물이 아닙니다. 질문의 링크를 참조
숀 오웬

2
Wikipedia가 항상 신뢰할만한 정보 출처는 아니다 :-)
Pasmod Turing

2
확실한. 다른 곳에서 찾아보십시오. mathworld.wolfram.com/GiniCoefficient.html Gini 계수 = Gini 불순물을 어떻게 생각하십니까?
Sean Owen


1
우리는 의사 결정 트리에 대해 이야기하고 있다고 생각합니다. 그래서 우리는 머신 러닝 분야에 있습니다! 질문을보다 자세히 읽으십시오
Pasmod Turing
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.