정보 획득이 아닌 Gini 불순물을 언제 사용해야합니까?


66

누군가가 Gini 불순물정보 획득 의 이론적 근거를 실제로 설명 할 수 있습니까 (Entropy 기반)?

의사 결정 트리를 사용하는 동안 다른 시나리오에서 어떤 메트릭 을 사용하는 것이 더 좋습니까?


5
@ Anony-Mousse 나는 그것이 당신의 의견 전에 분명했다고 생각합니다. 문제는 둘 다 장점이있는 것이 아니라 어떤 시나리오에서 다른 시나리오보다 낫다는 것입니다.
마틴 토마

관련 링크에 표시된 것처럼 "엔트로피"대신 "정보 획득"을 제안했습니다. 그런 다음 지니 불순물을 사용하는시기와 정보 획득을 사용하는시기에
Laurent Duval

1
여기 에 도움이 될 수있는 지니 불순물에 대한 간단한 해석 이 게시되어 있습니다 .
Picaud Vincent

답변:


47

지니 불순물과 정보 게인 엔트로피는 거의 동일합니다. 그리고 사람들은 그 값을 서로 바꾸어 사용합니다. 다음은 두 가지 공식입니다.

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

선택이 주어지면, 계산적으로 집중적 인 로그 함수를 계산할 필요가 없으므로 Gini 불순물을 사용합니다. 닫힌 형태의 솔루션도 찾을 수 있습니다.

의사 결정 트리를 사용하는 동안 다른 시나리오에서 어떤 메트릭을 사용하는 것이 더 좋습니까?

위에서 언급 한 이유로 지니 불순물.

따라서 CART 분석과 관련하여 거의 동일합니다.

두 방법의 계산 비교를위한 유용한 참조


1
엔트로피 공식을 보는 것이 일반적이지만 의사 결정 트리에서 실제로 사용되는 것은 조건부 엔트로피처럼 보입니다. 나는 그것이 중요한 구별이라고 생각하거나 무언가를 놓치고 있습니까?
user1700890

@ user1700890 ID3 알고리즘은 Info를 사용합니다. 엔트로피를 얻습니다. 조건부 엔트로피를 읽어야합니다. 아마 ID3에 비해 개선 :)
Dawny33

1
나는 지니 impurtiy의 당신의 정의가 잘못 될 것 같아요 : en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
마틴 토마스

22

일반적으로 Gini 불순물을 사용하든 Entropy를 사용하든 성능은 변경되지 않습니다.

Laura Elena Raileanu와 Kilian Stoffel은 " 지니 지수와 정보 획득 기준의 이론적 비교 "에서 두 가지를 모두 비교했습니다 . 가장 중요한 말은 다음과 같습니다.

  • 지니 불순물을 사용하든 엔트로피를 사용하든 2 %의 경우에만 문제가됩니다.
  • 엔트로피는 로그를 사용하기 때문에 계산 속도가 약간 느려질 수 있습니다.

나는 한 번에 두 가지 메트릭이 서로 다른 과학 분야에서 등장했기 때문에 존재한다고 들었습니다.


16

분수 f와 (1-f)로 나타나는 두 개의 값을 갖는 변수의 경우
, gini와 엔트로피는 다음과 같이 주어집니다 :
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
이 측정 값은 1.0 (축소 2 * gini 및 엔트로피 / ln (2))으로 조정하면 매우 유사합니다.

비교를 위해 조정 된 Gini (y4, purple) 및 Entropy (y3, green) 값


14

Gini는 연속 속성을위한 것이며 엔트로피는 클래스에서 발생하는 속성을위한 것입니다.

Gini 는 오 분류를 최소화하는 것입니다
Entropy 는 탐색 적 분석을위한 것입니다

엔트로피는 계산 속도가 약간 느립니다.


7

거의 동일하다는 사실을 추가하려면 다음 사항도 고려하십시오. : 두 도표를 참조하십시오 최대 값으로 1을 얻기 위해 정규화 된 함수 : 빨간색 곡선은 Gini에, 검정색 곡선은 엔트로피에 대한 것입니다.

0<u<1,log(1u)=uu2/2u3/3+0<p<1,log(p)=p1(1p)2/2(1p)3/3+
0<p<1,plog(p)=p(1p)+p(1p)2/2+p(1p)3/3+
정규화 된 Gini 및 엔트로피 기준

@NIMISHAN에 의해 ​​설명 된 바와 같이 결국 Gini는 0.5로 대칭이므로 오 분류를 최소화하는 데 더 적합하지만 엔트로피는 작은 확률에 더 많은 처벌을 미칩니다.


3

엔트로피는 로그 계산으로 인해 Gini Index보다 약간 더 많은 계산 시간이 걸리므로 Gini Index가 많은 ML 알고리즘의 기본 옵션이 된 것 같습니다. 그러나 Tan 등. al book 데이터 마이닝 소개

"불순 척도는 서로 매우 일관성이있다. 실제로, 나무를 가지 치기 위해 사용 된 전략은 불순물 척도의 선택보다 최종 나무에 더 큰 영향을 미친다."

따라서 불순물 측정 선택이 단일 의사 결정 트리 알고리즘의 성능에 거의 영향을 미치지 않는 것처럼 보입니다.

또한. "Gini 방법은 대상 변수가 이진 변수 인 경우에만 작동합니다." -Python으로 예측 분석 학습.


3

지난 주 +에 대한 이진 분류에 대한 최적화를 해왔으며 모든 경우 엔트로피가 gini보다 훨씬 뛰어납니다. 이것은 데이터 세트에 따라 다를 수 있지만, 모델에 대해 미리 가정하기보다는 하이퍼 파라미터를 튜닝하는 것이 합리적인 선택 인 동시에 두 가지를 모두 시도하는 것처럼 보입니다.

통계를 실행할 때까지 데이터가 어떻게 반응하는지 알 수 없습니다.


0

parsimony 주체에 따르면 Gini는 계산 용이성으로 엔트로피보다 성능이 뛰어납니다 (로그는 프로세서 / 기계 수준에서의 평범한 곱셈보다 많은 계산이 관련되어 있음이 분명합니다).

그러나 엔트로피는 불균형이 높은 일부 데이터 사례에서 분명히 우위에 있습니다.

엔트로피는 확률의 로그를 사용하고 사건의 확률과 곱하기 때문에 배경에서 일어나는 것은 낮은 확률의 가치가 확대되고 있다는 것입니다.

데이터 확률 분포가 지수 또는 라플라스 인 경우 (예를 들어 뾰족한 지점에서 확률 분포가 필요한 딥 러닝의 경우) 엔트로피가 Gini를 능가합니다.

2 개의 사건이있는 경우 1.01 확률과 다른 .99 확률을 예로들 수 있습니다.

Gini Prob에서 sq는 .01 ^ 2 + .99 ^ 2, .0001 + .9801은 모든 확률이 다수 확률로 지배되므로 낮은 확률은 어떤 역할도 수행하지 않음을 의미합니다.

이제 엔트로피의 경우 .01 * log (.01) +. 99 * log (.99) = .01 * (-2) + .99 * (-. 00436) = -.02-.00432 분명히 낮은 확률은 더 나은 체중 나이가 주어진다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.