누군가가 Gini 불순물 대 정보 획득 의 이론적 근거를 실제로 설명 할 수 있습니까 (Entropy 기반)?
의사 결정 트리를 사용하는 동안 다른 시나리오에서 어떤 메트릭 을 사용하는 것이 더 좋습니까?
누군가가 Gini 불순물 대 정보 획득 의 이론적 근거를 실제로 설명 할 수 있습니까 (Entropy 기반)?
의사 결정 트리를 사용하는 동안 다른 시나리오에서 어떤 메트릭 을 사용하는 것이 더 좋습니까?
답변:
지니 불순물과 정보 게인 엔트로피는 거의 동일합니다. 그리고 사람들은 그 값을 서로 바꾸어 사용합니다. 다음은 두 가지 공식입니다.
선택이 주어지면, 계산적으로 집중적 인 로그 함수를 계산할 필요가 없으므로 Gini 불순물을 사용합니다. 닫힌 형태의 솔루션도 찾을 수 있습니다.
의사 결정 트리를 사용하는 동안 다른 시나리오에서 어떤 메트릭을 사용하는 것이 더 좋습니까?
위에서 언급 한 이유로 지니 불순물.
따라서 CART 분석과 관련하여 거의 동일합니다.
일반적으로 Gini 불순물을 사용하든 Entropy를 사용하든 성능은 변경되지 않습니다.
Laura Elena Raileanu와 Kilian Stoffel은 " 지니 지수와 정보 획득 기준의 이론적 비교 "에서 두 가지를 모두 비교했습니다 . 가장 중요한 말은 다음과 같습니다.
나는 한 번에 두 가지 메트릭이 서로 다른 과학 분야에서 등장했기 때문에 존재한다고 들었습니다.
분수 f와 (1-f)로 나타나는 두 개의 값을 갖는 변수의 경우
, gini와 엔트로피는 다음과 같이 주어집니다 :
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
이 측정 값은 1.0 (축소 2 * gini 및 엔트로피 / ln (2))으로 조정하면 매우 유사합니다.
엔트로피는 로그 계산으로 인해 Gini Index보다 약간 더 많은 계산 시간이 걸리므로 Gini Index가 많은 ML 알고리즘의 기본 옵션이 된 것 같습니다. 그러나 Tan 등. al book 데이터 마이닝 소개
"불순 척도는 서로 매우 일관성이있다. 실제로, 나무를 가지 치기 위해 사용 된 전략은 불순물 척도의 선택보다 최종 나무에 더 큰 영향을 미친다."
따라서 불순물 측정 선택이 단일 의사 결정 트리 알고리즘의 성능에 거의 영향을 미치지 않는 것처럼 보입니다.
또한. "Gini 방법은 대상 변수가 이진 변수 인 경우에만 작동합니다." -Python으로 예측 분석 학습.
parsimony 주체에 따르면 Gini는 계산 용이성으로 엔트로피보다 성능이 뛰어납니다 (로그는 프로세서 / 기계 수준에서의 평범한 곱셈보다 많은 계산이 관련되어 있음이 분명합니다).
그러나 엔트로피는 불균형이 높은 일부 데이터 사례에서 분명히 우위에 있습니다.
엔트로피는 확률의 로그를 사용하고 사건의 확률과 곱하기 때문에 배경에서 일어나는 것은 낮은 확률의 가치가 확대되고 있다는 것입니다.
데이터 확률 분포가 지수 또는 라플라스 인 경우 (예를 들어 뾰족한 지점에서 확률 분포가 필요한 딥 러닝의 경우) 엔트로피가 Gini를 능가합니다.
2 개의 사건이있는 경우 1.01 확률과 다른 .99 확률을 예로들 수 있습니다.
Gini Prob에서 sq는 .01 ^ 2 + .99 ^ 2, .0001 + .9801은 모든 확률이 다수 확률로 지배되므로 낮은 확률은 어떤 역할도 수행하지 않음을 의미합니다.
이제 엔트로피의 경우 .01 * log (.01) +. 99 * log (.99) = .01 * (-2) + .99 * (-. 00436) = -.02-.00432 분명히 낮은 확률은 더 나은 체중 나이가 주어진다.