GINI 점수와 로그 우도 비율의 관계는 무엇입니까


21

분류 및 회귀 트리를 연구하고 있으며 분할 위치의 측정 방법 중 하나는 GINI 점수입니다.

이제 두 분포간에 동일한 데이터의 우도 비율에 대한 로그가 0 일 때 최적의 분할 위치를 결정하는 데 익숙합니다. 즉, 멤버쉽 가능성도 동일합니다.

내 직감에 따르면 어떤 종류의 연결이 있어야하며 GINI는 수학적 정보 이론 (Shannon)에 좋은 기초를 가져야하지만 GINI를 잘 이해하지 못해 관계를 직접 이끌어 낼 수는 없습니다.

질문 :

  • 분할의 척도로서 GINI 불순물 점수의 "첫 번째 원칙"도출은 무엇입니까?
  • GINI 점수는 우도 비율 또는 기타 정보 이론적 기초 (Shannon Entropy, pdf 및 cross entropy가 그 일부 임)와 어떤 관련이 있습니까?

참고 문헌 :

Shannon의 엔트로피 는 다음과 같습니다.

H(x)=ΣiP(xi)logbP(xi)

이것을 다변량 사례로 확장하면 다음과 같습니다.

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

조건부 엔트로피는 다음과 같이 정의됩니다.

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

가능성 비율의 로그는 갑작스런 변화 감지에 사용되며이를 사용하여 파생됩니다. (내 앞에는 파생이 없습니다.)

GINI 불순물 :

  • GINI 불순물의 일반적인 형태는 I=i=1mfi(1fi)

생각 :

  • 분리는 불순물 측정에서 수행됩니다. 높은 "순도"는 낮은 엔트로피와 동일합니다. 이 방법은 엔트로피 최소화와 관련이 있습니다.
  • 가정 된 기본 분포는 균일하거나 가우시안 핸드 웨이브 방식 일 수 있습니다. 그들은 분포를 혼합하여 만들고있을 것입니다.
  • Shewhart 차트 파생이 여기에 적용될 수 있는지 궁금합니다.
  • GINI 불순물은 2 번의 시도와 한 번의 성공으로 이항 분포에 대한 확률 밀도 함수의 적분처럼 보입니다. P(x=k)=(21)p(1p)

(추가)

  • 형태는 또한 초 지오메트리 분포에 대한 접합체 인 베타-이항 분포와 일치한다. 초 지오메트리 테스트는 종종 샘플에서 어떤 샘플이 오버 또는 언더로 표시되는지 확인하는 데 사용됩니다. 피셔의 정확한 테스트와 관계가 있습니다 (자기 자신, 이것에 대해 자세히 알아보십시오).

편집 : 디지털 로직 및 / 또는 rb-tree와 매우 잘 작동하는 GINI 형식이 있다고 생각합니다. 나는 이번 가을 학급 프로젝트에서 이것을 탐구하기를 희망합니다.


1
내 질문에 대답하면 문제가 되나요?
EngrStudent-복직 모니카

1
아뇨, 전혀 아닙니다. 합리적인 답변이라고 생각되는 것을 생각 해냈다면, 해고하십시오.
gung-Monica Monica 복원

@EngrStudent. 좋은 질문이지만 참조 섹션에서 제공하는 첫 번째 링크는 Gini 계수와 관련이 있으며, 이는 CART에 사용 된 Gini 측정과는 아무런 관련이 없습니다
Antoine

지니 지수에 관해 방금 간단한 해석을 게시했습니다 : stats.stackexchange.com/questions/308885/…
Picaud Vincent

답변:


11

여기서 사용한 것과 같은 표기법을 사용하겠습니다. 분류 및 회귀 트리 뒤에있는 수학

Gini Gain 및 Information Gain ( )은 모두 불순물 기반 분할 기준입니다. 유일한 차이점은 불순물 기능 I입니다 .IGI

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

이들은 실제로 매개 변수화 된보다 일반적인 엔트로피 측정 (Tsallis 'Entropy)의 특정 값입니다 .β

Hβ(E)=1β1(1j=1cpjβ)

β = 2로 , H β 1 로 얻습니다.Giniβ=2Hβ1

통계 라고도하는 로그 우도 는 정보 게인의 선형 변환입니다.G

G-statistic=2|E|IG

커뮤니티 (통계 / 데이터 마이닝)에 따라 사람들은 하나의 측정 값 또는 다른 측정 값을 선호합니다 (관련 질문은 여기 ). 의사 결정 트리 유도 프로세스에서 거의 동일 할 수 있습니다. [기술 노트 : 분할 기준의 일부 속성]을 통해 많은 클래스가있는 경우 로그 가능성은 균형 잡힌 파티션에 높은 점수를 줄 수 있습니다. Breiman 1996].

Gini Gain은 로그가 없기 때문에 더 좋을 수 있으며 랜덤 분할 가정 하에서 기대 값과 분산에 대한 닫힌 형태를 찾을 수 있습니다 [Alin Dobra, Johannes Gehrke : 분류 트리 구성의 바이어스 수정]. ICML 2001 : 90-97]. 정보 획득이 쉽지 않습니다 (관심이 있으시면 여기를 참조 하십시오 ).


1

좋은 질문. 불행히도 아직 찬성하거나 의견을 말할만한 충분한 평판이 없습니다.

나는 비율 테스트에 익숙하지 않지만, 두 개 이상의 다른 분포 에서 발생하는 데이터의 가능성을 비교하는 데 사용되는 형식주의라는 사실을 깨달았다 . 반면에 Gini 계수는 단일 분포의 요약 통계량이다.

지니 계수 (IMO)를 생각하는 유용한 방법은 Lorenz 곡선 아래의 면적 (cdf 관련)입니다.

엔트로피에 대한 OP에 주어진 정의를 사용하여 Shannon의 엔트로피를 Gini와 동일시 할 수 있습니다.

H=Σ나는(엑스나는)로그(엑스나는)

그리고 Gini의 정의 :

=11μΣ나는(엑스나는)(에스나는1+에스나는)어디서

에스나는=Σj=1나는(엑스나는)엑스나는 (즉, 누적 평균 엑스나는).

쉬운 일처럼 보이지는 않습니다!


로그 우도 비율은 동일한 데이터에서 작동합니다. 분포 중 하나는 다른 형태와 동일한 일반적인 형태 일 수 있지만, 다른 기준이 참일 때 매개 변수가 데이터에 적합했습니다. 예를 들어, 건강한 생산 공정 변동 (가우시안은 아님)을 설명하는 모수와 현재 생산 공정 값에 맞는 분포를 갖는 분포와 현재 생산 공정 값 모두에서 로그 우도 비율을 임계 값과 비교하는 분포를 가질 수 있습니다. 소풍의 가능성. 실제와 이상을 비교할 수 있습니다.
EngrStudent-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.