분류 및 회귀 트리를 연구하고 있으며 분할 위치의 측정 방법 중 하나는 GINI 점수입니다.
이제 두 분포간에 동일한 데이터의 우도 비율에 대한 로그가 0 일 때 최적의 분할 위치를 결정하는 데 익숙합니다. 즉, 멤버쉽 가능성도 동일합니다.
내 직감에 따르면 어떤 종류의 연결이 있어야하며 GINI는 수학적 정보 이론 (Shannon)에 좋은 기초를 가져야하지만 GINI를 잘 이해하지 못해 관계를 직접 이끌어 낼 수는 없습니다.
질문 :
- 분할의 척도로서 GINI 불순물 점수의 "첫 번째 원칙"도출은 무엇입니까?
- GINI 점수는 우도 비율 또는 기타 정보 이론적 기초 (Shannon Entropy, pdf 및 cross entropy가 그 일부 임)와 어떤 관련이 있습니까?
참고 문헌 :
- 가중 Gini 기준은 어떻게 정의됩니까?
- 분류 및 회귀 트리 뒤의 수학
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(추가) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Shannon의 엔트로피 는 다음과 같습니다.
이것을 다변량 사례로 확장하면 다음과 같습니다.
조건부 엔트로피는 다음과 같이 정의됩니다.
가능성 비율의 로그는 갑작스런 변화 감지에 사용되며이를 사용하여 파생됩니다. (내 앞에는 파생이 없습니다.)
GINI 불순물 :
- GINI 불순물의 일반적인 형태는
생각 :
- 분리는 불순물 측정에서 수행됩니다. 높은 "순도"는 낮은 엔트로피와 동일합니다. 이 방법은 엔트로피 최소화와 관련이 있습니다.
- 가정 된 기본 분포는 균일하거나 가우시안 핸드 웨이브 방식 일 수 있습니다. 그들은 분포를 혼합하여 만들고있을 것입니다.
- Shewhart 차트 파생이 여기에 적용될 수 있는지 궁금합니다.
- GINI 불순물은 2 번의 시도와 한 번의 성공으로 이항 분포에 대한 확률 밀도 함수의 적분처럼 보입니다.
(추가)
- 형태는 또한 초 지오메트리 분포에 대한 접합체 인 베타-이항 분포와 일치한다. 초 지오메트리 테스트는 종종 샘플에서 어떤 샘플이 오버 또는 언더로 표시되는지 확인하는 데 사용됩니다. 피셔의 정확한 테스트와 관계가 있습니다 (자기 자신, 이것에 대해 자세히 알아보십시오).
편집 : 디지털 로직 및 / 또는 rb-tree와 매우 잘 작동하는 GINI 형식이 있다고 생각합니다. 나는 이번 가을 학급 프로젝트에서 이것을 탐구하기를 희망합니다.