중복 기능을 수량화하는 방법은 무엇입니까?


10

분류 문제를 해결하는 데 사용하는 세 가지 기능이 있습니다. 원래 이러한 기능은 부울 값을 생성하므로 포지티브 및 네거티브 분류 세트가 얼마나 겹치는 지 살펴보고 중복성을 평가할 수있었습니다. 이제 실제 값 (점수)을 생성하는 기능을 확장했으며 중복성을 다시 분석하고 싶지만 그렇게하는 방법에 대한 완전한 손실이 있습니다. 누구든지 그것에 대해하는 방법에 대한 포인터 나 아이디어를 제공 할 수 있습니까?

나는이 질문이 매우 모호하다는 것을 알고있다. 왜냐하면 나는 통계에 대한 이해력이 없기 때문이다. 따라서 나에게 답이 없다면 나 자신을 더 잘 이해하는 데 도움이되는 몇 가지 질문이있을 수 있습니다.

편집 : 나는 현재 주제에 대해 Wikipedia를 탐색하고 있는데, 내가 원하는 것이 상관 계수라는 느낌이 들지만 이것이 올바른 접근법인지, 사용 가능한 많은 계수 중 어느 것이 적합한 지 여전히 확실하지 않습니다.

편집 2 : 부울 경우 먼저 각 기능에 대해 사실 인 샘플 세트를 작성했습니다. 그런 다음 두 피처 간의 상관 관계는 이러한 집합의 합집합 크기에 대한 이러한 집합의 교집 크기입니다. 이 값이 1이면 항상 동일하기 때문에 완전히 중복됩니다. 0이면 결코 동일하지 않습니다.


부울 경우 중복을 정의하는 방법과 연속 사례에서 어떤 종류의 결과를 기대하는지에 대한 예를 제공하면 도움이 될 것입니다.
mpiktas

@mpiktas : 귀하의 의견에 대한 답변으로 내 질문을 편집하십시오.
Björn Pollex

답변:


4

이것은 기능 선택의 문제처럼 들립니다.이 경우 모든 기능 하위 집합과 분류 출력 간의 상호 정보 를 계산하고 싶습니다 . 상호 정보가 가장 높은 서브 세트는 레코드의 결과 분류에 대한 '정보'가 가장 많은 기능 세트입니다.

기능이 3 개 뿐인 경우, 가능한 시간 내에 모든 가능한 부분 집합을 계산할 수 있으며, 기능 세트가 커지면 대략적으로 계산해야합니다 (일반적으로 욕심 많은 접근 방식 : 각 단계에서 MI가 가장 높은 기능 사용) ).


2
상호 정보는 (+1)입니다. 추가 사항 : a) 나는 정보 획득을 상호 정보의 특별한 경우로 제안한다. b) 자동 기능 선택은 중복을 제거 할뿐만 아니라 클래스 차별에 부정적인 영향을 미치는 모든 기능을 제거합니다.
steffen

감사! 이것은 매우 유망한 것으로 들립니다.
Björn Pollex
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.