중복 기능을 수량화하는 방법은 무엇입니까?

분류 문제를 해결하는 데 사용하는 세 가지 기능이 있습니다. 원래 이러한 기능은 부울 값을 생성하므로 포지티브 및 네거티브 분류 세트가 얼마나 겹치는 지 살펴보고 중복성을 평가할 수있었습니다. 이제 실제 값 (점수)을 생성하는 기능을 확장했으며 중복성을 다시 분석하고 싶지만 그렇게하는 방법에 대한 완전한 손실이 있습니다. 누구든지 그것에 대해하는 방법에 대한 포인터 나 아이디어를 제공 할 수 있습니까?

나는이 질문이 매우 모호하다는 것을 알고있다. 왜냐하면 나는 통계에 대한 이해력이 없기 때문이다. 따라서 나에게 답이 없다면 나 자신을 더 잘 이해하는 데 도움이되는 몇 가지 질문이있을 수 있습니다.

편집 : 나는 현재 주제에 대해 Wikipedia를 탐색하고 있는데, 내가 원하는 것이 상관 계수라는 느낌이 들지만 이것이 올바른 접근법인지, 사용 가능한 많은 계수 중 어느 것이 적합한 지 여전히 확실하지 않습니다.

편집 2 : 부울 경우 먼저 각 기능에 대해 사실 인 샘플 세트를 작성했습니다. 그런 다음 두 피처 간의 상관 관계는 이러한 집합의 합집합 크기에 대한 이러한 집합의 교집 크기입니다. 이 값이 1이면 항상 동일하기 때문에 완전히 중복됩니다. 0이면 결코 동일하지 않습니다.

correlation feature-selection

— 비욘 폴 렉스
소스

부울 경우 중복을 정의하는 방법과 연속 사례에서 어떤 종류의 결과를 기대하는지에 대한 예를 제공하면 도움이 될 것입니다.

— mpiktas

@mpiktas : 귀하의 의견에 대한 답변으로 내 질문을 편집하십시오.

— Björn Pollex

이것은 기능 선택의 문제처럼 들립니다.이 경우 모든 기능 하위 집합과 분류 출력 간의 상호 정보 를 계산하고 싶습니다 . 상호 정보가 가장 높은 서브 세트는 레코드의 결과 분류에 대한 '정보'가 가장 많은 기능 세트입니다.

기능이 3 개 뿐인 경우, 가능한 시간 내에 모든 가능한 부분 집합을 계산할 수 있으며, 기능 세트가 커지면 대략적으로 계산해야합니다 (일반적으로 욕심 많은 접근 방식 : 각 단계에서 MI가 가장 높은 기능 사용) ).

— 새긴 금
소스

상호 정보는 (+1)입니다. 추가 사항 : a) 나는 정보 획득을 상호 정보의 특별한 경우로 제안한다. b) 자동 기능 선택은 중복을 제거 할뿐만 아니라 클래스 차별에 부정적인 영향을 미치는 모든 기능을 제거합니다.

— steffen

감사! 이것은 매우 유망한 것으로 들립니다.

— Björn Pollex