분류 문제를 해결하는 데 사용하는 세 가지 기능이 있습니다. 원래 이러한 기능은 부울 값을 생성하므로 포지티브 및 네거티브 분류 세트가 얼마나 겹치는 지 살펴보고 중복성을 평가할 수있었습니다. 이제 실제 값 (점수)을 생성하는 기능을 확장했으며 중복성을 다시 분석하고 싶지만 그렇게하는 방법에 대한 완전한 손실이 있습니다. 누구든지 그것에 대해하는 방법에 대한 포인터 나 아이디어를 제공 할 수 있습니까?
나는이 질문이 매우 모호하다는 것을 알고있다. 왜냐하면 나는 통계에 대한 이해력이 없기 때문이다. 따라서 나에게 답이 없다면 나 자신을 더 잘 이해하는 데 도움이되는 몇 가지 질문이있을 수 있습니다.
편집 : 나는 현재 주제에 대해 Wikipedia를 탐색하고 있는데, 내가 원하는 것이 상관 계수라는 느낌이 들지만 이것이 올바른 접근법인지, 사용 가능한 많은 계수 중 어느 것이 적합한 지 여전히 확실하지 않습니다.
편집 2 : 부울 경우 먼저 각 기능에 대해 사실 인 샘플 세트를 작성했습니다. 그런 다음 두 피처 간의 상관 관계는 이러한 집합의 합집합 크기에 대한 이러한 집합의 교집 크기입니다. 이 값이 1이면 항상 동일하기 때문에 완전히 중복됩니다. 0이면 결코 동일하지 않습니다.