여기에서는 다른 사람들이지도 학습에서 기능 선택 wrt 결과에 카이 제곱 테스트를 사용하기 위해 일반적으로 수행하는 작업에 대해 묻고 있습니다. 올바르게 이해하면 각 기능과 결과 사이의 독립성을 테스트하고 각 기능에 대한 테스트 사이의 p 값을 비교합니까?
에서 http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Pearson의 카이 제곱 검정은 범주화 된 데이터 세트에 적용되는 통계 테스트로 , 세트 간 관측 된 차이가 우연히 발생했을 가능성을 평가합니다.
...
독립성 검정은 우발성 표에 표시된 두 변수에 대한 쌍으로 된 관측치가 서로 독립적인지 여부를 평가합니다 (예 : 국적이 응답과 관련이 있는지 확인하기 위해 다른 국적의 사람들의 응답 응답).
따라서 테스트에 의해 독립성이 테스트되는 두 변수는 범주 형이거나 이산 형 (범주 형 외에 순서가 허용됨)이지만 연속적이지 않아야합니까?
에서 http://scikit-learn.org/stable/modules/feature_selection.html , 그들은
iris 데이터 세트 에 대해 테스트를 수행 하여 두 가지 최상의 기능 만 검색하십시오.
에서 홍채 데이터 세트 , 모든 기능은 평가 수치 연속, 그리고 결과는 클래스 레이블 (범주)입니다. 카이 제곱 독립성 테스트는 연속 피처에 어떻게 적용됩니까?
카이 제곱 독립성 테스트를 데이터 세트에 적용하려면 먼저 비닝을 통해 연속 피처를 이산 피처로 변환해야합니다 (즉, 피처의 연속 도메인을 빈으로 분리 한 다음 피처를 피처의 피처 값 발생으로 대체) )?
여러 구간에서 발생하면 다항식 특성 (각 구간에서 발생 또는 발생하지 않음)이 발생하므로 카이 제곱 독립성 검정이 적용될 수 있습니다.
내가 추측 한대로, 우리는 카이 제곱 독립 테스트를 모든 종류 의 기능 과 결과에 적용 할 수 있습니까?
결과 부분의 경우 카이 제곱 독립성 테스트에서 연속 결과를 비닝하여 분류뿐만 아니라 회귀에 대한 피처를 선택할 수 있습니다.
scikit 학습 사이트 도 말합니다
음이 아닌 각 피처와 클래스 사이의 카이 제곱 통계를 계산 합니다.
이 점수는 X에서 테스트 카이 제곱 통계량에 대해 가장 높은 값을 갖는 n_features 피처를 선택하는 데 사용될 수 있습니다. 여기에는 부울 또는 빈도 (예 : 문서 분류의 용어 수) 와 같은 음이 아닌 피처 만 포함해야합니다 . 클래스.
테스트에 음이 아닌 기능이 필요한 이유는 무엇입니까?
지형지 물에 표시가 없지만 범주 형이거나 이산 형인 경우 테스트를 계속 적용 할 수 있습니까? (1 부 참조)
기능이 부정적이라면, 우리는 항상 도메인을 비닝하고 그것들을 발생으로 대체 할 수 있습니다.
참고 : Scikit Learn은 일반적인 원칙을 따르는 것 같습니다. 이것이 바로 제가 요청하는 것입니다. 그렇지 않다면 여전히 괜찮습니다.