카이-제곱 기능 선택은 정확히 어떻게 작동합니까?

각 피처-클래스 쌍에 대해 카이-제곱 통계 값이 계산 되고 임계 값과 비교됩니다.

그래도 조금 혼란 스럽습니다. 피처와 클래스 가 있다면 우발성 테이블을 어떻게 구축합니까? 유지할 기능과 제거 할 기능을 어떻게 결정합니까? $m$ $k$

어떤 설명이라도 대단히 감사하겠습니다. 미리 감사드립니다

chi-squared feature-selection

— 사용자
소스

이 사람에 대한 생각이나 포인터?

— user721975

카이-제곱 검정은 두 변수의 종속성을 결정하기위한 독립성 통계 검정입니다. 그것은 결정 계수 R²와 유사성을 공유합니다. 그러나 카이 제곱 검정은 범주 형 또는 명목 데이터에만 적용 할 수있는 반면 R²는 숫자 데이터에만 적용 할 수 있습니다.

카이-제곱의 정의에서 피처 선택에 카이-제곱 기법을 쉽게 적용 할 수 있습니다. 대상 변수 (예 : 클래스 레이블)와 각 데이터 샘플을 설명하는 다른 기능 (기능 변수)이 있다고 가정합니다. 이제 모든 피처 변수와 목표 변수 사이의 카이 제곱 통계를 계산하고 변수와 목표 사이의 관계가 있는지 관찰합니다. 대상 변수가 기능 변수와 독립적 인 경우 해당 기능 변수를 버릴 수 있습니다. 종속적 인 경우 기능 변수가 매우 중요합니다.

수학적 세부 사항은 여기에 설명되어 있습니다 : http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

연속 변수의 경우 변수를 "비닝"한 후 카이 제곱을 적용 할 수 있습니다.

FSelector에서 뻔뻔스럽게 복사 된 R의 예

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

기능 선택과 관련이 없지만 아래 비디오는 chisquare에 대해 자세히 설명합니다 https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

— 제자
소스