답변:
카이-제곱 검정은 두 변수의 종속성을 결정하기위한 독립성 통계 검정입니다. 그것은 결정 계수 R²와 유사성을 공유합니다. 그러나 카이 제곱 검정은 범주 형 또는 명목 데이터에만 적용 할 수있는 반면 R²는 숫자 데이터에만 적용 할 수 있습니다.
카이-제곱의 정의에서 피처 선택에 카이-제곱 기법을 쉽게 적용 할 수 있습니다. 대상 변수 (예 : 클래스 레이블)와 각 데이터 샘플을 설명하는 다른 기능 (기능 변수)이 있다고 가정합니다. 이제 모든 피처 변수와 목표 변수 사이의 카이 제곱 통계를 계산하고 변수와 목표 사이의 관계가 있는지 관찰합니다. 대상 변수가 기능 변수와 독립적 인 경우 해당 기능 변수를 버릴 수 있습니다. 종속적 인 경우 기능 변수가 매우 중요합니다.
수학적 세부 사항은 여기에 설명되어 있습니다 : http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
연속 변수의 경우 변수를 "비닝"한 후 카이 제곱을 적용 할 수 있습니다.
FSelector에서 뻔뻔스럽게 복사 된 R의 예
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
기능 선택과 관련이 없지만 아래 비디오는 chisquare에 대해 자세히 설명합니다 https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8