기계 학습에서 동일한 정보를 효과적으로 인코딩하기 때문에 데이터 세트에 상관 관계가 높은 기능이 있으면 문제가 될 수 있습니다.
최근 누군가 범주 형 변수에 대해 원핫 인코딩을 수행하면 관련 기능이 생겨서 그 중 하나를 "참조"로 삭제해야한다고 지적했습니다.
예를 들어 성별을 두 변수로 인코딩하면 is_male
과 is_female
음의 상관 관계를 갖는 두 가지 기능이 생성되므로 두 기능 중 하나만 사용하여 남성을 말하는 기준을 효과적으로 설정하고 예측 알고리즘에서 is_female 열이 중요한지 확인하는 것이 좋습니다. .
그것은 나에게 의미가 있었지만 이것이 사실 일 수 있다고 온라인에서 아무것도 발견하지 못했습니다. 그래서 이것이 잘못 되었습니까?
가능한 (답이없는) 복제 : one-hot encode 기능의 공선 성이 SVM 및 LogReg에 중요합니까?
Does keeping all k values theoretically make them weaker features
. 아니요 (하지만 "약한"의 의미가 100 % 확실하지는 않습니다). 동일한 범주 형 변수를 using something like PCA
나타내는 일련의 인형에 대한 PCA는 일련의 인형 내부의 상관 관계가 범주 빈도 간의 관계 만 반영하기 때문에 실질적인 점이 거의 없다는 점에 유의하십시오. 1 / (k-1)).
is_male
두 옵션이 아닌 변수 만 사용하는 경우 성별의 중요성에 대한 "truer"추정치를 얻 습니까? 어쩌면 그것은이 맥락에서 의미가 없을 수도 있으며 실제로 동일한 정보를 인코딩하는 두 개의 다른 변수 (예 : 인치의 높이와 cm의 높이)가있는 경우에만 문제가 될 수 있습니다.
you end up with correlated features, so you should drop one of them as a "reference"
더미 변수 또는 인디케이터 변수 (머신 러닝에서 "one-hot encoding"과 동의어 인 통계에 사용되는 두 개의 이름)는 모두 k 또는 k-1 변수이기 때문에 쌍으로 상관됩니다. 따라서 더 좋은 단어는 "상관 된"대신 "통계적으로 / 정보 적으로 중복"입니다.