one-hot 인코딩을 사용할 때 열 중 하나를 삭제


22

기계 학습에서 동일한 정보를 효과적으로 인코딩하기 때문에 데이터 세트에 상관 관계가 높은 기능이 있으면 문제가 될 수 있습니다.

최근 누군가 범주 형 변수에 대해 원핫 인코딩을 수행하면 관련 기능이 생겨서 그 중 하나를 "참조"로 삭제해야한다고 지적했습니다.

예를 들어 성별을 두 변수로 인코딩하면 is_maleis_female음의 상관 관계를 갖는 두 가지 기능이 생성되므로 두 기능 중 하나만 사용하여 남성을 말하는 기준을 효과적으로 설정하고 예측 알고리즘에서 is_female 열이 중요한지 확인하는 것이 좋습니다. .

그것은 나에게 의미가 있었지만 이것이 사실 일 수 있다고 온라인에서 아무것도 발견하지 못했습니다. 그래서 이것이 잘못 되었습니까?

가능한 (답이없는) 복제 : one-hot encode 기능의 공선 성이 SVM 및 LogReg에 중요합니까?


8
you end up with correlated features, so you should drop one of them as a "reference"더미 변수 또는 인디케이터 변수 (머신 러닝에서 "one-hot encoding"과 동의어 인 통계에 사용되는 두 개의 이름)는 모두 k 또는 k-1 변수이기 때문에 쌍으로 상관됩니다. 따라서 더 좋은 단어는 "상관 된"대신 "통계적으로 / 정보 적으로 중복"입니다.
ttnphns

모든 k 개의 인형 세트는 다중 공선 세트입니다. 데이터에서 k-1 인형의 값을 알고 있으면 마지막 더미의 값을 자동으로 알 수 있기 때문입니다. 일부 데이터 분석 방법 또는 알고리즘에서는 k 중 하나를 삭제해야합니다. 다른 사람들은 모든 k에 대처할 수 있습니다.
ttnphns

@ttnphns : 감사합니다. 모든 k 값을 이론적으로 유지하면 차원 축소로 제거 할 수있는 약한 특성이 있습니까? PCA와 같은 것을 사용하는 것에 대한 논쟁 중 하나는 종종 상관 / 중복 기능을 제거하는 것입니다. 모든 k 변수를 유지하는 것이 그 범주에 속하는지 궁금합니다.
dasboth

Does keeping all k values theoretically make them weaker features. 아니요 (하지만 "약한"의 의미가 100 % 확실하지는 않습니다). 동일한 범주 형 변수를 using something like PCA나타내는 일련의 인형에 대한 PCA는 일련의 인형 내부의 상관 관계가 범주 빈도 간의 관계 만 반영하기 때문에 실질적인 점이 거의 없다는 점에 유의하십시오. 1 / (k-1)).
ttnphns

내가 의미하는 것은 모델을 사용하여 기능 중요도 (예 : 임의 포리스트)를 평가할 때 모든 k 값을 포함하면 해당 변수의 중요성을 과소 평가합니까? 에서와 같이 is_male두 옵션이 아닌 변수 만 사용하는 경우 성별의 중요성에 대한 "truer"추정치를 얻 습니까? 어쩌면 그것은이 맥락에서 의미가 없을 수도 있으며 실제로 동일한 정보를 인코딩하는 두 개의 다른 변수 (예 : 인치의 높이와 cm의 높이)가있는 경우에만 문제가 될 수 있습니다.
dasboth

답변:


23

lmglm 됩니다. .

.

다른 모델과 동일한 원칙을 사용하십시오. 얻은 예측이 어떤 열을 떠나는 지에 따라 달라지면하지 마십시오. 그렇지 않으면 괜찮습니다.

지금까지이 답변은 선형 (및 약간 비선형) 모델 만 언급합니다. 그러나 나무와 임의의 숲과 같은 매우 비선형 모델은 어떻습니까? one-hot과 같은 범주 형 인코딩에 대한 아이디어는 주로 선형 모델 및 확장에서 비롯됩니다. 그 맥락에서 파생 된 아이디어가 나무와 숲을 수정하지 않고 적용해야한다고 생각할 이유가 거의 없습니다! 일부 아이디어 는 Python에서 스파 스 데이터를 사용하는 Random Forest Regression을 참조하십시오 .

β,β2,ββ1=0β2β1,ββ1


참조 변수를 선택하면 정규 회귀 결과에 영향을 줄 수 있지만 모든 변수를 그대로 두는 것보다 낫다는 것이 확실하지 않습니다. 그럴만한 이유가 있습니까?
코타 모리

글쎄, 두 가지 대안 만 ... 모든 수준을 유지하면 불변성을 유지하고 임의의 중재가 없습니다. 너무 많은 다른 레벨과 같은 레벨의 수를 줄이고 싶은 다른 이유가 있다면, 우리는 그것에 대해 알려 주어야합니다
kjetil b halvorsen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.