하나의 핫 인코딩과 하나의 핫 인코딩의 차이점은 무엇입니까?


13

프리젠 테이션을 읽고 있는데 하나를 사용하지 않고 인코딩을 사용하는 것이 좋지만 하나의 핫 인코딩으로도 괜찮습니다. 둘 다 같다고 생각했습니다. 아무도 그들 사이의 차이점을 설명 할 수 있습니까?


1
휴가 중 상태가 무엇인지 명확하지 않습니다 (귀하의 질문 만). 이 정보를 편집하여 포인터를 제공하고 두 가지에 대한 이해를 간략하게 설명하고 왜 같은지 생각해야합니다.
Sean Owen

답변:


15

아마도 Owen Zhang의 전략을 나타 내기 위해 "일회 인코딩 인코딩"을 사용하고있을 것입니다.

보낸 사람 : https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

인코딩 된 열은 일반적인 더미 변수가 아니라 행 자체를 제외하고이 범주 수준의 모든 행에 대한 평균 응답입니다. 이는 직접적인 응답 누출을 피하면서 범주를 1 열로 표시 할 수있는 이점을 제공합니다.

이 그림은 아이디어를 잘 표현합니다. 여기에 이미지 설명을 입력하십시오


귀하의 설명은, 감사합니다 wacax의 참조 된 링크보다 더
앨런 망치

안녕하세요 @Dex Groves, 테스트의 leave_one_out 인코딩은 항상 0.5입니까?
user7117436

3
안녕하세요! 그림에서 볼 수 있듯이이 특별한 예는 분류 문제와 관련이 있습니다. 회귀 문제 내에서 LOO 인코딩에 경험이 있습니까? 주요 질문은 대상 변수를 집계하는 방법입니다. 나는 지금 실험을하고 평균 (y)으로 엄청난 과적 합을 얻습니다.
Alexey Trofimov 2016 년

1
클러스터링 (비 관리) 문제의 경우 이런 종류의 인코딩을 사용할 수 있습니까?
enneppi

@AlexeyTrofimov-분산이 낮은 집계를 시도하십시오. 다른 비닝으로 시작합니다 (1y, 2K, 2M, .. 큰 y int 값의 경우 또는 y float 값의 소수 자릿수로 반올림) => mean (bin_f (y))
mork
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.