범주 형 벡터를 가져와 원핫 인코딩을 사용하여 이진 표현으로 변환하는 연산자의 이름은 무엇입니까? 과학 논문을 작성하고 나서 적절한 이름이 필요한지 궁금합니다.
범주 형 벡터를 가져와 원핫 인코딩을 사용하여 이진 표현으로 변환하는 연산자의 이름은 무엇입니까? 과학 논문을 작성하고 나서 적절한 이름이 필요한지 궁금합니다.
답변:
통계 학자들은 원 핫 인코딩을 더미 코딩 이라고 부릅니다 . 다른 사람들이 제안했듯이 ( 의견에 Scortchi 포함 ) 이것은 동의어가 아니지만 일반적으로 0-1로 인코딩 된 범주 형 변수에 사용되는 용어입니다.
대상 고객에 따라 다릅니다.
으로 팀이 말했다, 통계 코딩 더미를 호출하고 회귀 모델처럼 뭔가를 설명 할 때 내가 무엇을 기대의 볼 것을. "매장의 위치에 맞게 더미 코딩 된 변수가 포함되었습니다." 나는 그것을 원 핫 인코딩이라고 부르는 것이 약간 이상하게 보일 것이라고 생각합니다.
그러나 다른 Tim이 말했듯이, 원 핫 인코딩은 기계 학습 문헌에서 상당히 일반적입니다. 그것은 (신경망에서와 같이) 노드, 물리적 와이어 (장치에서) 또는 그와 같은 것을 적어도 나에게 희미하게 암시합니다.
공식적으로, 나는 당신이 인디케이터 함수 세트를 적용하고 있다고 생각 하지만, 그것은 증명 밖에서 너무 공식적인 방법 일 것입니다.
이 용어는 전자 공학에서 비롯됩니다. 누가 1 "핫"이라고 부를까요? "핫"또는 "라이브" 가있는 전기를 사용하는 사람 만 전선에 전위가 있음을 의미 합니다 . "One hot"은 한 와이어의 개별 전기 신호 레벨이 와이어 세트에서 핫 / 콜드로 디코딩되는 회로 설계를 나타냅니다. 나는 EE 배경을 가진 일부 기계 학습 사람들이 유추가 강하다고 생각합니다.
계량 경제학 및 통계에서 발생할 수있는 변수 dummy
또는 indicator
변수는 고유 한 지표로 고유 한 범주를 나타내는 데 사용되므로 매우 유사합니다. 그래도 미묘한 차이가 있습니다. 예를 들어 기본 카테고리가 0으로 설정된 모든 인형에 해당하기 때문에 K 카테고리에 대해 K-1 인형을 만듭니다. 반대로, 하나의 핫 인코딩에는 K 전선이 있고 기본 카테고리에는 자체 전선이 있다고 생각합니다 ( 변하기 쉬운).
저는 통계적으로 훈련을 받았으며 최근 머신 러닝 / 컴포지션에서 "일회성 인코딩"에 대해 들어 보았습니다. 나는 보통 방금 매트릭스를 디자인 매트릭스 / 데이터 매트릭스 / 디자인 프레임이라고 불렀습니다.
물리 과학 및 공학에서는이를 (일반화 된) 크로네 커 델타 라고합니다 .
가장 간단한 형태에서, Kroneker 델타로 정의되어 이는 사소 일반화 비록 δ [ 조건 ] ≡ { 한 경우, [ 조건 ] 0 다른 .
그래서, " "로 읽을 수 경향이 δ 내가 ∈ 카테고리 ≡ { 1 만약 내가 ∈ 카테고리 0 다른 , 대부분의 저자들이 "을 잘라야하는 경향 δ 내가 범주는 문맥에서 명백한 경우,".
크로네 커 델타는 시그마 / 파이 / 아인슈타인 등에 유용합니다 . 용어를 조건부로 지정할 수 있으므로 표기법이 사용됩니다.
단지 일반적인 프로그래밍 구조이를 연관시키는 상기 크로네 커 델타는 condition?1:0
여기서 ?:
는 IS 조건 연산자 .
접선으로, 나는 저자들에게 구식 를 일반화 된 동등 물인 δ i = j 에 찬성 하도록 포기하도록 권장한다 . 구식 표기법에는 이점이 없지만 일반화 된 표기법은 더 명확하고 확장 가능합니다.