예를 들어, 단어의 경우 승 위치에 P O S ∈ [ 0 , L - 1 ] 입력 순서대로 w = (승0, ⋯ ,승L - 1)4 차원 임베딩 및 를 사용하면
이자형승디m o d전자 리터= 4이자형'승=이자형승+ [ s i n (P O S100000) ,cos (P O S100000) ,sin (P O S100002 / 4) ,cos (P O S100002 / 4) ]=이자형승+ [ s의 I는 N ( p는 O S ) , C는 O S ( p는 O S ) , s의 I N (P O S100) ,cos (P O S100) ]
위치 인코딩 공식은 다음과 같습니다.
함께 (따라서 일본어 종이)를.PE ( P O S , 2 나 ) = s의 I N을 (P O S100002 나는 /디m의 입출력 d전자 리터) ,
PE ( P O S , 2 I + 1 ) = C O S (P O S100002 나는 /디m o d전자 리터) .
디m o d전자 리터= 512i ∈ [ 0 , 255 ]
이 기법은 제안 된 아키텍처에서 단어 순서 (첫 번째 단어, 두 번째 단어 등) 개념 이 없기 때문에 사용됩니다 . 입력 시퀀스의 모든 단어는 (일반적인 RNN 또는 ConvNet 아키텍처와 달리) 특별한 순서 나 위치없이 네트워크에 공급되므로 모델은 단어의 순서를 모릅니다. 결과적으로, 위치 의존적 신호가 각 단어 임베딩에 추가되어 모델이 단어의 순서를 통합하는 데 도움이됩니다. 실험에 기초하여,이 추가는 삽입 정보의 파괴를 피할뿐만 아니라 중요한 위치 정보를 추가합니다. RNN의 경우, 단어를 RNN에 순차적으로 공급합니다. 즉, 번째 단어가 단계에서 공급되어 모델이 단어의 순서를 통합하는 데 도움이됩니다.엔엔
Jay Alammar의이 기사 는 뛰어난 시각화 기능을 갖춘 논문을 설명합니다. 불행히도, 위치 인코딩에 대한 예제는 현재 정확하지 않습니다 ( 인덱스에 대해 을 사용 하고 홀수 인덱스에 대해 를 사용하는 대신 임베드 차원의 상반기에 을 사용 하고 후반에 를 사용합니다 ).s의 I N을c o ss의 I N을c o s