"교차 엔트로피"의 정의와 기원


15

출처를 언급하지 않고 Wikipedia 불연속 분포 와 의 교차 엔트로피를 다음 과 같이 정의합니다 .

H×(;)=엑스(엑스)로그(엑스).

이 수량을 처음 사용하기 시작한 사람은 누구입니까? 그리고 누가이 용어를 발명 했습니까? 나는 보았다 :

JE 쇼어와 RW 존슨, "최대 엔트로피의 원리와 최소 교차 엔트로피의 원리에 대한 축 방향 도출", 정보 이론, IEEE Transactions on, vol. 26 번 1, pp. 26-37, 1980 년 1 월.

나는 그들의 소개를 따랐다.

A. Wehrl, "엔트로피의 일반 특성", Modern Physics, vol. 50 번 2, pp. 221-260, 1978 년 4 월.

이 용어를 사용하지 않는 사람.

둘 다

S. Kullback 및 R. Leibler, "정보 및 충분성에 관한"수학 통계 연재, vol. 22 번 1, pp. 79-86, 1951.

나는 보았다

TM Cover 및 JA Thomas, 정보 이론의 요소 (통신 및 신호 처리의 Wiley 시리즈). Wiley-Interscience, 2006.

I. Good, "가설 공식화, 특히 다차원 우발성 테이블에 대한 최대 엔트로피", 수학 통계 분석, vol. 34 번 3, 911-934, 1963 쪽.

그러나 두 논문은 교차 엔트로피를 KL- 분화와 동의어로 정의합니다.

원래 종이

CE Shannon, "수학적 커뮤니케이션 이론", Bell 시스템 기술 저널, vol. 1948 년 27 월.

교차 엔트로피는 언급하지 않습니다 (그리고 "상대 엔트로피"라는 이상한 정의가 있습니다.

마지막으로 Tribus의 오래된 책과 논문을 보았습니다.

누구나 위의 방정식이 무엇인지, 누가 그것을 발명했는지 또는 누가 멋진 표현을했는지 알고 있습니까?

답변:


7

그것은 Kullback–Leibler 분기 의 개념과 밀접한 관련이있는 것 같습니다 ( Kullback and Leibler, 1951 참조 ). Kullback and Leibler의 논문에서 두 가설 (식 에서 로 )과 섀넌과 위버의 수학적 의사 소통 이론 18-19 페이지를 인용 한 두 가설을 구별하기위한 평균 정보에 대해 논의합니다 . (1949) 및 p. Wiener 's Cybernetics (1948) 의 76 . 나는1:2(이자형)2.22.4

편집하다:

추가 별칭에는 Kullback-Leibler 정보 측정, 상대 정보 측정, 교차 엔트로피, I- 분산 및 Kerridge 부정확성이 포함 됩니다.


감사! 나는 그 참고 문헌을 확인했지만 여전히 "교차 엔트로피"또는 일치하는 방정식을 찾는 데 문제가 있습니다. 기사 나 책 중 하나를 본 적이 있으면 알려주십시오.
Neil G

1
특정 년도까지 발행 된 다른 가명 (예 : 최대 1980 년까지의 교차 엔트로피)을 가진 기사를 Google 학술 검색에서 거꾸로 검색 할 수도 있습니다 .
Itamar

1
최근 수정 한 내용과 관련하여 제 질문에 제공된 양식의 이력에 관심이 있습니다. 나는 이미 초기 논문이 "교차 엔트로피"를 사용하여 "KL 확산"을 의미한다는 것을 알아 차렸다. (Kullback 논문은 제 질문에 있습니다.)
Neil G

죄송합니다, 해당 질문에서 Kullback 논문을 놓쳤습니다
Itamar

4

@Itamar의 제안 덕분에 다음과 같은 언급이 있습니다.

IJ Good, "정보 이론의 일부 용어 및 표기법", IEE 절차-Part C : 논문, vol. 103 호 3, pp. 200-204, 1956 년 3 월.

교차 엔트로피의 멋진 프레젠테이션을 찾는 것이 여전히 유용 할 것입니다.


2

이것에 대한 감사-배경 문학의 좋은 요약. IEEE의 1980 년 Shore and Johnson 기사는 좋은 출발이지만 1956 년의 Good 모노 그래프에 대한 @itamar의 포인터가 훨씬 좋습니다. 이 개념은 Shannon의 연구에서 나온 것으로 보인다. Kullback & Leibler의 1951 AMS 메모는 현재이 용어를 사용하는 기원이다. "교차 엔트로피"라는 용어의 기원이 인공 신경망과 관련이있는 한, 1995 년에 출판 된 1994 년에 제출 된 GE의 Hin Hin, P. Dayan, BJ Frey & RM Neal의 Science 논문에 사용 된 용어가있다. "Hemholtz Machine"이라는 용어가 초기에 사용되었습니다. 복사 URL : http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf 이 논문에서 "비 관리 신경망을위한 웨이크-슬립 알고리즘"방정식 # 5의 메모는 다음과 같이 말합니다. "입력 벡터를 설명하는 많은 다른 방법이있을 때이를 활용하는 확률 적 코딩 체계를 설계 할 수 있습니다 비용은 다음과 같다 : "(다음 식 5 참조 논문)"두 번째 항은 인식 가중치가 다양한 대안 적 표현에 할당 된 분포의 엔트로피이다. " 논문의 뒷부분에서 eqn # 5는 eqn # 8로 다시 쓰여지며 마지막 용어는 초기 확률 분포와 사후 확률 분포 사이의 Kullback-Leibler 분기로 설명됩니다. 이 논문은 "d에 동일한 확률을 할당하는 두 가지 생성 모델의 경우, )이 논문은 여전히이 특정 알고리즘에 대한 최소화 프로세스를 Kullback-Leibler 발산을 최소화하는 것으로 설명하지만, "대체 기술에 대한 엔트로피"라는 용어가 "크로스 엔트로피"로 단축 된 것처럼 보일 수 있습니다. TensorFlow를 사용하는 교차 엔트로피의 수치 예는 여기에 게시를 참조하십시오. )이 논문은 여전히이 특정 알고리즘에 대한 최소화 프로세스를 Kullback-Leibler 발산을 최소화하는 것으로 설명하지만, "대체 기술에 대한 엔트로피"라는 용어가 "크로스 엔트로피"로 단축 된 것처럼 보일 수 있습니다. TensorFlow를 사용하는 교차 엔트로피의 수치 예는 여기에 게시를 참조하십시오. /programming/41990250/what-is-cross-entropy CE = 0.47965의 해는 .619 확률의 자연 로그를 취함으로써 간단히 도출됩니다. 위의 예에서, "하나의 핫"인코딩의 사용은 교차 엔트로피에 대한 합산에서 0의 초기 확률에 의한 곱셈으로 인해 다른 2 개의 초기 및 후방 확률이 무시됨을 의미한다.


+1 맞을지도 모른다. 여러분은 1994 년이 크로스 엔트로피에 대한 현대적 정의의 기원이라고 말하고 있습니까?
Neil G
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.