딥 러닝에서 MLE와 교차 엔트로피의 연결은 얼마나 의미가 있습니까?


12

독립적 인 관측치 이 주어진 것으로 알고 최우 추정기 (또는 평면과 등가의 MAP / 균일 종래)인지 식별 파라미터 \ mathbf {θ} 모델 분포 생성 P_ {모델} \ 이러한 관측치와 가장 일치하는 left (\, \ cdot \,; \ mathbf {θ} \ right)O = { O ( 1 ) , . . . , o ( m ) }mO={o(1),...,o(m)}θpmodel(;θ)

θML(O)=pmodel(O;θ)=argmaxθi=1mpmodel(o(i);θ)

또는 더 편리하게

θML(O)=argminθi=1mlogpmodel(o(i);θ)

그리고 그 역할 참조 θML 멀티 클래스에 대한 깊은 신경 네트워크를 손실 함수를 정의에서 재생할 수있는 θ 하여 네트워크의 학습 가능한 매개 변수 (예를 들어,에 해당하는 θ={W,b}) 관측 값은 입력 활성화 쌍 x 및 해당하는 올바른 클래스 레이블 y[1,k] , o(i) = { x(i),y(i) }

pmodel(o(i);θ)pmodel(y(i)|x(i);θ)


내가 이해하지 못하는 것은 이것이 (벡터화 된) 올바른 출력 \ mathbf {y} ^ {(i)}의 소위 "교차 엔트로피" y(i)a(x(i);θ)

H(o(i);θ)=y(i)loga(x(i);θ)
훈련 기간 동안 오류 / 손실을 측정 할 때의 실제 사용 . 몇 가지 관련 문제가 있습니다.


"확률로"활성화

MLE과 교차 엔트로피 간의 관계를 설정하는 단계 중 하나는 출력 활성화를 "있는 것처럼"사용하는 것입니다. 그러나 그들이 또는 적어도 그들이 모두 있다는 것은 분명하지 않습니다 all.

훈련 오류를 계산할 때, 특히 "교차 엔트로피 손실"이라고 부를 때 (활성화를 정규화 한 후 1로 합산)

(1)pmodel(o(i);θ)ay(i)(x(i);θ)

또는

logpmodel(o(i);θ)=logay(i)(x(i);θ)

우리가 쓸 수 있도록

(3)logpmodel(o(i);θ)=y(i)loga(x(i);θ)

따라서

θML(O)=argminθi=1mH(o(i);θ)

그러나 이것은 확실히 확률을 만들지 만 (물론 어느 정도까지) 다른 활성화에는 제한이 없습니다.ay(i)(x(i);θML)

이 경우 실제로 PMF라고 할 수 있습니까? 가 실제로 확률이 아니며 단순히 "좋아요" 만드는 것이 있습니까? )?ay(i)(x(i);θML)ay(i)(x(i);θML)


분류에 대한 제한

MLE와 교차 엔트로피를 동일시하는 위의 중요한 단계 는 (단일 레이블) 멀티 클래스 학습 문제를 특징 짓는 의 "one-hot"구조에 전적으로 의존합니다 . 대한 다른 구조 는 에서 하는 것을 불가능하게합니다 .y(i)y(i)(1)(3)

MLE 및 교차 엔트로피 최소화 방정식이 이 "일대일"인 경우로 제한됩니까? y(i)


다른 훈련 및 예측 확률

예측하는 동안 거의 항상

(2)pmodel(y(i)|x(i);θ)P(argmaxj[1,k]aj(x(i);θ)=y(i))

신뢰할 수있는 경우가 아니라면 훈련 중에 배운 확률과 다른 정확한 예측 확률이 발생합니다.

ay(i)(x(i);θML)=P(argmaxj[1,k]aj(x(i);θML)=y(i))

이 사건이 확실합니까? 적어도 대략 사실일까요? 또는 레이블 위치에서 학습 된 활성화 의이 방정식을 정당화하는 다른 주장 이 있습니까? 학습 된 활성화 의 최대 값 이 발생할 가능성이 있습니까?


엔트로피와 정보 이론

위의 문제가 해결되고 활성화가 유효한 PMF (또는 이와 같이 의미있는 것으로 취급 될 수 있음)라고 가정하더라도 계산 에서 교차 엔트로피가 수행하는 역할 은 문제가되지 않습니다. Shanon 엔트로피 가 특정에 적용되기 때문에 의 엔트로피에 대해 이야기하는 것이 왜 도움이되거나 의미가 있는가 어떤 인코딩 네트워크 훈련에 사용되는 하나하지 않다.θMLa(x(i);θML)

정보 이론적 엔트로피는 (MLE에 해당하는) 하나를 계산하기위한 도구를 단순히 크로스 엔트로피 형태로 제공하는 것과는 달리 비용 함수를 해석하는 데 어떤 역할을합니까?

답변:


5

신경망은 반드시 확률을 산출물로 제공 할 필요는 없지만이를 수행하도록 설계 될 수 있습니다. 확률로 해석하려면 값 집합이 음수가 아니고 1로 합산되어야합니다. 확률을 출력하기 위해 네트워크를 설계하는 것은 일반적으로 이러한 제약을 부과하는 출력 계층을 선택하는 것입니다. 예를 들어, 함께 분류 문제에서 클래스 공통 선택은 인 이 softmax 과 출력층 단위. softmax 함수는 출력이 음이 아니고 1이되도록합니다. 출력 부 번째 클래스는 확률 범 . 이진 분류 문제의 경우 또 다른 대중적인 선택은 물류 와 함께 단일 출력 장치를 사용하는 것입니다kkjj활성화 기능. 로지스틱 함수의 출력은 0과 1 사이이며 클래스가 1 일 확률을 제공합니다. 클래스가 0 일 확률은 암시 적으로 1에서이 값을 뺀 값입니다. 네트워크에 숨겨진 계층이없는 경우이 두 예는 각각 다항 로지스틱 회귀로지스틱 회귀 와 같습니다 .

교차 엔트로피 는 두 확률 분포 와 사이의 차이를 측정합니다 . 교차 엔트로피가 식별 분류기의 손실 함수로 사용되는 경우 및 는 입력 (예 : 특정 데이터 포인트)이 주어지면 클래스 레이블에 대한 분포입니다. 는 '참'분포이고 는 모형에 의해 예측 된 분포입니다. 일반적인 분류 문제에서 데이터 집합의 각 입력은 실제 클래스를 나타내는 정수 레이블과 연결됩니다. 이 경우, 우리 는 대한 경험적 분포 를 사용합니다H(p,q)pqpqpqp. 이것은 단순히 확률 1을 데이터 포인트의 실제 클래스에 할당하고 확률 0을 다른 모든 클래스에 할당합니다. 는 네트워크에 의해 예측 된 클래스 확률의 분포이다 (예를 들어, 전술 한 바와 같이).q

데이터가 iid이고 는 경험적 분포이고 는 예측 된 분포 ( 번째 데이터 포인트)입니다. 그런 다음, 교차 엔트로피 손실을 최소화하는 것 (즉 데이터 포인트에 대해 평균화 된 )은 데이터의 가능성을 최대화하는 것과 같습니다. 증거는 비교적 간단합니다. 기본 아이디어는 교차 엔트로피 손실이 데이터 포인트의 음의 로그 예측 확률의 합에 비례한다는 것을 보여줍니다. 이것은 경험적 분포의 형태 때문에 깔끔하게 나옵니다.piqiiH(pi,qi)

교차 엔트로피 손실이 더 일반적으로 적용될 수 있습니다. 예를 들어, '소프트 분류'문제에서는 하드 클래스 레이블이 아닌 클래스 레이블에 대한 분포가 제공되므로 경험적 분포를 사용하지 않습니다. 그 경우에 교차 엔트로피 손실을 사용하는 방법에 대해 설명합니다 여기 .

질문에서 다른 특정 사항을 해결하려면 :

다른 훈련 및 예측 확률

활성화가 최대 인 출력 장치를 찾아이를 클래스 레이블과 비교하는 것 같습니다. 교차 엔트로피 손실을 사용하는 훈련에는 적용되지 않습니다. 대신 모형에 의해 산출 된 확률은 '실제'확률 (일반적으로 경험적 분포로 간주)과 비교됩니다.

Shanon 엔트로피는 특정 종류의 인코딩에 적용되는데, 이는 네트워크 교육에 사용되지 않습니다.

교차 엔트로피 는 분포 최적 코드를 사용하는 경우 실제 분포 에서 가져온 이벤트를 인코딩하는 데 필요한 메시지 당 평균 비트 수 (평균)로 해석 될 수 있습니다 . 크로스 엔트로피가 최소의 값을 취 (샤논은 엔트로피 시) . 와 의 일치가 좋을수록H(p,q)pqH(p)pq=pqp메시지 길이가 짧습니다. 교차 엔트로피를 최소화하기 위해 모델을 훈련시키는 것은 실제 분포를 더 잘 근사하도록 훈련시키는 것으로 볼 수 있습니다. 우리가 논의한 것과 같은지도 학습 문제에서, 모델은 입력에 따라 가능한 출력에 대한 확률 분포를 제공합니다. 배포를위한 최적의 코드를 명시 적으로 찾는 것은 프로세스의 일부가 아닙니다.


"교차 엔트로피 손실을 이용한 훈련에는 적용되지 않습니다." 이것은 정확히 TensorFlow와 같은 API가하는 softmax_cross_entropy_with_logits것입니다 : 따라서 은 확률을 생성하도록 (적어도 레이블 위치에서) 생성되도록 설계된 네트워크를 정의합니다. 아니? θ M L ( O )argminθi=1mH(o(i);θ)θML(O)
orome

예, 교차 엔트로피가 최소화되고 가능성이 최대화됩니다 (적어도 로컬로). 그 문장에서 나는 "다른 훈련과 예측 확률"섹션의 방정식을 언급하고있었습니다. 다시 한번 살펴보면, 당신이 그 방정식의 의미를 정확히 알지 못하기 때문에 나는 이것을 이렇게 말할 것입니다 : 각 단위가 클래스 확률 (예 : softmax)을 제공하는 출력 레이어를 사용하는 경우. 모델 확률은 훈련 및 예측 중에 동일합니다. pmodel(y(i)=jx(i);θ)=aj(x(i);θ)
user20160

동일한 값이 사용됩니다 . 즉 학습 된 가 예측에 사용되지만 다른 방식으로 사용됩니다. 모형이 대해 학습 할 확률 은 실제로 이지만 훈련 된 모델에서 을 예측할 확률 동일한 입력에 대한 응답으로 는 . (2)에 해당하지 않는 한 동일하지 않습니다. p m o d e l ( y ( i ) | x ( i ) ; θ M L ) a y ( i ) ( x ( i ) ; θ M L ) y ( i ) x ( i ) P ( arg max j [ 1 , k ]apmodel(y(i)|x(i);θML)ay(i)(x(i);θML)y(i)x(i)P(argmaxj[1,k]aj(x(i);θML)=y(i))
orome

그리고 (첫 번째 질문) 나는 역할 때문에 eq. (1) 최대화 에서 , 값 확률입니다. softmax의 1)에 추가 될 것입니다. 그러나 다른 에는 제약이 없습니다 . ( 합계 이외 ) 따라서 구멍으로 이 어떻게 PMF로 간주 될 수 있는지 알 수 없습니다. p m o d e l ( O ; θ ) a y ( i ) ( x ( i ) ; θ M L ) a j j y ( i ) 1 - a y ( i ) a ( x ( i ) ;ay(i)(x(i);θ)pmodel(O;θ)ay(i)(x(i);θML)ajjy(i)1ay(i)a(x(i);θML)
orome

첫 번째 질문을 지적하는 또 다른 방법은 만이 ML 프로세스에 참여하므로 확률로 간주 될 수 있다는 것입니다. 그리고 적절한 활성화 기능 (예 : softmax)은 나머지 활성화 의 이 확률이 되도록 보장하지만 , 이들 간의 관계는 의미가 없습니다. ay(i)
orome

3

NN 결과를 확률 분포로 간주 할 수있는 방법,시기 및 이유의 특성에 대해 좀 더 일반적인 관점에서 대답하겠습니다.

softmax를 출력이 1로 합산 또한 음이 아닌 것으로 적용한다는 점에서, 네트워크의 출력 클래스 위에 이산 확률 분포 또는 적어도 이와 같이 해석 될 수있다. 따라서 교차 항목 및 최대 가능성에 대해 이야기하는 것이 완벽하게 합리적입니다.

그러나, 당신이보고 있다고 생각하는 것은 (그리고 맞습니다), 출력 "확률"은 실제 정확성 확률과 관련이 없을 수 있다는 것 입니다. 이것은 ML에서 잘 알려진 문제인 캘리브레이션 이라고 합니다 . 예를 들어, 귀하의 분류 개 고양이 말한다 , 당신은 당신이 예제의 집합했다 경우 것으로 기대 모두 가지고있는 (단지 70 % 확신 때문에), 그 입력의 약 30 %가 잘못 분류된다. D C f θ ( x i , C ) = P ( x i = C | θ ) = 0.7 S = { x j } P ( x j = C | θ ) = 0.7fθDCfθ(xi,C)=P(xi=C|θ)=0.7S={xj} P(xj=C|θ)=0.7

그러나 현대의 훈련 방법으로는이를 전혀 시행하지 않는 것으로 나타났습니다! 이에 대한 논의를 보려면 Guo et al., 현대 신경 네트워크의 교정 에서 참조하십시오.

다시 말해, softmax의 출력의 "확률"은 실제 모델 신뢰도와 아무런 관련 이 없을 수 있습니다 . 그리고 이것은 놀라운 일이 아닙니다. 우리는 단지 정확도를 극대화하기를 원하며 모든 입력 예는 목표 클래스가 될 확률이 1입니다. 이것을 올바르게하기 위해 모델에 인센티브를주는 것은 거의 없습니다. 불확실성을 추정 할 필요가 없다면 왜해야합니까? 교차 엔트로피는이 문제를 해결하지 않습니다. 실제로, 매번 델타 함수로 가라고 말하고 있습니다!

베이지안 신경망에 대한 많은 최근 연구가이 문제를 해결하기 위해 노력하고 있습니다. 이러한 모델은 데이터 모수에 대한 분포를 사용하며, 실제 확률 분포 . 이는 유용한 불확실성 측정과 더 나은 교정을 보장합니다. 그러나 계산 상 문제가 더 많습니다.P ( Y I | X I , X ) = P ( Y I | θ , X I ) P ( θ | X )P(θ|X)=P(X|θ)P(θ)/P(X)P(yi|xi,X)=P(yi|θ,xi)P(θ|X)dθ

잘만되면 나는 당신의 질문을 오해하지 않았다!


좋은 관련 작업 : arxiv.org/abs/1711.01297
user3658307

0

피드 포워드 신경망은 제대로 훈련되었을 때 진정한 클래스 확률과 비슷합니다.

1991 년 Richard & Lippmann은 피드 포워드 신경망이 {0,1} 클래스 표시기 목표 패턴으로 훈련 될 때 사후 클래스 확률에 접근한다는 것을 증명했습니다 [ Richard MD, & Lippmann RP (1991). 신경망 분류기는 베이지안의 사후 확률을 추정합니다. 신경 계산, 3, 461-483 .]. 증명 라인에서, 그들은 숨겨 지은 한 층 피드 포워드 신경망을 사용합니다.

Duda & Hart [ Duda RO & Hart PE (1973) 패턴 분류 및 장면 분석, Wiley ] 의 수학적 주석 에서 피드 포워드 신경망에 입력 벡터로 제공되는 피처 분포를 , 예를 들어, 데이터 벡터는 동일 , (4) 기능 변수 분류 작업. 인덱스 는 가능한 클래스, 냅니다.x = ( 0.2 , 10.2 , 0 , 2 ) i n i { 1 , , n }P(xωi)x=(0.2,10.2,0,2)ini{1,,n}

피드 포워드 신경망 분류기는 그라디언트 디센트에 의해 훈련 될 때 사후 확률 학습합니다 . 원하는 출력 패턴 은 예들어 2 클래스 분류 문제의 경우 이어야 합니다. 피드 포워드 신경망에는 클래스 당 하나의 출력 노드가 있습니다. 벡터 는 관찰 된 특징 벡터가 2 '클래스에 속하는 것을 나타낸다. o =(0,1)(0,1)P^(ωix)o=(0,1)(0,1)


그것은 질문이 아닙니다.
orome

0

로그 우도는 질문의 맥락에서 엔트로피와 직접 연결되지 않습니다. 유사성은 피상적입니다. 둘 다 확률과 비슷한 양의 로그의 합을가집니다.

로그 우도 (MLE)의 로그는 수치 계산을 위해 순수하게 수행됩니다. 확률의 곱은 특히 표본이 큰 경우 매우 적을 수 있습니다. 그런 다음 가능성의 범위는 1에서 사라지는 작은 제품 가치로 이동합니다. 로그를 가져 오면 제품은 합계가되고 로그 함수는 값의 범위를보다 관리하기 쉬운 도메인으로 압축합니다. 로그는 단조 함수이므로 로그 우도의 최대 (최소)는 우도 자체에 대해 동일한 해답을 생성합니다. 따라서 MLE 표현에 로그가 존재하는 것은 수학적 의미에서 중요하지 않으며 단순히 편의의 문제입니다.

엔트로피에 로그 함수가 존재하는 것이보다 실질적이며 물리학의 한 가지 인 통계 역학에 뿌리를두고 있습니다. 가스 이론에 사용되는 볼츠만 분포 와 연결되어 있습니다. 예를 들어, 기압을 사용하여 기압을 고도의 함수로 도출 할 수 있습니다.


이것이 질문의 어떤 부분을 강조 할 수 있습니까?
orome

OP에서 말했듯이 MLE를 표현하는 두 번째 방법으로 로그를 사용하는 것이 단지 편의 (첫 번째 두 단락)라는 것이 분명합니다. 그리고 마지막 단락은 엔트로피 표현에서 로그의 존재 가 엔트로피 (특히 물리학) 맥락에서 의미가 있다고 말합니다 . 그러나 누락 된 것은 (이것이 문제입니다)이 두 가지 (그리고 진실한) 관찰을 연결하기위한 정당성입니다. 나는 MLE에 대한 두 번째 방정식을 표현하는 유용한 방법 인 (3) 이후의 방정식 이외의 것을 보지 못합니다. 아마도 그것이 당신이 말하는 것입니까?
orome

@orome, 물론 엔트로피를 계산하도록 NN을 만들 수는 있지만, 대부분의 경우 교차 엔트로피 기능이 실제로 사용되는 방식은 아닙니다. 그것을 다른 종류의 비용 함수로 생각할 수 있습니다. 그게 전부입니다. 원하는 속성을 가진 것으로 보이며 대칭입니다.
Aksakal

예, 엔트로피라고 부르거나 의미 혼란 ( "엔트로피"가 통찰력을 제공하는)은 오도의 소지가있다 . ay(i)(x(i);θML)
orome

@orome, 나는 그 이름에 집착하지 않을 것입니다. "힌지 손실"기능은 경첩과 거의 관련이 없습니다. 기능적 형태는 정보 엔트로피 방정식과 정확히 같기 때문에이를 "엔트로피 손실"이라고합니다.
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.