당황이란 무엇입니까?


42

I는 용어 우연히 혼란 보이지 않는 데이터의 로그 평균 역 확률을 말한다. 난이도 에 대한 Wikipedia 기사 는 동일한 의미를 나타내지 않습니다.

난이도 측정은 pLSA 용지 에 사용되었습니다 .

누구든지 당혹 성 측정 의 필요성과 직관적 의미를 설명 할 수 있습니까 ?


pLSA의 난이도를 어떻게 계산합니까? 카운트가 있는 데이터 매트릭스 가 있으며 TEM 알고리즘으로 및 가 계산됩니다. p ( d ) p ( w | d )Xp(d)p(w|d)
수강생

3
나는 Nisbett, Larose, Witten, Torgo 및 Shemueli (및 공동 저자)가 작성한 5 개의 데이터 마이닝 / 기계 학습 / 예측 분석 서적의 색인을 확인 했으며이 용어는 그중 어느 것도 발생하지 않습니다. 난 당황 :)
zbicyclist

1
당혹감은 불확실성의 또 다른 멋진 이름입니다. 외부 평가에 대한 내재 평가로 간주 될 수 있습니다. Jan Jurafsky는 youtube.com/watch?v=BAN3NB_SNHY
bicepjai에서

2
@zbicyclist, 야생에서 예제를 찾고 있다면 NLP에서 특히 흔하며 특히 언어 모델과 같은 것들의 평가에 사용됩니다.
Matt Krause

일부 필드에서 (예를 들어 경제학) 사람들이 번호에 대해 해당하는 이야기 그래서 예를 들어 여기서 자연 로그를 기반으로 엔트로피가 동등하게 일반적인 범주의 해당 번호입니다. 따라서 확률이 0.5 인 엔트로피가 인 두 개의 범주 와 지수가 같은 공통 범주의 수로 2를 다시 얻습니다. 같지 않은 확률의 경우 동등한 숫자는 일반적으로 정수가 아닙니다. H ln 2exp(H)Hln2
Nick Cox

답변:


21

난이도에 대한 Wikipedia 기사를 살펴 보았습니다 . 그것은 이산 분포의 혼란을

2xp(x)log2p(x)

이것은 또한 다음과 같이 쓸 수 있습니다

exp(xp(x)loge1p(x))

즉, 확률 역의 가중 기하 평균으로서. 연속 분포의 경우 합은 적분으로 바뀝니다.

이 기사는 또한 조각의 테스트 데이터를 사용하여 모델의 복잡성을 추정하는 방법을 제공N

2i=1N1Nlog2q(xi)

이것도 쓸 수 있습니다

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

또는 다른 다양한 방법으로, "로그 평균 역 확률"이 나오는 곳이 더 명확해야합니다.


e가 2가 아닌 지수로 사용되는 경우에는 특별한 차이점이 있습니까?
Henry E

2
@HenryE : 아니요, 공통 대수 진수 도 작동합니다. 서로 다른 염기의 대수는 서로 비례하며 명확하게a 로그 a x = b 로그 b x10alogax=blogbx
Henry

나는 많이 생각했다. 이전에 보았던 다른 모든 공식이 2를 사용했을 때 코드 조각이 e를 사용하여 난이도를 계산 한 이유를 이해하려고 할 때이 대답을 보았습니다. 지금 프레임 워크의 가치를 아는 것이 얼마나 중요한지 깨달았습니다. 로그 손실 계산의 기초로 사용
Henry E

27

나는 이것이 다소 직관적이라는 것을 알았다.

평가하고있는 데이터, 평가하고있는 데이터에 대한 난처함은 "이것은 x- 사이드 다이만큼 자주 옳다"고 말합니다.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


흥미로운 기사입니다. 아마도 깊이가 아니라 입문이 좋을 것입니다.
Monica Heddneck

1
또한이 문서 도움이 발견 jamesmccaffrey.wordpress.com/2016/08/16/...
user2561747

11

나는 이것도 궁금했다. 첫 번째 설명은 나쁘지 않지만 여기에 가치가있는 두 가지 nats가 있습니다.


우선, 당혹감은 당신이 옳은 일을 얼마나 자주 추측 하는지를 특성화하는 것과는 아무런 관련이 없습니다. 확률 적 시퀀스의 복잡성을 특성화하는 것과 더 관련이 있습니다.

수량을보고 있습니다.

2xp(x)log2p(x)

먼저 로그와 지수를 취소합시다.

2xp(x)log2p(x)=1xp(x)p(x)

난이도는 엔트로피를 정의하는 데 사용하는 기준에 따라 변하지 않는다는 점을 지적 할 가치가 있다고 생각합니다. 따라서 이러한 의미에서 당황은 측정으로서 엔트로피보다 훨씬 더 독특하고 덜 임의적입니다.

주사위와의 관계

이것으로 조금 놀아 보자. 동전을보고 있다고 가정 해 봅시다. 코인이 공정 할 때 엔트로피는 최대이고, 난도는 최대

11212×1212=2

이제 우리는 면 주사위를 볼 때 어떻게됩니까 ? 당황은N

1(1N1N)N=N

따라서 당황은 굴러 올 때 주어진 확률 분포와 동일한 엔트로피를 갖는 시퀀스를 생성하는 공정한 주사위의 변의 수를 나타냅니다.

국가 수

자, 우리는 당혹 성을 직관적으로 정의 했으므로 모델의 상태 수에 의해 어떻게 영향을 받는지 살펴 보겠습니다. 상태에 대한 확률 분포로 시작 하고 원래 상태 의 가능성 비율이 동일하게 유지되고 새로운 상태에 확률 이 되도록 상태에 대한 새로운 확률 분포를 만들어 봅시다 . 공정한 면 다이 로 시작하는 경우 , 새로운면이 과 원래 롤링되도록 새로운 면 다이를 만드는 것을 상상할 수 있습니다NN+1NϵNN+1ϵN변이 같은 가능성으로 굴러갑니다. 각 상태의 확률이한다면 임의 원래 확률 분포의 경우에는, 로 주어진다 원래의 새로운 유통 새로운 상태가 될 것이다 주어진 상태들을 이며 새로운 난관은 다음과 같이 주어집니다.xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

으로 제한하면 이 수량은ϵ0

1xNpxpx

따라서 다이의 한쪽을 구르는 것을 점점 더 어렵게 만들면 측면이 존재하지 않는 것처럼 혼란이 생깁니다.


3
확실히 그것은 ~ 1.39 nats 가치가 있습니까?
매트 크라우스

당신은 당신이 얼마나 정교한 ? I 만 할 수
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
user2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades

5

Cover의 Information Theory 2ed (2.146)에 의해 주어진 분포에서 값을 정확하게 추측 할 확률과 당혹 성과는 분명하게 관련되어 있습니다. 와 가 iid 변수이면XX

P(X=X)2H(X)=12H(X)=1perplexity (1)

설명하자면, 균일 분포 X의 당혹 성은 요소의 수인 | X |입니다. 균일 분포 X에서 iid 샘플이 X에서 iid 추측을 수행하여 가져 오는 값을 추측하려고하면 시간의 1 / | X | = 1 / 복잡성이 정확합니다. 균일 분포는 값을 추측하기가 가장 어렵 기 때문에 1 / 복잡도를 추측이 옳은 빈도에 대한 하한 / 휴리스틱 근사치로 사용할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.