전형적인 세트 컨셉


15

길이의 순서 : 나는 전형적인 세트의 개념은 꽤 직관적이라고 생각 n 전형적인 설정에 속하는 것 ( N ) ε 나오는 순서의 확률이 높았다합니다. 따라서 A ( n ) ϵ 일 가능성이있는 모든 시퀀스입니다 . (나는 그것을 정 성적으로 이해하려고하기 때문에 엔트로피와 관련된 공식적인 정의를 피하고 있습니다.)Aϵ(n)Aϵ(n)

그러나 일반적으로 가장 가능성이 높은 시퀀스는 일반적인 집합에 속하지 않는다는 것을 읽었습니다. 이것은 큰 시간을 혼란스럽게했다.

일반적인 세트에 대한 직관적 인 정의가 있습니까? 아니면 상식과 관련이없는 수학적 도구입니까?

답변:


13

나는 당신이 직관적 인 설명을 요구하고 공식적인 정의를 생략하도록 요구했지만, 그것들은 다소 관련이 있다고 생각하므로 전형적인 세트의 정의를 상기시켜 드리겠습니다.

X1,X2,...아르IID랜덤 변수 p(x) 다음 전형적인 세트 ( N ) ε 에 대하여 P ( X는 ) 시퀀스의 집합이다 ( X 1 , X 2 , . . . , X N ) χ N 특성과 2 - n ( H (Aϵ(n)p(x)(x1,x2,...,xn)χn

(1)2n(H(X)+ϵ)p(x1,x2,...,xn)2n(H(X)ϵ)
고정을위한 것으로 이러한 수단ϵ전형적인 세트는 모든 서열로 구성되는 그 확률은가까이2nH(X). 따라서 시퀀스가 ​​일반적인 집합에 속하기 위해서는 확률이2nH(X) 이지만 일반적으로 그렇지 않습니다. 이유를 이해하려면log2 를적용하여 방정식 1을 다시 작성하겠습니다.

(2)H(X)ϵ1nlog2(1p(x1,x2,...,xn))H(X)+ϵ

이제 전형적인 집합 정의는 엔트로피의 개념과 더 직접적으로 관련되거나 랜덤 변수의 평균 정보라는 다른 방법으로 언급됩니다. 중간 항은 시퀀스의 샘플 엔트로피로 생각할 수 있으므로 일반적인 세트는 랜덤 변수 X 의 평균 정보에 가까운 양의 정보를 제공하는 모든 시퀀스에 의해 이루어집니다 . 가장 가능성이 높은 순서는 일반적으로 평균보다 적은 정보를 제공합니다. 결과의 확률이 낮을수록 우리에게 제공하는 정보가 많아 질 것입니다. 왜 내가 예를 들어 주 었는지 이해하려면 :

24 ° C와 26 ° C 사이의 날씨가 맑고 따뜻할 가능성이 높은 도시에 살고 있다고 가정 해 봅시다. 매일 아침 날씨 보고서를 볼 수 있지만 그다지 신경 쓰지 않을 것입니다. 항상 맑고 따뜻합니다. 그러나 언젠가 날씨 남자 / 여자가 오늘 비가 내리고 추울 것이라고 말하면 그것은 게임 체인저입니다. 당신은 다른 옷을 입어야하고 우산을 가지고 평소에하지 않는 다른 일을해야하므로 날씨가 좋은 정보를주었습니다.

요약하면, 전형적인 세트의 직관적 정의는 소스 (임의 변수)의 예상되는 정보에 가까운 양의 정보를 제공하는 시퀀스로 구성된다는 것입니다.


1
... 또는 오히려 $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...
Cbhihe

좋아, 그러나 이런 식으로 정의 된 전형적인 세트의 목적은 무엇입니까? 이전에는 전형적인 집합의 개념을 만들어서 우리가 (1-\ eps) %의 사례를 "보장"하기 위해 필요한 가장 작은 시퀀스의 부분 집합을 가지게되었다고 생각했습니다. 이런 식으로 가장 가능성있는 순서를 취하는 것이 명백한 선택입니다. 내가 무엇을 놓치고 있습니까?
tomwesolowski

12

Diegobatt의 답변 은 일반적인 세트가 무엇인지 직관적으로 설명하는 데 효과적입니다. 이 답변은 OP의 다른 질문을 다루며 @tomwesolowski에 의해 반향됩니다. 왜 가장 가능성있는 요소를 제외 할 수있는 방식으로 일반적인 집합을 정의 하시겠습니까?

짧은 대답은 일반적인 집합 이 주로 수학 도구라는 것입니다. 그것은 무언가를 증명하기 위해 정의되었으며,이 정의는 증명에 가장 편리한 정의입니다. 이론적 요구가 때때로 수학의 직관적 선호를 능가하는 방법에 대한 좋은 예입니다.

전형적인 세트의 아버지에 의해 정의 된 정보 이론 , 클로드 섀넌 . 그는 각 기호가 일부 분포 의 iid 무작위 샘플 이라고 가정하고 고정 알파벳의 기호 스트림을 얼마나 효율적으로 인코딩 할 수 있는지 결정하려고했습니다 . 그의 주요 통찰력은 다음과 같습니다.

  1. 스트림에서 불균형하게 자주 나타나는 쉽게 식별 할 수 있고 상대적으로 작은 "일반적인"시퀀스 집합이 있습니다.
  2. 이 "일반적인"시퀀스 시퀀스를 할당하면 가장 짧은 인코딩 으로 최적의 효율적인 인코딩이 생성됩니다 (스트림의 출력이 임의로 길어짐에 따라).

Shannon이 발견 한 전형적인 세트는 자체 정보 또는 "놀라움" 이 스트림의 소스 분포에 대해 평균적으로 예상되는 자체 정보와 거의 동일한 시퀀스로 정확하게 구성 됩니다. 이러한 서열은 그들의 정보가 평균이라는 의미에서 "전형적"이지만,이 정의는 평균보다 상당히 적은 정보를 갖는 서열을 암시 적으로 배제한다. 이 정보가 적은 시퀀스도 가장 가능성이 높은 시퀀스입니다.

OP가 지적했듯이 이것은 직관적으로 매력적이지 않습니다! 얼굴에는 전형적인 세트 사운드가 가장 가능성이 높은 시퀀스를 일부 임계 값까지 포함해야합니다. 그것은 스트림에서 일반적으로 보이는 것을 더 잘 나타낼 것입니다.

그러나 Shannon은 가장 "전형적인"가능한 전형적인 세트를 원하지 않았다. 그는 자신 이 증명하고자하는 결과를 쉽게 증명할 수있는 것을 원했습니다. Shannon이 정의한 일반적인 세트는 존재 함을 보장하고, 작은 크기를 보장하며, 이 답변이 지적한 대로 제안 할 수있는 다른 세트만큼 작게 보장 됩니다. 가장 가능성이 높은 요소를 추가하면 세트가 더 가능성이 높아지지만 세트가 더 커져서 나빠집니다. 당신이 걱정하는 모든 것이 당신의 증거를 얻는 것이라면, 왜 깨지지 않은 것을 고치겠습니까?

Shannon과 다른 목표를 가지고 있다면 선호하는 전형적인 개념도 다를 수 있습니다. 예를 들어, 허프만 코딩 에서 가장 가능성이 높은 심볼 (또는 심볼 시퀀스)은 가장 짧은 코드를 얻습니다. 특정 기술적 인 의미에서 허프만 코딩은 Shannon의 원래 문제에 대한 최적의 솔루션이며, 전형적인 특성에 대한 직관을보다 잘 포착합니다. 반면에 Shannon의 전형적인 정의는 사물을 증명하는 데 더 편리합니다.


1
탁월한 추론과 직무와 정의 사이의 격차를 해결하는 일에 대한 전문가. 나는이 차이가 일상 생활에서 언어의 단점으로 인해 발생 말할 것입니다 일반평균은 일반적으로 동일한 것을 의미하지만, 통계의 관점에서, (확률의 의미, 즉 모드) 전형적인 반드시 평균과 동일하지 않습니다 즉, 예상 값입니다.
Emil

그러나 한 가지 질문은, 정의에서 "평균보다 상당히 적은 정보"를 갖는 서열을 배제한다고 말할 때, 하한과 상한이 각각 있기 때문에 "상당히 더 적거나 더 많지 않아야"합니다. H(엑스)εH(엑스)+ε?
Emil

@Emil, 나는 저자가 이런 식으로 말했다고 가정한다. 왜냐하면 우리는 모두 더 많은 정보를 가지고있는 시퀀스는 전형적인 집합에 포함되어서는 안된다는 데 동의했기 때문이다.
tomwesolowski

1

일반적인 세트에 대한 아이디어는 결과 시퀀스를 다중 세트로 암시 적으로 처리합니다. 즉, 각 시퀀스의 히스토그램에 관심이 있다고 가정합니다. 예를 들어 7 개의 헤드와 3 개의 꼬리가있는 10 개의 코인 토스 시퀀스를 동등한 것으로 간주합니다.

매우 치우친 동전이 있다고 상상해보십시오. (H)=.9. 이것은 이항 분포입니다. 가장 가능성있는 100 토스 시퀀스는 100 헤드이지만 1100 헤드 시퀀스 만 있습니다. 10 개의 꼬리를 포함하는 기하 급수적으로 더 많은 시퀀스가 ​​있지만 이것들은 개별적으로 훨씬 덜 가능성이 있습니다. 가장 큰 수의 시퀀스는 반 머리와 반 꼬리가 있지만, 그 가능성은 훨씬 적습니다. 따라서 개별 서열의 확률과 클래스의 등가 서열의 수 사이에는 긴장이 있습니다. 시퀀스의 빈도가 확률과 일치하면 최대 확률에 도달합니다.

중요한 결과는 충분히 긴 시퀀스의 경우 거의 모든 샘플링 된 시퀀스가 ​​예상 주파수에 가깝게 임의적 일 수 있다는 것입니다.

예를 들어 관찰 105 시퀀스를 던지기 (H)=.9 동전은 104+/300 시퀀스에서 꼬리 수에 대한 표준 편차는 약 100 %이므로 시간의 99 %가됩니다. 가장 가능성이 높은 특정 시퀀스 임에도 불구하고 모든 헤드의 확률은 무시할 수 있습니다.

전형적인 아이디어는이 아이디어의 이론적으로 정의 된보다 일반적인 정보입니다.


0

이 강의 노트의 정리 6.3에 따르면 확률이 가장 높은 시퀀스 또는 확률에 가까운 시퀀스의 하위 집합을 취하더라도 상관없이2H(엑스) (일반 세트에서) 우리는 대략 2H선택한 부분 집합에 확률이 높은 임의의 순서가 포함되도록합니다. 우리는 일반적으로 크기를 더 쉽게 묶을 수 있기 때문에 일반적인 집합 요소를 사용합니다.


1
이것이 "일반 세트의 직관적 정의"에 대한 요청을 어떻게 해결하는지 설명해 주시겠습니까?
whuber

I'm not sure, but it meant to address "However, I've read that, in general, the most likely sequence doesn't belong to the typical set. This confused me big time." part of question :)
tomwesolowski
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.