여기서 중심 개념은 Kolmogorov 복잡성 , 특히 압축성 입니다. 압축성의 직관적 인 느낌을 얻으려면, 두 개의 문자열을 고려 ∈ B * 및 B ∈ B * 여기서 B = { 0 , 1 } . 허락하다A∈B∗B∈B∗B={0,1}
1010 1010 1010 이고A=1010 1010 1010 1010
0110 0111 1001 .B=1011 0110 0111 1001
그 주 . A 또는 B에 얼마나 많은 정보가 있는지 어떻게 정량화 할 수 있습니까? 고전적인 정보 이론에 대해 생각하면 일반적으로 길이가 n 인 문자열을 전송하는 데 평균 n 비트 가 걸립니다 . 그러나 길이 n 의 특정 문자열 을 전송하는 데 필요한 비트 수는 말할 수 없습니다 .|A|=|B|=16ABnnn
임의 문자열의 정보 내용이 0이 아닌 이유는 무엇입니까?
자세히 보면 실제로 것을 알 수 있습니다 . 그러나,이 경우 말을 훨씬 어렵 B가 이 적어도, 그 구조에 명백한 패턴이 보인다 그리고 느낌 보다 더 무작위 . 우리가 패턴으로 발견 할 수 있기 때문에 을 우리는 쉽게 압축 할 을 이하와 그것을 나타내는 16 비트. 마찬가지로 B의 패턴을 찾기가 쉽지 않기 때문에 많이 압축 할 수 없습니다. 따라서 B 는 A 보다 많은 정보를 가지고 있다고 말할 수 있습니다 . 또한 길이 n 의 임의 문자열A=108BAAA16BBAn압축 할 수있는 방법이 없기 때문에 최대 정보를 가지므로 비트 미만으로 표현할 수 있습니다.n
그렇다면 유용한 정보는 무엇입니까?
대한 유용한 정보 , 예, 튜링 기계를 사용하여 정의가 . x ∈ B ∗ 의 유용한 정보 는Tx∈B∗
minT { l(T)+C(x|T):T∈{T0,T1,...}},
여기서 는 튜링 머신 T에 대한 자체 제한 인코딩의 길이를 나타냅니다 . 표기법 것이 보통이다 C ( X가 ) 의 콜 모고 로프 복잡도 나타내고, X 및 C ( X | Y ) 의 조건부 콜 모고 로프 복잡도 X 주어진 y로 .l(T)TC(x)xC(x|y)xy
여기서 는 x에 포함 된 유용한 정보의 양을 구현합니다 . 우리가 요구할 수있는 것은 그러한 T 가 요구 사항을 충족하는 것 중에서 어떤 것을 선택해야 하는가입니다. 문제는 짧은 프로그램 분리하는 X * 부분에 X * = P의 Q 번째 P는 적절한 나타내는 T를 . 이것은 실제로 MDL (Minimum Description Length) 을 생성 한 아이디어입니다 .TxTx∗x∗=pqpT