Cross Validated의 많은 트롤링 후에도 여전히 정보 이론의 영역 밖에서 KL 분기를 이해하는 것에 더 가깝다고 느끼지 않습니다. 정보 이론 설명을 이해하기가 훨씬 쉬운 수학 배경을 가진 사람에게는 다소 이상합니다.
정보 이론 배경에서 내 이해를 간략하게 설명하려면 : 한정된 수의 결과를 갖는 임의의 변수가있는 경우 평균적으로 가장 짧은 메시지를 가지고 다른 사람과 결과를 전달할 수있는 최적의 인코딩이 있습니다 (이것이 가장 쉬운 방법입니다) 비트 측면에서 그림). 최적의 인코딩이 사용되는 경우 결과를 전달하는 데 필요한 메시지의 예상 길이는 로 제공됩니다. 하위 최적 인코딩을 사용하는 경우 KL 분기는 메시지의 평균 수명을 평균적으로 알려줍니다.
KL 발산의 비대칭 성을 직관적으로 다루기 때문에이 설명이 마음에 듭니다. 서로 다른로드가있는 두 개의 다른 시스템, 즉 두 개의로드 된 코인이있는 경우 서로 다른 최적의 인코딩을 갖습니다. 나는 첫 번째 시스템의 두 번째 시스템 인코딩을 사용하는 것이 두 번째 시스템의 첫 번째 시스템 인코딩을 사용하는 것이 "똑같이 나쁘다"고 본능적으로 느끼지 않습니다. 내가 어떻게 확신했는지에 대한 사고 과정을 거치지 않고 이제 의 인코딩을 사용할 때 는이 "추가 예상 메시지 길이"를 제공합니다 .q p
그러나 Wikipedia를 포함하여 KL 분기의 대부분의 정의는 우리가 두 개의 이산 확률을 갖는 경우 (이를 이산 용어로 유지하여 비트가 이산 일 때 이산 용어에서 훨씬 더 잘 작동하는 정보 이론 해석과 비교할 수 있도록) KL은 "얼마나 다른지"에 대한 통계를 제공합니다. 이 두 개념이 어떻게 관련되어 있는지에 대한 단일 설명은 아직 보지 못했습니다. Dave Mackay는 추론에 관한 그의 저서에서 데이터 압축과 추론이 기본적으로 어떻게 같은지에 대해 지적하며 내 질문이 실제로 이와 관련이 있다고 생각합니다.
그것이 있는지 아닌지에 관계없이, 내가 염두에 둔 질문은 추론의 문제에 관한 것입니다. 방사성 샘플이 두 개이고 그 중 하나가 알려진 방사능을 가진 특정 물질이라는 것을 알고 있다면 (이것은 모호한 물리학이지만 우주가 그렇게 작동한다고 가정합시다) 따라서 우리는 "진정한"분포를 알게됩니다. 우리가 측정해야 할 방사성 클릭의 수는 알려진 가진 포아 소니 안이어야합니다. 두 샘플 모두에 대한 경험적 분포를 구축하고 그들의 KL 발산을 알려진 분포와 비교하는 것이 공평합니까?
의심스러운 물리학에서 멀어지면 두 분포의 표본이 동일한 분포에서 추출되었다는 것을 알고 있지만 무작위로 선택되지 않았다는 것을 알면 KL 분기와 알려진 전역 분포를 비교하면 표본이 "편향된"방법에 대한 느낌을 갖게됩니다. 어쨌든 하나와 다른 상대?
마지막으로 이전 질문에 대한 대답이 예라면 왜 그렇습니까? 정보 이론과 (연약한) 연결을 만들지 않고 통계적 관점에서만 이러한 것들을 이해할 수 있습니까?