내 연구에서 나는 다음과 같은 일반적인 문제를 겪었 습니다. 동일한 도메인에 대해 두 개의 분포 와 가 있고 그 분포에서 많은 (그러나 유한 한) 샘플 수가 있습니다. 표본은이 두 분포 중 하나에서 독립적으로 동일하게 분포됩니다 (분포는 관련 될 수 있지만, 예를 들어 는 와 다른 분포 의 혼합 일 수 있음 ). 귀무 가설은 표본이 에서 나온다는 것 입니다. 샘플은 에서 나옵니다 .
분포 및 알고 샘플을 테스트 할 때 유형 I 및 유형 II 오류를 특성화하려고합니다 . 특히, 나는 와 대한 지식 외에도 하나의 오류를 다른 오류에 묶는 데 관심이 있습니다.
내가 질문 한 질문 의 관계에 관한 math.SE에 전체 변동 거리 사이의 와 가설 검증에를, 내가 수락한다는 답변을 받았다. 그 대답은 의미가 있지만, 여전히 내 문제와 관련하여 Total Variation distance와 가설 검정의 관계에 대한 더 깊은 의미를 내 마음에 감쌀 수 없었습니다. 그래서 저는이 포럼으로 돌아 가기로 결정했습니다.
내 첫 번째 질문은 : 사용 하는 가설 검정 방법과 무관하게 유형 I 및 유형 II 오류의 총합에 대한 총 변동이 있습니까? 본질적으로, 분포 중 하나에 의해 표본이 생성 될 가능성이 0이 아닌 확률이있는 한, 적어도 하나의 오차의 확률은 0이 아니어야합니다. 기본적으로 신호 처리량에 관계없이 가설 테스터가 실수 할 가능성을 피할 수 없습니다. 그리고 Total Variation은 정확한 가능성을 제시합니다. 내 이해가 정확합니까?
타입 I과 II 에러와 기본 확률 분포 와 사이에 또 다른 관계가 있습니다 : KL 분기 . 따라서 두 번째 질문은 KL- 분산이 하나의 특정 가설 검정 방법에만 적용되거나 (로그 우도 비율 방법을 많이 사용하는 것 같습니다) 일반적으로 모든 가설 검정 방법에 적용 할 수 있습니까? 모든 가설 검정 방법에 적용 할 수있는 경우 왜 전체 변형 한계와 크게 다른 것처럼 보입니까? 다르게 동작합니까?
그리고 내 근본적인 질문은 : 바운드를 사용해야 할 때 정해진 환경이 있습니까, 아니면 순전히 편의상의 문제입니까? 하나의 바운드를 사용하여 파생 된 결과는 언제 다른 것을 사용하여 도출해야합니까?
이 질문이 사소한 경우 사과드립니다. 나는 컴퓨터 과학자입니다 (그래서 이것은 저에게 멋진 패턴 매칭 문제처럼 보입니다 :).) 나는 정보 이론을 합리적으로 잘 알고 있으며 확률 이론에서도 대학원 배경을 가지고 있습니다. 그러나, 나는이 모든 가설 테스트 자료를 배우기 시작했습니다. 필요한 경우 질문을 명확히하기 위해 최선을 다하겠습니다.