당신이 데이터 세트를 가정 알려지지 않은 에서 지원되는 밀도 를 갖는 연속 분포로부터의 Y n 이지만, 은 꽤 커서 커널 밀도 (예를 들어) 는 다음과 같습니다. 꽤 정확한. 특정 응용 프로그램의 경우 관측 된 데이터를 한정된 수의 범주로 변환하여 암시 된 질량 함수 를 사용하여 새로운 데이터 세트 해야합니다 .[ 0 , 1 ] N
간단한 예는 경우 이고 경우 입니다. 이 경우 유도 질량 함수는
여기서 두 개의 "튜닝 매개 변수"는 그룹 수 및 임계 값 길이 벡터입니다 . 유도 질량 함수를 나타냅니다 .
예를 들어, " 의 최선의 선택은 무엇 이어서 그룹의 수를 로 늘리고 (그리고 최적의 선택하면 ) 무시할만한 개선을 가져 오는 절차를 원합니다." . 분포를 도출 할 수있는 테스트 통계가 생성 될 수 있다고 생각합니다 (KL 발산 또는 이와 유사한 차이가있을 수 있음). 아이디어 나 관련 문헌이 있습니까?
편집 : 연속 변수의 시간 측정 간격이 고르고 불균일 Markov 체인을 사용하여 시간 의존성을 모델링합니다. 솔직히 이산 된 상태 마르코프 체인은 다루기가 훨씬 쉬우 며 이것이 저의 동기입니다. 관찰 된 데이터는 백분율이다. 나는 현재 나에게 매우 잘 어울리는 특별 불연속 화를 사용하고 있지만 공식적인 (그리고 일반적인) 솔루션이 가능한 흥미로운 문제라고 생각합니다.
편집 2 : 실제로 KL 분기를 최소화하는 것은 데이터를 전혀 분리하지 않는 것과 동일하므로 아이디어가 완전히 없습니다. 그에 따라 본문을 편집했습니다.