연속 분포에서 데이터의 최적 이산화 결정


11

당신이 데이터 세트를 가정 알려지지 않은 에서 지원되는 Y1,...,Yn밀도 를 갖는 연속 분포로부터의 Y n 이지만, 은 꽤 커서 커널 밀도 (예를 들어) 는 다음과 같습니다. 꽤 정확한. 특정 응용 프로그램의 경우 관측 된 데이터를 한정된 수의 범주로 변환하여 암시 된 질량 함수 를 사용하여 새로운 데이터 세트 해야합니다 .[ 0 , 1 ] Np(y)[0,1]np^(y)Z1,...,Zng(z)

간단한 예는 경우 이고 경우 입니다. 이 경우 유도 질량 함수는Zi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

여기서 두 개의 "튜닝 매개 변수"는 그룹 수 및 임계 값 길이 벡터입니다 . 유도 질량 함수를 나타냅니다 .m(m1)λg^m,λ(y)

예를 들어, " 의 최선의 선택은 무엇 이어서 그룹의 수를 로 늘리고 (그리고 최적의 선택하면 ) 무시할만한 개선을 가져 오는 절차를 원합니다." . 분포를 도출 할 수있는 테스트 통계가 생성 될 수 있다고 생각합니다 (KL 발산 또는 이와 유사한 차이가있을 수 있음). 아이디어 나 관련 문헌이 있습니까?m,λm+1λ

편집 : 연속 변수의 시간 측정 간격이 고르고 불균일 Markov 체인을 사용하여 시간 의존성을 모델링합니다. 솔직히 이산 된 상태 마르코프 체인은 다루기가 훨씬 쉬우 며 이것이 저의 동기입니다. 관찰 된 데이터는 백분율이다. 나는 현재 나에게 매우 잘 어울리는 특별 불연속 화를 사용하고 있지만 공식적인 (그리고 일반적인) 솔루션이 가능한 흥미로운 문제라고 생각합니다.

편집 2 : 실제로 KL 분기를 최소화하는 것은 데이터를 전혀 분리하지 않는 것과 동일하므로 아이디어가 완전히 없습니다. 그에 따라 본문을 편집했습니다.


1
대부분의 경우 후속 응용 프로그램의 요구에 따라 솔루션의 장점이 결정됩니다. 아마도 우리에게 지침을주기 위해 그것에 대해 더 말할 수 있습니다.
whuber

먼저 무시할 수있는 의미를 정의하십시오 . 반면에, 이것은 속도 왜곡 문제 와 관련이있는 것 같습니다 . 커버 & 토마스 텍스트는 같은 주제에 대한 좋은 읽을 소개합니다.
추기경

나는 k - 1 매개 변수 (임계 값)가 있는 모델과 같은 레벨 의 이산화를 생각합니다 . 이 설정에서 무시할 만하다고 말할 때 통계적 의미에서 "추가 매개 변수를 추가 할 가치가 없음"을 의미합니다. kk1
매크로

이산화가 실제로 좋은 움직임인지 확실하지 않습니다. 이산 값이 관측의 원래 공간에서 생성하는 경계를 일반화 할 수 없습니다.
bayerj

답변:


3

나는이 문제에 대해 생각해 낸 해결책을 잠시 동안 공유 할 것입니다. 이것은 공식적인 통계 테스트가 아니지만 유용한 휴리스틱을 제공 할 수 있습니다.


지속적으로 관찰하는 일반적인 경우를 고려하십시오 . . . , Y N ; 일반성을 잃지 않고 각 관측치의 표본 공간이 구간 [ 0 , 1 ] 이라고 가정합니다 . 분류 체계는 많은 범주 m 과 범주를 나누는 위치 임계 값 0 < λ 1 < λ 2 < < λ m - 1 < 1에 따라 달라집니다 .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

분류 된 를 나타냅니다. 여기서 . 데이터의 이산화를 원래 데이터를 클래스로 분할하는 것으로 생각하면 의 분산은 그룹 내 및 그룹 간 변동의 조합으로 생각할 수 있습니다. 의 고정 된 값은 :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

정량화 된 그룹 분산 내에 비교적 적은 경우 주어진 분류는 동종 그룹 생성에 성공 합니다. 우리는 인색 그룹이 수여하고 대부분의 변화의 추구 받는 사람 . 용어에서를 특히, 우리는 을 선택 하여 더 많은 레벨을 추가함으로써 그룹 내 동질성에 유의미하게 추가하지 않습니다.이를 염두에두고 의 고정 값에 대해 최적의 를 정의합니다 .E(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

적절한 선택을 결정하기위한 대략적인 진단 은 의 함수로 -이 궤적은 단조롭게 증가하지 않으며 급격히 감소한 후에 더 많은 범주를 포함하여 상대적으로 정확도가 떨어짐을 알 수 있습니다. 이 휴리스틱은 "스 크리 플롯 (Scree Plot) "을 사용하여 변형의 "충분한"주요 구성 요소를 설명하는 방법을보기 위해 때때로 사용됩니다.mE(var(Yi|Zi(m,λm)))m

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.