데이터의 확률 분포를 추정하기위한 다양한 비모수 적 방법


10

데이터가 있고 부드러운 곡선을 맞추려고했습니다. 그러나 나는 너무 많은 사전 믿음이나 너무 강한 사전 개념 (나의 질문에 의해 암시되는 것을 제외하고) 또는 특정 배포판을 시행하고 싶지 않습니다.

방금 부드러운 곡선으로 맞추고 싶을 수도 있습니다 (또는 확률 분포의 추정치가 좋았습니다). 내가하는 유일한 방법은 커널 밀도 추정 (KDE)입니다. 사람들이 그런 것을 추정하는 다른 방법을 알고 있다면 궁금합니다. 나는 단지 그것들의 목록을 원했고 그로부터 내가 사용하고 싶은 것을 찾기 위해 나 자신의 연구를 할 수 있습니다.

모든 링크 또는 좋은 참고 자료 (또는 좋은 참고 자료)를 제공하는 것은 언제나 환영하며 권장됩니다!


3
" 나는 그것에 대해 어떤 이전의 믿음을 강요하고 싶지 않았다. "-당신은 그것이 매끄 럽거나 심지어 연속적이라고 가정 할 수 없다 (사전 믿음 일 것이다). 어떤 경우에 ecdf는 당신의 유일한 의지에 관한 것입니다.
Glen_b-복지 주 모니카

1
굳게 믿고 내 질문을 표현하는 더 좋은 방법입니다. 나는 베르누이 (Beroulli) 나 제한적인 말을하고 싶지 않다. 나는 ecdf가 btw 인 것을 모른다. 좋은 제안이나 제안 목록이 있으면 자유롭게 게시하십시오.
피노키오

내 질문을 업데이트했습니다. 더 낫습니까? 더 분명한? 그건 그렇고 내 질문에 대한 정답은 없으며 유용하고 덜 유용한 것입니다. :)
피노키오

2
ecdf = 경험적 cdf , 죄송합니다. 우리는 당신이 묻는 질문이 아니라 당신이 묻는 질문에만 대답 할 수 있으므로, 당신의 가정을 표현할 때 명확하게주의해야합니다.
Glen_b-복지 주 모니카

정규화 된 히스토그램은 밀도 추정값으로 볼 수 있습니다
Dason

답변:


5

연속 랜덤 변수에 대해 이야기하고 있다고 지정하지는 않지만 KDE를 언급했기 때문에 이것을 의도한다고 가정합니다.

부드러운 밀도를 맞추는 두 가지 다른 방법 :

1) 로그 스플라인 밀도 추정. 여기에서 스플라인 곡선이 로그 밀도에 맞춰집니다.

예시 논문 :

Kooperberg and Stone (1991),
"로그 스플라인 밀도 추정에 관한 연구"
전산 통계 및 데이터 분석 , 12 , 327-347

Kooperberg 그의 논문의 PDF 파일에 대한 링크를 제공 여기를 "1991"에서,.

R을 사용한다면 이것에 대한 패키지 가 있습니다. 그것에 의해 생성 된 적합의 예는 여기에 있습니다 . 다음은 거기에있는 데이터 세트의 로그에 대한 히스토그램과 답변에서 로그 스플라인 및 커널 밀도 추정값을 재현 한 것입니다.

로그 데이터의 히스토그램

로그 스플라인 밀도 추정치 :

로그 스플라인 플롯

커널 밀도 추정치 :

커널 밀도 추정

2) 유한 혼합물 모델 . 여기서 편리한 분포 군이 선택되고 (대부분의 경우 정규 분포) 밀도는 해당 계열의 여러 다른 구성원이 혼합 된 것으로 가정합니다. 커널 밀도 추정값은 이러한 혼합으로 볼 수 있습니다 (가우시안 커널에서는 가우시안 혼합).

보다 일반적으로 ML 또는 EM 알고리즘을 통해, 또는 경우에 따라 모멘트 매칭을 통해 적합 할 수 있지만, 다른 상황에서는 다른 접근법이 가능할 수 있습니다.

(다양한 형태의 혼합물 모델링을 수행하는 수많은 R 패키지가 있습니다.)

편집에 추가됨 :

3) 평균적으로 이동 된 히스토그램
(말 그대로 부드럽 지 않지만 미지정 된 기준에 대해 충분히 부드럽습니다) :

매번 정수 대해 만큼 이동 한 다음 평균화 되는 bin-origin을 가로 질러 일정한 고정 폭 ( ) 에서 히스토그램 시퀀스를 계산한다고 상상해보십시오 . 이것은 binwidth 에서 수행 된 히스토그램과 비슷 하지만 훨씬 매끄 럽습니다.bb/kkb/k

예를 들어, 이진 폭 1에서 각각 4 개의 히스토그램을 계산하지만 + 0, + 0.25, + 0.5, + 0.75만큼 오프셋 된 다음 주어진 에서 높이를 평균화합니다 . 당신은 다음과 같이 끝납니다 :x

평균 이동 된 히스토그램

이 답변 에서 가져온 다이어그램 . 내가 말했듯이, 당신이 그 수준의 노력으로 가면 커널 밀도 추정도 할 수 있습니다.


이것에 추가하십시오. 혼합 모델의 경우-로그 가능성이나 그와 같은 결과가 크게 증가하지 않으면 2, 3, 4 분포를 혼합하고 멈출 수 있다고 생각합니다.
waferthin

4

매끄러움 등과 같은 가정에 대한 위의 설명을 따르십시오. 사전에 Dirichlet 프로세스와 혼합 모델을 사용하여 베이지안 비모수 밀도 추정을 수행 할 수 있습니다.

아래 그림은 '오래된 충실한'데이터에 대한 이변 량 정규 DP 혼합 모델의 MCMC 추정에서 회복 된 확률 밀도 윤곽을 보여줍니다. 포인트는 마지막 MCMC 단계에서 얻은 클러스터링에 따라 IIRC로 채색됩니다.

여기에 이미지 설명을 입력하십시오

Teh 2010 은 좋은 배경을 제공합니다.


1

보편적 인 선택은 임의의 숲입니다 ( " 결정 숲 : 분류, 회귀, 밀도 추정, 매니 폴드 학습 및 반 감독 학습을위한 통합 프레임 워크 "의 구체적 5 장 참조) .

알고리즘을 자세히 설명하고 k- 평균, GMM 및 KDE와 같은 널리 사용되는 다른 선택과 비교하여 알고리즘을 평가합니다. 랜덤 포레스트는 R과 scikit-learn에서 구현됩니다.

랜덤 포레스트는 의사 결정 트리를 영리하게 포장합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.