확률 밀도 함수의 모드를 찾는 방법은 무엇입니까?

14

내 다른 질문 에서 영감을 받아 함수 의 확률 밀도 함수 (PDF) 모드를 어떻게 찾 습니까? $f(x)$

이에 대한 "요리 책"절차가 있습니까? 분명히이 작업은 처음에 보이는 것보다 훨씬 어렵습니다.

— 음
소스

3

당신이 얻은 매우 다른 답변에 대해 궁금해하는 경우 Nick의 답변 *은 알려진 pdf가있는 상황이 아니라 샘플의 추정과 관련 이 있습니다. 알려진 pdf 사례에 대한 질문을 읽었지만 샘플에서 작업을 수행하는 방법을 보려면 매우 유용한 게시물입니다. ... (* Pierre 's는 또한 샘플로부터의 추정에 관한 것입니다)

$\qquad\:$

— Glen_b -Reinstate Monica

13

"모드"는 배포에 하나만 있음을 의미합니다. 일반적으로 배포판에는 많은 모드가 있거나 (아마도) 전혀 없을 수 있습니다.

둘 이상의 모드가있는 경우 모든 모드를 원하는지 아니면 전역 모드를 원하는지 지정해야합니다 (정확히 존재하는 경우).

우리가 단일 분포에 제한한다고 가정하면 , "the"모드에 대해 말할 수 있으며, 더 일반적으로 최대 함수를 찾는 것과 같은 방식으로 발견됩니다.

* "mode"라는 용어는 여러 의미를 갖기 때문에 페이지에 "unimodal"이라는 용어가 있으며 "mode"에 대한 몇 가지 정의를 제공합니다.이 모드는 0 1 또는 더-그리고 그것들을 식별하기위한 전략을 변경합니다. 참고 특히 방법 일반 "서두에 무엇 unimodality의 같이 분석"일반적인 " 어떻게 든 정의 된 단 하나의 가장 높은 값이,이 unimodality 수단 "

해당 페이지에서 제공되는 정의는 다음과 같습니다.

연속 확률 분포의 모드는 확률 밀도 함수 (pdf)가 최대 값을 얻는 값입니다.

따라서 모드에 대한 특정 정의가 주어지면 함수를보다 일반적으로 처리 할 때 "가장 높은 값"이라는 특정 정의를 찾을 수 있습니다 (분포가 해당 정의에서 가장 중요하다고 가정).

상황에 따라 그러한 것들을 식별하기위한 수학에는 다양한 전략이 있습니다. Maxima 및 minima 에 대한 Wikipedia 페이지의 "기능적 최대 값 및 최소값 찾기"섹션 에서 간단한 설명을 제공합니다.

예를 들어, 밀도 함수가 연속적인 1 차 도함수를 갖는 연속 랜덤 변수를 다루고 있다고 가정하면 밀도 함수의 도함수가 0 인 곳을 찾아서 검사 할 수 있습니다. 임계점의 유형 (최대, 최소, 수평 굴곡 점). 지역 최대치 인 지점이 정확히 하나라면, 그것은 단봉 분포의 모드 여야합니다.

그러나 일반적으로 상황이 더 복잡하고 (예 : 모드가 중요하지 않을 수 있음), 최대 기능을 찾기위한보다 광범위한 전략이 등장합니다.

때때로, 미분 계수가 0 인 곳을 찾는 것이 어렵거나 적어도 번거로울 수 있지만 다른 방법으로 최대 값을 식별하는 것이 여전히 가능할 수 있습니다. 예를 들어, 단봉 분포의 모드를 식별 할 때 대칭 고려 사항을 호출 할 수 있습니다. 또는 컴퓨터에서 어떤 형태의 수치 알고리즘을 호출하여 수치 적으로 모드를 찾을 수도 있습니다.

다음은 함수가 단조롭고 적어도 부분적으로 연속적인 경우에도 확인해야 할 일반적인 사항을 보여주는 몇 가지 사례입니다.

예를 들어, 끝점 (중심 다이어그램), 미분 변화 기호가있는 지점 (0은 아닐 수 있음, 첫 번째 다이어그램) 및 불연속 지점 (세 번째 다이어그램)을 확인해야합니다.

어떤 경우에는이 세 가지만큼 깔끔하지 않을 수 있습니다. 다루고있는 특정 기능의 특성을 이해하려고 노력해야합니다.

함수가 아주 "좋은"경우에도 로컬 최대 값을 찾는 것이 훨씬 더 복잡 할 수있는 다변량 사례를 다루지 않았습니다 (예 : 논리적으로 성공해야하는 경우에도이를 수행하기위한 수치 적 방법은 실제적인 의미에서 실패 할 수 있음). 결국).

— Glen_b-복귀 모니카
소스

1

+1 사소한 관찰로, 글로벌 모드도 고유하지 않을 수 있습니다. 예컨대, 동일한 가중치의 혼합물 밀도

및

랜덤 변수.

N (1, 1)

$N(1,1)$

N (- 1, 1)

$N(-1,1)$

— Dilip Sarwate

@Dilip 나는 그것에 약간의 텍스트를 추가 할 것입니다.

— Glen_b-복지 주 모니카

1

@DilipSarwate 또한 관절 분포의 모드는 한계 분포의 모드와 다를 수 있습니다.

— Marcelo Ventura

17

이 답변은 하나의 특정 방법에 중점을 두어 샘플의 모드 추정에 전적으로 중점을 둡니다. 이미 분석적으로나 수치 적으로 밀도를 알고 있다는 강한 의미가 있다면, @Glen_b의 답변 에서처럼 단일 최대 또는 다중 최대 값을 직접 찾는 것이 가장 좋습니다.

"반-샘플 모드"는 가장 짧은 길이의 반-샘플의 재귀 적 선택을 사용하여 계산 될 수있다. 그것은 더 긴 뿌리를 가지고 있지만, Bickel and Frühwirth (2006)에 의해이 아이디어에 대한 훌륭한 발표가 이루어졌다.

고정 된 수의 관측 값을 포함하는 최단 간격의 중간 점으로 모드를 추정한다는 아이디어는 적어도 Dalenius (1965)로 되돌아갑니다. 모드의 다른 추정자에 대해서는 Robertson and Cryer (1974), Bickel (2002) 및 Bickel and Frühwirth (2006)도 참조하십시오.

$n$ $x$ $x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}$

반 샘플 모드는 여기서 두 가지 규칙을 사용하여 정의됩니다.

$n = 1$ $x_{(1)}$ $n = 2$ $(x_{(1)} + x_{(2)}) / 2$ $n = 3$ $(x_{(1)} + x_{(2)}) / 2$ $x_{(1)}$ $x_{(2)}$ $x_{(2)}$ $x_{(3)}$ $(x_{(2)} + x_{(3)}) / 2$ $x_{(2)}$

$n \ge 4$ $3$ $h_1 = \lfloor n / 2\rfloor$ $k$ $k + h_1$ $x_{(k + h_1)} - x_{(k)}$ $k = 1, \cdots, n - h_1$ $h_1 + 1$ $h_2 = \lfloor h_1 / 2\rfloor$

$x_{(k)}, \cdots, x_{(k + h)}$ $h = \lfloor n / 2 \rfloor$ $(x_k + x_{(k + h)}) / 2$ $x$ shorth

일부 광범위한 의견은 수학적 또는 이론적 통계 학자만큼 실용적인 데이터 분석가의 관점에서 하프 샘플 모드의 장단점을 따릅니다. 프로젝트가 무엇이든 항상 결과를 표준 요약 측정치 (예 : 기하 및 고조파 평균을 포함한 중간 값 또는 평균)와 비교하고 결과를 분포 그래프와 연관시키는 것이 좋습니다. 또한, 당신의 관심이 이정도 또는 다중 양식의 존재 또는 범위에 있다면, 밀도 함수의 적절한 평활 추정치를 직접 보는 것이 가장 좋습니다.

모드 추정 데이터가 가장 밀집된 위치를 요약하여 하프 샘플 모드는 모드의 자동 추정기를 도구 상자에 추가합니다. 히스토그램에서 피크를 식별하거나 심지어 커널 밀도 플롯을 기반으로 한 더 전통적인 모드 추정은 빈 원점 또는 너비 또는 커널 유형 및 커널 반폭에 대한 결정에 민감하며 어떤 경우에도 자동화하기가 더 어렵습니다. 단봉 형이고 대략 대칭 인 분포에 적용되는 경우, 반 샘플 모드는 평균 및 중앙값에 가깝지만 양쪽 꼬리의 특이 치에 대한 평균보다 더 강합니다. 단봉 형 및 비대칭 분포에 적용될 때, 반 샘플 모드는 일반적으로 평균 또는 중앙값 이외의 다른 방법으로 식별 된 모드에 훨씬 가깝습니다.

단순성 반 샘플 모드의 개념은 통계 전문가로 간주되지 않는 학생과 연구원에게 매우 간단하고 설명하기 쉽습니다.

그래픽 해석 반 샘플 모드는 커널 밀도 도표, 누적 분포 및 Quantile 도표, 히스토그램 및 줄기 및 잎 도표와 같은 분포의 표준 디스플레이와 쉽게 관련 될 수 있습니다.

동시에

모든 분포에 유용하지 않음 약 J 자 모양의 분포에 적용되는 경우 반 샘플 모드는 데이터의 최소값에 가깝습니다. 대략 U 자형 분포에 적용될 때, 반 샘플 모드는 분포의 절반이 더 높은 평균 밀도를 갖는 경우에 해당합니다. 두 가지 동작 모두 특히 흥미 롭거나 유용하지는 않지만 J 자형 또는 U 자형 분포에 대한 단일 모드와 유사한 요약을 요구하지 않습니다. U 자형의 경우, 이중성 (bimodality)은 유효하지 않은 경우 단일 모드를 약자로 만듭니다.

동점 최단 반은 고유하게 정의되지 않을 수 있습니다. 측정 된 데이터를 사용하더라도보고 된 값의 반올림으로 인해 종종 연관이 발생할 수 있습니다. 두 개 이상의 짧은 반쪽으로해야 할 일은 문헌에서 거의 논의되지 않았습니다. 묶인 반쪽은 겹치거나 분리 될 수 있습니다.

hsmode $t$ $t$ $\lceil t/ 2\rceil$

$-9, -4, -1 , 0, -1, 4, 9$ $-0.5$ $0$ $1 + \lfloor n / 2\rfloor$ $n$ $n$ , 다른 desiderata가 주어지면 달성하기 어렵습니다. 특히 샘플 길이에 따라 윈도우 길이가 줄어들지 않아야합니다. 우리는 이것이 합리적인 크기의 데이터 세트에서 사소한 문제라고 생각합니다.

$1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1,$ $n = 2$ $\lceil n / 2\rceil$

$1.6, 3.11, 3.95, 4.2, 4.2, 4.62, 4.62, 4.62, 4.7, 4.87, 5.04, 5.29, 5.3, 5.38, 5.38, 5.38, 5.54, 5.54, 5.63, 5.71, 6.13, 6.38, 6.38, 6.67, 6.69, 6.97, 7.22, 7.72, 7.98, 7.98, 8.74, 8.99, 9.27, 9.74, 10.66.$ hsmode $5.00, 5.02, 5.04$

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers 및 JW Tukey. 1972. 견고한 위치 추정 : 조사 및 발전. 프린스턴, 뉴저지 : 프린스턴 대학 출판부.

Bickel, DR 2002. 연속 데이터의 모드 및 왜곡에 대한 강력한 추정값. 계산 통계 및 데이터 분석 39 : 153-163.

Bickel, DR 및 R. Frühwirth. 2006. 빠르고 강력한 모드 추정기 : 응용 프로그램이있는 다른 견적 기와 비교. 계산 통계 및 데이터 분석 50 : 3500-3530.

Dalenius, T. 1965. 모드-무시 된 통계 매개 변수. 왕립 통계 학회지 A 128 : 110-117.

Grübel, R. 1988. 짧은 길이. 통계의 연대기 16 : 619-628.

Hampel, FR 1975. 위치 매개 변수를 넘어서 : 강력한 개념과 방법. 국제 통계 학회 (International Statistical Institute) 46 : 375-382.

Maronna, RA, RD Martin 및 VJ Yohai. 2006 년 강력한 통계 : 이론과 방법 . 치 체스터 : 존 와일리.

Robertson, T. 및 JD Cryer. 1974. 모드 추정을위한 반복 절차. Journal, American Statistical Association 69 : 1012-1016.

Rousseeuw, PJ 1984. 최소 회귀 분석 Journal of American Statistical Association 79 : 871-880.

Rousseeuw, PJ 및 AM Leroy. 1987. 강력한 회귀 및 이상치 탐지 . 뉴욕 : 존 와일리.

이 계정은

Cox, NJ 2007. HSMODE : 하프 샘플 모드를 계산하는 Stata 모듈 ( http://EconPapers.repec.org/RePEc:boc:bocode:s456818) .

또한 데이비드 R. BICKEL의 웹 사이트를 참조하십시오 여기에 다른 소프트웨어의 구현에 대한 자세한 내용은.

— 닉 콕스
소스

5

벡터 "x"에 분포의 표본이있는 경우 다음을 수행합니다.

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

밀도 함수를 상단에서 충분히 매끄럽게 조정해야합니다. ;-).

분포의 밀도 만 가지고 있다면 옵티 마이저를 사용하여 모드 (REML, LBFGS, 심플 렉스 등)를 찾습니다.

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

또는 Monte-Carlo 샘플러를 사용하여 분포 (패키지 rstan)에서 샘플을 가져오고 위 절차를 사용하십시오. 어쨌든 Stan은 배포 모드를 얻기위한 "최적화"기능으로 Stan 패키지를 제공합니다.

— 피에르 레브 룬
소스

그러한 견적은 더 이상 사용되지 않는 것 같습니다. 커널 밀도 추정기를 사용하려면 커널 너비를 지정해야합니다. 반면 HSM과 HRM은 튜닝이 필요 없으며 선형 시간으로 작동합니다.

— Viktor