평신도의 관점에서 Parzen 창 (커널) 밀도 추정을 설명 할 수 있습니까?

24

Parzen 창 밀도 추정은 다음과 같이 설명됩니다

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

여기서, 벡터의 요소 수이고, 벡터이며, 의 확률 밀도 , 파젠 윈도우의 사이즈이고, 윈도우 함수이다. $n$ $x$ $p(x)$ $x$ $h$ $\phi$

내 질문은 :

Parzen Window Function과 Gaussian Function 등과 같은 다른 밀도 기능의 기본 차이점은 무엇입니까?
의 밀도를 찾는 데 윈도우 함수 ( ) 의 역할은 무엇입니까 ? $\phi$ $x$
왜 Window 함수 대신 다른 밀도 함수를 연결할 수 있습니까?
의 밀도를 찾는 데있어 의 역할은 무엇입니까 ? $h$ $x$

— 사용자
소스

44

Parzen 창 밀도 추정 은 커널 밀도 추정의 또 다른 이름입니다 . 데이터에서 연속 밀도 함수를 추정하기위한 비모수 적 방법입니다.

일반적으로 알려지지 않은, 아마도 연속적인 분포 에서 나온 데이터 포인트 있다고 가정 합니다. 데이터가 주어진 분포를 추정하는 데 관심이 있습니다. 당신이 할 수있는 한 가지 일은 단순히 경험적 분포를보고 그것을 실제 분포와 동등한 표본으로 취급하는 것입니다. 그러나 데이터가 연속적이라면 각 가 표시 될 것입니다. $x_1,\dots,x_n$ $f$ $x_i$ 점은 데이터 세트에 한 번만 나타나므로이를 기반으로 각 값의 확률이 동일하므로 데이터가 균일 한 분포에서 나온 것으로 결론을 내릴 수 있습니다. 바라건대, 당신은 이것보다 더 잘 할 수 있습니다 : 당신은 일정한 간격으로 몇 개의 간격으로 데이터를 포장하고 각 간격에 해당하는 값을 계산할 수 있습니다. 이 방법은 히스토그램 추정을 기반으로합니다 . 불행히도, 히스토그램을 사용하면 연속 분포가 아닌 몇 개의 빈으로 끝나므로 대략적인 근사치 일뿐입니다.

커널 밀도 추정 이 세 번째 대안입니다. 주요 아이디어는 데이터 포인트를 중심으로하고 (스케일 ( 대역폭 )) 가있는 커널 이라는 연속 분포 (노테이션 사용) 의 혼합 에 의해 를 근사한다는 것입니다 . $f$ $K$ $\phi$ $x_i$ $h$

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

이것은 아래 그림에 나와 있습니다. 정규 분포는 커널 로 사용되며 대역폭 대한 서로 다른 값 은 7 개의 데이터 포인트 (플롯 상단에 화려한 선으로 표시)가 주어지면 분포를 추정하는 데 사용됩니다. 플롯의 다채로운 밀도는 포인트를 중심으로하는 커널 입니다. 공지 사항 것을 A는 상대 매개 변수, 그것의 값이 항상 데이터와 동일한 값에 따라 선택 서로 다른 데이터 세트에 대한 유사한 결과를 제공하지 않을 수 있습니다. $K$ $h$ $x_i$ $h$ $h$

커널 는 확률 밀도 함수로 생각할 수 있으며 단일성과 통합해야합니다. 또한 및 그 뒤에 오는 0이 중심 이되도록 대칭이어야 합니다. 커널에 관한 Wikipedia 기사 에는 Gaussian (정규 분포), Epanechnikov, 직사각형 (균일 분포) 등과 같은 널리 사용되는 많은 커널이 나열되어 있습니다. 기본적으로 이러한 요구 사항을 충족하는 모든 배포는 커널로 사용될 수 있습니다. $K$ $K(x) = K(-x)$

분명히, 최종 추정치는 선택한 커널 (많은 것은 아님)과 대역폭 매개 변수 에 달려 있습니다 . 다음 스레드 커널 밀도 추정에서 대역폭 값을 해석하는 방법은 무엇입니까? 대역폭 매개 변수 사용에 대해 자세히 설명합니다. $h$

이것을 평범한 영어로 말하면, 여기에서 가정하는 것은 관측 된 점 는 단지 표본이며 추정 할 분포 를 따릅니다 . 분포가 연속적이기 때문에 포인트 근처 부근에 알려지지 않았지만 0이 아닌 밀도가 있다고 가정하고 (이웃은 매개 변수 로 정의 됨 ) 커널 를 사용 하여이를 계산합니다. 이웃에 포인트가 많을수록이 영역 주변에 더 많은 밀도가 누적되므로 의 전체 밀도가 높아집니다 . 결과 함수 는 이제 모든 포인트 대해 평가 될 수 있습니다 $x_i$ $f$ $x_i$ $h$ $K$ $\hat{f_h}$ $\hat{f_h}$ $x$ 밀도 추정값을 구하기 위해 이것은 미지의 밀도 함수 의 근사치 인 함수 를 얻은 방법 입니다. $\hat{f_h}(x)$ $f(x)$

커널 밀도의 좋은 점은 히스토그램과 달리 연속 함수이며 유효한 확률 밀도의 혼합이기 때문에 유효한 확률 밀도라는 것입니다. 많은 경우에 이것은 에 근사 할 수있는 한 가깝습니다 . $f$

정규 분포로서 커널 밀도와 다른 밀도의 차이점은 "일반적인"밀도는 수학 함수이고, 커널 밀도는 데이터를 사용하여 추정 된 실제 밀도의 근사치이므로 "독립형"분포는 아닙니다.

Silverman (1986)과 Wand and Jones (1995)의이 주제에 관한 두 가지 훌륭한 소개 책을 추천합니다.

BW 실버 맨 (1986). 통계 및 데이터 분석을위한 밀도 추정. CRC / Chapman & Hall.

Wand, MP and Jones, MC (1995). 커널 스무딩. 런던 : 채프먼 & 홀 / CRC.

— 팀
소스

여기 는 무엇입니까 ?

x

$x$

— user366312

@anonymous 는 데이터 포인트이고 는 밀도 함수를 평가하는 지점입니다.

x_{i}

$x_i$

x

$x$

— Tim

1

@anonymous "평범한 영어로 말하기 ..."단락 끝에 주석으로 질문을 참조하는 편집을 추가했습니다.

— Tim

4

1) 내 이해는 사용자가 에 사용할 함수를 선택할 수 있으며 가우시안 함수는 매우 일반적인 선택이라는 것입니다. $\phi$

2)에서의 농도 서로 다른 값의 평균이다 에서 . 예를 들어, , 및 대해 가우스 분포를 있습니다. 이 경우에서, 농도 될 . $x$ $\phi_h(x_i - x)$ $x$ $x_1=1$ $x_2 = 2$ $\sigma=1$ $\phi_h$ $x$ $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$

3) 윈도우 기능으로 원하는 밀도 기능을 연결할 수 있습니다.

4) 는 선택한 윈도우 기능의 너비를 결정합니다. $h$

— 데이비드 제이 해리스
소스