"커널 밀도 추정"은 무엇의 컨볼 루션입니까?


25

커널 밀도 추정에 대해 더 잘 이해하려고합니다.

Wikipedia의 정의 사용 : https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

fh^(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

하자 걸릴 제공하는 직사각형의 함수로 경우에 사이 및 및 그렇지 및 (창 크기) 1된다.1 x - 0.5 0.5 0K()1x0.50.50h

밀도가 두 함수의 컨볼 루션이라는 것을 알고 있지만이 두 함수를 정의하는 방법을 잘 모르겠습니다. 그중 하나는 (아마도) R의 모든 지점에 대해 해당 위치에있는 데이터 지점 수 (대부분 ) 를 나타내는 데이터의 함수 일 것입니다 . 그리고 다른 함수는 아마도 창 크기와 결합 된 커널 함수의 수정일 것입니다. 그러나 그것을 정의하는 방법을 모르겠습니다.0

어떤 제안?

Bellow는 위의 정의 된 설정 (두 개의 가우시안과 혼합하여)을 복제하는 R 코드의 예 입니다. 여기서 우리가 의심하는 것처럼 복잡한 함수가 "증거"되고 있음을 알기를 희망합니다. .n=100

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

여기에 이미지 설명을 입력하십시오


3
바닥의 ​​깔개는 약간의 직관력을 제공합니다. 에서 까지의 각 값 가 관련 가중치가 스파이크라고 가정 합니다. 이제 커널의 모양과 너비를 사용하여 각 스파이크를 번져서 아래 면적이 이되도록 높이와 같은 모양과 너비를 갖도록 스파이크를 변형합니다 . 결과를 추가하면 커널 밀도 추정값이 있습니다. i = 1 n 1 / n 1 / nxii=1n1/n1/n
Nick Cox

닉, 댓글 주셔서 감사합니다. 이것은 지금 직관에 이미 그것은 내가 :) 궁금했다 회선의 형태로 공식적으로 돌고, 가지고 (지금 Whuber의 대답을 통과 열망 해요!)
탈 Galili 한

답변:


27

모든 배치 데이터 에 해당하는 것은 "임시 밀도 함수"입니다.X=(x1,x2,,xn)

fX(x)=1ni=1nδ(xxi).

여기서 는 "일반화 된 함수"입니다. 그 이름에도 불구하고, 그것은 전혀 기능이 아닙니다 : 그것은 적분 내에서만 사용될 수있는 새로운 수학적 객체입니다. 그것의 정의 속성은 근처에서 연속적인 소형 지지대의 함수 에 대해 ,δg0

Rδ(x)g(x)dx=g(0).

이름 에는 "원자"또는 "점"측정 값 및 " Dirac 델타 함수 "가 포함 됩니다 . 다음 계산에서이 개념은 한쪽에서만 연속되는 함수 를 포함하도록 확장되었습니다 .δgg

이러한 특성을 하는 것은fX

xfX(y)dy=x1ni=1nδ(yxi)dy=1ni=1nxδ(yxi)dy=1ni=1nRI(yx)δ(yxi)dy=1ni=1nI(xix)=FX(x)

여기서 는 일반적인 경험적 CDF이고 는 일반적인 특성 함수입니다 ( 인수가 참이면 , 그렇지 않으면 ). (I는 위에 정의 된 함수 컴팩트 지원 기능에서 이동하는데 필요한 엘리 멘터 제한 인자 이동 ; 때문에 단지 범위 내의 값에 대해 정의 될 필요가 컴팩트 한, 문제는 없다.)FXI10RIX

다른 함수 와 의 컨벌루션 은 다음과 같이 정의됩니다.fX(x)k

(fXk)(x)=RfX(xy)k(y)dy=R1ni=1nδ(xyxi)k(y)dy=1ni=1nRδ(xyxi)k(y)dy=1ni=1nk(xix).

시키는 (와 동일 은 Wikipedia 수식 컨벌루션이다 : 우리는 결과를 얻을 항 - 대부분의 커널이 대칭 대칭 커널을위한).k(x)=Kh(x)Kh(x)


1
2 차원의 상황은 (더 구어 적 용어로) 설명되어 있으며 GIS 사이트 gis.stackexchange.com/questions/14374/…에 설명되어 있습니다.
whuber

1
친애하는 Whuber, 나는 방금지나 가서 당신의 대답을 즐겁게 읽었습니다! 설명과 세부 사항에 대해 대단히 감사합니다. 답변 (이 답변과 다른 사람들)은 정말 고무적입니다. Yours, Tal
Tal Galili

1
@Jan 귀하의 이해가 정확하지 않습니다. 유한 한 연속 측정의 의미에서 경험적인 "밀도"는 없습니다. 데이터의 표시기 기능은 0으로 통합됩니다 (Lebesgue 통합을 사용하든 Riemann 통합을 사용하든 차이는 없습니다). 일반화 된 함수 는 전혀 함수가 아닙니다. 적분 내에서만 사용할 수있는 새로운 수학적 객체입니다. 경험적 분포 는 적분 함수 에 대해 통합 될 때 값 의 합계 (모든 데이터 )를 반환 하는 수학적 객체입니다g , X g ( X I ) .δg,xig(xi).
whuber

1
@whuber 감사합니다. 문장 일반화 된 함수 δ는 전혀 함수가 아닙니다. 적분 내에서만 사용할 수있는 새로운 수학적 객체입니다. 더 명확하게 만들었습니다. 언제나 그렇듯이 ;)
Jan Vainer

1
@Jan 도움을 주셔서 감사합니다.이 아이디어에이 아이디어를 포함 시켰습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.