커널 밀도 추정에서의 커널 대역폭


10

N 차원에서 가중치 포인트 세트 (즉, 각 샘플이 필요하지 않은 가중치를 가짐)로 일부 커널 밀도 추정을 수행하고 있습니다. 또한 이러한 샘플은 미터법 공간에 있습니다 (즉, 샘플 간 거리를 정의 할 수 있음). 예를 들어, 샘플 포인트의 평균, 표준 편차 또는 다른 변수와 비교하여 하나의 변수를 스케일 할 수 없습니다. 커널은이 거리와 각 샘플의 무게에 영향을받습니다 :

f(x)=1.weightsiweightihKernel(distance(x,xi)h)

이와 관련하여, 나는 공간적으로 변할 수 있고 바람직하게는 훈련 데이터 세트 에 대한 정확한 재구성을 제공하는 커널 대역폭 대한 강력한 추정을 찾으려고 노력하고있다 . 필요한 경우 함수가 비교적 부드럽다 고 가정 할 수 있습니다.hxi

가장 가까운 첫 번째 또는 두 번째 이웃까지의 거리를 사용해 보았지만 결과가 매우 좋지 않습니다. Leave-One-Out 최적화를 시도했지만 Nd 의이 맥락에서 최적화 할 수있는 좋은 척도를 찾는 데 어려움이 있으므로 특히 훈련 샘플 자체에 대한 매우 나쁜 추정치를 찾습니다. 표준 편차를 계산할 수 없기 때문에 정상적인 가정을 기반으로 욕심 많은 추정치를 사용할 수 없습니다. 공분산 행렬을 사용하여 이방성 커널을 얻는 참조를 찾았지만 다시이 공간에는 들지 않습니다 ...

누군가 아이디어 나 참조가 있습니까?


거리를 측정 할 수 있으면 평균을 측정 할 수 있습니다. 맞습니까? "단어에 코사인 거리를 사용하고 있습니다"라고 말하면 "평균 단어에는 실제로 의미가 거의 없습니다"라고 말하지만 왜 여전히 계산할 수 없는지 알 수 없습니다. 당신은 서수 공간에 있다고 말할 수 있으므로 평균은 지속적으로 평가되지 않습니다. 평균을 정의 할 수없는 이유는 무엇입니까?
EngrStudent

답변:


3

시작하는 한 곳은 Silverman의 가장 가까운 이웃 추정기 이지만 어떻게 든 가중치를 추가하는 것입니다. (여기에 가중치가 정확히 무엇인지 잘 모르겠습니다.) 가장 가까운 이웃 방법은 거리 측면에서 공식화 될 수 있습니다. 첫 번째와 두 번째로 가장 가까운 이웃 방법은 가장 가까운 이웃 방법의 버전이지만 커널 기능이 없으며 값이 작은 것으로 생각합니다 .k


2

Matlab File Exchange에는 가우시안 커널이 사용된다는 가정하에 최적의 대역폭을 제공하는 kde 함수가 있습니다 : Kernel Density Estimator .

Matlab을 사용하지 않더라도이 코드를 통해 최적의 대역폭을 계산하는 방법을 파싱 할 수 있습니다. 이것은 파일 교환에서 높은 등급의 기능이며 여러 번 사용했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.