가변 커널은 종종 로컬 회귀에서 사용됩니다. 예를 들어, 황토는 널리 사용되며 회귀가 원활하게 작동하며 데이터 희소성에 적응하는 가변 폭의 커널을 기반으로합니다.
반면에, 가변 커널은 일반적으로 커널 밀도 추정에서 추정량을 떨어 뜨릴 것으로 생각된다 ( Terrell and Scott, 1992 참조 ).
회귀에는 적합하지만 밀도 추정에는 적합하지 않은 직관적 인 이유가 있습니까?
가변 커널은 종종 로컬 회귀에서 사용됩니다. 예를 들어, 황토는 널리 사용되며 회귀가 원활하게 작동하며 데이터 희소성에 적응하는 가변 폭의 커널을 기반으로합니다.
반면에, 가변 커널은 일반적으로 커널 밀도 추정에서 추정량을 떨어 뜨릴 것으로 생각된다 ( Terrell and Scott, 1992 참조 ).
회귀에는 적합하지만 밀도 추정에는 적합하지 않은 직관적 인 이유가 있습니까?
답변:
여기에 두 가지 다른 질문이있는 것 같습니다.
1) KS, 커널 평활화, KDE, 커널 밀도 추정은 어떻게 다릅니 까? 음, 견적 자 / 부드럽게 / 보간 기가 있다고 가정 해 봅시다.
est( xi, fi -> gridj, estj )
또한 xi에서 "실제"densityf ()를 알게됩니다. 그런 다음 달리는
est( x, densityf )
밀도 f () : KDE를 추정해야합니다. KS와 KDE는 다른 평활도 기준, 다른 규범과 같이 다르게 평가되지만 근본적인 차이는 보이지 않습니다. 내가 무엇을 놓치고 있습니까?
2) 치수는 추정 또는 평활화에 직관적으로 어떤 영향을 미칩니 까? 다음은 직감에 도움이되는 장난감 예제입니다. 균일 한 그리드에서 N = 10000 포인트의 상자와 그 안에 W = 64 포인트 인 창, 선 또는 사각형 또는 큐브를 고려하십시오.
1d 2d 3d 4d
---------------------------------------------------------------
data 10000 100x100 22x22x22 10x10x10x10
side 10000 100 22 10
window 64 8x8 4x4x4 2.8^4
side ratio .64 % 8 % 19 % 28 %
dist to win 5000 47 13 7
여기서 "측면 비율"은 창 쪽 / 상자 쪽이고 "dist to win"은 상자에있는 임의의 점과 무작위로 놓인 창까지의 평균 거리의 대략적인 추정치입니다.
이것은 전혀 의미가 있습니까? (사진이나 애플릿은 정말 도움이 될 것입니다 : 누구?)
아이디어는 고정 크기 상자 내의 고정 크기 창이 1d 2d 3d 4d에서 나머지 상자와 매우 다른 근접성을 갖는다는 것입니다. 이것은 균일 한 그리드를위한 것입니다. 차원에 대한 강한 의존성은 다른 분포로 이어질 수 있습니다. 어쨌든, 그것은 차원의 저주의 한 측면 인 강력한 일반 효과처럼 보입니다.
커널 밀도 추정은 통합을 의미 합니다 로컬 (퍼지) 창을 통한 을 하고 커널 평활화 는 로컬 (퍼지) 창을 평균화 하는 것을 의미 합니다.
.
커널 밀도 추정 : .
이것들은 어떻게 동일합니까?
부울 값 함수의 샘플, 즉 "실제 샘플"(각각의 단위 값)과 "거짓 샘플"(각각 0 값)을 포함하는 집합을 고려하십시오. 전체 샘플 밀도가 그리드와 같이 일정 하다고 가정하면이 함수의 로컬 평균은 실제 값 서브 세트의 로컬 (부분) 밀도에 동일하게 비례합니다. (거짓 샘플을 사용하면 평활화 방정식의 분모를 무시하고 합계에 0 항을 추가하여 밀도 추정 방정식으로 단순화 할 수 있습니다.)
마찬가지로 샘플이 부울 래스터에서 희소 요소로 표현 된 경우 래스터에 흐림 필터를 적용하여 밀도를 추정 할 수 있습니다.
이것들은 어떻게 다릅니 까?
직관적으로, 평활화 알고리즘의 선택은 샘플 측정에 중대한 측정 오류가 있는지 여부에 따라 달라질 수 있습니다.
노이즈가없는 극한의 경우 샘플 위치에서 정확히 알려진 값 사이를 보간하기 만하면됩니다. 들로네 삼각 분할 (Bilinear Piecewise Interpolation)이라고하자.
밀도 추정은 반대의 극단과 유사하며, 완전히 분리 된 샘플은 그 시점에서 밀도 값의 측정을 수반하지 않기 때문에 완전히 노이즈입니다. (따라서 단순히 보간 할 것은 없습니다. Voronoi 다이어그램 셀 영역을 측정하는 것을 고려할 수도 있지만 평활화 / 음파 제거는 여전히 중요합니다.)
요점은 유사성에도 불구하고 근본적으로 다른 문제이므로 다른 접근법이 최적 일 수 있다는 것입니다.