고차원 피쳐 공간에서 K- 가장 가까운 이웃과 같은 비모수 적 방법


11

k-Nearest-Neighbour 의 주요 아이디어는 k 가장 가까운 포인트 를 고려하고 다수결로 데이터의 분류를 결정합니다. 그렇다면, 위치에 민감한 해싱 과 같은 방법이 가장 가까운 이웃을 효율적으로 찾을 수 있기 때문에 더 높은 차원의 데이터에 문제가 없어야합니다 .k

또한 베이지안 네트워크를 통한 기능 선택으로 데이터의 차원을 줄이고 학습을 더 쉽게 할 수 있습니다.

그러나 통계 학습에서 John Lafferty 의이 검토 논문 은 고차원 특징 공간에서의 비모수 적 학습이 여전히 도전적이고 해결되지 않았 음을 지적합니다.

무슨 일이야?


1
논문에 대한 전체 참조를 제공하십시오. 저자는 그 안에 (명확하게) 나타나지 않는 것 같습니다.
Raphael

답변:


5

이 문제 를 차원저주라고합니다 . 기본적으로 차원 수 를 늘리면 공간의 점이 일반적으로 다른 모든 점에서 멀어지는 경향이 있습니다. 따라서 공간 분할 (분류 또는 클러스터링에 필요)을 매우 어렵게 만듭니다.d

당신은 이것을 아주 쉽게 볼 수 있습니다. I 생성 랜덤 20 개 균일 선택된 값으로 단위 차원 하이퍼 큐브의 점 에서 . 각 값에 대해 첫 번째 점에서 다른 모든 점까지의 거리를 계산하고 이러한 거리의 평균을 취했습니다. 이것을 플롯하면 각 차원에서 점을 생성하는 공간이 동일하게 유지 되더라도 평균 거리가 차원에 따라 증가하고 있음을 알 수 있습니다.d 1..1000 50dd1..1000d

평균 거리 대 치수


물론이야. 당신은 당신이 무작위로 50 점 균일하게 선택 그렇다면, 기하 급수적으로 dimensionalty 고정 반경의 hypersphere에서 점의 수를 증가 일어날 수 있습니다. 그러므로, 당신의 추론이 정확하다면, 샘플이 많으면 파티셔닝이 쉬워 질 것입니다. 그렇습니까?
Raphael

나는 당신이 그것을 뒤집 었다고 생각합니다. 차원을 늘리면 초구 내의 포인트 수를 줄입니다. 거리 측정이 본질적으로 의미를 잃기 때문에 분할이 더 어려워집니다 (예 : 모든 것이 멀리 떨어져 있음).
Nick

내가 의미 : 점의 총 수를 반경의 hypersphere에 말에서 , 즉, 증가합니다 . N n | N nS n ( k ) | kNn|NnSn(k)|n
Raphael

또한 사람들이 고차원 피쳐 공간을 참조 할 때 의미하는 것은 샘플 수 이 각 점 의 차원보다 훨씬 작다는 것입니다 ( ). 따라서 이러한 문제에서는 '많은 샘플'이 없다고 가정합니다. D N < < Dndn<<d
Nick

나는 이것이 정의에 의해 유지되는 것을 보지 못한다. 그러나 경험에 근거한 관습 인 것 같습니다.
Raphael

3

완전한 대답은 아니지만 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다.

k-NN 알고리즘의 정확도는 노이즈가 있거나 관련이없는 기능이 있거나 기능 스케일이 중요도와 일치하지 않으면 심각하게 저하 될 수 있습니다.

이 특징의 가능성은 높은 차원의 특징 공간이 존재할 때 증가합니다.


그러나 PCA (원칙 구성 요소 분석) 또는 차원을 줄이고 관련없는 데이터를 제거하는 다른 방법을 사용하면 k-NN이 여전히 작동한다고 생각합니다. 위키 백과 페이지의 의미는 순진한 k-NN이 실패한다는 것입니다. 따라서 이것은 검토 논문을 설명하지 않습니다.
Strin

PCA는 확실히 작동 할 수 있지만 모든 상황에서 작동하는 것은 아닙니다.
Dave Clarke
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.