k- 최근 접 이웃의 VC 치수


10

k가 사용 된 트레이닝 포인트의 수와 동일한 경우 k- 최근 접 이웃 알고리즘의 VC- 차원은 무엇입니까?


컨텍스트 : 이 질문은 제가 수강하는 과정에서 요청되었으며 거기에 주어진 답은 0입니다. 그러나 이것이 왜 그런지 이해하지 못합니다. 내 직감은 VC 차원이 1이어야한다는 것입니다. 모든 모델이 첫 번째 모델에 따라 한 클래스에 속하고 다른 클래스에 속한다고 레이블이 지정되도록 두 가지 모델 (예 : 교육 포인트 세트)을 선택할 수 있어야하기 때문입니다 두 번째 모델에 따르면 단일 지점을 산산조각 낼 수 있어야합니다. 내 추리에서 실수는 어디에 있습니까?

답변:


2

알고리즘은 다음과 같습니다. k = 사용 된 트레이닝 포인트 수를 가진 k- 최근 접 이웃 알고리즘. 나는 이것을 jms-k-nearest-neighbor 로 정의한다 .

VC 차원은 열차 오류 0 의 알고리즘으로 산산조각을 낼 수있는 가장 많은 트레이닝 포인트 이므로 jms-k-nearest-neighbor 의 VC 차원은 k 또는 0 일 수 있습니다.

1 훈련 인스턴스 => k = 1 : 훈련 중 jms-1-nearest-neighbor는이 인스턴스를 정확하게 저장합니다. 정확히 동일한 교육 세트에 적용하는 동안 하나의 인스턴스는 저장된 교육 인스턴스와 가장 비슷하므로 (동일하므로) 교육 오류는 0입니다.

따라서 VC 차원은 1 이상입니다.

2 교육 사례 => k = 2 : 라벨이 다른 경우에만 문제가있을 수 있습니다. 이 경우 문제는 클래스 레이블 결정 방법입니다. 과반수 투표는 결과 (VC = 0?)로 이어지지 않습니다. 거리에 반비례 가중치를 적용한 경우 VC 차원은 2입니다 (라벨이 다른 동일한 트레이닝 인스턴스를 두 번 가질 수 없다고 가정 할 때). 모든 알고리즘의 VC 차원은 0입니다 (추측).

표준 k- 최근 접 이웃 알고리즘은 없으며 구현 세부 사항과 관련하여 동일한 기본 아이디어는 있지만 풍미가 다른 제품군에 속합니다.

사용 된 리소스 : Andrew Moore의 VC 치수 슬라이드


고마워, 그것은 매우 도움이되었습니다. 모델을 평가하는 인스턴스가 해당 매개 변수를 학습하는 데 사용 된 인스턴스와 같아야한다는 것을 몰랐습니다. 나는 당신의 대답에 대해 조금 생각하고 나중에 그것을 받아 들여야 할 것입니다.
Julius Maximilian Steen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.