단위 볼에서 N 샘플의 원점에 가장 가까운 중간 값에 대한 공식 설명


12

에서는 통계 학습 요소 , 문제는 고차원 공간에서 K-NN으로 하이라이트 문제로 도입된다. 거기 균일하게 분포되어 데이터 포인트 차원 부 공.PNp

원점에서 가장 가까운 데이터 포인트까지의 중간 거리는 다음 식으로 제공됩니다.

d(p,N)=(1(12)1N)1p

때 가장 가까운 지점으로 국경에 접근하는 방법, 볼의 절반 반경 아래 수식 휴식, 나는 볼 수있는 따라서 직관 뒤에 높은 차원으로 분해 KNN 만들기. 그러나 수식이 N에 의존하는 이유를 알 수 없습니다. 누군가 명확히 할 수 있습니까?p N=1p

또한이 책은 "... 예측은 훈련 샘플의 가장자리 근처에서 훨씬 더 어렵다. 예측하기는 주변 샘플 포인트 사이에서 보간하는 것이 아니라 외삽해야한다"고 말함으로써이 문제를 더 다루고있다. 이것은 심오한 진술처럼 보이지만 그 의미를 파악할 수없는 것 같습니다. 누구나 다시 말씀해 주시겠습니까?


1
표시된 방정식을 약간 편집해야합니다. 그 지수 는 지금 보이는 방식으로 분자의 에만 적용 할 수 있습니까 아니면 전체 에 적용하길 원 하십니까? 111N112
Dilip Sarwate

1
"퍼퍼 스피어"( 는 치수 의 매니 폴드 임 )를 "유니트 볼"(치수 ) 과 구별하는 데 도움이됩니다 . 초구는 공 의 경계 입니다. 제목이 말하는 것처럼, 모든 포인트가에서 샘플링하는 경우 hypersphere 정의에 의해 - - 다음, 그들은 모두 거리가 원점에서, 중간 거리이다 , 그리고 모두가 동등하게 가까운 원점입니다. p-1p11Rpp1p11
whuber

@DilipSarwate 전체에 적용됩니다 . 책의 일례가 여기서 이므로 N=500,p=10d(p,N)0.5212N=500,p=10d(p,N)0.52
user64773

답변:


9

반경 r 차원 하이퍼 볼의 부피는 r p에 비례하는 부피를 갖는다 .prrp

그래서 더 많은 거리보다 체적의 비율 원점에서이 R의 p는 - ( k 값 R ) Pkr.rp(kr)prp=1kp

모든 무작위로 선택된 점이 원점으로부터의 거리 k r 이상일 확률 은 ( 1 - k p ) N 입니다. 가장 가까운 임의의 점까지의 중간 거리를 구하려면이 확률을 1로 설정하십시오.Nkr(1kp)N . 따라서(1kp)N=112

(1kp)N=12
케이=(1121/)1/.

직관적으로 이것은 어떤 종류의 의미가 있습니다. 무작위 점이 많을수록 원점에 가장 가까운 점이 더 가까울 것으로 기대하므로 N의 함수가 감소 해야합니다 . 여기서 2 1 / N을 의 감소 함수이고 N이 되도록, 1케이21/ 의 증가 함수이며N, 따라서1-1121/p의근과 마찬가지로N의 감소 함수입니다.1121/


아, 그것을 보는 좋은 방법. 두 번째 질문에서 인용문을 재 해석 할 수 있습니까?
user64773

나는 높은 차원에서 예측할 점이 구의 가장자리에있는 것처럼 훈련 데이터와 효과적으로 먼 거리를 가지고 있기 때문에 실제로 보간하지 않고 오히려 외삽하기 때문에 불확실성이 훨씬 크다고 생각합니다. 그러나 나는 정말로 모른다.
Henry

나는 그것을 얻지 못합니다-왜이 표현이 모든 점이 kr보다 먼 확률 일지 이해하지만 왜이 확률을 1/2로 설정하면 평균 거리가됩니까?
ihadanny

1
@ihadanny : 값 는 모든N점이 더 멀어 질확률이1 인반경의 분수를 나타냅니다.케이=(1121/)1/ 확률은 적어도 하나의 포인트가 가까운 곳 등이며1-112 , 그래서k 개의R가장 가까운 지점까지의 거리 분포의 중앙값이다. 112=12케이아르 자형
Henry

1
중간 값의 정의, 절반은 더 크고 절반은 더 작습니다.
Grant Izmirlian

2

손을 흔들지 않고

  1. 임의의 서열의 rv에 대해, 여기서 F 는 공통 CDF

    (1나는와이나는>와이)=(1에프(와이)),
    에프
  2. 우리가 따라서 만약 균일하게 분포 IID X에게 I를 상기 단위 공 (P)의 측정 후 P ( 1 I N | | X | | > R ) = ( 1 - F ( R ) ) N , 여기서 F는 이고 거리의 공통 CDF, | | X 나는 | | , i = 1 , 2 ,엑스나는

    (1나는||엑스나는||>아르 자형)=(1에프(아르 자형)),
    에프 . 마지막으로, CDF, 무엇 F는 의 단위 볼에 균일하게 분포 된 점, R의 P ? 점이 단위 반경의 볼 내에서 반경의 볼 r에있을 확률은 부피의 비율과 같습니다.||엑스나는||,나는=1,2,,에프아르 자형

에프(아르 자형)=(||엑스나는||아르 자형)=아르 자형/(1)=아르 자형

따라서 해결책은

1/2=(1나는||엑스나는||>아르 자형)=(1아르 자형)

이다

아르 자형=(1(1/2)1/)1/.

또한 표본 크기 에 대한 의존성에 대한 질문 . 들어 p는 고정 된 볼이 더 많은 포인트로 채워으로, 자연스럽게 원점 최소 거리가 작아한다.

케이아르 자형


0

간결하지만 말로 :

p아르 자형h아르 자형아르 자형아르 자형아르 자형. 식 [1]을 다음과 같이 쓸 수 있습니다.

(1나는||엑스나는||>아르 자형)=(1아르 자형).

1/2아르 자형

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.