자유로운 점심 정리와 K-NN 일관성

전산 학습에서 NFL 정리는 보편적 학습자가 없다고 말합니다. 모든 학습 알고리즘에 대해, 학습자 출력에 오류가 많고 확률이 높은 가설을 출력하는 분포가 있습니다 (오류 가설은 낮음). 결론은 학습하기 위해 가설 클래스 또는 분포를 제한해야한다는 것입니다. Devroye 등은 자신의 저서 "패턴 인식에 대한 확률론"에서 K- 최근 접 이웃 학습자들을위한 다음과 같은 정리를 증명하고있다 : 여기서

Assume μ has a density. if k \to \infty and k / n \to 0 then for every ϵ > 0, there's N, s.t. for all n > N : P (R_{n} - R^{*} > ϵ) < 2 e x p (- C_{d} n ϵ^{2})

$\text{Assume } \mu \text{ has a density. if } k\to \infty \text{ and } k/n\to0 \\ \text{ then for every } \epsilon>0, \text{ there's } N, \text{ s.t.} \text{ for all } n>N : \\ P(R_n - R^* > \epsilon)< 2exp(-C_dn \epsilon ^{2})$

R^{*}

$R^*$ 는 베이 즈 최적화 규칙의 오류이고, 은 K-NN 출력의 실제 오류입니다 (확률은 크기 의 훈련 세트를 초과합니다 ), 는 인스턴스 공간의 확률 측정입니다

와

는 일부 상수는 유클리드 차원에만 의존합니다. 따라서 우리는 분배에 대한 어떠한 가정도하지 않으면 서, 어떤 제한된 클래스에서는 최고가 아니라는 최고의 가설에 가깝게 접근 할 수 있습니다. 그래서 나는이 결과가 어떻게 NFL 정리와 모순되지 않는지를 이해하려고 노력하고 있습니까? 감사!

R_{n}

$R_n$

n

$n$

μ

$\mu$

R^{d}

$\mathbb{R}^d$

C_{d}

$C_d$

k-nearest-neighbour consistency

— 마이클 J
소스

NFL 정리를 이해하는 방법은 모든 작업에서 나머지 것보다 나은 학습 알고리즘이 없다는 것입니다. 그러나 이것은 명백한 수학적 의미에서 그것이 이론적 증거가 아니라 경험적 관찰이라는 이론이 아니다.

kNN에 대해 말한 것과 유사하게 신경망에 대한 범용 근사 정리 (Universal Approximation Theorem for Neural Networks)도 있는데, 이는 2 계층 신경망이 주어지면 임의의 오류로 모든 기능을 근사 할 수 있다고 말합니다.

자, 이것이 어떻게 NFL을 깨뜨리지 않습니까? 기본적으로 간단한 2 계층 NN으로 생각할 수있는 모든 문제를 해결할 수 있습니다. 그 이유는 이론적으로 NN은 무엇이든 근사 할 수 있지만 실제로는 어떤 것도 근사하도록 가르치기가 매우 어렵 기 때문입니다. 그렇기 때문에 일부 작업의 경우 다른 알고리즘이 선호됩니다.

NFL을 해석하는보다 실용적인 방법은 다음과 같습니다.

주어진 작업에 가장 적합한 알고리즘을 미리 결정할 방법이 없습니다.

— CaucM
소스

답을 주셔서 감사하지만 일부 부정확성이 있습니다. 첫째, NFL 정리에는 증거가 있습니다 (예 : shalev-shwartz & ben-david, 기계 학습 이해, 5 장). 보편적 근사 정리를 위해-이 정리는 expresivness를 다루고 NFL 정리는 일반화를 다룹니다.

— 마이클 J