VC 차원 경계를 학습하는 적절한 PAC


11

VC 치수 d 를 갖는 개념 클래스 대해, O ( d) 를 얻기에 충분 하다는 것이 잘 알려져있다.CdO(dεlog1ε)PAC에 ε )레이블이 붙은 예는배운다C. PAC 학습 알고리즘 (이러한 많은 샘플을 사용하는)이 올바른지 또는 부적절한 지 확실하지 않습니까? Anthony와 Biggs뿐만 아니라 Kearns와 Vazirani의 교과서에는 PAC 학습 알고리즘이 부적절한 것처럼 보입니다 (즉, 출력 가설이있지 않음C)

  1. 적절한 PAC 학습 환경에 대해 유사한 상한값이 유지되는지 누군가가 명확히 할 수 있습니까? 그렇다면 명시 적으로 언급되고 자체 포함 된 증거가 포함 된 참조를 제공해 주시겠습니까?

  2. 최근 Hanneke는 계수를 제거하여이 한계를 개선했습니다 . 경우 누군가가 명확히 수 로그 ( 1 / ε ) 적절한 PAC 학습 설정에 대한 이동식 것으로 알려져있다? 아니면 여전히 공개 질문입니까?log(1/ε)log(1/ε)


당신이 말하는이 Hanneke 논문은 무엇입니까?
gradstudent

답변:


9

이 질문에 관심을 가져 주신 Aryeh 에게 감사드립니다 .

다른 언급 된 바와 같이, (1)에 대한 응답이 와 경험적 위험 최소화하는 간단한 방법 C 달성 O((d/ε)log(1/ε)) 샘플 복잡성 (Vapnik 및 Chervonenkis, 1974 참조; Blumer, Ehrenfeucht, Haussler, Warmuth, 1989).

(2)에 관해서는,이 공간을이 존재한다는 사실은 알려져 C 없이 적절한 학습 알고리즘 달성 한 더 이상 Ω((d/ε)log(1/ε)) 샘플 복잡성 때문에 적절한 학습이 최적의 달성 할 수없는 O(d/ε) 샘플 복잡성. 내가 아는 한,이 사실은 실제로 출판 된 적이 없지만 Daniely와 Shalev-Shwartz (COLT 2014) (원래 멀티 클래스 학습의 다른 질문이지만 관련 질문을 위해 공식화 됨)의 관련 주장에 근거하고 있습니다.

간단한 경우 d=1 고려하고 공간 X{1,2,...,1/ε} 로 두십시오 . . . , 1 / ε }C 싱글 인 fz(x):=I[x=z],zX : 즉, 각 분류 C 행 정확히 하나의 포인트를 분류 X 로서 1 과 등과 같은 0. 가 하한 들어, 임의의 싱글로서 타겟 기능을 fx 여기서, xUniform(X) , 및 P 의 여백 분포 X , 균일에 X{x} . 이제 학습자 레이블 어떤 예를 볼 수 없다 1 하지만, 포인트 선택해야 z추측 레이블이 1 (중요한 것은``모두 0 ''기능은 하지C임의의 적절한 학습자 그렇게 해야 어떤 추측 z 그것의 모든 점을 볼 때까지), 및 X{x} 는 적어도 갖는 1/2 즉, 자신의 사후 확률 (잘못된 추측 확률 fz 갖는 zx1/2 이상 ) 쿠폰 수집기 인수는 Ω ( ( 1 / ε ) 로그 ( 1 / ε ) ) 가 필요함을 나타냅니다.Ω((1/ε)log(1/ε))X{x} 모든 점을 볼 수있는 표본 . 따라서 이것은 모든 적절한 학습자에 대해 Ω((1/ε)log(1/ε)) 의 하한을 증명합니다 .

일반 d>1 경우 X{1,2,...,d/(4ε)} 취할 C 분류 기준으로 IA 세트의 X 정확하게 크기 거라고 , 임의로 목표 함수 선택 C를 하고 가지고 P를 단지 포인트 균일로 다시 목표 함수를 분류 0 ( 따라서 학습자는 1 이라는 점을 보지 못합니다.AXdCP01). 그런 다음 쿠폰 컬렉터 인수의 일반화는 우리가 필요로하는 의미 Ω((d/ε)log(1/ε)) 샘플은 적어도 보려면 |X|2d 구별 점 X , 임의의 적절한 학습자 적어도 갖고이 많은 고유 점 보지 않고 1/3 보다 큰 점점 확률 d/4 의 추측의 의 차원 의 선택된 가설에 점 잘못된 시간 AdhA오류율이 ε 보다 큰 것을 의미합니다 . 따라서이 경우 Ω((d/ε)log(1/ε)) 보다 작은 샘플 복잡도를 가진 적절한 학습자가 없으며 , 이는 적절한 학습자가 최적의 샘플 복잡도 O(d/ε) 달성하지 못함을 의미 합니다.

결과는 구성된 공간 C 에 따라 상당히 다릅니다 . 존재 공간 거기에서 C 적절한 학습자가 달성 O(d/ε) 최적 샘플 복잡성, 실제로 심지어 정확한 전체 식 O((d/ε)+(1/ε)log(1/δ)) 으로부터는 ( Hanneke, 2016a). 일반 ERM 학습자에 대한 일부 상한 및 하한은 (Hanneke, 2016b)에서 개발되었으며 공간 C 의 특성으로 정량화되었습니다.C특정 학습자가 때때로 최적의 샘플 복잡성을 달성 할 수있는 좀 더 전문화 된 사례에 대해 논의합니다.

참고 문헌 :

Vapnik and Chervonenkis (1974). 패턴 인식 이론. 1974 년 모스크바 나우 카

Blumer, Ehrenfeucht, Haussler 및 Warmuth (1989). 학습 성과 Vapnik-Chervonenkis 차원. 전산 기계 학회지, 36 (4) : 929–965.

Daniely and Shalev-Shwartz (2014). 멀티 클래스 문제에 대한 최적의 학습자. 제 27 차 학습 이론 회의에서 발췌.

Hanneke (2016a). PAC 학습의 최적의 샘플 복잡성. 머신 러닝 리서치, Vol. 17 (38), 1-15면.

Hanneke (2016b). 여러 학습 알고리즘에 대한 개선 된 오류 경계. 머신 러닝 리서치, Vol. 17 (135), 1-55 쪽.


흥미로운 ... 적절한 PAC 학습이 표본 최적화에 적합한 클래스 의 조합 특성이 있습니까? 또는 적어도 충분한 조건 (교차로 폐쇄, 노조?)C
Clement C.

2
@ClementC. 적절한 학습자가 일반적으로 달성 할 수있는 최적의 등급을 갖는 클래스의 완전한 특성화는 알려져 있지 않습니다. 참고 논문 "Refined error bounds ..."는 모든 ERM 학습자에게 최적의 등급을 인정하는 클래스의 조합 특성을 제공합니다 (Corollary 14). 관련 수량은 "별 번호"입니다. 하나는 다른 하나를 변경하지 않고 단일 지점의 레이블을 뒤집을 수있는 최대 지점 수입니다 (정의 9). 교차로 폐쇄 수업에는 최적의 적절한 학습자가 있습니다 : "폐쇄"alg (논문의 정리 5, 또한 Darnstädt, 2015에 의해 입증 됨).
S. Hanneke

감사합니다!
Clement C.

6

귀하의 질문 (1)과 (2)는 관련이 있습니다. 먼저 적절한 PAC 학습에 대해 이야기합시다. 제로 샘플 오류를 달성하면서도 Ω ( d)을 요구하는 적절한 PAC 학습자가 있음이 알려져 있습니다예. ϵ의존성을간단히 증명하려면 균일 분포 하에서구간의 개념 클래스[a,b][0,1]을 고려하십시오. 가장 작은일관된 간격을 선택하면표본 복잡도는O(1/ϵ)가됩니다. 그러나가장 큰일관된 구간을선택하고목표 개념이[0,0]과 같은 점 구간이라고 가정합니다.Ω(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]. 그런 다음 간단한 쿠폰 수집기 인수는 우리가 대략받지 않으면 예제, 우리는 음의 예제들 사이의 간격 (우리가 보게 될 유일한 종류)에 속지 않을 것입니다-균일 한 분포 하에서1/[샘플 크기]의 특성 거동을 갖습니다. 이 유형의 더 일반적인 하한은1ϵlog1ϵ1/

P. Auer, R. Ortner. 교차로 폐쇄 개념 클래스를위한 새로운 PAC. 기계 학습 66 (2-3) : 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

적절한 PAC에 대한 것은 추상 사례에서 긍정적 인 결과를 얻기 위해 ERM 이외의 알고리즘을 지정할 수 없다는 것입니다. 이는 "표지 된 샘플과 일치하는 개념을 찾는 것"입니다. 간격과 같은 추가 구조가있는 경우 위와 같이 최소 대 최대 일관된 세그먼트라는 두 가지 다른 ERM 알고리즘을 검사 할 수 있습니다. 그리고 이것들은 다른 샘플 복잡성을 가지고 있습니다!

부적절한 PAC의 힘은 다양한 투표 방식을 설계 할 수 있다는 것입니다 (Hanneke의 결과는 이와 같습니다). (이 이야기는 불가지론 적 PAC에 대해 더 간단합니다. ERM은 최고 수준의 최악의 속도를 제공합니다.)

편집하다. D. Haussler, N. Littlestone, Md K. Warmuth의 1- 포함 그래프 예측 전략이 나에게 생겼습니다. 무작위로 그려진 점에 대한 {0,1}-함수 예측. Inf. 계산. 115 (2) : 248-292 (1994)는 보편적 인 적절한 PAC 학습자를 위한 자연스러운 후보 일 수 있습니다 .O(d/ϵ)


감사! 좋아, 내가 제대로 이해 그렇다면, 부적절한 PAC 학습의 샘플 복잡성은 과는 학습 적절한 PAC에 대한 Θ ( D / ε 로그 ( 1 / ε ) ) , 더 낮은 후자 행 당신이 제시 한 예를 위해 달성했습니다. 맞습니까? Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
익명

예. 부적절한 PAC의 경우 약간의 예약 만하면 기존 ERM뿐만 아니라 특정 알고리즘 (Hanneke 's)을 사용해야합니다. 답변을 자유롭게 수락하십시오 :)
Aryeh

나는 파티에 늦었지만 위에서 언급 한 적절한 PAC 하한은 특정 학습 알고리즘 (또는 제한된 클래스)에 대한 샘플 복잡도 하한이 아닌가? 그런 제한없이 정보가 이론적으로 적절하고 부적절한 PAC 사이에 분리되어 있지 않다는 것을 의미합니다. (따라서 또는 이와 유사한 계산적 가정없이 분리되지 않습니까?)NPRP
Clement C.

1
PAC 학습 성의 일반적인 정의는 폴리 시간 알고리즘을 요구합니다. 나의 요점은, (i) 적절하고 부적절하게 동일한 샘플 복잡성을 갖는다는 것입니다. (ii)이 요구 사항으로, 우리는 본질적으로 RP와 같지 않은 NP와 같은 것을 증명 하듯이, 적절하고 부적절한 것 사이에 무조건적인 분리를 증명할 수 없습니다. (우리는 특정 적절한 학습 알고리즘 의 샘플 복잡성에 대한 하한을 증명할 수 있지만, 내가 아는 한 Aryeh의 참조가하는 것입니다.)
Clement C.

1
@ClementC. 앞에서 언급 한 부적절한 의견 중 하나에서 부적절한 PAC 알고리즘을 실행 한 후 학습자가 부적절한 가설을 얻은 다음 학습자는 더 이상 샘플없이 개념 클래스에서 가장 가까운 적절한 가설을 찾을 수 있습니다. 그러나 학습자가 표본이 제공되는 분포를 모른 채 어떻게 할 수 있습니까? 알 수없는 분포에 따라 가장 근접하게 측정되지 않습니까?
익명

5

현재 허용되는 답변에 추가하려면

  1. 예. 표본 복잡도 상한은 적절한 PAC 학습을 위해 유지됩니다(그러나 계산적으로 효율적인 학습 알고리즘으로 이어지지 않을 수도 있음을 유의하는 것이 중요합니다.NP=RP아니라면일부 클래스는 효율적으로 적절한 PAC 학습 불가 Cf. 예 : Kearns—Vazirani 책의 정리 1.3). L은 가설 클래스가H=C 인일관된 가설 파인더가 있기 때문에 실제로 Kearns-Vazirani 책 (Theorem 3.3)에 나와있습니다. [1]도 참조하십시오.

    O(dεlog1ε)
    NP=RPLH=C
  2. 알 수 없는. Hanneke의 알고리즘 [2]은 부적절한 학습 알고리즘입니다. 적절한 PAC 학습을 위해 샘플 복잡성 에서이 추가 요소를 제거 할 수 있는지 (이론적으로 정보, 이론적으로 계산 효율 요구 사항을 따로 설정 하는 것 ) 는 여전히 미해결 문제입니다. Cf. [3]의 끝에서 열린 질문들 :log(1/ε)

    일반적으로 , ( ε , δ )- 적절한 PAC 학습을 위해 [1]의 상한에 있는 인자가 필요한지 여부는 여전히 공개적인 질문 입니다.log(1/ε)(ε,δ)

    (동일한 논문의 각주 1도 관련이 있습니다)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler 및 MK Warmuth. 학습 성과 Vapnik-Chervonenkis 차원. ACM 저널, 36 (4) : 929–965, 1989.

[2] S. Hanneke. PAC 학습의 최적의 샘플 복잡성. J. 마하 배우다. 입술 17, 1, 1319-1333, 2016.

[3] S. Arunachalam과 R. de Wolf. 학습 알고리즘의 최적 양자 샘플 복잡성. 제 32 회 전산 복잡성 회의 (CCC)의 절차, 2017.


Haussler et al.의 1- 내포 그래프가 추측된다. 최적의 PAC 학습자입니까?
Aryeh

@Aryeh 확실하지 않습니다. 내가 찾은 것으로부터, Warmuth는 2004 년에 그렇게 추측했다. 나는 그 이상을 모른다.
Clement C.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.