Duda, Hart 및 Stork의 패턴 분류 섹션 9.2 고유 분류 자 부족의 섹션 9.2에 사용 된 표기법에 대해 몇 가지 질문이 있습니다 . 먼저 책에서 관련 텍스트를 인용하겠습니다.
- 단순화를 위해 트레이닝 세트의 두 종류의 문제를 고려 패턴 구성을 및 관련 카테고리 라벨 위해 학습 될 알려지지 않은 목표 함수에 의해 생성 된 n , , 여기서 .
- 하자 알게 될 가설 또는 파라미터 세트 수의 (별도의) 세트를 나타낸다. 특정 가설 는 신경망에서 양자화 된 가중치로, 또는 기능적 모델에서 파라미터 0 또는 트리의 결정 세트 등으로 설명 할 수 있습니다.
- 또한, 알고리즘이 가설 생산할 것이라는 사전 확률 훈련 한 후에는; 이것은 가 정확할 확률이 아닙니다 .
- 다음으로, 는 데이터 D 에 대해 훈련 될 때 알고리즘이 가설 를 산출 할 확률을 나타낸다 . 가장 가까운 이웃 및 의사 결정 트리와 같은 결정 론적 학습 알고리즘에서 P ( h | D ) 는 단일 가설 h를 제외한 모든 곳에서 0이됩니다 . 확률 론적 방법 (예 : 임의 초기 가중치로 학습 된 신경망) 또는 확률 론적 볼츠만 학습의 경우 P ( h | D ) 는 광범위한 분포 일 수 있습니다.
- 제로원 또는 기타 손실 함수의 오차라고 하자 .
실제 기능은 예상 오프 훈련 집합 분류 에러 와 용 확률 번째 후보 학습 알고리즘은 로 주어진다
정리 9.1. (무료 점심 없음) 두 학습 알고리즘 및 P 2 ( h | D ) 의 경우 샘플링 분포 P ( x ) 및 훈련 지점 수 n 에 관계없이 다음 사항이 적용됩니다.
모든 목표 함수 , 에 대해 균일하게 평균화
고정 훈련 세트 에 대해 이상으로 균일하게 평균화되는 경우 F E 1 ( E | F , D ) — E 2 ( E | F , D ) = 0
파트 1은 실제로
2 부에서는 실제로
내 질문은
- 의 공식에서 , 즉 를 바꾸고 합계 , 그것의 분포 때문에 정말로 이상 주어진 대한 확률 학습 알고리즘 번째는? E k (E | F,n)= ∑ x ∉ D P(x)[1−δ(F(x),h(x))] P k (h(x) | D), P k (시간(x)
- 감안할 후보 학습 알고리즘 번째 이유의 화학식에서, 확률 방법 , 아무런 합 없다 즉 ?
어떻게하다 및 서로 다른?
합니까 훈련 세트 주어진 오프 교육 오류율 의미 ?
않습니다 훈련의 크기를 주어진 모든 훈련 세트 이상 평균 오프 교육 오류율, 평균 ? 그렇다면 NFL 정리의 파트 1이 를 작성하여 다시 훈련 세트에 대해 평균 을 갖는 이유와 , 훈련 크기를 주어진 모든 훈련 세트 아무런 평균 없다 ?
- NFL 정리의 1 부에서 는 고정 된 훈련 크기 을 갖는 모든 훈련 세트에 대한 합산을 의미 합니까?
- 1 부에서 훈련 크기 의 에서 가능한 모든 값을 더 합하면 결과는 여전히 0입니까?
- 의 화학식 , 나는 변경하는 경우 에 , 즉 반드시 학습 집합 외부로 제한되지 않으며, 윌 두 부분에서 NFL 정리는 여전히 사실입니까?
- 실제의 관계 경우 및 결정적 함수로 간주되지 로 대신 조건부 분포들 또는 조인트 분포 에 해당 알고 와 (참조 내 또 다른 질문을 , 나는 변경할 수)
될 수 (이상한 부분 1 및 2)에서 지적했다. NFL 정리의 두 부분이 여전히 사실입니까?
감사합니다.
가 디랙 / 크로네 커 델타? 에서는