Occam의 Razor 원리는 기계 학습에서 어떻게 작동합니까?


11

이미지에 표시된 다음 질문은 최근 시험 중 하나에서 요청되었습니다. 내가 Occam의 Razor 원칙을 올바르게 이해했는지 잘 모르겠습니다. 질문에 주어진 분포와 결정 경계에 따라 Occam 's Razor에 이어 두 경우 모두 결정 경계 B가 답이되어야합니다. Occam의 Razor에 따라 복잡한 분류기보다 알맞은 분류기를 선택하십시오.

내 이해가 정확하고 선택한 답변이 적절한 지 아닌지 누군가가 증언 할 수 있습니까? 머신 러닝 초보자 일 뿐이므로 도와주세요

질문


2
3.328 "표지판이 필요하지 않으면 의미가 없습니다. Occam 's Razor의 의미입니다." Wittgenstein에 의해 Tractatus Logico-Philosophicus에서
호르헤 Barrios

답변:


13

오캄의 면도기 원리 :

경험적 위험이 동일한 두 가지 가설 (여기서는 의사 결정 경계)이 있고 (여기서는 훈련 오류) 짧은 설명 (여기서는 매개 변수가 적은 경계)이 긴 설명보다 더 유효한 경향이 있습니다.

귀하의 예에서 A와 B는 모두 훈련 오류가 없으므로 B (짧은 설명)가 선호됩니다.

훈련 오류가 같지 않으면 어떻게됩니까?

경계 A가 B보다 훈련 오차가 작은 경우 선택이 까다로워집니다. 우리는 "실험적 위험"과 같은 "설명 크기"를 정량화하고 두 기능을 하나의 점수 함수로 결합한 다음 A와 B를 비교합니다. 예를 들어 경험적 위험 (음성으로 측정)을 결합한 AIC ( Akaike Information Criterion )가 있습니다. 한 점수에서 로그 우도) 및 설명 크기 (매개 변수 수로 측정).

참고로, AIC를 모든 모델에 사용할 수있는 것은 아니며 AIC에 대한 대안도 많이 있습니다.

검증 세트와의 관계

많은 실제 경우에, 모델이 더 복잡한 학습 (더 큰 설명)을 향해 진행될 때 더 낮은 트레이닝 에러에 도달 할 때, AIC 등은 검증 세트 (모델이 훈련되지 않은 세트)로 대체 될 수있다. 유효성 검사 오류 (유효성 검사 세트의 모델 오류)가 증가하기 시작하면 진행이 중지됩니다. 이런 식으로, 우리는 낮은 훈련 오류와 짧은 설명 사이의 균형을 잡습니다.


3

Occam Razor는 Parsimony 교장과 동의어입니다. (KISS, 간단하고 멍청하게 유지하십시오.) 대부분의 알고는이 교장에서 일합니다.

위의 질문에서 간단한 분리 가능한 경계를 설계 할 생각을해야합니다.

첫 번째 그림 에서처럼 D1의 답은 B입니다. 2 개의 샘플을 분리하는 최상의 선을 정의 할 때 a는 다항식이므로 과적 합으로 끝날 수 있습니다. (내가 SVM을 사용했다면 그 줄이 올 것입니다)

그림 2와 유사하게 D2는 B입니다.


2

데이터 피팅 작업에있어 Occam의 면도기 :

  1. 먼저 선형 방정식을 시도
  2. (1) 많이 도움이되지 않는 경우, 항이 적거나 변수가 적은 비선형을 선택하십시오.

D2

B데이터를 멋지게 분리하는 선형 경계 이기 때문에 분명히 승리 합니다. (현재 정의 할 수없는 "좋은"것은 무엇입니까? 당신은이 느낌을 경험으로 발전시켜야합니다.) A경계는 지터가없는 사인파처럼 보이는 비선형입니다.

D1

그러나 나는 이것에 대해 확신하지 못한다. A경계는 원과 같으며 B엄격하게 선형입니다. IMHO, 나를 위해-경계선은 원 세그먼트 나 선 세그먼트가 아니며 포물선 모양의 곡선입니다.

여기에 이미지 설명을 입력하십시오

그래서 나는 C:-)를 선택합니다.


여전히 D1의 중간 라인을 원하는 이유가 확실하지 않습니다. Occam의 면도기는 작동하는 간단한 솔루션을 사용한다고 말합니다. 더 많은 데이터가 없으면 B는 데이터에 맞는 완벽하게 유효한 부서입니다. 우리가 B의 데이터 세트에 더 많은 곡선을 제안하는 더 많은 데이터를 받았다면 나는 당신의 주장을 볼 수 있지만 C를 요청하는 것은 작동하는 선형 경계이기 때문에 당신의 포인트 (1)에 반대합니다.
Delioth 2014 년

이 때문에 빈 공간을 많이 에서 B점의 왼쪽 원형 클러스터를 향한 라인. 이것은 새로운 임의의 점 도착이 왼쪽의 원형 클러스터에 할당 될 가능성이 매우 높고 오른쪽의 클러스터에 할당 될 가능성이 매우 적음을 의미합니다. 따라서 B평면에서 새로운 임의의 점이있는 경우 선은 최적의 경계가 아닙니다. 데이터의 임의성을 무시할 수 없습니다. 일반적으로 항상 점의 임의 변위가 있기 때문에
Agnius Vasiliauskas

0

내가 Occam의 Razor 원칙을 올바르게 이해했는지 잘 모르겠습니다.

먼저 Occam의 면도기를 해결해 보겠습니다.

Occam의 면도기 [..]는 "단순한 솔루션이 복잡한 솔루션보다 더 정확할 것"이라고 말합니다. - 위키

다음으로 답변을 해결하십시오.

Occam의 Razor에 따라 복잡한 분류기보다 알맞은 분류기를 선택하십시오.

기계 학습에서는 과적 합이 문제가되기 때문에 올바른 것입니다. 보다 복잡한 모델을 선택하면 문제의 실제 동작이 아니라 테스트 데이터를 분류 할 가능성이 높습니다. 즉, 복잡한 분류기를 사용하여 새 데이터를 예측할 때는 단순 분류기보다 더 나빠질 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.