SVM 모델의 학습 곡선이 편향 또는 분산으로 고통 받는지 어떻게 알 수 있습니까?


답변:


13

1 부 : 학습 곡선을 읽는 방법

먼저 평가를위한 충분한 데이터가있는 줄거리의 오른쪽에 중점을 두어야합니다.

  • 두 커브가 "서로 가까이"있고 둘 다 낮지 만 점수가 낮은 경우. 모델에 피팅 부족 문제 (고 바이어스)가 발생합니다.

  • 훈련 곡선의 점수는 훨씬 높지만 시험 곡선의 점수는 낮습니다. 즉, 두 곡선 사이에 큰 간격이 있습니다. 그런 다음 모델에 과도한 피팅 문제 (고 분산)가 발생합니다.

제 2 부 : 당신이 제공 한 음모에 대한 나의 평가

줄거리에서 모델이 좋은지 아닌지 말하기는 어렵습니다. 당신이 정말로 "쉬운 문제"를 가지고있을 수 있으며, 좋은 모델은 90 %를 달성 할 수 있습니다. 반면에, 우리가 할 수있는 최선의 일은 70 %를 달성하는 것이 정말로 "어려운 문제"일 가능성이 있습니다. (점수는 1이라고 말하면 완벽한 모델이 될 것이라고 기대할 수는 없습니다. 달성 할 수있는 양은 데이터의 노이즈 양에 따라 달라집니다. 무엇을 하든지 점수에서 1을 달성 할 수 없습니다.)

예제의 또 다른 문제는 실제 응용 프로그램에서 350 예제가 너무 작은 것 같습니다.

3 부 : 추가 제안

더 잘 이해하기 위해 다음과 같은 실험을 수행하여 과잉 피팅을 경험하고 학습 곡선에서 어떤 일이 일어날지를 관찰 할 수 있습니다.

  • MNIST 데이터와 같은 매우 복잡한 데이터를 선택하고 하나의 기능이있는 선형 모델과 같은 간단한 모델에 적합합니다.

  • SVM과 같은 복잡한 모델에 맞는 간단한 데이터 (예 : 홍채 데이터)를 선택하십시오.


제 4 부 : 다른 예

또한 언더 피팅과 오버 피팅과 관련된 두 가지 예를 제공합니다. 이것은 학습 곡선이 아니라, 그라디언트 부스팅 모델 의 반복 횟수와 관련하여 성능 이 높을 수록 반복 횟수가 많아 질 가능성이 높습니다. x 축은 반복 횟수를 나타내고 y 축은 ROC 아래의 음수 영역 인 성능을 나타냅니다 (낮을수록 좋습니다).

왼쪽 서브 플롯은 오버 피팅을 겪지 않고 (성능이 합리적으로 좋기 때문에 잘 맞지 않습니다), 오른쪽 서브 플롯은 반복 횟수가 클 때 오버 피팅을 겪습니다.

여기에 이미지 설명을 입력하십시오


hxd1011 감사합니다! 내 모델이 약간의 편차와 약간의 편견을 가지고 있다고 말하면 나에게 동의합니까 (점수가 1이 아니기 때문에)?
Afke

@Papie 나는 당신이 모델이 괜찮다고 생각합니다 ... 점수에서 80 %가 나쁘지 않고 두 곡선이 가깝습니다. 유일한 문제는 실제 응용 프로그램에서 너무 작을 수있는 예가 최대 350입니다.
Haitao Du

@Papie 또한 점수가 1이라고 말하는 완벽한 모델을 기대하지는 않을 것입니다. 데이터에 많은 데이터 포인트에 정확한 기능이 있지만 레이블이 다르더라도 어떤 작업을 수행하더라도 점수에서 1을 달성 할 수 없습니다.
Haitao Du

11
그의 "80 % 점수는 나쁘지 않다"고 생각하는 것은 좋은 방법이 아닙니다. 좋은 글로벌 점수는 없으며, 해결중인 문제, 특히 프로세스의 신호 대 잡음비와 사용 가능한 데이터에 크게 좌우됩니다. 당신은 당신의 대답에서 이것을 지적하므로 "나쁘지 않은"댓글을 제거 할 것입니다.
Matthew Drury

1
@MatthewDrury 제안 해 주셔서 감사합니다. 답변이 수정되었습니다!
Haitao Du
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.