표본 외 데이터 과적 합에 대해 100 % 모델 정확도가 있습니까?


11

cognitiveclass.ai에서 R 과정에 대한 기계 학습을 마쳤으며 randomforests를 실험하기 시작했습니다.

R의 "randomForest"라이브러리를 사용하여 모델을 만들었습니다.이 모델은 좋거나 나쁜 두 클래스로 분류됩니다.

모델이 과적 합되면 자체 훈련 세트의 데이터에서는 잘 수행되지만 샘플에서 벗어난 데이터에서는 제대로 수행되지 않습니다.

내 모델을 훈련하고 테스트하기 위해 전체 데이터 세트를 섞어서 훈련 용 70 %와 테스트 용 30 %로 나누었습니다.

내 질문 : 테스트 세트에서 수행 한 예측에서 100 % 정확도를 얻었습니다. 이게 나쁜가요? 사실이 너무 좋은 것 같습니다.

목표는 파형에 따라 서로 4 개의 파형을 인식하는 것입니다. 데이터 세트의 기능은 대상 파형을 사용한 파형의 동적 시간 왜곡 분석 비용 결과입니다.


사이트에 오신 것을 환영합니다! 노이즈 데이터를 예측하려고 했습니까?
Toros91

재편성, 훈련 및 테스트 할 때마다 정확도는 100 %입니까?
Alex

아니 정확히 @ 알렉스 그러나 그것은 매우 높은 같은 98,55 % 유지
밀라노 반 DIJCK

1
@ 알렉스 11.35 % "확인"88.65 % "나쁜"
밀라노 반 DIJCK

1
상당히 불균형입니다. 리샘플링 (반복 샘플링)을 사용하여 트레이닝 세트의 균형을 OK 클래스 (예 : 30 %)로 기울이고 테스트 / 검증 세트에서 11/89 비율을 유지하십시오. 무엇을 얻습니까?
Alex

답변:


29

정확도와 같은 높은 검증 점수는 일반적으로 과적 합을하지 않음을 의미하지만주의를 기울여야하며 문제가 있음을 나타낼 수 있습니다. 또한 문제가 너무 어렵지 않고 모델의 성능이 우수하다는 것을 의미 할 수도 있습니다. 잘못 될 수있는 두 가지 :

  • 데이터를 올바르게 분할하지 않았고 검증 데이터도 훈련 데이터에서 발생했습니다. 즉, 더 이상 일반화를 측정하지 않으므로 과적 합을 나타냅니다.
  • 일부 기능 엔지니어링을 사용하여 추가 기능을 작성하고 일부 목표 누수를 도입했을 수 있습니다. 여기에서 행이 훈련 세트의 다른 목표가 아닌 현재 목표의 정보를 사용하고 있습니다.

11
100 % 정확도는 항상 "대상 누설"을 소리칩니다.
Paul

1

가장 예측 가능한 기능이 무엇인지 조사하십시오. 때로는 기능 중에 대상 (또는 대상과 동등한 대상)이 실수로 포함 된 경우가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.