모델이 훈련 데이터의 정확도는 100 %이지만 테스트 데이터의 정확도는 70 %라고 가정합니다. 이 모델에 대해 다음과 같은 주장이 사실입니까?
이것이 과적 합 된 모델이라는 것은 명백합니다. 과적 합을 줄임으로써 테스트 정확도를 향상시킬 수 있습니다. 그러나이 모델은 테스트 데이터에 적합한 정확도를 갖기 때문에 여전히 유용한 모델이 될 수 있습니다.
모델이 훈련 데이터의 정확도는 100 %이지만 테스트 데이터의 정확도는 70 %라고 가정합니다. 이 모델에 대해 다음과 같은 주장이 사실입니까?
이것이 과적 합 된 모델이라는 것은 명백합니다. 과적 합을 줄임으로써 테스트 정확도를 향상시킬 수 있습니다. 그러나이 모델은 테스트 데이터에 적합한 정확도를 갖기 때문에 여전히 유용한 모델이 될 수 있습니다.
답변:
나는 그 주장이 맞다고 생각한다. 특정 응용 분야에서 70 %가 허용되는 경우 모델 이 초과 적합 하더라도 (보다 일반적으로 초과 적합 여부에 관계없이) 모형이 유용합니다 .
과적 합과 과적 합의 균형을 맞추는 것은 최적 성 (최적의 솔루션을 찾는 것)과 관련이 있지만 만족스러운 성능을 얻는 것은 충분합니다 (모델이 작업 에 충분한 성능을 발휘 합니까?). 최적의 모델이 아니더라도 모델이 충분할 수 있습니다.
편집 : OP의 Firebug와 Matthew Drury의 의견 후에 검증 성능이 문제가 될 수 있음을 모른 채 모델이 과적 합되었는지 여부를 판단하기 위해 추가 할 것입니다. Firebug는 과적 합의 양을 측정하기 위해 검증과 테스트 성능을 비교할 것을 제안합니다. 그럼에도 불구하고 모델이 테스트 세트에서 100 % 정확도를 제공하지 않고 훈련 세트에서 100 % 정확도를 제공 할 때 이는 초과 적합 가능성을 나타내는 지표입니다 (특히 회귀의 경우에는 반드시 분류에 해당하지는 않음).
set.seed(100)
set.seed(15)
신용 카드 사기 탐지 기능이있는 과거 프로젝트에서 사기 사건을 기억하기 위해 의도적으로 데이터 / 하드 코딩 된 데이터를 과도하게 맞추려고합니다. (한 클래스에 과적 합이 OP가 말한 일반적인 과적 합 문제는 아닙니다.) 이러한 시스템은 오 탐지가 상대적으로 낮으며 우리의 요구를 충족시킵니다.
따라서 과장된 모델은 일부 경우에 유용 할 수 있습니다.
아마도 : 조심하십시오. 70 % 정확도 (측정 방법)가 충분 하다고 말하면 오류가 무작위로 또는 균등하게 분산 된 것으로 가정합니다.
그러나 과적 합을 보는 방법 중 하나는 모델 기법이 훈련 세트의 단점에 너무 많은주의를 기울 이도록 허용 할 때 발생한다는 것입니다. 이러한 특징을 공유하는 일반 인구의 피험자는 결과가 불균형 할 수 있습니다.
따라서 훈련 데이터의 특정 특성 때문에 모든 빨간 개에 암이 있다고 말하는 모델이 생길 수 있습니다. 또는 24 세에서 26 세 사이의 기혼 인은 사기 보험 청구를 제기 할 수 있습니다. 70 %의 정확도는 모델이 지나치게 적합하기 때문에 피사체의 포켓이 100 % 잘못 될 수있는 많은 공간을 남겨 둡니다.
(과적 합이 아니라고 예측이 잘못되었다고 보장 할 수는 없습니다. 실제로 미달 적합 모델에는 잘못된 예측이 포함되어 있지만 과적 합을하면 훈련 데이터에서 쿼크의 영향이 확대되고 있음을 알 수 있습니다 .)
유용하지는 않지만 목적에 따라 다릅니다. 몇 가지가 떠 오릅니다.
이러한 분류기는 앙상블 에서 실제로 유용 할 수 있습니다 . 우리는 정규 가중치를 가진 분류기, TPR을 과체중 화하는 분류기, FNR을 과체중 화하는 분류기를 가질 수 있습니다. 그런 다음 간단한 3 회 투표 또는 평균화조차도 단일 분류기보다 더 나은 AUC를 제공합니다. 각 모델이 서로 다른 하이퍼 파라미터 (또는 서브 샘플링 된 훈련 세트 또는 모델 아키텍처)를 사용하는 경우 앙상블이 과적 합으로부터 약간의 내성을 얻습니다.
마찬가지로, 실시간 스팸 방지, 사기 방지 또는 신용 평가 의 경우 분류기 계층 을 사용하는 것이 좋습니다 . 레벨 1 분류기는 정말 빠르게 평가해야하며 (ms) FPR이 높은 것이 좋습니다 . 그들이 저지르는 실수는보다 정확하고 완전한 기능을 갖춘 느리게 높은 등급 분류 자 또는 궁극적으로 인간 검토 자에 의해 포착됩니다. 명백한 예 : 2013 년 "백악관 폭탄 공격으로 3 명이 사망"과 같은 Twitter 계정 인수로 인한 가짜 뉴스 헤드 라인이 게시 후 수십억 달러의 거래에 영향을 미치지 않도록합니다. 레벨 1 분류 기가 스팸에 대해이를 긍정적으로 표시해도됩니다. 감각적이지만 검증되지 않은 뉴스 보고서의 진실 / 거짓을 (자동으로) 결정하는 데 약간의 시간이 걸립니다.
과적 합 된 모델이 여전히 유용 할 수 있음을 부정하지 않습니다. 그러나이 70 %는 잘못된 정보 일 수 있습니다. 어떤 모델이 유용인지 아닌지는 판단하기 위해 필요한 것은입니다 밖으로의 샘플 오류 , 하지 테스트 오류 우리는 그것이 눈을 멀게 테스트 세트를 사용하여 추정 그래서, (아웃 오브 샘플 오류가 알려져 있지 않다 )이며 70 %가 좋은 근사치입니다.
@RichardHardy의 의견 후에 용어의 동일한 페이지에 있는지 확인하기 위해 테스트 오류를 블라인드 테스트 세트에 모델을 적용 할 때 얻은 오류로 정의 해 보겠습니다. 그리고 표본 외 오차는 모형을 전체 모집단에 적용 할 때의 오차입니다.
표본 외 오차의 근사치는 모형 자체와 데이터의 두 가지에 따라 달라집니다.
"최적의"모델은 데이터에 거의 의존하지 않는 (테스트) 정확도를 제공합니다.이 경우 좋은 근사치입니다. 데이터와 상관없이 예측 오류는 안정적입니다.
그러나 과적 합 된 모델의 정확도는 데이터에 크게 의존합니다 (훈련 세트에서 100 %, 다른 세트에서 70 %). 따라서 다른 데이터 세트에 적용 할 때 정확도가 70 % (또는 그 이상)보다 낮을 수 있으며 놀라운 결과를 초래할 수 있습니다. 다시 말해서, 70 %가 당신이 믿는 것을 당신에게 말하고 있지만 그렇지 않습니다.