이 답변은 주로 에 중점을 두지 만이 로직의 대부분은 AUC 등과 같은 다른 메트릭으로 확장됩니다.R2
이 질문은 CrossValidated의 독자들에 의해 거의 확실하게 대답 할 수 없습니다. 와 같은 모델 메트릭이 좋은지 여부를 결정하는 컨텍스트없는 방법 은 없습니다R2 . 극단적 인 경우, 일반적으로 다양한 전문가로부터 합의를 얻는 것이 가능합니다. 거의 1 의 는 일반적으로 좋은 모형을 나타내고 0에 가까워 지면 끔찍한 모형을 나타냅니다. 그 사이에는 평가가 본질적으로 주관적인 범위가 있습니다. 이 범위에서는 모델 지표가 적합한 지 여부를 판단하는 데 통계 전문 지식 이상의 것이 필요합니다. CrossValidated 독자에게는없는 영역에서 추가 전문 지식이 필요합니다.R2
왜 이런거야? 내 경험의 예를 들어 설명해 드리겠습니다 (사소한 세부 사항이 변경됨).
나는 미생물학 실험실 실험을했었다. 다른 농도의 영양소 농도로 세포 플라스크를 설정하고 세포 밀도의 성장을 측정합니다 (즉,이 세부 사항은 중요하지 않지만 시간에 대한 세포 밀도의 기울기). 그런 다음이 성장 / 영양 관계를 모델링 할 때 > 0.90의 값 을 얻는 것이 일반적이었습니다 .R2
나는 지금 환경 과학자입니다. 자연 측정 값이 포함 된 데이터 세트로 작업합니다. 위에서 설명한 것과 동일한 모델을 이러한 '필드'데이터 집합에 맞추려고하면 가 0.4만큼 높으면 놀랄 것 입니다.R2
이 두 경우는 매우 유사한 측정 방법, 동일한 절차를 사용하여 작성 및 장착 된 모델, 심지어 같은 사람이 피팅을 수행하는 것과 동일한 파라미터를 사용합니다. 그러나 어떤 경우 에는 0.7 의 가 걱정스럽게 낮아지고 다른 경우에는 의심스럽게 높아집니다.R2
또한 생물학적 측정과 함께 일부 화학 측정을 수행합니다. 화학 표준 곡선의 모델은 약 0.99이고 값이 0.90이면 걱정할 정도로 낮습니다 .R2
이처럼 큰 기대 차이가 발생하는 이유는 무엇입니까? 문맥. 이 모호한 용어는 광범위한 영역을 다루므로 좀 더 구체적인 요소로 분리 해 보겠습니다 (불완전한 것 같습니다).
1. 지불 / 결과 / 응용이란 무엇입니까?
이것은 당신의 분야의 본질이 가장 중요한 곳입니다. 그러나 귀중한 작품은 내 모델 s를 0.1 또는 0.2만큼 높이면 세상에 혁명을 일으키지 않을 것이라고 생각합니다. 그러나 그 정도의 변화가 큰 응용 프로그램이 있습니다! 주식 예측 모델의 훨씬 작은 개선은 모델을 개발하는 회사에 천만 달러를 의미 할 수 있습니다.R2
이것은 분류 자에 대해 설명하기가 훨씬 쉽기 때문에 다음 예제 에서는 메트릭에 대한 토론을 에서 정확도로 전환합니다 ( 순간에 대한 정확도 메트릭의 약점은 무시 ). 닭 섹스 의 이상하고 유리한 세계를 고려하십시오 . 수년간의 훈련을 거친 후, 인간은 암컷과 암컷의 새끼가 하루 만에 차이를 신속하게 알 수 있습니다. 육류 및 계란 생산을 최적화하기 위해 수컷과 암컷이 다르게 공급되므로 고 정확도는 수십억에 대한 잘못 할당 된 투자의 막대한 양을 절약합니다R2조류. 수십 년 전까지 미국에서는 약 85 %의 정확도가 높은 것으로 간주되었습니다. 오늘날 가장 높은 정확도를 달성하는 가치는 약 99 %입니까? 연봉이 60,000 ~ 180,000 달러 정도로 높은 급여 (일부 빠른 인터넷 검색 기준). 인간은 여전히 작업 속도가 제한되어 있기 때문에 유사한 정확도를 달성 할 수 있지만 분류를 더 빠르게 수행 할 수있는 머신 러닝 알고리즘은 수백만의 가치가 있습니다.
(당신이 모범을 보았기를 바랍니다. 대안은 테러리스트의 매우 의심스러운 알고리즘 식별에 대한 우울한 대안이었습니다).
2. 시스템에서 모델링되지 않은 요소의 영향은 얼마나 강력합니까?
많은 실험에서 시스템에 영향을 줄 수있는 다른 모든 요소 (시스템의 일부는 실험의 목표 임)에서 시스템을 분리 할 수있는 사치가 있습니다. 자연은 더 지저분합니다. 초기 미생물학의 예를 계속하려면 : 영양소를 사용할 수있을 때 세포가 자라지 만 다른 것들도 영향을받습니다. 얼마나 더 울지, 포식자가 몇 개인 지, 물에 독소가 있는지 여부입니다. 모든 영양소와 복잡한 방식으로 서로 coveary. 이러한 다른 요소는 모델에서 캡처하지 않은 데이터의 변동을 유발합니다. 영양소는 다른 요인에 비해 변동을 유발하는 데 중요하지 않을 수 있으므로 다른 요인을 제외하면 필자의 필드 데이터 모델의 가 반드시 낮아집니다 .R2
3. 측정이 얼마나 정확하고 정확합니까?
세포와 화학 물질의 농도를 측정하는 것은 매우 정확하고 정확할 수 있습니다 . 트렌드 트위터 해시 태그를 기반으로 커뮤니티의 감정 상태를 측정하는 것 (예를 들어)은 거의 없습니다. 측정 값을 정확하게 측정 할 수없는 경우 모델에서 높은 달성 할 가능성이 거의 없습니다 . 현장에서 측정이 얼마나 정확합니까? 우리는 아마 모른다.R2
4. 모델 복잡성과 일반화
모형에 임의의 요인을 추가하여 임의의 요인을 추가하는 경우 평균적으로 모형 증가합니다 (조정 된 가이를 부분적으로 처리 함). 이것은 너무 적합 합니다. 과적 합 모델은 새로운 데이터로 잘 일반화되지 않습니다. 즉, 원래 (트레이닝) 데이터 셋에 대한 맞춤을 기반으로 예상보다 높은 예측 오류가 발생합니다. 원래 데이터 세트 의 노이즈 에 적합하기 때문 입니다. 모델 선택 절차의 복잡성으로 인해 모델이 불이익을 받거나 정규화되는 이유가 여기에 있습니다.R2R2
과적 합이 무시되거나 성공적으로 막히지 않으면, 추정 된 는 상향으로 편향 될 것입니다. 다시 말해, 값은 모델이 과적 합 된 경우 모델 성능에 대한 잘못된 인상을 줄 수 있습니다.R2R2
IMO, 과적 합은 놀랍게도 많은 분야에서 일반적입니다. 이것을 피하는 가장 좋은 방법은 복잡한 주제이며, 관심이 있으시면이 사이트에서 정규화 절차와 모델 선택 에 대해 읽으십시오 .
5. 데이터 범위 및 외삽
데이터 세트가 관심있는 X 값 범위의 상당 부분으로 확장됩니까? 기존 데이터 범위 밖의 새 데이터 포인트를 추가하면 추정 에 큰 영향을 줄 수 있습니다 . X 및 Y의 분산을 기반으로하는 메트릭이기 때문입니다.R2
이 외에도 모델을 데이터 세트에 맞추고 해당 데이터 세트의 X 범위를 벗어난 값을 예측해야하는 경우 (예 : 외삽 ) 성능이 예상보다 낮을 수 있습니다. 추정 한 관계가 적합치 않은 데이터 범위를 벗어나 변경 될 수 있기 때문입니다. 아래 그림에서 녹색 상자로 표시된 범위에서만 측정을 수행 한 경우 직선 (빨간색)으로 데이터를 잘 묘사 한 것으로 생각할 수 있습니다. 그러나 해당 빨간색 선으로 해당 범위를 벗어난 값을 예측하려고 시도하면 잘못되었을 것입니다.
[그림은 편집의 버전 이 하나 'Monod 식 곡선'에 대한 빠른 구글 검색을 통해 발견.]
6. 측정 항목은 그림의 일부만 제공합니다.
이는 실제로 메트릭스에 대한 비판이 아니라 요약 입니다. 즉, 의도적으로 정보를 버립니다. 그러나 모든 단일 메트릭은 해석에 중요한 정보를 제외합니다. 좋은 분석은 단일 메트릭 이상의 것을 고려합니다.
제안, 수정 및 기타 피드백을 환영합니다. 물론 다른 답변도 있습니다.