진단 지표 ( / AUC / 정확도 / RMSE 등) 값을 기준으로 내 모델이 양호 합니까?

12

내 모델을 장착했으며 그것이 좋은지 이해하려고합니다. 이를 평가하기 위해 권장 측정 항목을 계산했지만 ( / AUC / 정확도 / 예측 오류 등), 해석 방법을 모릅니다. 요컨대, 메트릭을 기반으로 모델이 좋은지 어떻게 알 수 있습니까? 되어 충분한 (예를 들어) 0.6의 날 추론 또는 기본 과학 / 비즈니스 의사 결정을 그릴 진행하도록하려면? $R^2$ $R^2$

이 질문은 회원들이 자주 겪는 다양한 상황을 다루기 위해 의도적으로 광범위합니다. 그러한 질문은 이것과 중복 될 수 있습니다. 여기에 언급 된 측정 항목 이외의 범위를 확장하기위한 편집은 추가 답변, 특히 다른 측정 항목 클래스에 대한 통찰력을 제공하는 답변과 마찬가지로 환영합니다.

— mkt-복원 모니카
소스

1

관련 : 어떻게 당신의 기계 학습 문제가 희망이 있음을 알고? " 있는데 더 이상 개선 할 수 없습니까?"

R^{2} = 0.6

$R^2=0.6$

— Stephan Kolassa

2

또는 다른 사용 된 메트릭의 기준선 ? 가는 이리저리의 로 특정 애플리케이션의 놀라운 성능 점프 할 수 있습니다. 이 정확히 어떻게 모든 합리적인 게시 작동합니다. 우리는 제안 된 모델을 가지고 있고, 잘 받아 들여진 일련의 메트릭스를 가지고 있으며, "최첨단"에 대한 지식을 가지고 있으며 성능을 비교합니다. 우리가 우리의 모델이 있는지 알고 어떻게 그리고 그건 좋은 .

R^{2}

$R^2$

R^{2} = 0.03

$R^2 = 0.03$

R^{2} = 0.05

$R^2 = 0.05$

— usεr11852 2016 년

18

이 답변은 주로 에 중점을 두지 만이 로직의 대부분은 AUC 등과 같은 다른 메트릭으로 확장됩니다. $R^2$

이 질문은 CrossValidated의 독자들에 의해 거의 확실하게 대답 할 수 없습니다. 와 같은 모델 메트릭이 좋은지 여부를 결정하는 컨텍스트없는 방법 은 없습니다 $R^2$ . 극단적 인 경우, 일반적으로 다양한 전문가로부터 합의를 얻는 것이 가능합니다. 거의 1 의 는 일반적으로 좋은 모형을 나타내고 0에 가까워 지면 끔찍한 모형을 나타냅니다. 그 사이에는 평가가 본질적으로 주관적인 범위가 있습니다. 이 범위에서는 모델 지표가 적합한 지 여부를 판단하는 데 통계 전문 지식 이상의 것이 필요합니다. CrossValidated 독자에게는없는 영역에서 추가 전문 지식이 필요합니다. $R^2$

왜 이런거야? 내 경험의 예를 들어 설명해 드리겠습니다 (사소한 세부 사항이 변경됨).

나는 미생물학 실험실 실험을했었다. 다른 농도의 영양소 농도로 세포 플라스크를 설정하고 세포 밀도의 성장을 측정합니다 (즉,이 세부 사항은 중요하지 않지만 시간에 대한 세포 밀도의 기울기). 그런 다음이 성장 / 영양 관계를 모델링 할 때 > 0.90의 값 을 얻는 것이 일반적이었습니다 . $R^2$

나는 지금 환경 과학자입니다. 자연 측정 값이 포함 된 데이터 세트로 작업합니다. 위에서 설명한 것과 동일한 모델을 이러한 '필드'데이터 집합에 맞추려고하면 가 0.4만큼 높으면 놀랄 것 입니다. $R^2$

이 두 경우는 매우 유사한 측정 방법, 동일한 절차를 사용하여 작성 및 장착 된 모델, 심지어 같은 사람이 피팅을 수행하는 것과 동일한 파라미터를 사용합니다. 그러나 어떤 경우 에는 0.7 의 가 걱정스럽게 낮아지고 다른 경우에는 의심스럽게 높아집니다. $R^2$

또한 생물학적 측정과 함께 일부 화학 측정을 수행합니다. 화학 표준 곡선의 모델은 약 0.99이고 값이 0.90이면 걱정할 정도로 낮습니다 . $R^2$

이처럼 큰 기대 차이가 발생하는 이유는 무엇입니까? 문맥. 이 모호한 용어는 광범위한 영역을 다루므로 좀 더 구체적인 요소로 분리 해 보겠습니다 (불완전한 것 같습니다).

1. 지불 / 결과 / 응용이란 무엇입니까?

이것은 당신의 분야의 본질이 가장 중요한 곳입니다. 그러나 귀중한 작품은 내 모델 s를 0.1 또는 0.2만큼 높이면 세상에 혁명을 일으키지 않을 것이라고 생각합니다. 그러나 그 정도의 변화가 큰 응용 프로그램이 있습니다! 주식 예측 모델의 훨씬 작은 개선은 모델을 개발하는 회사에 천만 달러를 의미 할 수 있습니다. $R^2$

이것은 분류 자에 대해 설명하기가 훨씬 쉽기 때문에 다음 예제 에서는 메트릭에 대한 토론을 에서 정확도로 전환합니다 ( 순간에 대한 정확도 메트릭의 약점은 무시 ). 닭 섹스 의 이상하고 유리한 세계를 고려하십시오 . 수년간의 훈련을 거친 후, 인간은 암컷과 암컷의 새끼가 하루 만에 차이를 신속하게 알 수 있습니다. 육류 및 계란 생산을 최적화하기 위해 수컷과 암컷이 다르게 공급되므로 고 정확도는 수십억에 대한 잘못 할당 된 투자의 막대한 양을 절약합니다 $R^2$ 조류. 수십 년 전까지 미국에서는 약 85 %의 정확도가 높은 것으로 간주되었습니다. 오늘날 가장 높은 정확도를 달성하는 가치는 약 99 %입니까? 연봉이 60,000 ~ 180,000 달러 정도로 높은 급여 (일부 빠른 인터넷 검색 기준). 인간은 여전히 작업 속도가 제한되어 있기 때문에 유사한 정확도를 달성 할 수 있지만 분류를 더 빠르게 수행 할 수있는 머신 러닝 알고리즘은 수백만의 가치가 있습니다.

(당신이 모범을 보았기를 바랍니다. 대안은 테러리스트의 매우 의심스러운 알고리즘 식별에 대한 우울한 대안이었습니다).

2. 시스템에서 모델링되지 않은 요소의 영향은 얼마나 강력합니까?

많은 실험에서 시스템에 영향을 줄 수있는 다른 모든 요소 (시스템의 일부는 실험의 목표 임)에서 시스템을 분리 할 수있는 사치가 있습니다. 자연은 더 지저분합니다. 초기 미생물학의 예를 계속하려면 : 영양소를 사용할 수있을 때 세포가 자라지 만 다른 것들도 영향을받습니다. 얼마나 더 울지, 포식자가 몇 개인 지, 물에 독소가 있는지 여부입니다. 모든 영양소와 복잡한 방식으로 서로 coveary. 이러한 다른 요소는 모델에서 캡처하지 않은 데이터의 변동을 유발합니다. 영양소는 다른 요인에 비해 변동을 유발하는 데 중요하지 않을 수 있으므로 다른 요인을 제외하면 필자의 필드 데이터 모델의 가 반드시 낮아집니다 . $R^2$

3. 측정이 얼마나 정확하고 정확합니까?

세포와 화학 물질의 농도를 측정하는 것은 매우 정확하고 정확할 수 있습니다 . 트렌드 트위터 해시 태그를 기반으로 커뮤니티의 감정 상태를 측정하는 것 (예를 들어)은 거의 없습니다. 측정 값을 정확하게 측정 할 수없는 경우 모델에서 높은 달성 할 가능성이 거의 없습니다 . 현장에서 측정이 얼마나 정확합니까? 우리는 아마 모른다. $R^2$

4. 모델 복잡성과 일반화

모형에 임의의 요인을 추가하여 임의의 요인을 추가하는 경우 평균적으로 모형 증가합니다 (조정 된 가이를 부분적으로 처리 함). 이것은 너무 적합 합니다. 과적 합 모델은 새로운 데이터로 잘 일반화되지 않습니다. 즉, 원래 (트레이닝) 데이터 셋에 대한 맞춤을 기반으로 예상보다 높은 예측 오류가 발생합니다. 원래 데이터 세트 의 노이즈 에 적합하기 때문 입니다. 모델 선택 절차의 복잡성으로 인해 모델이 불이익을 받거나 정규화되는 이유가 여기에 있습니다. $R^2$ $R^2$

과적 합이 무시되거나 성공적으로 막히지 않으면, 추정 된 는 상향으로 편향 될 것입니다. 다시 말해, 값은 모델이 과적 합 된 경우 모델 성능에 대한 잘못된 인상을 줄 수 있습니다. $R^2$ $R^2$

IMO, 과적 합은 놀랍게도 많은 분야에서 일반적입니다. 이것을 피하는 가장 좋은 방법은 복잡한 주제이며, 관심이 있으시면이 사이트에서 정규화 절차와 모델 선택 에 대해 읽으십시오 .

5. 데이터 범위 및 외삽

데이터 세트가 관심있는 X 값 범위의 상당 부분으로 확장됩니까? 기존 데이터 범위 밖의 새 데이터 포인트를 추가하면 추정 에 큰 영향을 줄 수 있습니다 . X 및 Y의 분산을 기반으로하는 메트릭이기 때문입니다. $R^2$

이 외에도 모델을 데이터 세트에 맞추고 해당 데이터 세트의 X 범위를 벗어난 값을 예측해야하는 경우 (예 : 외삽 ) 성능이 예상보다 낮을 수 있습니다. 추정 한 관계가 적합치 않은 데이터 범위를 벗어나 변경 될 수 있기 때문입니다. 아래 그림에서 녹색 상자로 표시된 범위에서만 측정을 수행 한 경우 직선 (빨간색)으로 데이터를 잘 묘사 한 것으로 생각할 수 있습니다. 그러나 해당 빨간색 선으로 해당 범위를 벗어난 값을 예측하려고 시도하면 잘못되었을 것입니다.

[그림은 편집의 버전 이 하나 'Monod 식 곡선'에 대한 빠른 구글 검색을 통해 발견.]

6. 측정 항목은 그림의 일부만 제공합니다.

이는 실제로 메트릭스에 대한 비판이 아니라 요약 입니다. 즉, 의도적으로 정보를 버립니다. 그러나 모든 단일 메트릭은 해석에 중요한 정보를 제외합니다. 좋은 분석은 단일 메트릭 이상의 것을 고려합니다.

제안, 수정 및 기타 피드백을 환영합니다. 물론 다른 답변도 있습니다.

— mkt-복원 모니카
소스

3

이 우수한 게시에 추가해야 할 한 가지는 가 설명 및 설명되지 않은 분산을 비교하는 것입니다. 가 낮 으면 모형에 문제가 있음을 나타낼 수 있지만 사용 가능한 예측 변수가 실제로 데이터의 많은 변동을 설명하지 못한다는 것을 나타낼 수도 있습니다. 후자의 경우, 모델은 예측 정확도와 같은 "절대적인"의미로는 좋지 않을 수 있지만 적어도 가용 한 데이터로는 그렇지 않다는 점에서 우수합니다.

R^{2}

$R^2$

R^{2}

$R^2$

— Lewian

@Lewian 피드백에 감사드립니다. 나는 2 & 3 지점에서 다루었다고 생각했지만 개선 될 수 있음을 알았습니다. 그 점을 더 명확하게 만드는 방법에 대해 생각할 것입니다.

— mkt-복원 모니카

1

예, 이것이 이미 다루어 져 있는지에 대해 생각했습니다. 2와 3의 문제는 이것이 발생할 수있는 구체적인 이유를 제시하지만 일반적인 문제입니다.

— Lewian

@Lewian Agreed, 그 생각을하겠습니다.

— mkt-복원 모니카

2

이 문제는 모델이 강우 및 기후 데이터로부터의 흐름을 얼마나 잘 예측하는지 평가할 때 수 문학 분야에서 발생합니다. 일부 연구자 ( Chew and McMahon, 1993 )는 93 명의 수 문학자를 대상으로 설문 조사를 실시했으며 (63 개 응답), 가장 많이 사용 된 진단 플롯과 적합 통계의 우수성 및 모델 적합의 품질을 분류하는 데 사용 된 방법을 확인했습니다. . 결과는 현재 날짜가 있지만 접근 방식은 여전히 흥미로울 수 있습니다. 그들은 다양한 자질에 맞는 모델의 결과를 제시했고 수 문학자에게 4 가지 범주로 분류하도록 요청했다. (2) 수용 가능하지만 예약과 함께 사용; (3) 용납 할 수 없으며 다른 대안이없는 경우에만 사용하십시오. (4) 어떤 조건에서도 사용하지 마십시오.

가장 중요한 진단 그래프는 캘리브레이션에 사용 된 데이터의 시뮬레이션 및 기록 된 흐름의 시계열 도표 및 산점도였습니다. R- 제곱 및 내쉬-서트클리프 모델 효율 계수 (E)는 적합도 통계의 선호도였습니다. 예를 들어 E => 0.8 인 경우 결과가 허용되는 것으로 간주되었습니다.

문헌에는 다른 예가 있습니다. 북해에서의 생태계 모델을 평가할 때, 다음의 분류는 E> 0.65 탁월, 0.5 ~ 0.65 매우 우수, 0.2 ~ 0.5 우수 및 <0.2 열악하게 사용되었습니다 ( Allen et al., 2007 ).

Moriasi et al. (2015) 은 다양한 유형의 모델에 대한 메트릭에 허용되는 값 표를 제공합니다.

이 정보와 참조를 블로그 게시물 에 요약 했습니다 .

Allen, J., P. Somerfield 및 F. Gilbert (2007), 고해상도 결합 유체 역학적 생태계 모델에서 불확실성을 정량화, J. Mar. Syst., 64 (1-4), 3–14, doi : 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. 및 Daggupati, P. (2015) 수문 및 수질 모델 : 성능 측정 및 평가 기준 ASABE (미국 농업 및 생물 공학 협회)의 거래 58 (6) : 1763-1785

— 토니 래드 슨
소스

0

위의 위대한 답변에 덧붙여서 내 경험상 평가 지표와 진단 도구는 사용하는 사람만큼 좋고 정직합니다. 즉, 배후의 수학을 이해하면 실제 활용도를 높이 지 않고도 인위적으로 모델을 향상시킬 수 있습니다.

예를 들어, 의견 중 하나에서 언급했듯이 일부 응용 프로그램에서 는 성능을 크게 향상시킬 수 있습니다. 그러나, 이러한 증가가 인위적으로 (즉, 일부 관측치를 임의로 제거함으로써) 얻은 경우,이 성능 증가는 진실하지 않으며 아마도 유용성이 거의 없다. $R^2=0.03 \to R^2 = 0.05$

위의 설명 / 참조를 제공하는 훌륭한 일을하기 때문에이 답변을 짧게 유지하겠습니다. 방금 6 섹션에 대한 관점을 추가하고 싶었습니다 . 메트릭 은 mkt의 답변으로 그림의 일부만을 제공합니다 .

도움이 되었기를 바랍니다.

— 사미르 라 키드 자임
소스

진단 지표 ( / AUC / 정확도 / RMSE 등) 값을 기준으로 내 모델이 양호 합니까?

이 답변은 주로 에 중점을 두지 만이 로직의 대부분은 AUC 등과 같은 다른 메트릭으로 확장됩니다.R2R2R^2

이 답변은 주로 에 중점을 두지 만이 로직의 대부분은 AUC 등과 같은 다른 메트릭으로 확장됩니다. $R^2$