예측 성능은 방법보다는 데이터 분석가의 전문 지식에 더 의존합니까?


14

나는 일부 연구에서 예측 모델의 성능이 분석법의 선택보다는 선택된 분석법에 대한 데이터 분석가의 전문 지식에 더 의존한다는 소문을 발견했습니다.
다시 말해, 주장은 데이터 분석가가보다 이론적 인 관점에서 본 방법이 문제에 대해 "적절한"것으로 보이는 것보다 선택된 방법에 익숙한 것이 더 중요하다는 주장이다.

이것은 일반적으로 많은 변이체 (100-1000), 다중 공선 성 및 물론 너무 적은 샘플의 문제를 포함하는 화학량 학의 맥락에서 언급되었습니다. 예측은 분류 또는 회귀 일 수 있습니다.

내 개인적인 경험은 이것이 그럴듯 하다는 것을 암시 하지만 연구가 언급되었습니다 (저는 이메일을 통해 신속하지만 실패한 검색을 한 후 답변을받지 못했습니다). 그러나 좀 더 정교하게 검색해도 논문을 추적 할 수 없었습니다.

누구든지 그러한 결과를 알고 있습니까? 그렇지 않다면 여기서 빅 가이의 개인적인 경험은 무엇을 말합니까?


1
나는 주변에서 더 작은 사람의 해요,하지만 내가 신경 회로망에서 본 것은이 가설을 지원까지 "기계 배운다는"뭔가, 성공적인 분류 또는 예측이 의존하는 것 같은 "상자 밖으로"도구 인에서 을 많은 가장 중요한 전처리 데이터의 측면에서뿐만 아니라, 네트워크 아키텍처 등의 측면에서 - 사람을 스마트 방법은 어떻게 데이터에서 배울 수있는 네트워크를 알려줍니다
스테판 Kolassa

1
통계 학습의 요소 (The Elements of Statistical Learning) 의 그림 2.4는 가장 가까운 이웃을 리지 션 유형 방법과 비교합니다 (물론이 책 전체에서 여러 비교 지점을 제공합니다).
StasK

@ StasK : 알림 주셔서 감사합니다 (기억하지 않아서 수치 스럽습니다). 또한 실제로 PCR, PLS 및 능선 회귀는 매우 유사하며 LDA 및 로지스틱 회귀도보고합니다. 그러나 후자의 방법은 이론적 인 관점에서도 매우 유사합니다.
cbeleites는 Monica를 지원합니다 Monica

답변:


1

실제로, 나는 괜찮은 학습 기계가 일반적으로 전문가보다 낫다는 소문을 들었습니다. 인간의 성향은 편견 (과도하게 매끄럽게)을 희생하여 편차를 최소화 하여 새로운 데이터 세트에서 예측 성능이 좋지 않기 때문 입니다. 기계는 MSE를 최소화하도록 교정되므로 새로운 데이터 세트에서 예측 측면에서 더 나은 경향이 있습니다.


1
내 경험상 인간이 과적 합하는 경향이 있다는 것은 사실이다. 그러나 내 경험에 따르면 적합하지 않은 학습기를 선택하는 괜찮은 전문가가 필요합니다. 그렇지 않으면 누군가가 과적 합하는 학습기를 선택합니다.
cbeleites는 Monica

1
일반적으로 MSE는 모델을 많이 제한하지 않는 한 과적 합으로부터 보호하지 않으며 전문가가 다시 방문합니다. 그럼에도 불구하고 사람들은 모델 하이퍼 파라미터와 같은 최적화를 시도합니다. 각 반복에 대해 완전히 새로운 독립 테스트 데이터 세트를 감당할 수 없다면, 특히 반복 최적화 전략 과적 합 (MSE 여부)입니다. 테스트 사례가 매우 드문 분야에서 온 것 같습니다. 그리고 어쨌든, 당신은 이것이 괜찮은 학습 기계 가 아니라고 주장 할 수 있습니다 .
cbeleites는 Monica를 지원합니다 Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.