내 질문은 다음 사실에서 비롯됩니다. 나는 기계 학습에 관한 책뿐만 아니라 게시물, 블로그, 강의를 읽었습니다. 기계 학습 전문가들이 통계 학자 / 경제학자들이 관심을 갖는 많은 것들에 무관심한 것 같습니다. 특히 머신 러닝 전문가는 추론보다 예측 정확도를 강조합니다.
코스타 에서 Andrew Ng의 기계 학습 을 수행 할 때 그러한 예가 발생했습니다 . 단순 선형 모형에 대해 논의 할 때 추정량의 BLUE 특성 또는 이분산성이 신뢰 구간을 "무효화하는"방법에 대해서는 언급하지 않았습니다. 대신, 그라디언트 디센트 구현 및 교차 검증 / ROC 곡선의 개념에 중점을 둡니다. 이 주제는 계량 경제학 / 통계 수업에서 다루지 않았습니다.
Kaggle 대회에 참가했을 때 또 다른 예가 발생했습니다. 다른 사람들의 코드와 생각을 읽고있었습니다. 참가자의 많은 부분이 모든 것을 SVM / 랜덤 포레스트 / XGBoost에 넣습니다.
또 다른 예는 단계적 모델 선택에 관한 것입니다. 이 기술은 적어도 온라인과 Kaggle에서 널리 사용됩니다. 통계 학습 소개와 같은 많은 고전적인 기계 학습 교과서에서도 다루고 있습니다. 그러나이 답변 에 따르면 (단계적으로 설득력있는) 단계적 모델 선택은 특히 "진정한 모델 발견"과 관련하여 많은 문제에 직면합니다. 머신 러닝 전문가는 문제를 단계별로 알지 못하거나 신경 쓰지 않지만 두 가지 가능성 만있는 것 같습니다.
내 질문은 다음과 같습니다.
- (일반적으로) 머신 러닝 실무자들이 예측에 초점을 맞추고 통계 학자 / 경제학자들이 신경 쓰는 많은 것들에 관심이없는 것이 사실입니까?
- 그것이 사실이라면 그 이유는 무엇입니까? 어떤 의미에서는 추론이 더 어렵 기 때문입니까?
- 온라인 머신 러닝 (또는 예측)에 관한 많은 자료가 있습니다. 그러나 추론 수행에 관심이있는 경우 온라인에서 상담 할 수있는 리소스는 무엇입니까?
업데이트 : 방금 "추론"이라는 단어가 많은 것을 의미 할 수 있다는 것을 깨달았습니다. "추론"의 의미는 다음과 같은 질문을 말합니다.
"모든 모델이 잘못되었으므로"모델이 실제 모델에서 "잘못된"것은 무엇입니까?
표본의 정보가 주어지면 모집단에 대해 무엇을 말할 수 있고 어떻게 확신 할 수 있습니까?
통계 지식이 매우 제한되어 있기 때문에 이러한 질문이 통계 영역에 속하는지 확실하지 않습니다. 그러나 이것들은 기계 학습 실무자들이 신경 쓰지 않는 질문 유형입니다. 아마도 통계학 자도 신경 쓰지 않습니까? 모르겠어요
fortunes
CRAN 패키지의 일부가되었습니다 . 말하자면, 당신은 인상과 함께 혼자가 아닙니다. 수학적 엄격함이 항상 기계 학습의 주요 관심사는 아닙니다.