통계학자가 기계 학습을 배우는 것이 중요합니까?


22

머신 러닝은 통계 학자에게 익숙한 중요한 주제입니까? 머신 러닝은 통계 인 것 같습니다. 통계 프로그램 (학부 및 대학원)이 기계 학습을 요구하지 않는 이유는 무엇입니까?


1
독자는 여기에 다음과 같은 스레드에 관심이있을 수 있습니다 데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까 .
gung-Monica Monica 복원

2
몰라요.하지만 머신 러닝을하는 모든 사람들이 통계를 배워야한다고 확신합니다.
Dave

답변:


18

기계 학습은 높은 차원의 적용 통계 분야입니다. 또한 상당한 양의 프로그래밍 배경이 필요합니다. 특히 우수한 학부 수준이나 대학원 수준의 우수한 정량 프로그램에는 필요하지 않습니다. 통계적 예측 측면에만 적용되는 반면, 수학적 통계와 추론적이고 기술적 인 적용 통계에는주의가 필요합니다. 많은 프로그램은 학생들에게 머신 러닝 (예 : CMU)에 많은 노출 기회를 제공하지만, 산업 통계 학자들은 전체적으로 특정 도구를 적용 할 기회를 거의 얻지 못합니다.

최근에 취업 시장에서 많은 데이터 과학자와 머신 러닝 직책을 보았지만 "통계 학자"에 대한 일반적인 직업 설명에는 머신 러닝 배경 필요 하지 않지만 기본적인 통계, 추론 및 커뮤니케이션에 대한 완벽한 이해 필요 하다고 생각합니다 . 이것들은 실제로 대학원 통계 프로그램의 핵심이되어야합니다. 머신 러닝과 데이터 과학은 직책과 학문으로서도 비교적 새롭습니다. 통계 학자로서 고용을 추구하는 사람들에게 10 년 또는 20 년 내에 압도적 인 효능을 내기 위해 비즈니스 / 약학 / 생명 과학 기업에 대부분 버려져있는 경우 머신 러닝에 대한 문제 해결 전략을 동요하는 것은 장애가 될 것입니다.

마지막으로, 머신 러닝이 통계에 대한 확실한 이해를 크게 향상 시키지는 않습니다. 통계는 기본적으로 학제 간 분야이므로 선택한 방법론을 선택한 이유를 해당 분야의 비전문가 (예 : 의사, CFO 또는 관리자)에게 정확하게 전달하고 설득하는 것이 중요합니다. 머신 러닝은 많은 적용 사례에서 표준 도구 및 기술보다 점진적으로 더 나은 성능을 약속하는 틈새 기술 분야입니다. 지도 및 비지도 학습의 많은 방법은 비전문가 (및 일부 숙련되지 않은 전문가)에 의해 "블랙 박스"로 인식됩니다. 특정 학습 방법의 선택을 변호하도록 요청 받았을 때, 적용되는 문제 동기 상황에 대해서는 설명이 없습니다.


1
평평하게 떨어지는 설명 (예 : 아마도?)과 정확히 무엇을 의미하는지 좀 더 자세히 설명해 주시겠습니까?
cbeleites는 Monica를 지원합니다 Monica

10
의사에게 적합한 방식으로 선형 판별 분석, 서포트 벡터 머신 및 GLM LASSO의 차이점을 설명 할 수 없습니다. 그래서 신중하게 조정 된 소수의 공변량을 사용하여 유방암 위험 예측을위한 로지스틱 회귀 모델을 만들었습니다. 발표 될 때, 의사들은 그들의 효과 크기에 대한 즉각적인 논의를 시작했습니다. 내 "과학"모델의 차별은보다 정교한 ML 기술 (유효성 검사 샘플의 부트 스트랩을 기반으로 AUC에 대해 90 % CI를 겹침)과 매우 유사했으며, 이러한 사례 보고서를 보유한 유일한 사람은 아닙니다!
AdamO 2013

4
@cbeleites, 당신은 최고의 대수 수학 지식을 가진 실질적인 사람과 의사 소통을 해 본 적이 있습니까? SVM은 의사가 이해할 수있는 효과 크기를 생성하지 않습니다. 마진의 너비는 익숙한 홀수 비율과 달리 의미가 맞지 않습니다. 고객의 언어를 말할 수 없으면 시간과 돈을 낭비하지 않습니다.
StasK

2
@GraemeWalsh 환상적인 포인트. 나는 종종 구조적 방정식 모델링이나 Granger의 시조 인과 관계에서와 같이 예측 추론을 위해 정교한 예측 모델을 사용한다는 개념으로 크게 어려움을 겪고 있습니다. 이 분야에서해야 할 많은 작업이 남아 있다고 생각합니다. 예를 들어, 직관적으로 나는 반 파라 메트릭 모델링과 한계 구조 모델 간의 많은 유사점을 인식하지만 차이점이 어디에 있는지 확실하지 않습니다.
AdamO 2016 년

2
@Jase 당신은 Netflix 콘테스트 수상자로부터 초청 된 논문을 살펴 봐야합니다. 그들의 보고서는 모델의 넓은 공간에서 후부 가중치를 평균화하는 베이지안 모델에서도 매우 유사했다. 그것이 동등하다는 것은 아니지만, ML 아레나가 제공하는 것보다 단순한 모델을 선호하게하는 단순성과 정확성 사이에는 상충 관계가 있습니다. 복잡한 파라 메트릭 모델이 비 파라 메트릭 모델과 유사한 방식으로 수행되는 방식을 유사하게 생각할 수 있습니다.
AdamO

14

자, 우리가 대학원 프로그램에서 밀접하게 일한 한두 사람으로부터 배운 내용으로 눈을 가리고 통계의 코끼리에 대해 이야기합시다 ...

통계 프로그램은 학생들이 프로그램에 대해 시간이 제한되어있을 때 학생들이 배우고 싶어하는 가장 중요한 것들, 즉 자신에게 맞는 것을 요구합니다. 좁은 지역이 필요하다는 것은 다른 지역에도 작별 인사를하는 것입니다. 일부 프로그램은 이론적 확률을 측정해야하지만 일부는 그렇지 않습니다. 일부는 외국어가 필요하지만 대부분의 프로그램은 그렇지 않습니다. 일부 프로그램은 베이지안 패러다임을 유일하게 공부할 가치가 있지만 대부분은 그렇지 않습니다. 일부 프로그램은 통계 학자에게 가장 큰 수요가 설문 조사 통계 (최소한 미국의 경우)에 있다는 것을 알고 있지만 대부분 그렇지 않습니다. Biostat 프로그램은 돈을 따르고 의료 및 제약 과학에 쉽게 판매 할 수있는 방법 인 SAS +를 가르칩니다.

농업 실험을 설계하거나 전화 설문 조사를 통해 설문 조사 데이터를 수집하거나, 심리학 적 척도를 검증하거나, GIS에서 질병 발병률지도를 생성하는 사람에게 머신 러닝은 컴퓨터 과학의 추상 기술이며, 매일 작업하는 통계와는 거리가 멀습니다 기초. 이 사람들 중 누구도 지원 벡터 머신이나 임의의 숲을 배우면 즉각적인 이점을 얻지 못할 것입니다.

대체로 머신 러닝은 다른 통계 영역을 보완하는 것이지만 다변량 정규 분포 및 일반 선형 모형과 같은 주류가 먼저 필요하다고 주장합니다.


5

머신 러닝 은 데이터에서 지식을 얻거나 배우는 것입니다. 예를 들어, DNA Microarray 데이터 (예 : 암 또는 당뇨병)에서 특정 유형의 질병에 관여 할 수있는 몇 가지 유전자를 선택할 수있는 기계 학습 알고리즘을 사용합니다. 그런 다음 과학자들은이 유전자 (학습 모델)를 사용하여 향후 조기 진단 (보이지 않은 샘플의 분류)에 사용할 수 있습니다.

머신 러닝과 관련된 많은 통계가 있지만 통계를 필요로하지 않는 머신 러닝 분야가 있습니다 (예 : 유전자 프로그래밍). 이러한 인스턴스에서 통계가 필요한 유일한 시간은 머신 러닝을 사용하여 구축 한 모델이 다른 모델과 통계적으로 크게 다른지 확인하는 것입니다.

제 생각에는 통계학자를위한 머신 러닝에 대한 소개 가 유리할 것 입니다. 이를 통해 통계학자는 통계 적용에 대한 실제 시나리오를 볼 수 있습니다. 그러나 강제해서는 안됩니다 . 성공적인 통계학자가되어 기계 학습에 가까이 가지 않아도 평생을 보낼 수 있습니다!


2
모델의 성능을보고 할 때마다 통계가 필요하다고 말하고 싶습니다. 저의 직업은 분석 화학이기 때문입니다. 중요한 규칙 중 하나는 "신뢰 구간이없는 숫자는 결과가 아닙니다"입니다.
cbeleites는

1
@cbeleites 동의합니다. 내가 의미하는 바는 통계학자가 반드시 머신 러닝 전문가 일 필요는 없다는 것입니다! 그들은 기계 학습을 배우지 않고도 얻을 수 있습니다 :)
revolusions

1
@cbeleites 또는 multimodal esimators의 경우 여러 신뢰 구간 (예 : Sivia & Skilling Data Analysis ).
alancalvitti
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.