머신 러닝은 통계 학자에게 익숙한 중요한 주제입니까? 머신 러닝은 통계 인 것 같습니다. 통계 프로그램 (학부 및 대학원)이 기계 학습을 요구하지 않는 이유는 무엇입니까?
머신 러닝은 통계 학자에게 익숙한 중요한 주제입니까? 머신 러닝은 통계 인 것 같습니다. 통계 프로그램 (학부 및 대학원)이 기계 학습을 요구하지 않는 이유는 무엇입니까?
답변:
기계 학습은 높은 차원의 적용 통계 분야입니다. 또한 상당한 양의 프로그래밍 배경이 필요합니다. 특히 우수한 학부 수준이나 대학원 수준의 우수한 정량 프로그램에는 필요하지 않습니다. 통계적 예측 측면에만 적용되는 반면, 수학적 통계와 추론적이고 기술적 인 적용 통계에는주의가 필요합니다. 많은 프로그램은 학생들에게 머신 러닝 (예 : CMU)에 많은 노출 기회를 제공하지만, 산업 통계 학자들은 전체적으로 특정 도구를 적용 할 기회를 거의 얻지 못합니다.
최근에 취업 시장에서 많은 데이터 과학자와 머신 러닝 직책을 보았지만 "통계 학자"에 대한 일반적인 직업 설명에는 머신 러닝 배경 이 필요 하지 않지만 기본적인 통계, 추론 및 커뮤니케이션에 대한 완벽한 이해 가 필요 하다고 생각합니다 . 이것들은 실제로 대학원 통계 프로그램의 핵심이되어야합니다. 머신 러닝과 데이터 과학은 직책과 학문으로서도 비교적 새롭습니다. 통계 학자로서 고용을 추구하는 사람들에게 10 년 또는 20 년 내에 압도적 인 효능을 내기 위해 비즈니스 / 약학 / 생명 과학 기업에 대부분 버려져있는 경우 머신 러닝에 대한 문제 해결 전략을 동요하는 것은 장애가 될 것입니다.
마지막으로, 머신 러닝이 통계에 대한 확실한 이해를 크게 향상 시키지는 않습니다. 통계는 기본적으로 학제 간 분야이므로 선택한 방법론을 선택한 이유를 해당 분야의 비전문가 (예 : 의사, CFO 또는 관리자)에게 정확하게 전달하고 설득하는 것이 중요합니다. 머신 러닝은 많은 적용 사례에서 표준 도구 및 기술보다 점진적으로 더 나은 성능을 약속하는 틈새 기술 분야입니다. 지도 및 비지도 학습의 많은 방법은 비전문가 (및 일부 숙련되지 않은 전문가)에 의해 "블랙 박스"로 인식됩니다. 특정 학습 방법의 선택을 변호하도록 요청 받았을 때, 적용되는 문제 동기 상황에 대해서는 설명이 없습니다.
자, 우리가 대학원 프로그램에서 밀접하게 일한 한두 사람으로부터 배운 내용으로 눈을 가리고 통계의 코끼리에 대해 이야기합시다 ...
통계 프로그램은 학생들이 프로그램에 대해 시간이 제한되어있을 때 학생들이 배우고 싶어하는 가장 중요한 것들, 즉 자신에게 맞는 것을 요구합니다. 좁은 지역이 필요하다는 것은 다른 지역에도 작별 인사를하는 것입니다. 일부 프로그램은 이론적 확률을 측정해야하지만 일부는 그렇지 않습니다. 일부는 외국어가 필요하지만 대부분의 프로그램은 그렇지 않습니다. 일부 프로그램은 베이지안 패러다임을 유일하게 공부할 가치가 있지만 대부분은 그렇지 않습니다. 일부 프로그램은 통계 학자에게 가장 큰 수요가 설문 조사 통계 (최소한 미국의 경우)에 있다는 것을 알고 있지만 대부분 그렇지 않습니다. Biostat 프로그램은 돈을 따르고 의료 및 제약 과학에 쉽게 판매 할 수있는 방법 인 SAS +를 가르칩니다.
농업 실험을 설계하거나 전화 설문 조사를 통해 설문 조사 데이터를 수집하거나, 심리학 적 척도를 검증하거나, GIS에서 질병 발병률지도를 생성하는 사람에게 머신 러닝은 컴퓨터 과학의 추상 기술이며, 매일 작업하는 통계와는 거리가 멀습니다 기초. 이 사람들 중 누구도 지원 벡터 머신이나 임의의 숲을 배우면 즉각적인 이점을 얻지 못할 것입니다.
대체로 머신 러닝은 다른 통계 영역을 보완하는 것이지만 다변량 정규 분포 및 일반 선형 모형과 같은 주류가 먼저 필요하다고 주장합니다.
머신 러닝 은 데이터에서 지식을 얻거나 배우는 것입니다. 예를 들어, DNA Microarray 데이터 (예 : 암 또는 당뇨병)에서 특정 유형의 질병에 관여 할 수있는 몇 가지 유전자를 선택할 수있는 기계 학습 알고리즘을 사용합니다. 그런 다음 과학자들은이 유전자 (학습 모델)를 사용하여 향후 조기 진단 (보이지 않은 샘플의 분류)에 사용할 수 있습니다.
머신 러닝과 관련된 많은 통계가 있지만 통계를 필요로하지 않는 머신 러닝 분야가 있습니다 (예 : 유전자 프로그래밍). 이러한 인스턴스에서 통계가 필요한 유일한 시간은 머신 러닝을 사용하여 구축 한 모델이 다른 모델과 통계적으로 크게 다른지 확인하는 것입니다.
제 생각에는 통계학자를위한 머신 러닝에 대한 소개 가 유리할 것 입니다. 이를 통해 통계학자는 통계 적용에 대한 실제 시나리오를 볼 수 있습니다. 그러나 강제해서는 안됩니다 . 성공적인 통계학자가되어 기계 학습에 가까이 가지 않아도 평생을 보낼 수 있습니다!