선형 회귀 분석은 언제 "기계 학습"이라고해야합니까?


90

최근 콜로키움에서 발표자의 초록은 머신 러닝을 사용한다고 주장했습니다. 대화하는 동안 머신 러닝과 관련된 유일한 것은 데이터에 대해 선형 회귀를 수행한다는 것입니다. 5D 파라미터 공간에서 최적 계수를 계산 한 후 한 시스템의 이러한 계수를 다른 시스템의 최고 계수와 비교했습니다.

단순히 최적의 라인을 찾는 것과는 달리 선형 회귀 머신 러닝 은 언제 입니까? (연구자의 추상적 인 오해의 소지가 있었습니까?)

최근 머신 러닝에 대한 관심이 높아지면서 이러한 구분을하는 것이 중요해 보입니다.

내 질문처럼 이 하나 광산은 선형 회귀 (다양한 애플리케이션 수를 가지고있는) 적절하게 "기계 학습"호출 할 수 있습니다 때 요구하는 반면 그 질문은, "선형 회귀"의 정의를 요구하는 것을 제외하고.

설명

선형 회귀가 기계 학습과 같은지 묻지 않습니다. 일부 사람들이 지적했듯이 단일 알고리즘은 연구 분야를 구성하지 않습니다. 알고리즘을 사용할 때 기계 학습을하는 것이 올바른지 간단히 묻는 것입니다. 단순한 회귀입니다.

모든 농담은 제쳐두고 (댓글 참조), 이것이 내가 요구하는 이유 중 하나는 실제로 기계 학습을 하지 않는 경우 이름에 금색 별 몇 개를 추가하기 위해 기계 학습을하는 것이 비 윤리적이기 때문 입니다. (많은 과학자들이 자신의 작업에 가장 적합한 유형의 선을 계산하지만 이것이 머신 러닝을하고 있다는 것을 의미하지는 않습니다.) 한편, 선형 회귀 머신 러닝의 일부로 사용되는 상황이 분명히 있습니다 . 이러한 상황을 분류하는 데 도움이되는 전문가를 찾고 있습니다. ;-)


13
" 두 문화 : 통계 대 기계 학습? " 이라는 스레드를보고 싶을 수도 있습니다 .
usεr11852

75
요율표의 수수료를 두 배로 늘리려면 회귀의 이름을 '기계 학습'으로 바꿔야합니다.
Sycorax

3
차이가 있습니다. 학습은 과정입니다. 가장 적합한 것은 목표입니다. 아래 답변을 참조하십시오. 솔직히 말해서, "새들이 날아 다니는 것"과 같은 같은 맥락에서 나타날 수 있지만, 두 개를 연관시킬 수는 있지만, 새들은 비행하지 않고, 새들은 날아 다니지 만, 그것은 F를위한 것입니다. -18 전투기.
Carl

20
@Sycorax와 딥 러닝을 4 배로하고 싶을 때
Franck Dernoncourt

11
@FranckDernoncourt "나는 기계 학습 문제를 해결하기 위해 빅 데이터 환경에서 깊은 학습을 사용하여 데이터 과학자 해요" ); 링크드 인 프로파일에 대한 좋은 헤더처럼 소리

답변:


78

질문과 질문에 대답 : 정확히 기계 학습은 무엇인가? 트레버 해 스티, 로버트 팁쉬 라니와 제롬 프리드먼의 통계 학습의 요소 에, 케빈 P. 머피 기계 학습 확률 관점 에서, 크리스토퍼 비숍 패턴 인식 및 기계 학습 에서, 이안 Goodfellow, 요 수아 벤 지오와 아론 Courville 깊은 학습 및 숫자의 다른 기계 학습 "성경"은 기계 학습 "알고리즘"중 하나로서 선형 회귀를 언급합니다. 머신 러닝은 부분적으로 적용되는 통계에 대한 전문 용어이며 통계와 머신 러닝의 구분은 종종 모호합니다.


4
사실이지만 많은 양의 겹치지 않는 문헌, 방법 및 알고리즘을 갖춘 대부분의 분야에 속합니다. 예를 들어 오늘날의 머신 러닝에서 데이터 및 컴퓨터 과학 졸업생은 자금 지원, 보조금 및 구직 기회 측면에서 통계 지원자보다 훨씬 앞서 있습니다.
Mike Hunter

6
@DJohnson은 새로운 패키지에 통계를 적용하여 더 높은 가격에 판매했습니다 ..? 나는 그것이 유행이라는 사실이 유행어 가 아니라고 생각하지 않습니다. 베이지안 통계에는 또한 고전적인 통계와 부분적으로 겹치지 않는 고유 한 방법, 저널, 컨퍼런스, 핸드북 및 응용 프로그램이 있습니다. 통계와 구별되는 분야입니까?
Tim

3
예. ML 실무자에 대한 저의 견해를 소홀히했다. 사일로의 좁은 집중 실무자들은 ML뿐만 아니라 모든 분야와 직업에 고유 한 것이라는 일반적인 관찰이 있었다 . 사람들이 자신의 즉각적인 요구와 관심을 벗어난 정보에 대해 맹인을 키우는 것은 일종의 직업 상 위험입니다. CV도 예외는 아닙니다.
Mike Hunter

23
(+1) 분명한 구별이 없다는 데 동의합니다. 차이점을 생각할 때, 나는 일반적으로 ML을 예측에 더 관심이있는 것으로 생각 하고 통계는 모수 유추에 더 관심이있는 것으로 생각 합니다 (예 : 응답 표면 모델링을위한 실험 설계는 ML에 일반적이지 않습니까?). 따라서 이러한 의미에서 회귀 계수가 가장 중요한 것으로 보이는 OP 예제는 "통계와 같은"(?)이됩니다.
GeoMatt22

3
참조 두 문화 @의 GeoMatt22의 유사한 점을 만드는 레오 브레이 만에 의하여를 : ML은 정확한 예측에 초점을 맞추고 있습니다. 모델이 참인지 여부는 중요하지 않습니다. 고전 통계는 어떤 의미에서 "진정한"모델 또는 데이터를 생성 한 프로세스에 대한 통찰력을 제공하는 모델을 찾고 있습니다.
Peter

41

선형 회귀는 기계 학습에 사용할 수있는 알고리즘입니다. 그러나 reductio ad absurdum : Excel 사본을 가진 사람은 누구나 선형 모형에 적합 할 수 있습니다.

선형 모델로 제한하더라도 머신 러닝을 논의 할 때 고려해야 할 사항이 몇 가지 더 있습니다.

  • 비즈니스 문제에 대한 기계 학습에는 더 많은 데이터가 필요할 수 있습니다. 유행어를 사용하려면 " 빅 데이터 ". 데이터 정리 및 준비는 실제 모델링보다 더 많은 작업이 필요할 수 있습니다. 그리고 데이터의 양이 단일 기계의 처리 용량을 초과하면 엔지니어링 문제는 통계 문제만큼이나 중요합니다. 엄지 손가락 규칙 : 메인 메모리에 들어가면 빅 데이터가 아닙니다.
  • 기계 학습에는 종종 기존 통계 모델보다 더 많은 설명 변수 (기능)가 포함됩니다. 아마도 수십 개, 때로는 수백 개가 있으며, 그 중 일부는 여러 수준의 범주 형 변수가 될 것입니다. 이러한 기능이 상호 작용할 수있는 경우 (예 : 교차 효과 모델에서) 적합 할 수있는 잠재적 인 모델 수가 빠르게 증가합니다.
  • 머신 러닝 전문가는 일반적으로 개별 기능의 중요성에 대한 관심이 적고 기능의 조합을 사용하여 모델에서 가능한 많은 예측력을 압박하는 데 더 관심이 있습니다. (P- 값은 예측이 아니라 설명과 관련이 있습니다.)
  • 많은 기능과 이러한 기능을 엔지니어링하는 다양한 방법으로 수작업으로 모델을 선택할 수 없습니다. 제 생각에, 머신 러닝의 실질적인 과제 는 기능자동 선택 (피처 엔지니어링) 및 모델 사양의 다른 측면입니다. 선형 모델에는 일반적으로 무차별 대변인의 변형을 수행하는 다양한 방법이 있습니다. 단계적 회귀, 역 제거 등을 포함하여 모두 상당한 컴퓨팅 성능이 필요합니다. 두 번째 원칙 : 손으로 기능을 선택하는 경우 머신 러닝이 아닌 통계를 수행하는 것입니다.
  • 많은 기능이있는 많은 모델을 자동으로 맞추면 과적 합이 심각한 잠재적 문제입니다. 이 문제를 다루는 것은 종종 어떤 형태의 교차 검증 을 필요로합니다.

내 관점에서 볼 때 짧은 대답은 전통적인 통계 모델링에서 기계 학습이 벗어난 곳에서 특히 대량의 데이터와 설명 변수가 많은 도메인에서 모델 선택에 대한 무차별 대입 및 수치 적 접근 방식을 적용한다는 것입니다 예측력에 중점을두고 모델 검증을위한보다 무차별 한 힘을가했습니다.


2
나는이 차이를 일반적으로 좋아한다. 그러나 "통계적"모델에서 교차 검증이 사용 된 적이 있습니까? 아니면 일반적으로 수작업으로 수행되는 경우가 거의 필요하지 않습니까? 기능 엔지니어링은 통계를 수동으로 수행 할 때 통계로 간주합니까?
josh mar

3
@ josh, 그렇습니다. 그러나 교차 검증 태그를 보면 거의 모든 질문이 예측 모델링에 관한 것입니다.
david25272

@ david25272 부트 스트랩, .632+ 부트 스트랩 및 순열 테스트에 대해 어떻게 생각하는지 궁금합니다. 저는 항상 "머신 러닝"보다 "적용된 통계"라고 생각했습니다. 동기 부여를 받았지만 k-fold 또는 leave-k-out 교차 검증과 유사하게 "브 루트 포스"입니다. L1 정규화는 통계 프레임 워크 내에서 기능 선택 유형으로 생각할 수 있다고 생각합니다.
Patrick B.

@Patrick stats.stackexchange.com/questions/18348 은 내가 제공 할 수있는 것보다 모델 유효성 검사를위한 부트 스태핑 사용에 대한 더 나은 대답입니다.
david25272

@ david25272 아, 죄송합니다. 제 질문은 통계적으로 동기가 부여되고 "브 루트 포스"이기 때문에 "머신 러닝"기술 또는 "적용 통계"기술 중 어느 것으로 생각 하느냐에 더 달려 있습니다. 모델 검증을 위해 바이어스 수정 부트 스트랩을 사용하는 것에 익숙합니다.
Patrick B.

14

미첼의 정의는 일종의 첫 번째 원칙 인 머신 러닝에 대한 논의를 뒷받침하는 유용한 방법을 제공한다고 생각합니다. Wikipedia에서 재현 한대로 :

컴퓨터 프로그램은 P에 의해 측정 된 바와 같이 T에서의 작업에서의 성능이 경험 E로 개선 될 경우 일부 등급의 작업 T 및 성능 측정 P와 관련하여 경험 E로부터 학습한다고한다.

이것은 몇 가지 방법으로 도움이됩니다. 첫째, 즉각적인 질문 : 회귀는 작업 이 일부 응용 프로그램의 예측 기능에서 추정 값을 제공하는 경우의 기계 학습 입니다. 더 많은 데이터를 경험할 때 오류를 유발 한 평균 제곱 (또는 절대 값 등)으로 측정 할 때 성능이 향상되어야합니다.

둘째, 관련 용어에서 기계 학습을 설명하고 마케팅 용어로 사용하는 데 도움이됩니다. 위의 작업을 표준 추론 회귀와 대조하십시오. 분석가는 중요한 관계에 대한 계수를 해석합니다. 여기서 프로그램은 계수, p- 값 등의 요약을 반환합니다. 프로그램은 경험을 통해이 성능을 향상시킬 수 없습니다. 작업은 정교한 계산입니다.

마지막으로, 기계 학습 서브 필드, 강화 학습 또는 밀도 추정과 같은 다른 사람들과 함께 입문 박람회 (감독, 비 감독)에서 공통적으로 사용되는 머신 러닝 하위 필드를 통합하는 데 도움이됩니다. (각각 당신이 충분히 생각한다면 과제, 성과 측정 및 경험 개념이 있습니다.) 필자는 두 분야를 불필요하게 줄이지 않고 묘사하는 데 도움이되는 더 풍부한 정의를 제공한다고 생각합니다. 예를 들어 "ML은 예측 용, 추론에 대한 통계"는 감독 학습 외부의 기계 학습 기술과 예측에 중점을 둔 통계 기술을 모두 무시합니다.


12

캐비닛 제조업체가 배럴 제조업체의 톱을 사용할 수 없다고 말하는 법은 없습니다.

기계 학습과 통계는 모호한 레이블이지만, 잘 정의 된 경우 통계와 기계 학습간에 많은 부분이 중복됩니다. 그리고 이것은이 두 영역의 방법뿐만 아니라이 두 영역으로 자신 을 표시하는 사람들 을 위한 입니다. 그러나 수학이 진행되는 한 기계 학습은 전적으로 통계 분야에 속합니다.

선형 회귀는 매우 잘 정의 된 수학적 절차입니다. 나는 그것을 통계 영역 및 자신을 '통계 학자'라고 부르는 사람들 및 '통계'와 같은 레이블을 가진 학술 프로그램에서 나온 사람들과 연관시키는 경향이 있습니다. SVM (Support Vector Machines)도 마찬가지로 모든 유사한 입력 및 출력을 가지며 유사한 문제를 해결하는 매우 잘 정의 된 수학적 절차입니다. 그러나 나는 그것을 컴퓨터 학습의 영역 및 컴퓨터 과학자 또는 인공 지능 또는 기계 학습에서 일하는 사람들을 컴퓨터 과학의 한 분야로 간주하는 사람들과 연관시키는 경향이 있습니다.

그러나 일부 통계학자는 SVM을 사용하고 일부 AI 사람들은 로지스틱 회귀를 사용합니다. 분명히 통계학 자나 인공 지능 연구원이 실제로 사용하는 것보다 방법을 개발할 가능성이 더 큽니다 .

나는 머신 러닝의 모든 방법을 통계 영역 안에 넣었다. 딥 러닝, RNN, CNN, LSTM, CRF와 같은 최근의 것들조차도. 적용된 통계 학자 (생물 통계 학자, 농학자)는 익숙하지 않을 수 있습니다. 이것들은 모두 일반적으로 '머신 러닝'이라는 라벨이 붙어 있고 통계와 거의 관련이없는 예측 모델링 방법입니다. 그러나 그들은 되어 그들이 통계적 방법을 이용하여 판단 할 수있는 여유와, 예측 모델.

결국 로지스틱 회귀 기계 학습의 일부로 간주 되어야합니다 .

그러나 그렇습니다. 나는이 단어들을 잘못 적용한 것에 대한 당신의 열망을보고 자주 공유합니다. 선형 회귀는 통계라는 것의 기본 부분으로, '머신 러닝'이라고 부르는 것은 매우 이상하고 오해의 소지가 있습니다 .

설명하기 위해 로지스틱 회귀는 숨겨진 노드가없고 딥 러닝 네트워크와 수학적으로 동일하며 로지스틱 기능은 단일 출력 노드의 활성화 함수입니다. 로지스틱 회귀를 기계 학습 방법이라고 부르지는 않지만 기계 학습 컨텍스트에서 확실히 사용됩니다.

그것은 주로 기대의 문제입니다.

A : "심장 수술 후 병원에 재 입원을 예측하기 위해 기계 학습을 사용했습니다."

B : "아 그래? 딥 러닝? 랜덤 포레스트?!?"

A : "아, 아니, 그다지 화려하지는 않지만 단지 로지스틱 회귀"입니다.

B : 매우 실망한 표정 .

양자 화학을 사용하는 물로 창을 씻을 때와 같습니다. 글쎄, 그건 기술적으로 잘못되지 않았지만 필요한 것보다 훨씬 많은 것을 암시하고 있습니다.

하지만 실제로는, 즉 정확하게 물질의 차이 대 문화 차이. 단어의 의미와 사람들과의 연관성 (LR은 완전히 ML이 아닙니다!) 대 수학 및 응용 프로그램 (LR은 완전히 ML입니다!)입니다.


3
로지스틱 회귀는 SVM과 실질적으로 이론적으로도 매우 유사합니다. web.stanford.edu/~hastie/Papers/svmtalk.pdf
Patrick B.

3

일반적인 관점은 4 가지 영역으로 구성된 머신 러닝입니다.

1) 차원 축소

2) 클러스터링

3) 분류

4) 회귀

선형 회귀는 회귀입니다. 일단 모델이 훈련되면 다른 산림 랜덤 랜덤 회귀와 같은 예측에 사용될 수 있습니다.


기계 학습을 사용하여 선형 회귀를 해결할 수 있지만 실제로 차이가 있습니다. 공통 회귀 목표는 보통 최소 제곱입니다. 즉, 목표 손실 함수 인 제곱 잔차를 최소화해야합니다. 이제 기계 학습은 단순히 손실 함수를 최소화하는 방법을 참조합니다.
Carl

따라서 개념적으로 경사 하강 (학습)을 통한 선형 회귀는 더 나은 더 나은 합산 제곱 잔차 (손실 함수)를 선택합니다. 기본 개념은 신경망과 같은 훨씬 고급 학습 알고리즘의 개념과 동일합니다. 이 알고리즘은 단순히 선형 모델을 훨씬 더 복잡한 모델로 대체하고 그에 따라 훨씬 더 복잡한 비용 함수로 대체합니다. .
Carl

1
그렇다면 OP 질문에 대한 답 은 단순히 가장 적합한 선을 찾는 것이 아니라 선형 회귀 기계 학습은 언제입니까? 선형 회귀는 기계 학습의 정의 요소를 이용하여 수행 될 때와 같이 기울기 하강 , 그 다음 인 선형 회귀는 기계 학습을 사용하여 수행 하였다.
Carl

5
@Carl, 여기서 "기계 학습"이 정의한 문제. 통계 모델을 사용할 수 있고 그 모델이 머신 러닝임을 예측할 수 있다면 그리고 모델의 계수를 찾기 위해 어떤 접근법을 사용했는지는 중요하지 않습니다.
Akavall

1
나는 Akavall의 대답이 매우 분명하다는 것을 알았습니다. Akavall의 문제는 "Q : 기술 X는 언제 '기계 학습'으로 계산됩니까? A ​​: 기술 X는 기계 학습의 정의 가능한 요소를 사용하여 수행 할 때"로 귀결되는 것처럼 정의가 순환 적이라고 생각합니다. (불행히도 나는 당신이 만들고있는 두 번째 요점을 이해하지 못해서 그것에 응답 할 수 없습니다.)
Patrick B.

2

선형 회귀는 기술이지만 기계 학습은 다른 수단과 기술을 통해 달성 할 수있는 목표입니다.

따라서 회귀 성능은 예상 라인 / 곡선에 얼마나 가까운 지에 따라 측정되는 반면, 머신 러닝은 필요한 방법을 통해 특정 문제를 얼마나 잘 해결할 수 있는지에 의해 측정됩니다.


2

머신 러닝과 통계적 추론의 차이점이 명확하다고 주장합니다. 요컨대, 기계 학습 = 미래 관측치 예측 ; 통계 = 설명.

여기 내 관심 분야 (의료)의 예가 있습니다. 약물을 개발할 때, 우리는 약물로 약물을 목표로 목표로 질병 상태를 가장 잘 설명하는 유전자를 검색합니다. 우리는이를 위해 통계를 사용합니다. 대조적으로, 예를 들어 약물이 환자에게 도움이 될지 예측하는 진단 테스트를 개발할 때, 목표는 그것이 많은 유전자를 포함하고 이해하기에는 너무 복잡하더라도 미래 결과에 대한 최상의 예측자를 찾는 것입니다. 우리는이를 위해 머신 러닝을 사용합니다. 약물 표적의 존재가 치료 결과를 잘 예측하지 못하여 구별되는 것을 보여주는 다수의 공개 된 예 [1], [2], [3], [4]가 있습니다.

이를 바탕으로, 목표가 미래 / 이전에는 보이지 않은 관찰 결과를 엄격하게 예측할 때 머신 러닝을하고 있다고 말할 수 있습니다. 목표가 특정 현상을 이해하는 것이라면 이것이 기계 학습이 아니라 통계적 추론입니다. 다른 사람들이 지적했듯이, 이것은 관련된 방법에 관계없이 사실입니다.

귀하의 질문에 대답하기 위해 : 당신이 묘사 한 특정 연구에서 과학자들은 모델 정확도를 비교하지 않고 다른 선형 회귀 모델에서 요인 역할 (무게)을 비교하고있었습니다. 따라서 추론 기계 학습을 호출하는 것은 정확하지 않습니다.

[1] Messersmith WA, Ahnen DJ. 결장 직장암에서 EGFR을 표적으로한다. 뉴 잉글랜드 의학 저널; 2008; 359; 17.

Pogue-Geile KL et al. NSABP 시험 B-31의 보조제 트라 스투 주맙으로부터의 혜택 정도 예측. J Natl Cancer Inst; 2013; 105 : 1782-1788.

[3] Vemurafenib에 대한 Pazdur R. FDA 승인. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . 2013 년 7 월 3 일에 업데이트되었습니다.

[4] Ray T. 2 개의 ASCO 연구에 따르면 NSCLC 약물 시험에서 MET 신호를 예측 마커로 사용하는 데 어려움이 있습니다. GenomeWeb, 2014 년 6 월 11 일.


7
기계 학습 연구가 매개 변수 추정보다 예측에 훨씬 더 중점을 둔다는 데 동의합니다. 그러나 그것은 명확한 구분선이 아닙니다. 통계 연구는 예측 방법이 풍부합니다.
Cliff AB

4
그렇다면 컴퓨터가 존재하기 전에 (또는 널리 사용 가능하기 전에) 예측 한 통계학 자는 어떻습니까? 그들은 종이 연필 기계 학습을 적용하고 있었습니까?!
Tim

1
@Tim : 매우 훌륭한 논증. 비록 그들이 희귀 한 경우 통계 학습 이라는 이름 이 더 적절할 것이라는 점을 인정하지만, 그들이 미래의 관찰에 초점을 맞춘다면 그 대답은 '그렇다'라고 믿는다 . 컴퓨터의 출현으로 기계 학습이라는 용어가 더욱 유행을 이루었습니다. 요점은 컴퓨터의 이름이나 사용이 아닙니다. 목적의 명확성입니다. 필자가보기에는 이전에 보지 못한 관측에 대한 정확한 예측 현상에 대한 이해 를 성공적으로 최적화하는 것이 거의 불가능합니다 . 적절하게 집중하는 것이 좋습니다.
ljubomir

4
시계열 예측 (미래 관측 예측)은 오랫동안 통계 (및 계량 경제학)에서 인기있는 문제 였으므로이를 바탕으로 명확한 구별에 동의하지 않습니다.
Richard Hardy

1
이 대답은 가짜입니다. 예측은 기계 학습의 작은 부분 일뿐입니다. 통계학 자도 예측을합니다. 머신 러닝과 통계를 구분하기는 어렵지만 정확한 방법은 아닙니다.
robguinness

2

선형 회귀 머신 러닝을 호출하는 것이 유용 할 수 있습니다. 일반적으로 그렇게하면 문제 해결 방법에 대한 몇 가지 중요한 사항이 포함됩니다.

  1. 설명 변수에 대한 인과 가정과 사전 이론을 확인할 필요가 없다고 결정했습니다. 모델이 설명하기위한 것이 아니라 예측하기위한 것임을 나타냅니다. 이는 키워드를 기반으로 이메일 스팸을 예측하는 등 많은 설정에서 완벽하게 합리적입니다. 실제로 단어가 스팸을 예측하는 문헌은 많지 않으며 각 단어의 이론적 중요성을 통해 생각하는 것이 의미가없는 단어가 너무 많습니다
  2. 변수의 유의성을 확인하지 않았거나 p- 값을 사용하지 않았지만 표본 외 예측 성능을 평가하기 위해 홀드 아웃 세트 또는 교차 검증을 선택했을 가능성이 있습니다. 이메일 스팸 사례로 돌아가서 실제로 관심있는 모든 것이 스팸을 효과적으로 예측하는 모델을 생성하는 경우, 이는 기존의 중요도 테스트를 통과하지 못할 수있는 변수를 포함하는 비용으로 발생하더라도 완벽하게 유효 할 수 있습니다.

그러나 모델이 예측보다 설명하려는 경우 모델의 이론적 인과 가정 등을 엄격하게 확인하면 기계 학습이라고 부릅니다.


2

분명히이 질문에 대한 대답은 객관적인 사실보다 더 많은 의견이지만, 나는 왜 대답이 결코 그렇지 않다고 생각하는지 논리를 제시하려고 노력할 것 입니다. 소위 머신 러닝 전문가 또는 강사는 선형 회귀를 나타내는 것으로 만 무지를 드러냅니다.

학문 분야의 묘사는 방법보다는 공동체의 묘사에 관한 것입니다. 과학 분야는 항상 여러 분야에 걸쳐 방법을 빌립니다. 또한 19 세기에 (선형 회귀가 개발되었을 때), 그 이전에는 과학적 규율이 오늘날처럼 명확하게 묘사되지 않았습니다. 특히 19 세기 또는 그 이전에 방법이 개발되었을 때, 우리는 그 방법을 특정 분야에 배정해야합니다.

즉, 한 분야의 역사를 살펴볼 수 있으며 특정 방법이 한 분야 또는 다른 분야에 속한다는 결론을 내릴 수 있습니다. 미적분학의 발명가 중 한 사람인 뉴턴이 이것을 물리학에 적용하려고했지만, 오늘날 미적분학은 물리학 분야에 속한다고 말할 수는 없습니다. 미적분학은 물리학이 아닌 수학 학문에 속합니다. 미적분학은 물리 상황 밖에서 완전히 사용할 수있는 일반적인 수학적 방법이기 때문입니다.

동일한 추론으로 선형 회귀는 머신 러닝의 맥락에서 데이터를 모델에 맞추는 간단한 예제로 일반적으로 사용 되더라도 통계 분야에 속합니다. 미적분학이 물리학의 맥락 밖에서 사용될 수있는 것처럼 선형 회귀는 머신 러닝의 맥락 밖에서 사용될 수 있습니다.

머신 러닝 강사는 현대 머신 러닝 개념이 존재하기 오래전 19 세기 후반부터 선형 회귀가 사용되고 있다고 지적하는 것이 현명 할 것입니다 . 또한 머신 러닝은 확률과 통계뿐만 아니라 다른 분야 (예 : 정보 이론)의 많은 개념을 활용한다는 점을 강조해야합니다. 그러나 이러한 개념 자체가 기계 학습 또는 기계 학습의 "알고리즘"을 나타내는 것은 아닙니다.


1

기계 야, 바보 야!

저는 통계 전문가 나 빅 데이터 전문가가 아닙니다. 그러나 본질적인 차이점은 "기계 학습"에는 "기계"가 필요하다는 것입니다. 특히 대행사를 의미합니다 . 결과는 인간이 여유롭게 소비하지 않을 것입니다. 그 결과, 자동화 된 시스템이 성능을 향상시키는 폐쇄 사이클로의 입력이됩니다.

폐쇄 시스템

이것은 Sean Easter의 답변과 거의 일치하지만 상용 응용 프로그램에서 기계 가 결과를보고 그에 따라 행동 하고 있음을 강조하고 싶습니다 . 대표적인 예로는 Netflix Prize의 대상인 CineMatch 알고리즘이 있습니다. 사람은 CineMatch의 결과를보고 영화 시청자에 대한 흥미로운 기능을 배울 수 있습니다. 그러나 그것이 존재하는 이유는 아닙니다. CineMatch의 목적은 Netflix 서버 가 고객에게 영화를 제안 할 수 있는 메커니즘을 제공하는 것입니다. 통계 모델의 출력은 추천 서비스로 전달되며,이 서비스는 고객이 영화를 평가할 때 더 많은 입력을 생성하며 일부는 CineMatch의 조언에 따라 선택되었습니다.

개방형 시스템

반면에 연구원이 알고리즘을 사용하여 다른 사람에게 프리젠 테이션으로 표시되는 통계 결과를 생성하는 경우 해당 연구원은 기계 학습에 관여하지 않는 것이 가장 결정적 입니다 . 이것은 분명히 나에게 인간 학습 입니다. 분석은 기계에 의해 수행되지만 학습을 수행하는 기계 자체 는 아닙니다 . 이제는 인간의 뇌가 모든 샘플 입력을 경험하지 않고 통계 학적 결과를 "생물학적으로"도출하지 않는 한 "기계 학습"입니다. 그러나 저는 이것이 통계학이라고 부릅니다. 왜냐하면 이것은 분야가 발명 된 이후 통계 학자들이했던 것과 정확히 같기 때문입니다.

결론

따라서 "누가 결과를 소비합니까?" 대답이 "인간"이면 "통계"입니다. 대답이 "소프트웨어"라면 "기계 학습"입니다. "소프트웨어가 결과를 소비한다"고 말할 때 나중에 검색 할 수 있도록 소프트웨어를 저장하는 것은 아닙니다. 닫힌 루프의 결과에 의해 결정되는 동작을 수행 한다는 것을 의미합니다 .


8
이것은 합리적인 논점이지만, 실제로 ML 모델은 종종 사람들에게 해석과 협력을 제공한다고 생각합니다.
gung

1
필자는 필드로서의 ML 이 마케팅 목적으로 호출하려는 것이 아니더라도 통계학자가 활용하는 다양한 유용한 도구를 생성했기 때문이라고 말할 수 있습니다. ;)
Lawnmower Man

@gung에 강력하게 동의합니다. 다른 답변과 마찬가지로, 나는 이것이 스스로를 "ML 연구원"이라고 부르는 사람들에게 더 동기가된다는 데 동의합니다. 두 가지 반대의 예 : 추천 시스템은 ML 연구 분야로 간주되지만 결과는 사람에게 직접 제공됩니다. 칼만 필터는 루프에 사람이없는 자동 파일럿 탐색에 자주 사용되지만 일반적으로 통계 방법으로 간주됩니다.
Cliff AB

-1

내 의견으로는 기계가 일부 데이터를 사용하여 일부 모델의 매개 변수를 유추하도록 프로그래밍되면 기계 학습에 대해 말할 수 있습니다.

기계에 의해 선형 회귀가 수행되면, 자격이됩니다.

손으로 수행하면 그렇지 않습니다.

Excel과 같은 일부 에이전트유병률 또는 Sean Easter이 제안한 반복적 개선 과 같은 정의 는 통계분리 하거나 결과수행작업 에 따라 어쨌든 일관성이없는 것으로 판단됩니다.


3
따라서 종이와 연필을 사용하여 회귀 또는 kNN 또는 의사 결정 트리를 계산하고 컴퓨터에서 계산 한 것과 동일한 결과를 얻는다면 첫 번째 경우 머신 러닝이되고 두 번째는 아닙니다 ..? 반면에 컴퓨터를 사용하여 일부 값을 모델의 "매개 변수" 로 임의로 할당 하는 경우 컴퓨터 에서 수행 한 이후에이를 기계 학습으로 인정합니까? 이 정의는 그다지 의미가없는 것 같습니다 ...
Tim

기계를 사용하지 않으면 기계 학습 이라고 부를 수 없습니다 . 결국 배우는 기계입니다. 그리고 실제로 랜덤 (Monte Carlo) 프로세스를 통해 매개 변수를 "학습"한 모델을 배포했습니다. 그러나 나중에 확인 단계가 포함되어 있음을 인정해야합니다.
Ytsen de Boer

2
지원 벡터 같은 알고리즘 기계가 초기에 사람들이 (실행하는 실제 기계 / 컴퓨터 구축해야하기 때문에, 역사적인 이유로 "기계"로 불리는 stats.stackexchange.com/questions/261041/...을 ), 그것은이 없습니다 아무것도 에를 "기계에서 실행되는 알고리즘"과 관련이 있습니다. 또한, ARIMA 같은 시계열 모델은 없는 기계 학습,하지만 통계의 범위에서, 그들이 하는 컴퓨터에서 실행됩니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.