두 문화 : 통계 대 기계 학습?


420

작년에 저는 Brendan O'Connor"통계 vs. 기계 학습, 싸움!" 라는 블로그 게시물을 읽었습니다 . 두 필드의 차이점에 대해 논의했습니다. Andrew Gelman은 다음과 같이 호의적으로 반응했습니다 .

사이먼 블룸버그 :

R의 운세 패키지에서 : 도발적으로 말하면, '기계 학습은 통계에서 모델과 가정의 확인을 뺀 통계입니다'. -Brian D. Ripley (머신 러닝과 통계의 차이에 대한) useR! 2004 년 비엔나 (2004 년 5 월) :-) 계절의 인사!

앤드류 겔먼 :

이 경우 모델과 가정의 검사를 더 자주 제거해야 할 수도 있습니다. 그렇다면 머신 러닝 사람들이 해결할 수있는 몇 가지 문제를 해결할 수있을 것입니다.

2001 년 Leo Breiman 의 "Statistical Modeling : The Two Cultures" 보고서 에도 통계 학자들이 데이터 모델링에 너무 많이 의존하고 있으며 기계 학습 기술은 모델 의 예측 정확도 에 의존하여 진전을 보이고 있다고 주장했습니다 .

이러한 비평에 대한 응답으로 지난 10 년 동안 통계 필드가 변경 되었습니까? 할 일 이 문화는 여전히 존재하거나 통계는 신경망과 지원 벡터 기계와 같은 기계 학습 기술을 포용 성장했다?


21
감사합니다 @robin; CW를 만들었습니다. 나는 이것을 완전히 "논쟁적인"것으로 보지는 않지만; 서로에게 정보를 제공 한 두 가지 분야가 있으며 (이것은 사실임), 문제는 지난 10 년 동안 그들이 얼마나 발전했는지에 대한 질문입니다.
Shane

16
세 번째 문화를 추가하십시오 : 데이터 마이닝 . 기계 학습자와 데이터 광부는 상당히 다른 언어를 사용합니다. 일반적으로 기계 학습자는 데이터 마이닝의 차이점을 이해하지 못합니다. 그들에게 그것은 단지 감독되지 않은 학습입니다. 그들은 데이터 관리 측면을 무시하고 유행어 데이터 마이닝을 기계 학습 에도 적용 하여 혼란을 더합니다.
Anony-Mousse

4
에 비슷한 질문 있습니다 데이터 마이닝 및 통계
naught101

2
Wasserman의 블로그 에서 흥미로운 토론 .

2
실제로 ML과 통계 간의 연결이 충분히 강조되지 않은 것 같습니다. 많은 CS 학생들은 기초 작업을 수행하는 데있어 확실한 통계의 중요성을 이해하지 못하기 때문에 기초 시절 통계에 대해 배우는 것을 무시합니다. 아마도 전 세계의 많은 CS 부서조차도 느리게 행동 할 것입니다. 그것은 비용이 많이 드는 실수이며 CS에서 통계 지식의 중요성에 대해 더 많은 인식이 있기를 바랍니다. 기본적으로 ML = 많은 의미에서 통계입니다.
xji

답변:


195

첫 질문에 대한 답은 단순히 긍정적 인 것입니다. 지난 10 년간 Statistical Science, JASA, Annals of Statistics 문제를 해결하면 부스팅, SVM 및 신경망에 대한 논문을 찾을 수 있습니다. 통계 학자들은 발리언트 (Valiant)와 바 프닉 (Vapnik)의 연구를 적절하게 해왔지만 다른 한편으로 컴퓨터 과학자들은 도노 호와 탈라 그 란드의 연구를 흡수했다. 더 이상 범위와 방법에 큰 차이가 없다고 생각합니다. CS 사람들이 어떤 일을하더라도 손실을 최소화하는 데 관심이 있다는 Breiman의 주장을 결코 사지 않았습니다. 그의 견해는 신경망 회의에 참여하고 컨설팅 업무에 큰 영향을 받았다. 그러나 PAC, SVM, Boosting은 견고한 기반을 모두 갖추고 있습니다. 2001 년과 달리 통계는 유한 표본 속성에 더 관심이 있습니다.

그러나 아직 멀지 않은 세 가지 중요한 차이점이 여전히 있다고 생각합니다.

  1. 방법론 통계 논문은 여전히 ​​압도적으로 형식적이고 연역적이지만 머신 러닝 연구원은 증거가 첨부되지 않은 경우에도 새로운 접근 방식에 더 관대합니다.
  2. ML 커뮤니티는 주로 컨퍼런스 및 관련 절차에서 새로운 결과 및 출판물을 공유하는 반면 통계학자는 저널 논문을 사용합니다. 이로 인해 스타 연구원의 통계 및 식별 과정이 느려집니다. 존 랭 포드 (John Langford)는 이 주제에 관한 좋은 포스트 를 가지고있다 .
  3. 통계는 여전히 설문 디자인, 샘플링, 산업 통계 등과 같이 ML에 거의 관심이없는 영역을 포함합니다.

20
좋은 포스트! Vapnick은 통계학 박사 학위를 보유하고 있습니다. 나는 Talagrand라는 이름을 아는 많은 컴퓨터 과학자가 확실하지 않으며, 그들 중 0.01 %가 talagrand의 하나의 결과를 메모리로 말할 수 있다고 확신합니다. 나는 Valiant의 작품을 모른다 :)
Robin girard

학술 연구 및 응용 프로그램과 관련하여 다른 답변을 봅니다. 나는 당신이 전자의 맥락에서 대답했다고 생각합니다. 응용 프로그램에서 가장 큰 차이점은 필드가 확장되는 방식에 있다고 생각합니다. 데이터 과학 채널을 통한 ML은 문자 그대로 코딩 할 수있는 모든 사람을 받아들입니다. 통계에서는 여전히 노동력을 입력하기 위해 통계 나 근거리에서 공식 학위가 필요합니다.
Aksakal

1
설문 조사 샘플링과 산업 통계는 수십억 달러 분야입니다 (미국 통계 협회의 조사 연구 섹션은 생체 인식 및 컨설팅 후 세 번째로 크며, 후자는 많은 산업 통계 전문가도 포함합니다). , 아직 별도의 Six-Sigma 및 기타 품질 관리 방법이 있지만 모두 통계적으로는 아닙니다. 1960 년대에이 지역에서 일하게 된 베이비 붐 세대의 현재 인력이 은퇴함에 따라 둘 다 통계학 자의 결정적인 부족이 있습니다.
StasK

4
어떤 사람들은 회의에서 레드 카펫 위에서 포즈를 취하여 일자리를 얻는 반면, 다른 사람들은 현실 세계에서 방법을 적용하여 자신의 직업을 찾습니다. 후자의 사람들은없는 어떤 종류의 별을 식별하는 데 많은 관심을; 주어진 필드에서 몇 년이 지난 후에도 동일한 이름으로 반복해서 사용 되기는하지만 실제로는 작동하는 방법을 훨씬 많이 식별합니다.
StasK

ML이 샘플링에 관심이없는 이유는 무엇입니까? ML에 올바른 레이블이 지정된 교육 데이터를 갖는 문제와 상당히 유사하지 않습니까?
gerrit

169

커뮤니티간에 가장 큰 차이점은 통계는 추론을 강조하고 기계 학습은 예측을 강조한다는 것입니다. 통계를 수행 할 때 데이터가 생성 된 프로세스 를 유추하려고합니다 . 기계 학습을 수행 할 때 미래 데이터가 어떤 변수로 보일지 예측하는 방법을 알고 싶습니다.

물론 두 가지가 겹칩니다. 데이터 생성 방법을 알면 예를 들어, 좋은 예측 변수가 무엇인지에 대한 힌트를 얻을 수 있습니다. 그러나 차이의 한 예는 기계 학습이 초기 단계부터 p >> n 문제 (훈련 샘플보다 더 많은 기능 / 변수)를 처리하는 반면 통계는이 문제에 대해 심각해지기 시작한다는 것입니다. 왜? p >> n 일 때도 여전히 좋은 예측을 할 수 있지만 실제로 어떤 변수가 중요한지, 왜 그런지에 대해 매우 유추 할 수는 없습니다.


13
생성 모델과 차별 모델의 차이점과 같은 것으로 (과도하게) 단순화 될 수 있습니까?
Wayne

5
"[분류] 문제를 직접 해결해야하며 중간 단계로서 더 일반적인 문제를 해결하지 마십시오 ..."-Vapnik
Wayne

3
@ mbq : 추론을 할 수 없다는 것을 의미하지는 않았습니다. 단지 주요 목표가 아니며 ML에서 일반적으로 p >> n이므로 훨씬 더 어려워졌습니다.
dsimcha 2019

2
나는이 견해에 강력히 동의하지 않습니다. 잘못된 것 같습니다. 반복적 인 신경망과 같은 것들도 프로세스를 유추하려고 시도하며 심지어 새로운 시퀀스를 생성합니다.
원시인

2
그렇다면 로봇 공학은 어떻습니까? 확률 적 로봇 공학 은 추론에 크게 초점을 맞추고 있으며 응용 분야에서 상당히 지배적입니다. 그러나 통계와는 여전히 다른 "향기"(및 기계 / 학습과 비교하여 더 많은 엔지니어링, 즉 실시간 분석 / 제어)
GeoMatt22

134

베이지안 : "안녕하세요, 기계 학습자!"

상용 주의자 : "안녕하세요, 기계 학습자!"

기계 학습 : "여러분이 능숙하다고 들었습니다. 여기에 몇 가지 데이터가 있습니다."

F : "예, 모델을 적어두고 MLE을 계산해 봅시다."

n1n

F : "아, 네 생각 나게 해줘서 고마워. 나는 종종 모든 것에 MLE을 사용해야한다고 생각하지만 편견없는 견적 자 등에 관심이있다 ."

ML : "이 철학은 무엇입니까? 도움이 되겠습니까?"

÷(n1)

ML : "그래서 무엇에 관심이 있습니까?"

F : "평가."

ML : "저 소리가 마음에 들어요."

θθθ

ML : "좋아요! 잦은 사람들은 실용적 인 것 같습니다. 각 블랙 박스를 결과로 판단합니다. 평가가 중요합니다."

F : "사실! 여러분도 비슷한 접근 방식을 취하고 있다는 것을 이해합니다. 교차 검증 또는 무언가? 그러나 그것은 지저분한 것 같습니다."

ML : "지저분합니까?"

F : "실제 데이터에 대한 추정자를 테스트한다는 아이디어는 나에게 위험한 것 같습니다. 사용하는 경험적 데이터에는 모든 종류의 문제가있을 수 있으며 평가에 동의 한 모델에 따라 작동하지 않을 수 있습니다."

θ

F : "예. 평가에 사용한 하나의 데이터 집합 (트레인 및 테스트 데이터가있는 데이터 집합)에서 분석법이 작동했을 수도 있지만 항상 작동 할 것입니다."

ML : "모든 데이터 세트에 대해?"

F : "아니요."

ML : "따라서 내 분석법이 하나의 데이터 세트에서 교차 검증되었습니다. 실제 데이터 세트에서 테스트하지 않았습니까?"

F : "맞습니다."

ML : "그러면 저를 주도하게됩니다! 제 방법은 당신보다 낫습니다. 암의 90 %를 예측합니다. 당신의 '증거'는 전체 데이터 세트가 가정 한 모델에 따라 행동하는 경우에만 유효합니다."

F : "음, 그래요."

θ

F : "그렇습니다. 데이터가 실제로 iid Normal (또는 무엇이든)이 아니라면 내 증거는 쓸모가 없습니다."

ML : "저의 평가는보다 신뢰할 수 있고 종합적입니까? 지금까지 시도한 데이터 세트에서만 작동하지만 최소한 실제 데이터 세트, 사마귀 및 모두입니다. 그리고 '완전히'그리고 당신은 모델 확인과 물건에 관심이있었습니다. "

B : (인터럽트) "안녕하세요. 방해해서 죄송합니다. 다른 문제를 시연하고 개입하는 것을 좋아하지만, 저의 빈번한 동료 분출을 보는 것을 정말 좋아합니다."

F : "우와!"

ML : "좋아요, 아이들. 평가에 관한 것이 었습니다. 견적자는 블랙 박스입니다. 데이터가 들어가고, 데이터가 나옵니다. 평가하는 방법에 따라 견적 자의 승인 또는 비 승인입니다. 우리는 상관하지 않습니다. 사용 된 '레시피'또는 '디자인 원칙'에 대해

F : "그렇습니다. 그러나 어떤 평가가 중요한지에 대한 아이디어는 매우 다릅니다. ML은 실제 데이터에 대한 교육 및 테스트를 수행합니다. 더 광범위하게 적용되는 증거가 있기 때문에 더 일반적인 평가를 수행합니다. 더 제한적입니다 (귀하의 데이터 세트가 실제로 평가를 설계 할 때 사용하는 모델링 가정에서 도출 된 것인지 알 수 없기 때문에 ")

ML : "B는 어떤 평가를 사용하십니까?"

F : (개론 자) "이봐. 나를 웃게 만들지 마. 그는 아무것도 평가하지 않는다. 그는 단지 주관적인 신념을 사용하고 그것과 함께 실행한다."

B : "이것은 일반적인 해석입니다. 그러나 선호하는 평가로 베이지안을 정의하는 것도 가능합니다. 그런 다음 우리는 블랙 박스에있는 것을 신경 쓰지 않고 다른 평가 방법에만 신경을 쓴다는 생각을 사용할 수 있습니다."

B는 계속한다 : "고전적인 예 : 의학적 검사. 혈액 검사의 결과는 긍정적이거나 부정적입니다. 빈번한 사람들은 건강한 사람들, 어떤 비율이 부정적인 결과를 얻는 지에 관심이있을 것입니다. 그리고 마찬가지로, 아픈 사람들의 비율은 어느 정도입니까? 잦은 주의자는 고려중인 각 혈액 검사 방법에 대해 이들을 계산 한 후 최고 점수를 얻은 검사를 사용하도록 권장합니다. "

F : "정확합니다. 무엇을 더 원하세요?"

B : "긍정 테스트 결과를 얻은 사람들은 어떻습니까? 그들은 '긍정적 인 결과를 얻는 사람들, 얼마나 많은 사람들이 아플 것입니까?' 그리고 '부정적인 결과를 얻는 사람들 중 얼마나 많은 사람들이 건강합니까?' "

ML : "그렇습니다. 더 좋은 질문을하는 것 같습니다."

F : "HERESY!"

B : "여기 다시갑니다. 그는 어디로 가는지 좋아하지 않습니다."

ML : "이것은 '우선 순위'에 관한 것입니까?"

F : "EVIL".

B : "어쨌든, 그렇습니다. ML입니다. 병에 걸린 긍정적 인 결과 사람들의 비율을 계산하려면 두 가지 중 하나를 수행해야합니다. 하나의 옵션은 많은 사람들에 대해 테스트를 실행하고 예를 들어, 그 사람들 중 몇 명이이 병으로 죽어 가는가. "

ML : "그것이 내가하는 것처럼 들린다. 기차와 테스트를 사용하라."

B : "하지만 인구의 질병 비율에 대해 기꺼이 가정한다면이 수치를 미리 계산할 수 있습니다. 잦은 운동가는 사전에 계산을 수행하지만이 인구 수준의 질병률을 사용하지는 않습니다."

F : "발견되지 않은 가정."

B : "오, 닥쳐. 일찍, 당신은 알아 냈어. ML은 당신이 다른 사람처럼 근거없는 가정을 좋아한다는 것을 발견했다. 당신의 '증명 된'커버리지 확률은 모든 가정이 일어나지 않는 한 현실 세계에 쌓이지 않을 것입니다. 왜 저의 이전 가정이 그렇게 다른가? 당신은 나를 미쳤다고 생각하지만, 당신의 가정은 보수적이고 견고하며 가정이없는 분석의 일이라고 가정합니다. "

B (계속) : "어쨌든 ML, 말했듯이 베이지안은 다른 종류의 평가를 좋아합니다. 관찰 된 데이터를 조정하고 그에 따라 추정기의 정확도를 계산하는 데 더 관심이 있습니다. 사용하지 않고는 이 평가 를 수행 할 수 없습니다. 그러나 흥미로운 점은 일단 이러한 형태의 평가를 결정하고 사전을 선택한 후에는 적절한 견적을 생성 할 수있는 자동 '레시피'를 가지고 있다는 것입니다. 복잡한 모델에 대한 편견없는 추정기는 적절한 추정기를 구축 할 수있는 자동화 된 방법이 없습니다. "

ML : "그렇습니다. 자동 견적 도구를 만들 수 있습니까?"

B : "예. 편견이 추정기를 평가하는 나쁜 방법이라고 생각하기 때문에 편견없는 추정량을 자동으로 생성 할 수있는 방법이 없습니다. 그러나 조건부 데이터 추정이 마음에 들었습니다. "나에게 견적을 제공 할 수있는 이전과 가능성을 연결할 수 있습니다."

ML : "어쨌든, 요약하자. 우리는 방법을 평가할 수있는 다른 방법이 있으며, 어떤 방법이 가장 좋은지에 대해서는 결코 동의하지 않을 것이다."

B : "글쎄, 그건 공평하지 않다. 우리는 그것들을 섞어서 일치시킬 수있다. 만약 우리 중 누구라도 좋은 교육 자료를 가지고 있다면, 우리는 아마도 그것에 대해 테스트해야한다. 그리고 일반적으로 우리는 가능한 많은 가정을 테스트해야한다. "일부 입증 된 데이터 생성 모델에서 성능을 예측하는 증거도 재미있을 것입니다."

F : "그렇습니다. 평가에 대해 실용적이 되겠습니다. 실제로 무한 샘플 특성에 대한 집착을 멈추겠습니다. 과학자들에게 무한 샘플을 주도록 요청했지만 여전히 그렇게하지 않았습니다. 유한 한 샘플에 다시 집중할 시간입니다. "

ML : "마지막 질문이 하나 있습니다. 분석법 을 평가 하는 방법에 대해 많은 논란이 있었지만 어떻게 분석법 을 작성 합니까 ?"

B : "아. 초기에 갈수록 베이지안은 더 강력한 일반적인 방법을 가지고 있습니다. 복잡 할 수도 있지만, 우리의 후부에서 추출 할 일종의 알고리즘 (순수한 MCMC)을 항상 작성할 수 있습니다. "

F (개별) : "하지만 편견이있을 수 있습니다."

B : "그렇습니다. MLE가 종종 편향되어 있다는 사실을 상기시켜 주어야합니까? 때로는 편견이없는 추정기를 찾기가 어려우며 심지어 어리석은 추정기가있는 경우 (일부 복잡한 모델의 경우) 분산은 음수입니다. 그리고 당신은 그것을 편견이라고 부릅니다. 편견입니다, 예. 그러나 유용합니다!

ML : "OK guys. 당신은 다시 뛰고 있습니다. 질문 하나하겠습니다. F. 당신은 같은 문제에 대해 작업했을 때 당신의 방법의 바이어스와 B의 방법의 바이어스를 비교 한 적이 있습니까?"

F : "예. 사실 인정하기는 싫지만 B의 접근 방식은 때때로 내 추정기보다 낮은 편향과 MSE를 갖습니다 !"

ML : "여기서의 교훈은 평가에 대해서는 약간 동의하지 않지만, 원하는 속성을 가진 추정기를 만드는 방법에 대한 독점은 없습니다."

B : "예, 우리는 서로의 작업을 조금 더 읽어야합니다. 견적 담당자에게 서로에게 영감을 줄 수 있습니다. 다른 사람의 견적 담당자는 우리 자신의 문제에 대해 즉시 사용할 수 있습니다."

F : "나는 편견에 대한 집착을 그만 두어야한다. 편견없는 추정자는 어리석은 차이가있을 수있다. 나는 우리 모두가 평가 방법과 평가자에서보고자하는 속성에 대한 선택에 대해 '책임'을 가져야한다고 생각한다. 우리는 철학을 뒷받침 할 수 없습니다. 당신이 할 수있는 모든 평가를 시도하십시오. 그리고 나는 견적 자들을위한 새로운 아이디어를 얻기 위해 베이지안 문학을 계속 몰래 볼 것입니다! "

B : "사실, 많은 사람들이 자신의 철학이 무엇인지 실제로 알지 못합니다. 나 자신도 확실하지 않습니다. 베이지안 레시피를 사용하고 좋은 이론적 결과를 증명한다고해서 잦은 주의자입니까? 잦은 주의자는 성능에 대한 위의 증거에 신경을 쓰지만 레시피는 신경 쓰지 않으며, 대신 훈련 (또는 테스트)을한다면 기계 학습 자라는 의미입니까? "

ML : "그럼 우리 모두 비슷해 보인다."


8
이 답변을 끝까지 읽는 독자들을 위해 간단한 테이크 아웃 메시지를 추가하고 적절한 인용을 제공하는 것이 좋습니다.
chl

지금까지 -2 투표로, 나는 그것을 저장하기 위해 할 수있는 일이 많지 않다고 생각합니다 :) 나는 서로 동의하는 결말을 생각하고 서로 철학에 대해 걱정하지 않고 서로 다른 방법을 사용할 수 있음을 인정합니다. '테이크 아웃 메시지'.
Aaron McDaid

10
인용이 필요하지 않습니다. 방금 스스로 만들었습니다. 그것은 잘 알려지지 않았을 것입니다. 수년 동안 소수의 동료들과 함께했던 논쟁에 대한 내 자신의 (미스) 해석을 기반으로합니다.
Aaron McDaid

3
나는 과거에 그런 대화를 보았지만 (짧지 만), 그것들이 흥미로 웠습니다. 나는 또한 다운 보트들에 대해 염려했기 때문에 독자들이 게시물의 나머지 부분을 읽도록 동기를 부여하기 위해 상단에 간단한 요약을 넣을 것을 제안합니다.
chl

3
13/10은 다시 논쟁 할 것이다
410_Gone

67

그런 토론에서 나는 항상 유명한 Ken Thompson의 인용문을 떠 올립니다.

의심스러운 경우 무차별 대입을 사용하십시오.

이 경우, 기계 학습은 가정이 파악하기 어려운 구원입니다. 또는 적어도 그것들을 잘못 추측하는 것보다 훨씬 낫습니다.


2
수년 동안 증가 된 계산 기능과 자동 엔코더 및 관련 기술로 인해 이는 그 어느 때보 다 사실입니다.
Firebug

문제를 해결하기 위해 엔지니어는 공식, 기술 및 절차를 사용합니다. 이는 공식, 기술 및 절차를 사용하여 이전에 사용했으며 성공을 확신합니다. 절차는 단계별 프로세스에서 사용됩니다 ... 엔지니어링 활동은 엔지니어, 기술자 및 육체 노동자가 함께 일하는 그룹 활동입니다. 새로운 절차가 도입되면이 절차를 통해 기술자와 작업자를 교육하는 데 시간이 걸립니다. 따라서 현대화는 진화 과정에 도입되었습니다.
b.sahu

64

필요한 것보다 더 많은 분리를 강요하는 것은 각 분야의 어휘입니다.

ML이 하나의 용어를 사용하고 통계가 다른 용어를 사용하지만 많은 경우에 동일한 용어를 사용하는 경우가 많이 있습니다. 기대할 수 있으며, 영구적 혼동 (예 : 기능 / 속성 대 기대)을 유발하지 않습니다. 변수, 또는 신경망 / MLP 대 프로젝션 추구).

더 어려운 것은 두 학문이 완전히 다른 개념을 지칭하기 위해 같은 용어를 사용한다는 것입니다.

몇 가지 예 :

커널 기능

ML에서 커널 기능은 분류기 (예 : SVM)와 커널 시스템에서 사용됩니다. 이 용어는 간단한 함수 ( 코사인, 시그 모이 드, rbf, 다항식 )를 참조하여 비선형 적으로 분리 가능한 새로운 입력 공간으로 매핑하므로 이제이 새로운 입력 공간에서 데이터를 선형 적으로 분리 할 수 ​​있습니다. (비선형 모델을 사용하여 시작하는 것과 비교).

통계에서 커널 함수는 밀도 곡선을 부드럽게하기 위해 밀도 추정에 사용되는 가중치 함수입니다.

회귀

ML, 예측 알고리즘, 또는 클래스 레이블을 반환하는 알고리즘의 구현에서 "분류"는이다 (가끔)라고 기계 , --eg 지원 벡터 머신 , 커널 기계 . 기계에 대응하는 것은 회귀 (regressor)로 , 벡터 회귀를 지원 하는 점수 (연속 변수) 를 반환합니다 .

알고리즘이 모드에 따라 다른 이름을 갖는 경우는 거의 없습니다. 예를 들어, MLP는 클래스 레이블 또는 연속 변수를 반환하는지 여부에 따라 사용되는 용어입니다.

통계에서 회귀 는 경험적 데이터를 기반으로 모델을 작성하려는 경우 하나 이상의 설명 변수 또는 하나 이상의 변수를 기반으로 일부 반응 변수를 예측 한 다음 회귀 분석을 수행 합니다. 출력이 연속 변수인지 또는 클래스 레이블인지는 중요하지 않습니다 (예 : 로지스틱 회귀). 예를 들어 최소 제곱 회귀는 연속 값을 반환하는 모델을 나타냅니다. 반면에 로지스틱 회귀는 확률 추정치를 반환 한 다음 클래스 레이블로 이산화됩니다.

편견

ML 에서 알고리즘 의 바이어스 항은 개념적 으로 회귀 모델링에서 통계학자가 사용 하는 절편 항 과 개념적으로 동일합니다 .

통계에서 치우침은 임의적이지 않은 오차입니다. 즉, 일부 현상이 동일한 방향으로 전체 데이터 세트에 영향을 미쳤으며, 이는 샘플 크기를 리샘플링하거나 늘려서 이러한 종류의 오류를 제거 할 수 없음을 의미합니다.


19
통계에서 바이어스는 오류와 다릅니다. 오류는 순전히 무작위이며 바이어스는 아닙니다. 예상 값이 실제 값과 같지 않다는 것을 알고있을 때 편견이 있습니다.
Joris Meys

2
(@Joris 또는 모르는 경우에도! trite는 들리지만 편향이 있는지 알아내는 것은 실질적인 문제가 될 수 있습니다. 데이터만으로는 추정 회귀 모수에 변수가 생략되어 있는지 확인할 수 있습니다 치우침?) 치우침은 추정 자의 속성이 아니라 데이터의 특징이라는 일반적인 오해입니다. "조사가 편향되어 있습니다!"와 같은 비 기술적 인 사용으로 인한 것인지 궁금합니다. 통계학자는 또한 "오류"와 같은 용어에 대해 항상 일관성이있는 것은 아닙니다 : 평균 추정치의 평균 제곱 오차에 바이어스 제곱 성분이 포함되므로 "오류"가 "순전히 무작위"가 아닙니다.
실버 피쉬

2
SVM에서 "기계"라는 용어는 Vladimir Vapnic의 개인적인 취향에 기인한다고 생각합니다. 요즘에는 다른 분류기의 이름을 지정하는 데 사용되지 않는다고 생각합니다.
iliasfl 5

3
E[X^X]

1
[0,1]1

25

기계 학습은 실용적 관찰 또는 현실의 시뮬레이션에 기반을 둔 것 같습니다. 통계 내에서도, "모형과 가정의 확인"은 마음에 들지 않는 유용한 방법을 버릴 수 있습니다.

예를 들어, 몇 년 전, 신용 기관이 구현 한 최초의 상용 (및 작동중인) 파산 모델은 0-1 개의 결과를 목표로하는 평범한 오래된 선형 회귀 모델을 통해 만들어졌습니다. 기술적으로 이것은 나쁜 접근 방법이지만 실제로는 효과적이었습니다.


4
행성 중력 모델을 도시 교통에 사용하는 것과 비슷합니다. 나는 그것이 터무니없는 것을
알지만

5
나는 마지막 진술에 관심이있다 : "신용국에 의해 구현 된 최초의 상업적으로 이용 가능한 (그리고 작동하는) 파산 모델은 0-1 결과를 목표로하는 평범한 오래된 선형 회귀 모델을 통해 만들어졌다". 어떤 모델입니까? 첫 번째 모델은 Moody 's의 RiskCalc이고 첫 번째 버전은 로지스틱 회귀 모델이라고 생각합니다. 이 모델의 개발자는 ML에 대한 배경 지식을 가진 CS 직원이 아니라 계량 경제학 전문가였습니다.
gappy

2
DA가 LR 이전에 발명 되었기 때문에 로지스틱 회귀 분석 전에 판별 분석을 사용했습니다.
Neil McGuigan

1
@gappy 개인 신용 조사 기관 레코드에 대한 MDS 소비자 파산 모델을 생각하고 있습니다 .RiskCalc는 회사의 신용 위험 평가였습니다. MDS 파산 모델은 목표가 FICO의 원래 점수와 같은 신용 연체가 아닌 파산이라는 점에서 FICO 위험 모델과 다릅니다. 내 의견은 그 맥락에서 ML의 특성에 대해서는 덜 언급했지만 (BK 모델이 처음 구축 된 시점에서 거의 사용되지 않았기 때문에) 실용적 효과가 반드시 모든 것과 관련이있는 것은 아닙니다. 이론적 제한 또는 가정 위반.
Jay Stevens

왜 기술적으로 나쁜 접근 방식 이었는지 궁금합니다. 현실과 크게 다른 단순화 된 가정을 너무 많이 만들었 기 때문에?
xji

25

지난해 주목 한 가장 큰 차이점은 다음과 같습니다.

  • 머신 러닝 전문가는 기본 사항에 충분한 시간을 소비하지 않으며, 많은 사람들이 최적의 의사 결정과 올바른 정확도 점수 규칙을 이해하지 못합니다. 그들은 가정을하지 않는 예측 방법이 그보다 더 큰 표본 크기를 요구한다는 것을 이해하지 못합니다.
  • 우리 통계 학자들은 좋은 프로그래밍 연습과 새로운 계산 언어를 배우는데 너무 적은 시간을 소비합니다. 통계 문헌에서 새로운 방법을 계산하고 채택 할 때 변화가 너무 느립니다.

2
또 다른 메모는 통계학자가 특히 출판물에 관해 (어쩌면 어리석은 가정 하에서) 잘 작동하는 수학으로 증명할 수있는 방법으로 자신을 제한하는 경향이 있다는 것입니다. 기계 학습 사람들은 몇 가지 데이터 세트에서 경험적으로 잘 작동하는 방법을 사용하는 것을 매우 기쁘게 생각합니다. 결과적으로 ML 문학은 훨씬 더 빠르게 움직일뿐 아니라 더 어리석은 체로 거르는 것도 필요하다고 생각합니다.
Cliff AB

24

머신 러닝과 통계가 상이하거나 상충되는 과학이라는 것을 암시하는이 질문에 동의하지 않습니다.

머신 러닝은 통계를 광범위하게 사용합니다. 머신 러닝 또는 데이터 마이닝 소프트웨어 패키지에 대한 빠른 조사는 통계에서도 볼 수있는 k- 평균과 같은 클러스터링 기법을 보여줍니다. 또한 주요 구성 요소 분석과 같은 차원 축소 기법을 보여줍니다. 또한 통계 기법 ... 심지어 로지스틱 회귀 분석도 가능합니다.

제 생각에 가장 큰 차이점은 전통적으로 통계가 선입견 이론을 제시하는 데 사용되었으며 일반적으로 분석은 그 주요 이론을 중심으로 설계되었다는 것입니다. 데이터 마이닝 또는 머신 러닝의 경우 반대 접근법이 일반적으로 우리가 결과를 얻는 기준이되는 곳에서 우리는 단지 질문을하거나 이론을 형성하기보다는 그것을 예측하는 방법을 찾고자합니다. 이것이 결과입니다!


21

나는 다른 포럼에서 ASA Statistical Consulting eGroup에 대해 이야기했습니다. 제 답변은 데이터 마이닝에 대한 것이지만 두 사람은 서로 밀접한 관련이 있습니다. 우리 통계 학자들은 데이터 마이너, 컴퓨터 과학자 및 엔지니어에게 코를 대고 있습니다. 그건 틀렸어. 나는 그것이 일어나는 이유의 일부는 우리가 그 분야의 일부 사람들이 그들의 문제의 확률 론적 특성을 무시하는 것을보고 있기 때문이라고 생각합니다. 일부 통계학자는 데이터 마이닝 데이터 스누핑 또는 데이터 낚시를 ​​호출합니다. 어떤 사람들은 방법을 남용하고 오용하지만 통계 학자들은 데이터 브러시와 머신 러닝에서 광범위한 브러시로 페인트하기 때문에 뒤쳐졌습니다. 큰 통계 결과 중 일부는 통계 범위 밖에서 나왔습니다. 부스팅은 중요한 예입니다. 그러나 Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman과 다른 사람들은 그것을 얻었고 그들의 리더십은 통계 학자들을 마이크로 어레이 및 기타 대규모 추론 문제의 분석에 가져 왔습니다. 따라서 문화가 결코 맞물리지 않을 수 있지만 이제는 컴퓨터 과학자, 엔지니어 및 통계 학자 사이에 더 많은 협력과 협업이 있습니다.


19

실제 문제는이 질문이 잘못 인도되었다는 것입니다. 기계 학습 대 통계가 아니라 실제 과학 발전에 대한 기계 학습입니다. 기계 학습 장치가 시간의 90 %를 정확하게 예측하지만 "이유"를 이해할 수없는 경우, 기계 학습이 과학에 크게 기여하는 것은 무엇입니까? 머신 러닝 기술이 행성의 위치를 ​​예측하는 데 사용되었다고 상상해보십시오. 많은 사람들이 자신의 SVM으로 여러 가지를 정확하게 예측할 수 있다고 생각하지만, 그들이 가지고있는 문제에 대해 실제로 무엇을 알고 있을까요? ? 분명히, 과학은 실제로 수치 적 예측에 의해 발전하지 않고 단지 숫자 이상의 것을 볼 수있는 모델 (정신, 수학)을 통해 발전합니다.


1
+1 경제학에서 모델을 사용한다는 것을 상기시킵니다. 계량 경제 모델은 몇 가지 목적으로 만들어졌습니다. 즉, 정책 분석 및 예측. 일반적으로 아무도 예측에 관심이 없습니다. 가장 중요한 것은 정책 시뮬레이션입니다. David Hendry가 말했듯이 최고의 예측 모델은 반드시 정책 분석을위한 최고의 모델 일 필요는 없으며 그 반대도 마찬가지입니다. 물러서서 생각해야 ... 모델의 목적은 무엇입니까? 우리는 어떤 질문에 대답하려고합니까? 그리고 이것이 경험적 발견 을하는 어떻게 적합한가 .
Graeme Walsh

17

통계 학습 (AKA Machine Learning)은 "예를 통해 학습"하여 소프트웨어를 작성하려는 탐구에서 시작되었습니다. 프로그램하기는 어렵지만 훈련 예제를 제공하기는 쉬운 많은 작업 (예 : 컴퓨터 비전, 음성 인식, 로봇 제어)을 원합니다. 머신 러닝 / 통계학 학습 리서치 커뮤니티는이 예제에서 기능을 학습하는 알고리즘을 개발했습니다. 손실 기능은 일반적으로 성능 작업 (비전, 음성 인식)과 관련이 있습니다. 물론 우리는 이러한 작업의 기초가되는 간단한 "모델"이 있다고 믿을 이유가 없었습니다 (그렇지 않으면 우리는 그 간단한 프로그램을 직접 코딩했기 때문입니다). 따라서 통계적 추론을 수행한다는 전체 아이디어는 의미가 없었습니다. 목표는 예측 정확도이며 다른 것은 없습니다.

시간이 지남에 따라 다양한 힘이 기계 학습 사람들이 통계에 대해 더 많이 배우도록 유도하기 시작했습니다. 하나는 학습 과정에 대한 배경 지식과 기타 제약 조건을 통합해야 할 필요성이었습니다. 이를 통해 사람들은 생성 확률 모델을 고려하게되었습니다. 모델의 구조와 모델 매개 변수 및 구조에 대한 사전 지식을 통해 사전 지식을 쉽게 통합 할 수 있기 때문입니다. 이 분야에서이 분야의 풍부한 통계 문헌을 발견하게되었습니다. 또 다른 힘은 과적 합 현상의 발견이었습니다. 이로 인해 ML 커뮤니티는 교차 검증 및 정규화에 대해 배우고 주제에 관한 풍부한 통계 문헌을 다시 발견했습니다.

그럼에도 불구하고 대부분의 머신 러닝 작업의 초점은 알려지지 않은 프로세스에 대한 추론보다는 특정 성능을 나타내는 시스템을 만드는 것입니다. 이것이 ML과 통계의 근본적인 차이입니다.


15

이상적으로는 질문에 대답하기 전에 통계와 머신 러닝에 대한 철저한 지식이 있어야합니다. 나는 ML에 대한 신생 생물이므로, 내가 말하는 와트가 순진하다면 나를 용서하십시오.

SVM 및 회귀 트리에 대한 경험이 제한적입니다. 통계적 관점에서 ML이 부족하다고 생각되는 것은 잘 발달 된 추론 개념입니다.

ML의 추론은 (예를 들어) 평균 분류 오차 (MCE) 또는 균형 오차율 (BER) 또는 이와 유사한 것에 의해 측정 될 때 예측 정확도에 거의 독점적으로 소멸되는 것으로 보인다. ML은 데이터를 무작위로 (보통 2 : 1) 훈련 세트와 테스트 세트로 나누는 습관이 매우 좋습니다. 훈련 세트를 사용하여 모델을 적합시키고 테스트 세트를 사용하여 성능 (MCE, BER 등)을 평가합니다. 이것은 훌륭한 관행이며 천천히 주류 통계로 나아가고 있습니다.

ML은 또한 출처가 통계에있는 것으로 보이는 리샘플링 방법 (특히 교차 검증)을 많이 사용합니다.

그러나 ML은 예측 정확도를 넘어 완전히 개발 된 추론 개념이 부족한 것으로 보입니다. 두 가지 결과가 있습니다.

1) 모든 예측 (매개 변수 추정 등)이 임의의 오류 및 아마도 시스템 오류 (바이어스)의 영향을 받는다는 인식이없는 것 같습니다. 통계 학자들은 이것이 불가피한 예측 부분임을 인정하고 오차를 추정하고 시도 할 것입니다. 통계 기술은 최소 바이어스 및 임의 오류가있는 추정치를 찾습니다. 이들의 기술은 일반적으로 데이터 프로세스 모델에 의해 주도되지만 항상 그런 것은 아닙니다 (예 : 부트 스트랩).

2) ML에서 이전에 훈련 테스트 데이터 세트 접근 방식에 대해 말한 내용에도 불구하고 동일한 모집단의 새 샘플에 새 데이터에 모델을 적용하는 한계에 대한 깊은 이해가없는 것 같습니다. 다양한 통계 기법 중에서 가능성 기반 방법에 적용되는 유효성 검사 및 페널티 용어 간을 비교하면 통계학자가 특성과 모델 복잡성 간의 균형을 맞출 수 있습니다. ML의 이러한 지침은 훨씬 임시적인 것으로 보입니다.

ML에서 교차 검증을 사용하여 훈련 데이터 세트에서 많은 모델의 피팅을 최적화하는 데 사용되는 여러 논문을 보았습니다. 모델 복잡성이 증가함에 따라 더 잘 맞습니다. 정확도의 작은 게인은 추가 복잡성에 가치가 없으며 자연스럽게 과적 합으로 이어진다는 인식이 거의 없습니다. 그런 다음 이러한 최적화 된 모든 모델이 예측 성능을 확인하고 과적 합을 방지하기 위해 테스트 세트에 적용됩니다. 두 가지가 잊혀졌습니다 (위). 예측 성능에는 확률 적 구성 요소가 있습니다. 둘째, 테스트 세트에 대한 여러 테스트는 다시 과적 합을 초래합니다. "최고의"모델은 ML 개업의가이 실험의 여러 가능한 결과 중 하나를 실현하여 체리를 고른 것에 대한 완전한 감사없이 선택 될 것입니다.

내 2 센트 가치가있는 사람. 우리는 서로에게서 배울 것이 많습니다.


2
에 대한 의견 "최고"모델은 ML 개업에 의해 choisen 될 것입니다 ... 물론 주류 통계에 동일하게 적용됩니다. 대부분의 모델 선택 절차에서 모델 공간을 전혀 검색하지 않은 것처럼 최종 모델을 조건화합니다 (모델 평균화가 상당히 새롭기 때문에). ML 실무자를 이길 수있는 "클럽"으로 사용할 수 있다고 생각하지 않습니다.
probabilityislogic

ML 실무자로서 나는 당신이 그림을 그리는 그림을 인식하지 못합니다. ML 문헌은 거의 모든 정규화, MDL, 베이지안, SRM 및 모델의 복잡성을 제어하는 ​​기타 접근 방식의 변형에 관한 것입니다. 내가 앉아있는 곳에서 복잡성을 제어하는 ​​stat의 방법은 덜 구조적이지만, 그것은 당신에게 편견입니다.
무하마드 알카로 우리

13

이 질문은 또한 2015 년 데이비드 도노 호 (David Donoho) 논문 50 년의 데이터 사이언스 (Data Science ) 이른바 수퍼 컬처 문화 (super-culture)로 확대 될 수있다 . (다른 사람들로부터) 다음과 같이 :

  • 수세기 동안 통계를봤을 때 왜 데이터 과학이 필요한가?
  • 데이터 과학은 통계입니다.
  • 통계가없는 데이터 과학도 가능합니다.
  • 통계는 데이터 과학에서 가장 중요한 부분입니다.

다음과 같은 역사적, 철학적 고려 사항으로 분류됩니다.

통계가 엄청나게 짧은 샤프트로 제공되는 오늘날의 데이터 과학에 대한 프레젠테이션을 검토 할 때 데이터 과학으로 가르치고있는 기본 도구, 예제 및 아이디어가 모두 있다는 것을 알 수 없습니다. 말 그대로 박사 학위를받은 사람이 발명했습니다. 통계 및 많은 경우에 사용되는 실제 소프트웨어는 MA 또는 Ph.D를 가진 사람이 개발했습니다. 통계에서. 수세기에 걸쳐 축적 된 통계 학자들은 완전히 논문을 작성하기에는 너무 압도적이며 데이터 과학의 가르침, 연구 및 연습에 숨길 수 없습니다.

이 글은 토론에 많은 반응과 공헌을하였습니다.


3
이것은 최근 인기있는 스레드 통계 stats.stackexchange.com/questions/195034 에서 언급 할 가치가있는 논문처럼 보입니다 . 아무도 언급하지 않았습니다.
amoeba

1
이 논문을 요약 한 새로운 답변을 게시하면 좋을 것 같습니다.
amoeba

나는 주어진 모든 답변을 먼저 요약해야합니다
Laurent Duval

12

머신 러닝과 통계학의 개념적 / 역사적 차이점이 무엇인지는 잘 모르겠지만 분명하지 않다고 확신합니다. 머신 러닝 학습자인지 통계 학자인지 알고 싶지는 않습니다. Breiman의 논문 10 년 후 많은 사람들이 ...

어쨌든, 나는 모델의 예측 정확도에 관한 흥미로운 질문을 발견했습니다 . 모델의 정확도를 측정하는 것이 항상 가능한 것은 아니라는 점을 기억해야하며,보다 정확하게는 오차를 측정 할 때 암시 적으로 일부 모델링을 수행하는 경우가 많습니다.

예를 들어, 시계열 예측의 평균 절대 오차는 시간이 지남에 따른 평균이며, 성능이 어떤 의미에서는 고정적 이며 일부 인체 공학적 속성을 나타내는 것으로 가정하여 중앙값을 예측하는 절차의 성능을 측정합니다 . (어떤 이유로) 향후 50 년 동안 지구의 평균 온도를 예측해야하고 지난 50 년 동안 모델링 성능이 좋은 경우 ...

더 일반적으로, (내가 기억한다면, 무료 점심이라고 불린다) 당신은 모델링 없이는 아무것도 할 수 없다 ... 또한 통계는 질문에 대한 답을 찾으려고 생각한다. 이것은 과학에서 매우 중요한 질문이며 학습 과정을 통해 대답 할 수 없습니다. 존 터키 (John Tukey)는 (그는 통계 학자 였는가?)

일부 데이터와 답변에 대한 갈망은 주어진 데이터에서 합리적인 답변을 추출 할 수있는 것은 아닙니다.

도움이 되었기를 바랍니다 !


12

분명히 두 분야는 유사하지만 동일한 개념이 아닌 유사하지만 동일한 방식으로 유사하지만 다른 문제에 분명히 직면하고 있으며 다른 부서, 저널 및 컨퍼런스에서 일합니다.

Cressie와 Read의 Power Divergence Statistic을 읽으면 모든 것이 제게 자리를 잡았습니다. 이 공식은 일반적으로 사용되는 테스트 통계를 지수 람다에 따라 달라지는 통계로 일반화합니다. lambda = 0과 lambda = 1의 두 가지 특별한 경우가 있습니다.

컴퓨터 과학 및 통계는 연속체에 적합합니다 (아마 다른 점을 포함 할 수 있음). 람다 값 중 하나에서 통계 서클에 일반적으로 인용되는 통계를 얻을 수 있고, 다른 하나에서는 Comp Sci 서클에 일반적으로 인용되는 통계를 얻을 수 있습니다.

통계

  • 람다 = 1
  • 제곱의 합이 많이 나타납니다
  • 변동성의 척도 인 분산
  • 연관의 척도로서의 공분산
  • 모형 적합의 척도 인 카이 제곱 통계량

컴퓨터 과학 :

  • 람다 = 0
  • 로그의 합계가 많이 나타납니다
  • 변동성의 척도 인 엔트로피
  • 연관의 척도로서의 상호 정보
  • 모형 적합의 척도 인 G- 제곱 통계량

9

멋진 컴퓨터 알고리즘을 한 번 실행하면 CS 회의 프레젠테이션 / 통계 보고서 (와우, 수렴이 빠릅니다!)를받습니다. 알고리즘의 속성을 일반화하기 위해 확률과 통계를 사용하는 방법을 알지 못하면 상용화하고 백만 번 실행합니다.


3
나는이 대답을 downvoted했습니다. 이와 같은 의문은 필연적으로 개인적인 의견을 수반 할 것이지만, IMO는 좀 더 실질적인 비판을 위해 노력해야합니다. 이것은 단지 rant로 나온다.
Andy W

@AndyW, 이것은 물론 내가 본 것의 과장입니다. 통계적으로 앞서 생각하지 않는 것은 학계에서도 마찬가지입니다. 심리학 또는 의학에서 출판 된 결과의 복제 가능성은 명목보다는 최대 25 %입니다 (예 : simplystatistics.tumblr.com/post/21326470429/… 참조 ). 95 %. OP는 통계가 컴퓨터 과학을 포용하기를 원했습니다. 컴퓨터 과학이 몇 가지 통계를 받아 들여야 할 이유가 있습니다.
StasK

5
@StasK 나는 당신이 몇 가지 중요한 점을 생각한다고 생각합니다.
갈라

2
나는이 오만한 대답을 즐겼습니다.
Ian Warburton

6

데이터 생성 모델에 중점을 두는 통계 적용 영역이 있습니다. 동물 실험, 임상 시험, 산업 실험 계획법 등의 설계된 실험에서 통계학자는 데이터 생성 모델이 무엇인지 알 수 있습니다. ML은 일반적으로 "대형"관측 데이터에 기반한 또 다른 매우 중요한 예측 문제에 중점을두기 때문에이 중요한 문제에 많은 시간을 소비하지 않는 경향이 있습니다. ML을 "대규모"설계 실험에 적용 할 수는 없지만, 자원 제한 실험으로 인해 발생하는 "소규모"데이터 문제에 대한 통계에는 특정 전문 지식이 있다는 사실을 인정하는 것이 중요합니다.

하루가 끝나면 문제를 해결하는 데 가장 적합한 것을 사용하기로 동의 할 수 있습니다. 예를 들어, 예측 목표를 가지고 매우 광범위한 데이터를 생성하는 실험 설계가있을 수 있습니다. 통계 설계 원칙은 여기서 매우 유용하며 ML 방법은 예측 변수를 작성하는 데 유용 할 수 있습니다.


4

내 생각에 화학이 물리학의 하위 브랜치 인 것처럼 기계 학습은 통계의 하위 브랜치 여야한다고 생각합니다.

물리에서 영감을 얻은 화학에 대한 견해는 상당히 견고하다고 생각합니다. 나는 물리적 용어로는 그와 동등한 화학 반응이 없다고 생각합니다. 물리학은 화학 수준에서 볼 수있는 모든 것을 설명함으로써 놀라운 일을했다고 생각합니다. 물리학 자들의 도전은 관측 할 수 없는 극한 상황에서 양자 수준의 작은 미스터리를 설명하는 것으로 보인다 .

이제 기계 학습으로 돌아갑니다. 나는 생각 (화학 물리학의 하위 지점 얼마나) 통계에서 하위 지점이어야한다.

그러나 어쨌든 기계 학습의 현재 상태 또는 통계가 이것을 완벽하게 실현하기에 충분히 성숙하지 않은 것 같습니다. 그러나 장기적으로는 하나는 다른 하나의 하위 지점이되어야합니다. 나는 통계를 얻는 것이 ML이라고 생각합니다.

필자는 개인적으로 함수 나 예측을 추정 / 추론하기위한 "학습"과 "샘플 분석"은 본질적으로 통계의 문제라고 생각합니다.


3
생물학, 심리학 및 사회학도 물리학의 "하위 브랜치"여야합니까?
amoeba

심리학은 매우 복잡한 생물학적 기계와 관련된 입출력입니다. 언젠가 우리는 차를 심리학자에게 보내 오류를 진단해야 할 수도 있습니다 (심리학자 자체는 컴퓨터 일 수 있습니다).
원시인

1
마치 수학이 모두의 아버지 인 것 같습니다. 거기에서 우리는 물리학과 다른 것들이 나오는 수학을 적용했습니다. 통계는 그 중 하나입니다. ML은 자체적으로 분기가 될 필요가 없으며 대신 통계에 혼합됩니다. 그러나 ML이 자체의 지점이되면 통계의 하위 / 하위 지점이되는 것이 좋습니다.
원시인

4

Brian Caffo의 Coursera 과정 "실제 데이터 과학"

기계 학습

  • 예측 강조
  • 예측 성능을 통한 결과 평가
  • 과적 합에 대한 우려는 있지만 모델 자체는 복잡하지 않음
  • 성능 강조
  • 새로운 데이터 세트의 성능을 통해 일반화 가능성 확보
  • 일반적으로 수퍼 인구 모델이 지정되지 않았습니다.
  • 성능 및 견고성에 대한 우려

전통적인 통계 분석

  • 인구 과잉 추론 강조
  • 선험적 가설에 중점을 둡니다.
  • 더 복잡한 모델이 약간 더 나은 성능을 보여도 복잡한 모델 (parsimony)보다 간단한 모델이 선호 됨
  • 파라미터 해석에 중점
  • 통계 모델링 또는 샘플링 가정은 데이터를 관심 모집단에 연결합니다
  • 가정과 견고성에 대한 우려

-5

컴퓨터 과학자로서, 나는 통계적 접근을 볼 때 항상 흥미를 느낍니다. 나에게 통계 분석에 사용되는 통계 모델이 여러 상황에서 데이터에 비해 너무 복잡한 것처럼 보입니다!

예를 들어 데이터 압축과 통계 사이에는 강력한 연결이 있습니다. 기본적으로 데이터를 잘 예측할 수있는 좋은 통계 모델이 필요하며 이는 데이터를 매우 잘 압축합니다. 컴퓨터 과학에서 데이터를 압축 할 때는 항상 통계 모델의 복잡성과 예측의 정확성이 매우 중요합니다. 압축 후 데이터 파일 (사운드 데이터 또는 이미지 데이터 또는 비디오 데이터 포함)을 더 크게 늘리려는 사람은 없습니다!

통계와 관련하여 컴퓨터 과학에 더 많은 동적 요소가 있음을 발견했습니다 (예 : 최소 설명 길이정규화 된 최대 가능성) .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.