예측 모델 : 통계는 머신 러닝을 능가 할 수 있습니까? [닫은]


14

현재 통계 / 경제학에 중점을 둔 마스터 프로그램을 따르고 있습니다. 제 주인은 모든 학생들이 3 개월 동안 연구를해야했습니다. 지난 주에 모든 그룹은 나머지 마스터 학생들에게 연구 결과를 발표해야했습니다.

거의 모든 그룹이 연구 주제에 대해 일부 통계 모델링과 일부 기계 학습 모델링을 수행했으며, 매번 샘플에서 벗어난 예측은 간단한 기계 학습 모델이 지난 3 년 동안 매우 열심히 일했던 매우 복잡한 통계 모델보다 뛰어나다 고 이야기했습니다. 개월. 모든 사람의 통계 모델이 아무리 우수하더라도 간단한 랜덤 포레스트는 항상 샘플에서 벗어난 오류를 거의 얻지 못했습니다.

이것이 일반적으로 받아 들여지는 관찰인지 궁금합니다. 표본에서 벗어난 예측에 대해서는 단순한 랜덤 포레스트 나 극단적 인 그래디언트 부스팅 모델을 이길 수있는 방법이 없을까요? 이 두 가지 방법은 R 패키지를 사용하여 구현하기가 매우 간단하지만 모든 통계 모델은 모든 기술, 지식 및 추정 노력이 필요합니다.

이것에 대한 당신의 생각은 무엇입니까? 통계적 / 경제적 모델의 유일한 이점은 해석에 도움이됩니까? 아니면 우리의 모델이 단순한 랜덤 포레스트 예측을 크게 능가하지 못할 정도로 충분하지 않았습니까? 이 문제를 다루는 논문이 있습니까?


5
이것은 "너무 광범위"한 것으로 닫힐 수 있습니다. (아마도 "의견 기반"이 아닙니다!) 나의 테이크 : 나는 보편적 인 답변이 없다고 생각합니다. 내 경험은 관측치가 적 으면 통계 모델이 더 좋다는 것입니다. 왜냐하면 어떤 모델의 구조를 강요하면 대부분 모델이없는 접근 방식이 향상되기 때문입니다. 반대로 관측치가 많으면 RF가 더 좋습니다. ...
Stephan Kolassa 2014 년

4
... 다른 질문은 정확히 무엇을 어떻게 평가했는지에 관한 것입니다. 점 예측이 적절하게 평가되면 (정확도 측정이 놀랍게도 오도 될 수 있음) 밀도 예측과 다른 문제입니다. 더 많은 데이터가 필요하기 때문에 통계 모델이 밀도 예측에서 더 나을 수 있습니다.
Stephan Kolassa 2014 년

1
@ StephanKolassa :이 질문에 대한 좋은 대답 (또는 여러 대답 세트)은 보편적으로 대답이없는 이유-이론적으로 및 실제적으로-예측 성능을 평가하는 방법, 통계 및 기계를 구별하는 방법을 구성한다고 생각합니다 학습 방법, 예측 이상의 목표, 그리고 내가 생각하지 못한 몇 가지 사항. 넓은 범위; 그러나 내 의견으로는 너무 광범위하지는 않으며 제한하려고 시도하면 유용한 일반 사항을 만드는 것이 불가능 할 수 있습니다.
Scortchi-Monica Monica 복원

5
우리가 원하지 않는 것은 일화의 모음입니다. 예를 들어 "임의의 숲이 로지스틱 회귀를 능가한다는 것을 항상 알았습니다." 댓글에 대해서는 약간 느슨 할 수 있지만 긴 대화 목록은 채팅으로 이동합니다.
Scortchi-Monica Monica 복원

14
통계와 머신 러닝 사이에 의미있는 차이가 있다고 생각하지 않습니다. 예를 들어, 저명한 무작위 산림 연구자 인 Leo Breiman 은 UC Berkeley 의 통계 교수였습니다 . 일화의 맥락에서, RF는 사람들이 적합했던 다른 모델보다 더 나은 것으로 나타 났지만, 이것이 일반적으로 사실이어야하는 이유는 없습니다 (무료 점심 식사 정리도 참조). 아마도 이것은 방법보다 데이터 세트 (또는 학생)에 대해 더 많이 말합니다.
Sycorax는 Reinstate Monica가

답변:


20

통계 모델링은 기계 학습과 다릅니다. 예를 들어, 선형 회귀는 통계 모델과 기계 학습 모델입니다. 따라서 선형 회귀 분석을 임의 포리스트와 비교하면 간단한 기계 학습 모델과 더 복잡한 기계 학습 모델을 비교하는 것입니다. 당신은 하지 기계 학습 모델에 대한 통계 모델을 비교.

통계 모델링은 해석 이상의 것을 제공합니다. 실제로 일부 모집단 모수의 모형을 제공합니다. 그것은 수학과 이론의 큰 틀에 달려 있으며, 이는 계수의 분산, 예측의 분산 및 가설 검정과 같은 것들에 대한 공식을 허용합니다. 통계 모델링의 잠재적 산출량은 머신 러닝보다 훨씬 큽니다. 홀드 아웃에서 오류를 측정하는 대신 모집단 모수에 대해 강력한 진술을 할 수는 있지만 통계 모델의 문제에 접근하는 것은 상당히 어렵습니다.


1
내가 아는 한 통계에 따르면 계수의 분산, 예측의 분산 및 가설 검정과 같은 더 많은 이점을 얻을 수 있습니다. 그러나 순전히 예측 모델링, 즉 일부 반응 변수에 대한 점 예측을 할 때 통계 모델이 기계 학습 모델을 능가 할 수 있다고 생각하십니까?
dubvice 2016 년

5
이다 대답 (+1!). 필자의 견해에는 (어쩌면 다른 것들도) 설명, 추론, 예측, 탐구 등 여러 유형의 통계 분석이 있습니다. 머신 러닝은 대부분 예측 분석에 속하며 대부분의 경우 추론을 할 수 없습니다 사물에 대한 주장은 "해당 직무에 적합한 도구를 사용"하기 위해 정리됩니다 (선형 회귀 예제를 사용하면 조건부 기대 추정과 같은 모든 분야에서 사용할 수 있음).
Firebug

2
이것은 표준 통계 모델링이 기계 학습보다 추론에 더 효과적 일 수 있다는 주장처럼 들리는데, 이는 모델 해석 성을 도울 수 있습니다. 원래의 질문이 랜덤 포레스트 (추론을위한 좋은 ML 알고리즘)를 구체적으로 언급한다는 점을 감안할 때 일반적인 최소 제곱 회귀를 심층 신경망과 비교하면 확실히 사실이지만, 그러한 주장은 약간 모호합니다.
Greenstick

2
통계 모델이 머신 러닝 접근 방식을 지속적으로 능가하는 시계열 영역의 확실한 증거는 다음과 같습니다. Makridakis "통계 및 머신 러닝 예측 방법 : 문제 및 앞으로의 방법" .
Richard Hardy

1
그것은 완벽한 답입니다. 예를 들면 다음과 같습니다. 주어진 질병을 가진 환자의 생존을 예측하는 척도가 있다고 가정하십시오. 이 측정이 임상 적으로 유효한지 정의하는 방법에 대한 국제 표준이 있습니다 (기본적으로 일 변량 또는 다변량 모델에서 p 값이 5 % 미만인 계수가 0과 다른 경우). 충분한 데이터가있는 임의의 포리스트가 모델을 더 잘 예측할 수있는 방법은 시간의 99 %가 절대적이라고 확신합니다.
레미 니콜 레

5

질문 한대로 질문을하는 것은 잘못입니다. 예를 들어, 상당한 기계 학습 덩어리를 통계 학습 이라고 할 수 있습니다 . 따라서 비교는 사과 대 과일 타르트와 같습니다.

그러나 나는 당신이 그것을 구성하는 방식으로 가서 다음을 주장 할 것입니다 : 예측에 관해서는 예측에 본질적으로 무작위성 (불확실성)이 있기 때문에 어떤 통계 형태 없이는 아무것도 할 수 없습니다. 일부 응용 분야에서 머신 러닝의 성공에도 불구하고 자산 가격 예측에서 절대로 돋보이는 것은 없습니다 . 전혀 없습니다. 왜? 대부분의 선진 유동 시장에서 자산 가격은 본질적으로 확률 적입니다.

하루 종일 기계 학습을 실행하여 원자의 방사성 붕괴에 대해 관찰하고 배울 수 있으며, 단순히 무작위이기 때문에 다음 원자의 붕괴 시간을 예측할 수 없습니다.

야심 찬 통계 학자로서 머신 러닝을 마스터하지 않는 것은 어리석은 일입니다. 물론 학계에 갈 것이라는 것을 확실히 알지 못한다면 통계학의 가장 인기있는 응용 프로그램 중 하나이기 때문입니다. 업계에서 일할 가능성이있는 사람은 ML을 마스터해야합니다. 통계와 ML 군중 사이에는 전혀 적개심이나 경쟁이 없습니다. 실제로 프로그래밍을 좋아한다면 ML 필드에서 집처럼 느낄 수 있습니다.


2

잘못 설명 된 경우에는 일반적으로 그렇지 않지만 잠재적으로 그렇습니다. 당신이 찾고있는 문제는 허용이라고합니다. 덜 위험한 방법으로 결정하지 않으면 결정을 내릴 수 있습니다.

모든 베이지안 솔루션은 허용 가능하며 비 베이지안 솔루션은 모든 샘플 또는 한계에서 베이지안 솔루션과 일치하는 정도까지 허용됩니다. 허용되는 Frequentist 또는 Bayesian 솔루션은 허용되지 않는 한 항상 ML 솔루션을 능가합니다. 그 말로,이 진술을 진실하지만 공허하게 만드는 실질적인 언급이 있습니다.

첫째, 베이지안 옵션에 대한 선행은 저널의 편집자를 행복하게 만드는 데 사용 된 사전 배포가 아니라 실제 이전이어야합니다. 둘째, 많은 Frequentist 솔루션은 허용되지 않으며 표준 솔루션 대신 수축 추정기를 사용해야합니다. 많은 사람들이 Stein의 정리와 샘플 오류에 대한 영향을 알지 못합니다. 마지막으로, ML은 많은 경우 잘못 지정 오류에 대해 좀 더 강력 할 수 있습니다.

의사 결정 트리 및 해당 사촌으로 이동하면 Bayes net과 유사한 것을 사용하지 않는 한 유사한 방법을 사용하지 않습니다. 그래프 솔루션에는 상당한 양의 암시 적 정보, 특히 유 방향 그래프가 포함됩니다. 확률 적 또는 통계적 프로세스에 정보를 추가 할 때마다 결과의 변동성을 줄이고 허용 가능한 것으로 간주되는 것을 변경합니다.

함수 구성 관점에서 머신 러닝을 살펴보면 통계 솔루션이되지만 근사값을 사용하여 솔루션을 다루기 쉽게 만듭니다. 베이지안 솔루션의 경우 MCMC는 많은 ML 문제에 대한 기울기 감소와 마찬가지로 믿을 수없는 시간을 절약합니다. 많은 ML 문제에 대해 잔인한 힘을 통합하거나 사용하기 위해 정확한 후방을 구성해야한다면, 태양계는 당신이 답을 얻기 전에 열사로 죽었을 것입니다.

내 생각에 통계를 사용하거나 부적절한 통계를 사용하는 사람들에 대해 잘못 지정된 모델이 있다고 생각합니다. 나는 신생아가 적절하게 싸지 않으면 창문을 띄우는 것을 증명하고 베이지안 방법이 다항식 선택에서 Frequentist 방법을 크게 능가하는 강의를 강의했다. . 이제 나는 전자의 통계를 남용하고 후자의 Frequentist 추정기의 허용 불가능을 이용했지만 통계의 순진한 사용자는 내가 한 일을 쉽게 수행 할 수 있습니다. 나는 예제를 명확하게하기 위해 극단적으로 만들었지 만 절대 실제 데이터를 사용했습니다.

랜덤 포레스트는 일관된 추정기이며 특정 베이지안 프로세스와 유사합니다. 커널 추정기와 연결되어 있기 때문에 아주 가깝습니다. 솔루션 유형 간 성능에 중요한 차이가있는 경우, 근본적인 문제에 오해가있는 문제가 있으며 문제가 중요한 경우 문제의 원인이 될 수 있으므로 차이의 원인을 찾아야합니다. 모든 모델이 잘못 지정된 경우.


1

최소한 일부 목적을 위해 많은 머신 러닝이 p- 해킹과 다르지 않을 수 있습니다.

가능한 모든 모델을 테스트하여 기록 데이터를 기반으로 예측 정확도 (역사 예측 또는 그룹 외부 예측)가 가장 높은 모델을 찾은 경우 결과가 진행 상황을 이해하는 데 도움이된다는 의미는 아닙니다. 그러나 가설을 알려주는 가능한 관계를 찾을 수 있습니다.

특정 가설의 동기를 부여한 다음 통계적 방법을 사용하여 테스트하는 것은 확실히 유사하게 해킹 (또는 유사) 될 수 있습니다.

그러나 요점은 기준이 "이력 데이터를 기반으로 한 최고 예측 정확도"인 경우, 과거의 결과를 이끌어 낸 것이 무엇인지 전혀 알지 못하고 이해하지 못하는 일부 모델에서 과신의 위험이 높다는 것입니다. 또는 그들이 미래에 유익한 지 여부.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.