매개 변수 추정을위한 머신 러닝의 '기본'아이디어는 무엇입니까?


19

모수 추정에 대한 통계의 '기본'아이디어는 최대 가능성 입니다. 기계 학습에서 해당 아이디어가 무엇인지 궁금합니다.

Qn 1. 매개 변수 추정을위한 머신 러닝의 '기본'아이디어는 '손실 함수'라고 말할 수 있습니다.

[참고 : 머신 러닝 알고리즘은 종종 손실 함수를 최적화하여 위의 질문에 대한 것입니다.]

Qn 2 : 통계와 머신 러닝 사이의 격차를 해소하려는 문헌이 있습니까?

[참고 : 아마도 손실 함수를 최대 가능성과 관련시키는 방법 일 것입니다. (예를 들어, OLS는 정규 분포 오차 등의 최대 가능성과 같습니다)]


3
가상의 허점을 메우는 데 대한 이러한 질문의 관심을 보지 못했습니다. 그 모든 목표는 무엇입니까? 또한 통계에 근본적인 아이디어가 많이 있습니다 ... 손실 기능은 적어도 100 세입니다. 그런 통계를 줄일 수 있습니까? 어쩌면 당신의 질문은 데이터 마이닝 / 통계 / 기계 학습의 개념 개념에 관한 것일 수도 있습니다 ...하지만 질문은 이미 존재하고 너무 넓 습니다 . stats.stackexchange.com/questions/372/… .
로빈 지라드

글쎄, 나는 머신 러닝이나 통계와의 연관성에 대해 잘 모른다. 어쨌든이 질문을보십시오 : stats.stackexchange.com/questions/6/… 최소한 동일한 질문에 대답하는 방법 이 다르다는 것을 제안합니다. 그들 사이에 어떤 종류의 연관성이 있는지 궁금해하는 것이 '비 자연적'입니까? 네, 통계에 많은 아이디어가 있다는 데 동의합니다. 그렇기 때문에 기본적으로 견적을 작성하고 관심 매개 변수 추정 범위를 제한했습니다.

무엇 사이에 @Srikant 링크? 잘 정의 된 객체 사이의 링크를 검색하는 것이 정말 좋습니다.
로빈 지라드

6
기계 학습자 인 것처럼, 나는 우리가 가능성을 최대한 활용하도록 말하려고합니다. 항상. 많은 머신 러닝 논문은 "이봐, 내 가능성을보고, 그것이 어떻게 구성되는지, 나를 최대한 활용하는 방법을 보자"로 시작한다. 추론 기법 측면에서 두 가지 원칙의 기본을 주장하는 것은 위험하다고 제안합니다. 어떤 회의에 참석했는지에 대한 자세한 정보입니다!
Mike Dewar

6
나는 베이지안이 통계의 기본 아이디어가 될 가능성에 최대한 동의한다고 생각하지 않습니다.
Marc Claesen

답변:


17

통계가 모두 가능성을 최대화하는 것이라면 머신 러닝은 손실을 최소화하는 것입니다. 향후 데이터에서 발생할 손실을 알지 못하므로 근사, 즉 경험적 손실을 최소화합니다.

예를 들어 예측 작업이 있고 오 분류 횟수로 평가되는 경우 결과 모델이 훈련 데이터에서 가장 적은 오 분류를 생성하도록 매개 변수를 학습 할 수 있습니다. "오 분류 수"(예 : 0-1 손실)는 미분 할 수 없기 때문에 사용할 수없는 하드 손실 함수이므로 부드러운 "대리"로 근사합니다. 예를 들어, 로그 손실은 0-1 손실의 상한이므로이를 최소화 할 수 있으며 이는 데이터의 조건부 우도를 최대화하는 것과 같습니다. 파라 메트릭 모델에서는이 접근 방식이 로지스틱 회귀와 같습니다.

구조화 된 모델링 작업 및 0-1 손실의 로그 손실 근사에서 최대 조건부 가능성과는 다른 것을 얻을 수 있으며 대신 (조건부) 한계 가능성의 곱을 최대화 합니다.

손실을 더 잘 근사하기 위해 사람들은 손실을 최소화하고 향후 손실을 추정하는 데이 손실을 사용하는 훈련 모델이 지나치게 낙관적이라는 것을 알았습니다. 따라서보다 정확한 (실제 미래 손실) 최소화를 위해 경험적 손실에 편향 보정 용어를 추가하고이를 최소화합니다.이를 구조적 위험 최소화라고합니다.

실제로 올바른 바이어스 보정 항을 알아내는 것이 너무 어려울 수 있으므로 바이어스 보정 항의 "정신"표현 (예 : 매개 변수의 제곱합)을 추가합니다. 결국, 거의 모든 파라 메트릭 머신 러닝 감독 분류 접근법은 모델을 훈련시켜 다음을 최소화합니다.

iL(m(xi,w),yi)+P(w)

여기서, 벡터에 의해 매개 변수화 모델 인 w는 , 모든 데이터 포인트를 통해 촬영 { X I , Y I } , L은 진정한 손실의 일부 계산 좋은 근사치 P ( w는 ) 일부 바이어스 정정 / 정규화 용어mwi{xi,yi}LP(w)

예를 들어 , y { 1 , 1 } 인 경우 일반적인 접근 방식은 m ( x ) = sign ( w x ) , L ( m ( x ) , y ) = log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) 이고교차 검증으로 q 를선택하십시오.P(w)=q×(ww)q


3
클러스터링, kNN 또는 임의 양치 식물에서 이러한 손실이 최소화되는 것을보고 싶습니다.

글쎄, 가장 가까운 이웃 k-means의 손실 함수 특성에 대해서는이 백서의 관련 하위 섹션 (2.5)을 참조하십시오. hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor

@ 존 아직도, 이것은 이유와 목표를 혼합하고 있습니다. 대부분의 경우 무언가를 최소화하는 관점에서 각 알고리즘을 설명하고 이것을 "손실"이라고 부를 수 있습니다. kNN은 그런 방식으로 발명되지 않았습니다. 여러분, 저는 이런 손실을 생각했습니다. 그것을 최적화하고 어떤 일이 일어날 지 봅시다!; 오히려 Guys, 특징 공간에 대한 결정이 더 연속적이지 않다고 가정하면, 유사성 측정법이 좋을 것입니다.

2
"통계가 가능성을 극대화하는 것이라면 머신 러닝은 손실을 최소화하는 것"이라고 전적으로 동의합니다. 전적으로 귀하의 전제에 동의하지 않습니다. 어쩌면 1920 년에는 통계가 사실이 아닐 수도 있지만 오늘날은 아닙니다.
JMS

19

항목 별 답변을 드리겠습니다. 실제로 논쟁의 여지가 없지만 더 많은 인용을 제공 할 수 있습니다.

  • 통계는 (로그) 가능성을 최대화하는 것이 아닙니다 . 그것은 단지 그들의 후부를 업데이트하거나 적절한 모델을 통해 자신의 신념을 전파하는 원칙적인 베이지안 사람들에게는 혐오입니다.
  • 많은 통계 손실 최소화에 관한 것입니다. 그리고 많은 머신 러닝도 마찬가지입니다. 경험적 손실 최소화는 ML에서 다른 의미를 갖습니다. 명확하고 서술적인 견해를 보려면 Vapnik의 "통계 학습의 본질"을 확인하십시오.
  • 머신 러닝은 손실 최소화에 관한 것이 아닙니다 . 첫째, ML에는 많은 베이지안이 있기 때문입니다. 둘째, ML의 많은 응용 프로그램은 시간 학습 및 근사 DP와 관련이 있기 때문입니다. 물론 객관적인 기능이 있지만 "통계적"학습과는 매우 다른 의미를 갖습니다.

나는 필드들 사이에 차이가 있다고 생각하지 않으며, 단지 많은 다른 접근 방식이 모두 어느 정도 겹쳐져 있습니다. 나는 그것들을 명확하게 정의 된 차이점과 유사성을 가진 체계적인 학문으로 만들 필요가 없다고 생각하고, 그들이 발전하는 속도를 감안할 때, 어쨌든 그것이 운명의 기업이라고 생각합니다.


8

평판이 충분하지 않아서 의견 (이 의견에 적합한 장소)을 게시 할 수 없지만 질문 소유자가 최상의 답변으로 수락 한 답변이 요점을 놓칩니다.

"통계가 가능성을 극대화하는 것이라면 머신 러닝은 손실을 최소화하는 것입니다."

가능성은 손실 함수입니다. 우도를 최대화하는 것은 손실 함수를 최소화하는 것과 같습니다. 이탈은 로그 우도 함수의 -2 배에 불과합니다. 마찬가지로 최소 제곱 솔루션을 찾는 것은 잔차 제곱합을 설명하는 손실 함수를 최소화하는 것입니다.

ML과 통계는 알고리즘을 사용하여 일부 기능 (가장 넓은 용어로)을 데이터에 적합하게 최적화합니다. 최적화에는 필연적으로 일부 손실 기능을 최소화하는 것이 포함됩니다.


1
좋은 점, 여전히 주요 차이점은 다른 곳에 있습니다. 첫째, 통계는 모델이 보유한 데이터에 적합하고 ML은 모델이 보유한 데이터에 적합하는 것입니다. 둘째, 통계는 하나가 관찰하는 프로세스가 발굴하고자하는 당황스럽지 않은 사소한 "숨겨진"모델에 의해 온전히 추진되는 반면, ML TRIES는 문제와 무관 한 모델이 현실처럼 행동하도록 충분히 복잡하게 만들었습니다.

@mbq. 그것은 통계의 다소 가혹한 풍자입니다. 저는 5 개의 대학 통계 부서에서 근무했으며 그런 통계를 생각하는 사람을 만난 적이 없다고 생각합니다.
Rob Hyndman

1
@ 롭 캐리커처? 이것이 통계를 아름답게 만드는 것이라고 생각합니다! 당신은 모든 가우시안과 선형성을 가정하고 작동합니다. 테일러 확장이라고 불리는 이유가 있습니다. 세계는 복잡한 지옥이지만 대략 선형입니다. (종종 복잡도의 90 %에 해당)는 당혹 스럽습니다. ML (및 비모수 통계)은 좀 더 미묘한 접근 방식이 필요한 상황에서 발생합니다. 이것은 무료 점심이 아닙니다. 정리를 원한다면 가정이 필요합니다. 가정을 원하지 않으면 대략적인 방법이 필요합니다.

@mbq. 그럴 수 있지. 당신의 의견을 잘못 해석했을 것입니다.
Rob Hyndman

4

기계 학습에는 매개 변수 추정이 없습니다! 우리는 우리의 모델이 일부 숨겨진 배경 모델과 동일하다고 가정하지 않습니다. 우리는 현실과 모델을 블랙 박스로 취급하고 모델 박스 (공식 용어로 훈련)를 흔들어 그 출력이 현실 박스의 출력과 비슷해 지도록 노력합니다.

훈련 데이터에 기초한 가능성뿐만 아니라 전체 모델 선택의 개념은 보이지 않는 데이터에 대한 정확도 (정의 된 바에 따라 원칙적으로 원하는 사용의 장점)를 최적화하는 것으로 대체됩니다. 이를 통해 정밀도와 호출을 결합 된 방식으로 최적화 할 수 있습니다. 이는 학습자 유형에 따라 다른 방식으로 달성되는 일반화 능력의 개념으로 이어집니다.

두 가지 질문에 대한 답은 정의에 크게 의존합니다. 여전히 비모수 통계는이 둘을 연결하는 것이라고 생각합니다.


이것이 완전히 올바른지 확실하지 않습니다. 기계 학습 방법은 매개 변수 추정없이 (모수 또는 분포가없는 모델 세트 내에서) 어떤 의미에서 작동합니까?
존 L. 테일러

1
무언가를 추정 / 계산 중입니다 (정확한 용어는 다를 수 있음). 예를 들어 신경망을 고려하십시오. 무언가를 예측하려고 할 때 그물의 가중치를 계산하지 않습니까? 또한 출력을 현실에 맞추기 위해 훈련한다고 말하면, 일종의 손실 함수에 대해 암묵적으로 이야기하는 것 같습니다.

@John, @Srikant Learners에는 매개 변수가 있지만 통계적인 의미에서는 매개 변수가 아닙니다. 선형 회귀 y = a x (단순을 위해 자유 항없이)를 고려하십시오 . a는 y = a x로 가정하여 통계적 방법이 적합 할 매개 변수입니다 . 기계 학습은 기차 범위 내에서 x를 요청할 때 x를 생성하려고 시도합니다 (y = a x를 가정하지 않기 때문에 의미가 있습니다 ). 이를 위해 수백 개의 매개 변수가 적합 할 수 있습니다.

3
[인용 필요]. 다른 말로, 많은 ML 문학에 대해 (최소한) 흥분하지는 않지만 흥미로운 대답입니다.
gappy

1
고전은 Breiman의 "통계 모델링 : 두 문화"입니다.

2

기계 학습의 매개 변수 추정에 대한 근본적인 아이디어는 없다고 생각합니다. ML 군중은 알고리즘이 효율적이고 "정확하게"예측되는 한, 가능성 또는 사후를 최대한 최대화 할 것입니다. 계산에 중점을두고 있으며 통계 결과가 널리 사용됩니다.

일반적으로 기본적인 아이디어를 찾고 있다면 컴퓨터 학습 이론에서 PAC 가 중심입니다. 통계 학습 이론, 구조적 위험 최소화 ; 다른 영역도 있습니다 (예 : John Langford 의 Prediction Science 게시물 참조 ).

브리징 통계 / ML에서이 격차는 심화 된 것으로 보입니다. 나는 "두 문화"질문에 대한 갭 피의 대답 을 좋아했습니다 .


원하는 p- 값이 나타날 때까지 통계 군중이 SPSS에서 무작위로 클릭합니다 ...

1

손실을 음의 로그 우도로 정의하여 우도 최대화 문제를 손실 최소화 문제로 다시 작성할 수 있습니다. 우도가 독립 확률 또는 확률 밀도의 곱이면 손실은 독립 항의 합이되며,이를 효율적으로 계산할 수 있습니다. 또한 확률 변수가 정규 분포를 따르는 경우 해당 손실 최소화 문제는 최소 제곱 문제가됩니다.

우도 최대화를 다시 작성하여 손실 최소화 문제를 생성 할 수있는 경우, 처음부터 손실 최소화 문제를 생성하는 것을 선호해야합니다. 손실 최소화 문제가 발생할 수 있기 때문입니다. 이론적으로 설립되었으며 덜 임시적입니다. 예를 들어, 가중 최소 제곱과 같은 가중치는 일반적으로 값을 추측해야하는 원래 원래 가능성 최대화 문제를 다시 작성하는 과정에서 나타나고 이미 (최선 적으로) 최적의 값을 갖습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.