"가장 적합"및 교차 검증이라는 용어에 사용 된 "최고"의 정의는 무엇입니까?


16

비선형 함수를 점 집합에 맞추는 경우 (각 가로 좌표마다 세로 좌표가 하나만 있다고 가정) 결과는 다음 중 하나 일 수 있습니다.

  1. 잔차가 적은 매우 복잡한 함수
  2. 잔차가 큰 매우 간단한 함수

교차 검증은 일반적으로이 두 극단 사이의 "최상의"타협점을 찾는 데 사용됩니다. 그러나 "최고"는 무엇을 의미합니까? "가장 가능성이 높습니까?" 가장 가능성있는 솔루션이 무엇인지 증명하기 시작하는 방법은 무엇입니까?

내 목소리는 CV가 일종의 최소 에너지 솔루션을 찾고 있다고 말합니다. 이것은 내가 엔트로피를 생각하게한다. 이것은 내가 통계와 물리학에서 발생한다는 것을 모호하게 알고있다.

복잡성과 오류의 함수의 합을 최소화함으로써 "최상의"적합이 생성되는 것 같습니다.

minimising m where m = c(Complexity) + e(Error)

이것은 말이됩니까? 함수 c와 e는 무엇입니까?

많은 수학을 이해하지 못하기 때문에 수학 이외의 언어를 사용하여 설명 할 수 있습니다.


1
최고는 미래 오류가 가장 적은 모델이며 교차 유효성 검사는 해당 추정치를 제공합니다. c (Complexity) + e (Error) 수식의 이유는 향후 오류의 추정치로 훈련 데이터의 오류를 사용할 수 있기 때문에 과도하게 낙관적이므로이 추정치를 편견으로 만들지 않는 용어를 추가합니다. 모델 복잡성
Yaroslav Bulatov

반면에 Runge 현상 (물리적 영감)에 비추어 추론하면 미래의 오류는 Complexity / Train_Error에 관한 것입니다.

매트 크라우스는 주신 우수한 : 여기에 비슷한 질문에 대답을 stats.stackexchange.com/a/21925/14640 의역 그의 대답에서 : 목표는 모델의 설명력과와 간결의 개념이 더 나은 그래서 균형 모델의 복잡성이다 오류에 가장 잘 맞는 개념보다 모델의 적절성을 측정합니다. 이는 매우 복잡한 모델이 새로운 결과를 더 잘 예측하거나 설명하지 않고도 데이터를 과적 합할 수 있기 때문입니다.
Assad Ebrahim

답변:


6

나는 이것이 훌륭한 질문이라고 생각합니다. 나는 그것을 올바르게 얻었는지 확인하기 위해 그것을 삼상으로 할 것입니다.

복잡도 페널티 함수 및 오류 페널티 함수 e 를 선택하는 방법은 여러 가지가있는 것 같습니다 . 어떤 선택이 '최고'입니다. 무엇을 가장 잘 의미 합니까?ce

나는 대답이 (있는 경우) 교차 검증을 넘어서는 길을 취할 것이라고 생각합니다. 나는이 질문 (그리고 일반적인 주제)이 Occam의 면도기 와 과학에 기본이되는 파시 모니 (parsimony) 의 일반적인 개념과 잘 어울리는 것을 좋아한다 . 나는 결코이 분야의 전문가는 아니지만이 질문은 매우 흥미 롭다. 이런 종류의 질문에 대해 내가 아는 가장 좋은 텍스트는 Marcus Hutter의 Universal Artificial Intelligence입니다. (질문은 없지만, 대부분 읽지 않았습니다). 나는 Hutter와 몇 년 전에 대화에 갔고 매우 감동했습니다.

어딘가에 최소 엔트로피 논쟁이 있다고 생각하는 것이 맞습니다 (복잡도 페널티 함수 에 어떤 방식으로 사용). 허 터는 엔트로피 대신에 콜로 모고 로프 복잡성 의 사용을 옹호합니다 . 또한 Hutter의 'best'에 대한 정의는 (비공식적으로) 미래가장 잘 예측하는 모델입니다 (즉, 미래에 관찰 될 데이터를 가장 잘 예측 함). 그가이 개념을 어떻게 공식화했는지 기억이 나지 않습니다.c


당신은 질문을 이해합니다. 나는 링크를 따라갈 것이다.
bart

이러한 링크가 실용적이라면 어디든 갈 수 없다는 것을 알아야합니다. 교차 유효성 검사 (또는 다른 종류의 모델 선택)를 사용하여 무언가 를 만들 려고하면 실제로 휴리스틱과 약간 임시적 인 것으로 보일 수 있습니다 (그러나 이것이 불만족 스럽다는 데 동의하지만).
Robby McKilliam

이제 우리는 어딘가로 가고 있습니다. en.wikipedia.org/wiki/Minimum_message_length 는 내가 생각한 것 같습니다. 감사!
bart

걱정 마. 이것은 실제적인 것이 아니라 단지 반성입니다.
bart

9

다른 사람이 더 나은 답변을 제공 할 때까지 간단한 직관적 답변을 제공합니다.

첫째, 복잡한 함수 / 모델은 전 세계에 존재하지 않는 데이터 셋의 일부 로컬 기능 (생각 노이즈)을 활용하기 때문에보다 체계적으로 적합합니다 (즉, 잔차가 적습니다) (체계적인 패턴 생각).

둘째, 교차 검증을 수행 할 때 데이터를 훈련 세트와 검증 세트의 두 세트로 분할합니다.

따라서 교차 검증을 수행 할 때 복잡한 모델은 훈련 세트의 로컬 기능을 이용하기 때문에 복잡한 모델은 잘 예측하지 못할 수 있습니다. 그러나 트레이닝 세트의 로컬 기능은 유효성 검증 세트의 로컬 기능과 비교하여 매우 다를 수있어 예측 성능이 저하됩니다. 따라서 우리는 교육 및 유효성 검사 데이터 집합의 전체 기능을 캡처하는 모델을 선택하는 경향이 있습니다.

요약하면, 교차 유효성 검사는 데이터 집합의 전역 패턴을 캡처하는 모델을 선택하고 데이터 집합의 일부 로컬 기능을 이용하는 모델을 피함으로써 과적 합을 방지합니다.


@Srikant 나는이 모든 것을 알고있다. CV는 "최고"를 찾는 수단입니다. "best"정의
bart

@bart 'best model'= 'best'는 데이터의 로컬 기능을 피하면서 전역 패턴을 캡처하는 모델입니다. 그것이 수학이 아닌 설명을 위해 할 수있는 최선입니다. 아마도 다른 누군가가 좀 더 정교하거나 구체적으로 설명 할 수 있습니다.

@bart : "best"는 교육 데이터에 가장 잘 맞는 기능을 의미하며 검증 / 보이지 않은 테스트 세트 데이터에 "일반화"됩니다. 나는 이것이 Srikant의 대답에서 분명하다고 생각합니다. 좋은 일반화 동작을 공식적으로 정의하는 방법에는 여러 가지가 있습니다. 비 형식적인 의미에서, "매끄럽고"흔들리지 않는 기능을 찾는 것으로 생각할 수 있습니다. 훈련 데이터에만 맞추려고하면 흔들리는 기능이 생길 수 있지만 부드러움은 일반적으로 훈련 및 검증 / 테스트 데이터 모두에서 기능이 합리적으로 잘 수행되도록합니다.
ebony1

@ebony : 당신은 요점이 없습니다. 이 질문을 희망적으로 명확하게하기 위해이 질문을 다시 표현했습니다.
bart

5

일반적인 머신 러닝 관점에서 대답은 매우 간단합니다. 우리는 새로운 데이터를 예측할 때 (훈련 중에 보이지 않는) 가장 정확한 모델을 구축하려고합니다. 우리는 이것을 직접 테스트 할 수 없기 때문에 (미래에 데이터가 없음) 우리는 그러한 테스트에 대한 몬테 카를로 시뮬레이션을 수행합니다. 이것은 기본적으로 교차 검증 아래 아이디어입니다.

정확성에 대한 몇 가지 문제가있을 수 있습니다 (예 : 비즈니스 클라이언트는 단위당 5 유로의 오버 슈트 및 단위당 0.01 유로의 언더 슈트를 요구할 수 있으므로 덜 정확하지만 더 많은 언더 슈팅 모델을 작성하는 것이 좋습니다). 분류에서 진정한 해답의 직관적 인 비율이며 회귀 분석에서 널리 사용되는 설명 된 분산입니다.


3

많은 사람들이 훌륭한 답변을 얻었습니다. 여기 $ 0.02가 있습니다.

통계적으로 말하면 "최고의 모델"또는 "모델 선택"을 보는 두 가지 방법이 있습니다.

1 가능한 한 간단하지만 단순하지 않은 설명 (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 예측은 공학 개발과 비슷한 관심사입니다.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

널리 퍼진 개념

모델 선택은 최고의 모델을 선택하는 것과 같습니다.

설명을 위해 우리는 몇 가지 (거의) 똑같이 좋은 설명 모델이있을 가능성이 있음을 경고해야합니다. 단순성은 모델에 구현 된 개념과 심리학자들이 일반화라고 부르는 개념, 모델이 연구 된 시나리오와는 매우 다른 시나리오에서 '작업'하는 능력을 전달하는 데 도움이됩니다. 따라서 일부 모델에는 프리미엄이 있습니다.

예측 : (Dr Ripley 's) 전문가의 의견을 선택하는 것이 좋은 비유입니다. 큰 전문가 패널에 액세스 할 수 있다면 그들의 의견을 어떻게 사용 하시겠습니까?

교차 검증은 예측 측면을 처리합니다. CV에 대한 자세한 내용은 BD Ripley 박사의 프레젠테이션을 참조하십시오. Dr. Brian D. Ripley의 모델 선택 프레젠테이션

인용 :이 답변의 모든 내용은 위에서 인용 한 것입니다. 나는이 프리젠 테이션의 열렬한 팬이고 그것을 좋아합니다. 다른 의견은 다를 수 있습니다. 프레젠테이션 제목은 "다양한 모델 중에서 선택"이며, 존 넬더 (John Nelder)의 80 번째 생일, 임페리얼 칼리지, 2004 년 3 월 30 일 – 30 일, Brian D. Ripley 박사가 심포지엄에서 발표했습니다.


3

여기서 큰 토론을하지만 지금까지의 답변과 다른 방식으로 교차 유효성 검사를 생각합니다 (mbq와 나는 같은 페이지에 있다고 생각합니다). 그래서, 나는 물을 진흙 투성이의 위험에 처해 두 센트에 넣을 것이다 ...

교차 검증은 모델의 데이터 적합 및 예측 능력에서 샘플링 오류로 인한 변동성과 편향을 평가하기위한 통계 기법입니다. 따라서 "최고"는 가장 낮은 일반화 오류를 제공하는 모델이되며 변동성과 편향의 단위가됩니다. Bayesian 및 Bootstrap Model Averaging과 같은 기술을 사용하여 교차 검증 노력의 결과에 따라 알고리즘 방식으로 모델을 업데이트 할 수 있습니다.

이 FAQ 는 내 의견을 전달하는 내용에 대한 자세한 정보를 제공합니다.


1

에러 함수는 훈련 데이터에 대한 모델의 에러입니다. 복잡성은 학습하려는 함수의 일부 표준 (예 : 제곱 l2 표준)입니다. 복잡성 항을 최소화하는 것은 본질적으로 훈련 데이터뿐만 아니라 테스트 데이터에서도 잘 작동하는 부드러운 기능을 선호합니다. 함수를 일련의 계수로 표시하는 경우 (예 : 선형 회귀를 수행하는 경우), 제곱 규범으로 복잡도를 불이익을 가하면 함수에 작은 계수 값이 생성됩니다 (다른 규범에 불이익을 주면 복잡성 제어 개념이 달라짐).


1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

에 해당

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ

e()=||ym(x,β)||pp=1p=2m()


1
입니다 λ자유롭게 선택할 수있는 매개 변수?
Robby McKilliam

@ 로비 :> 감사합니다. 매개 변수와 하이퍼 매개 변수를 명확하게 구분하기 위해 텍스트를 약간 추가했습니다.
user603

@ kwak : 이것이 무엇을 의미하는지 전혀 알지 못해서 유감입니다. p, q, lambda, x, y, m 및 베타 기호는 무엇을 의미합니까?
bart

@bart :> 내 대답은 기본적으로 Srikant와 동일합니다. 그가 직관적 인 설명을 제공하는 경우, 나는 당신과 같은 질문을 할 수 있지만 비공식 언어보다 수학에 더 친숙한 미래 방문자의 이익을 위해 더 엄격한 것을 추가하고 싶었습니다. 언급 한 모든 기호는 내 대답에 정의되어 있습니다 (다시 말하지만 공식적으로 수행됩니다).
user603

@kwak : 예를 들어 p는 어디에 정의되어 있습니까?
bart
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.