최적화 : 통계에서 모든 악의 근원?


14

나는 전에 다음과 같은 표현을 들었다.

"최적화는 통계에서 모든 악의 근원"입니다.

예를 들어이 스레드 의 최상위 답변은 모델을 선택하는 동안 너무 적극적으로 최적화 할 위험에 대한 설명입니다.

내 첫 번째 질문은 다음과 같습니다.이 인용문은 특히 누구에게 귀속됩니까? (예 : 통계 문헌에서)

내가 이해 한 바에 따르면,이 진술은 과적 합의 위험을 나타냅니다. 전통적인 지혜는 적절한 교차 검증이 이미이 문제에 맞서 싸우고 있다고 말하지만,이 문제보다 더 많은 문제가있는 것 같습니다.

통계 전문가 및 ML 전문가는 엄격한 교차 검증 프로토콜 (예 : 100 개의 중첩 10 배 CV)을 준수 할 때에도 모델을 과도하게 최적화해야합니까? 그렇다면 "최고의"모델 검색을 언제 중지해야하는지 어떻게 알 수 있습니까?


두 번째 질문은 확실히 저절로 진행됩니다. 그렇지 않습니까?
russellpierce

@Glen_b 그 스레드에 참조를 남겼습니다. 그러나 명확히하기 위해 Dikran은 이미 별도의 스레드로 그의 답변에 대한 후속 질문을 공개 할 것을 제안했으며,이 질문은 의견으로 다루어지지 않을 것입니다.
Amelio Vazquez-Reina

3
@ RussellS.Pierce 내 의견이 나오기 전에 질문을 했음에도 불구하고 현재 질문이 포함 된 편집은 내가로드 한 후 원래 질문과 가능한 답변을 연구하기 시작했을 때 거기에 없었습니다. 수사 학적 질문으로 지금의 질문은 괜찮습니다.
Glen_b-복지 주 모니카

2
교차 유효성 검사 문제는 여기에 또 다른 질문이 있습니다. stats.stackexchange.com/questions/29354/… 교차 유효성 검사는 과적 합 을 피하는 데 도움이 될 수 있지만 문제를 완전히 해결하지는 못합니다. 언제 멈출지를 아는 것은 결정적인 까다로운 문제 일 수 있으며 일반적인 해결책이 있다고 생각하지 않습니다.
Dikran Marsupial

1
"적절한 교차 검증은 이미이 문제와 싸우고 있지만이 문제보다 더 많은 문제가있는 것 같습니다." 예 : 문제는 여전히 교차 검증 추정치의 분산입니다 (여러 테스트 문제와 결합 됨). 시간을 찾으면 관련 질문에 대한 답변을 드리겠습니다.
cbeleites는 Monica

답변:


14

이 인용문은 Donald Knuth 인용문의 말로 , 그는 자신이 Hoare에 귀속 된 것입니다. 위 페이지에서 3 가지 추출 :

조기 최적화는 프로그래밍에서 모든 악 (또는 적어도 대부분)의 근원입니다.

조기 최적화는 모든 악의 근원입니다.

Knuth는 이것을 15 년 후 "Hoare 's Dictum"이라고합니다.

통계 패러 프레이즈 *에 동의한다는 것을 모르겠습니다. 거기에 많은 최적화 관련되지 않은 통계 '악'의이.

통계 전문가와 ML 전문가는 엄격한 교차 검증 프로토콜 (예 : 100 개의 중첩 된 10 중 CV)을 준수 할 때에도 모델을 과도하게 최적화해야합니까? 그렇다면 "최고의"모델 검색을 언제 중지해야하는지 어떻게 알 수 있습니까?

중요한 것은 당신이 수행하는 절차의 특성을 완전히 이해하는 것 (또는 가능한 한 충분히)이라고 생각합니다.

* 나는 Knuth가 그것을 사용할 수 있다고 언급하지 않을 것입니다. 그가 나뿐만 아니라 열 번을 이해한다고 정당하게 주장 할 수 없다고 말하십시오.


2
감사합니다. 도움이됩니다. 프로그래밍의 조기 최적화와 과적 합 사이에는 흥미로운 연관성이 있다고 생각합니다. 우리 지역 사회에 비슷한 인용문이 있는지, 통계에서 이와 싸우는 엄격한 방법이 있는지 궁금합니다.
Amelio Vazquez-Reina

5
비록 그 이유가 다르고 베이지안 관점에서 거의 모든 최적화가 나쁜 것이고 소외가 더 낫지 만, 문구의 나의 사용은 Knuth의 것에서 영감을 얻었습니다.
Dikran Marsupial

3

최적화가 (데이터 중심) 모델 선택을 참조한다고 가정 할 때 통계에서 인용을 구문 분석 할 수있는 몇 가지 방법은 다음과 같습니다.

  • 예측에 관심이 있다면 단일 모델을 선택하는 대신 모델 평균을 사용하는 것이 좋습니다.
  • 모형에 맞는 동일한 데이터 세트에서 모형을 선택하면 모형 을 우선적으로 선택한 것으로 가정하는 일반적인 추론 도구 / 절차에 혼란을 초래할 수 있습니다. 교차 검증으로 모델 크기를 선택하는 단계적 회귀 분석을 수행한다고 가정합니다. 상용 분석의 경우 선택한 모델의 일반적인 p- 값 또는 CI가 올바르지 않습니다. 모델과 관련된 베이지안 분석에 해당하는 문제가 있다고 확신합니다. 선택.)
  • 데이터 집합이 고려한 모델 군에 비해 충분히 큰 경우 과적 합은 문제가되지 않으며 모델 선택이 불필요 할 수 있습니다. (예를 들어 당신은 몇 가지 변수와 함께 데이터 집합을 사용하여 선형 회귀에 맞게거야 매우 많은 관찰을. 모든 의사 변수는 계수 어쨌든 0에 가깝게 추정을하셔야합니다, 그래서 아마 당신도 작은 모델을 선택 귀찮게 할 필요는 없다.)
  • 데이터 집합이 충분히 작 으면 문제에 대한 "참"또는 "최상의"모델에 적합한 데이터가 부족할 수 있습니다. 이 경우 모델 선택을 잘 수행한다는 것은 무엇을 의미합니까? (선형 회귀 가기?해야 당신이 모두 적절를 측정 할 수있는 충분한 데이터가없는 경우에도 오른쪽 변수로 "true"로 모델을 선택하는 것을 목표로한다 당신은 당신이하는 가장 큰 모델을 선택 충분한 데이터가를 ?)
  • 마지막으로, 모델 선택이 가능하고해야한다고 분명하더라도 교차 검증은 만병 통치약이 아닙니다. 그것은 많은 변형과 그것의 속성에 영향을 미치는 자체 튜닝 파라미터 (폴드 수 또는 트레인 : 테스트 비율)를 가지고 있습니다. 맹목적으로 믿지 마십시오.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.