베이지안에 테스트 세트가 필요하지 않다는 것이 사실입니까?

필자는 최근 Eric J. Ma의이 강연을 보고 그의 블로그 항목을 확인했습니다. Radford Neal은 Bayesian 모델이 과적 합 (하지만 과적 합할 수는 없음 )이며이를 사용할 때이를 검증하기위한 테스트 세트가 필요하지 않음 을 확인했습니다. 따옴표는 매개 변수를 조정하기 위해 유효성 검사 세트를 사용하는 것에 대해 이야기하는 것 같습니다.) 솔직히 말해서 주장이 저를 설득하지 못하고 책에 액세스 할 수 없으므로 그러한 진술에 대해 더 자세하고 엄격한 주장을 할 수 있습니까?

그건 그렇고, Eric Ma는 같은 주제에 대해이 토론 을 지적했습니다 .

— 팀
소스

그 말과 관련하여이 논쟁에서 한 가지 큰 구멍이 있습니다 : MCMC를하고 있다면, 그 후부를 완전히 탐색하지 않으면, 그 추론은 완전히 무효입니다. 베이지안 신경망에서 추론을하고 있다면, MCMC를 사용하여 후부의 많은 부분을 탐색하지 않았을 것입니다. 따라서 추론을 다시 확인하기 위해 데이터를 분할하는 것이 좋습니다!

— Cliff AB

고려해야 할 한 가지는 우리가 평가하거나 검증하는 것입니까? 우리가 보유한 모든 정보를 사용하지 않을 수도 있습니다 (사전 또는 가능성). 모형 적합을 확인하면이 질문에 답하는 데 도움이 될 수 있습니다.

— probabilityislogic

적절하게 캡처 된 사전 정보를 반영하는 "하나의 진정한 모델"과 "진정한 사전"을 사용하는 경우 베이지안이 실제로 과적 합 문제가 없으며 아주 적은 데이터가 제공되는 사후 예측 분포가 적합하지 않다는 것을 알고 있습니다 . 그러나 실용적으로 선택된 모델을 사용하는 경우 (예 : 위험률이 시간이 지남에 따라 일정하고 지수 모델이 적절하거나 일부 공변량이 모델에 없음 = 계수 0 이전의 포인트) 기본 정보가 없거나 규칙적인 우선 순위를 적용한다면 이것이 여전히 적용되는지 알 수 없습니다. 이 경우 (과도한) 우선 순위의 선택에는 표본 예측이 제대로되지 않을 수도있는 임의의 임의성이 있습니다.

따라서, 선택된 가능성과 함께 하이퍼 파라미터 선택 (=과 우선 변수)이 잘 수행 될 수 있는지에 대한 질문을하는 것이 매우 합리적입니다. 실제로, 원하는 예측 성능을 얻기 위해 하이퍼 파라미터를 조정하는 것이 좋은 생각이라고 쉽게 결정할 수 있습니다. 이러한 관점에서 하이퍼 파라미터를 조정하기위한 검증 세트 (또는 교차 검증) 및 성능을 확인하기위한 테스트 세트가 완벽한 의미를 갖습니다.

나는 이것이 그의 블로그에서 Andrew Gelman에 대한 많은 토론과 밀접한 관련이 있다고 생각합니다 (예 : 블로그 항목 1 , 블로그 항목 2 , Stan의 LOO에 대한 블로그 항목 3 및 사후 예측 검사에 대한 토론). (어떤 의미에서는 맞음) 베이지안은 모델이 의미가 있는지와 실용적인 베이지안 모델 평가에 대해 점검해서는 안된다고 주장합니다.

물론, 우리는 종종 사전 정보가 거의없고 유익한 사전 정보를 사용하고자하는 환경에서 베이지안 방법을 사용하는 데 가장 관심이 많습니다. 이 시점에서 테스트 세트에 대한 유효성 검증 및 평가를 통해 어디에서나 충분한 데이터를 확보하는 것이 다소 까다로울 수 있습니다.

— 비욘
소스

그래서 나는 당신이 참조하는 overfitting에 관한 질문에 대답했고 비디오를보고 블로그 게시물을 읽었습니다. Radford Neal은 베이지안 모델이 과적 합하지 않는다고 말하지 않습니다. 과적 합은 잡음이 신호로 취급되고 모수 추정치에 영향을 미치는 현상이라는 것을 기억하자. 이것이 모델 선택 오류의 유일한 원인은 아닙니다. Neal의 논의는 과적 합에 대한 논의에 참여한 작은 표본 크기에 대한 아이디어를 도입함으로써 더 광범위 해졌다.

베이지안 모형이 모든 베이지안 모형에 과적 합 될 수 있지만 예측을 향상시키는 방식으로 이전 적합성 게시물을 부분적으로 수정하겠습니다. 다시, 혼잡 한 신호를 잡음과 혼동하는 정의로 돌아가서, 베이지안 방법의 불확실성, 사후 분포는 신호와 잡음이 무엇인지에 대한 불확실성의 정량화입니다. 그렇게함으로써, 베이지안 방법은 전체 후부가 추론 및 예측에 사용되기 때문에 신호 추정치에 잡음을 부여한다. 과적 합 및 기타 모델 분류 오류 소스는 베이지안 방법에서 다른 유형의 문제입니다.

단순화하기 위해 Ma의 대화 구조를 채택하고 선형 회귀에 초점을 맞추고 딥 러닝 토론을 피하십시오. 그가 지적한 바와 같이, 그가 언급 한 대체 방법은 함수의 구성 일 뿐이며 선형 논리 사이에 직접적인 연관이 있기 때문입니다. 회귀 및 딥 러닝.

다음과 같은 잠재적 모델을 고려하십시오

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ 다양한 크기의 샘플을 만들 수 있습니다

N

$N$ 두 개의 하위 샘플로 구성

n_{1}, n_{2}

$n_1,n_2$ , 어디

n_{1}

$n_1$ 훈련 세트입니다

n_{2}

$n_2$ 유효성 검사 세트입니다. 몇 가지 경고에 따라 베이지안 방법에 별도의 교육 및 검증 세트가 필요하지 않은 이유를 알 수 있습니다.

이 논의를 위해 모델마다 하나씩 8 개의 매개 변수를 추가로 작성해야합니다. 그들은 $m_1\dots{_8}$ . 그들은 다항 분포를 따르고 회귀 계수와 마찬가지로 적절한 우선 순위를 갖습니다. 여덟 모델은

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$ 과

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

이제 베이지안과 빈번한 방법의 차이점에 대해 살펴보아야합니다. 훈련 세트에서 $n_1,$ Frequentist 방법을 사용하는 모델러는 하나의 모델 만 선택합니다. 베이지안 방법을 사용하는 모델러는 그렇게 제한되지 않습니다. 베이지안 모델러는 모델 선택 기준을 사용하여 하나의 모델 만 찾을 수 있지만 모델 평균화를 자유롭게 사용할 수도 있습니다. 베이지안 모델러는 유효성 검사 세그먼트에서 중간에 선택된 모델을 자유롭게 변경할 수 있습니다. 또한 베이지안 방법을 사용하는 모델러는 선택과 평균화를 혼합하고 일치시킬 수 있습니다.

실제 사례를 제시하기 위해 78 개의 파산 모델을 테스트했습니다. 78 개 모델 중 76 개가 결합 된 사후 확률은 약 10 분의 1의 1 %입니다. 다른 두 모델은 각각 54 %와 46 %였습니다. 다행히도 그들은 변수를 공유하지 않았습니다. 두 모델을 모두 선택하고 다른 모델을 무시할 수있었습니다. 두 데이터에 대한 모든 데이터 요소가 있었을 때 두 모델의 사후 확률을 기반으로 한 예측을 평균화했습니다. 다른. 훈련 세트와 유효성 검사 세트가 있었지만 Frequentist가 가지고있는 것과 같은 이유는 아니 었습니다. 또한 매일 두 번의 비즈니스주기에 걸쳐 매일의 데이터로 후부를 업데이트했습니다. 즉, 유효성 검사 세트 끝의 내 모델은 훈련 세트 끝의 모델이 아닙니다. 베이지안 모델은 학습을 중단하지 않지만 상용 모델은 학습을 중단하지 않습니다.

더 깊이 들어가기 위해 모델을 구체적으로 살펴 보겠습니다. 훈련 샘플 중에 모델 선택을 사용하는 가장 적합한 Frequentist 모델과 Bayesian 모델이 일치하거나 모델 평균의 모델 가중치가 너무 커서 Frequentist 모델과 거의 구별 할 수 없다고 가정합니다. 우리는이 모델이

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ 또한 자연의 진정한 모델은

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

이제 유효성 검사 세트의 차이점을 고려해 봅시다. Frequentist 모델이 데이터에 과적 합되었습니다. 어느 시점에서 $n_2^i$ 모델 선택 또는 검증 절차가 선택을 사실상 실제 모델로 변경했음을 나타냅니다. 또한, 모델 평균화가 사용 된 경우, 실제 모델은 실제로 모델 선택이 명확 해지기 훨씬 전에 예측에 가중치를 부여했습니다. ET Jaynes는 확률 이론에 대한 주제로이 문제를 논의하는 데 시간을 보냅니다. 나는 그 책을 직장에서 가지고 있으므로 좋은 인용을 얻을 수는 없지만 읽어야한다. ISBN은 978-0521592710입니다.

모델은 베이지안 사고의 매개 변수이며, 임의로 또는 원하는 경우 불확실합니다. 그 불확실성은 검증 과정 중에 끝나지 않습니다. 지속적으로 업데이트됩니다.

베이지안과 빈번한 방법의 차이점 때문에 고려해야 할 다른 유형의 사례가 있습니다. 첫 번째는 매개 변수 유추에서, 두 번째는 공식 예측에서 나옵니다. 베이지안 방법에서는 동일하지 않습니다. 베이지안 방법은 추론과 의사 결정을 공식적으로 분리합니다. 또한 모수 추정과 예측을 분리합니다.

일반성을 잃지 않고 모델이 성공할 것이라고 상상해 봅시다. $\hat{\sigma^2}<k$ 그렇지 않으면 실패. 간단한 아이디어를 얻는 데 많은 추가 작업이 필요하기 때문에 다른 매개 변수는 무시합니다. 베이지안 방법을 사용하는 모델러의 경우 이것은 Frequentist 방법을 사용하는 것과는 매우 다른 유형의 질문입니다.

Frequentist의 경우 훈련 세트에 따라 가설 테스트가 형성됩니다. Frequentist 방법을 사용하는 모델러는 추정 분산이 크거나 같은지 테스트합니다. $k$ 크기가 샘플 인 null을 거부하려고합니다. $n_2$ 발견 된 매개 변수에 매개 변수를 고정 $n_1$ .

베이지안 방법을 사용하는 모델러의 경우 샘플에서 매개 변수 추정값을 구성합니다. $n_1$ 그리고 사후 밀도 $n_1$ 샘플의 사전이 될 것입니다 $n_2$ . 교환 가능성이 있다고 가정하면, 사후 추정치가 보장됩니다. $n_2$ 는 조인트 샘플로부터 형성된 확률 추정치의 단어의 모든 의미에서 동일하다. 두 샘플로 분할하는 것은 수학이 전혀 분할하지 않은 것과 같습니다.

예측의 경우 비슷한 문제가 있습니다. 베이지안 방법은 예측 분포가 각 관측치에 따라 업데이트되는 반면, 빈번도 방법은 표본의 끝에 동결됩니다 $n_1$ . 예측 밀도는 다음과 같이 쓸 수 있습니다. $\Pr(\tilde{x}=k|\mathbf{X})$ . 만약 $\tilde{x}$ 예측이고 $\mathbf{X}$ 샘플입니다. 그러면 매개 변수가 어디에 있습니까? $\theta?$ Frequentist 예측 시스템이 존재하지만 대부분의 사람들은 포인트 추정값을 실제 모수로 취급하고 잔차를 계산합니다. 베이지안 방법은 하나의 단일 지점이 아니라 예측 밀도에 대한 각 예측의 점수를 매 깁니다. 이러한 예측은 Frequentist 솔루션에서 사용되는 포인트 방법과 다른 매개 변수에 의존하지 않습니다.

참고로 공식 Frequentist 예측 밀도는 표준 오류를 사용하여 존재하며 점수를 매길 수는 있지만 실제로는 드 rare니다. 특정한 사전 지식이 없다면, 두 세트의 예측은 동일한 데이터 포인트 세트에 대해 동일해야합니다. 그들은 결국 다른 결과가 될 것입니다 $n_1+n_2>n_1$ Bayesian 솔루션은 더 많은 정보를 제공 할 것입니다.

중요한 사전 정보가없고 점 추정치보다 Frequentist 예측 밀도를 사용하는 경우 고정 표본의 경우 단일 모형을 선택하면 베이지안 및 Frequentist 방법의 결과가 동일합니다. 사전 정보가있는 경우 베이지안 방법은보다 정확한 예측을 생성하는 경향이 있습니다. 이 차이는 실제로 매우 클 수 있습니다. 또한 모델 평균이있는 경우 베이지안 방법이 더 강력 할 것입니다. 모형 선택을 사용하고 베이지안 예측을 동결하는 경우 빈도 예측을 사용하여 빈도 모델을 사용하는 것과 차이가 없습니다.

데이터를 교환 할 수 없어 테스트 및 유효성 검사 세트를 사용했습니다. 결과적으로 두 가지 문제를 해결해야했습니다. 첫 번째는 MCMC 방법의 번인과 유사합니다. 테스트 시퀀스를 시작하려면 매개 변수 추정치가 필요했기 때문에 50 년 전의 데이터를 사용하여 유효성 테스트를 시작하기위한 사전 밀도를 얻었습니다. 두 번째 문제는 테스트에 의문을 갖지 않기 위해 테스트를 위해 일정 기간의 표준화 된 기간이 필요하다는 것입니다. NBER이 발표 한 두 가지 이전 비즈니스주기를 사용했습니다.

— 데이브 해리스
소스

그러나 "정보가없는"이전의 선형 회귀 모델에 대한 MAP을 추정했다고 가정합니다. 이는 모델의 최대 가능성 추정치를 얻는 것과 동일하므로 ML은 교환 가능성을 가정 할 때 테스트 세트가 필요하지 않습니까?

— Tim

"과적 합은 잡음이 신호로 취급되고 매개 변수 추정치에 내포되는 현상"이 정의는 가산 성 잡음 모델에만 해당된다고 생각합니다. 그렇지 않으면 과적 합과 과적 합이 잘 정의되어 있지 않습니다.

— Cagdas Ozgenc

@CagdasOzgenc 감사합니다. 제안 된 수정 사항이 있습니까?

— Dave Harris

@Tim 나는 MAP 추정기를 언급 한 적이 없다. MAP 추정기로 문제를 줄이면 견고성을 포기하게됩니다. MAP 추정기는 밀도에 대한 비용 함수를 최소화하는 지점입니다. 밀도에 충분한 통계가없는 경우 예측에 문제가 될 수 있습니다. MAP 추정기는 본질적으로 정보를 잃게됩니다. 원래 질문에 포함되어 있지 않고 Ma의 프레젠테이션에 포함되지 않은 MAP 견적 도구를 사용하고 있다면 스스로 다른 문제를 만듭니다.

— Dave Harris

@Tim MAP 추정기는 베이지안 결정 이론에서 비롯되었으며 베이지안 추정 및 추론 위에 오버레이됩니다. MAP이 편리합니다. 편의를 선택할 때 지불해야 할 가격이 있습니다. 전액 또는 무원가 비용 함수가 실제 비용 함수가 아닌 한 정보와 정확성을 모두 포기합니다. 또한 Ma의 프레젠테이션에서 제안한 것과 다른 방법 론적 문제가 발생합니다.

— Dave Harris