모델이 잘못되었을 때 왜 베이지안이어야합니까?


68

편집 : 간단한 예제를 추가했습니다 : 의 평균 추론 . 또한 신뢰 구간과 일치하지 않는 신뢰할 수있는 구간이 나쁜 이유를 약간 설명했습니다.Xi

나는 상당히 독실한 베이지안으로 일종의 믿음의 위기에 처해 있습니다.

내 문제는 다음과 같습니다. IID 데이터 를 분석하고 싶다고 가정하십시오 . 내가 할 일은 :Xi

  • 먼저, 조건부 모델을 제안하십시오 :

    p(X|θ)
  • 그런 다음 에서 이전을 선택하십시오 . P ( θ )θ

    p(θ)
  • 마지막으로 Bayes의 규칙을 적용하고 사후를 계산하십시오 : (또는 계산할 수없는 경우 근사치) 관한 모든 질문에 대답하십시오.θp(θ|X1Xn)θ

이것은 합리적인 접근법입니다 : 데이터 의 실제 모델 이 실제로 조건부 "내부"(일부 값 ) 인 경우 통계 결정 이론에 따라 내 방법이 허용된다고 말할 수 있습니다 (Robert 's 참조). 자세한 내용은 "베이지안 선택", "모든 통계"는 관련 장에서 명확한 설명을 제공합니다).θ 0Xiθ0

그러나 모두가 알고 있듯이 내 모델이 정확하다고 가정하는 것은 상당히 거만합니다. 왜 내가 고려한 모델의 상자 안에 자연이 깔끔하게 들어가야합니까? 그것은 데이터의 실제 모델이 있다고 가정하는 훨씬 더 현실적인 다르다 의 모든 값에 대해 . 이를 일반적으로 "미지정"모델이라고합니다.p ( X | θ ) θptrue(X)p(X|θ)θ

내 문제는 이보다 현실적인 잘못 지정 된 경우 베이지안 (즉, 사후 분포 계산)에 대한 좋은 주장은 단순히 최대 가능성 추정기 (MLE)를 계산하는 것과 관련이 없습니다.

θ^ML=argmaxθ[p(X1Xn|θ)]

실제로 Kleijn, vd Vaart (2012) 에 따르면 잘못 지정된 경우 사후 분포는 다음과 같습니다.

  • 중심으로하는 배포판에 로 수렴θ M Lnθ^ML

  • 사후의 신뢰할 수있는 구간이 대한 신뢰 구간과 일치하는지 확인하기 위해 올바른 분산이 없습니다 (두 값이 동일하지 않은 경우) . (신뢰 구간은 분명히 베이지 안에서 지나치게 신경 쓰지 않는 것이지만, 이는 질적으로는 사후 분포가 본질적으로 잘못되었다는 것을 의미합니다. 신뢰할 수있는 구간은 정확한 적용 범위를 갖지 않기 때문입니다)θ

따라서 추가 속성이없는 경우 계산 프리미엄 (일반적으로 베이 시언 추론이 MLE보다 비싸다)을 지불하고 있습니다.

따라서 마지막으로 내 질문 : 모델이 잘못 지정되었을 때 더 간단한 MLE 대안에 대한 베이지안 추론을 사용하는 이론적이든 경험적이든 논란이 있습니까?

(내 질문이 불분명 한 경우가 많으므로 이해가되지 않는 경우 알려주세요. 문구를 바꾸려고합니다.)

편집 : 간단한 예를 생각해 봅시다 . 가우스 모델 에서 의 평균을 추론합니다 ( 추가 분산 을 위해 알려진 분산 ). 우리는 가우스 사전을 고려합니다 : 우리는 를 사전 평균, 의 역 분산으로 나타냅니다 . 의 실험적 평균 이라고하자 . 마지막으로, 주 : . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + nXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

사후 분포는 다음과 같습니다.

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

올바르게 지정된 경우 ( 실제로 가우스 분포가있는 경우 )이 후자는 다음과 같은 멋진 속성을 갖습니다.Xi

  • 가 공유 분포가 이전 분포에서 선택되는 계층 적 모델에서 생성 된 경우 사후 신뢰할 수있는 구간은 정확한 적용 범위를 갖습니다. 데이터에 대한 조건부에서, 가 어떤 구간에있을 확률은 후부가이 구간에 귀속 될 확률과 같습니다 θXiθ

  • 사전이 정확하지 않더라도, 신뢰할 수있는 간격은 후부에 대한 사전 영향이 사라지는 한계 에서 정확한 범위를 갖습니다.n

  • 후자는 좋은 잦은 속성을 가지고 있습니다.

잘못 지정된 경우, 이러한 특성의 대부분은 이론에 의해 보장되지 않습니다. 아이디어를 고치기 위해 의 실제 모델 은 학생 분포 라고 가정합니다 . 우리가 보장 할 수있는 유일한 속성 (Kleijn et al)은 사후 분포 가 한계 에서 의 실제 평균에 집중한다는 것입니다 . 일반적으로 모든 적용 범위 속성이 사라집니다. 더 나쁜 것은 일반적으로 그 한계에서 적용 범위 속성이 근본적으로 잘못되었음을 보장 할 수 있습니다. 사후 분포는 다양한 공간 영역에 잘못된 확률을 부여합니다.X i n XiXin


2
글쎄, 베이지안은 정규화에 접근합니다. 모델이 잘못 지정되었는지 여부에 관계없이 과적 합을 방지하는 데 도움이됩니다. 물론, 그것은 정규화 된 고전적 접근 (lasso, ridge regression, elastic net 등)에 대한 베이지안 추론에 대한 논증에 관한 관련 질문으로 이어진다 .
S. Kolassa-복원 모니카

3
이 사업 과 그 친척에 관심 있을 수 있습니다 .
Dougal

7
잘못된 우도 함수를 사용하여 모델을 잘못 지정하면 MLE 및 베이지안 추정치가 모두 잘못 될 수 있습니다.
Tim

5
@Tim : 잘못 지정된 경우 MLE 및 베이지안 추론은 의미가 없습니다. 둘 다 조건부 모델 내에서 데이터를 가장 잘 나타내는 매개 변수 값 을 복구하려고합니다 . 보다 정확하게는, 은 의 argmin이며 여기서 KL은 Kullback Leibler divergence입니다. 온화한 가정 하에서 MLE과 베이지안 추론 모두 충분한 양의 데이터가 제공 될 정확하게 식별 합니다 ~ θ 0KL[p(X),p(X|θ)] ~ θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene

3
@amoeba 하드 코어 베이지안의 외모를 상상하고 마치 반듯한 체처럼 행동
Aksakal

답변:


31

내 데이터 세트가 주제에 대해 알려진 모든 것이 아닌 경우 베이지안 접근 방식을 고려하고 그 외생 지식을 내 예측에 통합하고 싶습니다.

예를 들어, 내 고객은 포트폴리오에서 대출 불이행 예측을 원합니다. 그들은 몇 년 동안의 분기 별 과거 데이터와 함께 100 개의 대출을 보유하고 있습니다. 연체 (지불)와 몇 가지 불이행이 발생했습니다. 이 데이터 세트에서 생존 모델을 추정하려고하면 추정 할 데이터가 거의없고 예측하기에는 너무 불확실합니다.

반면, 포트폴리오 관리자는 경험이 풍부한 사람들이며 일부는 차용자와의 관계를 관리하는 데 수십 년을 보냈습니다. 그들은 기본 요율이 무엇인지에 대한 아이디어를 가지고 있습니다. 따라서 그들은 합리적인 선행을 할 수 있습니다. 좋은 수학 속성을 가지고 있고 지적 적 으로 나 에게 호소력이있는 선행은 아닙니다 . 나는 그들과 대화하고 그들의 경험과 지식을 그 이전의 형태로 추출 할 것입니다.

이제 베이지안 프레임 워크는 데이터와 함께 이전의 형태로 외생 지식과 결혼하는 역학을 제공하고 순수한 질적 판단과 순수한 데이터 중심 예측보다 우월한 결론을 얻을 것이라고 생각합니다. 이것은 철학이 아니며 저는 베이지안이 아닙니다. 나는 단지 베이지안 도구를 사용하여 전문가 지식을 데이터 중심의 추정에 일관되게 통합하고 있습니다.


3
아주 좋은 지적입니다. 베이지안 추론은 제시 한 것과 같은 작업을 정확하게 해결하기위한 프레임 워크를 제공합니다. 감사합니다.
기 illa 데 하네

5
이것은 베이지안 모델링에 대한 일반적인 주장이지만, 잘못 지정된 모델의 특정 사례와 어떤 관련이 있습니까? 연결이 보이지 않습니다.
Richard Hardy

4
글쎄, 그것은 내 질문과 관련이 있습니다. 잘못 지정 된 경우에도 베이지안 추론은 정규화 기와 함께 작동 해야하는 MLE 방법보다 선행을 통해 더 나은 (즉,보다 원칙적인 방식으로) 질적 정보를 처리합니다. 베이지안 추론이 MLE보다 약간 더 나은 이유에 대한 경험적 논쟁의 한 형태입니다.
기 illa 데 하네

2
@ Aksakal, 모델이 잘못 지정되었는지 여부는 요점입니다. 내가 걱정하는 것은 당신이 그 질문에 대답하지 않는다는 것입니다. (OP가 동의하지 않으면 그가 질문을 작성하는 데 열악한 일을했다고 생각합니다.)하지만 최근에 수정 된 내용이 있었으므로 지금까지 질문이 변경되었을 것입니다.
Richard Hardy

4
@RichardHardy, 나는 내 대답이 OP의 믿음의 위기의 중심에 들어가고 있다고 생각합니다. 조건부 모델이 잘못 지정되면 샘플 크기가 증가하여 이전보다 압도적이며 후자는 잘못된 모델로 밀려날 것입니다. . 이 경우 Bayesian이 처음부터 귀찮게하는 이유는 무엇입니까? 필자의 예제는 확실히 철학적이지는 않지만 실용적입니다. 한정된 것이 아니라 작은 샘플을 다루는 경우가 많습니다. 따라서 데이터는 외래 지식을 이전과 너무 멀리 끌어 오지 않습니다.
Aksakal

25

매우 흥미로운 질문 ... 답변이 없을 수도 있지만 덜 흥미롭지는 않습니다!

모든 모델이 잘못되었다는 의견에 대한 몇 가지 생각 (그리고 블로그 항목에 대한 많은 링크!) :

  1. 가상의 모델은 거의 변하지 않고 치유 할 수 없을 정도로 틀리지 만 , 이것이 최선의 방법이라면이 모델과 관련하여 효율적이거나 일관된 방식으로 행동하는 것이 여전히 합리적입니다. 결과 추론은 실제 데이터 생성 모델에 "가장 가까운"공식 모델의 평가를 생성합니다 (있는 경우).
  2. 모델없이 수행 할 수있는 베이지안 접근 방식이 있으며 , 가장 최근의 예는 Bissiri et al. 의 논문 입니다. ( 내 의견으로 ) 그리고 Watson and Holmes ( 저는 Judith Rousseau와 논의했습니다 );
  3. 연결된 방식으로, M-open 추론을 다루는 Bayesian 통계의 전체 브랜치가 존재합니다 .
  4. 그리고 제가 많이 좋아하는 또 다른 방향 은 Peter GrünwaldSafeBayes 접근법입니다 .
  5. Gelman과 Hennig가 작성한 최근의 Read Paper는 이 문제를 우회 한 방식으로 다루고 있지만 내 블로그에 대한 의견을 추가 했습니다 . 질문에 대한 항목에서 토론 할 자료를 수집 할 수 있다고 가정합니다.
  6. 어떤면에서, 베이지안은 이 측면에 대해 통계 학자와 모델러 사이 에서 가장 걱정이 적어야한다 . 샘플링 모델은 몇 가지 사전 가정 중 하나로 간주되고 결과는 조건부 또는 모든 이전 가정과 관련이 있기 때문이다.

2
이것에 대한 귀하의 의견을 갖는 것이 매우 좋습니다. 첫 번째 요점은 직관적입니다. 모델이 너무 잘못되지 않았다면 추론의 결과는 괜찮을 것입니다. 그러나 아무도 그런 결과를 입증 한 적이 있습니까 (또는 경험적으로 질문을 탐구 했습니까)? 마지막으로 (오해했을 수도 있지만) 샘플링 모델이 중요한 선택입니다. 우리가 또한 선택한다는 사실이 샘플링 모델 선택의 오류가 전체 모델을 손상시킬 수 없다는 것을 의미하지는 않습니다. 참고 문헌과 멋진 블로그에 감사드립니다.
기 illa 데 하네

포인트 1의 경우, 베이지안 모델 평균이 왜 안됩니까? 왜 '최상의'모델을 사용합니까?
innisfree

@ innisfree : 그것은 당신이 결과로 무엇을하려고하는지에 달려 있습니다. 나는 모델 평균화와 최고의 모델에 대한 종교가 없습니다.
시안

1
모델 불확실성을 평균화하는 것보다 '최상의'모델 만 선택하는 결정 이론적 측면이 있다고 제안하는 것 같습니다. 모델 불확실성을 포함하여 모든 불확실성을 일관되게 통합하기 위해 항상 우호적입니다. 즉, 더 나은 결정을 내리는 데 도움이됩니다.
innisfree

2
비모수에 대한 나의 반대 의견은 실용적입니다. 더 간단한 대안에 비해 수십 배 더 계산 비용이 많이 듭니다. 또한 비모수에 문제가 발생하지 않습니다. 두 개의 이전 배포판이 공통적으로 지원하는 것이 거의 불가능하기 때문입니다. 이는 이전이 큰 영향을 미치며 베이지안 통계학자가 다른 이전의 출발지에서 동의하는 것이 (거의) 불가능하다는 것을 의미합니다.
기 illa 데 하네

12

수정 : OP의 요청에 따라 본문 에이 백서 에 대한 참조가 추가되었습니다 .


나는 순진한 경험적 베이지안 으로 대답하고 있습니다.

첫째, 사후 분포를 사용하면 간단한 MLE로는 수행 할 수없는 계산을 수행 할 수 있습니다. 가장 간단한 경우는 오늘의 후부가 내일 이전 입니다. 베이지안 추론은 순차 업데이트, 또는 일반적으로 온라인 또는 여러 정보 소스의 지연된 조합을 허용합니다 (사전 통합은 그러한 조합의 하나의 교과서 사례 일뿐입니다). 사소한 손실 함수를 가진 베이지안 결정 이론이 또 다른 예입니다. 어떻게해야할지 모르겠습니다.

둘째,이 답변을 통해 불확실성의 정량화가 일반적으로 불확실성없는 것보다 낫다는 만트라 가 실질적으로 경험적인 문제 라고 주장 할 것이다 . 왜냐하면 (당신이 언급 한 바와 같이 내가 아는 한) 정리는 보장 할 수 없기 때문이다.

과학적 노력의 장난감 모델로서의 최적화

문제의 복잡성을 완전히 포착한다고 느끼는 도메인은 매우 실용적이며, 말도 안되는 도메인이며, 블랙 박스 기능 의 최적화입니다 . 우리는 점 순차적으로 쿼리하고 와 함께 잡음이있는 관측 값 얻을 수 있다고 가정합니다 . 우리의 목표는 최소한의 함수 평가 로 가능한 한 가깝게하는 것 입니다.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

예상 할 수 있듯이 특히 효과적인 방법은 쿼리 할 때 발생할 수있는 일에 대한 예측 모델 을 구축 하고이 정보를 사용하여 다음에 수행 할 작업을 결정하는 것입니다. 지역 또는 전 세계적으로). 미분없는 글로벌 최적화 방법에 대한 검토는 Rios and Sahinidis (2013) 를 참조하십시오 . 모델이 충분히 복잡한 경우이를 메타 모델 또는 대리 기능 또는 응답 표면 접근 방식이라고합니다. 결정적으로, 모델은 의 점 추정치 (예 : 관측치에 방사형 기본 네트워크 함수의 적합)이거나 베이지안 일 수 있으며 대한 전체 후방 분포를 얻을 수 있습니다.xXff (가우스 프로세스를 통해).

베이지안 최적화 는 이상의 사후 (특히, 모든 시점에서 공동 조건부 사후 평균 및 분산)를 사용하여 일부 이론적 휴리스틱을 통해 (전역) 최적의 검색을 안내합니다. 고전적인 선택은 현재 최고점에 대한 예상 개선 을 극대화하는 것이지만 최소 위치에 대한 예상 엔트로피를 최소화하는 것과 같은 더 멋진 방법도 있습니다 ( 여기 참조 ).f

여기서 경험적으로 얻은 결과는 부분적으로 잘못 지정되어 있어도 후부에 접근하면 일반적으로 다른 방법보다 더 나은 결과를 생성한다는 것입니다. (베이지안 최적화가 높은 차원에서와 같이 임의 검색보다 낫지 않은 경고와 상황이 있습니다.) 이 백서 에서는 BO를 사용하는 것이 편리한 지 여부를 확인하면서 새로운 BO 방법과 다른 최적화 알고리즘을 실험적으로 평가합니다. 실제로 유망한 결과가 있습니다.

당신이 물었 기 때문에-이것은 다른 비 베이 지안 방법보다 계산 비용이 훨씬 높으며 왜 우리가 베이지안이어야하는지 궁금합니다. 여기서 실제 를 평가하는 데 드는 비용 (예 : 실제 시나리오에서 복잡한 엔지니어링 또는 기계 학습 실험)이 베이지안 분석의 계산 비용보다 훨씬 크기 때문에 베이지안이 됩니다 .f

이 예에서 무엇을 배울 수 있습니까?

첫째, 왜 베이지안 최적화가 작동합니까? 나는 모델이 잘못하지만, 아니라고 생각 하는 잘못, 평소와 같이 그름 모델가 무엇인지에 따라 달라집니다. 예를 들어, 정확한 모양 는 최적화와 관련이 없습니다. 왜냐하면 우리는 단조 변환을 최적화 할 수 있기 때문입니다. 자연에는 그런 불변이 가득합니다. 따라서 우리가 수행하는 검색은 최적이 아닐 수 있지만 (즉, 좋은 정보를 버리는 것), 여전히 불확실성 정보가없는 것보다 낫습니다.f

둘째, 우리의 예는 베이지안의 유용성이 상황 , 예를 들어 이용 가능한 (계산적) 자원의 상대적 비용과 양에 따라 달라질 수 있음을 강조 합니다. (물론 당신이 하드 코어 베이지안이라면, 모든 계산은 약간의 이전 및 / 또는 근사치 하에서 베이지안 추론 이라고 믿는다 .)

마지막으로 큰 문제는, 왜 우리가 사용하는 모델이 왜 후자가 여전히 유용하고 통계적 쓰레기가 아니라는 의미에서 나쁘지 않은가? 우리가 무료 점심 식사 정리를 취한다면, 우리는 많은 것을 말할 수 없어야하지만, 운 좋게도 우리는 완전히 무작위 (또는 적대적으로 선택된 ) 기능 의 세계에 살지 않습니다 .

더 일반적으로, 당신은 "철학적"태그를 붙이기 때문에 ... 우리는 통계학 에서 (특히, 우리의 수학적 직관력과 모델을 지정하는 능력) 유도의 문제 또는 수학의 비합리적 효과의 영역에 들어가고있는 것 같습니다 순전히 선험적 관점에서 우리의 추측이 좋거나 보장되어야 할 이유가 없다는 점에서 (그리고 당신이 일이 잘못되는 수학적 반례를 만들 수 있음), 그러나 그들은 돌아갑니다. 실제로 잘 작동합니다.


2
멋진 답변입니다. 당신의 공헌에 감사드립니다. Bayesian 최적화와 일반적인 최적화 기법에 대한 검토 / 공정한 비교가 있습니까? (나는 당신을 당신의 말로 데려가는 것이 좋지만 참조가 유용 할 것입니다)
Guillaume Dehaene

1
감사! 나는 확률 론적 숫자로의 콜 투 암 (call-to-arms)에는 몇 가지 이론적이고 경험적인 주장이 포함되어 있다고 생각한다 . BO 방법과 표준 방법을 실제로 비교하는 벤치 마크는 알지 못하지만 [ 트리거 경고 : 뻔뻔한 플러그 ] 저는 현재 계산 신경 과학 분야에서이 라인을 따라 무언가를 연구하고 있습니다. 앞으로 몇 주 안에 arXiv에 일부 결과를 제공 할 계획입니다.
lacerbi

실제로, 그들의 그림 2는 분명하게 비교됩니다. 주요 질문이 나오면 작업을 추가해 주시겠습니까? 나는 그것이 귀중한 추가가 될 것 같은 느낌이 든다.
기 illa 데 하네

그렇습니다. 이것은 적응 형 베이지안 구적법에 대한 방법입니다. 실제로 그 효과는 GP 근사치가 작동하는지 여부에 달려 있습니다. 내 작업이 가능할 때 답변에 대한 링크를 추가하겠습니다. 감사합니다.
lacerbi

1
@IMA : 죄송합니다. 100 % 포인트를 얻는다고 생각하지 않습니다. 나는 과학적 노력 의 장난감 모델 로 블랙 박스 최적화를 취하고있었습니다 . "과학"의 여러 단계와 문제를이 단순한 (그러나 여전히 매우 복잡한) 도메인에 매핑 할 수 있다고 생각합니다. 내 주장에 "가우스 노이즈"가정이 필요하지 않다. 단지 단순성을 위해서였다. 실제 최적화 문제 (예 : 엔지니어링)는 비 가우시안 노이즈로 인해 손상 될 수 있으므로 처리해야합니다. 또한 가우시안 프로세스에는 가우시안 관찰 노이즈 가 필요 하지 않습니다 (추론이 쉬워 지더라도).
lacerbi

10

나는 오늘만 이것을 보지만 여전히 나는 일종의 전문가이고 적어도 두 가지 답변 (3 번과 20 번 (서안 시안을 추천 해 주셔서 감사합니다!))에 대한 내 작업을 언급한다는 점에서 칩을 사용해야한다고 생각합니다. SafeBayes-특히 G. 및 van Ommen, "잘못된 선형 모델에 대한 베이지안 추론의 불일치 및 수리 제안"(2014). 그리고 의견 2에 무언가를 추가하고 싶습니다.

2는 다음과 같이 말합니다. (잘못된 사양에서 베이의 장점은 ...) "베이지안은 정규화에 접근합니다. 즉, 모델이 잘못 지정되었는지 여부에 관계없이 과적 합을 방지하는 데 도움이됩니다. 정규화 된 고전적 접근 (lasso 등)에 대한 베이지안 추론에 대한 주장 "

이것은 사실이지만 베이지안 접근 방식이 충분히 정규화되지 않을 수 있음을 추가하는 것이 중요합니다. 모델이 잘못된 경우. 이것이 반 옴멘 (Van Ommen)과의 작업의 주요 요점입니다. 우리는 표준 베이가 잘못되었지만 매우 유용한 모델로 일부 회귀 상황에서 오히려 너무 적합하다는 것을 알 수 있습니다. MLE만큼 나쁘지는 않지만 여전히 유용하기에는 너무 많습니다. 베이 즈와 유사한 방법을 사용하지만 (학습률과 게임 이론적) 이론적 머신 러닝에는 많은 학습이 이루어 지지만 훨씬 더 적은 '학습률'로 이전과 더 많은 데이터를 덜 중요하게하여 더 많은 규칙을 정합니다. 이러한 방법은 최악의 상황 (잘못된 정보 및 더 나쁜 적대적 데이터)에서 잘 작동하도록 설계되었습니다. SafeBayes 접근 방식은 데이터 자체에서 '최적의 학습 속도'를 학습하도록 설계되었으며이 최적의 학습 속도, 즉 최적의 양 정규화의

이와 관련하여 베이 즈가 '진리'에 대한 KL 발산에서 가장 가까운 분포에 대해 후반부에 집중할 것이라고 말하는 민중 정리 (위의 몇 가지 언급)가있다. 그러나 이것은 매우 엄격한 조건에서만 유지됩니다. 잘 지정된 경우의 수렴에 필요한 조건보다 훨씬 더 엄격합니다. 표준 저 차원 파라 메트릭 모델을 다루고 있고 데이터가 일부 분포 (모델이 아님)에 따라 iid 인 경우 KL 발산의 진실에 가장 가까운 모델의 점에 후부가 실제로 집중됩니다. 이제 큰 비모수 적 모델을 다루고 있고 모델이 정확하다면, 후자는 여전히 충분한 데이터가 주어지면 실제 분포에 집중할 것입니다. 당신의 이전이 실제 분포 주위에 작은 KL 볼에 충분한 질량을 넣는 한. 이것이모형이 올바른 경우 비모수 적 사례에서 수렴에 필요한 약한 조건.

그러나 모델이 비모수 적이지만 정확하지 않은 경우 이전의 질량이 1 (!)에 가까워 지더라도 후방은 가장 가까운 KL 점 주위에 집중되지 않을 수 있습니다. 시간이 지남에 따라 최고의 시간을 보지 못합니다. 내 논문에는 이런 일이 몇 가지 있습니다. 잘못된 사양 (예 : Kleijn 및 van der Vaart)에서 수렴을 나타내는 논문은 모델이 볼록하거나 사전에 특정 (복잡한) 속성을 준수해야하는 등 추가 조건이 많이 필요합니다. 이것이 내가 '엄격한'조건이라는 의미입니다.

실제로 우리는 종종 파라 메트릭이지만 매우 높은 차원의 모델 (베이지 릿지 회귀 등을 고려)을 다루고 있습니다. 그런 다음 모델이 잘못되면 결국 후자는 모델에서 최상의 KL 분포에 집중하지만 비모수 적 비 일관성에 대한 미니 버전은 여전히 ​​유지됩니다. 수렴이 발생하기 전에 더 많은 데이터가 필요할 수 있습니다. Van Ommen이 그 예를 보여줍니다.

SafeBayes 접근법은 잘 규정 된 경우와 동일한 조건, 즉 모델의 KL- 최적 분포 근처에 충분한 사전 질량이있는 비모수 적 모델의 수렴을 보장하는 방식으로 표준 베이를 수정합니다 (G. and Mehta, 2014). ).

그렇다면 베이 즈가 잘못된 사양 하에서도 정당화가 가능한지에 대한 의문이 있습니다. IMHO (및 위의 여러 사람들이 언급했듯이), 베이 즈의 표준 정당성 (허용 가능성, Savage, De Finetti, Cox 등)은 여기에 포함되지 않습니다 (모델이 잘못 지정되어 있음을 인식하면 확률이 진정한 믿음을 나타내지 않기 때문에) !). 그러나 많은 Bayes 방법을 '최소 설명 길이 (MDL) 방법'으로 해석 할 수 있습니다. MDL은 '데이터를 학습하는 것'과 '데이터를 최대한 압축하려고 시도하는 것'을 동일시하는 정보 이론적 방법입니다. (일부) 베이지안 방법에 대한이 데이터 압축 해석은 잘못 지정된 경우에도 유효합니다. 그래서 아직 거기 몇 가지van Ommen (및 원본 게시물에 언급 된 신뢰 구간 / 신뢰할 수있는 설정 문제)이있는 논문이 보여 주듯이 잘못된 사양으로 유지되는 기본 해석-문제가 있습니다.

그리고 원래 게시물에 대한 마지막 발언 : Bayes의 '허용 가능성'의 정당성을 언급합니다 (Wald의 1940 년대 / 50 년대의 완전한 클래스 계산으로 돌아갑니다). 이것이 베이 즈의 정당화인지 아닌지는 실제로 '베이지 아 추론 (Bayesian inference)'에 대한 정확한 정의에 크게 좌우됩니다. 그 이유는 이러한 허용 결과로 인해 표본 크기, 관심 손실 기능 등과 같은 문제의 측면에 따라 사전을 사용할 가능성이 있기 때문입니다. 대부분의 '실제'베이지안은 변경을 처리해야하거나 관심있는 손실 기능이 갑자기 변경된 경우 예를 들어 볼록한 손실 함수를 사용하면 minimax 추정값도 허용되지만 일반적으로 베이지안으로 생각되지는 않습니다! 그 이유는 각각의 고정 된 샘플 크기에 대해 특정 사전이있는 베이와 동일하지만 각 샘플 크기마다 이전이 달라지기 때문입니다.

이것이 유용하기를 바랍니다!


2
CrossValidated에 오신 것을 환영합니다.이 질문에 답변 해 주셔서 감사합니다. 사소한 참고 사항-답을 보는 순서대로 정렬 할 수는 없습니다. 다른 사람들이 다른 순서로 정렬 할 수 있으며 (가장 높은 답변의 맨 위에 다른 정렬 기준을 선택할 수 있음) 이러한 두 가지 기준은 시간이 지남에 따라 변경됩니다. 만약 당신이 그것들을 "nr 3 and 20"이라고 부르면 사람들은 당신이 어떤 대답을하는지 알지 못할 것입니다. [저도 열 개의 답을 찾을 수 있습니다.]
Glen_b

1
좋은 답변 피터 감사합니다. 잘못 지정된 경우의 베이지안 추론에는 매우 강력한 가정이 필요하다는 귀하의 의견이 혼란 스럽습니다. 어떤 가정을 명시 적으로 언급하고 있습니까? 당신은 후부가 최상의 모수 값에 대한 디 라크 분포로 수렴해야하는 조건에 대해 이야기하고 있습니까? 또는 점근 적 정상 성을 보장 할 가능성에 대한 더 기술적 인 조건에 대해 이야기하고 있습니까?
기 illa 데 하네

좋아, Glen B (moderator) 덕분에-지금부터 이것을 명심할 것입니다.
피터 Grünwald

illa-

7

일반적인 바이어스-분산 트레이드 오프가 있습니다. M- 닫힌 사례 [1,2]를 가정하고 베이지안 추론은 더 작은 분산을 갖지만 [3] 모형의 잘못된 사양의 경우 바이어스가 더 빠르게 커집니다 [4]. M-open 사례 [1,2]를 가정하여 분산이 더 크지 만 [3] 모형의 불일치가 더 작은 경우 [4]를 가정하여 베이지안 추론을 수행 할 수도 있습니다. 베이지안 M- 닫힘과 M- 열림 사례 사이의 편향-분산 트레이드 오프에 대한 논의는 아래 참고 문헌에 포함 된 일부 참고 문헌에도 나타나 있지만, 더 많은 것이 필요합니다.

[1] Bernardo and Smith (1994). 베이지안 이론. 존 와일리 \ & Sons.

[2] Vehtari and Ojanen (2012). 모델 평가, 선택 및 비교를위한 베이지안 예측 방법에 대한 조사. 통계 조사, 6 : 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen과 Aki Vehtari (2017). 모형 선택을위한 베이지안 예측 방법의 비교. 통계 및 컴퓨팅, 27 (3) : 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson 및 Andrew Gelman (2017). 베이지안 예측 분포를 평균하기 위해 스태킹 사용. arXiv 프리 프린트 arXiv : 1704.02030 arxiv.org/abs/1704.02030


7

잘못 지정된 모델에서 베이지안 추론을 정당화하는 몇 가지 다른 방법이 있습니다.

  • 샌드위치 공식을 사용하여 (MLE에서와 같은 방식으로) 사후 평균에 대한 신뢰 구간을 구성 할 수 있습니다. 따라서 신뢰할 수있는 세트에 적용 범위가 없더라도 관심 대상인 포인트 추정기에서 유효한 신뢰 구간을 생성 할 수 있습니다.

  • 사후 분포를 재조정하여 신뢰할 수있는 세트에 적용 범위를 갖도록 할 수 있습니다.

Müller, Ulrich K. "잘못된 모형에서 베이지안 추론의 위험과 샌드위치 공분산 행렬" Econometrica 81.5 (2013) : 1805-1849.

  • Bayes 규칙에 대한 비 점근 적 정당화가 있습니다. 이전 조건이 이고 로그 우도가 인 경우 기술 조건을 생략 하면 후부는 이상 모든 배포판 . 첫 번째 용어는 예상 유틸리티와 같습니다. 가능성이 높은 모수에 질량을 추가하려고합니다. 두 번째 용어는 정규화됩니다. 이전에 작은 KL 분기를 원합니다. 이 공식은 후부가 최적화하는 것을 명시 적으로 말합니다. 사람들이 로그 가능성을 다른 유틸리티 함수로 대체하는 유사 가능성의 맥락에서 많이 사용됩니다.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

뮬러에 감사드립니다
기 illa 데 하네

6

데이터의 실제 모델이 있다고 가정 다르다 의 모든 값에 대해ptrue(X)p(X|θ)θ

이러한 가정의 베이지안 해석 부가 랜덤 변수이 있다는 및 값 의 범위에서 되도록 . 귀하의 사전 지식은 및 입니다. 그런 다음 적절한 확률 분포가 아닌 입니다.ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

이 사례는 인 논리에서 유사한 추론 규칙에 해당합니다. 즉, 모순에서 아무것도 추론 할 수 없습니다. 결과 은 베이지안 확률 이론이 사전 지식이 데이터와 일치하지 않음을 알려주는 방법입니다. 누군가 후부에서이 결과를 얻지 못하면 공식이 모든 관련 사전 지식을 인코딩하지 못했음을 의미합니다. 이 상황의 평가에 관해서는 Jaynes (2003, p.41)로 넘어가겠습니다.A,¬Ap(θ|X,ϕ=ϕ0)=0

... 강력한 제안 분석 도구로 여러 가지 명제를 검색하고 그 안에 모순이있을 경우이를 감지 할 수 있습니다. 원칙은 모순 된 전제에 조건부 확률이 존재하지 않는다는 것입니다 (가설 ​​공간은 빈 세트로 축소됨). 따라서 로봇을 작동 시키십시오. 즉, 확률 계산하는 컴퓨터 프로그램 쓰기 명제의 집합을 조건 더 모순에 숨겨진 모순이있는 경우, 검사에서 알 수 없더라도p(B|E)E=(E1,E2,,En)E컴퓨터 프로그램이 중단됩니다. 우리는 이것을``필수적으로 ''발견했으며, 어떤 생각 후에는 그것이 당혹스러운 이유가 아니라 문제의 공식화가 무너질 수있는 예기치 않은 특별한 경우를 경고하는 귀중한 진단 도구임을 깨달았습니다.

다시 말해, 문제 공식화가 정확하지 않은 경우-모형이 잘못된 경우 베이지안 통계는 이것이 사실임을 확인하고 문제의 원인이되는 모델의 측면을 찾는 데 도움이 될 수 있습니다.

실제로, 어떤 지식이 관련이 있는지, 그리고 그것이 지식이 파생에 포함되어야하는지 여부는 명확하지 않을 수 있습니다. 그런 다음 다양한 모델 검사 기술 (Gelman et al., 2013의 CHAPTER 6 & 7, 개요를 제공함)을 사용하여 부정확 한 문제 공식을 찾고 식별합니다.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., & Rubin, DB (2013). 베이지안 데이터 분석, 제 3 판. 채프먼 & 홀 / CRC.

동부 표준시 제인 즈 (2003). 확률 이론 : 과학의 논리. 케임브리지 대학 출판부.


1
당신의 대답은 요점을 놓치고 더 간단한 상황을 고려하고 있습니다. 모델이 너무 잘못되어 데이터와 일치하지 않는 상황을 고려하지 않습니다. 나는 우리의 모델이 틀렸지 만 치명적인 상황이 아닌 상황을 봅니다. 예를 들어 의 평균을 유추하는 것을 고려하십시오 . 실제 모델이 Laplace 인 경우에도 추론에 의 가우스 모델을 사용할 수 있습니다 . 이 간단한 예에서는 모델이 잘못되었지만 설명한대로 "폭발"하지는 않습니다. XiXi
기 illa 데 하네

1
@GuillaumeDehaene 귀하의 질문은 모델이 잘못 지정되었을 때 베이 사용에 대한 몇 가지 인수가 있는지 여부입니다. 명백히, 비참하게 잘못 지정된 모델이 잘못 지정되었습니다. 또한 모델이 잘못 지정되었거나 잘못 지정되었는지 여부를 미리 알 수 없습니다. 실제로 베이는 당신에게 그것을 정확하게 말할 수 있습니다. 그것이 유용하게 만들고 내 대답은 그것을 지적했습니다.
matus

치명적으로 잘못되지 않은 경우 범위는 와 크게 다르지 않습니다 . Laplacian 데이터를 사용하여이 일반 모델의 시뮬레이션을 작성하여이를 확인할 수 있습니다. 개념적 이점은 항상 존재합니다. 생각해보십시오. 후방을 창 밖으로 던지기로 결정하면 MLE 만 계산하는 것이 아니라 신뢰 구간도 계산합니다. 그러나 우리는 하나의 특정 실험에 대해 계산 된 CI의 해석이 매우 어렵다는 것을 알고 있습니다. 휴식을 취하고 베이지안 맥주를 즐기십시오. 모델이 잘못 지정되었다는 것을 이해하면이 정보를 사용하여 더 나은 모델을 만드십시오. 1α
Zen

@GuillaumeDehaene 예, 제 대답은 완전하지 않습니다. 치명적이지 않은 경우를 명확하게 설명하기 위해 기꺼이 확장하지만 원하는 것을 지정해야합니다. 여기서 는 작은 숫자이므로 은 작습니까? 또는 당신이 존재 함을 말하고있다 등이 아직 또는 다른 것? 나는 경계선의 경우를 구성 할 수 있지만 일반적으로 후자는 덜 심각한 경우에는 크게 영향을받지 않을 것이라는 Zen에 동의합니다. p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
matus

5

MLE은 여전히 ​​지정하고 올바른 것으로 가정하는 모델의 매개 변수에 대한 추정기입니다. 잦은 OLS의 회귀 계수는 MLE을 사용하여 추정 할 수 있으며 여기에 첨부하려는 모든 특성 (편견없이 특정 점근 적 분산)이 여전히 매우 구체적인 선형 모형이 올바른 것으로 가정합니다.

이 단계를 한 단계 더 나아가서 추정기에 의미와 속성을 부여 할 때마다 모델을 가정해야한다고 말합니다. 간단한 표본 평균을 취하더라도 데이터가 교환 가능하고 종종 IID라고 가정합니다.

이제 베이지안 추정기는 MLE가 가질 수없는 많은 바람직한 특성을 가지고 있습니다. 예를 들어, 많은 상황에서 바람직하게 만드는 후부의 부분 풀링, 정규화 및 해석 가능성.


의미를주기 위해 IID를 가정 할 필요는 없습니다. 교환 가능성을 가정하는 것으로 충분합니다 (그러나, 여전히 가정입니다 ...)
kjetil b halvorsen

@kjetil b halvorsen 감사합니다. 명확성을 위해 편집했습니다.
TrynnaDoStat

4

Gelman & Shalizi의 철학과 Bayesian 통계 실습을 권장합니다 . 그들은이 질문들에 대해 일관되고 상세하며 실질적인 반응을 보입니다.

우리는이 베이지안 추론에 대한 이러한 견해 대부분이 잘못되었다고 생각합니다. 베이지안 방법은 다른 통계적 추론 모드보다 더 귀납적입니다. 베이지안 데이터 분석은 가상 귀납적 관점에서 훨씬 잘 이해됩니다 . 최상의 베이지안 관행에 내재 된 것은 후자의 빈번한 지향에도 불구하고 Mayo (1996)의 오류-통계적 접근과 많은 공통점이있는 입장이다. 실제로 모델 확인과 같은 베이지안 데이터 분석의 중요한 부분은 Mayo의 의미에서 '오류 프로브'로 이해 될 수 있습니다.

실증적 사회 과학 연구에서 베이지안 데이터 분석의 구체적인 사례와 베이지안 업데이트의 일관성 및 수렴에 대한 이론적 결과를 검토하여 진행합니다. 이 영역에서 사용중인 모든 모델이 잘못 될뿐 아니라 실제로 잘못된 것이라는 일반적인 합의가 있기 때문에 사회 과학적 데이터 분석은 우리의 목적에 특히 중요합니다. 충분한 양의 데이터를 보유하고 있으며 보통 정도의 양만 있으면 모든 분석가는 현재 사용중인 모든 모델을 원하는 수준의 신뢰도로 거부 할 수 있습니다 . 그럼에도 불구하고 모델 피팅은 중요한 활동이며 실제로 데이터 분석의 핵심입니다. 이것이 왜 그런지를 이해하려면 모델이 어떻게 만들어지고, 적합하고, 사용되고, 검사되는지, 모델에 대한 잘못된 설명의 영향을 조사해야합니다.

...

우리의 관점에서, [표준 베이지안 관점의] 마지막 단락의 설명은 결정적으로 잘못되었습니다. 데이터 분석 프로세스 (베이지안 또는 기타)는 모수 추정치 또는 사후 분포 계산으로 끝나지 않습니다. 차라리 적합 모형의 의미를 경험적 증거와 비교하여 모형을 확인할 수 있습니다.. 피팅 된 모델의 시뮬레이션이 원본 데이터와 유사한 지, 피팅 된 모델이 모델의 피팅에 사용되지 않은 다른 데이터와 일치하는지 여부 및 모델에서 말하는 변수가 노이즈 ( '오류 항')인지 여부와 같은 질문을합니다. 사실 쉽게 감지 할 수있는 패턴을 표시합니다. 모델과 데이터 사이의 불일치는 모델이 과학적 목적에 부적합한 방법에 대해 배우고 모델의 확장 및 변경을 유발하는 데 사용될 수 있습니다 (섹션 4).


2

모형 불확실성의 영향을 설명하고 있다고 생각합니다. 데이터 에 비추어 알 수없는 매개 변수 에 대한 추론 이 모델 , 및 데이터에 따라 달라진다고 걱정합니다 . 이 무시할 수없는 모델 이면 어떻게 되나요? 동일한 알 수없는 매개 변수 갖는 대체 모델이 존재하는 경우 베이지안 모델 평균, 하여 모델 불확실성을 할 수 있습니다. 고려 된 모델의 기능과 이전 기능.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

반면에 매개 변수 의 정의가 모델 본질적으로 연결되어 대안이없는 경우 에 대한 추론 이 에 대한 조건부 라는 것은 놀라운 일이 아닙니다 . xmxm


3
모델 평균화는 우리를 구할 수 없습니다. 실제 모델이 어떻게 든 우리의 더 큰 모델의 범위 안에 들어간 것으로 가정하는 것은 여전히 ​​어리석은 일입니다. 모델 비교를 통해 데이터를 가장 잘 설명하는 여러 모델을 결정할 수 있지만 다른 모델보다 덜 잘못된 잘못된 모델 만 반환합니다.
기 illa 데 하네

모델 불확실성을 일관되게 통합하는 미지의 수량에 대해 추론 / 추정하는 데 도움이됩니다. 하지만 새로운 가설을 만들 수는 없습니다. 데이터에 비추어 모델을 발명 한 통계적 기계가 있다면 과학이 훨씬 쉬울 것이다.
이니스프리

1

"mis-specified"모델이 무엇인지 어떻게 정의합니까? 이것이 모델을 의미합니까?

  • "나쁜"예측을합니까?
  • "참 모델"의 경우 형식이 아닙니까? pT(x)
  • 매개 변수가 누락 되었습니까?
  • "나쁜"결론에 이르게?

주어진 모델이 잘못 지정 될 수있는 방법을 생각하면 더 나은 모델을 만드는 방법에 대한 정보를 추출 할 수 있습니다. 모델에 추가 정보를 포함하십시오!

당신이 "모델"베이지안 프레임 워크 무엇인지에 대해 생각한다면, 당신은 할 수 항상 잘못 지정 될 수있는 모델을합니다. 이를 수행하는 한 가지 방법은 현재 모델에 더 많은 매개 변수를 추가하는 것입니다. 더 많은 매개 변수를 추가하면 모델을보다 유연하고 적합하게 만들 수 있습니다. 기계 학습 방법은이 아이디어를 최대한 활용합니다. 이것은 "숫자 네트워크"및 "회귀 트리"와 같은 것의 기초가됩니다. 하지만 ML에 대한 정규화와 유사한 선행 사항을 고려해야합니다.

예를 들어, 예를 들어 "선형 모델"을 지정 했으므로 여기서 입니다. 이제 각 관측치에 대해 새 매개 변수를 추가한다고 가정합니다 .... 여기서 은 이전과 같습니다. 이것이 어떻게 변화합니까? "모델 2가 참이면 모델 1이 잘못 지정되었습니다"라고 말할 수 있습니다. 그러나 모형 2에는 더 많은 매개 변수가 있으므로 추정하기가 더 어렵습니다. 또한, 에 관한 정보 가 우리가 관심을 갖는 것이라면, 모델 1이 "잘못"되어도 상관이 있습니까?
e iN ( 0 , 1 ) 모델 2 :  x i = θ + σ e i

model 1: xi=θ+σei
eiN(0,1) eiN(0,1)θ
model 2: xi=θ+σeiwi

eiN(0,1)θ

(예 : "모델 2a")을 가정하면 기본적으로 "정상 오류"대신 "코치 오류"가 있으며 모델은 데이터에서 특이 치를 예상합니다. 따라서 모델에 매개 변수를 추가하고 이전 모델을 선택하여 "보다 강력한 모델"을 만들었습니다. 그러나 모형은 여전히 ​​오류 항에서 대칭을 기대합니다. 다른 이전을 선택함으로써 이것도 설명 될 수 있습니다 ...wiN(0,1)


더 많은 매개 변수를 사용할수록 더 많은 데이터가 필요합니다. 에 대한 의 정보 가 부족한 경우 매개 변수를 추가해도 도움이되지 않습니다. 새로운 데이터를 사용하면 DGP가 훨씬 일정하지 않으므로 더 많은 매개 변수 등이 필요합니다. 모형이 더 일반적 일수록 (더 많은 매개 변수) 모형이 잘못 지정 될 가능성은 적지 만 더 많은 데이터를 추정해야합니다. 반대로, 모델에 대한 요구가 적을수록 필요한 데이터는 줄어 듭니다. 그러나 그것은 현실적으로, 전체 후부 대 조건부 모멘트가 어떻게 "올바른"모델일까요? F ( X )xf(x)
IMA
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.