Bayesian보다 잦은 접근 방식이 실질적으로 더 좋은 경우는 언제입니까?


72

배경 : 나는 베이지안 통계에 대한 공식적인 교육을받지 못했지만 (더 많은 것을 배우는 데 관심이 있지만) 많은 사람들이 왜 자주 통계보다 선호하는 것처럼 느끼는지에 대한 요지를 알 수 있습니다. 내가 가르치는 입문 통계 (사회 과학) 수업의 학부조차도 베이지안 접근 방식이 매력적이라는 것을 발견했다. "왜 우리는 널 (null)을 고려할 때 데이터의 확률을 계산하는 데 관심이 있는가? ? 귀무 가설 또는 대체 가설은 그리고 나는 또한 읽은 스레드 와 같은 이들 뿐만 아니라 베이지안 통계의 경험적인 혜택을 입증, 그러나 나는 Blasco는하여 견적을 통해 온 (2001; 강조 추가). :

동물 육종가 유도와 관련된 철학적 문제에 관심이 없지만 문제를 해결하는 도구에 관심이 있다면 베이지안과 빈번한 추론 학교가 잘 확립되어 있으며 왜 다른 학교가 선호되는지 정당화 할 필요가 없습니다. 어느 학교 나 다른 학교를 선택하는 것은 한 학교에 다른 학교가 제공하지 않는 솔루션 이 있는지, 문제가 얼마나 쉽게 해결 되는지에 관한 것이어야합니다. 특정 표현 방식으로 과학자가 얼마나 편안하게 느끼는지

질문 : Blasco 인용문은 빈번한 접근 방식이 실제로 베이지안 접근 방식보다 선호되는 경우가 있다고 제안하는 것 같습니다. 그래서 궁금합니다. 베이 즈 접근 방식보다 잦은 접근 방식이 언제 선호됩니까? 나는 개념적으로 (즉, 귀무 가설에 근거한 데이터의 확률이 특히 유용합니까?) 그리고 경험적으로 (즉, Frequentist 방법이 어떤 조건 하에서 Bayesian과 비교 되는가)?

답변이 가능한 한 쉽게 전달 될 수 있다면 좋을 것입니다. 학생들과 공유하기 위해 수업에 다시 응답하는 것이 좋습니다 (일부 기술 수준이 필요하다는 것을 이해하지만).

마지막으로, Frequentist 통계를 정기적으로 사용하고 있음에도 불구하고 실제로 Bayesian이 전반적으로 승리 할 가능성이 있습니다.


10
객관적인 확률, 즉 자연적으로 확률적인 프로세스를 다룰 때. 예를 들어, 방사성 붕괴는 당신의 주관적 신념이나 알 수없는 정보, 또는 그 밖의 다른 것과는 아무 관련이 없습니다. 그것은 그 자체의 속도로 진행되며 원자는 무작위로 무작위로 분해됩니다.
Aksakal

6
불행히도 결국 끝났다는이 최근 질문을 참조하십시오 (다시 열기로 투표했지만 결코 그렇지 않았습니다) : stats.stackexchange.com/questions/192572 . 거의 똑같은 것을 요구하고 있습니다. 답변을 확인하십시오.
amoeba

5
@ Aksakal : 나는이 토론을하고 싶지만 그것은 주제가 아니며 우리는 닥쳐서 (그리고 계산) 알려줍니다.
amoeba

12
"frequentists 사람없이 관심의 문제점을 해결하기위한 완벽한 논리를 사용하는 동안 베이 즈는 질문 모든 사람이 아무도 생각하지 가정을 사용하여 관심 해결"- 루이 리옹
루 제로 Turra

4
@jsakaluk, Bayesians의 거점이 데이터가 충분하지 않거나 프로세스가 불안정한 영역, 예를 들어 사회 과학, 의사 과학, 생명 과학 등의 영역에 주목하십시오. 양자 역학이나 대부분의 물리학에서 베이지안이 될 필요는 없습니다. 물론 당신도 베이 시안이 될 수 있습니다. 그것은 당신의 추론이 잦은
주의자들과 다르지 않다는 것입니다

답변:


54

잦은 방법이 선호되는 5 가지 이유는 다음과 같습니다.

  • 더 빠릅니다. Bayesian 통계가 종종 잦은 답변에 거의 동일한 답변을 제공한다는 점을 감안할 때 (그렇지 않은 경우 Bayesian이 항상 가는 길이 라는 것이 100 % 명확하지 않음 ), 잦은 통계가 종종 몇 배 더 빨리 얻어 질 수 있다는 사실은 다음과 같습니다. 강력한 논쟁. 마찬가지로, 잦은 방법은 결과를 저장하는 데 많은 메모리가 필요하지 않습니다. 이러한 데이터는 특히 작은 데이터 세트에서 다소 사소한 것처럼 보일 수 있지만, 베이지안 및 빈번 주의자가 일반적으로 결과에 동의한다는 사실 (특히 많은 정보가있는 데이터가있는 경우)은 관심이있는 경우 덜 중요하게 신경을 쓸 수 있음을 의미합니다. 소지품. 물론 빅 데이터 세계에 살면 전혀 사소한 것이 아닙니다.

  • 비모수 통계. 나는 베이지안 통계에는 비모수 통계가 있다는 것을 알고 있지만,이 분야의 빈번한 측면에는 경험적 분포 함수와 같은 부인할 수없는 실용적인 도구가 있다고 주장한다. EDF 나 Kaplan Meier 곡선 등을 세계 어느 방법으로도 대체 할 수는 없습니다 (물론 분석이 끝났다고 말할 수는 없습니다).

  • 덜 진단. 베이지안 모델을 피팅하는 가장 일반적인 방법 인 MCMC 방법은 일반적으로 빈번한 카운터 부품보다 사용자가 더 많은 작업을 요구합니다. 일반적으로 MLE 추정에 대한 진단은 너무 간단하여 모든 우수한 알고리즘 구현이 자동으로 수행합니다 (사용 가능한 모든 구현이 좋은 것은 아닙니다 ...). 따라서 빈번한 알고리즘 진단은 일반적으로 "모델을 피팅 할 때 빨간색 텍스트가 없는지 확인"입니다. 모든 통계는 대역폭을 제한 한 것으로,이 같은 질문을하는 데 더 많은 시간을 확보 감안할 때 "내 데이터는 정말 약 정상?" 또는 "이러한 위험이 실제로 비례합니까?"등

  • 모델 오 사양에서 유효한 추론. 우리는 모두 "모든 모델이 잘못되었지만 일부는 유용하다"는 말을 들었지만, 다른 연구 영역에서이 문제를 다소 심각하게 생각합니다. 빈번한 문헌은 모델이 잘못 지정되었을 때 추론을 고치기위한 방법들로 가득 차 있습니다 : 부트 스트랩 추정기, 교차 검증, 샌드위치 추정기 (링크는 모델 오 사양에서 일반 MLE 추론에 대해 설명합니다), 일반화 된 추정 방정식 (GEE), 준우 도법, 등 내가 아는 한, 모델의 잘못된 사양에 따른 추론에 대한 베이지안 문헌에는 거의 없다 (모델 점검, 즉 사후 예측 점검에 대한 논의는 많지만). 나는 이것을 우연히 생각하지는 않는다. 평가자가 반복 된 시도에 대해 어떻게 행동하는지 평가하는 것은 평가자가 "진정한"모델을 기반으로 할 필요는 없지만 Bayes 정리를 사용하는 것은 아니다!

  • 이전의 자유 (이것은 아마도 사람들이 베이지안 방법을 모든 것에 사용하지 않는 가장 일반적인 이유 일 것입니다). 베이지안 관점의 강점은 종종 이전의 사용으로 선전됩니다. 그러나 내가 일한 모든 응용 분야에서 분석 이전의 유익한 아이디어는 고려되지 않았습니다. 비 통계 전문가로부터 선행을 이끌어내는 방법에 대한 문헌을 읽으면 이에 대한 합리적인 추론이 이루어집니다. 나는 (나와 같은 잔인한 밀짚 꾼이 ​​내 자신을 역설하는 것과 같은) 논문을 읽었다. 통계를 이해하는 데 어려움을 겪기 때문에 당신을 고용 한 연구원에게 물어보십시오. 이 범위는 일반적으로 너무 좁을 수 있으므로 임의로 범위를 넓히도록 시도하십시오. 그들의 믿음이 감마 분포처럼 보이는지 물어보십시오. 아마도 감마 분포를 그려야하고 모양 매개 변수가 작은 경우 꼬리가 어떻게 무거울 수 있는지 보여야합니다. 여기에는 PDF가 무엇인지 설명하는 것도 포함됩니다. "(참고 : 통계 학자조차도 실제로 정확하게 말할 수 있다고 생각하지 않습니다.효과 크기가 범위 내에 있는지 여부가 90 %인지 95 %인지에 대한 선험적 이며,이 차이는 분석에 상당한 영향을 줄 수 있습니다!). 진실은, 나는 매우 불친절하고 사전을 도출하는 것이 조금 더 간단한 상황이있을 수 있습니다. 그러나 이것이 어떻게 웜 캔인지 알 수 있습니다. 정보가없는 사전으로 전환하더라도 여전히 문제가 될 수 있습니다. 매개 변수를 변환 할 때 정보가없는 사전에 쉽게 착각하는 것이 갑자기 매우 유익한 것으로 보일 수 있습니다! 이것의 또 다른 예는 내가 말하지 않은 몇몇 연구원들과 이야기를 나 that다는 것입니다다른 전문가의 데이터 해석이 경험적으로 다른 전문가가 지나치게 자신감을 갖고 있기 때문에 듣고 싶어합니다. 오히려 다른 전문가의 데이터에서 유추 할 수있는 내용을 알고 자신의 결론을 내릴 수 있습니다. 어디서 들었는지 기억 나지 않지만 어딘가에서 "만약 당신이 베이지안이라면 모든 사람이 빈번 주의자가되기를 원합니다"라는 문구를 읽었습니다. 이론적으로, 만약 당신이 베이지안이고 누군가 분석 결과를 묘사한다면, 당신은 먼저 그들의 이전의 영향을 제거하고 당신이 자신의 것을 사용했을 때 그 영향이 무엇인지 알아 내야한다는 것을 의미합니다. 그들이 당신에게 믿을만한 간격이 아닌 신뢰 구간을 주면이 작은 운동은 단순화 될 것입니다!

물론, 당신이 유익한 사전을 포기하더라도, 베이지안 분석에는 여전히 유용성이 있습니다. 개인적으로, 나는 이것이 가장 높은 유용성이 있다고 믿는 곳입니다. MLE 방법을 사용하면 어떤 대답도하기 어려운 문제가 있지만 MCMC로 쉽게 해결할 수 있습니다. 그러나 이것이 베이지안의 가장 큰 유용성에 대한 나의 견해는 나 자신의 강한 우선 순위 때문이므로 소금 한 덩어리로 가져 가십시오.


1
(+1) 좋은 대답이지만 결과를 저장하는 데 많은 메모리가 필요 하지 않다고 가정 하고 있습니까?
jsakaluk

1
이전의 자유와 관련하여 문제에 대해 생각하고 이해해야 할 필요성이 적을수록 좋다고 말하는가? 여러 소프트웨어 공급 업체가 귀하와 대화하고 싶어서 포인트 앤 클릭 또는 한 번의 클릭만으로 상상할 수있는 모든 문제에 대한 답변을 얻을 수 있습니다. 도저히, 당신은 문제가 필요하지 않습니다, 단지 그들의 웹 사이트에 데이터를 공급하고 그들은 가능한 모든 문제를 찾아서 해결할 것입니다. (죄송 합니다만, 잔인한 짚맨 같은 의견으로 대답하는 것을 거부 할 수 없었습니다.)
Wayne

1
@ 웨인 : 당신이 농담하는 것을 알고 있지만 100 % 정확합니다. 통계는 실제 문제에 답하기위한 도구입니다. 나는 그것이 최종 제품이 아니라 도구임을 강조하고 싶다. 전체적으로 해시 된 "Frequentist vs Bayesian"주장의 어느쪽에 관계없이 (나는 "내 질문에 대한 가장 좋은 답을 줄 수있는"쪽에 앉아있다. 모든 도구에 매우 유용한 유틸리티입니다.
Cliff AB

물론 도구가 끔찍한 제품을 자주 생산하는 경우 문제가됩니다. 그리고 만약 잦은 방법이이 일을하고 있다고 확신했지만 베이지안 방법이 아니라면, 나는 베이지안 방법을 빨리 승인 할 것입니다.
Cliff AB

1
@CliffAB : 사용 편의성이 중요합니다. 결과의 품질이 같은 경우 사용하기 어려운 이유는 무엇입니까? 동시에, 생각하고, 명시 적이며, 선행을 이해하는 것은 (베이지안이 아니라 말 그대로 모든 과학자, 모든 분야, 모든 연구가 가지고있는 선행)를 의미하는 것이 좋은 과학에 중요합니다. 베이지안 통계는 명시 적이며 이러한 문제 중 일부를 생각하고 이해하도록합니다. 이것은 단지 단순한 불편 함이 아니라면 틀림없이 좋으며 그 반대도 슬램 덩크가 좋지 않습니다.
Wayne

23

잦은 통계의 몇 가지 구체적인 장점 :

  • 빈번한 문제에 대한 폐쇄 형 솔루션이 종종 있지만 베이지안 아날로그에서 폐쇄 형 솔루션을 사용하려면 켤레가 필요합니다. 이것은 여러 가지 이유로 유용합니다. 그 중 하나는 계산 시간입니다.
  • 희망은 결국 사라질 이유 : 평신도들은 빈번한 통계를 배웁니다. 많은 사람들이 이해하기를 원한다면 자주 말하는 사람이 필요합니다.
  • NHST (Null Hypothesis Significance Testing) 접근 방식은 목표가 누군가를 잘못 증명하는 데 유용 할 때 유용합니다. 예, 베이지안에는 NHST 유사체가 있지만, 잦은 주의자 버전이 훨씬 더 간단하고 해석 가능하다는 것을 알았습니다.
  • 없다 같은 것은 A와 진정으로 어떤 사람들을 불편하게 가치가없는 이전은.

1
(+1) 감사합니다. 첫 번째 요점을 조금 명확히 해 주시겠습니까? Bayesian에 정통하지 않은 누군가로서, 당신은 "접합 사전"(?)의 필요성에 대해 당신이하고있는 요점은 저에게는 조금 소실됩니다.
jsakaluk

5
나는 당신이 빈번한 가정 테스트를 올바르게 해석하고 있다고 생각하지 않습니다. 방금 주었지만 p- 값은 실제로 입니다. p- 값의 올바른 해석 : null이 주어지면 관측 된 것보다 극도 또는 극도의 결과를 얻을 수 있는 % 확률 만 있습니다. 이 잘못된 해석은 베이지안 접근 방식을 주장 할 때 자주 제기됩니다. 그 외에는 나는 당신의 대답을 좋아합니다. P ( D a t aP(H0|Data)αP(Data|H0)α
Zachary Blumenfeld

@ZacharyBlumenfeld 그것을 지적 해 주셔서 감사합니다. 나는 Bayesian을 생각했습니다. 지금 고치겠습니다.
TrynnaDoStat

1
@jsakaluk 후방과 이전의 분포가 동일한 분포 인 경우, 선행은 켤레라고하며 폐쇄 된 형태의 후방을 보장합니다. 예를 들어, 데이터가 Bernoulli이고 이전에 Beta ( , )를 선택한 경우 그 후자는 Beta ( , 시뮬레이션, 샘플링 또는 강력한 계산을 수행하지 않고도 ) β α + n i = 1 x i β + n n i = 1 x iαβα+i=1nxiβ+ni=1nxi
TrynnaDoStat

16

놀랍게도 아직 언급되지 않은 Frequentist 접근법을 사용하는 가장 중요한 이유는 오류 제어입니다. 종종 연구는 이분법적인 해석으로 이어집니다 (이에 대해 연구를해야합니까, 그렇지 않습니까? 개입을 구현해야합니까? 상용 접근 방식을 사용하면 유형 1 오류율을 엄격하게 제어 할 수 있습니다. 베이지안 접근법은 그렇지 않습니다 (일부는 가능성 접근법에서 보편적 인 경계를 물려 받지만 그럼에도 불구하고 작은 표본에서는 상대적으로 낮은 임계 값으로 오차율이 상당히 높을 수 있습니다 (예 : BF> 3). 베이 즈 요인 (예 : http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513) 그러나 그것은 여전히 ​​빈번한 접근 방식입니다. 나는 종종 연구자들이 증거 자체를 정량화하는 것 (일부 특정 가설과 관련하여)보다 오류 제어에 더 관심을 가지고 있으며, 적어도 모든 사람들이 오류 제어에 어느 정도 관심을두기 때문에 두 가지 접근법을 사용해야한다고 생각합니다. 보완 적으로.


좋은 지적. 나는 또한 그룹 순차 방법과 다른 형태의 다중 테스트를 생각하고 있는데, (내 좁은 관점에서 볼 때 문헌의 상당 부분을 간과했을 수도 있음) 베이 시안 측면에 대한 관심이 부족한 것으로 보입니다. 멀리) 일종의 오류 제어 측면에서. 물론 많은 상황에서 베이지안 방법, 특히 다소 회의적인 사전 또는 계층 적 모델을 통한 어떤 종류의 축소로 인해 다소 양도 할 수없는 정도로 제어 오류가 발생하지만 빈번한 측면에서 더 많은 생각이 이루어졌습니다.
Björn

3
(+1) 저는이 점이 정말 마음에 듭니다 ... 철학적으로 빈번한 이유이기 때문에 추론에 도움이되는 통계를 할 때 추론이 더 정확 해지기를 원합니다 (오류가 줄어 듭니다). 맹검 추측보다. 실제로 추론이 실제로 참인지 거짓인지에 대해 관심이 있다면 (사후 연구에서 검증한다는 의미에서) 오류율이 매우 중요합니다. 난 단지 베이지안 확률에 익숙 하지 않습니다 (단, 방법 자체는 샘플 크기가 작을 때 수량에 대한 합리적인 "정규화 된 추정기"로서 매우 유용합니다 ... Agresit-Coull을 생각하십시오)

이것은 베이 / 자주 의사 비교보다 의사 결정 이론과 비슷합니다. 또한 베이지안 접근 방식을 사용하면 규칙 중지에 대해 걱정할 필요가 없습니다. 또한 베이가 유형 1과 유형 2 오류율 사이의 "균형"이 향상 될 수 있음을 이해합니다.
확률

8

통계 학자로서 가장 큰 질문 중 하나는 가능성 원칙을 믿거 나 고수할지 여부를 스스로에게 물어봐야한다고 생각합니다. 만약 당신이 우도 원리를 믿지 않는다면 통계에 대한 빈번한 패러다임은 매우 강력 할 수 있다고 생각합니다. 그러나 우도 원리를 믿으면 베이지안 패러다임을 위반하지 않습니다.


익숙하지 않은 경우 가능성 원칙에 따라 다음과 같이 알려줍니다.

θx

(θ;x)=p(x|θ)
x

xy(θ;x)(θ;y)C(x,y)

(θ;x)=C(x,y)(θ;y)for all θ,

xy

C(x,y)(x,y)C(x,y)θ

C(x,y)=1θθ


이제 베이지안 통계의 장점 중 하나는 적절한 사전에 베이지안 패러다임이 우도 원칙을 위반하지 않는다는 것입니다. 그러나 빈번주의 패러다임이 가능성 원칙을 위반하는 매우 간단한 시나리오가 있습니다.

다음은 가설 검정에 기반한 매우 간단한 예입니다. 다음을 고려하세요:

12 개의 베르누이 (Beroulli) 시험이 실시되었고 3 회의 성공이 관찰 된 실험을 고려하십시오. 중지 규칙에 따라 데이터를 다음과 같이 특성화 할 수 있습니다.

  • X|θBin(n=12,θ)x=3
  • Y|θNegBin(k=3,θ)y=12

따라서 다음과 같은 우도 함수를 얻을 수 있습니다. 이는 , 따라서 우도 원리에 의해, 우리는 우도에서 동일한 에 대한 추론을 얻어야합니다 .

1(θ;x=3)=(123)θ3(1θ)92(θ;y=12)=(112)θ3(1θ)9
1(θ;x)=C(x,y)2(θ,y)
θ

이제 빈번주의 패러다임

Ho:θ12versusHa:θ<12

이항 모델의 경우 다음이 있습니다.

p-value=P(X3|θ=12)=(120)(12)12+(121)(12)12+(122)(12)12+(123)(12)12=0.0723

알 그러나 다른 조건 할 가능성 원칙을 만족시키지 않습니다.(123)(12)12=1(12;x=3)

음 이항 모델의 경우 다음과 같습니다.

p-value=P(Y12|θ12)=(112)(12)12+(122)(12)12+(132)(12)12+...=0.0375

위의 p- 값 계산에서 이항 모형에서는 를 기각 못하지만 음수 이항 모형을 사용하면 기각 . 따라서 p- 값과 이러한 p- 값에 따른 결정이 와 일치하더라도 일치하지 않습니다. 이 p- 값 인수는 베이지 안에서 Frequentist p- 값 사용에 대해 자주 사용하는 것입니다.HoHo1(θ;x)2(θ;y)

이제 다음 가설을 다시 테스트하는 것이 그러나 베이지안 패러다임

Ho:θ12versusHa:θ<12

이항 모델의 경우 다음이 있습니다.

P(θ12|x)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

마찬가지로, 이항 이항 모형의 경우 다음이 있습니다.

P(θ12|y)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

이제 베이지안 결정 규칙을 사용하여 (또는 다른 임계 값) 인 경우 선택 하고 대해 유사하게 반복하십시오 .HoP(θ12|x)>12y

그러나 그래서 우리는 동일한 결론과 따라서이 접근법은 가능성 원칙을 만족시킨다.P(θ12|x)=P(θ12|y)


그리고 결론을 내릴 수 있도록, 만약 당신이 가능성 원칙에 관심이 없다면, 자주주의하는 것이 좋습니다! (당신이 말할 수 없다면, 나는 베이지안입니다 :))


1
나는 분명히 사려 깊고 시간이 많이 걸리는 응답에 감사하지만이 답변은 "답변 ... 가능한 한 최대한 접근 가능하게 전달됩니다 ..."명령에서 벗어난 것처럼 느낍니다.
jsakaluk

1
@jsakaluk 나는 내가 목표로 삼았고 논쟁을 뒷받침하고 싶었을 것입니다. 많은 응용 통계학자가 항상 당연한 것으로 간주하는 특정 일, 즉 가능성 원칙을 간과하고 싶다면 잦은 패러다임은 베이지안 패러다임에 대한 훨씬 간단한 대안이 될 수 있습니다. 그러나 그렇게 할 수 없다면 대안을 찾아야 할 것입니다.
RustyStatistician

4
@RustyStatistician 우도 원칙은 우도 주의자들에게 중심적인 신조이다. Likelihoodists은 베이지안하지 않습니다 전혀 . 내 답변에 링크를 게시했습니다. "우연성 원칙을 믿는다면 베이지안 패러다임을 가장 잘 믿어야한다"고 주장하는 것은 잘못된 것입니다.
stan

@Stan 나는 네 가능성 론자들이 가능성 원칙을 확신한다는 것에 동의합니다. 그러나 만약 당신이 베이지안에게 물어 보지 않을 것이라는 가능성 원칙을 고수한다고 믿는다면 (그렇지 않으면 내 의견 일 필요는 없다) 믿기가 매우 어렵다.
RustyStatistician

2
추론에서 우도 원칙 (LP), 조건 성 원칙 (CP) 및 충분 성 원칙 (SP)의 역할은 간단하지 않습니다. 이러한 원칙은 증거 와 관련이 있기 때문이며 (데이터에서 제시 한 바와 같이) 추론은 증거를 넘어서야 합니다. . 이것은 항상 위험하지만 진전을 위해 필요합니다. Birnbaums 정리를 참조하십시오 (여기서 논의됩니다 ... 필요한 논문의 나머지 부분에 동의하지는 않습니다) : arxiv.org/abs/1302.5468

6

당신과 나는 과학자이며 과학자로서 주로 증거 문제에 관심이 있습니다. 따라서 가능한 경우 베이지안 접근 방식이 바람직하다고 생각합니다.

베이지안 접근법은 우리의 질문에 대답합니다 : 한 가설에 대한 증거의 강도는 무엇입니까? 반면에 빈번한 접근 방식은 그렇지 않습니다. 하나의 가설이 주어지면 데이터가 이상한지 여부 만보고합니다.

즉, 베이지안의 주목할만한 Andrew Gelman은 p- 값 (또는 p- 값과 같은 그래픽 검사)을 모델 사양의 오류 검사로 사용하지 않는 것으로 보입니다. 이 블로그 게시물 에서이 접근 방식에 대한 암시를 볼 수 있습니다 .

내가 이해 한 그의 접근 방식은 2 단계 프로세스와 비슷하다. 첫째, 그는 베이지안에게 한 모델의 다른 모델에 대한 증거가 무엇인지 질문한다. 두 번째로, 그는 선호 모델이 실제로 데이터가 주어진 모든 그럴듯하게 보이는지에 대해 Frequentist 질문을합니다. 그것은 나에게 합리적인 하이브리드 접근법처럼 보입니다.


1
Gelman 블로그에 대한 링크는 계속 유효하지만 자정 이후에는 "오늘"은 아닙니다. 이에 따라 편집되었습니다.
Nick Cox

8
나는 빈번한 접근이 증거를 측정하지 않으며 이것이 오직 베이지안 세계에 있다는 것의 표현에 강력하게 동의하지 않는다. LR 검정과 같은 가설 검정의 원점을 제외하고 한 가설의 증거를 다른 가설의 증거와 비교하여 측정합니다.
Cliff AB

1
(+1)에서 @CliffAB로- "자주주의"통계에 대해 생각하는 모든 사람들은 "가능성 비율", "Birnbaum 's Theorem"을 찾아서 Royall을 읽어보십시오. NHST에 관한 인간의 주장은, 아마도, 치명적인 결함에도 불구하고 과학적 진보를 약화시키지 않은 것 같습니다 ... 통계 학자들이 탄소 기반의 MINITAB 프로그램이 아니기 때문입니다 ... 그들은 생각합니다. 실제로 의학, 경제학 또는 자동차 역학과 같은 직업은 ... 책을 읽고 공식을 시도하고 진실이 무릎에 닿을 것으로 기대할 수는 없습니다.

2
@Bey : 개인적으로, 나는 (생물 학자는 파트 타임 통계들이 생물 학자로 얻는 시간을 단축, 논문을 게시되기 위해 강제한다는 점에서) P-값은 과학적인 과정에 약간의 완충 일을했다고 생각하지, 하지만 난 몰라 p- 값에 대한 대안이 어떤 식 으로든이 문제를 줄인다고 생각하지 마십시오! p- 값의 문제는 이론적 배경이 아니라 비 통계학 자의 사용 편의성이라고 생각합니다. 사후 확률 (예를 들어) 나는 그 특정 문제를 더 좋게하기보다는 오히려 악화 시킨다고 생각합니다.
Cliff AB

2
@CliffAB는 더 이상 동의 할 수 없었습니다. 그쪽에서 그것을 생각하지 못했습니다 .. 그러나 그것은 연구 부서가 통계학자를 가질 여유가 없다면 출판의 본질입니다. 모든 통계 도구는 그 사용법을 잘 모르는 사람에 의해 오용 될 수 있습니다 ... 동정 통계 도구 너무 사용하기 쉬운 것 같습니다 ...

6

개인적으로 베이직 응답보다 잦은 응답이 선호되는 상황을 생각하기가 어렵습니다. 내 생각은 여기 와 pharrell.com의 다른 블로그 기사에서 p- 값 및 귀무 가설 테스트 문제에 대해 자세히 설명 합니다 . 빈번한 사람들은 몇 가지 근본적인 문제를 무시하는 경향이 있습니다. 다음은 샘플입니다.

  • 분산 이 일정 하고 다른 몇 가지 경우 가있는 가우시안 선형 모형 외부에서 계산 된 p- 값은 데이터 세트 및 모형에 대해 알려지지 않은 정확도입니다.
  • 실험이 순차적이거나 적응적일 때, 종종 p- 값을 계산할 수없고 달성하기 위해 전체 수준 만 설정할 수있는 경우가 종종 있습니다α
  • 빈번한 전문가들은 제 1 종 오류가 아래로 떨어지지 않도록 기뻐합니다.
  • 다중성 보정이 어떻게 형성되는지에 대한 빈번한 처방은 없으며, 방법의 임시 피지가 발생합니다.

첫 번째 요점과 관련하여 일반적으로 사용되는 모델은 이진 로지스틱 모델입니다. 로그 가능성은 매우 이차적이지 않으며, 이러한 모델에 대해 계산 된 대부분의 신뢰 한계 및 p- 값은 매우 정확하지 않습니다. 정확한 추론을 제공하는 베이지안 로지스틱 모델과는 대조적입니다.

다른 사람들은 빈번한 추론을 사용하는 이유로 오류 제어 를 언급했습니다 . 나는 이것이 참조 하는 오류 가 장기 오류 이기 때문에 수천 개의 통계 테스트가 실행되는 프로세스를 계획 하기 때문에 이것이 논리적이라고 생각하지 않습니다 . "법정에서 장기적인 거짓 유죄 판결 확률은 0.03에 불과하다"고 판사는 금지되어야합니다. 그녀는 현재 피고인을 위해 올바른 결정을 내릴 가능성이 가장 높다고 주장한다 . 반면에 효과에서 사후 확률을 뺀 값은 영 또는 후진 효과의 영아이며 실제로 필요한 오차 확률입니다.


2
"다중성 교정이 어떻게 형성되는지에 대한 빈번한 처방은 없으며, 이로 인해 여러 가지 방법이 필요합니다." 반면에, 베이지안이 다중성 수정을 전혀하지 않는 것을 본 적이 없습니다. Andrew Gelman은 자신이 절대 사용하지 않는다고 자랑스럽게 선언합니다. 예를 들어, 사람들이 대해 95 %의 신뢰할 수있는 간격을보고하는 것을 보았지만 간격 의 합동 신뢰성은 95 %가 아닙니다. 이 문제를 해결하는 최선의 방법도 분명하지 않습니다. 조언이나 예가 있습니까? kθ1,,θkk
Civilstat

5

많은 사람들은 제 3의 철학적 학교 인 가능성주의를 인식하지 못하는 것 같습니다. AWF Edwards의 저서 인 Likelihood는 아마도이 책을 읽을 수있는 가장 좋은 곳일 것입니다. 여기 그가 쓴 짧은 기사가 있습니다.
우도 론은 베이지안과 같은 p- 값을 피할뿐 아니라 베이지안의 종종 모호한 사전을 피합니다. 여기에도 소개 치료 가 있습니다.


5
Kovkogorov의 아이디어에서 개발 한 Vovk의 알고리즘 확률 접근 방식이 있습니다.
Aksakal

2
"많은 사람들은 제 3의 철학적 학교를 알지 못하는 것 같습니다 : 가능성 론"나는이 문장이 2016 년에 진실이라고 생각하지 않습니다 ...
Tim

4
@Tim, 내가 아는 모든 사람들이 자주주의와 베이지안주의에 익숙하지만, 우연성에 대해 들어 본 적이 있는 사람은 본 적이 없습니다 . 원래의 질문자는 빈번한 훈련을 받았으며 베이지안에 점점 더 관심을 가지는 동료들처럼 보입니다. 아마도 위의 답변을 읽는 대부분의 사람들은 내가 가능성 비율을 사용하여 최대 가능성 추정 또는 검정 가설을 언급한다고 생각합니다. 아니! 내가 제안 Yudi Pawitan강의
스탠

7
그러한 접근 방식 중 어느 것도 종교가 아니므로 믿어야 할 것이 많지 않으며, 특정 종류의 문제에만 도움이되고, 일부 접근법은 일부 문제에 적합하고 다른 문제에는 다른 방식에 더 적합합니다. :
Tim

1
(+1) 가능성 학교 언급 및 Pawitan 관련 의견. Pawitan의 저서 "In All Likelihood"는 통계적 실습으로 극적으로 넓어지고 향상되었습니다 ... 저는 Bayes vs Frequentism에 대해서만 알고있었습니다. 그는 베이 즈의 많은 철학적, 방법 론적 측면, "고전적인"빈번주의를 다루며 물론 순수 가능성 학교를 다룬다. 철학적 성향에 관계없이 통계를 더 정교하게 사용하기위한 훌륭한 책입니다.

4

TrynnaDoStats가 첫 번째 요점에서 언급 한 것처럼 모델 구축에 대한 잦은 접근 방식 의 가장 큰 단점 중 하나는 큰 폐쇄 형 솔루션을 뒤집는 것과 관련된 문제였습니다. 닫힌 형태의 행렬 반전을 위해서는 전체 행렬이 RAM에 상주해야합니다. 이는 대량의 데이터 또는 대규모 범주 기능이있는 단일 CPU 플랫폼의 중요한 제한입니다. 베이지안 방법은 지정된 이전의 무작위 추첨을 시뮬레이션하여이 문제를 해결할 수있었습니다. CPU에서 상당한 비용으로 답변을 얻을 수 있지만 이것은 항상 베이지안 솔루션의 가장 큰 판매 포인트 중 하나였습니다.

Andrew Ainslie와 Ken Train은 약 10 년 전에 논문 작성에서 모델 구성에 대한 베이지안 접근 방식과 유한 혼합물 (빈번하거나 폐쇄 된 형태)을 비교 한 결과, 광범위한 기능적 형태에서 성능 측정 항목과 두 방법 모두 본질적으로 동등한 결과를 제공했습니다. 베이지안 솔루션이 우위를 가지거나 더 큰 유연성을 가진 곳에서는 정보가 희박하고 매우 차원이 높은 경우가있었습니다.

그러나이 논문은 대규모 병렬 플랫폼을 활용하는 "분할 및 정복"알고리즘이 개발되기 전에 작성되었습니다. 예를 들어이 정보에 대한 자세한 내용은 Chen and Minge의 논문을 참조 하십시오 01.pdf

D & C 접근법의 출현으로, 가장 작고, 가장 희소하고, 높은 차원의 문제에 대해서도 베이 시안 접근법은 더 이상 잦은 방법에 비해 유리하지 않습니다. 두 가지 방법이 동일합니다.

이 비교적 최근의 개발은 두 가지 방법의 실질적인 장점이나 한계에 대한 토론에서 주목할 가치가 있습니다.


나는 이것이 토론에 좋은 추가 요소라고 생각하지만 (+1) 따르기가 어렵다는 것을 알았습니다. 정말, 정말, 그것의 펀치 라인을 연기 ... 아마 당신은 조금 재구성 할 수 있습니까? :)
usεr11852

@ user11852 게시물이 유용한 정보를 전달하지 못하는 반면 저널리즘 표준이 아닌 논리의 개발을 찾을 수는 없습니다. 이 글은 "커뮤니티"가 되었기 때문에, 나는 당신의 제안을 중심으로 그것을 재구성하는 일에 너무 신경을 쓰지 않았습니다. 그대로 서있을 수 있습니다. 어쨌든 의견을 보내 주셔서 감사합니다.
Mike Hunter

1.) 행렬 반전은 종종 MLE 추정 (많은 빈번한 방법 중 하나 일뿐)에 사용되지만 항상 그런 것은 아닙니다. MLE 추정 나의 작업까지 종종 이상의 최적화를 포함 매개 변수와 매트릭스 반전 (샘플 크기에 따라 선형 적으로 증가 할 수 즉, 매개 변수 공간)이 절대적으로 하지 옵션 ...하지만 난 여전히 가능성을 최적화! 2.) 매트릭스 업데이터는 블록 업데이터 샘플러와 같은 베이지안 통계에서 항상 발생합니다. n
Cliff AB

@CliffAB I은 교차 산물 매트릭스의 분산 형 역전을 생각하고있었습니다.
Mike Hunter

@DJohnson : 알겠습니다. 그러나 필자의 요점은 행렬 반전이 잦은 방법 대 베이지안 방법과 직교한다는 것이다. 두 캠프는 많은 방법에서 (적어도 계산 비용 측면에서) 매우 유사한 것을 수행하는 도구를 사용합니다.
Cliff AB

3

빈번한 테스트는 귀무 가설을 위조하는 데 중점을 둡니다. 그러나 NHST (Null Hypothesis Significance Test)는 베이지안 관점에서 수행 할 수도 있습니다. 모든 경우에 NHST는 단순히 P (Observed Effect | Effect = 0)의 계산이기 때문입니다. 따라서 빈번한 관점에서 NHST를 수행해야 할 시점을 파악하기가 어렵습니다.

그러나 빈번한 접근 방식을 사용하여 NHST를 수행하는 가장 좋은 주장은 용이성과 접근성입니다. 사람들은 자주 통계를 배웁니다. 따라서이를 쉽게 수행 할 수있는 통계 패키지가 더 많기 때문에 잦은 NHST를 실행하는 것이 더 쉽습니다. 이와 유사하게, 사람들은 이러한 형태의 NHST에 익숙하기 때문에 잦은 NHST의 결과를 전달하는 것이 더 쉽습니다. 그래서 나는 빈번한 접근 방식에 대한 가장 좋은 논거라고 생각합니다. 그러나 이것은 문화적 일 뿐이므로, 빈번한 접근 방식이 패권을 잃으면이 논쟁은 바뀔 수 있습니다.


5
정확한 인용을 제공 할 수 없다면 Fisher의 생각에 대한 의견이 여기서 과장된 것 같습니다. 귀무 가설은 과학자들이 소량 표본의 결과를 과도하게 해석하지 못하도록하기 위해 유의성 검정의 일부인 장치입니다. 피셔는 다른 과학자들과 마찬가지로 과학자들이 좋은 과학을 수행하기 위해 통계를 사용해야한다는 것에 열중했습니다. 그는 자신이 유전학에 크게 기여했습니다.
Nick Cox

4
나는 완전히 동의하므로 Fisher의 정신 상태에 대한 추측을 제거하기 위해 답변을 편집했습니다.
Liz Page-Gould

3

여러 의견 :

  • 베이지안과 잦은 통계학 자의 근본적인 차이는 베이지안이 잦은 사람이 그렇지 않은 상황으로 확률의 도구를 기꺼이 확장 할 수 있다는 것입니다.

    • 더 구체적으로, 베이지안은 확률을 사용 하여 다양한 매개 변수 에 대한 자신의 마음에 불확실성모델링합니다 . 잦은 주의자에게 이러한 매개 변수는 스칼라입니다 (통계학자가 실제 값을 모르는 스칼라 임). 베이지안에서는 다양한 파라미터가 랜덤 변수로 표시됩니다! 이것은 매우 다릅니다. 매개 변수 valeus에 대한 베이지안의 불확실성은 이전 로 표현됩니다 .
  • 베이지안 통계에서, 희망은 데이터를 관찰 한 후 후부가 이전을 압도하고 이전은 중요하지 않기를 희망합니다. 그러나 이것은 사실이 아닙니다. 결과는 이전의 선택에 민감 할 수 있습니다! 이전의 다른 베이지안들은 후부에 동의 할 필요가 없습니다.

명심해야 할 핵심은 잦은 통계학 자의 진술은 이전의 신념에 관계없이 두 베이지안이 동의 할 수있는 진술이라는 것이다!

잦은 주의자는 앞뒤에 대해 언급하지 않고 단지 가능성에 대해 언급합니다.

어떤 의미에서 잦은 통계학 자의 진술은 덜 야심적이지만, 베이지안의 대담한 진술은 이전의 할당에 크게 의존 할 수있다. 사전이 중요하고 사전에 의견이 일치하지 않는 경우, 빈번한 통계에 대한보다 제한적인 조건문은 더 확고한 근거에있을 수 있습니다.


2

많은 연구의 목표는 최종 결론에 도달하는 것이 아니라 커뮤니티의 질문에 대한 감각을 한 방향으로 점진적으로 추진할 수있는 약간의 증거를 얻는 것 입니다.

사용 가능한 증거에 비추어 결정 또는 결론을 평가하는 것이 필요한 경우 베이지안 통계는 필수 불가결합니다. 베이지안 통계가 없으면 품질 관리가 불가능합니다. 데이터를 가져 와서 처리해야하는 절차 (로봇, 기계 학습, 비즈니스 의사 결정)는 베이지안 통계의 이점을 얻습니다.

그러나 많은 연구원들이 그렇게하지 않습니다. 그들은 지금까지 다른 사람들이 수집 한 모든 증거 가 최선의 결론 인지에 대해 너무 걱정하지 않고 몇 가지 실험을 수행하고 일부 데이터를 수집 한 다음 "데이터가 이런 식으로 포인트"라고 말합니다 . 과학은 느리게 진행될 수 있으며 "이 모델이 정확할 확률은 72 %입니다!" 종종 미숙하거나 불필요합니다.

잦은 통계는 종종 베이지안 통계의 업데이트 단계와 수학적으로 동일하기 때문에 간단한 수학적 방법으로도 적합합니다. 즉, 베이지안 통계는 (Prior Model, Evidence) → New Model이지만, 잦은 통계는 증거 일 뿐이며 다른 두 부분을 채우기 위해 다른 사람들에게 남겨 둡니다.


이 게시물의 대부분은 흥미롭지 만 많은 지원되지 않는 의견으로 구성됩니다. 이 사이트에 어떤 종류의 답변이 필요한지에 대해서는 도움말 센터를 참조하십시오 .
whuber

@ whuber 알겠습니다. 머리 꼭대기에서 기억할 수있는 인용을 하나 추가했지만 인용을하지 않은 나머지는 인용하지 않았으므로 너무지지되지 않는 경우 삭제할 수 있습니다.
Owen

5
품질 관리에 대해 언급 한 것에 놀랐습니다. 확률에 대한 잦은 해석 (많은 시도에 대한 상대 빈도)이 매우 자연스러워 보일 수 있습니다. (또는 그 이상) 깨진 위젯? 베이지안 통계가 QC에 특히 유용한 이유를 자세히 설명해 주시겠습니까?
매트 크라우스

@MattKrause 결함이있는 위젯을 <1 %의 비율로 배송하는 것이 목표라고 가정합니다. 우리는 공장에서 10 %의 속도로 결함이있는 위젯을 생성한다는 것을 알고 있으며, Type-I 및 Type-II 오류율이 s 및 1 / (sqrt (4-1 / s ^ 2)) 인 테스트를 받았으며 여기서 s는 a 엄격 성 매개 변수. 엄격 성을 위해 무엇을 사용해야합니까?
Owen

2
잦은 통계가 후속 연구의 정보를 결합 할 수 없다는 생각은 메타 분석 분야를 무시하는 것으로 보인다.
Cliff AB

2

베이지안 방법의 실제 실행은 빈번한 방법보다 더 기술적 인 방법입니다. "보다 기술적 인"이란 1) 사전 선택, 2) BUGS / JAGS / STAN에서 모델 프로그래밍, 3) 샘플링 및 컨버전스에 대한 생각과 같은 것을 의미합니다.

분명히 # 1은 베이지안의 정의에 따르면 거의 선택적이지 않습니다. 일부 문제와 절차가 있지만 합리적인 기본값이있을 수 있으며 사용자에게 문제를 다소 숨길 수 있습니다. (이것도 문제를 일으킬 수 있습니다!)

# 2가 문제인지 여부는 사용하는 소프트웨어에 따라 다릅니다. 베이지안 통계는 빈번한 통계 방법보다 더 일반적인 솔루션으로 구부러져 있으며 BUGS, JAGS 및 STAN과 같은 도구는 자연스러운 표현입니다. 그러나 다양한 소프트웨어 패키지에는 일반적인 잦은 절차처럼 작동하는 베이지안 함수가 있으므로 이것이 항상 문제가되는 것은 아닙니다. (그리고 R 패키지 rstanarm와 같은 최신 솔루션 brms이 이러한 격차를 해소하고 있습니다.) 여전히 이러한 도구를 사용하는 것은 새로운 언어로 프로그래밍하는 것과 매우 유사합니다.

대부분의 실제 베이지안 응용 프로그램에서 MCMC 샘플링을 사용하므로 항목 # 3이 일반적으로 적용됩니다. 반면에 잦은 MLE 기반 절차는 최적화를 사용하여 로컬 최소값으로 수렴되거나 전혀 수렴되지 않을 수 있습니다.

의견에서 말했듯이, 이전의 자유가 실제로 과학적 이익인지 확신 할 수 없습니다. 출판 과정에서 여러 가지 방법과 여러 가지 점에서 확실히 편리하지만 실제로 더 나은 과학을 만드는지는 확실하지 않습니다. (그리고 큰 그림에서, 우리는 모두 과학자로서의 우리의 선행 사항을 알고 있어야합니다.


(3)과 관련하여 많은 클래식 통계 모델 (예 : glm)은 로그 가능성이 오목하므로 극단적 인 경우를 제외하고 표준 알고리즘이 실패하는 경우는 거의 없습니다. 오목하지 않은 문제 (즉, NN)와 관련하여, 이들은 부적절한 수렴 (일반적으로 사용자가 이해)에 대해 큰 우려를 요구하지만, 이러한 문제는 고전 MCMC 알고리즘이 다음과 같이 실행되는 경우에만 심각하게 실패하는 문제이기도합니다. 예를 들어 한 인간의 생애입니다. 그러나 일반적으로 최적화 알고리즘보다 MCMC를 수정하는 것이 쉽지 않습니다!
Cliff AB

2

개념적으로 : 모르겠다. 저는 베이지안 통계가 가장 논리적으로 생각하는 방법이라고 생각하지만 그 이유를 정당화 할 수는 없습니다.

빈번주의의 장점은 초급 수준의 사람들이 대부분 더 쉽다는 것입니다. 그러나 나에게는 이상했다. 신뢰 구간이 무엇인지 지적하게 분명하게 밝힐 때까지 몇 년이 걸렸습니다. 그러나 실제 상황에 직면하기 시작하면서 빈번한 아이디어는 단순하고 관련성이 높은 것으로 나타났습니다.

경험적으로

요즘 내가 집중하려고하는 가장 중요한 질문은 실제 업무 효율성, 즉 개인 작업 시간, 정밀도 및 계산 속도에 관한 것입니다.

개인 작업 시간 : 기본적인 질문의 경우 실제로 베이지안 방법을 거의 사용하지 않습니다. 기본 잦은 도구를 사용하며 항상 두통을 유발하는 베이지안에 비해 t- 검정을 선호합니다. 내가 여자 친구보다 틱택 토가 훨씬 더 나은지 알고 싶을 때, 나는 제곱 :-)을합니다. 실제로 컴퓨터 과학자로서 진지한 작업을하더라도 빈번한 기본 도구는 문제를 조사하고 무작위로 인한 잘못된 결론을 피하는 데 매우 중요합니다.

정확성 : 예측이 분석보다 중요한 기계 학습에서는 베이지안과 빈번한 사람 사이에 절대 경계가 없습니다. MLE는 흔히 평가자입니다. 그러나 정규화 된 MLE (MAP)은 부분적으로 베이지안 방식 입니다. 후부 모드를 찾고 나머지 후부에는 신경 쓰지 않습니다. 왜 정규화를 사용하는지에 대한 잦은 정당성에 대해 모르겠습니다. 실제 MLE 추정치가 너무 적합하여 0이 더 나은 예측 변수이기 때문에 정규화는 때로는 불가피합니다. 정규화가 진정한 베이지안 방법으로 동의된다면, 이것만으로도 베이 즈가 적은 데이터로 배울 수 있다는 것을 정당화합니다.

계산 속도 : 잦은 방법은 계산 속도가 빠르고 구현하기가 가장 쉽습니다. 그리고 어떻게 든 정규화는 약간의 베이를 소개하는 저렴한 방법을 제공합니다. 베이지안 방법이 여전히 최적화되지 않았기 때문일 수 있습니다. 예를 들어, 오늘날 일부 LDA 구현은 빠릅니다. 그러나 그들은 매우 열심히 일해야했습니다. 엔트로피 추정의 경우 첫 번째 고급 방법은 베이지안입니다. 그것들은 훌륭하게 작동했지만 곧 잦은 방법이 발견되었고 계산 시간이 훨씬 적게 걸렸습니다 ... 베이지안 인 경우 빈번한 방법을 베이지안 방법의 근사치로 생각하는 것은 터무니 없습니다.


2
"나는 왜 정규화를 사용해야 하는가에 대한 빈번한 정당화를 모른다." 쉽습니다. 반복 된 시도에서 샘플 외부 오차를 낮추는 것으로 나타났습니다.
Cliff AB

2

특정 Frequentist 기반 접근 방식 이 기본적으로 베이지안을 지배 한 한 가지 유형의 문제 는 M-open 사례의 예측 문제입니다.

M-open은 무엇을 의미합니까?

M-open은 데이터를 생성하는 실제 모델이 고려중인 모델 세트에 나타나지 않음을 나타냅니다. 예를 들어, 의 실제 평균이 의 함수로 2 차인 경우 평균 선형 함수가 인 모델 만 고려 하면 M-open의 경우입니다. 다시 말해, 모델 미스 사양으로 인해 M-open 사례가 발생합니다.yxx

대부분의 경우 이는 베이지안 분석에 큰 문제입니다. 내가 아는 거의 모든 이론은 모델이 올바르게 지정되었는지에 달려 있습니다. 물론 중요한 통계 학자로서 모델이 항상 잘못 지정 되었다고 생각해야합니다 . 이것은 상당히 문제입니다. 우리 이론의 대부분은 모델이 정확하다는 것을 기반으로하지만, 결코 그렇지 않다는 것을 알고 있습니다. 기본적으로 모델이 너무 잘못 되지 않기를 바라면서 손가락을 교차 시킵니다.

Frequentist 메소드가 왜 이것을 더 잘 처리합니까?

모두가 아닙니다. 예를 들어 표준 오류를 생성하거나 예측 간격을 만들기 위해 표준 MLE 도구를 사용하는 경우 베이지안 방법을 사용하는 것보다 낫지 않습니다.

그러나 정확히이 목적을 위해 특별히 고안된 하나의 특정 Frequentist 도구 인 교차 검증이 있습니다. 여기에서 모델이 새 데이터를 얼마나 잘 예측하는지 추정하기 위해 모델을 피팅 할 때 일부 데이터를 남기고 모델이 보이지 않는 데이터를 얼마나 잘 예측하는지 측정합니다.

이 방법은 모델 미스 지정과 완전히 유사하지만 모델이 "올바르지"않은지 여부에 관계없이 모델이 새 데이터를 얼마나 잘 예측하는지 추정 할 수있는 방법을 제공합니다.

내가이 정말 베이지안 관점에서 정당화하기 어렵다 예측 모델링에 대한 접근 방식을 변경 주장에 너무 열심히 생각하지 않습니다 (이전에보고 된 데이터 전에 사전 지식을 표현하도록되어, 우도 함수는 하나 모델 등) 그것은 Frequentist 관점에서 정당화하기가 매우 쉽습니다 (우리는 반복 샘플링을 통해 샘플 오류 중에서 가장 좋은 모델 + 정규화 매개 변수를 선택했습니다).

이것은 예측 적 추론이 이루어지는 방식에 완전히 혁명을 가져 왔습니다. 나는 어떤 통계학 자도 가능할 때 교차 검증으로 작성되거나 확인되지 않은 예측 모델을 진지하게 고려할 것이라고 생각하지 않는다. 바이어스 등을 샘플링하기 위해).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.