확률 적 프로그래밍을 통한 스위치 포인트 탐지 (pymc)


9

저는 현재 해커 "책"에 대한 확률 적 프로그래밍과 베이지안 방법을 읽고 있습니다. 몇 장을 읽었으며 pymc를 사용한 첫 번째 예제가 문자 메시지의 스위치 포인트를 감지하는 첫 번째 장에서 생각하고있었습니다. 이 예에서 전환점이 발생하는시기를 나타내는 임의 변수는 로 표시됩니다 . MCMC 단계 후 의 사후 분포 가 제공됩니다.ττ여기에 이미지 설명을 입력하십시오

우선이 그래프에서 배울 수있는 것은 45 일째에 전환점이 발생한 확률이 거의 50 %라는 것입니다. 전환점이 없다면 어떻게 될까요? 스위치 포인트가 있다고 가정하고 스위치 포인트를 찾으려고하는 대신 실제로 스위치 포인트가 있는지 감지하고 싶습니다.

저자는 "변화가 발생하지 않았거나 시간이 지남에 따라 변화가 점진적으로 발생했다면 의 사후 분포 가 더 널리 퍼져 있었을 것 "이라는 질문에 "전환점이 발생 했습니까"라는 질문에 대답합니다 . 그러나 전환 가능성으로 90 %의 확률이 있고 45 일째에 50 %의 확률이 발생하는 등의 가능성으로이를 어떻게 대답 할 수 있습니까?τ

모델을 변경해야합니까? 아니면 현재 모델로 대답 할 수 있습니까?


아래의 저보다 더 나은 답변을 얻을 수있는 책 저자 @ Cam.Davidson.Pilon을 언급하십시오.
Sean Easter

답변:


6

SeanEaster는 좋은 조언이 있습니다. Bayes 계수는 계산하기 어려울 수 있지만 PyMC2의 Bayes 계수에 대한 좋은 블로그 게시물이 있습니다.

Closly 관련 질문은 모델의 적합도입니다. 이것에 대한 공정한 방법은 검사입니다. 후자는 우리에게 적합하다는 증거를 줄 수 있습니다. 인용 된 것처럼 :

"시간이 지남에 따라 변화가 발생하지 않았거나 시간이 지남에 따라 변화가 점진적인 τ 더 확산되었을 것입니다 "

사실입니다. 후자는 45시 근처에서 상당히 정점에 이르렀습니다.> 질량의> 50 %는 45에 있지만 스위치 포인트가 없으면 질량은 (이론적으로) 45시에 1/80 = 1.125 %에 가까워 야합니다.

당신이 목표로하는 것은 모델에 따라 관찰 된 데이터 세트를 충실하게 재구성하는 것입니다. 2 장 에서는 가짜 데이터를 생성하는 시뮬레이션입니다. 관측 된 데이터가 인공 데이터와 크게 다르면 모델이 적합하지 않을 수 있습니다.

나는 엄밀하지 않은 답변에 대해 사과하지만 실제로 효과적으로 극복하지 못한 것은 큰 어려움입니다.


아마 당신의 대답과 관련이 없습니다, 나는 단지 큰 소리로 생각하고 있습니다. 시그 모이 드를 데이터에 맞추는 것이 불가능하고 베타 매개 변수를 기반으로 기울기가 변화를 나타내는 지 여부를 결정합니다. 아마도 스위치 포인트가 있는지 결정하는 임계 값이 예제에서 배울 수 있습니다. 어쩌면 이것은 또한 가능합니다λ매개 변수. 만약λ1과 너무 다릅니다 λ2 그렇지 않은 전환점이 있습니다. 이것은 예제에서 배운 임계 값으로도 가능합니다.
Olivier_s_j

1
예를 들어, 모델을 적합하십시오. λ1+λ2(1), 어디 =1/(1+이자형엑스(β))? 그것은 내가 믿는 일이며, 부드러운 전환을 허용 할 것입니다. 당신은 그 추론에 맞습니다β의 기울기는 전환점이 존재하는지 확인할 수 있습니다. 나는 이것을 정말로 좋아합니다. 더 탐구해야합니다.
Cam.Davidson.Pilon

모형 적합 문제에 대해서는, 사후 예측 p- 값이 적합을 평가하는 한 가지 방법이라고 덧붙입니다. 이 백서를 참조하십시오 .
Sean Easter

2

이는 모델 비교 질문에 더 가깝습니다. 스위치 포인트가없는 모델이 스위치 포인트가있는 모델보다 데이터를 더 잘 설명하는지에 관심이 있습니다. 이 질문에 대답하는 한 가지 방법 은 스위치 포인트가 있거나없는 모델 의 베이 즈 계수 를 계산하는 것 입니다. 간단히 말해, 베이 즈 계수는 두 모델에서 데이터 확률의 비율입니다.

케이=홍보(|미디엄1)홍보(|미디엄2)=홍보(θ1|미디엄1)홍보(|θ1,미디엄1)θ1홍보(θ2|미디엄2)홍보(|θ2,미디엄2)θ2

만약 미디엄1 스위치 포인트를 사용하는 모델입니다. 미디엄2 없는 모델입니다. 케이스위치 포인트 모델을 선호하는 것으로 해석 될 수 있습니다. (위의 위키 백과 기사는 K 값이 주목할만한 지침을 제공합니다.)

또한 MCMC 상황에서 위의 적분은 MCMC 체인의 매개 변수 값의 합계로 대체됩니다. 예를 들어 Bayes 요인에 대한보다 철저한 처리가 여기에 있습니다. .

스위치 포인트의 확률을 계산하는 문제에 대해서는 다음을 해결하는 것과 같습니다. (미디엄1|). 두 모형에서 동일한 우선 순위를 가정하면 모형의 사후 확률은 베이 즈 계수와 같습니다. ( 여기에서 슬라이드 5를 참조 하십시오 .) 그러면 해결의 문제입니다.(미디엄1|) 베이 즈 계수와 나는=1(미디엄나는|)=1 고려중인 n (독점) 모델 이벤트의 경우.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.