이전에 제공된 데이터의 유효성을 테스트 할 수 있습니까?


10

문제

정보 및 사전 정보를 바탕으로 사후 밀도를 추정하기 위해 베이지안 분석을 수행하는 R 함수를 작성 중입니다. 사용자가 이전을 재고해야 할 경우 경고를 보내는 기능을 원합니다.

이 질문에서 나는 사전 평가 방법을 배우고 싶습니다. 이전의 질문들은 정보화 된 이전의 내용 ( 여기여기 ) 을 다루는 메커니즘을 다루었 다 .

다음과 같은 경우 이전의 재평가가 필요할 수 있습니다.

  • 데이터는 이전을 진술 할 때 고려되지 않은 극단적 인 경우를 나타냅니다
  • 데이터 오류 (예 : 이전이 kg 일 때 데이터가 g 단위 인 경우)
  • 코드의 버그로 인해 사용 가능한 사전 설정에서 잘못된 사전이 선택되었습니다.

첫 번째 경우, 데이터 값이 지원되지 않는 범위 (예 : logN 또는 감마의 경우 <0)에 있지 않는 한, 우선 순위는 일반적으로 데이터가 일반적으로 데이터를 압도 할 정도로 충분히 확산됩니다. 다른 경우는 버그 또는 오류입니다.

질문

  1. 데이터를 사용하여 이전을 평가하는 유효성 에 관한 문제가 있습니까?
  2. 이 문제에 가장 적합한 특정 테스트가 있습니까?

영형(0,1)(0,5)(8,0.5)

파란색 데이터는 유효한 사전 + 데이터 조합 일 수 있지만 빨간색 데이터는 음수 값을 지원하는 사전 분포가 필요합니다.

여기에 이미지 설명을 입력하십시오

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

답변:


4

"사전"의 의미를 명확하게해야합니다. 예를 들어, 영국의 기대 수명에 대한 나의 이전의 믿음에 관심이 있다면, 그것은 틀릴 수 없습니다. 내 믿음이야! 관찰 된 데이터와 일치하지 않을 수 있지만 이는 또 다른 문제입니다.

또한 맥락이 중요합니다. 예를 들어, 우리가 무언가의 집단에 관심이 있다고 가정 해 봅시다. 저의 이전 주장에 따르면이 수량은 음이 아니어야합니다. 그러나 데이터는 오류와 함께 관찰되었으며 우리는 부정적인 측정을했습니다. 이 경우 이전은 유효하지 않으며 잠재 프로세스의 이전 단계입니다.

질문에 대답하기 위해

  1. 데이터를 사용하여 이전을 평가하는 유효성에 관한 문제가 있습니까?

순수 주의자는 데이터를 두 번 사용해서는 안된다고 주장합니다. 그러나 실용적 인 사람은 당신이 처음에 이전에 대해 충분히 생각하지 않았다고 반박합니다.

2이 문제에 가장 적합한 특정 테스트가 있습니까?

이것은 실제로 고려중인 모델에 달려 있습니다. 가장 기본적인 것으로 이전 범위와 데이터 범위를 비교할 수 있다고 가정합니다.



3

여기 내 센트 :

  1. 비율과 관련된 사전 초과 매개 변수에 대해 걱정해야한다고 생각합니다.

  2. 유익한 정보에 대해 이야기하지만 합리적인 비 정보 적 정보가 무엇인지 사용자에게 경고해야한다고 생각합니다. 때로는 평균이 0이고 분산이 100 인 법선은 상당히 정보가 없으며 때로는 사용 된 척도에 따라 유익합니다. 예를 들어, 이전보다 높은 신장 (센티미터) 임금을 회귀하고 있다면 상당히 유익합니다. 그러나 높이 (미터)에서 로그 임금을 회귀하는 경우 위의 이전 정보는 그다지 유익하지 않습니다.

  3. 이전 분석의 결과 인 이전을 사용하는 경우, 즉 새 이전은 실제로 이전 분석의 오래된 포스터 인 경우 상황이 다릅니다. 나는 이것이 사실이라고 가정하고있다.


포인트 1을 명확히 해 주시겠습니까? re : point 2, OP에서 언급했듯이 이전 설정 방법에 대해서는이 질문에 관심이 없습니다. 요점 3 : 많은 사전 정보는 이용 가능한 데이터 (데이터에 적합한 분포에 적합)의 분석에서 비롯된 반면, 다른 정보는 전문가의 지식을 바탕으로합니다 (일반적으로 덜 제한적 임).
David LeBauer

y ~ a + b * x / z와 같은 모델을 피팅한다고 가정합니다. Z 값에 제한이 없으면 (양수 또는 음수 일 수있는 경우) b의 신호에 대한 기대치를 아는 것보다 어렵습니다. 또한, Z가 0에 가까울 수 있다면, b보다 너무 낮거나 클 수있다. 이것은 당신의 이전을 불합리하게 만들 수 있습니다. : 겔만의 블로그에이 항목을 참조하십시오 stat.columbia.edu/~cook/movabletype/archives/2011/06/...
노엘 Galdino

# 3 : 지적한대로 데이터를 두 번 사용하는 것에주의하십시오. 예를 들어 계층 구조 모델은 얇고 다른 모델은 가능성과 일치하는 사전을 선택하는 것입니다. 나중에, 나는 그런 분석에 관심이 있습니다. 나는 정규화 도구로 이전의 선택을 더 많이 본다.
Manoel Galdino 2018 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.