모델의 특정 부분이 밤에 나를 계속 지켜 왔기 때문에 "반향시 ..."로 시작하는 단락에 대한 피드백에 관심이 있습니다.
베이지안 모델
수정 된 질문은 시뮬레이션을 사용하지 않고 모델을 명시 적으로 개발할 수 있다고 생각합니다. 시뮬레이션은 샘플링의 고유 한 무작위성으로 인해 추가 가변성을 도입했습니다. 그러나 심리학자들은 대답이 훌륭합니다.
가정 : 봉투 당 가장 작은 레이블 수는 90이고 가장 큰 레이블은 100입니다.
따라서 가능한 최소 레이블 수는 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (OP의 데이터에 따라), 하한으로 인해 9000이며 관찰 된 데이터에서 나오는 추가 레이블입니다.
에 봉투 의 레이블 수를 나타냅니다 . 넣어야하는 , 90 라벨의 수를 즉, , 그래서 . 이항 분포 모델 성공의 총 개수 (여기 성공 봉투에 라벨의 존재이다) 재판은 일정한 성공 확률과 무관 시험 있도록 값을 얻어우리는 취하여 11 가지 가능한 결과를 얻습니다. 시트 크기가 불규칙하기 때문에 일부 시트에는 위한 공간 만 있다고 가정합니다.YiiXiX=Y−90X∈{0,1,2,...,10}npX0,1,2,3,...,n.n=10X90을 초과하는 추가 라벨, 및 90을 초과하는 각각의 라벨에 대한 이러한 "추가 공간"은 확률 와 독립적으로 발생한다 . 따라서pXi∼Binomial(10,p).
(반사시, 독립 가정 / 이항 모델은 프린터 시트의 구성을 효과적으로 수정하고 데이터가 모드의 위치 만 변경할 수 있기 때문에 만들기가 이상한 가정 일 것입니다. 그러나 모델은 결코 인정하지 않습니다 예를 들어, 다른 모델에서는 프린터 만97, 98, 96, 100 및 95 크기의 시트가 있습니다. 이는 명시된 모든 제약 조건을 충족하며 데이터는이 가능성을 배제하지 않습니다. 각 시트 크기를 자체 범주로 간주 한 다음 Dirichlet 다항식 모델을 데이터에 적합시키는 것이 더 적절할 수 있습니다. 데이터가 매우 부족하기 때문에 여기서는 이렇게하지 않습니다. 따라서 11 개 범주 각각의 사후 확률은 이전의 영향을 크게받습니다. 반면에 더 간단한 모델을 적용 함으로써 우리가 만들 수있는 추론 의 종류 를 제한합니다 .)
각 엔벨로프 는 의 iid 실현입니다 . 성공 확률 가 동일한 이항 시행의 합 도 이항이므로(이것은 정리입니다. 검증하려면 MGF 고유성 정리를 사용하십시오.)iXp∑iXi∼Binomial(60,p).
나는이 문제를 베이지안 모드에서 생각하는 것을 선호합니다. 왜냐하면 사후의 관심 수량에 대해 직접 확률을 밝힐 수 있기 때문입니다. 가 알려지지 않은 이항 실험에서 일반적 으로 사용되는 베타 분포 는 매우 유연합니다 (0과 1 사이의 변수는 방향, 균일 또는 두 Dirac 질량 중 하나에서 대칭 또는 비대칭 일 수 있음). 놀라운 도구입니다!). 데이터가 없으면 보다 균일 한 확률을 가정하는 것이 합리적 입니다. 즉, 시트에 90 개 레이블을 91 개, 92 개, ..., 100 개까지 수용 할 수있을 것으로 예상 할 수 있습니다. 따라서 이전에는ppp∼Beta(1,1).이 베타 이전 버전이 합리적이라고 생각하지 않는다면, 이전의 유니폼을 다른 베타 버전으로 대체 할 수 있으며 수학은 더 이상 어려움을 겪지 않을 것입니다!
에 대한 사후 분포 인 이 모델의 특성에 의해 conjugacy. 총 레이블 수에 관심이있는만큼 를 신경 쓰지 않기 때문에 이것은 중간 단계 일뿐 입니다. Forunately, conjugacy의 특성은 시트의 후방 예측 분포가 있음을 의미 베타 이항 베타 후방의 매개 변수. 있다 나머지 라벨에 우리의 후방 모델 있도록 reamining "시험", 전달에 자신의 존재가 불확실있는 즉, 라벨, 것이다pp∼Beta(1+43,1+17)p940ZZ∼BB(44,18,940).
대한 분포 와 레이블 당 값 모델 (공급 업체가 레이블 당 1 달러에 동의 함)을 가지므로 로트 값에 대한 확률 분포를 유추 할 수도 있습니다. 로트의 총 달러 가치를 나타냅니다 . 우리는 알고 때문에 모델 만 우리가 확실하지 않은 레이블을. 따라서 값에 대한 분포는 로 주어집니다 .ZDD=9043+ZZD
로트 가격을 고려하는 적절한 방법은 무엇입니까?
0.025와 0.975 (95 % 간격)의 Quantile은 각각 553과 769입니다. 따라서 D의 95 % 간격은 입니다. 귀하의 지불은 그 간격에 해당합니다. ( 의 분포 는 정확히 대칭이 아니기 때문에 중심 95 % 간격은 아니지만 비대칭은 무시할 수 있습니다. 어쨌든 아래에서 자세히 설명 하듯이 중심 95 % 간격이 정확한지 확실하지 않습니다. 고려해야 할 하나!)[9596,9812]D
R의 베타 이항 분포에 대한 Quantile 함수를 알지 못하므로 R의 루트 찾기를 사용하여 직접 작성했습니다.
qbetabinom.ab <- function(p, size, shape1, shape2){
tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
q <- uniroot(f=tmpFn, interval=c(0,size))
return(q$root)
}
그것에 대해 생각하는 또 다른 방법은 기대에 대해 생각하는 것입니다. 이 과정을 여러 번 반복하면 평균 비용은 얼마입니까? 의 기대치를 직접 계산할 수 있습니다. 베타 이항 모델은 이므로 거의 정확히 지불 한 금액입니다. 거래에서 예상되는 손실은 6 달러에 불과했습니다! 모두 잘했다!DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,
그러나 나는이 수치 중 어느 것이 가장 관련이 있는지 확실하지 않습니다. 결국이 공급 업체는 당신을 속이려고합니다! 이 거래를하고 있다면, 랏의 짝수 또는 공정가를 깨는 것에 대해 걱정하지 않고 초과 지불 할 확률을 계산하기 시작합니다! 벤더가 나를 속이려고 애 쓰고 있기 때문에 손실을 최소화하고 손익 분기점에 관심을 갖지 않을 권리가 있습니다. 이 설정에서 내가 제공 할 최고 가격은 9615 달러입니다. 이는 후손의 5 % Quantile입니다. 즉, 내가 지불 하지 않을 확률은 95 %D 입니다. 공급 업체는 모든 레이블이 있다는 것을 증명할 수 없으므로 내 베팅을 헤지하려고합니다.
(물론, 벤더가 거래를 수락했다는 사실은 우리에게 그가 음이 아닌 실제 손실 을 가지고 있음을 알려줍니다 ... 나는 그 정보를 사용하여 우리가 당신이 속이는 양을 더 정확하게 결정하는 데 도움이되는 방법을 알아 내지 못했습니다. 그가 그 제안을 받아 들였기 때문에 당신은 가장 잘 깨뜨 렸습니다.)
부트 스트랩과 비교
우리는 6 개의 관측 값 만 가지고 작업합니다. 부트 스트랩에 대한 타당성은 점근 적이므로 작은 샘플에서 결과가 어떻게 보이는지 살펴 보겠습니다. 이 그림은 부 스트랩 시뮬레이션의 밀도를 보여줍니다.
"범피"패턴은 작은 샘플 크기의 인공물입니다. 한 점을 포함하거나 제외하면 평균에 큰 영향을 미쳐이 "분홍색"외관을 만듭니다. 베이지안 접근 방식은 이러한 덩어리를 부드럽게하며 제 생각에는 현재 진행중인 상황에 대한 더 믿을만한 인물입니다. 세로선은 5 % Quantile입니다.