66

이것은 가정 문제가 아니라 회사가 직면 한 실제 문제입니다.

매우 최근 (2 일 전) 우리는 딜러에게 10000 개의 제품 라벨 제조를 주문했습니다. 딜러는 독립적 인 사람입니다. 그는 외부에서 제조 된 라벨을 받고 회사는 딜러에게 지불합니다. 각 라벨의 가격은 회사에 정확히 1 달러입니다.

어제 딜러에게는 라벨이 붙어 있지만 라벨은 각각 100 개씩 묶여 있습니다. 이러한 방식으로 총 100 개의 패킷이 있었고 각 패킷에는 100 개의 레이블이 포함되었으므로 총 10000 개의 레이블이 있습니다. $ 10000의 딜러에게 지불하기 전에, 우리는 각 패킷에 정확히 100 개의 레이블이 포함되도록 패킷을 거의 세지 않기로 결정했습니다. 레이블을 세자 100 개의 레이블이 짧은 패킷이 발견되었습니다 (97 개의 레이블이 발견됨). 이것이 우연이 아니라 의도적으로 이루어 졌음을 보장하기 위해 5 개의 패킷을 더 세고 각 패킷 (첫 번째 패킷 포함)에서 다음과 같은 수의 레이블을 발견했습니다.

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97

모든 패킷을 계산할 수 없었기 때문에 평균적으로 지불하기로 결정했습니다. 따라서 6 개 패킷의 평균 레이블 수는 97.166이므로 총 지불 금액은 $ 9716입니다.

나는 통계학자가 어떻게 이런 유형의 문제를 다루어야하는지 알고 싶다 .
또한 실제 라벨 수보다 더 많이 지불하지 않았다는 95 %의 확신을 얻기 위해 얼마를 지불해야하는지 알고 싶습니다.

추가 정보:

P (100 개 이상의 레이블이 포함 된 패킷) = 0
P (90 개 미만의 레이블이 포함 된 패킷) = 0 {패킷의 무게가 더 작아서 패킷을 계산하는 동안 90보다 작은 레이블이 쉽게 감지됩니다}

편집 : 딜러는 단순히 그러한 과실을 부인했습니다. 우리는이 딜러가 회사가 지불하는 것에 대해 제조업체로부터받는 특정 커미션에서 작동한다는 것을 발견했습니다. 제조업체와 직접 통신 할 때 제조업체 나 딜러의 결함이 아님을 발견했습니다. 제조사는“ 시트의 크기가 표준화되지 않았기 때문에 라벨이 짧아 지고 단일 시트에서 절단 된 숫자가 패킷으로 묶이게된다”고 말했다.

또한 제조업체가 시트 크기의 한계 증가로 인해 추가 레이블을자를 수 없으며 시트 크기의 한계 감소로 인해 절단 할 수 없음을 인정했기 때문에 추가 정보에 제공된 첫 번째 주장을 검증 합니다. 정확히 같은 크기의 100 개 레이블.

— 네 라즈
소스

7

+1 (1) "추가 정보"섹션에서 첫 번째 주장을 어떻게 정당화 할 수 있습니까? (2) 패킷을 얼마나 정확하게 계량 할 수 있습니까?

— whuber

15

잉글랜드와 아이작 뉴턴은 300 년 전에 똑같은 문제에 직면했습니다. (문제의 "라벨"이 발행 된 동전이기 때문에 판돈이 다소 컸습니다.) 따라서 stat.wisc.edu/sites/default/files/TR442_0.pdf에서 Stephen Stigler의 Pyx 시험에 대한 설명을 읽을 수 있습니다.

— whuber

7

@Neeraj 모든 품목의 중량이 일정하다면 왜 전체 배송 물을 계량하지 않습니까?

— 복원 Monica Monica

9

행사는 $ 9000 지불하고 그들이 말하는 "그러나 우리가 기다리는 단지 당신에게하지 천 600 단락"

— 딘 맥그리거에게

5

위대한 통계 문제인 +1 외에도 인쇄 사업 분야에서 수년 간의 더 직접적인 조언을 나누고 싶었습니다. 모든 적절한 전문 프린터는 이와 같은 오버런 / 언더런 정책을 가지고 있습니다 . "번호 매기기"(개별 일련 번호)를 사용하지 않는 모든 것. 그러나 그들은 그들이 당신에게 준 것에 대한 훌륭한 수를 가져야하며, 미미한 경우 (5 %) 할인하면 할인됩니다. 알려진 언더런에 대한 정가를 충전하는 것은 표준 정책이 아닙니다.

— BrianH

20

모델의 특정 부분이 밤에 나를 계속 지켜 왔기 때문에 "반향시 ..."로 시작하는 단락에 대한 피드백에 관심이 있습니다.

베이지안 모델

수정 된 질문은 시뮬레이션을 사용하지 않고 모델을 명시 적으로 개발할 수 있다고 생각합니다. 시뮬레이션은 샘플링의 고유 한 무작위성으로 인해 추가 가변성을 도입했습니다. 그러나 심리학자들은 대답이 훌륭합니다.

가정 : 봉투 당 가장 작은 레이블 수는 90이고 가장 큰 레이블은 100입니다.

따라서 가능한 최소 레이블 수는 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (OP의 데이터에 따라), 하한으로 인해 9000이며 관찰 된 데이터에서 나오는 추가 레이블입니다.

에 봉투 의 레이블 수를 나타냅니다 . 넣어야하는 , 90 라벨의 수를 즉, , 그래서 . 이항 분포 모델 성공의 총 개수 (여기 성공 봉투에 라벨의 존재이다) 재판은 일정한 성공 확률과 무관 시험 있도록 값을 얻어우리는 취하여 11 가지 가능한 결과를 얻습니다. 시트 크기가 불규칙하기 때문에 일부 시트에는 위한 공간 만 있다고 가정합니다. $Y_i$ $i$ $X_i$ $X=Y-90$ $X\in\{0,1,2,...,10\}$ $n$ $p$ $X$ $0, 1, 2, 3, ..., n.$ $n=10$ $X$ 90을 초과하는 추가 라벨, 및 90을 초과하는 각각의 라벨에 대한 이러한 "추가 공간"은 확률 와 독립적으로 발생한다 . 따라서 $p$ $X_i\sim\text{Binomial}(10,p).$

(반사시, 독립 가정 / 이항 모델은 프린터 시트의 구성을 효과적으로 수정하고 데이터가 모드의 위치 만 변경할 수 있기 때문에 만들기가 이상한 가정 일 것입니다. 그러나 모델은 결코 인정하지 않습니다 예를 들어, 다른 모델에서는 프린터 만97, 98, 96, 100 및 95 크기의 시트가 있습니다. 이는 명시된 모든 제약 조건을 충족하며 데이터는이 가능성을 배제하지 않습니다. 각 시트 크기를 자체 범주로 간주 한 다음 Dirichlet 다항식 모델을 데이터에 적합시키는 것이 더 적절할 수 있습니다. 데이터가 매우 부족하기 때문에 여기서는 이렇게하지 않습니다. 따라서 11 개 범주 각각의 사후 확률은 이전의 영향을 크게받습니다. 반면에 더 간단한 모델을 적용 함으로써 우리가 만들 수있는 추론 의 종류 를 제한합니다 .)

각 엔벨로프 는 의 iid 실현입니다 . 성공 확률 가 동일한 이항 시행의 합 도 이항이므로(이것은 정리입니다. 검증하려면 MGF 고유성 정리를 사용하십시오.) $i$ $X$ $p$ $\sum_i X_i\sim\text{Binomial}(60,p).$

나는이 문제를 베이지안 모드에서 생각하는 것을 선호합니다. 왜냐하면 사후의 관심 수량에 대해 직접 확률을 밝힐 수 있기 때문입니다. 가 알려지지 않은 이항 실험에서 일반적 으로 사용되는 베타 분포 는 매우 유연합니다 (0과 1 사이의 변수는 방향, 균일 또는 두 Dirac 질량 중 하나에서 대칭 또는 비대칭 일 수 있음). 놀라운 도구입니다!). 데이터가 없으면 보다 균일 한 확률을 가정하는 것이 합리적 입니다. 즉, 시트에 90 개 레이블을 91 개, 92 개, ..., 100 개까지 수용 할 수있을 것으로 예상 할 수 있습니다. 따라서 이전에는 $p$ $p$ $p\sim\text{Beta}(1,1).$ 이 베타 이전 버전이 합리적이라고 생각하지 않는다면, 이전의 유니폼을 다른 베타 버전으로 대체 할 수 있으며 수학은 더 이상 어려움을 겪지 않을 것입니다!

에 대한 사후 분포 인 이 모델의 특성에 의해 conjugacy. 총 레이블 수에 관심이있는만큼 를 신경 쓰지 않기 때문에 이것은 중간 단계 일뿐 입니다. Forunately, conjugacy의 특성은 시트의 후방 예측 분포가 있음을 의미 베타 이항 베타 후방의 매개 변수. 있다 나머지 라벨에 우리의 후방 모델 있도록 reamining "시험", 전달에 자신의 존재가 불확실있는 즉, 라벨, 것이다 $p$ $p\sim\text{Beta}(1+43,1+17)$ $p$ $940$ $Z$ $Z\sim\text{BB}(44,18,940).$

대한 분포 와 레이블 당 값 모델 (공급 업체가 레이블 당 1 달러에 동의 함)을 가지므로 로트 값에 대한 확률 분포를 유추 할 수도 있습니다. 로트의 총 달러 가치를 나타냅니다 . 우리는 알고 때문에 모델 만 우리가 확실하지 않은 레이블을. 따라서 값에 대한 분포는 로 주어집니다 . $Z$ $D$ $D=9043+Z$ $Z$ $D$

로트 가격을 고려하는 적절한 방법은 무엇입니까?

0.025와 0.975 (95 % 간격)의 Quantile은 각각 553과 769입니다. 따라서 D의 95 % 간격은 입니다. 귀하의 지불은 그 간격에 해당합니다. ( 의 분포 는 정확히 대칭이 아니기 때문에 중심 95 % 간격은 아니지만 비대칭은 무시할 수 있습니다. 어쨌든 아래에서 자세히 설명 하듯이 중심 95 % 간격이 정확한지 확실하지 않습니다. 고려해야 할 하나!) $[9596, 9812]$ $D$

R의 베타 이항 분포에 대한 Quantile 함수를 알지 못하므로 R의 루트 찾기를 사용하여 직접 작성했습니다.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

그것에 대해 생각하는 또 다른 방법은 기대에 대해 생각하는 것입니다. 이 과정을 여러 번 반복하면 평균 비용은 얼마입니까? 의 기대치를 직접 계산할 수 있습니다. 베타 이항 모델은 이므로 거의 정확히 지불 한 금액입니다. 거래에서 예상되는 손실은 6 달러에 불과했습니다! 모두 잘했다! $D$ $\mathbb{E}(D)=\mathbb{E}(9043+Z)=\mathbb{E}(Z)+9043.$ $\mathbb{E}(Z)=\frac{n\alpha}{\alpha+\beta}=667.0968$ $\mathbb{E}(D)=9710.097,$

그러나 나는이 수치 중 어느 것이 가장 관련이 있는지 확실하지 않습니다. 결국이 공급 업체는 당신을 속이려고합니다! 이 거래를하고 있다면, 랏의 짝수 또는 공정가를 깨는 것에 대해 걱정하지 않고 초과 지불 할 확률을 계산하기 시작합니다! 벤더가 나를 속이려고 애 쓰고 있기 때문에 손실을 최소화하고 손익 분기점에 관심을 갖지 않을 권리가 있습니다. 이 설정에서 내가 제공 할 최고 가격은 9615 달러입니다. 이는 후손의 5 % Quantile입니다. 즉, 내가 지불 하지 않을 확률은 95 % $D$ 입니다. 공급 업체는 모든 레이블이 있다는 것을 증명할 수 없으므로 내 베팅을 헤지하려고합니다.

(물론, 벤더가 거래를 수락했다는 사실은 우리에게 그가 음이 아닌 실제 손실 을 가지고 있음을 알려줍니다 ... 나는 그 정보를 사용하여 우리가 당신이 속이는 양을 더 정확하게 결정하는 데 도움이되는 방법을 알아 내지 못했습니다. 그가 그 제안을 받아 들였기 때문에 당신은 가장 잘 깨뜨 렸습니다.)

부트 스트랩과 비교

우리는 6 개의 관측 값 만 가지고 작업합니다. 부트 스트랩에 대한 타당성은 점근 적이므로 작은 샘플에서 결과가 어떻게 보이는지 살펴 보겠습니다. 이 그림은 부 스트랩 시뮬레이션의 밀도를 보여줍니다.

"범피"패턴은 작은 샘플 크기의 인공물입니다. 한 점을 포함하거나 제외하면 평균에 큰 영향을 미쳐이 "분홍색"외관을 만듭니다. 베이지안 접근 방식은 이러한 덩어리를 부드럽게하며 제 생각에는 현재 진행중인 상황에 대한 더 믿을만한 인물입니다. 세로선은 5 % Quantile입니다.

— 복원 모니카
소스

좋은 답변입니다. 위험에 대한 처벌을 통해 새로운 통찰력을 제공했습니다. 감사합니다

— Neeraj

1

예상 손실이 6 달러에 불과하다는 사실을 알게되어 기뻤습니다. :-) 좋은 질문에 다시 한 번 감사드립니다.

— 복구 상태 Monica

1

이항 분포 는 시행이 일정한 성공 확률 와 독립적 일 때 시행 에서 성공 횟수를 모델링 하므로 값을 갖습니다우리는 취하여 11 가지 가능한 결과를 얻습니다. 시트 크기가 불규칙하기 때문에 일부 시트 에는 90 개를 초과하는 추가 레이블을위한 공간 만 있고 각 레이블에 대한이 "추가 공간"은 확률 발생 한다고 가정합니다 .

n

$n$

p

$p$

0, 1, 2, 3, . . . ., n .

$0, 1, 2, 3, ...., n.$

n = 10

$n=10$

X

$X$

p

$p$

— 복구 상태 Monica

1

포아송 모델은 값을 가질 수 있습니다 . 따라서 패킷 당 레이블 이있을 가능성이 높습니다. 이제이 데이터에 대해 합리적인 포아송 모델 하에서 항목 이있을 확률은 적지 만 제약 조건을 따르지 않기 때문에 포아송 모델을 사용한 사람은 없습니다 .

0, 1, 2, 3, . . .

$0,1,2,3,...$

101, 102, 103, . . ., 10^{6}

$101, 102, 103, ..., 10^6$

10^{6}

$10^6$

0 \leq X \leq 10

$0\le X\le 10$

— 복구 상태 Monica

1

채팅에서이 토론을 계속 합시다 .

— 복원 상태 Monica

20

편집 : 비극! 나의 초기 가정은 틀렸다! (또는 의심의 여지없이, 적어도 판매자가 말한 것을 믿습니까? 아직도 Morten에게 모자를 쓰십시오.) 통계에 대한 또 다른 좋은 소개라고 생각되지만 Partial Sheet Approach는 아래에 추가 됩니다 ( 사람들은 전체 시트를 좋아하는 것처럼 보였고 누군가가 여전히 유용하다고 생각할 것입니다.

우선 큰 문제입니다. 하지만 좀 더 복잡하게 만들고 싶습니다.

그 때문에, 내가하기 전에, 조금 더 간단하게하고, 지금 당장 사용하고있는 방법이 완벽하게 합리적이라고하겠습니다 . 저렴하고 이해하기 쉽습니다. 따라서 고집해야한다면 기분 나쁘지 않아야합니다. 번들을 무작위로 선택하십시오. 그리고 모든 것을 안정적으로 계량 할 수 있다면 (whuber와 user777의 팁), 그렇게해야합니다.

그래도 좀 더 복잡하게 만들고 싶은 이유는 이미 전체 합병증에 대해 말하지 않았기 때문에 계산에 시간이 걸리고 시간도 돈이기 때문 입니다. 그러나 얼마 ? 어쩌면 모든 것을 계산하는 것이 실제로 저렴할 수도 있습니다!

실제로 당신이하고있는 일은 절약하는 돈의 양과 계산하는 데 걸리는 시간의 균형을 맞추는 것입니다. (물론,이 게임은 한 번만합니다. 다음 번에 판매자와 이런 일이 발생하면 판매자가 따라 잡았을 수도 있고 새로운 트릭을 시도했을 수도 있습니다. 게임 이론에서는 이것이 싱글 샷 게임과 반복의 차이입니다. 하지만 지금은 판매자가 항상 같은 일을한다고 가정 해 봅시다.)

그래도 견적에 도달하기 전에 한 가지 더. (그리고 너무 많이 써서 여전히 답을 얻지 못해서 미안하지만, 통계학자는 무엇을 할 것인가에 대한 좋은 대답입니다. 그들은 문제의 모든 작은 부분을 이해하기 위해 많은 시간을 할애했습니다. 그들에 대해 아무 말도하기 쉽기 전에) 그 점은 다음에 근거한 통찰력입니다.

(편집 : 실제적으로 가열하는 경우 ...) 판매자는 라벨을 제거하여 비용을 절약하지 않습니다. 시트를 인쇄하지 않으면 비용을 절약 할 수 있습니다. 그들은 당신의 레이블을 다른 사람에게 팔 수 없습니다 (나는 가정합니다). 어쩌면, 나는 모른다. 그리고 당신이하는지 모른다면, 그들은 당신의 물건의 절반과 다른 사람의 절반을 인쇄 할 수 없습니다. 다시 말해, 계산을 시작하기 전에 총 레이블 수는이라고 가정 할 수 있습니다 9000, 9100, ... 9900, or 10,000. 그것이 제가 지금 접근하는 방법입니다.

전체 시트 방법

이 문제와 같이 조금 까다로운 문제 (이산적이고 제한적)가 발생하면 많은 통계 학자들이 어떤 일이 일어날 지 시뮬레이션 할 것입니다. 다음은 내가 시뮬레이션 한 것입니다.

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

이것은 전체 시트를 사용한다고 가정하고 레이블이 (프로그래밍 언어 R로) 분포되어 있다고 가정하면 정확합니다.

그런 다음이 작업을 수행했습니다.

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

이것은 "부트 스트랩"방법을 사용하여 4, 5, ... 20 개의 표본을 사용한 신뢰 구간을 찾습니다. 다시 말해, 평균적으로 N 개의 표본을 사용한다면 신뢰 구간이 얼마나 클까요? 나는 이것을 사용하여 시트 수를 결정하기에 충분히 작은 간격을 찾고 그것이 내 대답입니다.

"충분히 작습니다"라는 말은 95 % 신뢰 구간에 하나의 정수만 있음을 의미합니다. 예를 들어, 신뢰 구간이 [93.1, 94.7] 인 경우 94를 올바른 시트 수로 선택합니다. 정수입니다.

그러나 또 다른 어려움 – 당신의 확신은 진실에 달려 있습니다 . 90 장이고 모든 파일에 90 개의 레이블이 있으면 정말 빠르게 수렴됩니다. 100 매와 동일합니다. 그래서 가장 큰 불확실성이있는 95 장을보고 95 %의 확실성을 갖기 위해서는 평균 약 15 개의 표본이 필요하다는 것을 알았습니다. 전체적으로 말하면, 실제로 무엇이 있는지 알지 못하기 때문에 15 개의 샘플을 채취하고 싶습니다.

필요한 샘플 수를 알고 나면 예상 절감 효과는 다음과 같습니다.

$100N_{missing} - 15c$

여기서 는 하나의 스택을 계산하는 비용입니다. 0에서 10 사이의 모든 숫자가 누락 될 확률이 같다고 가정하면 예상 절감액은 c $입니다. 그러나 여기 방정식을 만드는 요점이 있습니다. 필요한 샘플 수에 대한 신뢰도를 낮추기 위해 방정식을 최적화 할 수도 있습니다. 5 개의 샘플이 제공한다고 확신한다면 괜찮을 것입니다. (그리고 당신은 그것을 알아 내기 위해이 코드를 가지고 놀 수 있습니다.) $c$ $500 - 15*$

그러나 당신은 또한이 모든 일을하게 한 사람에게 요금을 청구해야합니다!

(편집 : 추가됨!) 부분 시트 접근

자, 제조업체가 말한 내용이 사실이라고 가정하고 의도적이지 않습니다. 모든 시트에서 몇 가지 레이블이 손실됩니다. 아직도 알고 싶습니다. 전체 라벨 수는 몇 개입니까?

더 이상 좋은 결정을 내릴 수 없기 때문에이 문제는 다릅니다. 이것은 전체 시트 가정에 유리합니다. 이전에는 11 가지 답변 만 가능했습니다. 이제 1100 개가 있고 정확히 얼마나 많은 레이블이 있는지 에 대해 95 % 신뢰 구간을 확보하면 원하는 것보다 더 많은 샘플을 채취 할 수 있습니다. 우리가 이것에 대해 다르게 생각할 수 있는지 봅시다.

이것은 실제로 당신이 결정을 내리는 것에 관한 것이므로, 우리는 여전히 몇 가지 매개 변수를 잃어 버릴 것입니다. 하나의 거래에서 얼마나 많은 돈을 잃어 버릴 것인가, 그리고 한 스택을 계산하는 데 드는 비용은 얼마입니까? 하지만 그 숫자들로 당신이 할 수있는 것을 설정하도록하겠습니다.

다시 시뮬레이션하면 (사용자가없이 할 수 있으면 사용자 777에 소품이 있더라도!) 다른 수의 샘플을 사용할 때 간격의 크기를 살펴 보는 것이 유익합니다. 다음과 같이 할 수 있습니다 :

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

(이번에는) 각 스택에 90에서 100 사이의 균일 한 임의의 수의 레이블이 있다고 가정하고 다음을 제공합니다.

물론, 실제 상황이 시뮬레이션 된 것과 같다면, 실제 평균은 스택 당 약 95 개의 샘플이 될 것입니다. 이는 사실이 보이는 것보다 낮습니다. 이것은 실제로 베이지안 접근법에 대한 하나의 논쟁입니다. 그러나 샘플링을 계속함에 따라 답변에 대한 확신이 어느 정도 높아지는 지에 대한 유용한 정보를 얻을 수 있으며, 이제 가격에 관한 모든 거래와 샘플링 비용을 명시 적으로 교환 할 수 있습니다.

내가 아는 한, 우리 모두는 정말 궁금합니다.

— one_observation
소스

6

+1이 분석은 질문을 직접적이고 창의적으로 해결합니다. 통계 전문가가 문제를 어떻게 생각할까요? 시트 수에 초점을 맞추는 것은 소중한 통찰력입니다.

— whuber

1

비용 편익 접근법은 좋은 생각입니다. 이미이 문제에 전념하는 집단 인력 * 시간이 Neeraj가 사용한 n = 6 샘플의 284 달러 절감을 초과했다고 말하고 싶습니다. :)

— RobertF 2016 년

1

좋은 대답입니다. 현재 코드를 작성할 때 프린터가 전체 스택을 집어 올리면 여분의 라벨을 땅에 떨어 뜨립니다. 그러나 9000,9100...10000마지막에 총 레이블 을 원하면 if 논리를 바꾸고 bucket <- sample(which(stacks!=100),1)항상 스택 을 늘릴 수 있습니다 .

— Adam C

1

아, 방금 저 자신을 알아 차 렸습니다! 캐치 주셔서 감사합니다. 분명히 실수입니다.

— one_observation 2012 년

1

신뢰 구간을 어떻게 계산합니까? 부트 스트랩을 사용하십니까?

— RobertF

3

이것은 상당히 제한된 샘플입니다. (코드 스 니펫은 R에 있습니다)

> sample <- c(97,98,96,100,95,97)

전체 모집단의 예상 수치와 가격에 대한 95 % 신뢰도 값에 대한 초기 추측을 위해 평균 및 5 % 분위수로 시작할 수 있습니다

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525

더 나아가려면 이론적 모델을 만들고 추가 가정을해야합니다. 재생시 불확실성의 원인은 여러 가지가 있습니다.-(1) 패킷 채우기 모델의 기능적 형태 불확실성, (2) 모델 매개 변수 추정 불확실성, (3) 샘플링 오류.

모델의 경우, 각 레이블을 알 수없는 비율 로 실패하기 쉬운 패킷에 독립적으로 드롭하는 프로세스가 있다고 가정 해 봅시다 . 우리는 제조업체가 사기 행위에 있다고 가정하지 않으며 단지 일부 부분이 엉망이되거나 바닥에 닿는다는 것을 의미합니다. 각 드롭의 성공은 Bernoulli 랜덤 변수입니다. 각 패킷에 대해 프로세스가 회 반복 됩니다. 즉, 각 패킷의 레이블 수가 이항 분포를 따릅니다. 샘플에서 를 다음과 같이 추정 할 수 있습니다 . $p$ $n=100$ $p$

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

및 이기 때문에 간단한 포아송 분포로 이항 분포를 근사화 할 수 있습니다. $n\ge100$ $np \le 10$

> (lambda <- n*p)
[1] 2.833333

푸 아송 분포가 평균 와 동일한 분산을 가지며 표본 분산이 표본 평균과 상당히 유사 하다는 약간의 확신을 찾을 수 있습니다 $\lambda =$ lambda

> var(sample)
[1] 2.966667

각 패킷이 독립적으로 채워 졌다고 가정하면 100 패킷의 전체 실행에 대한 실패 횟수도 매개 변수 Poisson과 거의 . 평균과 95 % 분위수는 $\lambda_r =$ 100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

문제는 실패율 가 알려져 있지 않으며 불확실성을 설명하지 않았다는 것입니다. 이항 분포로 돌아가서 유연성과 단순성을 위해 가 알 수없는 모양 매개 변수 및 갖는 Beta 랜덤 변수 라고 가정합니다 . 이것은 프로세스를 Beta-Bernoulli 프로세스로 만듭니다. 우리는 와 대한 사전 가정이 필요 하므로, 제조업체는 의심의 여지가 있지만 확실하지는 않지만 과 입니다. $p$ $p$ $\alpha$ $\beta$ $\alpha$ $\beta$ $\alpha = 1$ $\beta = 0$

600 번의 관측에서 583 개의 성공과 17 개의 실패가 관찰되었으므로 Beta-Bernoilli 프로세스를 업데이트하여 매개 변수 및 . 따라서 패킷 100의 경우 평균 97.17138 및 표준 편차 1.789028을 예상합니다 (예 : 수식에 대한 Wikipedia의 항목 참조 ). 분포 함수를 사용하면 패킷에서 90 미만을 가질 확률이 충분히 낮아서 (0.05 %) 그 가정을 무시할 수 있습니다. 그렇게하는 것은 우리의 가격을 설정하는 데 보수적입니다. $\alpha^* = 1+583$ $\beta^* = 0+17$

이 모델의 아름다움이 업데이트가 용이하다 와 (새로운 성공을 추가 및 새로운 장애 더 관찰 불확실성을 감소하기위한, 후방 모델은 베타 - 이항 남아있다) 초기 가정은 명백합니다. $\alpha^*$ $\beta^*$ $\alpha$ $\beta$

이제 각 패킷이 독립적으로 채워 졌다고 가정하면 전체 패킷 상자를 100 개의 하위 이벤트 100 개 이벤트가 아닌 10000 개의 독립 이벤트로 볼 수 있습니다. 따라서 평균은 표준 편차가 69.57153 인 9717.138입니다. 분포 함수를 사용하면 95 % 신뢰도를 약 9593으로 계산할 수 있습니다. R 패키지 VGAM를 사용하여 *betabinom.ab함수에 사용했습니다 .

따라서 추정 된 모수의 불확실성은 95 % 신뢰 가격을 거의 100만큼 줄이며, 우리는 초기 단순 근사치에 상당히 가깝습니다.

접근 방식 또는 모델이 무엇이든, 추가 데이터를 사용하여 모델의 유효성을 검사 할 수 있습니다. 즉 이론적 모델 또는 조정 또는 새 모델의 보증 여부에 따라 추가 데이터가 합당한 지 확인합니다. 모델링 프로세스는 과학적 방법과 유사합니다.

— A. 웹
소스

2

꼬집어 내 첫 번째 경향은 90과 100 레이블의 하한과 상한 사이에 떨어지는 잘린 정규 분포 에 대한 표본 평균의 95 % 신뢰 구간을 계산하는 것 입니다.

R 패키지를 truncnorm사용하면 지정된 표본 평균, 표본 표준 편차, 하한 및 상한을 고려하여 잘린 정규 분포에 대한 신뢰 구간을 찾을 수 있습니다.

상대적으로 적은 모집단 (N = 100)에서 n = 5의 표본을 취하므로 표본 표준 편차에 유한 모집단 = [(Nn) / (N-1)] ^을 곱하는 것이 좋습니다. 5 = 0.98.

— RobertF
소스

5

잘린 법선을 가정하는 추가 합병증이 가치가 있고 가치가 있는지 여부는 계산이 불 연속적이며 가능한 적은 수의 값만 취할 수 있는지 궁금합니다.

— whuber

@whuber-참이지만 신뢰 구간은 연속 평균 인 표본 평균의 분포를 초과합니다. 95 % 신뢰 구간을 사용하는 대신 93과 99의 불연속 수량 분포 아래에있는 영역을 찾는 것이 더 나은 선택 일 것입니다.

— RobertF

그러나 표본 평균을 처리하기 위해 잘린 법선이 필요하지 않습니다. 불필요한 합병증처럼 보입니다.

— whuber

1

CLT는 절단 된 정규 분포를 따르는 것이 무엇이든 주장하지 않습니다. 부트 스트랩은 유효성에 대한 점근 적 결과에 의존하기 때문에 문제가 될 수 있습니다.

— whuber

1

평균의 표준 편차가 범위보다 훨씬 더 작아지기 때문에 잘림은 실제로 관련이 없습니다. 우리는 불필요하고 혼란스러운 세부 사항으로 인해 복잡하지 않은 실용적인 솔루션에 대해 이야기하고 있습니다.

— whuber

2

빠르고 간단한 방법은 크기 6의 모든 가능한 리 샘플을 고려하는 것입니다. 순열은 15,625 개뿐입니다. 이를보고 각 사례의 평균을 취한 다음 평균을 정렬하고 5 % Quantile을 추출하면 96의 값을 얻습니다.

따라서 기꺼이 지불해야하는 예상 금액은 약 9600입니다. 이는보다 정교한 몇 가지 접근 방식과 잘 일치합니다.

여기서 개선 된 것은 크기가 6 인 많은 수의 표본을 시뮬레이션하고 동일한 절차를 사용하여 표본 평균의 5 번째 백분위 수를 찾는 것입니다. 백만 개가 넘는 리샘플링을 사용하여 5 백분위 수가 96.1667임을 알았으므로 가장 가까운 달러의 지불액은 9617 달러이며 이는 user777의 9615 결과와 2 달러 차이입니다.

— 소 클리
소스

1

이것이 지불해야하는 금액에 대한 적절한 답변 인 이유를 설명해 주시겠습니까? 예를 들어 표본의 평균을 사용하지 않는 이유는 무엇입니까?

— whuber

생각하는 레이블 수와 일치하는 지불을 원한다면 표본 평균을 사용합니다. 그러나 질문자는 자신이 만든 것보다 더 많은 라벨을 지불하지 않는다는 95 %의 확신을 요구했다. 따라서 우리는 크기가 6 인 표본에 대한 표본 평균의 분포에 대한 아이디어를 얻고 5 번째 백분위 수를 사용합니다.

— soakley

1

답변에 해당 설명을 포함시키는 것이 좋습니다. 이 리샘플링 절차가 실제로 유효하거나 신뢰할 수있는 신뢰 한계를 생성한다고 생각하는 이유를 설명 할 수도 있습니다. 많은 큰 데이터 세트에서 그렇게 할 수 있지만, 작은 데이터 세트에서 같은 방식으로 사용할 수 있는지 고려해야합니다.

— whuber

0

오류가 의도적으로 수행되었다고 이미 결론을 내린 것으로 보이지만 통계학자는 이러한 결론에 도달하지는 않습니다 (증거가이를 뒷받침하는 것으로 보이지만).

이를 가설 검정으로 설정할 수 있습니다.

H0 : 딜러는 정직하지만 매우 조잡합니다.

H1 : 딜러가 사기이며, 그 부족분은 의도적입니다.

H0이라고 가정하면 각 편차는 평균 = 0이고 양수 또는 음수가 될 확률이 랜덤 한 임의의 사건입니다. 편차가 정규 분포를 따른다고 가정합니다. 6 개 데이터 요소의 편차를 기반으로 한 정규 분포의 표준 편차는 sd = 1.722입니다.

통계학자가 자신의 이론을 잘 기억하지 못했지만 근처에 R이있는 경우 (아마도 시나리오가 아님) 다음 H0이 참된.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

시뮬레이션 결과는 다음과 같습니다.

The probability the H0 is correct is: 5.3471 %

딜러가 정직 할 확률은 5.35 %에 불과하므로 사기의 피해자 일 가능성이 높습니다.

이것은 숙제 문제가 아니라 회사의 실제 상황이라고 말하기 때문에 올바른 예상 숫자 레이블을 계산하는 연습이 아니라 대신 부정직 한 공급 업체를 처리하는 까다로운 사례입니다.

여기서 당신이하는 일은 통계만으로는 대답 할 수 없습니다. 그것은 당신의 레버리지와 딜러와의 관계에 달려 있습니다.

행운을 빕니다 !

Morten Bunes 구스타브 센

— Morten Bunes 구스타브 센
소스

1

5.35 %에 도달하는 데 어려움을 겪고 있습니다. 이 소리 는 레이블 카운트 패키지 당 100 개 라벨의 평균 무작위 할당의 결과 가정되어있다. 그렇다면 표준 오차가 인 의 평균 편차를 관찰했으며 , 관측치가 미만의 표준 오차 임을 나타냅니다 . 제안한 바와 같이 정규 근사는 p- 값이 5.35 %보다 훨씬 낮습니다.이를 알아 내기 위해 시뮬레이션을 실행할 필요가 없습니다. 그러나이 계산은 문제의 명시 적 가정을 무시합니다.

17 / 6

$17/6$

1.72 / \sqrt{6} \approx 0.70

$1.72/\sqrt{6}\approx 0.70$

17 / 6 / 0.70 \approx 4.0

$17/6/0.70 \approx 4.0$

100

$100$

0.00003

$0.00003$

— whuber

실패는 항상 옵션이므로 실수했을 수도 있습니다 ...하지만 계산은 내가 제공 한 R 코드로 문서화되어 있으므로 결과를 얻는 방법에 대해 궁금 할 이유가 없습니다. 예, 필자의 경우 H0 가설은 딜러가 정직하고 편차가 평균 100의 임의 변동 인 것입니다. 내 계산에서 Stdev는 계열의 Stdev 일뿐입니다 (-3, -2, -4, 0, -5, -3), 이는 각 패키지에서 100과의 편차입니다.

— Morten Bunes Gustavsen

나는 실제로이 정규 편차를 사용하고, 6 개의 샘플을 그리고 그 중 어느 것도 0보다 크지 않은지 확인합니다. 시뮬레이션을 1000,000 번 실행하고 0보다 큰 샘플을 얻지 못할 정도로 불행한 횟수를 정복합니다. 사례의 5.35 %로 밝혀졌습니다. 내가이 각도를 선택하는 이유는 질문이 실제 상황 (예 : 학문적 운동이 아님)이며,이 경우 통계학자가 무엇을하는지 알고 싶다고 명시했기 때문입니다.

— Morten Bunes Gustavsen

3

또한 한 패킷에 100 개 이상의 레이블을 세지 않을 가능성이 있다고 언급했다. 어쨌든, 당신이 한 일은 데이터와 같은 종류의 숫자에 대한 광범위한 시뮬레이션입니다. 그러나 질문과 관련이있는 것 ( "우리가 지불해야하는 금액")은 모호합니다.

— whuber

-2

다항식 모델과 같은 것은 어떻습니까?

각 결과의 확률은 1/6, 1/6, .... (6 개의 관측치 기반)으로 추정되므로 E (x) = 97.16 및 Var (x) = sum (95 ^ 2 * 1 / 6 + ...)-E (x) ^ 2 = 2.47이므로 95 % CI는 [94, 100]입니다.

— 싱
소스

3

이것은 전혀 다항식이 아닌 것처럼 보입니다. CI는 분산에 대해 수정되지 않은 공식을 사용하는 정규 이론 간격 인 것 같습니다. 게다가, 얼마나 지불해야하는지에 대한 질문에 어떻게 대답합니까?

— whuber

다항식은 결과, 즉 95, 96, 97 ... 100에 적용되며, 예를 들어 xe (x) / sd ~ N이므로 CI는 정규 이론입니다. * 100

— Xing

4

다항식 가정을 전혀 사용하지 않는 것을 보셨습니까? WS Gosset이 1908 년에 관찰 한 것처럼 CI가 너무 짧습니다. 그러나 권장 사항을 샘플의 평균에만 기반으로한다면 왜 CI를 계산합니까?

— whuber

얼마를 지불합니까? 실용적인 문제

베이지안 모델

로트 가격을 고려하는 적절한 방법은 무엇입니까?

부트 스트랩과 비교