과제 달성률을 논의 할 때 20 회 시도 중 0 회가 10 회 시도 중 0 회보다 "나쁘다"는 것을 보여주는 방법이 있습니까?
과제 달성률을 논의 할 때 20 회 시도 중 0 회가 10 회 시도 중 0 회보다 "나쁘다"는 것을 보여주는 방법이 있습니까?
답변:
시도에서 성공할 확률을 알고 있다고 가정합니다. 이 경우 10에서 0, 20에서 0의 확률을 계산합니다.
그러나이 경우에는 다른 방향으로 진행합니다. 우리는 확률을 모르고 데이터를 가지고 있으며 확률을 추정하려고합니다.
사례가 많을수록 결과에 대한 확신이 커집니다. 동전 하나를 뒤집어 놓으면 머리가 될 것입니다. 동전이 양면인지 확실하지 않습니다. 1,000 번 던질 때 머리가 모두 균형을 잡을 수 없을 것입니다.
추정을 할 때 트레일 수를 고려하기 위해 고안된 방법이 있습니다. 그들 중 하나는 @abukaj가 위에서 언급 한 추가 평활화 입니다. 추가 평활화에서는 의사 샘플을 추가로 추가합니다. 이 경우 트레일 대신 성공과 실패의 두 가지를 더 추가했습니다.
추가 평활화는 한 가지 추정 방법 일뿐입니다. 다른 방법으로 다른 결과를 얻을 수 있습니다. 첨가제 스무딩 자체를 사용하더라도 4 개의 의사 샘플을 추가하면 다른 결과를 얻을 수 있습니다.
또 다른 방법은 @mdewey가 제안한대로 신뢰 구간 을 사용하는 것 입니다. 표본이 많을수록 신뢰 구간이 짧아집니다. 신뢰 구간의 크기는 표본의 제곱근 ( )에 비례합니다 . 따라서 표본 수를 두 배로 늘리면 신뢰 구간 이 더 짧아집니다.
두 경우 모두 평균은 0입니다. 신뢰 수준은 90 % (z = 1.645)입니다.
데이터가 누락 된 경우 불확실성이 있습니다. 가정하고 사용할 외부 데이터에 따라 결과가 달라집니다.
신뢰 구간을 호출한다는 개념을 확장하면 정확한 이항 구간이라는 개념이 있습니다.
이항 분포는 0 (실패) 또는 1 (성공)으로 끝나는 독립 시험에서 총 성공 횟수의 분포입니다. 1 (성공)을 얻을 확률은 전통적으로 로 표시 되고 그 보수는 입니다. 그런 다음 표준 확률 결과는 시행 에서 정확히 성공 확률 이q = 1 − p k n
신뢰 구간의 개념은 모델 매개 변수의 가능한 값 세트 (여기서는 성공 확률 ) 를 바인딩 하여 실제 매개 변수 값이이 구간 내에 있는지에 대한 확률 론적 (잘, 빈번한 ) 진술을 작성할 수 있도록하는 것입니다 (즉, 즉, 10 회 또는 20 회 시도하는 확률 론적 실험을 반복하고 특정 방식으로 신뢰 구간을 구성하면 모수의 실제 값이 시간의 95 % 구간 내에 있음을 알 수 있습니다.
이 경우 다음 공식에서 를 풀 수 있습니다 .
따라서 95 % 일방 간격을 원한다면 관측 된 0 카운트가 최대 5 % 일 확률을 해결하기 위해 를 설정합니다. 들면 , 응답이 (각 시험에서의 성공 확률은 13.9 %, 제로 성공을 관찰 한 후, 확률 인 경우 즉, 극단적으로, 5 %). 들면 , 대답은 . 그래서 샘플에서 , 우리는 더의 샘플에서보다 학습 우리 '' ''의 범위를 제외 할 수 있다는 점에서, 의 샘플이 여전히 그럴듯하게 떠난다.
우도 함수 베르누이이며 분포는 베타 인 공액 종래 베르누이 분포는, 따라서 후방은 베타 분포를 따른다. 또한 후부는 다음과 같이 매개 변수화됩니다.
따라서:
따라서 10 개의 실패가 표시되면 대한 기대치 는 이고 20 개의 실패가 표시되면 대한 기대 는 . 오류가 많을수록 대한 기대치가 낮아집니다 .
이것이 합리적인 논쟁입니까? 확률 역학을 사용하여 일부 모수 대한 불확실성을 모형화 할 것인지 여부에 따라 베이지안 통계에 대한 느낌에 따라 달라집니다 . 그리고 그것은 당신이 이전의 선택이 얼마나 합리적인지에 달려 있습니다.