짧은 대답 :
기본적으로 10 개 중 6 개가 임의의 우연히 발생할 가능성이 훨씬 높기 때문에 10 개 중 6 개보다 1000 개 중 600 개를 사용하는 것이 더 설득력이 있습니다 .
오렌지와 사과를 선호하는 비율이 실제로 같다고 가정합니다 (각각 50 %). 이것을 귀무 가설이라고합니다. 이러한 동일한 확률로 두 결과의 가능성은 다음과 같습니다.
- 10 명의 표본이 주어지면 38 %의 확률 로 오렌지를 선호하는 6 명 이상의 표본을 무작위로 얻을 수 있습니다 (모두 그런 것은 아닙니다).
- 1000 명으로 구성된 표본의 경우 1000 명 중 600 명 이상이 오렌지를 선호 할 확률이 10 억 명 미만 입니다.
(간단하게하기 위해 무제한의 샘플을 그릴 수있는 무한한 인구를 가정합니다).
간단한 파생
이 결과를 도출하는 한 가지 방법은 사람들이 샘플에서 결합 할 수있는 잠재적 인 방법을 간단히 나열하는 것입니다.
10 명에게는 쉽습니다.
사과 나 오렌지를 선호하는 무한한 인구 집단에서 무작위로 10 명의 표본을 추출하는 것을 고려하십시오. 동일한 환경 설정을 사용하면 10 명의 잠재적 조합을 모두 쉽게 나열 할 수 있습니다.
전체 목록은 다음과 같습니다.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r은 결과의 수 (오렌지를 선호하는 사람들)이고, C는 많은 사람들이 오렌지를 선호하는 가능한 방법의 수이며, p는 많은 사람들이 표본에서 오렌지를 선호 할 수있는 이산 확률입니다.
(p는 C를 총 조합 수로 나눈 값입니다.이 두 가지 기본 설정을 총 1024 가지 방법으로 정리할 수 있습니다 (예 : 2에서 10의 거듭 제곱).
- 예를 들어 10 명 (r = 10)에게는 모두 오렌지를 선호하는 단 하나의 방법 (하나의 샘플) 만 있습니다. 사과를 선호하는 모든 사람들에게도 마찬가지입니다 (r = 0).
- 10 가지 조합이 있으며 그 중 9 가지가 오렌지를 선호합니다. (한 명의 다른 사람이 각 샘플에서 사과를 선호합니다).
- 두 사람이 사과 등을 선호하는 45 개의 샘플 (조합)이 있습니다.
(대한 일반적인 우리의 대화에서 C r에 n 개의 결과의 조합이 r에 의 샘플에서 n 개의 사람. 당신이이 번호를 확인하는 데 사용할 수있는 온라인 계산기가 있습니다.)
이리스트를 통해 우리는 단지 나눗셈을 사용하여 위의 확률을 제공 할 수 있습니다. 표본에서 오렌지를 선호하는 6 명을 얻을 확률은 21 %입니다 (조합 중 1024 명 중 210 명). 샘플에 6 명 이상이 들어갈 확률은 38 %입니다 (6 명 이상이있는 모든 샘플의 합계 또는 1024 조합 중 386).
그래픽으로 확률은 다음과 같습니다.
숫자가 클수록 잠재적 조합 수가 빠르게 증가합니다.
단지 20 명으로 구성된 표본의 경우 1,048,576 개의 가능한 표본이 있으며 모두 같은 가능성을 갖습니다. (참고 : 아래의 두 번째 조합 만 표시했습니다).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
20 명 모두가 오렌지를 선호하는 샘플은 여전히 하나뿐입니다. 혼합 된 결과를 특징으로하는 조합은 샘플에있는 사람들을 결합 할 수있는 더 많은 방법이 있기 때문에 훨씬 더 가능성이 높습니다.
편향된 샘플은 그 샘플을 생성 할 수있는 사람들의 조합이 적기 때문에 훨씬 더 가능성이 적습니다.
각 표본에 20 명만 있으면 오렌지를 선호하는 표본에 60 % 이상 (12 명 이상)이있을 확률이 25 %로 떨어집니다.
확률 분포는 더 얇고 커지는 것으로 볼 수 있습니다.
1000 명으로 숫자가 엄청나 다
위의 예제를 더 큰 샘플로 확장 할 수 있지만 (모든 조합을 나열하기에는 숫자가 너무 빠르게 커짐) 대신 R의 확률을 계산했습니다.
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
1000 명 중 600 명 이상이 오렌지를 선호 할 확률은 1.364232e-10에 불과합니다.
확률 분포는 이제 중심 주위에 훨씬 더 집중되어 있습니다.
[
(예를 들어, R 사용시 오렌지를 선호하는 1000 명 중 정확히 600 명의 확률을 dbinom(600, 1000, prob=0.5)
4.633908e-11로 계산하고 600 명 이상을 확률로 계산하면 1-pbinom(599, 1000, prob=0.5)
1.364232e-10 (1 억 미만)입니다.