Bernoulli 시험 또는 George Lucas 영화 실험에서 K의 성공


23

나는 지금 "Drunkard 's Walk"를 읽고 있는데 한 이야기를 이해할 수 없습니다.

여기 간다:

George Lucas가 새로운 Star Wars 영화를 만들고 한 테스트 시장에서 미친 실험을하기로 결정했다고 상상해보십시오. 그는 "스타 워즈 : 에피소드 A"와 "스타 워즈 : 에피소드 B"라는 두 가지 제목으로 동일한 영화를 발표합니다. 각 영화에는 자체 마케팅 캠페인 및 배포 일정이 있으며 한 영화의 예고편과 광고는 "Episode A", 다른 영화의 예고편과 광고는 "Episode B"를 제외하고는 동일합니다.

이제 우리는 그것으로 콘테스트를 만듭니다. 어느 영화가 더 인기가 있습니까? 처음 20,000 명의 영화 관람객을보고 그들이보기로 선택한 영화를 녹화한다고 가정 해 보겠습니다 (두 사람 모두에게 갈 수있는 두려운 팬을 무시한 후 둘 사이에 미묘하지만 의미있는 차이가 있다고 주장합니다). 영화와 마케팅 캠페인이 동일하기 때문에 게임을 수학적으로 모델링 할 수 있습니다. 모든 뷰어를 한 줄로 정렬하고 각 뷰어의 동전을 차례로 뒤집는다고 상상해보십시오. 동전이 나오면 에피소드 A를 보게됩니다. 동전이 꼬리에 닿으면 에피소드 B입니다. 동전이 어느 쪽이든 올 수있는 기회가 있기 때문에,이 실험적인 박스 오피스 전쟁에서 각 영화는 반 시간 정도 앞서야한다고 생각할 것입니다.

그러나 무작위의 수학은 달리 말한다 : 리드에서 가장 가능성이 많은 변화는 0이며, 두 영화 중 하나가 20,000 명의 고객을 통해 리드 할 가능성이 88 배 더 높습니다. "

나는 아마도 이것을 잘못된 베르누이 (Beroulli) 시련의 문제로보고, 지도자가 평균적으로 시소하지 않는 이유를 알 수 없다고 말해야한다. 누구든지 설명 할 수 있습니까?

답변:


22

다음은 George Lucas 실험을 시뮬레이션하기위한 R 코드입니다.

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

실행하면 다음과 같은 그림이 나타납니다.

여기에 이미지 설명을 입력하십시오

여기서 A와 B 사이의 판매 티켓 차이는 y 축에 있습니다.

다음으로 시뮬레이션 된 George Lucas 실험을 실행합니다. 각 실험에 대해 소요 시간의 비율 , 즉 A에 판매 된 티켓 수가 B에 판매 된 티켓 수보다 크거나 같은 정렬 된 뷰어 의 비율을 계산합니다 . 직관적으로, 귀하는 d는이 비율이 대략 이어야한다고 말합니다 . 결과의 히스토그램은 다음과 같습니다.0 1 / 210,00001/2

여기에 이미지 설명을 입력하십시오

비율은 기대치가 있다는 점에서 평균 이지만 에 가까운 값에 비해 가능성 값 또는 . 대부분의 실험에서 차이는 대부분 긍정적이거나 부정적입니다!1 / 2 1 / 2 0 11/21/21/201

빨간색 곡선은 분포 라고도하는 아크 사인 분포의 밀도 함수입니다 . 위의 그림에서 보여지는 것은 랜덤 보행에 대한 최초의 아르시네 법칙 으로 알려진 정리 입니다. 즉, 단순한 대칭 랜덤 보행의 단계 수가 무한대에 가까워 질수록 보다 큰 시간 비율의 분포 는 아크 사인 분포. 이 결과에 대한 표준 참고 자료는 William Feller의 Vol .Beta(1/2,1/2) 00


시뮬레이션 연구의 R 코드는

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

감사! R을 설치하고 모든 단계를 반복하고 싶습니다. 10,000 개의 시뮬레이션을 실행하고 소요 된 시간의 비율을 어떻게 계산할 수 있습니까?
andreister

@andreister : 마지막에 시뮬레이션 코드를 추가하여 답변을 편집했습니다. 도움이 되셨기를 바랍니다.
MånsT

고마워, 그것은 매우 유용합니다! 내용을 이해하기 위해 코드에 따라 pastebin.com/mtRdsPkP 를 만들었습니다 .
andreister

@andreister : 좋아 보인다! 시청자가 줄을 서서 티켓을 구매 한 영화를 하나씩 확인한다는 것을 상상하는 cumsum대신 왜 사용 되는지에 대한 질문에 답하십시오 sum. cumsum는 부분 합으로 구성된 벡터를 제공하므로 첫 번째 요소는 A가 1 시청자 다음에 얼마나 멀리 있는지 / 뒤에 있는지, 두 번째 요소는 A가 2 시청자 뒤에 얼마나 멀리 있는지, 3 번째 요소 뒤에 3 번째 요소 등을 알려줍니다. 요소 가 양수이면 A는 첫 번째 뷰어 다음에 더 많은 뷰어를 갖습니다 . 음수 인 경우, B는 더 많은 시청자를했다하고 0 인 경우 그들은 시청자의 같은 수 있었다내가ii
MånsT

(계속)이 정보는 리더가 톱을 봤는지 확인하고 싶기 때문에 우리가 관심을 갖고있는 정보입니다. sum직후에 당신에게 최종 결과를 제공하는 모든 1과 -1의, 합계 것 모두 20,000 시청자는 (의 즉 마지막 요소를 차지 한 cumsum벡터).
MånsT

11

A와 B 둘 다 홀수 번의 시도 (타이를 피하기 위해 홀수) 후에 기회 집니다 . 그러나 이러한 이벤트는 관련이 있습니다. 어느 (으)이다 가 (으) 할 기회 , 그리고이 같은 더 극적인 얻을 수 증가.t에서 t = 1 3 / 41/2tt=13/4t=3t

총 시행 횟수가 증가함에 따라 평균 리드 변경 횟수는 무한대로 증가하지만 느리게 증가합니다. 차원 에서 드리프트가없는 임의의 보행 은 반복적이지만, 지금까지 리드에있을 수 있지만, 미래의 어느 시점 (무한 시도 횟수로)에 묶여 질 확률은 입니다. 그러나, 당신이 단 한 명을 인도하더라도, 당신이 다시 오기까지의 예상 시간은 무한합니다. 다시 돌아 가기까지 시간이 오래 걸릴 가능성이 큽니다.111

즉, 모드는 효과를 과장하는 데 사용됩니다 . 실제로 번의 시도 에서 리드 변경이 전혀없는 것이 놀랍습니다 .20,000

확률의 일부를 계산하려면 대각선을 가로 지르지 않는 격자 보행과 유사한 것을 계산해야합니다. 반사 원리 또는 반사 방법 이라고 불리는 이러한 선을 통과하지 않는 임의의 보행 (및 브라운 운동)에 적용되는 훌륭한 조합 방법이 있습니다. 이것은 카탈로니아 어 숫자 를 결정하는 한 가지 방법 입니다 . 다른 두 가지 응용 프로그램은 다음과 같습니다.

가 보다 앞선 순서의 수 는 입니다. 에서 끝나는 각 시퀀스에서 , 하나 선두 결코 또는하는 어떤 시점가 이기고 제된다. 가 리드를 얻는 다면 , 나중에 시행하는 것을 끝나는 시퀀스가 이것은 입니다. 그래서에서 결국 시퀀스의 수 그래서 선두 결코입니다A10,2009,800(10,200,9,800)B(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.따라서 도달했을 때 가 어느 시점에서 앞서 약 임을 알 수 있습니다 .B(10,200,9,800),96%

가 뒤지지 않도록 엔드 포인트가있는 총 시퀀스 수 는따라서 가 결코 뒤지지 않을 확률 은 약 입니다. 리드가 변경되지 않을 가능성은 약리드 변경의 평균 수는 약 입니다.A(20,00010,000)220,000/10,000π.A1100π150π1/89.56


감사! 나는 당신의 대답을 이해하기 전에 표기법을 이해해야합니다! "앞서 10,200-9,800"등의 의미는 무엇입니까? 어디에서 숫자를 얻습니까? 20K가 모드라는 것을 어떻게 알 수 있습니까?
andreister

값 이 예입니다. 그것은 가능한 결과 중 하나 일뿐입니다. 또는 대해 동일한 종류의 분석을 수행 할 수 있습니다나는 이 어떤 모드라고 말하지 않았다. 귀하의 견적은 "리드에서 가장 가능성이 높은 변화는 "라고 말했습니다. 이는 이 모드 임을 의미 합니다. 그러나 이는 가 가까운 기하 분포와 유사합니다 . 가장 가능성이 높은 값은 ( 기반 규칙 을 사용하는 경우 )이지만 그럴 가능성은 없습니다. 확률이 약간 낮은 다른 가능성이 많이 있습니다. 10,2009,80011,0009,00010,0019,999.20,00000p000
Douglas Zare

0

"두 영화 중 하나가 계속해서 시소하는 것보다 20,000 명의 고객을 모두 이끌 가능성이 88 배나 높다"

일반 영어로 : 영화 중 하나가 조기에 리드합니다. 첫 번째 고객이 A 또는 B로 가야하기 때문에 그 영화는 그 리드를 잃어 버릴만큼 가능성이 높습니다.

완벽한 시소가 매우 불가능하다는 것을 기억할 때까지 88 배나 더 가능성이 높습니다 . 이것을 그래픽으로 보여주는 MansT의 답변 에있는 차트 는 매력적이지 않습니다.

ASIDE : 개인적으로, <buzzword-alert>바이러스 성 마케팅 으로 인해 88 번 이상이 될 것이라고 생각합니다 </buzzword-alert>. 각 사람은 다른 사람들에게 자신이 본 내용을 묻고 동일한 영화를 방문 할 가능성이 높습니다. 그들은 무의식적으로 이것을 할 것입니다 : 사람들은 무언가를 보러 가기 위해 긴 줄에 합류 할 가능성이 더 큽니다. 즉, 처음 몇 명의 고객 중 무작위가 리더를 만들 자마자 인간 심리학은 리더로 유지합니다 :-).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.