한 모집단의 임의 구성원이 다른 모집단의 임의 구성원보다 "더 나은"확률을 어떻게 추정 할 수 있습니까?


15

두 개의 다른 모집단에서 표본 추출이 있다고 가정합니다. 각 구성원이 작업을 수행하는 데 걸리는 시간을 측정하면 각 모집단의 평균 및 분산을 쉽게 추정 할 수 있습니다.

이제 각 모집단의 한 개인과 임의의 쌍을 가정한다고 가정하면 첫 번째가 두 번째보다 빠를 확률을 추정 할 수 있습니까?

구체적인 예를 염두에두고 있습니다. 측정은 A에서 B로 순환하는 타이밍이며 인구는 내가 취할 수있는 다른 경로를 나타냅니다. 다음 사이클에 대한 경로 A를 선택하는 것이 경로 B를 선택하는 것보다 빠를 확률을 알아 내려고 노력하고 있습니다. 실제로주기를 수행하면 샘플 세트에 대한 다른 데이터 포인트가 있습니다. :).

나는 이것이 하루 종일 바람이 다른 시간보다 내 시간에 영향을 줄 가능성이 높기 때문에 이것을 해결하기 위해 끔찍하게 단순한 방법이라는 것을 알고 있습니다. 잘못된 질문 ...


이것은 간단한 이항 테스트를 통해 수행 할 수 있으며 @ Macro는 좋은 대답을합니다. 그러나 한 가지 문제는 샘플 자체에 있습니다. 루트 A 또는 루트 B를 결정하는 데 영향을 줄 수있는 것이 있습니까? 특히, 도로가 건조하고 바람이 등을 맞으며 저녁 식사를 기다리는 동안 루트 A를 타시겠습니까? :) 세트의 특이 치에 영향을 줄 수 있거나 샘플을 어떤 식 으로든 편향시킬 수있는 것은 조심하십시오. 예를 들어, 변경 계획 (예 : 안전)을 고려하여 샘플링 계획을 미리 설정해보십시오.
Iterator

다른 고려 사항 : 매우 유사한 수단을 가진 두 개의 경로가 있고 더 빠를 확률의 측면에서 다른 경로를 지배하지 않는다고 가정하십시오. 예를 들어 하나는 항상 10 분 또는 20 분이고 다른 하나는 항상 정확히 15 분입니다. 더 큰 불확실성 (예 : 표준 편차)에 불이익을가하거나 시간 임계 값보다 적게 걸릴 가능성이 높은 것을 선호하는 것이 좋습니다. 귀하의 질문은 그대로입니다. 나는 단지 미래의 개선을 제안하고 있습니다.
반복자

통계 질문은 괜찮지 만 어떤 경로가 더 빠른 확률을 계산하려면 경로의 길이를 측정하는 것이 좋습니다. 지형이 언덕이 많지 않으면 짧은 경로가 항상 더 빠릅니다.
mpiktas

바람이 중요한 요소이고 풍속이 두 경로와 관련이 있다면 질문에 정확하게 대답하기 위해 A와 B 사이의 의존성에 대한 정보가 필요할 것 같습니다. 이를 위해서는 이변 량 데이터가 필요하며 동시에 두 경로를 타기가 어렵습니다. 데이터 수집을 돕기 위해 다른 사람을 참여시킬 수 있지만 라이더 간의 변동성을 고려해야합니다. A와 B가 독립적 인 경우 아래 답변이 훌륭합니다.

달리 말하면, 어떤 길을 가야하는지, 터널을 통과하고, 들판을 통과하고, 바람이 미친 듯이 날리는 것을 결정하려고한다면, 평균적으로 끔찍하게 나빠지더라도 필드를 아주 잘 선택할 수 있습니다.

답변:


12

해결책

두 평균이 μ y 이고 표준 편차가 각각 σ xσ y가되도록하십시오 . 따라서 두 타기 ( Y - X ) 간의 타이밍 차이 는 평균 μ yμ x 및 표준 편차 μ엑스μ와이σ엑스σ와이와이엑스μ와이μ엑스 . 표준화 된 차이 ( "z score")는σ엑스2+σ와이2

=μ와이μ엑스σ엑스2+σ와이2.

승차 시간에 이상한 분포가없는 한, 승차 가 승차 X 보다 오래 걸리는 확률 은 대략 정규 누적 분포입니다.와이엑스 z 에서 평가 된 Φ 입니다.Φ

계산

이미 등의 추정치가 있으므로 승차 중 하나에서이 확률을 계산할 수 있습니다 . :-). 이러한 목적을 위해 그것은 몇 키 값을 기억하기 쉽게 Φ를 : Φ ( 0 ) = 0.5 = 1 / 2 , Φ ( - 1 ) 0.16 1 / (6) , Φ ( - 2 ) 0.022 1 /1 . (근사값은 | z |μ엑스ΦΦ(0)=.5=1/2Φ(1)0.161/6 , 및 Φ / (750)Φ(2)0.0221/40Φ(3)0.00131/750|z| 훨씬 초과 하지만 알면 Φ (이 - 3 ) 보간에 있습니다.)와 결합 Φ ( Z ) = 1 - Φ (2Φ(3) 의 보간 및 비트하면 하나의 중요한 수치에 대한 확률을 신속하게 추정 할 수 있으며, 이는 문제의 성격과 데이터를 감안할 때 충분히 정확합니다.Φ(z)=1Φ(z)

경로 는 표준 편차가 6 분인 30 분, 경로 Y 는 표준 편차가 8 분인 36 분을 가정합니다 . 광범위한 조건을 포괄하는 충분한 데이터가 있으면 데이터 히스토그램은 결국 다음과 비슷할 수 있습니다.XY

두 히스토그램

(이것은 감마 (25, 30/25) 및 감마 (20, 36/20) 변수에 대한 확률 밀도 함수입니다. 승차 시간이 예상되는대로 결정적으로 오른쪽으로 치우친 것을 관찰하십시오.)

그때

μx=30,μy=36,σx=6,σy=8.

어떻게

z=363062+82=0.6.

우리는

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

따라서 답은 0.5에서 0.84 사이의 0.6입니다. 0.5 + 0.6 * (0.84-0.5) = 약 0.70. (정규 분포의 정확하지만 지나치게 정확한 값은 0.73입니다.)

경로가 X 경로보다 더 오래 걸릴 확률은 약 70 %입니다.YX 입니다. 머리에서이 계산을하면 다음 언덕에서 벗어나게됩니다. :-)

(보통 히스토그램에 대한 정확한 확률은 72 %이지만 정상이 아니더라도 트립 시간의 차이에 대한 정규 근사의 범위와 유용성을 보여줍니다.)


각 분포에서 iid를 실현 한 경우 몬테카를로 리샘플링 방식 (정답)보다는 정규 근사법을 사용하여 를 추정하는 이점은 무엇 입니까? P(X>Y)
매크로

@ 매크로 : 관심있는 Q에 대한 요약 통계로 데이터를 줄일 수 있다면 더 적은 데이터를 저장할 수 있습니다.
반복자

죄송합니다, 내 뇌는 열에 튀 겼고 나는 명백한 대답을 놓쳤다. 당신은 각각 다른 질문에 대답하고 있습니다. @whuber가 평균 시간의 차이를 고려하고있는 반면, 부트 스트랩 방법은 추정 를 제공합니다. 옵션 Y 가 시간의 옵션 X 60 % 보다 짧은 경우를 구성하는 것은 어렵지 않지만 Y 의 평균은 X 의 평균보다 큽니다 . P(X>Y)YXYX
Iterator

FWIW : @whuber는 표준 편차가 다른 두 표본 간의 평균 차이에 대한 스튜던트 t- 검정을 설명합니다.
Iterator

1
고마워, @ whuber, 이것은 내가 물어 보려고했던 질문에 대한 답변입니다 :).
앤드류 Aylett

6

내 본능적 접근 방식은 통계적으로 가장 정교하지는 않지만 더 재미있을 수 있습니다. :)

적절한 크기의 그래프 용지를 가져 와서 열을 시간 블록으로 나눕니다. 타는 시간에 따라 평균 시간이 5 분 또는 1 시간인지에 따라 다른 크기의 블록을 사용할 수 있습니다. 각 열이 2 분의 블록이라고 가정 해 봅시다. 루트 A의 색과 루트 B의 다른 색을 선택하고, 각 주행 후 해당 열에 점을 만드십시오. 해당 색상의 점이 이미 있으면 한 행 위로 이동하십시오. 다시 말해, 이것은 절대 숫자의 히스토그램 일 것입니다.

그런 다음 타고 갈 때마다 재미있는 히스토그램을 만들고 두 경로의 차이를 시각적으로 볼 수 있습니다.

자전거 통근자로서의 자신의 경험 (정량화를 통해 확인되지 않음)에 대한 나의 감각은 시간이 정상적으로 분포되지 않을 것이라는 것입니다. 나의 전형적인 시간은 가능한 가장 짧은 시간보다 훨씬 길지는 않지만, 매번 모든 빨간 불을 치는 것 같고, 더 높은 상한이 있습니다. 당신의 경험은 다를 수 있습니다. 그렇기 때문에 히스토그램 접근 방식이 더 좋을 것이므로 분포 형태를 직접 관찰 할 수 있습니다.

추신 : 나는이 포럼에서 의견을 말할 충분한 담당자가 없지만 whuber의 답변을 좋아합니다! 그는 샘플 분석을 통해 왜도에 대한 나의 우려를 매우 효과적으로 해결합니다. 그리고 나는 당신의 머리를 계산하여 다음 언덕에서 당신의 마음을 지키는 아이디어를 좋아합니다 :)


1
+1 창의성. 실제로, 당신의 아이디어는 실용적인 유용성을 향한 길에 있습니다. 세그먼트 시간을 추적하기 위해 자전거 추적 사이트 중 하나를 사용하는 것이 더 흥미로울 것입니다. OP가 CV 또는 StackOverflow로 돌아와 세그먼트 시간을 플롯하는 것에 대한 질문과 관련하여 밀도를 얻는다면 GIS, 통계 시각화 및 밀도 함수와 같은 멋진 통계 연습이 될 것입니다. :)
Iterator

1
휴대 전화에서 Google MyTracks를 사용하여 자전거 세그먼트를 추적했습니다. 전화가 최적화되지 않은 장치에서 전력을 소모하는 경향이 있기 때문에 전화가 그다지 좋지 않다는 것을 알았습니다. Garmin (및 기타)은 달리기 및 자전거 타는 사람을 대상으로 GPS 장치를 특별히 만들어 경로에 소요되는 시간을 추적하고 온라인 인터페이스에서 깔끔한 차트를 제공합니다. 전용 GPS 장치를 직접 사용하지는 않지만 일부 친구는이 장치를 사용하여 페이스 북에서 경로를 공유합니다.
조나단

1
다음은 Garmin 장치가 생성 하는 입니다. 차트의 문제점은 이미 사전 처리, 스무딩 등이 이미 많이 처리되어 있다는 것입니다. 또한 데이터를 R로 가져 오는 편리한 방법도 없습니다. 그러나 전용 장치로서 훌륭하게 작동하므로 장치가 없으면 달리거나 자전거를 타는 것을 상상할 수 없습니다.
mpiktas

+1 시간이 걸리지 않는 한 적색 등을 때리면 비뚤어지지 않습니다. 일반적으로 시간 분포에 약간의 가우스 잡음 만 추가합니다. (그 차이를 계산하는 것은 다음 언덕에서 할 수있는 또 다른 정신 운동입니다.) 실제로 비틀림은 전체 주행을 제어하는 ​​몇 가지 중요한 요소, 즉 날씨, 기분, 기분에 따라 비 가우시안 변형에서 비롯됩니다. 다시 타고, 가끔 사고 / 우회 / 교통 체증 등
whuber

이제 좀 더 생각해 보니 또 다른 중요한 요소는 시간입니다. 교통량이 많은 도로에서는 교통 신호등이 매우 다르게 작동합니다. 교통량이 많은 도로의 경우 더 긴 초록색입니다. 사용량이 적은 시간대에는 교통량이 많은 도로의 경우 기본적으로 녹색으로 기본 설정되어 표시등이 빠르게 순환하지만 교차 버튼을 누르거나 자동차가 센서를 활성화하면 빠르게 변경됩니다.
Jonathan

5

두 데이터 세트가 엑스와이. 각 모집단에서 한 사람을 무작위로 샘플링하여엑스,와이. '1'을 기록하면엑스>와이그렇지 않으면 0입니다. 이것을 여러 번 반복하십시오 (예 : 10000).이 지표의 평균은(엑스나는>와이제이) 어디 나는,제이두 모집단에서 각각 무작위로 선택된 과목입니다. R에서 코드는 다음과 같습니다.

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

이것은 좋은 대답이지만 for루프 를 제거하여 단순화 할 수 있습니다 . let x1 = sample(X, 10000, replace = TRUE)y1 = sample(Y, 10000, replace = TRUE)let- mean(x1 > y1)을 함께 계산 mean(x1 == y1)하여 값이 같은 횟수를 알 수 있습니다.
Iterator

감사. 루프가 불필요하다는 것을 알았지 만 접근 방식의 기본 논리가 풍부하게 명확 해지기를 원했습니다. 코드는 확실히 동일한 결과를 생성합니다.
매크로
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.