비율의 맥락에서 다중 비교 문제를 피하기 위해 순열 테스트를 사용할 수 있습니까?


9

특정 이진 결과를 예측하는 5 가지 방법의 효과를 평가하고 있습니다 ( '성공'및 '실패'라고 함). 데이터는 다음과 같습니다.

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

이 5 가지 방법 중 테스트를 수행하여 방법의 상대적 우수성을 평가하고 싶습니다. 즉, 방법 1> 방법 2> ... 방법 5와 같이 성능 순서대로 방법을 순서대로 정렬하려고합니다. 다중 비교 문제를 피하기 위해 다음 줄을 따라 순열 테스트를 수행 할 계획입니다.

1 단계 : 전체 데이터 크기를 114로하여 전체 샘플 크기가 114가되도록 모든 데이터를 풀링합니다.

2 단계 : 28, 19, 24, 21 및 22의 해당 샘플 크기를 사용하여 데이터를 5 개의 그룹으로 임의로 분할합니다.

3 단계 : 2 단계에서 관찰 된 Percent_Success의 순서가 내 데이터의 순서와 일치하면 카운터를 증가시킵니다.

4 단계 : 2 단계와 3 단계를 여러 번 반복합니다 (예 : 10000).

원하는 p- 값 = 최종 카운터 값 / 10000.

질문 :

  1. 위의 절차가 정상입니까?

  2. R에 위의 테스트를 수행 할 수있는 것이 있습니까?

  3. 개선 또는 대체 방법에 대한 제안이 도움이 될 것입니다.


@whuber이 작업을 수행 한 방법에 대해 공유 할 R 코드가 있습니까?
B_Miner

답변:


6

제안 된 절차는 귀하의 질문에 대답하지 않습니다. 귀무 가설 하에서 관측 된 순서가 발생할 빈도 만 추정합니다. 그러나이 null 아래에서 좋은 근사치로 계산하면 1/5에 가까운 값을 생성하는 모든 주문이 동일하게 가능합니다! = 약 0.83 %. 그것은 우리에게 아무 것도 말해주지 않습니다.

한 가지 더 분명한 관찰 : 데이터를 기반으로 한 순서는 4> 5> 3> 2> 1입니다. 상대 우월성의 추정치는 0.61-0.40 = 21 %, 0.40-0.21 = 11 % 등입니다.

이제, 귀하의 질문이 비율 의 차이가 차이가 없다는 귀무 가설 하에서 우연에 기인 할 수있는 정도에 관한 것이라고 가정하십시오. 순열 테스트를 통해이 10 가지 질문을 실제로 평가할 수 있습니다. 그러나 각 반복에서 총 차수의 하나의 글로벌 지표가 아니라 비례 적으로 상대적인 차이의 지표 10 개를 추적해야합니다.(52)=10

데이터의 경우 반복 횟수가 100,000 회인 시뮬레이션이 결과를 제공합니다.

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

방법 4와 방법 1, 2 및 3의 비율 차이는 우연 때문일 가능성은 없지만 (각각 확률이 0.03 %, 0.37 %, 0.88 % 임) 다른 차이가있을 수 있습니다. 방법 1과 5의 차이에 대한 몇 가지 증거 (p = 2.44 %)가 있습니다. 따라서 관계 4> 3, 4> 2 및 4> 1과 관련된 비율의 차이가 모두 긍정적이라는 확신을 가질 수 있습니다. 5와 1의 차이가 가장 큽니다.


1
그것은 내 것보다 훨씬 더 나은 대답입니다! 나는 두려운 질문을 제대로 읽지 못했습니다 (특히 3 단계). 내 대답을 삭제하려고 생각했지만 베이지안 접근 방식의 해석 가능성이 더 중요하다는 것은 실제로 관심있는 순위입니다.
onestop

내가 정확히 이해하고 있는지 확인하기 위해-방법 4와 5 사이의 상대적인 차이를 추적하는 지표는 0.21보다 큰 차이를 볼 때마다 업데이트됩니다.
sxv

@sxv 예, 그렇습니다. (글쎄, 실제로는 크거나 같았습니다. 관계가 발생합니다. 중요한 결과 중 동등성을 포함하는 것이 올바른 방법이라고 생각합니다. 이보다 크거나 큰 차이 가 우연히 발생할 수있는 가능성을 평가하고 있기 때문 입니다.)
whuber

1

제안 된 Monte-Carlo 순열 검정 절차는 성공 확률이 모든 방법에서 동일하다는 귀무 가설 검정에 대한 p- 값을 생성합니다. 그러나 정확한 정확한 순열 테스트가 완벽하게 실현 될 때 Monte Carlo 순열 테스트 를 수행 할 이유가 거의 없습니다 . 그것은 Fisher의 정확한 테스트입니다 (물론, 일부 사람들은 2x2 테이블의 이름을 예약합니다.이 경우 조건부 정확한 테스트입니다). 방금 귀하의 데이터를 Stata 및 -tabi ...에 입력했습니다. 정확하게 주어진 p = .0067 (비교를 위해 Pearson의 카이 제곱 테스트는 p = .0059를 나타냅니다). R에는 R 전문가가 곧 추가 할 동등한 기능이 있다고 확신합니다.

순위를 실제로보고 싶다면 베이지안 접근 방식을 사용하는 것이 가장 좋습니다. 각 방법이 실제로 최고, 두 번째, 세 번째 최고 일 가능성에 대한 간단한 해석을 제공 할 수 있기 때문입니다. 그것은 물론 당신의 확률에 우선 순위를 두어야하는 대가입니다. 순위의 최대 가능성 추정치는 단순히 관찰 된 순서이지만, 내가 아는 한 쉽게 해석 할 수있는 방식으로 빈번한 프레임 워크에서 순위의 불확실성을 정량화하는 것은 어렵습니다.

여러 비교를 언급하지 않았지만 이것이 어떻게 나오는지 알지 못합니다.


2
Fisher의 정확한 검정과 Pearson의 카이 제곱은 5 가지 방법 모두가 다른 방법보다 적어도 1 개가 더 나은 대안에 대해 동등하게 효과적이라는 귀무 가설을 검정합니다. p- 값은 null이 거부되었음을 나타냅니다. 따라서 다른 방법보다 실제로 더 나은 방법을 찾으려면 10 쌍의 비교를 수행하지 않아도됩니까?
sxv
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.