정규 분포 랜덤 변수의 비율에서 유의미한 차이를 검정


9

변수 비율 분석두 정규 분포 변수의 비율 또는 하나의 역을 매개 변수화하는 방법 과 관련이 있습니까? .

4 개의 서로 다른 연속 무작위 분포에서 얻은 많은 표본이 있다고 가정 해 봅시다. 필자의 경우 이는 암호화 유무에 관계없이 두 가지 파일 시스템 (예 : ext4 및 XFS)의 일부 성능 메트릭에 해당합니다. 메트릭은 예를 들어 초당 생성 된 파일 수 또는 일부 파일 작업의 평균 대기 시간 일 수 있습니다. 이러한 분포에서 추출한 모든 표본은 항상 양수라고 가정 할 수 있습니다. 이 배포판을 불러 봅시다Perffstype,encryption 어디 fstype{xfs,ext4}encryption{crypto,nocrypto}.

이제 내 가설은 암호화가 파일 시스템 중 하나를 다른 것보다 더 큰 요소로 느리게한다는 것입니다. 가설에 대한 간단한 테스트가 있습니까?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]?


이 질문의 중간에서 일부 텍스트가 삭제 된 것 같습니다. 복원 할 수 있다고 생각하십니까?
whuber

나는 "따라서"가 실수로 남아 있다고 생각합니다. 적어도 제가 그것에 추가하고 싶은 것을 생각할 수는 없습니다. 아마 내가 마지막으로 두 번째 단락으로 옮긴 것이었을 것입니다.
Sami Liedes

로그 링크 함수를 사용하여 정규 분포에 대한 일반화 된 선형 모형 을 적합 할 수 있습니다.
onestop

1
"파일 수"및 "평균 대기 시간"은 정상적으로 배포 할 수 없습니다 (시작에 대해 음수가 될 수도 없음). 둘 다 다소 비뚤어 질 수 있습니다. 파일 수는 이산 카운트입니다.
Glen_b-복지 주 모니카

답변:


12

StasK의 정답에 대한 한 가지 대안은 순열 테스트를 사용하는 것입니다. 첫 번째 단계는 검정 통계량을 정의하는 것입니다T, 혹시:

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

어디 Perf^ext4,crypto 아마도 관측치의 표본 평균 Perfext4,crypto등이 있습니다 (비율 기대치의 대안이 아닌 기대치의 비로 가설을 정의한 것과 맞습니다. 두 번째 단계는 레이블을 무작위로 치환하는 것입니다). ext4, xfs 여러 번 데이터에서 i=1,,10000, 계산 Ti각 순열에 대해 마지막 단계는 원본을 비교하는 것입니다T 관찰 Ti; 순열 추정 p- 값은TiT.

순열 테스트는 무증상에 의존하지 않지만 물론 샘플 크기 (및 데이터도 물론)에 따라 필자가 때때로 사용하는 델타 방법도 제대로 작동 할 수 있습니다.


좋은 제안이기도합니다!
StasK

두 중심 정규 변수의 비율은 Cauchy 변수입니다.
시안

1
@ Xi'an : 여기에서 독립적이라고 가정 할 수 있습니까? 아시다시피,이 결과를 유지하려면 유용 할 것입니다 (그리고 유용 할 수있는 기회를 가지십시오).
추기경

@ cardinal : 예, 실제로는 독립적이어야합니다!
시안

1
매우 부실한 기술 포인트로서-테스트 통계가 중추적이거나 알 수없는 매개 변수를 포함하지 않거나 분산이 안정화 된 경우 순열은 조금 더 좋습니다. 적어도 null 미만입니다. 비례를 사용하면 아크 사인 변환을 수행 할 수 있습니다. 엄격하게 양의 연속 수량을 사용하면 아마도 로그로 시작할 것입니다. 그러나 이것은 실제로 케이크에 착빙입니다.
StasK

4

delta-method를 사용 하여 비율의 (점근) 표준 오차를 계산할 수 있습니다 . 임의의 변수가 두 개인 경우XY 그런

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
배포 (독립 데이터가있는 경우에도 마찬가지이지만 다른 컴퓨터에서 테스트를 실행할 때 클러스터 데이터의보다 일반적인 경우도 있음) r=Y¯/X¯ 인구 아날로그와 ro=μY/μX우리는
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
만약 XY 귀하의 경우에 가정하는 것이 합리적이므로 독립적이며,이 표현은 드롭하여 다소 단순화합니다. σXY따라서 제곱 변동 계수가 요약됩니다.
CV2[r]=CV2[X¯]+CV2[Y¯]
샘플 크기가 다를 수 있다는 추가 이점이 있습니다. 또한 RHS와 LHS가 독립적 인 경우z에 대한 검정 통계량 H0: 비율의 차이를 취하여 이러한 CV에서 얻은 해당 표준 오류로 나눔으로써 차이가 없습니다.

거기에서 가져 와서 봉투 계산의 나머지 부분을 수행하여 최종 공식을 얻을 수 있기를 바랍니다.

결과는 점근 적이며 비율은 r 편견 추정기 r0작은 샘플에서. 편향의 순서는O(1/n)순서대로 샘플링 변동성과 비교할 때 무증상으로 사라짐 O(1/n).


훌륭하고 계몽적인 답변에 감사드립니다! 나는 jbowban의 순열 테스트를 선택하여 그 연구와 그 한계를 더 잘 이해한다고 생각하기 때문에 델타 방법은 내가 연구하고 알아 내야 할 것 같습니다.
Sami Liedes

@ stask이 곳에서 할 수 있습니까? stats.stackexchange.com/questions/398436/…
Xavier Bourret Sicotte

Xavier, @ usεr11852가 좋은 대답을했다고 생각합니다. 나는 그것에 추가 귀찮게하지 않습니다.
StasK

@StasK-귀하의 답변에 명시된 조건이 어떤 조건에서 유효한가요? 비율 통계의 수렴은 이전 가정과 델타 방법에 의해 보장됩니까?
Xavier Bourret Sicotte

그것은 무증상입니다 ... 보장 된 것은 없으며 오류 경계를 얻는 것은 불가능합니다. 모든 델타 방법 (또는 다른 약한 수렴 결과)은 샘플 크기를 늘리면 점근 분포와 실제 유한 샘플 분포의 차이가 작아진다는 것입니다. 즉, 샘플 크기를 1000에서 10000으로 늘리면 cdfs 간의 수직 차이가 0.2에서 0.1로 감소하고 후자는 여전히 실제적인 목적으로는 받아 들일 수 없습니다. 또는 차이가 0.01에서 0.001로되었음을 의미 할 수 있습니다.
StasK

0

정규 변량의 비율은 코시 분포입니다. 이를 알고 있으면 Bayes Factor Test를 간단히 수행 할 수 있습니다.

이것은 다소 자연스러운 아이디어였습니다. 이제 데이터 생성 메커니즘에 대해 확신이 없습니다. 동일한 PC에 다른 파일 시스템을 설치 한 다음 계층 적 데이터 구조를 가정 할 수 있도록 두 경우에 대해 벤치마킹합니까?

또한 비율을 보는 것이 실제로 의미가 있는지 확실하지 않습니다.

그리고 당신은 예상 값의 비율을 썼지 만, 나는 비율의 예상 값을 생각했습니다. 계속 진행하기 전에 데이터 생성에 대한 자세한 정보가 필요하다고 생각합니다.


1
(a) 독립적이고 (b) 동일한 분산을 갖는 경우 법선의 비율은 Cauchy입니다.
추기경

시안은 내가 생각했던 것과 똑같은 생각을했다.
joint_p

1
그러한 독립 구조가 존재하는지 또는 제로 평균을 가질지는 분명하지 않습니다. 아마도 대답을 확장 할 수 있다면 제안하는 접근법을 명확하게하는 데 도움이 될 것입니다. :)
추기경

1
@cardinal- 평균0 인 독립 법선의 비율이 0이고 중앙값이 0 인 척도 매개 변수가 정상 표준 편차의 비율과 동일 하다고 생각했습니다 . 그들이 0이 아닌 평균을 가졌다면 그것은 의미가 없습니다.
chanceislogic

@prob : (+1) 당신 말이 맞아요! 찾아 주셔서 감사합니다. 나는 첫 번째 코멘트에서 "표준"과 "제로 평균"을 떨어 뜨렸다 (후자는 그것을 내 두 번째 코멘트로 만들었다).
추기경

0

예를 들어 표본 크기가 수백만 개의 가능성을 생성하는 경우와 같이 순열을 수행 할 수없는 경우 다른 솔루션은 Monte Carlo 리샘플링입니다.

귀무 가설은 사이에 속도 차이가 없다는 것입니다 ext4xfs에 대한 nocryptocrypto. 따라서 평균 비율ext4xfs 모든 nocrypto 샘플은 샘플과 다르지 않습니다 crypto.

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

어디 x=ext4xfs

n=samplesize

만약 H0 비율에 대한 무작위 결과 선택 nocrypto 또는 crypto 또한 결과 Tobserved=0. 하나는 계산할 것이다 :

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

예를 들어 10,000 회의 리샘플링을 수행합니다. 결과 분포 Tresampling 값은 신뢰 구간입니다 H0. 차이점nocryptocrypto 계산 된 경우 비율이 중요 Tobserved 값이 예를 들어 95 % 범위를 벗어남 (p<0.05)Tresampling 가치.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.