치우친 데이터에 t-test를 사용해야합니까? 과학적인 증거 요?


15

크기가 다르지만 (200 개 이상) 사용자 참여 (예 : 게시물 수)에 대한 고도로 치우친 (지수 분포처럼 보이는) 데이터 집합의 샘플이 있으며 평균을 비교하고 싶습니다. 이를 위해, 나는 2- 표본 쌍을 이루지 않은 t- 검정 (및 표본이 다른 분산을 가질 때 Welch 's factor를 사용한 t- 검정)을 사용하고 있습니다. 내가 들었 듯이, 실제로 큰 표본의 경우 표본이 정규 분포가 아님은 중요하지 않습니다.

내가 한 일을 검토 한 사람이 사용중인 테스트가 내 데이터에 적합하지 않다고 말했습니다. 그들은 t- 검정을 사용하기 전에 샘플을 로그 변환하도록 제안했습니다.

저는 초보자이기 때문에 연구 참여 질문에 "참여 로그"로 답하는 것이 정말 혼란 스럽습니다.

그들이 틀렸습니까? 내가 잘못? 그들이 틀렸다면, 인용하거나 보여줄 수있는 책이나 과학 논문이 있습니까? 내가 틀렸다면 어떤 테스트를 사용해야합니까?


1
T- 검정에는 정규 분포 가정 csic.cornell.edu/Elrod/t-test/t-test-assumptions.html이 있습니다. 표본이 충분히 클 때 정규 분포에 가까운 t- 분포가 있다고 생각할 수도 있습니다.
rdorlearn

6
이 맥락에서 "과학적 증거"는 무엇을 의미합니까?
Glen_b-복지국 모니카

1
나는 특정 모집단에서 가능한 모든 샘플모든 수단 이 정상이어야한다고 가정했습니다. 따라서 CLT에 따르면 내 데이터 세트도 마찬가지입니다.
Milena Araujo '

1
과학적 증거 = 학계와 관련된 것 : 책, 종이 등
Milena Araujo

답변:


36

나는 '지수'를 특히 비대칭이라고 부르지 않을 것입니다. 예를 들어, 로그는 분명히 왼쪽으로 치우쳐지고 모멘트 비틀림은 2입니다.

1) 지수 데이터와 t 근처에 - 500을 사용하여 t- 검정을 사용하는 것이 좋습니다 .

a) 검정 통계량의 분자는 양호해야합니다. 데이터가 공통 척도로 독립적 인 지수이고 (이보다 실질적으로 무겁지 않은 경우), 평균은 관측치 수와 동일한 모양 매개 변수로 감마 분포됩니다. 정확도가 필요한 꼬리까지의 거리에 따라 약 40보다 큰 모양 매개 변수의 분포는 매우 일반적으로 보입니다.

이것은 수학적 증거가 될 수 있지만 수학은 과학이 아닙니다. 물론 시뮬레이션을 통해 경험적으로 확인할 수 있지만 지수에 대해 틀린 경우 더 큰 샘플이 필요할 수 있습니다. n = 40 일 때 지수 데이터의 표본 합 (따라서 표본 평균)의 분포는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

매우 약간 비뚤어집니다. 이 왜곡은 샘플 크기의 제곱근으로 감소합니다. 따라서 n = 160에서는 절반입니다. n = 640에서 기울어 짐의 1/4입니다.

여기에 이미지 설명을 입력하십시오

이것은 평균에 대해 뒤집고 상단에 플로팅하여 효과적으로 대칭임을 알 수 있습니다.

여기에 이미지 설명을 입력하십시오

파란색은 원본이고 빨간색은 뒤집혀 있습니다. 보시다시피, 그들은 거의 우연입니다.

-

=40

여기에 이미지 설명을 입력하십시오

=500

-

c) 그러나 실제로 중요한 것은 전체 통계량을 null로 분배하는 것입니다. 분자의 정규성은 t- 통계량이 t- 분포를 갖기에 충분하지 않습니다. 그러나 지수 데이터의 경우에는 큰 문제가 아닙니다.

여기에 이미지 설명을 입력하십시오

=40=500=500

그러나 실제로 지수 데이터의 경우 평균이 다른 경우에만 표준 편차가 달라집니다. 지수 추정이 해당되는 경우 널 (null) 아래에서는 다른 모집단 분산이 대안 하에서 만 발생하기 때문에 다른 모집단 분산에 대해 특별히 걱정할 필요가 없습니다. 따라서 등분 산 t- 검정은 여전히 ​​괜찮습니다 (이 경우 막대 그래프에서 볼 수있는 위의 근사치가 약간 더 나을 수도 있습니다).


2) 로그를 작성해도 여전히 이해할 수 있습니다.

로그λ1로그λ2λ1λ2

[로그에서 해당 테스트를 수행하는 경우에는 등분 산 테스트를 제안하는 경향이 있습니다.]

따라서 위의 내용과 유사하게 연결을 정당화하는 한두 문장의 개입만으로 참여 메트릭의 로그가 아니라 참여 메트릭 자체에 대한 결론을 작성할 수 있습니다.


3) 할 수있는 다른 많은 것들이 있습니다!

a) 지수 데이터에 적합한 테스트를 수행 할 수 있습니다. 우도 비 기반 검정을 쉽게 도출 할 수 있습니다. 이와 같이 지수 데이터의 경우 꼬리가 작은 경우에이 상황에 대한 소 표본 F- 검정 (평균 비율 기준)을 얻게됩니다. 두 꼬리 LRT는 일반적으로 작은 샘플 크기에 대해 각 꼬리에서 동일한 비율을 갖지 않습니다. (이것은 t- 검정보다 더 나은 검정력을 가져야하지만 t- 검정의 검정력은 상당히 합리적이어야하며 샘플 크기에 큰 차이가 없을 것으로 예상됩니다.)

b) 순열 테스트를 수행 할 수 있으며 원하는 경우 t 테스트를 기반으로 할 수도 있습니다. 따라서 변경되는 유일한 것은 p- 값의 계산입니다. 또는 부트 스트랩 기반 테스트와 같은 다른 리샘플링 테스트를 수행 할 수도 있습니다. 이것은 좋은 검정력을 가져야하지만, 분포에 상대적으로 어떤 검정 통계량을 선택 하느냐에 달려 있습니다.

c) 순위 기반 비모수 테스트 (예 : Wilcoxon-Mann-Whitney)를 수행 할 수 있습니다. 분포가 다르면 척도 계수 (지수를 포함하여 다양한 기울어 진 분포에 적합)에 의해서만 다르다고 가정하면 척도 모수의 비율에 대한 신뢰 구간을 얻을 수도 있습니다.

[그 목적으로 로그 스케일 작업을 제안합니다 (로그에서 위치 이동은 스케일 이동의 로그 임). p- 값은 변경되지 않지만, 점 이동 및 CI 한계를 확장하여 스케일 시프트 간격을 확보 할 수 있습니다.]

지수적인 상황에서는 t- 검정을 사용하는 것만 큼 좋지 않은 경우에도 이것도 꽤 좋은 힘을 갖는 경향이 있습니다.


위치 이동 대안에 대해 상당히 넓은 경우를 고려한 참고 문헌 (예를 들어, 널 (null) 하에서 분산 및 왜도 이질성)

Fagerland, MW 및 L. Sandvik (2009),
" 균일 하지 않은 분산을 갖는 비대칭 분포에 대한 두 개의 2- 표본 위치 테스트 성능",
현대 임상 시험 , 30 , 490–496

일반적으로 Welch U-test (Welch에서 고려한 몇 가지 테스트 중 하나와 테스트 한 유일한 테스트)를 권장하는 경향이 있습니다. 정확히 동일한 Welch 통계를 사용하지 않는 경우 권장 사항이 약간 다를 수 있습니다 (아마도 많지 않음). [분포가 기하 급수적 인 경우 로그를 취하지 않는 한 규모 대안에 관심이 있습니다.이 경우 분산이 같지 않습니다.]


4
좋은 대답입니다! 나는 당신이 하나의 게시물에 얼마나 많은 정보를 포장했는지 정말 놀랐습니다
Christian Sauer

@ Glen_b, 이것은 멋진 답변입니다! 대단히 감사합니다. 한 가지 더 질문 : 내 샘플은 동일한 데이터 세트에서 가져옵니다. 특성 X를 가진 사용자 샘플과 특성 Y를 가진 사용자 샘플을 비교하고 싶습니다. 사용자 X의 샘플은 ~ 500이고 사용자 Y의 샘플은 ~ 10000입니다. 크기에는 큰 차이가 있지만 밀도와 확률도를 보면 모양에 큰 차이가없는 것 같습니다. 어쨌든 t- 검정을 사용하는 것이 문제가됩니까?
Milena Araujo '

"큰 크기 차이"라고 말할 때 표본 크기 (10000 대 500) 또는 각 그룹의 일반적인 값에 대해 이야기하고 있습니까? (? 덧붙여, 이러한 종류의 데이터에 대한 이러한 연속 또는 불연속 어떻게 작은 전형적인 최소 값은 로그 모양이 비슷하다 - 즉 우리가 고려하고 단지 규모 변화입니까?)
Glen_b -Reinstate 모니카

1
그런 데이터에 대한 테이블을 사용하는 것이 좋습니다. 중요한 정보는 이산 일뿐 아니라 거의 모든 값이 가장 적은 수의 질문에 있다는 것입니다. 히스토그램을 플로팅하는 경우 워블없이 플로팅하고 낮은 값이 모두 분리되어 있는지 확인합니다 (0, 1, 2 각각에 대한 막대, 결합하지 않음). 잘라 내면 오른쪽에 더 많은 것이 있다는 것을 분명히하는 한 오른쪽을 잘라 내고 왼쪽에 더 많은 데이터를 분산시키는 것이 좋습니다 (거의 모든 데이터가있는 곳). 무엇을 측정하고 무엇을 달성하려고하는지에 대한 정보를 포함 시키십시오 ... (ctd)
Glen_b -Reinstate Monica

1
내 답변의 @ScottH 1.c 부분은 이것을 명시 적으로 다루고 토론중인 경우에 얼마나 중요한지 살펴 봅니다 (유사한 표본 크기에서 대략 지수 분포)
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.