음이 아닌 평균보다 큰 SD


9

실험실에서 운영하고자하는 연구와 매우 유사한 연구를보고하는 기사를 받았습니다. 그러나 관심있는 변수 인 Duration에 대해 SD는 평균보다 큽니다 ... 이것은 분 단위로 측정 된 지속 시간이므로 절대로 음이 될 수 없으며 이것은 매우 이상하게 보입니다. 이것은 아래의 연구에서보고 된 2 건의 연구에서 발생했습니다.

그 외에도, 이것은 혼합 디자인입니다. 제어 v 처리 (그룹 간) 및 Time1, Time2, Time3 (반복 측정). 다음은 평균 (SD), N> 200입니다.

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... ANOVA를 실행하고 p <.001을보고했습니다.

나는 이것을 연구의 표본 크기를 결정하기 위해 전력 분석의 기초로 사용하도록 요청 받았다. 나는 이것이 데이터가 정상이 아니거나 특이 치가 있음을 나타내며 이것에 기초하여 샘플 크기를 결정하는 것이 불편하다고 느낍니다. 난 그냥 기지에서 떨어져 있습니까?


그것들이 SD이고 95 % 신뢰 구간이 아니라 3 * SD와 더 같을 것입니까? SD의 크기가 평균과 같은 크기 인 것 같습니다. 이러한 오류에 어떤 영향이 있었는지 또는 통계가 무엇인지 모르기 때문에 표본 크기가 무엇인지 말하기는 정말 어렵습니다. 방금 통계를 계산하는 경우 (예 : Poisson 분포) SD에 대한 평균은 1 / Sqrt (N)과 같아야합니다. 그러나 이는 N = 1 (또는 최대 몇 개)을 의미합니다. 이러한 통계에 대한 자세한 정보를 제공해 주시겠습니까?
Dave31415

또한 정규 분포에는 서로 완전히 독립적 인 평균과 SD가 있습니다. 아마도 당신은 포아송 분포를 의미한다고 생각합니다.
Dave31415

2
음수가 아닌 기간으로 인해 일반적으로 비대칭 분포가 예상됩니다. 평균에 필적하는 SD는 완벽하게 가능하며 전혀 놀라운 일이 아닙니다. 다른 계산에 가장 적합한 분포는 더 많은 정보가 없으면 조언 할 수 없지만 Poisson을 첫 번째 추측으로 선택하는 것이 아니라 감마 또는 로그 정규로 선택합니다.
Nick Cox

@NickCox가 지적했듯이 SD가 평균보다 크지 않으면 (검열이없는 경우) 지속 시간이 놀랍습니다. Weibull 분포를 고려할 수도 있습니다. 전력 분석은 아마도 시뮬레이션 기반이어야합니다. 다른 참고로, ANOVA는 그런 데이터로 유효하지 않은 것 같습니다.
gung-복원 Monica Monica

1
의 데이터 세트 음수가 아닌 숫자 의 변동 계수 ( 평균에 대한 표준 편차의 비율)는 다음과 같이 큰 값을 취할 수 있습니다.영형() 모든 숫자가 0하나를 제외하고 (자세한 내용은 이 질문 을 참조하십시오). 따라서 평균을 초과하는 표준 편차는 설명이 많이 필요한 예외적 인 사례로 간주되어서는 안됩니다.
Dilip Sarwate

답변:


5

음수가 아니거나 엄격하게 양수인 데이터를 사용하면 표준 편차가 평균을 쉽게 초과 할 수 있습니다.

표준 편차가 평균에 가까울 때 데이터의 경우를 설명합니다 (모든 값이 크지 않고 큰 값은 일반적으로 가깝습니다). 음이 아닌 데이터의 경우 데이터가 왜곡되었음을 명확하게 나타냅니다.

그러나 이러한 종류의 샘플 크기에서는 ANOVA가 그 영향을 크게받지 않을 수 있습니다. 합산 분산 추정치의 불확실성은 매우 작을 것이므로 CLT (평균)와 Slutsky의 정리 (분모의 분산 추정) 사이에 분산 분석이 합리적으로 잘 작용할 것입니다. 점근 적 카이-제곱을 가지게되는데, 여기에서 분모가 큰 ANOVA-F는 좋은 근사치가됩니다. (즉, 합리적인 수준의 견고성을 가져야하며, 수단이 그다지 일정하지는 않기 때문에 이력은 이질성에 의해 크게 영향을받지 않아야합니다)

즉, 연구에서 표본 크기가 더 작을 경우 다른 검정 (아마 순열 검정 또는 GLM 기반의 왜곡 된 데이터에 더 적합한 검정)을 사용하는 것이 좋습니다. 테스트 변경에는 직선형 분산 분석보다 샘플 크기가 약간 더 클 수 있습니다.

원본 데이터를 사용하면 적합한 모델 / 분석 하에서 전력 분석을 수행 할 수 있습니다. 원래 데이터가 없더라도 분포 (아마도 다양한 것)에 대해 더 그럴듯한 가정을하고 전체 전력 곡선을 조사 할 수 있습니다. 관심이 있습니다). 그럴듯한 상황에서 어떤 힘을 얻을 수 있는지, 그리고 샘플 크기가 얼마나 클지에 대한 아이디어를 제공하는 다양한 합리적인 가정이 사용될 수 있습니다.


4

데이터가 비정규 적이라는 결론을 내 렸습니다. 데이터가 정상이라면 관측 값의 약 16 %가 평균에서 표준 편차를 뺀 값보다 작을 것으로 예상합니다. SD가 평균보다 큰 경우이 숫자는 음수이고 음수는있을 수 없으므로 정규 분포 데이터와 일치하지 않습니다. SD 값은 가능하지만 분포가 매우 치우친 경우 (기간에 공통적 임)에만 가능합니다.

데이터가 정상이라고 가정하여 표본 크기를 선택하는 것은 좋은 생각이 아니지만 프로세스에 대해 자세히 알아볼 수 있고 합리적인 가정 인 올바른 왜곡 분포 (한 가지 감마 분포)를 찾는다면, 샘플 크기를 결정하는 데 사용할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.