-test와


20

배경 : 저는 가설 테스트 작업에서 동료들에게 프리젠 테이션을하고 있으며, 대부분의 내용을 잘 이해하고 있지만, 이해하고 다른 사람들에게 설명하기 위해 매듭을 짓고있는 한 가지 측면이 있습니다.

이것이 내가 생각하는 것입니다 (잘못되면 수정하십시오!)

  • 분산이 알려진 경우 정상적인 통계 , 분산을 알 수없는 경우 t 분포를 따릅니다.
  • CLT (Central Limit Theorem) : 표본 평균의 표본 추출 분포는 충분히 큰 대해 대략 정상입니다 n( 30 일 수 있고, 치우친 분포의 경우 최대 일 수 있음 300).
  • t - 분포는 자유도 정상으로 간주 될 수있다 >30

다음과 같은 경우 z -test를 사용합니다 .

  1. 모집단 정규 및 분산이 알려져 있음 (모든 표본 크기에 해당)
  2. 모집단 정규, 분산 불명 및 n>30 (CLT로 인해)
  3. 이항 분포, np>10 , nq>10

다음과 같은 경우 t -test를 사용합니다 .

  1. 모집단 정규, 분산 알 수 없음 및 n<30
  2. 모집단 또는 분산에 대한 지식이없고 n<30 이지만 표본 데이터가 정상으로 보이거나 테스트를 통과하여 모집단이 정상으로 가정 될 수 있음

그래서 나는 남았습니다.

  • >30<≈300 (?)의 표본의 경우 모집단 및 분산에 대한 지식이 알려지지 않았습니다.

그래서 내 질문은 :

  1. 표본 분포가 비정규 적으로 보일 때 평균의 표본 분포가 정규적이라고 (즉, CLT가 시작된) 어떤 표본 크기 (집단 분포 또는 분산에 대한 지식이없는 곳)를 가정 할 수 있습니까? 일부 배포판에는 필요 n>300하지만 일부 리소스는 n > 30 일 때마다 z -test를 사용하는 것으로 보입니다 ...n>30

  2. 확실하지 않은 경우 데이터의 정규성을 확인한다고 가정합니다. 이제 표본 데이터가 정상으로 보이는 경우 검정을 사용합니까 (모집이 정상이라고 가정하고 n > 30 이래 )?zn>30

  3. 확실하지 않은 사례의 표본 데이터가 정상적으로 보이지 않는 경우는 어떻습니까? -test 또는 z - test를 계속 사용 하거나 비모수 적 테스트를 항상 변형 / 사용하려고하는 상황이 있습니까? CLT로 인해 n 의 일부 값 에서 평균의 샘플링 분포가 정상에 근사하지만 샘플 데이터는 해당 n의 값이 무엇인지 알려주지 않습니다 . 샘플 데이터는 비정규 일 수 있지만 샘플 평균은 normal / 따릅니다 . 실제로 평균의 샘플링 분포가 정상 / 이지만 알 수없는 경우 비모수 적 테스트를 변형 / 사용하는 경우가 있습니까? tznntt


4
" 비뚤어진 분포의 경우 최대 300 일 수 있습니다. "... 경우에 따라 훨씬 더 많은 경우가 있습니다. 아니면 절대 일어날 수 없습니다. 선택하면 충분하지 않은 경우를 보여 드리겠습니다. n
Glen_b-복지 주 모니카

감사합니다 Glen_b-항상 파라 메트릭을 사용하기 위해 샘플 데이터가 정상적으로 보이는지 확인 하시겠습니까?
Hatti

@Hatti nope! T- 검정은 데이터가 정상이 아닌 것으로 나타날 때 유효합니다.
AdamO

답변:


24

@AdamO가 맞습니다 . 인구 표준 편차를 미리 모르는 경우 항상 t 사용하십시오 . t- 분포가 당신을 위해 '전환'하기 때문에 z -test 로 전환 할 때에 대해 걱정할 필요가 없습니다 . 더 구체적으로, ttt - 분포 수렴 법선에 따라서는 모든에 사용할 올바른 분포 N .

N=30 에서 전통적인 선의 의미에 대해 혼동이 있습니다 . 사람들이 이야기하는 두 가지 종류의 수렴이 있습니다.

  1. 첫 번째는 정규 분포 (그룹 내) 원시 데이터에서 계산 된 검정 통계량 (즉, t ) 의 샘플링 분포가 N 으로 정규 분포로 수렴한다는 것입니다.NSD가 데이터로부터 추정된다는 사실에도 불구하고한다는 것입니다. (t 분포는 위에서 언급 한대로이를 처리합니다.)
  2. 두 번째는 비정규 분포 (그룹 내) 미가공 데이터 의 평균 샘플링 분포가 N 로 정규 분포 (위보다 더 느리게)로 수렴한다는 것 입니다. 사람들 은이를 위해 중앙 한계 정리믿습니다 . 그러나 그것이 적당한 표본 크기 내에서 수렴한다고 보장 할 수는 없습니다. 확실히 30 (또는 300 )이 마법의 숫자 라고 믿을 이유가 없습니다 . 비정규 성의 크기와 특성에 따라 시간이 오래 걸릴 수 있습니다 (여기서 @Macro 의 답변 : OLS 잔차가 정상적으로 분포되지 않은 경우의 회귀)). 당신이 (그룹 내) 원시 데이터가 매우 정상이 믿는 경우 등으로 검사의 다른 유형, 사용하는 것이 더있을 수 있습니다 맨 - 휘트니 U - 테스트를 . 비정규 데이터의 경우 Mann-Whitney Utt- 검정 보다 강력 할 가능성이 높으며 CLT가 시작된 경우에도 가능할 수 있습니다. 정상 테스트가 '필수적으로 쓸모 없는가?'를 참조하십시오. )

어쨌든 (그룹 내에서) 원시 데이터가 정상적으로 분포되어 있지 않다고 생각되면 Mann-Whitney U -test를 사용하십시오 . 당신을 믿는 경우에 데이터가 정규 분포를,하지만 당신은 선험적에서, 사용하는 SD를 모르는 t -test를 . 데이터가 정상적으로 분산되었다고 생각하고 SD a-priori를 알고 있다면 z -test를 사용하십시오 .

@GregSnow의 최근 답변을 읽는 데 도움이 될 수 있습니다. . 이러한 문제와 관련 하여 R의 두 소그룹 간의 비율을 비교할 때 p- 값 해석 .


고마워, 이것은 정말로 도움이되었습니다. 나는 더 큰 n에 대한 t- 검정이 법선에 접근함에 따라 그것을 너무 복잡하게 생각했습니다. 엄밀히 말하면, n이 1000이더라도 SD가 사전에 알려지지 않은 경우 t- 검정을 사용해야합니까?
Hatti

천만에요. 엄밀히 말하면, ,하지만 노트가 사이의 차이를 말할 매우 어려울 것입니다 - 분포 및 그 시점에서 정규 분포를. t
gung-복직 모니카

물론 이죠 너무 까다로워서 미안하지만, 다른 사람들에게 흑백으로 설명하는 방법을 생각하기가 어렵습니다. 도와 주셔서 감사합니다!
Hatti

또한 t- 테스트 결과를 계산하는 것은 오늘날 의미있는 추가 계산 비용없이 모든 의도와 목적을위한 것입니다. 우리는 더 이상 모든 경우를 다룰 수없는 일부 종이 표에서 테스트 통계를 찾지 않고 단지 컴퓨터를 요구하고 있습니다. 그렇다면 왜 z 테스트를 사용하여 동일한 결과를 얻을 수 있는지 걱정하고 있습니까?
Björn

11

이 문제에 대해서는 논의 할 것이 없습니다. t를 사용하십시오t순열 또는 부트 스트랩과 같은보다 정교한 리샘플링 도구가 필요하지 않은 경우 ( 비정규 성에서 큰 차이가 있는 매우 작은 샘플 에서 유용함)를 제외하고는 평균 차이에 대한 비모수 검정에 대해 .

자유도가 실제로 중요한 경우 검정은 귀무 가설 하에서 검정 통계량의 분포에 대한 임계 값 및 표준 오류의 일관된 추정을 제공합니다. 그렇지 않으면 t -test는tt -test.z

모집단 비율 검정과 같은 파라 메트릭 모형 모수 검정에 대한 정규 근사치는 일종의 기능 상실입니다. 데이터가 충분히 작아서 또는 z 분포 에서 생성 된 임계 값이 실제로 구분되지 않으면 검정 통계량의 스케일 된 이항 분포를 기반으로 정확한 비율의 검정을 사용해야합니다. 리샘플링 테스트도 이와 같이 작동합니다. Bernoulli 매개 변수를 추정 할 때 표본 크기 및 사례 / 대조군의 유병률에 대한 임의의 규칙을 가정하면 혼란스럽고 오류가 발생하기 쉽습니다.tz

검정 ( "알려진"분산) 의 개념은 분산을 "알지"않으며이를 추정하는 데 많은 비용을 소비하지 않기 때문에 혼동됩니다. 그 비용이 중요 할 때 t- 검정 만이 그 자유도에 미치는 영향을 반영합니다.zt


평균의 차이에 대한 비모수 적 검정에 항상 t- 검정을 사용하십시오.
Xavier Bourret Sicotte
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.