정규 분포에서 추출한 것으로 추정 할 수없는 데이터가 있으며 그룹 간 동등성 검정을 수행하고 싶습니다. 일반 데이터의 경우 TOST (두 개의 일방적 t- 검정)와 같은 기술이 있습니다. 비정규 데이터의 TOST와 유사한 것이 있습니까?
정규 분포에서 추출한 것으로 추정 할 수없는 데이터가 있으며 그룹 간 동등성 검정을 수행하고 싶습니다. 일반 데이터의 경우 TOST (두 개의 일방적 t- 검정)와 같은 기술이 있습니다. 비정규 데이터의 TOST와 유사한 것이 있습니까?
답변:
Wald 유형 t 및 z 테스트 통계에 사용 된 TOST의 논리 (예 : 각각 및 )는 부호와 같은 비모수 적 테스트 의 z 근사값에 적용될 수 있습니다. , 부호 순위 및 순위 합계 테스트. 간단하게하기 위해 동등성을 단일 용어로 대칭 적으로 표현한다고 가정하지만 비대칭 동등성 항으로 내 대답을 확장하는 것은 간단합니다.
이를 수행 할 때 발생하는 한 가지 문제는 동등성 용어 (예 : )를 와 동일한 단위로 표현하는 데 익숙하다면 동등성 용어는 특정 부호, 부호있는 순위, 또는 랭크 합계 통계 (absum)이며 N에 의존합니다 .
그러나 TOST 동등성 항을 검정 통계량 단위로 표현할 수도 있습니다. TOST에서 이면 Delta- 및 . 우리가 할 수있는 경우 다음 및 . (여기에 표시된 통계는 오른쪽 꼬리 에서 모두 평가됩니다 : 및 .) z 단위 사용 동등성 / 관련성 임계 값을 정의하는 분포는 비모수 적 테스트에 바람직 할 수 있습니다. 대안은 부호있는 순위 또는 순위 합계 단위로 임계 값을 정의하기 때문에 연구자에게는 실질적으로 무의미하고 해석하기 어려울 수 있습니다.
(대칭 등가 구간의 경우) 일 때 TOST 귀무 가설을 기각 할 수 없다는 것을 인식 하면 그에 따라 등가 항의 적절한 크기를 결정할 수 있습니다. 예를 들어 입니다.
이러한 접근 방식은 패키지에 등 연속성 보정을위한 옵션으로 구현 된 TOST 당신이 STATA에 입력하여 액세스 할 수 있습니다 (현재 샤피로-Wilk와 샤피로 - 프란시아 시험에 대한 구체적인 TOST 구현 포함) STATA에 대한 :
편집 : 왜 TOST의 논리가 타당하고 동등성 테스트 구성이 옴니버스 테스트에 적용되었는지, 나는 내 솔루션이 Shapiro-Wilk 및 Shapiro-Francia 테스트에 대한 대략적인 통계에 대한 깊은 오해에 근거한 것으로 설득되었습니다
TOST 자체는 아니지만 Komolgorov-Smirnov 검정을 사용하면 표본 분포와 지정할 수있는 두 번째 기준 분포의 차이의 유의성을 검정 할 수 있습니다. 이 테스트를 사용하여 특정 종류의 다른 분포를 배제 할 수 있지만 일반적으로 다른 분포는 배제 할 수 없습니다 (적어도 가능한 경우 모든 가능한 대안에 대한 테스트에서 오류 인플레이션을 제어하지 않는 한). 어느 한 검정에 대한 대립 가설은 평소와 같이 덜 구체적인 "포괄"가설로 남아 있습니다.
귀무 가설이 두 그룹이 균등하게 분포되어 있다는 가정에서 두 그룹 간의 분포 차이 검정에 대해 정착 할 수있는 경우 Komolgorov-Smirnov 검정을 사용하여 한 그룹의 분포를 다른 그룹의 분포와 비교할 수 있습니다. 그것은 아마도 일반적인 접근법 일 것입니다. 통계적으로 유의하지 않은 차이를 무시하고 테스트 통계로이 결정을 정당화하십시오.
어쨌든 귀무 가설을 기각하기위한 "전부 또는 전무"접근 방식에서 발생하는 더 깊은 문제를 고려할 수 있습니다. 이러한 문제 중 하나는 Cross Validated에서 매우 인기가 있습니다. " 정상 성 테스트는 '무의미한가? '"사람들은 "왜 이것을 테스트하고 싶습니까?"라는 질문으로 정규성 테스트 질문에 대답하는 것을 좋아합니다. 필자의 의도는 일반적으로 테스트 이유를 무효화하는 것이며 궁극적으로 올바른 방향으로 이어질 수 있습니다. 여기에 링크 한 질문에 유용한 응답의 요지는 다음과 같습니다.
동등성 테스트를 계속하려는 경우 동등성 테스트와 관련된 Cross Validated에 대한 또 다른 인기있는 토론이 있습니다.
fail to
/ reject
접근법이 잘 확립되어 있음에도 불구하고 , 대부분의 표본은 널이 참일 가능성을 완전히 배제 할 수는 없습니다. 일반적으로 필요하지 않은 거부를 주장하는 경우 거의 항상 잘못된 거부 오류가 발생할 수 있습니다. 그것은 아마도 내가 원래 의도했던 가장 중요한 요점 일 것입니다. 잘만되면 그것은 삭제 된 물건없이 지금 조금 더 명확하다
동등성은 우리가 테스트 할 수있는 것이 아닙니다 . vs 가설을 생각해보십시오 . NHST 이론에 따르면 null 아래 에서 데이터에 가장 적합한 에서 무엇이든 선택할 수 있다고합니다. 즉, 거의 항상 분포에 임의로 접근 할 수 있습니다. I 테스트 할 경우, 예를 들어, , 별도의 분배를 허용 확률 모델 및 항상 것 이상의 것으로 아래 null, 중요한 테스트 가정 위반 샘플 경우에도 임의로 1에 가까운 우도 비율을 얻을 수 있습니다 .
데이터에 적합한 확률 모델을 알고있는 경우 벌칙 화 된 정보 기준 을 사용하여 대체 모델의 순위를 지정할 수 있습니다 . 한 가지 방법은 두 확률 모델 ( 및 추정 된 BIC)의 BIC를 사용하는 것입니다. 저는 일반적인 확률 모델을 사용했지만 모든 유형에서 쉽게 BIC를 얻을 수 있습니다 직접 또는 GLM을 사용하여 최대 우도 절차 를 수행 한이 Stackoverflow 게시물 은 적합 분포에 적합합니다.
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
준다
> mean(p)
[1] 0.034
여기서 는 널 모델 (별도의 모델)의 BIC가 대체 모델 (등가 모델)보다 우수 (낮음) 한 비율입니다. 이는 명목상 0.05 수준의 통계 테스트와 매우 유사합니다.
반면에 우리가 취하는 경우 :
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
x <- x + 0.4*g
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
제공합니다 :
> mean(p)
[1] 0.437
NHST와 마찬가지로 결정적인 결론을 내리기 전에 시뮬레이션을 통해 탐색해야하는 미묘한 검정력 및 위양성 오류율 문제가 있습니다.
비슷한 방법 (아마도 더 일반적인 방법)은 베이지안 통계를 사용하여 두 확률 모델에서 추정 된 사후를 비교한다고 생각합니다.