제어 변수에 대한 그룹을 비교할 때 동등성 검정을 사용해야합니까?


13

치료와 결과를 고려한 많은 논문들에서, 의미 집단에 대한 성가의 테스트와 "그룹은 대체로 비슷했습니다. XXXXX와 큰 차이가 없었습니다. 표 "를 참조하십시오. 따라서 명확한 목표는 다른 치료에 할당 된 그룹이 유사하다는 것을 보여주는 것입니다.

그러나 이것은 "널을 받아 들일 수"있고 우리가해야 할 (또는 요구되는) 동등성 테스트라고 생각합니다.

이는 무작위 시험 또는 관찰 연구에 적용될 수 있습니다. 여기에 뭔가 빠졌습니까?


1
나는 당신이 '표 1'을 언급하고 수집합니다. RCT 자체 또는 관찰 연구에 대해 질문하고 있습니까?
gung-모니 티 복원

@ gung 네, 보통 표 1입니다. 관측 연구 또는 RCT 일 수 있습니다. 귀하의 의견을 반영하기 위해 질문을 편집했습니다.
Peter Flom-Monica Monica 복원

1
내가 명백한 진술의 위험을 감수하더라도 :이 문제를 다루는 논문이 있습니다 (예 : de Boer et al. (2015) ). 결론은 가설 검정을 기준선 표에 버려야한다는 것입니다. CONSORT 문 임상 시험에 대한뿐만 아니라 스트로브 문 관찰 연구가 기본 테이블에 테스트 가설을 피하는 것을 권장합니다. 동등성 테스트가 더 나아지면 나는 모른다.
COOLSerdash

널 (NULL)에 대한 테스트 또는 동등성에 대한 테스트 여부는 동기에 따라 다르며 테이블에서 가져올 수있는 토론에 영향을줍니다. 동등성을 주장하는 것은 매우 강력한 조건이며 저자가 인구 통계 등에 대한 강력한 결론을 도출하지 않으려는 경우가 아니라면 대부분의 경우에 필요하지 않은 것으로 생각됩니다. 인구 통계. 나는 그것을 보지 않았지만 그것이 어떻게 보일지에 대한 다른 의견에 관심이있을 것입니다.
ReneBt

답변:


10

이것은 1) 가설을 명확하게 명시하고, 2) 인과 적 메커니즘이 가설 효과의 기초가 될 수있는 것을 이해하고, 3) 표현의 선택 / 스타일을 이해하는 복잡한 문제이다.

우리가 올바른 통계적 관행을 적용한다면, "그룹 유사하다" 고 주장 하기 위해서는 동등성 검정을 수행해야 할 것입니다. 그러나 동등성 검정은 NHST에 해당하는 것과 동일한 문제를 겪습니다. 검정력은 단지 표본 크기와 비교 횟수를 반영한 ​​것입니다. 우리는 차이를 기대하지만 분석 에 대한 범위와 효과 는 훨씬 더 중요합니다.

이러한 상황이 발생하면 기준선 비교는 거의 항상 청어입니다. 과학과 통계의 더 나은 방법을 적용 할 수 있습니다. 이와 같은 질문에 대답 할 때 고려해야 할 몇 가지 주식 개념 / 응답이 있습니다.

"전체"열은 처리 별 열보다 중요합니다. 그러한 가치에 대한 논의가 필요하다 .

임상 시험에서 안전성 샘플은 일반적으로 분석됩니다. 이것은 처음 접근하고 동의 한 후 무작위 화 한 후 마지막으로 적어도 한 번의 제어 또는 치료 반복에 노출 된 사람들의 하위 집합입니다. 이 과정에서 우리는 다양한 참여 편견에 직면합니다.

아마도이 연구에서 가장 중요하고 생략 된 양상은 표 1의 결과를 종합적으로 제시 한 것이다. 이것은 표 1의 가장 중요한 목적을 달성합니다. 다른 조사자들에게 연구 표본이 결과가 적용되는 광범위한 집단에 대해 일반화 할 수있는 방법을 보여줍니다.

포함 / 제외 기준과 샘플의 일반화를 완전히 무시할 때 고정 된 조사자, 독자 및 검토자가 환자 특성 내에서 접선 추세에 어떻게 놀랐는지 놀랍습니다.

이 문제를 간과 한 재판의 분석 가라고 말하면 부끄럽습니다. 우리는 환자를 모집 한 후 물류 문제로 인해 거의 1 년 정도 기다렸다가 개입했습니다. 컨소시엄 다이어그램은 이러한 기간 사이에 큰 하락을 보여줄뿐만 아니라 샘플이 이동했습니다. 그 결과 우리가 도달하고자하는 사람들보다 대체로 실직 / 실업 상태, 나이가 많고 더 건강했습니다. 연구의 일반화 가능성에 대해 깊은 우려가 있었지만 그러한 우려를 알리기 위해 로비하기가 어려웠습니다.

기준선 특성의 불균형을 감지하는 검정의 검정력 및 제 I 형 오류는 실제 특성 수에 따라 다릅니다.

앞에서 언급 한 것처럼 기준 변수의 세부 목록을 제시하는 요점은 샘플의 철저한 스냅 샷을 제공하는 것입니다. 환자의 병력, 실험실, 약물 및 인구 통계. 이는 임상의가 환자에게 치료를 권유하기 위해 사용하는 모든 측면입니다. 그들은 모두 결과를 예측한다고 믿어집니다. 그러나 그러한 요소의 수는 엄청납니다. 최대 30 개의 서로 다른 변수를 비교할 수 있습니다. 유형 I 오류의 원유 위험은 1- (1-0.05) ^ 30 = 0.79입니다. 테스트 수행 해야하는 경우 Bonferroni 또는 순열 수정이 권장됩니다 .

가장 순수한 형태의 통계 테스트는 공정해야하며 미리 지정해야합니다. 그러나 기준 특성의 선택과 표현은 종종 상대적입니다. 나는 후자의 접근 방식이 적절하다고 생각한다. 만약 우리가 시험에서와 같이 샘플을 효과적으로 설명하는 흥미로운 특성이 있다면, 우리는 그 값들을 특별 하게 제시 할 자유를 가져야한다 . 가치가있는 경우 테스트를 수행 할 수 있지만 일반적인주의 사항이 적용됩니다. 관심 가설이 아니며, 중요하지 않은 결과가 의미하는 바에 대한 혼동의 위험이 높으며 결과가 더 반영됩니다. 사실보다 샘플 크기 및 프리젠 테이션 고려 사항.

재 랜덤 화는 가능하지만 환자가 치료에 노출되기 전에 만 가능합니다

앞서 언급했듯이 분석 된 샘플은 일반적으로 안전 샘플입니다. 그러나 재 랜덤 화는 연구 치료에 노출되지 않은 환자들에게 심히 옹호되고 이론적으로 일관된 접근 방식입니다. 이는 일괄 등록이 수행되는 설정에만 적용됩니다. 여기서 100 명의 참가자가 모집되고 무작위로 선정됩니다. 예를 들어, 확률이 높은 비율의 노인을 한 그룹에 할당하는 경우 나이의 균형을 맞추기 위해 표본을 재 랜덤화할 수 있습니다. 대부분의 시험이 수행되는 설정 인 순차적 또는 엇갈린 등록으로는 수행 할 수 없습니다. 등록시기가 우발적 인 사례 "바이어스"(사건과 우발적 인 자격 기준의 혼동)에 의해 환자 상태를 예측하는 경향이 있기 때문입니다.

균형 잡힌 디자인은 유효한 추론에 필요한 것은 아닙니다.

무작위 배정 가정에 따르면 이론적으로 모든 참가자는 평균적으로 동일한 공분산 분포를 갖습니다. 그러나 앞에서 언급했듯이 30 개 이상의 레벨을 비교할 때 누적 불균형 확률은 무시할 수 없습니다. 실제로 공변량의 불균형은 전체를 고려할 때 관련이 없을 수 있습니다.

무작위 배정이 공정한 경우, 치료군에서 나이가 증가하지만 대조군에서 흡연이 증가하는 것을 볼 수 있습니다. 둘 다 결과의 위험에 개별적으로 기여합니다. 효율적이고 유효한 추론에 필요한 것은 성향 점수 가 그룹간에 균형을 이루는 것입니다. 이것은 훨씬 약한 상태입니다. 불행히도, 위험 모델이 없으면 균형에 대한 성향을 검사 할 수 없습니다. 그러나 이러한 성향은 공변량의 조합에 따라 달라지며 무작위 표본의 성향 불균형 가능성은 정확하게 표시 할 수는 없지만 가능성이 훨씬 낮습니다.

위험 모델이 알려져 있거나 결과에 대한 강력한 예측 변수가 존재하는 경우, 치료 그룹간에 균형을 유지하는지 여부에 관계없이 이러한 요소를 간단히 조정하여보다 효율적이고 유효한 RCT를 수행합니다.

내가 가장 좋아하는 논문 중 하나 인 무작위 통제 실험의 7 가지 신화에 대해 설명합니다. 조정 변수가 결과를 강력하게 예측할 때 조정은 효율성을 향상시킵니다. 완벽한 50/50 균형, 심지어 차단 된 랜덤 화를 사용하거나 랜덤 화가 수행 된 방식과 일치하더라도, 조정은 CI를 축소시켜 더 적은 참가자가 동등하게 강화 된 연구를 할 것을 요구합니다. 이것은 비용과 위험을 줄입니다. 이것이 더 자주 수행되지 않는다는 것은 충격입니다.

관측 연구에는 표 1의 내용에 관계없이 혼란을 통제 할 수 있어야합니다.

무작위 배정 가정은 혼란을 제거합니다. 무작위 화되지 않은 치료에는 혼란이 있습니다. 혼동자는 결과의 원인이되는 변수이며 준 실험적 치료의 수령을 예측합니다. 어떤 변수가 혼란인지 결정하는 테스트는 없습니다. 이러한 질문에 답하기 위해 데이터를 엿볼 위험은 종란 값을 완벽하게 완벽하게 측정하지 않고도 교란자가 중재자 나 충돌 자와 거의 구별 할 수 없다는 것입니다. 중재자를 조정하면 모든 효과가 약해지고 충돌 조정으로 인해 모든 유형의 바이어스가 발생할 수 있습니다. 또한, 전체 혼란자를 조정해야 할 필요는 없지만 백도어 기준을 제거해야합니다.

예를 들어, 청소년의 폐 기능 및 흡연에 대한 연구에서, 나이가 많은 아이들은 담배를 피울 가능성이 더 높지만 키가 커서 폐 기능이 더 큽니다. 그것은 백도어 기준을 만족시키기 때문에 높이 조절만으로 혼란을 제거하기에 충분하다는 것이 밝혀졌습니다. 나이에 대한 추가 조정은 단순히 효율성을 잃습니다. 그러나, 흡연자와 비 흡연자에서 표 1의 "균형"을 검사하는 것만으로 연령과 신장이 "불균형"이므로 제어되어야 함을 시사합니다. 맞지 않습니다.


1
나는 이것에 동의하고 p 값의 문제를 잘 알고 있습니다. (이 사이트에는 소수의 사람들이 있거나 나보다 안티 P 가치가 더 높습니다.) 그리고 나는 더 나은 방법을 원합니다. 물론 일부 변수는 서프 레서가 될 수 있습니다 (그래서 포함하면 주 효과의 크기가 커짐). 그러나 저널의 논문을 검토하고 있다면 표 1에 대한 동등성 테스트를 권장하는 것이 좋습니까? 아니면 전체 답변을 원하십니까?
Peter Flom-Monica Monica 복원

1
@PeterFlom 이제 상황이 조금 나아졌습니다. 통계 검토 자로서 의견이 후속 분석과 관련이 있는지 고려할 것입니다. 관련이 없다면 유용하지 않으므로 의견을 밝히는 것이 좋습니다. 관련성이 있다면, 나는 a)보다 강력한 분석 접근법을 고려하거나 b) 민감도 분석을 사용하여 가능한 영향이 있는지 여부를 결정하도록 권장한다. 공변량의 균형은 분석에 영향을주는 한에만 중요하므로주의를 기울이는 것이 좋습니다. 성향 매칭 디자인이 아닐까요?
AdamO

1
@PeterFlom 검토 자로서 "표 1"의 p- 값을 모두 제거하는 것이 좋습니다.
amoeba 말한다 Reinstate Monica

1
AdamO, 훌륭한 답변 (+1)이지만 "표 1"과 관련하여 여러 테스트 조정을 "권장"할 것을 권장합니다. 여기서 제 1 종은 어떤 문제가 있습니까? 이 경우 Type II 오류가 실제로 훨씬 더 중요하다고 생각합니다 (일부 기준 변수가 처리 그룹과 대조군 사이에 다르다는 사실을 놓치지 않으려 고합니다). Bonferroni를 사용하면 유형 II 오류가 크게 증가합니다. 이는 동등성 검정에 대한 @Peter의 요점과 관련이 있습니다. 즉, "등가"관점으로 전환하면 Type I과 Type II 교환 장소가됩니다.
amoeba는

1
@amoeba 절대적으로. 우리가 (권장 사항이 아닌)이 접근법을 고집하면 NHST는 유형 I 오류를 통제해야합니다. 내 요점은 어떤 변수가 불균형인지 신경 쓰지 않기 때문에 FWER를 제어해야한다는 것입니다. 0.2와 같이 관대 한 값으로 설정할 수 있습니다. 표본 크기가 증가함에 따라 검정력이 올라가는 동등성 검정에 대해서는 잘 모릅니다. 따라서 이러한 검정에 대한 타당성은 말이 많고 주관적이며 정확하지 않습니다.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.