중간 분석은 아마도 초기 연구를 종료하기 전에 하나 개 이상의 시점에서 데이터의 분석의 의도와 연구의 공식 가까운 예입니다.
Piantadosi에 따르면, S. ( 임상 시험-방법 론적 관점 ) : " 치료 효과의 추정은 시험이 초기 단계에서 종료 될 때 편향 될 것입니다. 결정이 빠를수록 편향이 더 큽니다. "
이 주장을 설명해 주시겠습니까? 정확성이 영향을 받는다는 것을 쉽게 이해할 수 있지만 편견에 대한 주장은 분명하지 않습니다 ...
중간 분석은 아마도 초기 연구를 종료하기 전에 하나 개 이상의 시점에서 데이터의 분석의 의도와 연구의 공식 가까운 예입니다.
Piantadosi에 따르면, S. ( 임상 시험-방법 론적 관점 ) : " 치료 효과의 추정은 시험이 초기 단계에서 종료 될 때 편향 될 것입니다. 결정이 빠를수록 편향이 더 큽니다. "
이 주장을 설명해 주시겠습니까? 정확성이 영향을 받는다는 것을 쉽게 이해할 수 있지만 편견에 대한 주장은 분명하지 않습니다 ...
답변:
우선, 문맥에주의해야합니다. 이는 임의의 외부 사유가 아닌 효능 / 무효 성을 보여주는 중간 모니터링으로 인해 시험이 조기에 중단 된 경우에만 적용됩니다. 이 경우 효과 크기 의 추정치 는 통계적으로 완전히 바이어스됩니다. 효능을 위해 중단하면 추정 효과가 너무 높고 (양의 가정), 허약으로 중단하면 효과가 너무 낮아집니다.
Piantodosi도 직관적 설명을 제공합니다 (제 10.5.4 절). 두 방법의 실제 차이가 1 단위라고 가정합니다. 많은 시험을 실행하고 임시 분석 시간에 시험을 볼 때, 일부는 1보다 훨씬 큰 효과 크기를 보았으며, 1보다 훨씬 작으며 대부분 1 정도입니다. 분포는 넓지 만 대칭입니다. 이 시점의 예상 효과 크기는 매우 정확하지 않지만 편향되지 않습니다. 그러나 차이가 유의 한 경우 (여러 테스트에 대해 조정 된 경우), 즉 추정치가 높은쪽에 만 효과 크기를 중지하고보고합니다. 다른 모든 경우에는 계속 진행하며 추정치는보고하지 않습니다. 즉, 조기 중지에 대한 조건부효과 크기의 분포는 대칭이 아니며 예상 값이 추정치의 실제 값보다 큽니다.
이 효과가 초기에 더 심각하다는 사실은 시험을 중단하기위한 더 큰 장애물에서 비롯되며, 따라서 컨디셔닝 중에 분배의 대부분이 버려집니다.
다음은 결론에서 편견이 발생할 수있는 방법과 왜 이것이 전체 기사가 아닐 수 있는지 보여줍니다. 긍정적 인 (+1) 효과가 예상되지만 부정적인 효과 (-1)가있을 수있는 약물의 순차적 시험이 있다고 가정합니다. 5 마리의 기니피그가 차례로 테스트됩니다. 단일 사례에서 긍정적 결과의 알려지지 않은 확률은 사실 와 부정적인 결과1 .
따라서 5 번의 시도 후에 다른 결과의 확률은
Outcome Probability
+5-0 = +5 243/1024
+4-1 = +3 405/1024
+3-2 = +1 270/1024
+2-3 = -1 90/1024
+1-4 = -3 15/1024
+0-5 = -5 1/1024
전체적으로 긍정적 인 결과가 나올 확률은 918/1024 = 0.896이고 평균 결과는 +2.5입니다. 5 회 시도로 나눈 결과는 시도당 평균 +0.5의 결과입니다.
그것은 + 1 × 3 이기 때문에 편견없는 인물입니다. .
기니피그를 보호하기 위해 어떤 단계에서 누적 결과가 음수이면 연구가 종료된다고 가정하십시오. 그런 다음 확률은
Outcome Probability
+5-0 = +5 243/1024
+4-1 = +3 324/1024
+3-2 = +1 135/1024
+2-3 = -1 18/1024
+1-2 = -1 48/1024
+0-1 = -1 256/1024
전체적으로 긍정적 인 결과의 확률은 702/1024 = 0.6855이고 평균 결과는 +1.953입니다. 이전 계산에서 예를 들어 시행 당 평균 결과 값을 보았을 때 (예 : ,+3 ,+1 ,−1 ,−1 과-1 이면 +0.184가됩니다.
이것들은 두 번째 방식에서 일찍 멈추는 것에 의한 편견이 있고 그 편향이 예측 된 방향에 있다는 의미입니다. 그러나 그것은 전체 이야기가 아닙니다.
왜 whuber와 확률 론적 사고가 일찍 멈추는 것이 편견없는 결과를 가져와야합니까? 우리는 두 번째 계획에서 시험의 예상 결과가 +1.953이라는 것을 알고 있습니다. 예상되는 시행 횟수는 3.906으로 밝혀졌습니다. 따라서 하나를 다른 것으로 나누면 이전과 똑같이 편견이없는 것으로 + 0.5를 얻습니다.
글쎄, 이것에 대한 나의 지식은 2008 년 Harveian 연설에서 온 것입니다. http://bookshop.rcplondon.ac.uk/details.aspx?e=262 본질적으로, 최고의 추억으로 결과는 1) 일찍 멈추는 것처럼 편향됩니다. 일반적으로 치료가 기대 한 것보다 더 효과적이거나 덜 효과적임을 의미하며, 이것이 긍정적 인 경우 기회를 활용하고있을 수 있습니다. 나는 p 값이 계획된 샘플 크기를 기준으로 계산된다고 생각하지만 (이것에 대해서는 틀릴 수 있습니다) 또한 효과가 표시되는지 확인하기 위해 결과를 지속적으로 확인하는 경우 다중 비교를 수정해야합니다 당신이 단지 기회 효과를 찾는 것이 아니라는 것을 보장하기 위해. 예를 들어 .05 미만의 p 값을 20 번 확인한 다음 통계적으로 말하면 중요한 결과를 얻을 수 있습니다.
Piantadosi가 "바이어스"에 의해 일반적으로 바이어스라고하는 정확도의 일부를 의미하지 않는 한, 그 주장에 동의하지 않습니다. 자체 중지를 선택했기 때문에 추론은 "편향"되지 않습니다. 데이터가 적기 때문에 "편향"됩니다. 소위 "우도 원칙"은 추론이 관찰 된 데이터가 아니라 관찰 된 데이터에만 의존해야한다고 명시하고있다. LP는 말합니다
중요합니다.
연구 종료가 무작위가 아닌 경우 편향 이있을 것입니다 ( "통계적 의미").
일련의 실험에서 결론을 내리기 위해, (a) 궁극적으로 "효과가 없음"을 발견 한 일부 실험은 (우연의 결과로) 일부 효과를 보여 주며 (b) 궁극적으로 효과는 "효과 없음"을 나타냅니다 (전원이 부족한 결과). 시험을 마치는 세상에서 (a) (b)보다 더 자주 중단하면 효과를 찾는 편견을 가지고 여러 연구를 마칠 수 있습니다. (동일한 논리가 효과 크기 에 적용 됩니다 . "예상보다 낮거나 낮은"것으로 보이는 것보다 더 자주 "예상보다 큰"효과를 보이는 연구를 종료하면 "큰 효과"의 결과가 증가합니다.)
실제로 조기 결과가 긍정적 인 효과를 보이면 (위약 또는 다른 사람들에게 치료를 제공하기 위해) 의료 시험이 종료되지만 조기 결과가 결정적이지 않은 경우가 아니라면 그러한 검사에서 유형 1 오류가 더 많을 것입니다 모든 실험이 결론에 도달했다면. 그러나 이것이 연습이 잘못되었다는 의미는 아닙니다. 도덕적으로 말하면, 유형 1 오류의 비용은 실제 시험이 끝날 때 실제로 작동하는 것으로 보이는 치료에 비해 치료를 거부하는 것보다 치료를 거부하는 것보다 낮을 수 있습니다.