조사관은 여러 데이터 세트의 종합 분석을 생성하려고합니다. 일부 데이터 세트에는 치료 A와 B에 대한 쌍으로 된 관측이 있습니다. 다른 데이터 세트에는 짝이없는 A 및 / 또는 B 데이터가 있습니다. 이러한 부분적으로 쌍을 이루는 데이터에 대한 t- 검정의 적응 또는 우도 비 검정에 대한 참조를 찾고 있습니다. 나는 동일한 분산으로 정규성을 가정하고 (현재) A에 대한 모집단 평균이 각 연구마다 동일하며 B와 마찬가지로 동일하다고 가정합니다.
조사관은 여러 데이터 세트의 종합 분석을 생성하려고합니다. 일부 데이터 세트에는 치료 A와 B에 대한 쌍으로 된 관측이 있습니다. 다른 데이터 세트에는 짝이없는 A 및 / 또는 B 데이터가 있습니다. 이러한 부분적으로 쌍을 이루는 데이터에 대한 t- 검정의 적응 또는 우도 비 검정에 대한 참조를 찾고 있습니다. 나는 동일한 분산으로 정규성을 가정하고 (현재) A에 대한 모집단 평균이 각 연구마다 동일하며 B와 마찬가지로 동일하다고 가정합니다.
답변:
Guo와 Yuan은 Samawi와 Vogel의 풀링 된 t- 테스트에서 나온 최적의 풀링 된 t- 테스트라고하는 대체 방법을 제안합니다.
참조 링크 : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
이 상황에 대한 여러 옵션을 잘 읽어보십시오.
의견이 처음이므로 추가해야 할 사항이 있으면 알려주세요.
글쎄, 만약 당신이 짝을 이루지 않은 짝과 짝을 이루는 것 (일반적으로 훨씬 작을 것입니다)의 분산을 알면 그룹 평균의 두 가지 추정에 대한 최적의 가중치는 개인의 분산에 반비례하는 가중치를 갖는 것입니다. 평균 차이의 추정치.
[Edit : 분산이 추정 될 때 이것을 Graybill-Deal Estimator라고합니다. 그것에 관한 논문이 꽤 많았습니다. 여기는 하나입니다]
분산을 추정 할 필요가 약간의 어려움을 초래합니다 (분산 추정의 결과 비율은 F이며 결과 가중치에 베타 분포가 있고 결과 통계가 복잡하다고 생각합니다).하지만 부트 스트랩을 고려하고 있기 때문에 이것은 걱정하지 않아도됩니다.
정규성에서 효율성 손실이 거의없는 어떤 의미에서 더 좋을 수도 있는 (또는 분산 비율로 재생하기 때문에 비정규성에 대해 조금 더 강력 할 수도 있는) 대체 가능성 짝을 이루고 짝을 이루지 않은 순위 테스트-각각의 경우 Hodges-Lehmann 추정치, 짝짓기 교차 표본 차이의 중앙값을 기반으로하는 짝을 이룰 수없는 경우, 짝을 이룬 경우 짝짓기 평균 쌍 차이의 중앙값을 기준으로합니다. 다시,이 둘의 최소 분산 가중 선형 조합은 분산의 역수에 비례하는 가중치를 갖습니다. 이 경우 부트 스트랩 대신 순열 (/ 무작위 화)을 기대할 수 있습니다. 그러나 부트 스트랩을 구현하는 방법에 따라 동일한 위치에있을 수 있습니다.
두 경우 모두 분산을 강화하고 분산 비율을 축소 할 수 있습니다. 무게에 맞는 야구장에 들어가는 것이 좋지만, 약간 견고 해져서 보통의 효율을 잃을 수 있습니다. ---
몇 가지 추가 생각은 전에 내 머리 속에 분명히 정리되지 않았습니다.
이 문제는 Behrens-Fisher 문제와 뚜렷한 유사점이 있지만 훨씬 더 어렵습니다.
우리는 가중치를 고정하는 경우, 우리는 할 수 단지 웰치-Satterthwaite 타입의 근사치에 구타; 문제의 구조는 동일합니다.
우리의 문제는 가중치를 최적화하려고합니다. 즉, 가중치가 효과적으로 고정되지 않았 음을 의미합니다. 실제로 통계를 최대화하는 경향이 있습니다 (무게 큰 샘플에서 적어도 대략 거의 더 많은 가중치가 발생합니다). 분자, 우리는 분모를 최소화하려고 노력하고 있습니다. 두 사람은 독립적이지 않습니다).
이것은 카이-제곱 근사를 더 나쁘게 만들고 근사치의 df에 여전히 영향을 줄 것입니다.
이 문제가 행할 경우 [도 바로 거기에 있습니다 당신은 상황이 세트에서의 이러한 다른 세트에서 만 쌍을 이루지 만 쌍 데이터를 사용하는 경우는 거의 잘 할 수있는 '말을 엄지 손가락의 좋은 규칙이 될 판명 조건과 나머지 부분에서이 고정 체중 체계는 일반적으로 최적에 매우 가깝습니다. '그러나 나는 그 기회를 기다리며 숨을 참지 않을 것입니다. 이러한 결정 규칙은 의심 할 여지없이 각 경우에 진정한 의미에 영향을 미치겠지만, 그 영향이 크지 않은 경우, 그러한 경험 규칙은 사람들이 기존 레거시 소프트웨어를 사용하는 쉬운 방법을 제공하므로 바람직합니다. 그러한 상황에서 사용자를위한 규칙을 찾아보십시오.]
---
편집 : 자체 참고 사항-다시 겹치는 샘플 테스트, 특히 겹치는 샘플 t- 테스트에 대한 작업 세부 정보를 다시 작성해야합니다.
---
무작위 테스트가 정상적으로 작동해야합니다.
데이터가 쌍을 이루는 경우 그룹 레이블을 쌍으로 무작위로 치환합니다.
데이터가 쌍을 이루지 않았지만 공통 분포 (null 아래)가있는 것으로 가정하면 그룹 할당을 치환
이제 상대 분산 추정치 ( ) 에서 2 개의 시프트 추정치에 가중치를 적용하고 , 무작위 화 된 각 샘플의 가중치 추정치를 계산하고 샘플이 무작위 배분.
(나중에 추가됨)
아마도 관련 논문 :
Derrick, B., Russ B., Toher, D. 및 White, P. (2017),
"쌍과 독립적 인 관측을 포함하는 두 표본의 평균 비교에 대한 검정 통계량"
현대 응용 통계적 방법 저널 , 5 월 Vol. 16, No. 1, 137-157.
도 : 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
여기 몇 가지 생각이 있습니다. 나는 기본적 으로이 문제가 Behrens-Fisher 문제와 뚜렷이 유사하다는 Greg Snow 결론에 도달했습니다 . 전자파를 피하기 위해 먼저 몇 가지 표기법을 도입하고 가설을 공식화합니다.
각 관찰은 환자 효과와 치료 효과의 합입니다. 해당하는 임의의 변수는
함께 및 ( ).
우리는 평소처럼 새로운 변수 합니다. 우리는이 .
이제 (size ), (size ) 및 (size )의 세 가지 관측 그룹이 있습니다. 수단은
다음 자연스런 단계는
이제 기본적으로 우리는 붙어 있습니다. 제곱의 합은 세 가지의 추정 수득 와 DF, 와 DF 및 각각 DF. 마지막 두 개는 df 와 함께 를 추정하기 위해 결합 될 수 있습니다 . 의 분산은 각 항을 추정 할 수있는 두 항의 합이지만 Behrens Fisher 문제에서와 같이 재조합을 수행 할 수 없습니다.
이 시점에서 Behrens Fisher 문제에 제안 된 솔루션을 플러그인하여 문제에 대한 해결책을 얻을 수 있다고 생각합니다.
내 생각은 혼합 효과 모델이지만 이미 논의되었으므로 더 이상 언급하지 않습니다.
내 다른 생각은 이론적으로 모든 주제에 대해 짝 지어진 데이터를 측정 할 수 있지만 비용, 오류 또는 모든 쌍이없는 다른 이유로 인해 쌍을 이루지 않은 대상에 대한 측정되지 않은 효과를 처리 할 수 있다고 생각합니다 데이터가 누락되고 EM 알고리즘 또는 다중 대치와 같은 도구를 사용합니다 (1 회의 치료만으로 대상을 측정 한 이유가 다른 치료의 결과와 관련이없는 한 무작위로 누락하는 것이 합리적입니다).
최대 가능성을 사용하여 데이터에 2 변량의 법선을 맞추는 것 (피험자 당 사용 가능한 데이터를 기반으로 가능성을 고려한 경우)을 더 간단하게 수행 한 다음 분포를 평균과 다른 평균과 비교하여 우도 비율 검정을 수행 할 수 있습니다.
이론 수업 이후 오랜 시간이 걸렸기 때문에 이것이 어떻게 최적성에 비교되는지 모르겠습니다.
무작위 효과가 환자와 혼합 된 모델링 일 수 있습니다. 혼합 모델링을 사용하면 페어링 된 사례의 상관 관계 구조와 페어링되지 않은 사례의 부분 결손을 설명 할 수 있습니다.
gls
에서 R의 함수 사용) nlme4
.
Hani M. Samawi & Robert Vogel (Journal of Applied Statistics, 2013)에서 제안한 방법 중 하나는 새로운 T 점수가 동일한 방식으로 독립 및 종속 샘플에서 T- 점수의 가중치 조합으로 구성됩니다.
여기서 는 상관 된 데이터에서 가져온 쌍의 차이 샘플을 나타냅니다. 기본적으로 새로운 T 점수는 새로운 수정 항과 짝을 이루지 않은 T 점수의 가중치 조합입니다. 는 독립 샘플의 비율을 나타냅니다. 경우 1과 동일 제로인 경우는 짝 t 검정 반면 테스트는 두 개의 표본 t 검정에 상당한다.γ γ