부분적으로 페어링 된 데이터와 부분적으로 페어링되지 않은 데이터에 대한 t- 검정


28

조사관은 여러 데이터 세트의 종합 분석을 생성하려고합니다. 일부 데이터 세트에는 치료 A와 B에 대한 쌍으로 된 관측이 있습니다. 다른 데이터 세트에는 짝이없는 A 및 / 또는 B 데이터가 있습니다. 이러한 부분적으로 쌍을 이루는 데이터에 대한 t- 검정의 적응 또는 우도 비 검정에 대한 참조를 찾고 있습니다. 나는 동일한 분산으로 정규성을 가정하고 (현재) A에 대한 모집단 평균이 각 연구마다 동일하며 B와 마찬가지로 동일하다고 가정합니다.


2
안녕 프랭크 모델링 가정을보다 명확하게하는 것이 도움이 될 수 있습니다. 일반적으로 페어링 된 디자인을 생각할 때 다음 중 하나를 생각합니다. (i) 관찰 할 수없는 고정 단위 수준 효과 제거, (ii) 실험 단위 전체에서 임의 효과의 변동성 감소 또는 (iii) 비정규 성 조정 쌍 사이의 차이를 취함으로써 더 나은 근사치를 얻음으로써 반응의 특히, null 아래의 가정이 관측치가 모두 정상이라고 가정하면 일치하는 쌍의 이점을 즉시 보지 못합니다.
추기경

4
추기경, 실제로 이와 같은 데이터가 많이 있습니다. 완전히 페어링 된 데이터를 수집하려고했지만 기술적 인 문제 나 불운으로 인해 A 또는 B에서 일부 샘플 측정이 손상되는 경우가 있습니다. 명백하지만 만족스럽지 않은 두 가지 해결책은 1) 불완전한 쌍을 모두 버리고 쌍 t- 검정을 수행하거나 2) 쌍을 무시하고 모든 데이터에 대해 쌍을 이루지 않은 t- 검정을 수행하는 것입니다. 나는 포스터가 페어링이 존재하는 곳 (당신의 이유 # 1과 # 2)을 활용할 수있는 방법을 요구하면서, 짝이없는 다른 데이터 포인트에서 가능한 모든 것을 구할 수 있다고 생각합니다.
매트 크라우스

2
모든 의견에 감사드립니다. 일치하는 쌍의 경우 대상은 A와 B 둘 다에서 테스트되었습니다. 쌍을 활용하는 한 가지 방법은 A와 B의 평균 차이에 대해 부트 스트랩 비모수 백분위 신뢰 구간을 사용하는 것입니다. 클러스터 부트 스트랩을 사용하고 과목. 페어링 된 데이터가없는 피 험체는 재 샘플링에서 하나의 관찰이 유지되거나 삭제되고, 페어링 된 데이터는 두 개의 레코드가 유지되거나 삭제됩니다. 이것은 페어링을 존중하는 것으로 보이지만 estimand는 정의가 필요하며 우리는 최적성에 대해 모른다.
Frank Harrell

1
베이지안 접근 방식은 구현하기 쉽습니다.
Stéphane Laurent 2016 년

2
Hani M. Samawi & Robert Vogel, Journal of Applied Statistics (2013) : 부분적으로 상관 된 (페어링 된) 데이터에 대한 두 가지 샘플 테스트에 대한 노트, dx.doi.org/10.1080/02664763.2013.830285
Suresh

답변:



8

글쎄, 만약 당신이 짝을 이루지 않은 짝과 짝을 이루는 것 (일반적으로 훨씬 작을 것입니다)의 분산을 알면 그룹 평균의 두 가지 추정에 대한 최적의 가중치는 개인의 분산에 반비례하는 가중치를 갖는 것입니다. 평균 차이의 추정치.

[Edit : 분산이 추정 될 때 이것을 Graybill-Deal Estimator라고합니다. 그것에 관한 논문이 꽤 많았습니다. 여기는 하나입니다]

분산을 추정 할 필요가 약간의 어려움을 초래합니다 (분산 추정의 결과 비율은 F이며 결과 가중치에 베타 분포가 있고 결과 통계가 복잡하다고 생각합니다).하지만 부트 스트랩을 고려하고 있기 때문에 이것은 걱정하지 않아도됩니다.

정규성에서 효율성 손실이 거의없는 어떤 의미에서 더 좋을 수도 있는 (또는 분산 비율로 재생하기 때문에 비정규성에 대해 조금 더 강력 할 수도 있는) 대체 가능성 짝을 이루고 짝을 이루지 않은 순위 테스트-각각의 경우 Hodges-Lehmann 추정치, 짝짓기 교차 표본 차이의 중앙값을 기반으로하는 짝을 이룰 수없는 경우, 짝을 이룬 경우 짝짓기 평균 쌍 차이의 중앙값을 기준으로합니다. 다시,이 둘의 최소 분산 가중 선형 조합은 분산의 역수에 비례하는 가중치를 갖습니다. 이 경우 부트 스트랩 대신 순열 (/ 무작위 화)을 기대할 수 있습니다. 그러나 부트 스트랩을 구현하는 방법에 따라 동일한 위치에있을 수 있습니다.

두 경우 모두 분산을 강화하고 분산 비율을 축소 할 수 있습니다. 무게에 맞는 야구장에 들어가는 것이 좋지만, 약간 견고 해져서 보통의 효율을 잃을 수 있습니다. ---

몇 가지 추가 생각은 전에 내 머리 속에 분명히 정리되지 않았습니다.

이 문제는 Behrens-Fisher 문제와 뚜렷한 유사점이 있지만 훨씬 더 어렵습니다.

우리는 가중치를 고정하는 경우, 우리는 할 수 단지 웰치-Satterthwaite 타입의 근사치에 구타; 문제의 구조는 동일합니다.

우리의 문제는 가중치를 최적화하려고합니다. 즉, 가중치가 효과적으로 고정되지 않았 음을 의미합니다. 실제로 통계를 최대화하는 경향이 있습니다 (무게 큰 샘플에서 적어도 대략 거의 더 많은 가중치가 발생합니다). 분자, 우리는 분모를 최소화하려고 노력하고 있습니다. 두 사람은 독립적이지 않습니다).

이것은 카이-제곱 근사를 더 나쁘게 만들고 근사치의 df에 여전히 영향을 줄 것입니다.

이 문제가 행할 경우 [도 바로 거기에 있습니다 당신은 상황이 세트에서의 이러한 다른 세트에서 만 쌍을 이루지 만 쌍 데이터를 사용하는 경우는 거의 잘 할 수있는 '말을 엄지 손가락의 좋은 규칙이 될 판명 조건과 나머지 부분에서이 고정 체중 체계는 일반적으로 최적에 매우 가깝습니다. '그러나 나는 그 기회를 기다리며 숨을 참지 않을 것입니다. 이러한 결정 규칙은 의심 할 여지없이 각 경우에 진정한 의미에 영향을 미치겠지만, 그 영향이 크지 않은 경우, 그러한 경험 규칙은 사람들이 기존 레거시 소프트웨어를 사용하는 쉬운 방법을 제공하므로 바람직합니다. 그러한 상황에서 사용자를위한 규칙을 찾아보십시오.]

---

편집 : 자체 참고 사항-다시 겹치는 샘플 테스트, 특히 겹치는 샘플 t- 테스트에 대한 작업 세부 정보를 다시 작성해야합니다.

---

무작위 테스트가 정상적으로 작동해야합니다.

  • 데이터가 쌍을 이루는 경우 그룹 레이블을 쌍으로 무작위로 치환합니다.

  • 데이터가 쌍을 이루지 않았지만 공통 분포 (null 아래)가있는 것으로 가정하면 그룹 할당을 치환

  • 이제 상대 분산 추정치 ( ) 에서 2 개의 시프트 추정치에 가중치를 적용하고 , 무작위 화 된 각 샘플의 가중치 추정치를 계산하고 샘플이 무작위 배분.w1=1/(1+v1v2)


(나중에 추가됨)

아마도 관련 논문 :

Derrick, B., Russ B., Toher, D. 및 White, P. (2017),
"쌍과 독립적 인 관측을 포함하는 두 표본의 평균 비교에 대한 검정 통계량"
현대 응용 통계적 방법 저널 , 5 월 Vol. 16, No. 1, 137-157.
도 : 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1. 답변의 마지막 부분에 대한 질문이 있습니다. 순열 테스트에서 어떤 분산 추정치 (즉, 어떤 가중치)를 사용합니까-실제 샘플에서 계산 된 실제 값 또는 해당 순열의 데이터를 기반으로 각 순열의 가중치를 계산 하시겠습니까?
아메바는 고

@amoeba는 특정 순열에 기반한 계산의 샘플 기반 특성을 올바르게 설명합니다.
Glen_b-복지 모니카

@amoeba 나는 그 문제에 대한 다른 접근법과 비교해야합니다.
Glen_b-복지국 모니카

1
그건 그렇고, 누군가가 다음과 같은 데이터를 가지고 나에게 접근했기 때문에이 스레드를 보았습니다. 페어링 된 데이터를 가진 두 명의 피험자 및 비 페어링 된 데이터를 가진 두 명의 피험자 (예 : 그룹 A에서 3 측정, 그룹 B에서 3 측정,이 6 값 중 2+ 2는 페어링되고 나머지는 페어링되지 않습니다). 이 경우 짝을 이루지 않은 시프트 추정값의 분산을 추정하기에는 데이터가 충분하지 않으므로 페어링을 무시하고 짝을 이루지 않은 테스트를 수행하는 것 외에는 아무것도 제안 할 수 없었습니다 ... 그러나 이것은 매우 극단적 인 상황입니다.
amoeba는 Reinstate Monica가

6

여기 몇 가지 생각이 있습니다. 나는 기본적 으로이 문제가 Behrens-Fisher 문제와 뚜렷이 유사하다는 Greg Snow 결론에 도달했습니다 . 전자파를 피하기 위해 먼저 몇 가지 표기법을 도입하고 가설을 공식화합니다.

  • 우리는 쌍의 관측치 와 ( );x p A i x p B i i = 1 , , nnxipAxipBi=1,,n
  • 우리는 와 짝 지어 않은 관측 값을 가지고 있습니다 ( ) 및 ( );n B x A i i = 1 , , n A x B inAnBxiAi=1,,nAxiBi=1,,nB
  • 각 관찰은 환자 효과와 치료 효과의 합입니다. 해당하는 임의의 변수는

    • XipA=Pi+TiA , ,XipB=Pi+TiB
    • XiA=Qi+UiA , XiB=Ri+ViB

    함께 및 ( ).Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • 귀무 가설 하에서 .μA=μB

우리는 평소처럼 새로운 변수 합니다. 우리는이 .Xi=XipAXipBXiN(μAμB,2σ2)

이제 (size ), (size ) 및 (size )의 세 가지 관측 그룹이 있습니다. 수단은XinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

다음 자연스런 단계는

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

이제 기본적으로 우리는 붙어 있습니다. 제곱의 합은 세 가지의 추정 수득 와 DF, 와 DF 및 각각 DF. 마지막 두 개는 df 와 함께 를 추정하기 위해 결합 될 수 있습니다 . 의 분산은 각 항을 추정 할 수있는 두 항의 합이지만 Behrens Fisher 문제에서와 같이 재조합을 수행 할 수 없습니다.σ2n1σP2+σ2nA1nB1(1nA+1nB)(σP2+σ2)nA+nB2Y

이 시점에서 Behrens Fisher 문제에 제안 된 솔루션을 플러그인하여 문제에 대한 해결책을 얻을 수 있다고 생각합니다.


1
수식에서 오타를 수정했습니다. 확인해주십시오!
kjetil b halvorsen 2016 년

5

내 생각은 혼합 효과 모델이지만 이미 논의되었으므로 더 이상 언급하지 않습니다.

내 다른 생각은 이론적으로 모든 주제에 대해 짝 지어진 데이터를 측정 할 수 있지만 비용, 오류 또는 모든 쌍이없는 다른 이유로 인해 쌍을 이루지 않은 대상에 대한 측정되지 않은 효과를 처리 할 수 ​​있다고 생각합니다 데이터가 누락되고 EM 알고리즘 또는 다중 대치와 같은 도구를 사용합니다 (1 회의 치료만으로 대상을 측정 한 이유가 다른 치료의 결과와 관련이없는 한 무작위로 누락하는 것이 합리적입니다).

최대 가능성을 사용하여 데이터에 2 변량의 법선을 맞추는 것 (피험자 당 사용 가능한 데이터를 기반으로 가능성을 고려한 경우)을 더 간단하게 수행 한 다음 분포를 평균과 다른 평균과 비교하여 우도 비율 검정을 수행 할 수 있습니다.

이론 수업 이후 오랜 시간이 걸렸기 때문에 이것이 어떻게 최적성에 비교되는지 모르겠습니다.


1
고마워 그렉 맞춤형 최대 가능성 접근법에 기대어 있습니다.
Frank Harrell

4

무작위 효과가 환자와 혼합 된 모델링 일 수 있습니다. 혼합 모델링을 사용하면 페어링 된 사례의 상관 관계 구조와 페어링되지 않은 사례의 부분 결손을 설명 할 수 있습니다.


2
개별적으로 분석 할 때 데이터 세트 중 어느 것도 무작위 효과를 사용하지 않으므로 임의 효과가 왜 도움이되는지 모르겠습니다. 그러나 일반화 된 최소 제곱을 사용하여 각 주제에 고유 한 상관 관계 구조를 가질 수 있습니다. 쌍을 이루지 않은 관측치는 상관 관계가 없습니다. 생각해 볼 가치가 있습니다. 감사.
Frank Harrell

그렇습니다. 맞습니다. 데이터 세트를 별도로 사용하는 경우 혼합 모델링이 필요하지 않습니다. 그러나 하나의 단일 데이터 집합에 추가하면 접근 방식을 사용하여 짝을 이루는 데이터에 상관 관계를 통합하고 0 상관 관계를 지정하여 짝을 이루지 않은 데이터를 동시에 사용할 수 있습니다.
psj

1
예; 내 요점은 일반화 된 최소 제곱을 사용하여 주제에 따른 상관 관계 구조를 쉽게 지정할 수 있기 때문에 혼합 모델이 과도 할 수 있다는 것입니다 (예 : 패키지 gls에서 R의 함수 사용) nlme4.
Frank Harrell

3

Hani M. Samawi & Robert Vogel (Journal of Applied Statistics, 2013)에서 제안한 방법 중 하나는 새로운 T 점수가 동일한 방식으로 독립 및 종속 샘플에서 T- 점수의 가중치 조합으로 구성됩니다.

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

여기서 는 상관 된 데이터에서 가져온 쌍의 차이 샘플을 나타냅니다. 기본적으로 새로운 T 점수는 새로운 수정 항과 짝을 이루지 않은 T 점수의 가중치 조합입니다. 는 독립 샘플의 비율을 나타냅니다. 경우 1과 동일 제로인 경우는 짝 t 검정 반면 테스트는 두 개의 표본 t 검정에 상당한다.γ γDγγ


1
부분적으로 상관 된 데이터에 대한이 보수적 가중 검정과 관련 하여, 저자 는 널 (null) 아래에서 의 분포를 얻기 위해 몇 가지 경우 (큰 표본 근사, 일치 / 독립 표본의 비 비율, 작은 표본)를 구별하는 것으로 보입니다 . 동일한 기사가 다른 (부분) 회신에서 참조되므로 답변에 요약 할 수 있으면 도움이 될 것입니다. T0
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.