두 분포의 종단 비교


10

6 개월 간격으로 2500 명에게 혈액 검사 결과를 4 회 4 회 시행했습니다. 결과는 주로 두 가지 면역 반응 측정으로 구성됩니다. 하나는 특정 결핵 항원이있는 경우, 하나는 부재합니다. 현재, 각 검사는 항원 반응과 무 반응의 차이에 따라 양성 또는 음성으로 평가됩니다 (면역 체계가 TB 항원에 반응하면 어느 시점에서 박테리아 자체에 노출되었을 가능성이 있습니다) ). 본질적으로,이 테스트는 노출되지 않은 개인의 nil 및 TB 반응 분포는 기본적으로 동일해야하지만 TB 노출이있는 사람은 다른 분포 (더 높은 값)에서 TB 반응을 이끌어 낼 것이라고 가정합니다. 경고: 반응이 매우 비정규 적이며 값이 자연 바닥과 악기 잘림 천장에서 모두 뭉칩니다.

그러나, 이러한 종 방향 환경에서, 우리는 항원 및 무 반응의 (일반적으로 작은) 변동에 의해 야기되는 "거짓 양성"(잠복 결핵에 대한 실제 금 표준이 없음)을 얻는다는 것이 분명해 보입니다. 일부 상황에서는 피하기 어려울 수 있지만 (한 번만 테스트 할 기회가있을 수 있습니다) 매년 미국에서 사람들이 결핵 검사를받는 많은 상황이 있습니다. 미국에서는 이러한 상황이 의료 종사자에게 일반적입니다. 대피소에 머무는 군인, 노숙자 등. 현존하는 기준이 단면적이기 때문에 이전 테스트 결과를 무시하는 것은 부끄러운 것 같습니다.

나는 내가하고 싶은 것은 종 방향 혼합물 분석으로서 조잡하게 생각 하는 것이라고 생각 합니다. 단면 기준과 마찬가지로 개인의 결핵 및 무 반응이 동일한 분포에서 도출 될 확률을 추정 할 수 있기를 원합니다. 전체 (예를 들어, 특정 개인의 nil 또는 TB 분포에 대한 추정치를 향상시키기 위해 개인 전체 내 변수의 표본 분포를 사용할 수 있습니까?). 예상 감염 확률은 물론 새로운 감염 가능성을 설명하기 위해 시간이 지남에 따라 변경 될 수 있어야합니다.

나는 이것을 이상한 방식으로 생각하려고 노력하면서 완전히 뒤틀 렸지만, 나는이 개념화가 내가 생각해 낼만큼 좋은 것처럼 느낍니다. 이해가되지 않는 경우, 설명을 요청하십시오. 상황에 대한 나의 이해가 틀린 것 같으면 언제든지 말씀해주십시오. 도와 주셔서 정말 감사합니다.

Srikant에 대한 응답 : 연속적인 (비정형 및 절단 된) 두 가지 테스트 결과를 사용하여 잠재 분류 (TB 감염 여부)입니다. 현재 분류는 컷오프 (간단한 형태로 TB-nil> .35-> 양수)를 사용하여 수행됩니다. 테스트 결과가 (nil, TB, 결과)로 표시되면 기본 아키 타입 *은 다음과 같습니다.

가능한 부정 : (0.06, 0.15,-) (0.24, 0.23,-) (0.09, 0.11,-) (0.16, 0.15,-)
가능한 긍정적 : (0.05, 3.75, +) (0.05, 1.56, +) (0.06 , 5.02, +) (0.08, 4.43, +)
Wobbler : (0.05, 0.29,-) (0.09, 0.68, +) (0.08, 0.31,-) (0.07, 0.28,-)

Wobbler에 대한 두 번째 테스트에서 긍정적 인 것은 수차입니다. 그러나 어떻게 모델링하겠습니까? 내 생각의 한 줄은 반복 측정 다중 수준 모델을 사용하여 각 시점에서 TB와 nil의 "진실한 차이"를 추정하는 것이지만, 실제로 알고 싶은 것은 사람의 무 반응과 TB 반응인지 여부입니다. 같은 분포에서 추출되거나 면역 체계가 TB 항원을 인식하고 활성화하면 반응이 증가합니다.

감염 이외의 긍정적 인 테스트를 유발할 수있는 것은 확실하지 않습니다. 나는 그것이 일반적으로 결과 내에서 사람마다 차이가 있다고 생각하지만, 다른 요인의 가능성이 확실히 있습니다. 우리는 각 시점에서 설문지를 가지고 있지만 아직 그에 대해 많이 조사하지는 않았습니다.

* 조립되었지만 예시적인 데이터


아, 그리고 태그를 다시 지정하십시오-내 브라우저가 자동 제안과 함께 작동하지 않으므로 거기에 무엇이 있는지 알기가 어렵습니다.
Matt Parker

종속 변수가 연속적이거나 불연속 적인가? 또는 기본 테스트 결과가 연속적이며 일부 차단에 따라 불연속 답변 (예 : '긍정적', '부정적')으로 변환됩니까? 결핵에 노출되지 않았는데 왜 개인이 부정적인면에서 긍정적 인면으로 바뀌는지를 분명히 설명해 주시겠습니까? 그러한 뒤집기의 특정 예 (일부 숫자가 던져진)가 도움이 될 수 있습니다.

1
예제는 데이터를 시각화하는 데 실제로 도움이됩니다. 주의해야 할 또 다른 질문 : "값이 바닥과 천장에 뭉쳐지고 데이터가 정상이 아니라는 것입니다." (a) 스케일의 하단에있는 데이터가 정상으로 보이는지 (b) 스케일의 상단에있는 데이터가 정상적인 것으로 보이는지 알 수 있습니까?

참고 : 현상금을 실제로 수여 할 마감일을 놓친 것 같습니다. 따라서 Srikant의 도움에 대해 올바르게 보상 할 수 있도록 다른 것을 설정합니다. 더 많은 답변은 언제나 환영하지만 현상금은 그를위한 것입니다.
Matt Parker

답변:


2

이것은 완전한 대답은 아니지만 상황을 일관된 방식으로 모델링하는 방법에 대한 아이디어를 제공하기를 바랍니다.

가정

  1. 눈금의 하단에있는 값은 아래에서 잘린 정규 분포를 따릅니다.

  2. 스케일의 상단에있는 값은 위에서 잘린 정규 분포를 따릅니다.

    (참고 : 데이터가 정상이 아니라고 말했지만 모든 값의 분포를 참조한다고 가정하지만 위의 가정은 척도의 하단 및 상단의 값과 관련이 있습니다.)

  3. TB의 유무에 관계없이 사람의 기본 상태는 1 차 마르코프 체인을 따릅니다.

모델

허락하다:

  1. Di(t)시간 에서 사람이 TB를 가지면 는 1이고 , 그렇지 않으면 0입니다.tith

  2. RTBi(t) 는 사람의 시각 에서 TB 테스트에 대한 테스트 응답 입니다.tith

  3. RNi(t) 는 사람의 시각 에서 NILL 테스트에 대한 테스트 응답 입니다.tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    포인트 4와 5는 NILL 테스트에 대한 개인의 반응이 질병 상태에 의존하지 않는다는 아이디어를 포착합니다.

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    포인트 6, 7 및 8은 결핵 검사에 대한 개인의 반응이 질병 상태에 달려 있다는 아이디어를 포착합니다 .

  9. p(t) 는 이전 시험 기간 동안 질병이없는 것으로 가정 한 경우, 이전 6 개월 동안 사람이 결핵에 걸릴 확률입니다 . 따라서 상태 전이 행렬은 다음과 같습니다.t

    [1p(t)p(t)01]

    다시 말해,

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    Prob(Di(t)=0|Di(t1)=0)=1p(t)

    Prob(Di(t)=1|Di(t1)=1)=1

    Prob(Di(t)=0|Di(t1)=1)=0

테스트 기준은 다음과 같습니다.

D^i(t)={1,RTBi(t)RNi(t)0.350,otherwise

그러나 모델 구조에서 알 수 있듯이 실제로 컷오프를 매개 변수화하고 환자를 정확하게 진단하기 위해 컷오프해야하는 문제로 전체 문제를 변경할 수 있습니다. 따라서 워 블러 문제는 다른 어떤 것보다 컷오프를 선택하는 데 더 큰 문제인 것 같습니다.

'오른쪽'차단을 선택하기 위해 결핵에 걸린 것으로 결정된 환자에 대한 과거 데이터를 사용하여 위 설정의 결과 매개 변수를 추정 할 수 있습니다. 결핵이있는 것으로 올바르게 분류되거나 '최상의'모델을 식별하기위한 메트릭으로 분류되지 않은 환자 수와 같은 일부 기준을 사용할 수 있습니다. 간단히하기 위해 가 유행병 등이없는 경우 합리적인 것처럼 보이는 시간 불변 변수 라고 가정 할 수 있습니다.p(t)

그것이 도움이 되길 바랍니다.


고마워요. 죄송합니다. 어쨌든 귀하의 의견을 놓쳤습니다. 상단 클러스터는 실제로 천장에서 급등한 것입니다. 기본적으로 설명하는 것처럼 낮은 분포와 연결되는 긴 균일 성을 제외하고는 가변성이 없습니다. 답변을 파싱하는 데 약간의 시간이 걸릴 것입니다 (특히 IE에 갇혀 있고 LaTeX를 올바르게 볼 수 없기 때문에).이 이상한 작은 질문에 대한 헌신에 감사드립니다.
매트 파커

3

많은 실제 통계 문제와 같이 까다로운 매트!

나는 당신의 연구 목표 / 목적을 정의하기 시작합니다.

대상의 실제 상태를 알지 못하면 TB + 및 TB- 검정에 대한 확률 분포를 정의하기가 어렵습니다. 이전 결핵 감염 (또는 더 나은 의료 기록)에 관한 질문이 있습니까? 또한 수십 년 전에 어린 시절의 예방 접종으로 인해 TB +를 여전히 테스트하므로 이전 예방 접종을 고려해야합니다.

TB에 대한 반복 테스트가 테스트 결과에 영향을 줍니까?

Peter Diggle 's Analysis of Longitudinal Data의 사본을 얻을 가치가 있습니다 .

탐색 데이터 분석을 수행하십시오. 특히 매 시간마다 서로 다른 nil-test 결과의 산점도 행렬과 매 시간마다 TB 테스트 결과가 서로 비교됩니다. 그리고 TB vs nil 산포도 (매번). 또한 차이점 (TB 테스트-Nil 테스트)을 취하고 산점도 행렬을 수행하십시오. TB의 결과가 Nil에 비해 매우 큰 경우 log (TB)-log (Nil)가 도움이 될 수 있다고 상상합니다. 상관 관계 구조에서 선형 관계를 찾으십시오.

또 다른 방법은 정의 된 테스트 결과 (양수 / 음수)를 가져 와서 비선형 혼합 효과 모델 (logit link)을 사용하여이 로그를 논리적으로 모델링하는 것입니다. 일부 개인은 TB +에서 TB- 로의 테스트 사이를 전환합니까? 이것은 Nil 테스트, TB 테스트, TB-Nil 또는 테스트 결과의 변형과 관련이 있습니까?


답변 주셔서 감사합니다. 실제 상태를 알지 못하는 경우 : 우리는 광범위한 설문지를 가지고 있으며 피부 검사와 관련된 BCG 백신 문제를 잘 알고 있습니다. 실제로 이러한 혈액 검사는 PPD와 다른 항원 세트를 사용하기 때문에이 문제를 해결해야합니다. 익숙해 그러나 그것은 거의 별개의 질문이며, 우리가 조금 후에 작업 할 질문입니다. 지금 당장 저는이 테스트를 '종속적으로 인식하는 것'에 관심이 있습니다.
매트 파커

... 특히 일부 개인은 음수에서 양수로 뒤집기 때문에 일반적으로 nil 및 TB 결과의 결과로 약간 변동이 적습니다. 다음 테스트에서는 부정적인 것으로 돌아갔습니다. 개별 결과를 검토 할 때 직관을 모델에 적절하게 통합하는 방법을 잘 모르겠습니다.
매트 파커

마지막으로 로그 결과를 얻으려고 시도했지만 정상에 가깝게 만드는 것만으로는 충분하지 않습니다. 그것들은 매우 비뚤어졌고, 하이 엔드의 잘림은 천장에 눈에 띄는 밀도의 덩어리를 추가하여 이것을 더욱 복잡하게 만듭니다. 그러나 흥미롭게도, 샘플 전체의 nil 및 TB 결과 분포는 상당히 유사하지만 유일한 차이는 TB 결과에 대해 천장의 얼룩이 훨씬 큽니다.
매트 파커

시간을내어이 질문의 짐승을 읽고 답변 해 주셔서 감사합니다!
매트 파커
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.