다중 검열 데이터에 대한 공분산 행렬의 편견 추정


22

환경 시료의 화학 분석은 종종보고 한계 또는 다양한 검출 / 양자 한계에서 검열됩니다. 후자는 일반적으로 다른 변수의 값에 비례하여 달라질 수 있습니다. 예를 들어, 하나의 화합물이 고농도 인 시료는 분석을 위해 희석해야하므로 해당 시료에서 동시에 분석 된 다른 모든 화합물의 검열 한계가 비례 적으로 팽창합니다. 다른 예로서, 때때로 화합물의 존재는 다른 화합물에 대한 시험의 반응을 변화시킬 수있다 ( "매트릭스 간섭"); 실험실에서이를 감지하면 이에 따라보고 한계가 부풀려집니다.

특히 많은 화합물이 50 % 이상의 검열을 경험할 때 이러한 데이터 세트에 대한 전체 분산 공분산 매트릭스를 추정하는 실용적인 방법을 찾고 있습니다. 기존의 분포 모델은 (진정한) 농도의 로그가 다중 정규 분포이며, 이는 실제로 잘 맞는 것처럼 보이므로이 상황에 대한 솔루션이 유용 할 것입니다.

( "실제"라는 말은 다중 대치에서 발생하는 것과 같은 반복적 인 재 계산을 지원하기에 충분히 빠르게 실행되는 방식으로 R, Python, SAS 등과 같은 일반적으로 사용 가능한 하나 이상의 소프트웨어 환경에서 안정적으로 코딩 될 수있는 방법을 의미합니다. (이는 베이 즈 솔루션은 일반적으로 환영하지만 BUGS 구현을 탐색하는 것을 꺼려하는 이유입니다.)

이 문제에 대한 귀하의 생각에 미리 감사드립니다.


단지 검열 문제를 올바르게 이해합니다. 샘플을 희석하면 화합물의 농도가 너무 낮아 테스트 장비가 그 존재를 감지하지 못할 수 있습니다. 이것이 검열 문제의 정확한 표현입니까?

그렇습니다. 맞습니다. D 계수로 희석하면 모든 검출 한계가 D 계수만큼 증가합니다. (매트릭스 간섭 문제를 정량화하기가 더 어려우며 일반적인 상황은 매우 복잡합니다.이를 단순화하기 위해 기존 모델은 한 샘플에 대한 일련의 테스트로 벡터 (x [1], ..., x [k ]) 여기서 x [i]는 실수이거나 실수의 구간이며, 일반적으로 왼쪽 끝 점이-무한대이고 간격은 실제 값이 놓여있는 것으로 가정합니다.)
whuber

감지 한계가 높아지는 이유는 무엇입니까? 테스트중인 샘플의 기능보다는 테스트 기기의 기능이 아닌가?

예를 들어 계측기의 감지 한계가 리터당 1 마이크로 그램 (ug / L)이라고 가정합니다. 샘플은 10 : 1로 희석되며 (정밀도로 오차가 걱정되지 않습니다) 계측기는 "<1"을 읽습니다. 즉, 희석 된 시료의 경우 감지 할 수 없습니다. 검사실은 시료의 농도가 10 * 1 = 10 ug / L 미만이라고 추론합니다. 즉, "<10"입니다.
whuber

1
@amoeba 나는 그 질문 자체에 그 것들을 설명해야한다는 것을 알았습니다. 답은 다음과 같습니다. PCA; 차원은 3에서 수백까지 다양합니다. 샘플 크기는 항상 차원을 크게 초과하지만 검열 속도가 매우 높을 수 있습니다 (최대 50 %를 처리 할 수 ​​있어야하고 최대 95 %가 바람직 함).
whuber

답변:


3

나는 매트릭스 간섭 문제를 완전히 내재화하지 않았지만 여기에 한 가지 접근법이 있습니다. 방해:

는 희석되지 않은 샘플에서 모든 표적 화합물의 농도를 나타내는 벡터이다.Y

는 희석 된 샘플의 해당 벡터입니다.Z

는 희석 인자, 즉 샘플은 d : 1로 희석된다.dd

우리의 모델은 :

YN(μ,Σ)

Z=Yd+ϵ

여기서 은 희석 오차로 인한 오차를 나타냅니다.ϵN(0,σ2 I)

따라서 다음과 같습니다.

ZN(μd,Σ+σ2 I)

상술의 분포 나타내고 에 의해 F Z를 ( . ) .ZfZ(.)

하자 관측 농도하고 τ 는 화합물을 검출 할 수있는 아래의 테스트 장비의 임계 값을 나타낸다. 그런 다음, i t h 화합물의 경우 :Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

일반성을 잃지 않으면 서 제 1 화합물은 이들이 임계 값 미만이되도록한다. 그런 다음 우도 함수는 다음과 같이 작성할 수 있습니다.k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

어디에

f(Oi|)=jifZ(Oi|)I(Oi>τ)

그러면 추정은 최대 가능성 또는 베이지안 아이디어를 사용하는 문제입니다. 위의 내용이 얼마나 다루기 쉬운 지 잘 모르겠지만 아이디어가 있기를 바랍니다.


이 생각에 대단히 감사합니다. 실제로 이것은 다중 검열에 대한 잘 문서화 된 표준 접근 방식입니다. 그 난점은 난해성에있다. 이러한 적분은 계산하기 어렵다. 여기에 숨어있는 모델링 문제가 있습니다 . 내 설명의 첫 번째 단락에서 암시 된 것처럼 d 값 은 일반적으로 Y 와 긍정적으로 상관됩니다 .
whuber

2

계산적으로 효율적인 또 다른 옵션은 "차원 화 가우스"라고하는 모델, 실제로는 가우스 copula 모델을 사용하여 모멘트 매칭을 통해 공분산 행렬을 맞추는 것입니다.

Macke et al 2010 의 최근 논문 은 (검열 된) 경험적 공분산 행렬과 일부 이변 량 정규 확률의 계산 만 포함하는이 모델을 적합 화하기위한 닫힌 형식 절차를 설명합니다. 같은 그룹 (MPI Tuebingen의 베지 랩)은 아마도 여기에서 원하는 하이브리드 이산 / 연속 가우시안 모델에 대해 설명했습니다. 가우시안 RV가 완전히 "이 분화되지 않았기 때문에-임계 값 이하인 것"입니다.

비판적으로,이은 하지 ML 추정, 나는 나는 그것의 바이어스 특성이 무엇인지 모르는 두려워.


@jp 감사합니다 : 이것에 대해 살펴 보겠습니다. (시간이 걸릴 수 있습니다 ...)
whuber

1

시료에 몇 개의 화합물이 있습니까? (또는 공분산 행렬이 얼마나 큰가?).

Alan Genz는 초 사각형에 대한 다변량 정규 밀도의 적분 (즉, 가능성을 평가하는 데 필요한 적분의 종류)을 계산하기위한 다양한 언어 (R, Matlab, Fortran; 여기 참조 )의 아주 멋진 코드를 가지고 있습니다. user28).

최대 10-12 차원의 적분에 이러한 함수 ( "ADAPT"및 "QSIMVN")를 사용했으며 해당 페이지의 여러 함수가 차원 100까지의 문제에 대해 적분 (및 필요한 파생 파생물)을 광고합니다. 그것이 당신의 목적에 충분한 치수인지는 알 수 없지만, 그렇다면 그래디언트 상승으로 최대 가능성 추정치를 찾을 수 있습니다.


죄송합니다. 여기에 처음 왔는데 얼마나 오래 게시되었는지 알지 못했습니다. 아마 너무 늦어서 많은 도움이되지 못했습니다!
jpillow

@jp 이것은 중요한 문제이므로 질문과 답변 사이의 경과 시간은 거의 영향을 미치지 않습니다. 답장을 보내 주셔서 감사합니다!
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.