변수 내 오류 회귀 : 세 사이트의 데이터를 풀링하는 것이 유효합니까?


15

FDA 검토자가 사이트의 데이터를 풀링 할 때 두 사이트에 일부 샘플이 포함 된 3 개 사이트의 풀링 데이터가 포함되어 있기 때문에 FDA 검토자가 해당 변수의 오류 회귀가 유효하지 않다고 말했기 때문에 최근에 고객이 부트 스트랩 분석을 수행하게되었습니다. 똑같다.

배경

고객은 기존의 승인 된 방법과 "동등한"방법을 보여주고 자하는 새로운 분석 방법을 사용했습니다. 그들의 접근 방식은 동일한 시료에 적용된 두 방법의 결과를 비교하는 것이 었습니다. 테스트를 위해 3 개의 사이트가 사용되었습니다. 변수 내 오류 (데밍 회귀)가 각 사이트의 데이터에 적용되었습니다. 아이디어는 회귀가 기울기 매개 변수가 1에 가까우며 0에 가까운 절편을 보여 주면 두 가지 분석 기술이 거의 동일한 결과를 낳았으므로 새로운 방법이 승인되어야 함을 나타냅니다. 제 1 기지에는 45 개의 표본이있어 45 쌍의 관측치가 제공되었습니다. 사이트 2에는 40 개의 샘플이 있고 사이트 3에는 43 개의 샘플이 있습니다. 그들은 세 가지 분리 된 데밍 회귀 분석을 수행했습니다 (두 방법의 측정 오차에 대해 1의 비율을 가정). 따라서 알고리즘은 수직 거리의 제곱을 최소화했습니다.

그들의 제출에서 고객은 사이트 1과 2에서 사용 된 샘플 중 일부가 동일하다고 지적했습니다. 검토에서 FDA 검토자는 모델의 가정을 무효화하는 "간섭"을 유발하는 공통 샘플이 사용 되었기 때문에 데밍 회귀 분석이 유효하지 않다고 말했다. 그들은이 간섭을 고려하여 데밍 결과에 부트 스트랩 조정을 적용하도록 요청했습니다.

클라이언트가 부트 스트랩을 수행하는 방법을 알지 못했기 때문에 그 시점에서 나는 간섭이라는 용어가 이상했고 리뷰어가 무엇을 얻었는지 정확히 알지 못했습니다. 풀링 된 데이터에 공통 샘플이 있기 때문에 공통 샘플과의 상관 관계가 있으므로 모델 오류 항이 모두 독립적이지는 않을 것입니다.

클라이언트 분석

세 개의 개별 회귀 분석은 매우 유사했습니다. 각각의 기울기 매개 변수는 1에 가까우며 0 근처에서 차단합니다. 95 % 신뢰 구간은 각각의 경우 기울기와 절편에 대해 각각 1과 0을 포함했습니다. 주요 차이점은 3 번 사이트에서 잔류 분산이 약간 더 높았다는 것입니다. 또한 OLS를 수행 한 결과와 비교 한 결과가 매우 유사했습니다 (OLS를 기반으로 한 기울기에 대한 신뢰 구간이 1을 포함하지 않은 경우는 한 경우에만). 기울기에 대한 OLS CI가 1을 포함하지 않은 경우 간격의 상한은 0.99와 비슷했습니다.

세 사이트 모두에서 결과가 너무 비슷 해짐에 따라 사이트 데이터를 합리적으로 볼 수있었습니다. 클라이언트는 풀링 된 Deming 회귀 분석을 수행하여 비슷한 결과를 얻었습니다. 이러한 결과가 주어지면 클라이언트가 회귀가 유효하지 않다는 주장을 반박하는 보고서를 작성했습니다. 내 주장은 두 변수에 비슷한 측정 오류가 있기 때문에 클라이언트는 Deming 회귀를 동의 / 불일치를 표시하는 방법으로 사용할 수 있다는 것입니다. 주어진 사이트 내에서 샘플이 반복되지 않았기 때문에 개별 사이트 회귀는 상관 오류의 문제가 없었습니다. 더 긴밀한 신뢰 구간을 얻기 위해 데이터 풀링.

이 어려움은 단순히 사이트 1에서 나온 공통 샘플로 데이터를 풀링함으로써 간단히 해결할 수 있습니다. 또한 세 가지 개별 사이트 모델에는 문제가 없으며 유효합니다. 이것은 풀링이 없어도 강력한 동의 증거를 제공하는 것으로 보입니다. 또한 측정은 공통 사이트에 대해 사이트 1과 2에서 독립적으로 수행되었습니다. 따라서 사이트 1의 샘플에 대한 측정 오류가 사이트 2의 해당 샘플의 측정 오류와 상관 관계가 없기 때문에 모든 데이터를 사용하는 풀링 된 분석조차도 유효하다고 생각합니다. 문제가되지 않는 공간. 상관 관계 / "간섭"을 만들지 않습니다.

내 보고서에는 조정할 상관 관계가 없기 때문에 부트 스트랩 분석이 필요하지 않다고 썼습니다. 3 개의 사이트 모델이 유효했고 (사이트 내에서 "간섭"이 없을 수 있음) 풀링을 수행 할 때 사이트 1에서 공통 샘플을 제거하여 풀링 분석을 수행 할 수있었습니다. 이러한 풀링 된 분석에는 간섭 문제가 없습니다. 조정할 바이어스가 없으므로 부트 스트랩 조정이 필요하지 않습니다.

결론

고객은 저의 분석에 동의했지만 FDA에 가져가는 것을 두려워했습니다. 그들은 어쨌든 부트 스트랩 조정을 원합니다.

내 질문

A) (1) 고객 결과에 대한 나의 분석 및 (2) 부트 스트랩이 필요하지 않다는 나의 주장에 동의하십니까?

B) Deming 회귀를 부트 스트랩해야한다는 점을 감안할 때 부트 스트랩 샘플에서 Deming 회귀를 수행 할 수있는 SAS 또는 R 절차가 있습니까?

편집 : Bill Huber의 제안을 감안할 때 x의 y와 x의 y를 모두 회귀하여 변수 오류 오류 회귀에 대한 경계를 살펴볼 계획입니다. 우리는 이미 한 버전의 OLS에 대해 두 가지 오차 분산이 같다고 가정 할 때 그 대답은 본질적으로 변수 내 오차와 동일하다는 것을 알고 있습니다. 이것이 다른 회귀에 해당된다면 Deming 회귀가 적절한 해결책을 제시한다는 것을 알 수 있습니다. 동의하십니까?

클라이언트의 요청을 충족 시키려면 모호하게 정의 된 요청 된 부트 스트랩 분석을 수행해야합니다. 윤리적으로 나는 클라이언트의 실제 문제를 실제로 해결하지 못하기 때문에 부트 스트랩을 제공하는 것이 잘못 될 것이라고 생각합니다. 이는 분석 측정 절차를 정당화하는 것입니다. 그래서 나는 그들에게 분석을 제공하고 적어도 FDA에 부트 스트랩을 수행하는 것 외에도 역 회귀를하고 더 적절하다고 생각되는 데밍 회귀를 제한했다고 FDA에 요구할 것입니다. 또한 분석 결과 분석 방법이 참조와 동일하므로 데밍 회귀 분석도 적합하다고 생각합니다.

@whuber가 Deming 회귀를 부트 스트랩 할 수 있도록 그의 대답에서 제안한 R 프로그램을 사용할 계획입니다. 나는 R에 익숙하지 않지만 할 수 있다고 생각합니다. R은 R Studio와 함께 설치되었습니다. 저 같은 초보자도 쉽게 이해할 수 있을까요?

또한 SAS가 있으며 SAS에서보다 편안한 프로그래밍입니다. 따라서 누군가 SAS 에서이 작업을 수행하는 방법을 알고 있다면 그것에 대해 알고 싶습니다.


2
나는이 질문에 대한 답을 모른다. 그러나 순전히 정치적인 관점에서, FDA가 원하는 것을하고 (적어도, 아마도) 결과가 비슷한 것을하는 것이 낫지 않을까? (좋은 질문, BTW, +1)
Peter Flom-Monica Monica

1
예 @PeterFlom FDA에 대한 분석을 수행하고 그것을 보여주는 것은 중요하지 않다는 데 동의합니다. 그러나 회귀 결과와 그 의미를 외교적으로 지적하고 중복 샘플없이 풀링을 수행하면 논쟁이 강화된다고 생각합니다. 부트 스트랩을 수행하려고하지만 사용 가능한 소프트웨어를 찾는 데 도움이되어 독립적으로 코딩하지 않고 Deming 회귀를 직접 수행 할 수 있습니다.
마이클 R. 체닉

2
마이클, "사이트"에 공통적 인 "샘플"의 가능성은 이러한 (추상적 인) 용어가 무엇을 의미하는지에 대한 자연스런 해석에 의문을 제기합니다. 예를 들어, 처음에는 "사이트"를 서로 다른 지리적 위치로, "샘플" 을 해당 위치와 관련된 별도의 개체 로 생각했는데 , 각각 독립적 인 측정을 받았습니다. 이 모델에서는 샘플이 다른 사이트에 공통적이지 않습니다. 당신은 무엇을 명확히 주 시겠어요 당신이 이 약관의 의미?
whuber

3
@ whuber 사이트는 다른 위치입니다. 샘플은 개인의 시트르산 혈장입니다. 랩 테스트는 다른 시간에 다른 사이트에서 수행됩니다. 동일한 기능을 수행하기위한 두 가지 분석 측정 장치를 비교합니다. 사이트 1과 2에서 일부 샘플은 재사용되었지만 장치는 사이트 1과 사이트 2에서 독립적으로 작동했습니다. 따라서 동일한 샘플 (또는 동일한 샘플의 일부)을 사용하더라도 측정 오류는 실제로 독립적이라고 말합니다. .
Michael R. Chernick

1
a) 풀링 된 분석에서 복제 된 샘플을 제거하면 독립성 부족에 대한 우려가 사라진다는 데 동의했습니다. b) 드문 회귀 분석법과 관련된 부트 스트랩 분석에 R을 사용하는 것이 "쉬운"SAS 사용자는 거의 없습니다. 부트 스트랩 분석에는 실제로 기능적 프로그래밍 모드가 필요하며 이는 SAS가 권장하는 모드가 아닙니다.
DWin

답변:


10

이것은 상호 교정 문제입니다. 즉, 두 개의 독립적 인 측정 장치를 정량적으로 비교하는 것입니다.

두 가지 주요 문제가있는 것으로 보입니다. 첫 번째는 (질문에 내재 된) 문제를 짜는 데있다 : 새로운 방법이 승인 된 방법과 "동등한"것인지 어떻게 판단해야 하는가? 두 번째는 일부 샘플이 두 번 이상 측정되었을 수있는 데이터를 분석하는 방법에 관한 것입니다.

질문을 프레임

언급 된 문제에 대한 최상의 (그리고 아마도 명백한) 해결책 은 비교 가능한 매체 (예 : 사람 혈장)에서 얻은 정확한 값을 알고있는 샘플을 사용하여 새로운 방법을 평가하는 것 입니다. (이것은 일반적으로 알려진 농도의 표준 물질로 실제 샘플을 스파이 킹하여 수행됩니다.) 아직 수행되지 않았기 때문에 (어떤 이유로 든) 조절기가 허용되지 않거나 불가능하다고 가정 해 봅시다. 따라서 우리는 두 가지 측정 방법을 비교하는 것으로 축소되었습니다. 그 중 하나는 정확하고 재현 가능하지만 (정확한 정밀도는 없음) 믿어지기 때문에 참조로 사용됩니다.

실제로, 고객은 FDA가 새로운 방법을 대리 또는 허용 된 방법에 대한 대리로 허용하도록 요청할 것입니다. 따라서 새로운 방법의 결과는 승인 된 방법이 적용되었을 때 결정한 것을 충분히 정확하게 예측할 수 있음을 입증해야 합니다. 이것의 미묘한 측면은 우리가하는 것입니다 하지 예측을 시도하는 진정한 값 자체를 - 우리는 심지어 그들을 알고하지 않습니다. 따라서 변수 오류 오류 회귀 분석이 이러한 데이터를 분석하는 가장 적절한 방법이 아닐 수 있습니다.

와이엑스엑스와이와이엑스와이엑스. 내 경험에 따르면이 방법은 보수적으로 엄격 해지는 경향이 있습니다. 두 측정이 모두 정확하고 정확하며 선형 적으로 관련되어 있지 않으면이 간격이 놀랍도록 클 수 있습니다.

중복 샘플 해결

여기서 관련된 개념은 표본 지원분산 성분에 대한 것입니다. "시료지지"는 실제로 측정되는 대상 (여기서는 인간)의 물리적 부분을 지칭한다. 대상의 일부를 채취 한 후, 일반적으로 측정 프로세스에 적합한 서브 샘플로 분할해야합니다. 서브 샘플 간의 변동 가능성에 대해 우려 할 수 있습니다. 잘 혼합 된 액체 시료에서는 시료 전체에 걸쳐 기본 양 (예 : 화학 물질 농도)에 변동이 없지만 고형 또는 반고체 (혈액을 포함 할 수 있음)의 시료에는 이러한 변동이있을 수 있습니다. 실질적인. 실험실은 종종 측정을 수행하기 위해 마이크로 리터의 용액 만 필요하다는 점을 고려할 때, 거의 미세한 규모의 변화에 ​​대해 염려해야합니다. 이것은 중요 할 수 있습니다.

내에서 그러한 변화의 가능성물리적 샘플은 측정 결과의 변동이 별도의 "분산 성분"으로 분할되어야 함을 나타냅니다. 한 성분은 샘플 내 변동으로부터의 편차이고, 다른 성분은 후속 측정 프로세스의 각 독립적 단계에서 변동에 기여합니다. (이 단계에는 서브 샘플링의 물리적 작용, 안정 화제 또는 원심 분리 추가와 같은 시료의 화학적 및 물리적 처리, 시료의 측정 기기에 주입, 기기 내의 변형, 기기 간 변형 및 기타 계측기를 운영하는 사람의 변화, 실험실의 가능한 주변 오염 등으로 인한 변화 등이 질문에 대한 답변을 실제로 잘 수행하기 위해서는 통계학자는 전체 샘플링 및 분석 프로세스에 대한 철저한 이해가 필요합니다. 내가 할 수있는 것은 일반적인 지침을 제공하는 것입니다.)

두 가지 다른 "사이트"에서 측정 된 하나의 "샘플"은 실제로 동일한 사람으로부터 얻은 두 개의 물리적 샘플이므로 실험실간에 분할되기 때문에 이러한 고려 사항은 당면한 문제에 적용됩니다. 승인 된 분석법에 의한 측정은 한 조각의 분할 샘플을 사용하고 새로운 분석법에 의한 동시 측정은 다른 조각의 분할 샘플을 사용합니다. 분산의 구성 요소를 고려하면 이러한 분할이 암시하여 문제의 주요 문제를 해결할 수 있습니다. 지금이 쌍 측정 사이의 차이는 두 가지에 기인한다는 것을 명확해야한다 : - 이것은 우리가 평가하려고하는 것입니다 - 측정 절차 사이의 첫째, 실제의 차이, 초 인한 변화에 차이 내에서측정 될 2 개의 서브 샘플을 추출하는 물리적 프로세스에 의해 야기 된 변동뿐만 아니라 샘플. 경우 샘플 균질성 및 서브 샘플링 과정에 대한 추론 물리적 변화의 두 번째 형태는 무시할 수 있음을 확립하고 실제로 검토하여 항에는 "간섭"이 존재하지 않는다. 그렇지 않으면, 이러한 분산 성분은 역 회귀 분석에서 명시 적으로 모델링하고 추정해야 할 수도 있습니다.


1
이 문제를 해결하는 가장 좋은 방법을 제안하는 매우 훌륭한 분석에 감사드립니다. 그러나 내 특별한 상황에서 고객은 데밍 회귀 접근법을 선택했으며 다른 방법을 찾지 않습니다. Deming 회귀에 대한 FDA의 주입은 간섭으로 인한 것으로 보이며 문제를 해결하기위한 제안은 일종의 부트 스트랩 수정입니다. 그들은 부트 스트랩을 수행하는 방법을 모르기 때문에 가져 왔습니다. 그들은 통계학자를 포함하지 않았으며, 보고서에서 제공 한 결과에 대한 통계 분석을 제시하지 않았습니다.
Michael R. Chernick

2
나는 제약 조건을 이해하고 있습니다 (그리고 그것에 대해 명백해야합니다). 그러나 일반적으로 이와 같은 질문을 해결하기위한 좋은 프레임 워크는 출발 지점으로 적절한 모델을 취하는 것입니다. 부적절한 접근 방식과 잘못된 모델 (클라이언트를 만족시키기 위해)을 사용하여 솔루션에 대한 길을 추리하려고하면 오류 만 복합화되고 명확하게 방어 가능한 솔루션에 도달 할 수 없습니다. 이제 고려할 사항은 데밍 회귀가 역 회귀와 어떻게 다른지, 그리고 데밍 회귀를 여러 분산 성분을 수용하도록 조정하는 방법입니다.
whuber

1
이미 적용된 데밍 회귀 분석 이 더 일반적이거나 적절한 방법으로 생성 된 결과에 충분히 가깝다는 것을 보여 주려는 동기가있을 수 있습니다 . 이러한 데모는 현재 상황에서 가능한 최상의 해결책 일 수 있습니다.
whuber

대신 그들이 한 일은 단순히 문제를 설명하고 데이터를 수집하고 데밍 회귀 결과를 표시하는 방법이었습니다. 통계학자가 참여한 경우 데밍 회귀 분석에 대해 제기 된 통계 문제가 줄어들었을 수 있습니다. clinet에 대해 할 수있는 모든 것은 수행 된 분석에 대한 사례를 제공하는 것입니다 (공통 소스에서 반복 샘플링으로 인한 간섭에 대해 걱정하지 않고 대부분의 회귀 분석을 수행 할 수있는 이유에 대한 설명 포함). 풀링 된 모형의 잔차 분산 조정.
Michael R. Chernick

나는이 시점에서 그들에게 역 회귀를하도록 지시 할 수 없다. 측정 방법이 승인되면이 방법이 참조로 간주 될 수 있으며 회사의 부담은 새로운 방법이 참조와 동일한 작업을 수행한다는 것을 보여주는 것입니다. 이를 위해 Deming 회귀 분석이 적합 할 수 있고 FDA에 허용 될 수 있다고 생각합니다. 반복되는 샘플 문제가 발생하지 않았을 것입니다. 그들이 풀링을 할 때 반복 샘플 중 하나를 떠난 경우에는 그 문제가 발생하지 않았을 것입니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.