화학 물질 농도 데이터는 종종 0을 갖지만, 이들은 0 값을 나타내지 않습니다 . 이들은 다양하고 (혼동스럽게도) 비 검출 (분석이 존재하지 않을 가능성이 높은 것으로 표시된 측정 값)과 "정량화되지 않은"측정 값 을 다양하게 (그리고 혼란스럽게) 나타내는 코드입니다. 값 (측정 결과 분석 물을 감지했지만 신뢰할 수있는 숫자 값을 생성 할 수 없음). 이 "NDs"를 막연하게 여기로 부르겠습니다.
일반적으로 실험실 에서 수치 값을 제공하지 않기로 결정 하기 때문에 "탐지 한계", "정량 한계"또는 (보다 정직하게는 "보고 한계")로 알려진 ND와 관련된 한계 가 있습니다. 원인). 에 대해 우리가 정말 ND 알고 모두가 진정한 가치는 관련 제한보다 가능성이 적은 점이다 : 그것은 거의 (그러나 확실히) 양식의 왼쪽 검열1.3301.330.50.1
지난 30 년 동안 이러한 데이터 세트를 요약하고 평가하는 최선의 방법에 관해 광범위한 연구가 수행되었습니다. Dennis Helsel은 이에 대한 책인 Nondetects and Data Analysis (Wiley, 2005)를 발표하고 강의를 가르치며 R
자신이 선호하는 기술을 기반으로 패키지를 출시했습니다 . 그의 웹 사이트 는 포괄적입니다.
이 분야는 오류와 오해로 가득 차 있습니다. Helsel은 이것에 대해 솔직합니다 : 그의 저서 1 장 첫 페이지에서,
... 오늘날 환경 연구에서 가장 일반적으로 사용되는 방법 인 검출 한계의 절반을 대체하는 것은 검열 된 데이터를 해석하기위한 합리적인 방법이 아닙니다.
그래서 뭐 할까? 이러한 좋은 조언을 무시하고, Helsel 's book의 일부 방법을 적용하고, 다른 방법을 사용하는 옵션이 있습니다. 맞습니다.이 책은 포괄적이지 않으며 유효한 대안이 존재합니다. 데이터 세트의 모든 값에 상수를 추가 ( "시작")하는 것은 하나입니다. 그러나 다음을 고려하십시오.
시뮬레이션 된 값의 다음 히스토그램에서 알 수 있듯이 , 검열 및 델타 분포는 동일하지 않습니다. 델타 접근법은 회귀 분석 변수에 가장 유용합니다. "더미"변수를 작성하여 ND를 표시하고, 감지 된 값의 로그를 취하거나 (필요에 따라 변환), ND의 대체 값에 대해 걱정하지 않아도됩니다. .
이 히스토그램에서 가장 낮은 값의 약 20 %가 0으로 대체되었습니다. 비교를 위해 모두 1000 개의 시뮬레이션 된 기본 로그 정규 값 (왼쪽 위)을 기반으로합니다. 델타 분포는 임의로 200의 값을 0으로 대체하여 만들어졌습니다 . 가장 작은 200 개의 값을 0 으로 대체하여 검열 분포를 만들었습니다 . "현실적인"분포는 내 경험에 부합합니다. 즉,보고 한계는 실제로는 실습에서 차이가 있습니다 (실험실에서 표시하지 않은 경우에도)! 어느 한 방향으로)보고 된 모든 시뮬레이션 된 값을보고 한계보다 작은 0으로 대체했습니다.
확률도의 유용성을 보여주고 해석을 설명하기 위해 다음 그림은 이전 데이터의 로그와 관련된 정규 확률도를 표시합니다.
왼쪽 상단에는 모든 데이터가 표시됩니다 (검열 또는 교체 전). 이상적인 대각선에 잘 맞습니다 (꼬리 꼬리에 약간의 편차가있을 것으로 예상합니다). 이것이 우리가 모든 후속 플롯에서 달성하려는 목표입니다 (그러나 ND로 인해 불가피하게이 이상에 미치지 못할 것입니다). 오른쪽 상단은 시작 값 1을 사용하여 검열 된 데이터 세트에 대한 확률 플롯입니다. 모든 ND ( , 이므로 끔찍한 결과입니다.log(1+0)=0)가 너무 낮게 표시되었습니다. 왼쪽 아래는 시작 값이 120 인 검열 된 데이터 집합에 대한 확률도이며 일반적인보고 제한에 가깝습니다. 왼쪽 하단의 맞춤은 이제 괜찮습니다.이 모든 값이 적합 선 근처에 있지만 오른쪽 상단에 오기를 희망하지만 상단 꼬리의 곡률은 120을 더하면 분포의 모양. 오른쪽 하단은 델타-로그 정규 데이터에 어떤 일이 발생하는지 보여줍니다. 상단 꼬리에는 잘 맞지만보고 한계 근처 (곡선 중간)에 약간의 곡률이 있습니다.
마지막으로 좀 더 현실적인 시나리오를 살펴 보겠습니다.
왼쪽 상단에는보고 한계의 절반으로 0이 설정된 검열 된 데이터 세트가 표시됩니다. 꽤 잘 맞습니다. 오른쪽 상단에는보다 현실적인 데이터 집합이 있습니다 (보고 범위가 임의로 변경됨). 시작 값 1은 도움이되지 않지만 왼쪽 하단에서 시작 값 120 (보고 한계의 상한 범위 근처)에 적합하면 적합합니다. 흥미롭게도, 포인트가 ND로부터 정량화 된 값으로 상승함에 따라 중간 부근의 곡률은 델타 로그 정규 분포를 연상시킨다 (이러한 데이터는 이러한 혼합물에서 생성되지 않았음에도 불구하고). 오른쪽 아래에는 실제 데이터의 ND가 (일반)보고 한계의 절반으로 대체 될 때 얻을 수있는 확률도입니다. 이것이 가장 적합합니다. 중간에 델타 로그와 같은 동작을 보여 주지만.
그러므로해야 할 일은 확률도를 사용하여 ND 대신에 다양한 상수가 사용될 때 분포를 탐색하는 것입니다. 공칭, 평균,보고 한계의 절반으로 검색을 시작한 다음 여기에서 위아래로 변경하십시오. 오른쪽 아래처럼 보이는 플롯을 선택하십시오. 정량화 된 값의 대각선 직선, 낮은 고원으로의 빠른 감소 및 대각선 확장과 거의 일치하지 않는 값의 고원입니다. 그러나 실제 통계 요약을 위해 Helsel의 조언 (문헌에서 강력하게 지원됨)에 따라 ND를 상수로 대체하는 방법은 피하십시오. 회귀 분석을 위해 더미 변수를 추가하여 ND를 표시하십시오. 일부 그래픽 디스플레이의 경우 확률도 연습에서 찾은 값으로 ND를 지속적으로 대체하면 효과가 있습니다. 다른 그래픽 디스플레이의 경우 실제보고 제한을 나타내는 것이 중요 할 수 있으므로 대신 ND를보고 제한으로 바꾸십시오. 융통성이 있어야합니다!