0의 로그를 피하기 위해 x에 얼마나 적은 양을 첨가해야합니까?


57

내 데이터를 그대로 분석했습니다. 이제 모든 변수의 로그를 얻은 후 분석을 살펴보고 싶습니다. 많은 변수는 많은 0을 포함합니다. 따라서 나는 0의 로그를 피하기 위해 소량을 추가합니다.

지금까지 아무런 근거도없이 10 ^ -10을 추가했습니다. 아주 적은 양을 추가하는 것이 임의로 선택한 양의 효과를 최소화하는 것이 좋습니다. 그러나 일부 변수는 대부분 0을 포함하므로 대부분 -23.02로 기록됩니다. 내 변수 범위의 범위는 1.33-8819.21이며 0의 빈도도 크게 다릅니다. 따라서 "소량"의 개인적 선택은 변수에 매우 다르게 영향을 미칩니다. 모든 변수의 대부분의 분산이이 임의의 "소량"에서 비롯되므로 10 ^ -10이 완전히 수용 할 수없는 선택임을 알 수 있습니다.

이 작업을 수행하는 더 올바른 방법이 무엇인지 궁금합니다.

각 변수 개별 분포에서 수량을 얻는 것이 더 낫습니까? 이 "소량"의 크기에 대한 지침이 있습니까?

내 분석은 대부분 각 변수와 연령 / 성별을 IV로 갖는 간단한 콕스 모델입니다. 변수는 다양한 혈액 지질의 농도이며 종종 상당한 변동 계수가 있습니다.

편집 : 변수의 가장 작은 0이 아닌 값을 추가하면 내 데이터에 실용적입니다. 그러나 일반적인 해결책이 있습니까?

편집 2 : 0은 단순히 검출 한계 이하의 농도를 나타 내기 때문에 (검출 한계) / 2로 설정하는 것이 적절합니까?


4
log

2
1

5
응답 변수 또는 설명 변수에만이 문제가 있습니까? 단지 후자의 경우에, 샘플 크기 고려 사항에 따라 하나 개를 선택하여 추가 할 수있다 추가적인 특정 분석 물은 검출 임계 값 이하로 하였다 농도를 나타내는 가변 수있다. 이것은 자유도를 흡수하지만 데이터에 임의의 임시 선택을 부과하지 않는 이점이 있습니다. 또한 감지 임계 값 근처의 비선형 성 또는 불연속성을 발견 할 수 있습니다.
추기경

2
@Procrastinator 로그 스케일은 평형 상수와 깁스 에너지 사이의 지수 관계로 인해 농도에 적합합니다. 실제로 "연속적인"화학에서 농도는 다소 비현실적이다.

2
대안은 예를 들어 데이터의 큐브 루트를 가져 오는 것입니다. 로그까지 모든 방법을 제공하지는 않지만 크기 조정없이 0을 유지합니다.
jbowman 2016 년

답변:


26

0은 단순히 검출 한계 이하의 농도를 나타내므로, (검출 한계) / 2로 설정하는 것이 적절할 것입니다

방금 로그가 (종종) 의미가 있고 0이 발생할 수있는 곳에서 생각하는 것은 두 번째 편집을 할 때 집중되는 것입니다. 말씀 드린 바와 같이, 측정 된 농도의 경우 0은 "저농도를 측정 할 수 없습니다"라는 의미입니다.

참고 사항 : LOD 대신 LOQ를 의미합니까?

0을 설정할지 여부12

  • 12LOQ

    여기에 이미지 설명을 입력하십시오여기에 이미지 설명을 입력하십시오
    12LOQ

  • 그러나 원래 측정 된 값을 사용할 수 있으면 더 나은 추측을 제공 할 수 있습니다. 결국 LOQ는 일반적으로 상대 오류가 10 %임을 의미합니다. 그 아래에는 측정에 여전히 정보가 있지만 상대 오차는 커집니다.
    여기에 이미지 설명을 입력하십시오
    (파란색 : LOD, 빨간색 : LOQ)

  • 대안은 이러한 측정을 제외하는 것입니다.
    예를 들어 보정 곡선을 생각 하면 합리적 일 수 있습니다 . 실제로 낮은 c, 신호 ≈ 상수, 중간 선형 동작, 탐지기 포화와 같은 S 자 모양을 종종 관찰합니다. 여기에 이미지 설명을 입력하십시오
    이러한 상황에서는 다른 프로세스와 그 밖의 프로세스가 결과에 큰 영향을 미치기 때문에 선형 범위에있는 농도에 대한 설명으로 자신을 제한 할 수 있습니다.
    데이터가 그런 방식으로 선택되었다고 설명해야합니다.


편집 : 현명하거나 수용 가능한 것은 물론 문제에 달려 있습니다. 우리는 여기서 분석에 영향을 미치지 않는 데이터의 작은 부분에 대해 이야기하고 있습니다.

어쩌면 빠르고 더러운 검사는 다음과 같습니다. 데이터를 제외하거나 제외하고 데이터 분석을 실행하고 실질적인 변화가 있는지 확인하십시오.

변화가 보이면 당연히 문제가 있습니다. 그러나 분석 화학 관점에서 볼 때 문제가 주로 데이터를 처리하는 데 사용하는 방법에 있지는 않지만 근본적인 문제는 분석 방법 (또는 작업 범위)이 적합하지 않다는 것입니다 당면한 문제. 물론 더 나은 통계적 접근 방식으로 하루를 절약 할 수있는 영역이 있지만 결국 "쓰레기 수거, 쓰레기 수거"라는 근사치가 더 멋진 방법으로 사용됩니다.

주제에 대한 인용문 :

  • 한 통계학자가 한 번 말했다 :

    당신 (화학자 / 분광학 자)의 문제는 당신의 문제가 너무 어려워서 해결할 수 없거나 너무 쉽게 풀 수 있다는 것입니다.

  • 실험의 사후 통계에 관한 Fisher


1
나는 바닥에있는 인용문을 좋아합니다 (+1).
Monica Monica 복원

32

화학 물질 농도 데이터는 종종 0을 갖지만, 이들은 0 값을 나타내지 않습니다 . 이들은 다양하고 (혼동스럽게도) 비 검출 (분석이 존재하지 않을 가능성이 높은 것으로 표시된 측정 값)과 "정량화되지 않은"측정 을 다양하게 (그리고 혼란스럽게) 나타내는 코드입니다. 값 (측정 결과 분석 물을 감지했지만 신뢰할 수있는 숫자 값을 생성 할 수 없음). 이 "NDs"를 막연하게 여기로 부르겠습니다.

일반적으로 실험실 에서 수치 값을 제공하지 않기로 결정 하기 때문에 "탐지 한계", "정량 한계"또는 (보다 정직하게는 "보고 한계")로 알려진 ND와 관련된 한계 가 있습니다. 원인). 에 대해 우리가 정말 ND 알고 모두가 진정한 가치는 관련 제한보다 가능성이 적은 점이다 : 그것은 거의 (그러나 확실히) 양식의 왼쪽 검열1.3301.330.50.1

지난 30 년 동안 이러한 데이터 세트를 요약하고 평가하는 최선의 방법에 관해 광범위한 연구가 수행되었습니다. Dennis Helsel은 이에 대한 책인 Nondetects and Data Analysis (Wiley, 2005)를 발표하고 강의를 가르치며 R자신이 선호하는 기술을 기반으로 패키지를 출시했습니다 . 그의 웹 사이트 는 포괄적입니다.

이 분야는 오류와 오해로 가득 차 있습니다. Helsel은 이것에 대해 솔직합니다 : 그의 저서 1 장 첫 페이지에서,

... 오늘날 환경 연구에서 가장 일반적으로 사용되는 방법 인 검출 한계의 절반을 대체하는 것은 검열 된 데이터를 해석하기위한 합리적인 방법이 아닙니다.

그래서 뭐 할까? 이러한 좋은 조언을 무시하고, Helsel 's book의 일부 방법을 적용하고, 다른 방법을 사용하는 옵션이 있습니다. 맞습니다.이 책은 포괄적이지 않으며 유효한 대안이 존재합니다. 데이터 세트의 모든 값에 상수를 추가 ( "시작")하는 것은 하나입니다. 그러나 다음을 고려하십시오.

  • 111

  • 0

    시작 값을 결정하기위한 훌륭한 도구는 로그 정규 확률도입니다. ND와는 별도로 데이터는 대략 선형이어야합니다.

  • ND의 수집은 또한 소위 "델타 로그 정규"분포로 기술 될 수있다. 이것은 점 질량과 로그 정규의 혼합입니다.

시뮬레이션 된 값의 다음 히스토그램에서 알 수 있듯이 , 검열 및 델타 분포는 동일하지 않습니다. 델타 접근법은 회귀 분석 변수에 가장 유용합니다. "더미"변수를 작성하여 ND를 표시하고, 감지 된 값의 로그를 취하거나 (필요에 따라 변환), ND의 대체 값에 대해 걱정하지 않아도됩니다. .

히스토그램

이 히스토그램에서 가장 낮은 값의 약 20 %가 0으로 대체되었습니다. 비교를 위해 모두 1000 개의 시뮬레이션 된 기본 로그 정규 값 (왼쪽 위)을 기반으로합니다. 델타 분포는 임의로 200의 값을 0으로 대체하여 만들어졌습니다 . 가장 작은 200 개의 값을 0 으로 대체하여 검열 분포를 만들었습니다 . "현실적인"분포는 내 경험에 부합합니다. 즉,보고 한계는 실제로는 실습에서 차이가 있습니다 (실험실에서 표시하지 않은 경우에도)! 어느 한 방향으로)보고 된 모든 시뮬레이션 된 값을보고 한계보다 작은 0으로 대체했습니다.

확률도의 유용성을 보여주고 해석을 설명하기 위해 다음 그림은 이전 데이터의 로그와 관련된 정규 확률도를 표시합니다.

확률도

왼쪽 상단에는 모든 데이터가 표시됩니다 (검열 또는 교체 전). 이상적인 대각선에 잘 맞습니다 (꼬리 꼬리에 약간의 편차가있을 것으로 예상합니다). 이것이 우리가 모든 후속 플롯에서 달성하려는 목표입니다 (그러나 ND로 인해 불가피하게이 이상에 미치지 못할 것입니다). 오른쪽 상단은 시작 값 1을 사용하여 검열 된 데이터 세트에 대한 확률 플롯입니다. 모든 ND ( , 이므로 끔찍한 결과입니다.log(1+0)=0)가 너무 낮게 표시되었습니다. 왼쪽 아래는 시작 값이 120 인 검열 된 데이터 집합에 대한 확률도이며 일반적인보고 제한에 가깝습니다. 왼쪽 하단의 맞춤은 이제 괜찮습니다.이 모든 값이 적합 선 근처에 있지만 오른쪽 상단에 오기를 희망하지만 상단 꼬리의 곡률은 120을 더하면 분포의 모양. 오른쪽 하단은 델타-로그 정규 데이터에 어떤 일이 발생하는지 보여줍니다. 상단 꼬리에는 잘 맞지만보고 한계 근처 (곡선 중간)에 약간의 곡률이 있습니다.

마지막으로 좀 더 현실적인 시나리오를 살펴 보겠습니다.

확률도 2

왼쪽 상단에는보고 한계의 절반으로 0이 설정된 검열 된 데이터 세트가 표시됩니다. 꽤 잘 맞습니다. 오른쪽 상단에는보다 현실적인 데이터 집합이 있습니다 (보고 범위가 임의로 변경됨). 시작 값 1은 도움이되지 않지만 왼쪽 하단에서 시작 값 120 (보고 한계의 상한 범위 근처)에 적합하면 적합합니다. 흥미롭게도, 포인트가 ND로부터 정량화 된 값으로 상승함에 따라 중간 부근의 곡률은 델타 로그 정규 분포를 연상시킨다 (이러한 데이터는 이러한 혼합물에서 생성되지 않았음에도 불구하고). 오른쪽 아래에는 실제 데이터의 ND가 (일반)보고 한계의 절반으로 대체 될 때 얻을 수있는 확률도입니다. 이것이 가장 적합합니다. 중간에 델타 로그와 같은 동작을 보여 주지만.

그러므로해야 할 일은 확률도를 사용하여 ND 대신에 다양한 상수가 사용될 때 분포를 탐색하는 것입니다. 공칭, 평균,보고 한계의 절반으로 검색을 시작한 다음 여기에서 위아래로 변경하십시오. 오른쪽 아래처럼 보이는 플롯을 선택하십시오. 정량화 된 값의 대각선 직선, 낮은 고원으로의 빠른 감소 및 대각선 확장과 거의 일치하지 않는 값의 고원입니다. 그러나 실제 통계 요약을 위해 Helsel의 조언 (문헌에서 강력하게 지원됨)에 따라 ND를 상수로 대체하는 방법은 피하십시오. 회귀 분석을 위해 더미 변수를 추가하여 ND를 표시하십시오. 일부 그래픽 디스플레이의 경우 확률도 연습에서 찾은 값으로 ND를 지속적으로 대체하면 효과가 있습니다. 다른 그래픽 디스플레이의 경우 실제보고 제한을 나타내는 것이 중요 할 수 있으므로 대신 ND를보고 제한으로 바꾸십시오. 융통성이 있어야합니다!


1
매우 좋은 답변! 완전히 동의 해. 그리고 데이터를 볼 때의 느낌에 익숙하며 데이터가 "평소대로"변환되기 전에 완벽하게 유용한 데이터 세트가 있다는 것을 알고 있습니다.
cbeleites

1
다양한 한계 : LOD (검출 한계-> 정 성적 응답의 경우)와 LOQ (정량적 측정의 경우 정량의 한계)를 모두 계산하는 여러 가지 접근 방식이 있습니다. 한 실험실에서는 일반적으로 동일한 계산 방법에 대해 계산 방법을 변경하지 않을 것입니다. 그러나 이러한 값은 계산이 완료 될 때마다 다시 계산됩니다. 분석법이 매일 업무를 수행해야하는 경우 매일 약간의 한계가 있습니다.
cbeleites

1
낮은 숫자를 제공하지 않는 한계 및 법적 이유 : 법적 이유는 원시 신호, 해당 농도 및 신뢰 구간 / 측정 판단 (예 : "LOQ 미만")과 같은 더 자세한 정보를 제공하는 것을 금지하지 않습니다. 또한 분석 실험실에 교정 곡선을 요청할 수 있습니다. 추가 작업이므로 비용을 지불해야하지만 이것이 가능할 것으로 기대합니다. 가장 저렴한 타협은 원시 데이터를 모두 제공하고 데이터 분석을 사용자에게 맡기는 것입니다. 그들이 당신이 통계 학자 / 화학자 / 분석 화학자 / 알고 있다면 도움이 될 것입니다.
cbeleites

1
내 직업에서는 데이터가 반올림되므로 종종 0이 발생합니다. 이러한 경우 그룹화 된 데이터입니다. stats.stackexchange.com/questions/26950/…
Stéphane Laurent

2
이 주제와 관련 주제에 전념하는 "화학식"이라는 전 분야가 있으며, "감지 한계"가 무엇인지를 다루는 전체 책이 작성되었습니다. 나는 20 개 이상의 뚜렷한 정의를 경험했다! 변수를 재 표현하는 문제 (예 : 로그 계산)도 데이터 분석 및 데이터 탐색에서 핵심적인 문제입니다. 많은 서적의 많은 부분 (특히 탐색 적 데이터 분석에 관한 서적)이이 문제에 중점을 둡니다.
whuber


3

ithmean(xi)n×stddev(xi)n

이러한 인공 설정은 분석에 영향을 미치므로 해석에주의해야하며 경우에 따라 아티팩트를 피하기 위해 이러한 경우를 폐기해야합니다.

감지 한계를 사용하는 것도 합리적인 아이디어입니다.


3

회귀 모델에서 0의 로그를 처리하는 방법을 명확히하기 위해 우리는 사람들이 실제로 범하는 가장 좋은 해결책과 일반적인 실수를 설명하는 교육 논문을 작성했습니다. 또한이 문제를 해결하기위한 새로운 솔루션을 개발했습니다.

여기를 클릭하여 논문을 찾을 수 있습니다 : https://ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

이 기사에서는 실제로 매우 작은 상수를 추가하는 것이 실제로 가장 높은 편향을 제공하는 예를 제공합니다. 우리는 편견의 표현을 제공합니다.

실제로 Poisson Pseudo Maximum Likelihood (PPML)는이 문제에 대한 좋은 해결책으로 간주 될 수 있습니다. 다음 프로세스를 고려해야합니다.

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

우리는이 추정기가 편견이 없으며 표준 통계 소프트웨어를 사용하여 GMM으로 간단히 추정 할 수 있음을 보여줍니다. 예를 들어 Stata를 사용하면 한 줄의 코드 만 실행하여 추정 할 수 있습니다.

이 기사가 도움이 되길 바랍니다. 여러분의 의견을 기다리고 있습니다.

크리스토프 벨레 고와 루이스 다니엘 파페, CREST-Ecole Polytechnique-ENSAE

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.