카운트 데이터에 왜 제곱근 변환이 권장됩니까?


57

카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 응답 분포를 제어하는 ​​매개 변수 인 의 로그 변환을 수행함 ). 따라서이 둘 사이에는 약간의 긴장이 있습니다. λ

  • 이 (명확한) 불일치를 어떻게 조정합니까?
  • 왜 제곱근이 대수보다 낫습니까?

답변:


45

제곱근은 포아송에 대해 거의 분산 안정화입니다 . 제곱근에는 을 추가하는38 등의 속성을 향상시키는 여러 변형이 있습니다.X+X+1

여기에 이미지 설명을 입력하십시오

23

여기에 이미지 설명을 입력하십시오

Poisson의 매개 변수가 실제로 작지 않은 한 특히 정규 근방을 원하고 이분산성을 신경 쓰지 않고 조정할 수있는 경우 시도하십시오.23

정식 링크는 일반적으로 포아송 데이터에 대해 특히 좋은 변환이 아닙니다 . log zero는 특정 문제입니다 (또 다른 것은 이분산성입니다. 0이없는 경우에도 왼쪽 왜곡을 얻을 수 있습니다). 가장 작은 값이 0에 너무 가까우면 평균을 선형화하는 데 유용 할 수 있습니다. 여러 상황에서 Poisson 의 조건부 모집단 평균 에 대한 좋은 '변형' 이지만 항상 Poisson 데이터의 것은 아닙니다. 그러나 변환하려는 경우 하나의 일반적인 전략은 상수 를 추가하는 것입니다.y=log(y+c)0c0.40.5μ120.43

사람들이 왜 다른 것을 선택하거나 다른 것보다 하나의 변환을 선택하는지에 관해서는-그것이 실제로 달성하기 위해 무엇을하고 있는지의 문제입니다.

[1] : "일반화 된 선형 모형 및 변환 된 잔차"유인물에서 Henrik Bengtsson의 음모에 따라 패턴 된 도표는 여기를 참조하십시오 (p4의 첫 번째 슬라이드 참조). 나는 약간의 y 지터를 추가하고 라인을 생략했습니다.


1
(0,+)(,+)λ

2
Xy

1
+1 제곱근은 단순히 카운트 데이터를 다루기위한 시작점입니다. 로그도 좋은 선택입니다. 데이터는 종종 유용하고 간결한 설명을 얻는 데 어느 쪽이 더 성공적인지 알려줍니다. Gung, 당신이 언급대답에서 , 제곱근이 좋은 선택 이었다는 데모는 오른쪽 그림에 명백한 비 잔차 잔차의 대칭 분포에 있습니다. 시뮬레이션의 매개 변수를 변경하면 대칭이 유지됩니다.
whuber

1
@ 글렌 나는 로그가 항상 좋은 선택 이라고 말하지 않았다 . 그러나 때로는 뿌리보다 우월합니다. 카운트가 0으로 나타나면 "started"logarithm 이 필요합니다 . 여기서 다른 스레드 는 시작 값을 얻는 방법에 대해 설명했습니다 . 데이터에 0 카운트가 없으면 로그에 전혀 문제가 없습니다.
whuber

2
x+3/8xx+ccx+3/8
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.