카운트 데이터에 대한 음 이항 GLM 대 로그 변환 : 유형 I 오류율 증가


18

여러분 중 일부는이 멋진 논문을 읽었을 것입니다.

O'Hara RB, Kotze DJ (2010) 카운트 데이터를 로그 변환하지 마십시오. 생태와 진화의 방법 1 : 118–122. .

제 연구 분야 (생태 독성)에서는 제대로 복제되지 않은 실험을 다루고 있으며 GLM은 널리 사용되지 않습니다. 그래서 O'Hara & Kotze (2010)와 비슷한 시뮬레이션을 수행했지만 생태 독성 데이터를 모방했습니다.

전력 시뮬레이션 :

하나의 제어 그룹 ( )과 5 개의 처리 그룹 ( ) 으로 요인 설계의 데이터를 시뮬레이션했습니다 . 처리 1의 풍부도는 대조군과 동일하였고 ( ) 처리 2-5의 풍부도는 대조군의 풍부도의 절반 ( )입니다. 시뮬레이션의 경우 표본 크기 (3,6,9,12)와 대조군 (2, 4,8, ..., 1024)의 풍부도를 다양하게 변경했습니다. 고정 분산 변수 ( )를 가진 음의 이항 분포에서 풍부함이 도출되었습니다 . 음의 이항 GLM 및 가우스 GLM + 로그 변환 된 데이터를 사용하여 100 개의 데이터 세트를 생성하고 분석했습니다.μ 1 - 5 μ (1) = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμ15μ1=μcμ25=0.5μcθ=3.91

결과는 예상대로입니다. GLM은 특히 많은 동물을 채집하지 않았을 때 더 큰 힘을 발휘합니다. 여기에 이미지 설명을 입력하십시오 코드는 여기에 있습니다.

유형 I 오류 :

다음으로 유형 1 오류를 살펴 보았습니다. 위와 같이 시뮬레이션을 수행했지만 모든 그룹의 풍요도 ( ) 는 동일했습니다 .μc=μ15

그러나 결과는 예상과 여기에 이미지 설명을 입력하십시오 다릅니다 . 음 이항 GLM은 LM + 변형에 비해 Type-I 오류가 더 컸습니다. 예상대로 샘플 크기가 증가함에 따라 차이가 사라졌습니다. 코드는 여기에 있습니다.

질문:

lm + transformation에 비해 왜 Type-I Error가 증가합니까?

데이터가 좋지 않은 경우 (작은 표본 크기, 낮은 풍부도 (많은 0)) lm + transformation을 사용해야합니까? 작은 샘플 크기 (처리 당 2-4)는 이러한 실험에서 일반적이며 쉽게 증가시킬 수 없습니다.

비록, 부정. 큰 상자. GLM은이 데이터에 적합한 것으로 정당화 될 수 있으며, lm + 변환은 유형 1 오류를 방지 할 수 있습니다.


1
주된 질문에 대한 답은 아니지만 독자가 주목해야 할 점 : 두 가지 절차에 대해 실제 유형 I 오류를 동등하게 만들지 않으면 검정력 비교가 의미가 없습니다. 나는 타입 I 오류를 들어 올림으로써 항상 더 낮은 것 (이 경우에는 테이크 로그와 정상에 맞는 것)을 위해 더 높은 전력을 만들 수있다. 반면에 특정 상황 (샘플 크기, 풍부도)을 지정하면 유형 I 오류율 (예 : 시뮬레이션)을 얻을 수 있으므로 원하는 유형 I 오류율을 달성하기 위해 테스트 할 공칭 비율을 계산하십시오. 따라서 그들의 힘은 비슷해집니다.
Glen_b-복지 주 모니카

플롯의 y 축 값이 100 개의 데이터 세트에서 평균입니까?
shadowtalker

내 의견을 분명히해야합니다. 통계가 본질적으로 이산 적 인 경우 유형 I 오류율을 완벽하게 제어 할 수는 없지만 일반적으로 유형 I 오류율을 매우 가깝게 만들 수 있습니다. 그것들을 비교할 수있을만큼 충분히 가깝게 만들 수없는 상황에서, 그것들을 비교할 수있는 유일한 방법은 무작위 테스트입니다.
Glen_b-복지 주 모니카

α

1
n

답변:


17

이것은 매우 흥미로운 문제입니다. 코드를 검토 한 결과 명백한 오타가 없습니다.

θθdrop1

선형 모형에 대한 대부분의 검정에서는 귀무 가설 하에서 모형을 다시 계산할 필요가 없습니다. 이는 대립 가설만으로 모수 추정값과 추정 공분산을 사용하여 기하 기울기 (점수 검정)를 계산하고 폭 (근사 검정)을 추정 할 수 있기 때문입니다.

음 이항이 선형이 아니기 때문에 null 모델을 피팅해야한다고 생각합니다.

편집하다:

코드를 편집하고 다음을 얻었습니다. 여기에 이미지 설명을 입력하십시오

여기에서 편집 된 코드 : https://github.com/aomidpanah/simulations/blob/master/negativeBinomialML.r


그러나 나는 생각 drop1() 하지 ... 널 모델을-에 맞게 재 내부적으로
벤 Bolker

4
glm.nbθdrop1logLikgetS3method('logLik', 'negbin'

다시 +1하고 싶지만 할 수 없습니다. 좋은.
벤 볼커

감사! 난 그냥 모두의 코드를보고 drop1()하고 lrtest(). 당신은 맞아 drop1.glm용도 glm.fit잘못된 일탈을 제공합니다. 우리는 drop1()함께 사용할 수 없다는 것을 몰랐 습니다 glm.nb()!
EDi

따라서 음수 이항 모형에서는 일반적인 점수 및 Wald 검정이 유효하지 않습니까?
shadowtalker

8

O'Hara와 Kotze 논문 (생태와 진화의 방법 1 : 118 ~ 122)은 토론을위한 좋은 출발점이 아닙니다. 나의 가장 심각한 관심사는 요약의 4 번 주장이다.

를 제외하고는 변환이 제대로 수행되지 않는 것으로 나타났습니다. . .. 유사-포아송과 음의 이항 모델은 거의 편견을 보이지 않았다.

λθλ

λ

다음 R 코드는 그 요점을 보여줍니다.

x <- rnbinom(10000, 0.5, mu=2)  
## NB: Above, this 'mu' was our lambda. Confusing, is'nt it?
log(mean(x+1))
[1] 1.09631
log(2+1)  ## Check that this is about right
[1] 1.098612

mean(log(x+1))
[1] 0.7317908

아니면 시도

log(mean(x+.5))
[1] 0.9135269
mean(log(x+.5))
[1] 0.3270837

매개 변수가 추정되는 규모는 매우 중요합니다!

λ

표준 진단은 로그 규모 (x + c)에서 더 잘 작동합니다. c의 선택은 그다지 중요하지 않을 수 있습니다. 종종 0.5 또는 1.0이 의미가 있습니다. 또한 Box-Cox 변환 또는 Box-Cox의 Yeo-Johnson 변형을 조사하기에 더 좋은 시작점입니다. [Yeo, I. 및 Johnson, R. (2000)]. R의 자동차 패키지에서 powerTransform ()에 대한 도움말 페이지를 더 참조하십시오. R의 gamlss 패키지를 사용하면 음수 이항 타입 I (공통 품종) 또는 II, 또는 분산 및 평균을 모델링하는 기타 분포 (0 (= log, 즉, log link) 이상)로 적합 할 수 있습니다. . 맞춤이 항상 수렴되는 것은 아닙니다.

예 : 사망 대 기본 피해 데이터는 미국 본토에 도달 한 대서양 허리케인에 대한 것입니다. R 용 DAAG 패키지의 최신 릴리스에서 데이터를 사용할 수 있습니다 ( hurricNamed ). 데이터의 도움말 페이지에 세부 사항이 있습니다.

견고한 로그 선형 대 음 이항 적합

그래프는 견고한 선형 모형 적합을 사용하여 얻은 적합 선과 그래프 링크의 음수 이항 적합을 그래프의 y 축에 사용되는 로그 (수 +1) 척도로 변환하여 얻은 곡선을 비교합니다. (동일한 그래프에서 음의 이항 적합에서 점과 적합 "선"을 표시하려면 양의 c를 사용하여 양수 (c +) 스케일과 유사한 것을 사용해야합니다.) 로그 스케일에 음의 이항 적합에 대해 분명합니다. 계수에 대해 음의 이항 분포를 가정하는 경우이 척도에서 강력한 선형 모형 적합이 훨씬 덜 편향됩니다. 선형 모형 적합은 고전적인 일반 이론 가정에 따라 편향되지 않습니다. 본질적으로 위의 그래프를 처음 만들었을 때 놀라운 편견을 발견했습니다! 곡선은 데이터에 더 잘 맞을 것입니다. 그러나 그 차이는 일반적인 통계적 변동성 표준의 범위 내에 있습니다. 강력한 선형 모델 적합은 스케일의 최저값에서 카운트에 좋지 않은 작업을 수행합니다.

참고 --- RNA-Seq 데이터에 대한 연구 : 두 가지 스타일의 모델의 비교는 유전자 발현 실험의 카운트 데이터 분석에 관심이있었습니다. 다음 논문은 log (count + 1)로 작업하는 강력한 선형 모델의 사용과 마이너스 이항 적합 ( 바이오 컨덕터 패키지 edgeR 에서와 같이 )을 비교합니다. 주로 염두에두고있는 RNA-Seq 응용 프로그램에서 대부분의 수는 적합하게 계량 된 로그 선형 모델이 매우 잘 작동 할만큼 충분히 큽니다.

법학, CW, Chen, Y, Shi, W, Smyth, GK (2014). 붐 : 정밀 무게는 RNA-seq 판독 횟수에 대한 선형 모델 분석 도구를 잠금 해제합니다. 게놈 생물학 15, R29. http://genomebiology.com/2014/15/2/R29

NB는 또한 최근 논문 :

Schurch NJ, Schofield P, Gierliński M, Cole C, Sherstnev A, Singh V, Wrobel N, Gharbi K, Simpson GG, Owen-Hughes T, Blaxter M, Barton GJ (2016). RNA-seq 실험에는 몇 개의 생물학적 복제물이 필요하며 어떤 차등 발현 도구를 사용해야합니까? RNA http://www.rnajournal.org/cgi/doi/10.1261/rna.053959.115

사용하여 선형 모델에 맞는 것은 흥미 롭다 limma의 (같은 패키지를 EDGER 복제의 수는 그대로 WEHI 그룹에서이) 많은 복제와 결과를 기준으로, (바이어스의 증거를 보여주는 의미에서) 매우 잘 일어 서서 줄인.

위 그래프의 R 코드 :

library(latticeExtra, quietly=TRUE)
hurricNamed <- DAAG::hurricNamed
ytxt <- c(0, 1, 3, 10, 30, 100, 300, 1000)
xtxt <- c(1,10, 100, 1000, 10000, 100000, 1000000 )
funy <- function(y)log(y+1)
gph <- xyplot(funy(deaths) ~ log(BaseDam2014), groups= mf, data=hurricNamed,
   scales=list(y=list(at=funy(ytxt), labels=paste(ytxt)),
           x=list(at=log(xtxt), labels=paste(xtxt))),
   xlab = "Base Damage (millions of 2014 US$); log transformed scale",
   ylab="Deaths; log transformed; offset=1",
   auto.key=list(columns=2),
   par.settings=simpleTheme(col=c("red","blue"), pch=16))
gph2 <- gph + layer(panel.text(x[c(13,84)], y[c(13,84)],
           labels=hurricNamed[c(13,84), "Name"], pos=3,
           col="gray30", cex=0.8),
        panel.text(x[c(13,84)], y[c(13,84)],
           labels=hurricNamed[c(13,84), "Year"], pos=1, 
           col="gray30", cex=0.8))
ab <- coef(MASS::rlm(funy(deaths) ~ log(BaseDam2014), data=hurricNamed))

gph3 <- gph2+layer(panel.abline(ab[1], b=ab[2], col="gray30", alpha=0.4))
## 100 points that are evenly spread on a log(BaseDam2014) scale
x <- with(hurricNamed, pretty(log(BaseDam2014),100))
df <- data.frame(BaseDam2014=exp(x[x>0])) 
hurr.nb <- MASS::glm.nb(deaths~log(BaseDam2014), data=hurricNamed[-c(13,84),])
df[,'hatnb'] <- funy(predict(hurr.nb, newdata=df, type='response'))
gph3 + latticeExtra::layer(data=df,
       panel.lines(log(BaseDam2014), hatnb, lwd=2, lty=2, 
           alpha=0.5, col="gray30"))    

2
귀하의 의견에 감사드립니다. , 와튼 등 2016, Szöcs 2015 아이브스 2015 : 지난 2 년 동안 (가설 테스트, 다음 편견에 더 초점) 좀 더 많은 논문도 있었다
EDI

이 특정 문제가 문제가 되더라도 토론을위한 좋은 출발점 이 될 수 있습니까? (나는 이것이 일반적으로 이것이 편견에 지나치게 초점을 맞추지 않고 RMSE와 같은 것을 고려하는 이유라고 주장합니다 ... [면책 조항, 나는 최근에이 논문들을 다시 읽지 않았으며, Warton 논문 ...]
Ben Bolker

1
데이터 속성이 선택의 근거가되어야한다는 Warton et al (2016)의 지적은 매우 중요합니다. Quantile-quantile plot은 피팅의 세부 사항을 비교하는 좋은 방법입니다. 특히 일부 응용 분야에서는 하나 또는 다른 극단 또는 두 극단에 모두 적합 할 수 있습니다. 제로 팽창 또는 허들 모델은 제로 카운트를 올바르게하기위한 효과적인 개선 일 수 있습니다. 상단에서 논의중인 모든 모델이 심각하게 손상 될 수 있습니다. 워튼 (Warton) 등은 훌륭하게 하나의 예를 가지고있다. 광범위한 생태 데이터 세트를 비교하고 싶습니다.
John Maindonald

그러나 생태 데이터 세트에서 하위 부분의 종 (= 희귀종)이 흥미롭지 않습니까? 일부 생태 학적 데이터 세트를 컴파일하고 비교하기가 너무 어렵지 않아야합니다 ...
EDi

실제로, 허리케인 사망 데이터에 대해 부정적인 이항 모델이 가장 만족스럽지 않은 것으로 보이는 것은 피해 범주의 최하위입니다. R의 gamlss 패키지에는 적합 분포의 중심을 데이터의 중심에 쉽게 비교할 수있는 기능이 있습니다.
John Maindonald

6

원래 게시물은 Tony Ives의 논문 : Ives (2015)를 반영합니다 . 유의성 테스트는 모수 추정에 다른 결과를 제공한다는 것이 분명합니다.

John Maindonald는 추정치가 왜 편향되는지 설명하지만 배경에 대한 그의 무지는 성가시다. 많은 생태 학자들이 맹목적으로 변형을 기록하고 있으며, 우리는 그 문제를 지적하려고 노력했습니다.

여기에 더 미묘한 토론이 있습니다 : Warton (2016)

Ives, AR (2015), 회귀 계수의 중요성을 테스트하기 위해 로그 변환 카운트 데이터를 진행하십시오. 방법 Ecol Evol, 6 : 828-835. doi : 10.1111 / 2041-210X.12386

AR (Warton, DI, Lyons, M., Stoklosa, J. and Ives, AR) (2016), 카운트 데이터에 대해 LM 또는 GLM 테스트를 선택할 때 고려해야 할 3 가지 사항. 방법 Ecol Evol. doi : 10.1111 / 2041-210X.12552


이력서에 오신 것을 환영합니다. 도움이 되긴하지만이 답변은 대부분 "링크 전용"유형 답변입니다. 링크는 변경 및 링크 해제를 수행합니다. 각각의 요점을 자세히 설명하면 CV에 더 도움이됩니다.
Mike Hunter

답변 주셔서 감사합니다. Warton et al. 토론의 현재 상태를 동전.
EDi

감사합니다 & 환영합니다! 나는 참고 문헌을 완전히 추가 할 자유를 얻었습니다.
Scortchi-Monica Monica 복원

1
새로운 참고 문헌에서 만들어지는 주요 요점을 설명하고 의미가있는 곳을 원래 질문과 다시 연결하십시오. 이것은 귀중한 공헌이지만 현재 질문에 대한 답변 ( 예 : 링크 에 대한 컨텍스트를 제공 해야 함)이 아닌 다른 답변에 대한 의견에 더 가깝습니다 . 문맥에 대한 몇 가지 추가 문장은 게시물을 실질적으로 도울 것입니다.
Glen_b-복지 모니카

3
구체적으로, 나의 의견은 오하라 (O'Hara)와 코트 제 (Kotze) 논문에서 4 점을 언급하고있다. 시뮬레이션은 매우 긍정적으로 치우친 분포에 대해 y 척도의 예상 평균 (카운트)과 log (y + c) 척도의 예상 평균을 비교하는 것에 대한 주석입니다. 음의 이항 모수 람다는 y의 척도로 편향되지 않은 반면, 로그 정규 평균은 log (y + c) 척도에서 편향되지 않습니다 (해당 척도의 정규성 하에서).
John Maindonald
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.