비선형 회귀 분석을위한 특이 치 식별


11

진드기의 기능적 반응 분야에 대한 연구를하고 있습니다. Rogers 유형 II 함수의 매개 변수 (공격 속도 및 처리 시간)를 추정하기 위해 회귀 분석을 수행하려고합니다. 측정 데이터 세트가 있습니다. 특이 치를 가장 잘 결정할 수있는 방법은 무엇입니까?

합니다 (dateset라는 간단한 2 열 텍스트 파일로 내 회귀를 위해 나는 R에 다음 스크립트 (비 선형 회귀) 사용 data.txt과 파일 N0(초기 먹이의 수)와 값 FR24시간 동안 먹을 먹이 (수) 값 :

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

calssic 잔차 그래프를 그리기 위해 다음 스크립트를 사용합니다.

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

질문

  • 특이 치인 데이터 포인트를 가장 잘 판별하려면 어떻게해야합니까?
  • R에서 사용할 수있는 객관적인 테스트가 있고 어떤 데이터 포인트가 특이 치인지 보여줍니까?

답변:


9

Dixon 및 Grubb를 포함하여 특이 치에 대한 여러 테스트 outliers가 R 패키지로 제공됩니다. 테스트 목록은 패키지 설명서 를 참조하십시오 . 테스트를 설명하는 참조는 해당 기능에 대한 도움말 페이지에 제공됩니다.

데이터에서 특이 치를 제거하려는 경우 이것이 항상 권장되는 것은 아닙니다. 이에 대한 토론은 이 질문 을 참조하십시오 (이상 값을 감지하는 방법에 대한 추가 제안 사항도 포함).


8

나도 통계학 자도 아니다. 따라서 데이터에 대한 전문 지식을 사용하여 특이 치를 찾습니다. 즉, 일부 측정을 다른 측정과 다르게 만든 물리적 / 생물학적 / 무엇이든 이유 를 찾습니다 .

내 경우에는 예를 들어

  • 측정 된 신호의 일부를 엉망으로 만드는 우주 광선
  • 실험실에 들어가서 불을 켜는 사람
  • 전체 스펙트럼이 어떻게 든 다르게 보입니다.
  • 첫 번째 측정 시리즈는 정상 근무 시간 동안 취해졌으며 오후 10시 시리즈보다 노이즈가 많은 확대경입니다.

분명히 당신은 우리에게 비슷한 효과를 말할 수 있습니다.

내 세 번째 요점은 다른 점과 다릅니다. 무슨 일이 있었는지 모르겠습니다. 이것은 당신이 요구하는 이상치 일 수 있습니다. 그러나 원인이 무엇인지 알지 못하면 (그리고 이로 인해 데이터 포인트가 무효화 됨) 데이터 세트에 나타나지 않아야한다고 말하기 어렵습니다. 또한 : 당신의 특이 치는 내 가장 흥미로운 샘플 일 수 있습니다 ...

따라서 나는 종종 이상치에 대해 말하지 않고 의심스러운 데이터 포인트에 대해 이야기합니다. 이것은 모든 사람들이 자신의 의미를 다시 확인해야한다는 것을 상기시킵니다.

데이터를 제외시키는 것이 좋은지 아닌지 (누가 데이터를 얻기 위해 특이 치를 찾으려고합니까?) 현재 어떤 작업이 무엇인지, 그 작업에 대한 "경계 조건"이 무엇인지에 크게 좌우됩니다. 몇 가지 예 :

  • 당신은 새로운 outlierensis Joachimii 아종을 발견했습니다 ;-) 그것들을 배제 할 이유가 없습니다. 다른 모든 것을 제외하십시오.

  • 진드기의 먹이는 시간을 예측하고 싶습니다. 예측을 특정 조건으로 제한하는 것이 허용되는 경우, 다른 조건 (여기에서 설명)이 이미 발생하고 있음을 알고 있지만, 이러한 공식을 공식화하고 다른 모든 샘플을 제외하고 예측 모델이이 상황 또는 그 상황을 처리한다고 말할 수 있습니다.

  • 모델 진단을 통해 데이터를 제외하면 일종의 자체 이행 예언 또는 지나치게 낙관적 인 편견이 생길 수 있습니다 (즉, 방법이 일반적으로 적용 가능하다고 주장하는 경우). 가정은 나머지 표본에서 가정 한 것이 더 좋습니다. 그러나 그것은 배제 때문입니다.

  • 나는 현재 여러 가지 나쁜 측정 (측정을 나쁜 것으로 간주하는 물리적 인 이유를 알고 있음)을 가지고 있고, 어떻게 든 "이상하게 보이는"몇 가지 작업이 있습니다. 내가하는 것은 (predicitve) 모델의 trainig에서 이러한 샘플을 제외하지만이 모델을 별도로 테스트하여 모델에서이 유형의 이상치에 대해 모델의 견고성에 대해 말할 수 있습니다 . 동안 . 따라서 응용 프로그램은 이러한 특이 치를 처리해야합니다.

  • 또 이상 점을 보는 또 다른 방법은 다음과 같이 묻는 것입니다. (이점). 이 관점에서 이상한 훈련 샘플에 대한 견고성 또는 안정성을 측정 할 수 있습니다.

  • 사용하는 통계 절차에 관계없이 특이 치를 식별하지 않거나 오 탐지도 발생합니다. 다른 진단 테스트와 같이 특이 치 테스트 절차를 특성화 할 수 있습니다. 민감도 및 특이성이 있으며 더 중요합니다. 데이터의 특이 치 비율을 통해 양수 및 음수 예측 값에 해당합니다. 다시 말해, 특히 데이터에 특이 치가 거의없는 경우 특이 치 테스트로 식별 된 사례 가 실제로 특이 치 (즉 데이터에 있어서는 안 됨) 라는 확률이 매우 낮을 수 있습니다.
    필자는 현재 데이터에 대한 전문 지식이 통계 테스트보다 특이 치를 탐지하는 데 훨씬 낫다고 생각합니다. 테스트는 그 뒤에있는 가정만큼이나 좋습니다. 그리고 하나의 크기에 맞는 것은 종종 데이터 분석에 좋지 않습니다. 적어도 나는 종종 자동화 된 절차가 실패하는 동안 손상되는 신호의 정확한 부분을 식별하는 데 아무런 문제가없는 일종의 특이 치를 다루는 경우가 많습니다. 문제의 시작 지점과 종료 지점을 찾는 것이 매우 어렵습니다.)


여기에 좋은 정보가 많이 있습니다. 나는 특히 글 머리 기호 # 4 & 5를 좋아합니다.
gung-Reinstate Monica

4

일 변량 특이 치의 경우 정규성을 가정 한 딕슨의 비 검정 및 그럽 스 검정이 있습니다. 특이 치를 검정하려면 관측 값이 가정 된 분포에서 극단적이거나 비정상적임을 나타내려고하기 때문에 모집단 분포를 가정해야합니다. 나는 1982 년 미국 통계 학자 (American Statistician)의 논문을 가지고 있는데, 여기에서 언급 한 딕슨의 비 테스트는 비정규 분포에서도 작은 샘플에 사용될 수 있음을 보여줍니다. Chernick, MR (1982) "작은 샘플에서 딕슨 비율의 견고성에 대한 참고 사항"American Statistician p 140. 다변량 특이 치 및 시계열의 특이 치에 대해 모수 추정치에 대한 영향 함수는 특이 치를 비공식적으로 탐지하는 데 유용한 척도입니다. 그러한 테스트는 가능하지만 공식적인 테스트를 위해 구성되었습니다.이상치 탐지 방법의 자세한 처리는 "통계 데이터 의 이상치 " 입니다.


3

참조 http://www.waset.org/journals/waset/v36/v36-45.pdf를 [ "비선형 회귀의 이상치 탐지에" 원문 ].

요약

특이 치의 탐지는 선형 및 비선형 회귀 분석에서 큰 해석 문제를 일으키는 책임이 있기 때문에 매우 중요합니다. 선형 회귀 분석에서 특이 치를 식별하는 데 많은 작업이 수행되었지만 비선형 회귀 분석에서는 수행되지 않았습니다. 이 기사에서는 비선형 회귀 분석을위한 몇 가지 특이 치 탐지 기법을 제안합니다. 주요 아이디어는 비선형 모델의 선형 근사법을 사용하고 그라디언트를 설계 행렬로 고려하는 것입니다. 이어서, 검출 기술이 공식화된다. 최소 제곱, M 및 MM 추정기와 같은 3 가지 추정 기술과 결합 된 6 가지 탐지 방법이 개발되었습니다. 이 연구는 6 가지 측정 중 MM 추정기와 결합 된 학생 화 된 잔차와 쿡 거리 만


+1 영어에 대한 명백한 문제 (및 수학적 조판)에도 불구하고이 백서는이 질문에 유용한 기여 인 것으로 보입니다.
whuber

2

특이 치는 "일부 기준선"에서 "너무 멀리"있는 지점입니다. 비결은 두 문구를 모두 정의하는 것입니다! 비선형 회귀 분석에서는 특이 치가 곡선 자체에 막대한 영향을 미칠 수 있기 때문에 특이 치가 최적 곡선에서 "너무 멀리"있는지 확인하기 위해 단 변량 방법 만 사용할 수는 없습니다.

Ron Brown과 저는 특이 치가 곡선에 너무 많은 영향을주지 않으면 서 비선형 회귀 분석을 통해 특이 치를 탐지하는 고유 한 방법 (ROUT-강력한 회귀 및 특이 치 제거)을 개발했습니다. 먼저 특이 치에 거의 영향을 미치지 않는 강력한 회귀 분석법으로 데이터를 적합시킵니다. 이것이 기준을 형성합니다. 그런 다음 FDR (False Discovery Rate)의 아이디어를 사용하여 포인트가 해당 기준선에서 "너무 멀리"떨어져있을 때를 정의하십시오. 마지막으로 식별 된 특이 치를 제거하고 기존의 나머지 점에 적합합니다.

이 방법은 공개 액세스 저널 : Motulsky HJ 및 Brown RE에 게시됩니다. 비선형 회귀를 사용하여 데이터를 피팅 할 때 특이점 탐지 – 강력한 비선형 회귀 및 잘못된 발견 률을 기반으로하는 새로운 방법 인 BMC Bioinformatics 2006, 7 : 123. 초록은 다음과 같습니다.

배경. 선형 회귀와 같이 비선형 회귀는 이상적인 곡선 주위의 데이터 분산이 가우스 또는 정규 분포를 따른다고 가정합니다. 이 가정은 익숙한 회귀 목표로 이어집니다. 점과 곡선 사이의 수직 또는 Y 값 거리의 제곱의 합을 최소화하는 것입니다. 특이 치가 제곱합 계산을 지배하고 잘못된 결과를 초래할 수 있습니다. 그러나 비선형 회귀 분석으로 곡선을 피팅 할 때 특이 치를 식별하는 실용적인 방법은 없습니다.

결과. 비선형 회귀 분석으로 데이터를 피팅 할 때 특이 치를 식별하는 새로운 방법을 설명합니다. 먼저 산포가 로렌츠 분포를 따른다는 가정하에 강력한 형태의 비선형 회귀를 사용하여 데이터를 적합시킵니다. 우리는 방법이 진행됨에 따라 점점 더 강력 해지는 새로운 적응 방법을 고안했습니다. 특이 치를 정의하기 위해 다중 비교를 처리하기 위해 잘못된 발견 비율 접근 방식을 채택했습니다. 그런 다음 특이 치를 제거하고 일반적인 최소 제곱 법을 사용하여 데이터를 분석합니다. 이 방법은 강력한 회귀 및 이상치 제거를 결합하므로 ROUT 방법이라고합니다.

모든 산란이 가우시안 인 시뮬레이션 된 데이터를 분석 할 때, 우리의 방법은 단 1 ~ 3 %의 실험에서 하나 이상의 이상 치를 탐지합니다 (거짓). 하나 또는 여러 특이 치로 오염 된 데이터를 분석 할 때 ROUT 방법은 평균 False Discovery Rate가 1 % 미만인 특이 치 식별에서 잘 수행됩니다.

결론. 새로운 비선형 회귀 분석 방법과 새로운 특이 값 식별 방법을 결합한 우리의 방법은 합리적인 검정력과 소수의 오 탐지로 비선형 곡선 피팅에서 특이 치를 식별합니다.

R에서는 (내가 아는 한) 구현되지 않았지만 GraphPad Prism 에서 구현했습니다 . 그리고 프리즘 도움말 에 간단한 설명을 제공하십시오 .


0

질문이 너무 일반적입니다. "이상 값"을 제외시키는 가장 좋은 방법은 없습니다.

"outliers"의 일부 속성을 알아야했습니다. 또는 어떤 방법이 가장 적합한 지 모릅니다. 사용할 분석법을 결정한 후 분석법의 매개 변수를 신중하게 교정해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.