다음은 언급 된 3 가지 방법의 작동 방식에 대한 일반적인 설명입니다.
카이-제곱 법은 분포에 따라 빈의 관측치 수와 빈에있을 것으로 예상되는 수를 비교하여 작동합니다. 불연속 분포의 경우 빈은 대개 불연속 가능성 또는 이들의 조합입니다. 연속 분포의 경우 절단 점을 선택하여 빈을 생성 할 수 있습니다. 이를 구현하는 많은 기능이 자동으로 저장소를 생성하지만 특정 영역에서 비교하려는 경우 자체 저장소를 생성 할 수 있습니다. 이 방법의 단점은 이론적으로 분포와 동일한 빈에 값을 넣은 경험적 데이터 간의 차이는 감지되지 않으며 이론적으로 2와 3 사이의 숫자가 범위를 통해 확산되어야하는 경우 반올림입니다. (우리는 2.34296과 같은 값을 기대합니다),
KS 검정 통계량은 비교되는 2 개의 누적 분포 함수 사이의 최대 거리입니다 (종종 이론적이며 경험적임). 2 개의 확률 분포에 1 개의 교차점이 있고 1에서 최대 거리를 뺀 최대 거리는 2 개의 확률 분포 사이의 겹치는 영역입니다 (이는 일부 사람들이 측정 대상을 시각화하는 데 도움이 됨). 이론적 분포 함수와 EDF를 동일한 플롯에 플로팅 한 다음 두 "곡선"사이의 거리를 측정하고, 가장 큰 차이는 검정 통계량이며, 널이 참일 때의 값 분포와 비교됩니다. 이 차이는 분포의 형태 또는 다른 분포에 비해 1 개의 분포가 이동되거나 늘어난 차이를 포착합니다.1엔
Anderson-Darling 검정은 KS 검정과 같은 CDF 곡선의 차이를 사용하지만 최대 차이를 사용하는 대신 2 개의 곡선 사이의 총 면적 함수를 사용합니다 (실제로 차이를 제곱하고 가중치를 부여하므로 꼬리는 더 많은 영향을 미치고 배포 영역에 통합됩니다). 이는 KS보다 특이점에 더 많은 가중치를 부여하고 몇 가지 작은 차이가있는 경우 (KS가 강조 할 1 개의 큰 차이에 비해) 더 많은 가중치를 제공합니다. 결과적으로 중요하지 않은 차이를 찾기 위해 테스트를 압도 할 수 있습니다 (가벼운 반올림 등). KS 테스트와 마찬가지로 데이터에서 파라미터를 추정하지 않았다고 가정합니다.
다음은 마지막 2의 일반적인 아이디어를 보여주는 그래프입니다.
이 R 코드를 기반으로 :
set.seed(1)
tmp <- rnorm(25)
edf <- approxfun( sort(tmp), (0:24)/25, method='constant',
yleft=0, yright=1, f=1 )
par(mfrow=c(3,1), mar=c(4,4,0,0)+.1)
curve( edf, from=-3, to=3, n=1000, col='green' )
curve( pnorm, from=-3, to=3, col='blue', add=TRUE)
tmp.x <- seq(-3, 3, length=1000)
ediff <- function(x) pnorm(x) - edf(x)
m.x <- tmp.x[ which.max( abs( ediff(tmp.x) ) ) ]
ediff( m.x ) # KS stat
segments( m.x, edf(m.x), m.x, pnorm(m.x), col='red' ) # KS stat
curve( ediff, from=-3, to=3, n=1000 )
abline(h=0, col='lightgrey')
ediff2 <- function(x) (pnorm(x) - edf(x))^2/( pnorm(x)*(1-pnorm(x)) )*dnorm(x)
curve( ediff2, from=-3, to=3, n=1000 )
abline(h=0)
상단 그래프는 표준 법선의 CDF와 비교 한 표준 법선의 샘플의 EDF를 KS 통계를 나타내는 선으로 보여줍니다. 중간 그래프는 두 곡선의 차이를 보여줍니다 (KS 통계가 어디서 발생하는지 확인할 수 있습니다). 하단은 제곱되고 가중 차이이며 AD 테스트는이 곡선 아래 영역을 기반으로합니다 (모든 것이 정확하다고 가정).
다른 테스트는 qqplot의 상관 관계를보고, qqplot의 기울기를보고, 모멘트를 기준으로 평균, var 및 기타 통계를 비교합니다.