사용할 수있는 카운트 데이터에 대해 적절하고 엄격하게 적절한 몇 가지 점수 규칙이 있습니다. 처치 규칙 처벌이다 도입 P는 예측 분포되는 Y 관측 값. 그것들은 우선 다수의 바람직한 특성을 가지고 있으며, 무엇보다도 실제 확률에 가까운 예측은 항상 적은 페널티를 받고 (독특한) 최상의 예측이 있으며 예측 확률이 실제 확률과 일치 할 때라는 것이 가장 중요합니다. 따라서 s ( y , P ) 의 기대를 최소화 한다는 것은 실제 확률을보고하는 것을 의미합니다. Wikipedia 도 참조하십시오 .s ( y, P)피ys(y,P)
종종 모든 예측 값에 대한 평균을 다음과 같이 취합니다.
S=1n∑ni=1s(y(i),P(i))
어떤 규칙을 취해야하는지에 따라 목표가 달라 지지만 각 규칙을 사용하는 것이 좋을 때 대략적인 특성을 보여 드리겠습니다.
이하에서는 어떤 I 사용 , 예측 확률 질량 함수 잠 ( Y = Y ) 및 F ( Y ) , 예측 누적 분포 함수. A ∑ k 는 카운트 분포의 전체 지원 (즉, 0 , 1 , … , ∞ )에 적용됩니다. I는 지시자 함수이다. μ 및 σ 는 예측 분포 (일반적으로 카운트 데이터 모델에서 직접 추정 된 수량)의 평균 및 표준 편차입니다. f(y)Pr(Y=y)F(y)∑케이0,1,…,∞Iμσ
엄밀히 적절한 점수 규칙
- 찔러 점수 : (범주 예측 변수의 크기 불균형에 대해 안정적)s(y,P)=−2f(y)+∑kf2(k)
- 다위-세바 스티 아니 (Dawid-Sebastiani) 점수 : (일반 예측 모형 선택에 적합, 범주 형 예측 변수의 크기 불균형에 안정적)s(y,P)=(y−μσ)2+2logσ
- 일탈 점수 : ( g의 Y는 단은에 의존하는 정규화 용어 Y 가 주로 포화 일탈로한다 포아송 모델에서, 추정에 사용하기 좋은 ML 프레임 워크에서)s(y,P)=−2logf(y)+gygyy
- 대수 점수 : (매우 쉽게 계산; 범주 형 예측 변수의 크기 불균형에 대해 안정적)s(y,P)=−logf(y)
- 랭크 확률 점수 : (매우 높은 카운트의 다른 예측을 대조하는 데 적합; 범주 형 예측 변수의 크기 불균형에 취약 함)s(y,P)=∑k{F(k)−I(y≤k)}2
- 구면 점수 : (범주 예측 변수의 크기 불균형에 대해 안정적)s(y,P)=f(y)∑kf2(k)√
다른 점수 규칙 (정확하지는 않지만 자주 사용됨)
- 절대 오차 점수 : (적절하지 않음)s(y,P)=|y−μ|
- 제곱 오차 점수 : (엄격히 적절하지 않음, 특이 치에 민감 함, 범주 형 예측 변수의 크기 불균형에 민감 함)s(y,P)=(y−μ)2
- 피어슨 정규화 제곱 오차 점수 : s(y,P)=(y−μσ)2
엄격한 규칙에 대한 예제 R 코드 :
library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental)
# scores for the first observation
mu <- predict(m1, type="response")[1]
x <- Mental$Freq[1]
# logarithmic (equivalent to deviance score up to a constant)
-log(dpois(x, lambda=mu))
# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })
# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))
# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)
# Dawid Sebastiani
(x-mu)^2/mu + log(mu)