관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다.

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

내 이벤트의 예상 확률이 있습니다.

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 계산할 수 있습니까?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

관측 값과 기대 값을 어떻게 비교할 수 있습니까? 계산 된 확률이 좋은 예측 변수인지 테스트하기 위해

카이 제곱 테스트를 생각했지만 샘플 크기 (n = 18)에 따라 결과가 변경되었습니다. 관찰 된 값에 1342를 곱하고 동일한 방법을 사용하면 결과가 다릅니다. 윌콕스 페어링 테스트가 효과가있을 수 있지만 무엇을 제안 하시겠습니까?

R로 제안 할 수 있다면 더 좋습니다.

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

— 후안
소스

모든 값에 다음을 곱하면 다른 결과를 얻는다고 언급했습니다. $1342$ . 이것은 문제가되지 않습니다. 당신은 해야한다 매우 다른 결과를 얻을 수 있습니다. 동전을 뒤집어 놓고 머리를 올리면별로 말하지 않습니다. 동전을 뒤집 으면 $1342$ 시간과 당신은 매번 머리를 얻을, 당신은 동전이 공정하지 않다는 것을 제안하는 훨씬 더 많은 정보를 가지고 있습니다.

일반적으로 $\chi^2$ 예상되는 발생 횟수가 너무 낮은 경우 (예 : $5$ )를 카테고리의 큰 비율 (예 : $20\%$ ). 한 가지 가능성은 Fisher의 정확한 테스트 이며 R에서 구현됩니다 . 당신은 볼 수 있습니다 $\chi^2$ Fisher의 정확한 테스트에 대한 근사값으로 검정하고, 예상 횟수가 더 많은 경우에만 근사값이 양호합니다.

— 더글러스 자레
소스

고마워요, 이것 중 어느 것이 더 낫습니까 : 피셔 테스트 만? 또는 p 시뮬레이션 값으로 피셔 테스트? 그리고 왜?

— Juan Juan

시뮬레이션은 작을 수 있지만 작은 값에는 필요하지 않은 오류를 발생시킵니다. 당신이 가지고 있다면

k

$k$ 카테고리와

n

$n$ 객체의 경우 가능한 결과 수는 입니다. 이것이 컴퓨터의 표준 (아마도 미만)으로 작을 때 정확한 계산을 사용합니다. 정확한 계산이 느린 경우 시뮬레이션 오류를 테스트하고 속도 증가에 적합한 지 확인하십시오.

(\binom{n + k - 1}{n})

$n+k-1 \choose n$

10^{7}

$10^7$

— Douglas Zare