관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?


9

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다.

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

내 이벤트의 예상 확률이 있습니다.

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 계산할 수 있습니까?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

관측 값과 기대 값을 어떻게 비교할 수 있습니까? 계산 된 확률이 좋은 예측 변수인지 테스트하기 위해

카이 제곱 테스트를 생각했지만 샘플 크기 (n = 18)에 따라 결과가 변경되었습니다. 관찰 된 값에 1342를 곱하고 동일한 방법을 사용하면 결과가 다릅니다. 윌콕스 페어링 테스트가 효과가있을 수 있지만 무엇을 제안 하시겠습니까?

R로 제안 할 수 있다면 더 좋습니다.

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

답변:


4

모든 값에 다음을 곱하면 다른 결과를 얻는다고 언급했습니다. 1342. 이것은 문제가되지 않습니다. 당신은 해야한다 매우 다른 결과를 얻을 수 있습니다. 동전을 뒤집어 놓고 머리를 올리면별로 말하지 않습니다. 동전을 뒤집 으면1342 시간과 당신은 매번 머리를 얻을, 당신은 동전이 공정하지 않다는 것을 제안하는 훨씬 더 많은 정보를 가지고 있습니다.

일반적으로 χ2 예상되는 발생 횟수가 너무 낮은 경우 (예 : 5)를 카테고리의 큰 비율 (예 : 20%). 한 가지 가능성은 Fisher의 정확한 테스트 이며 R에서 구현됩니다 . 당신은 볼 수 있습니다χ2 Fisher의 정확한 테스트에 대한 근사값으로 검정하고, 예상 횟수가 더 많은 경우에만 근사값이 양호합니다.


고마워요, 이것 중 어느 것이 더 낫습니까 : 피셔 테스트 만? 또는 p 시뮬레이션 값으로 피셔 테스트? 그리고 왜?
Juan Juan

시뮬레이션은 작을 수 있지만 작은 값에는 필요하지 않은 오류를 발생시킵니다. 당신이 가지고 있다면k 카테고리와 n객체의 경우 가능한 결과 수는 입니다. 이것이 컴퓨터의 표준 (아마도 미만)으로 작을 때 정확한 계산을 사용합니다. 정확한 계산이 느린 경우 시뮬레이션 오류를 테스트하고 속도 증가에 적합한 지 확인하십시오. (n+k1n)107
Douglas Zare
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.