Excel에서 R의 카이 제곱을 계산하는 이상한 방법


9

계산한다고 주장하는 Excel 시트를보고 있지만이 방법을 인식하지 못하고 뭔가 빠졌는지 궁금합니다.χ2

분석하는 데이터는 다음과 같습니다.

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

카이 제곱을 계산하기 위해 각 그룹에서 수행하는 합계는 다음과 같습니다.

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

따라서 각 그룹의 는 다음과 같습니다.χ2

2.822793
2.822793
1.759359
4.136448

그리고 총 Chi Square는 다음과 같습니다 11.54139.

그러나 를 계산하는 모든 예제 는 이와 완전히 다릅니다. 나는 각 그룹에 대해 할 것입니다 :χ2

chiSq = (Observed-Expected)^2 / Expected

따라서 위의 예에서 총 카이 제곱 값은 11.3538입니다.

내 질문은-왜 엑셀 시트 에서 이런 식으로 를 계산 합니까? 이것이 인정 된 접근법입니까?χ2

최신 정보

이것을 알고 싶어하는 이유는 이러한 결과를 R 언어로 복제하려고하기 때문입니다. chisq.test 함수를 사용하고 있는데 Excel 시트와 같은 숫자가 나오지 않습니다. 따라서 누군가 R 에서이 접근법을 수행하는 방법을 알고 있다면 매우 도움이 될 것입니다!

업데이트 2

관심있는 사람이 있다면 R로 계산 한 방법입니다.

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

두 번째 업데이트의 접근 방식은 올바른 통계를 제공해야합니다. 그러나 기대 값이 관측 값의 합계를 기반으로하지 않으면 p- 값에 조건이 있기 때문에 문제가있을 수 있습니다. 그러나 예상 및 관찰 된 총계가 우연히 발생할 가능성이 거의 없음을 알았으므로 이것이 모두 괜찮을 것입니다. 당신은이 방법으로 더 쉽게 할 수 있습니다 :x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b-복지국 모니카

@Glen_b 엑셀 시트에서 나는 총 인구 * 위의 'P'값을 수행함으로써 기대가 해결되었다고 생각합니다. 이것이 문제가 될까요? 또한 전체 인구는 다양합니다. 대부분 2000 년이지만 실제로는 숫자 일 수 있습니다. 여기서 다시 작성하려고하는 Excel 시트는 실제로 p- 값을 고려하지 않으므로 통계에 영향을받지 않으면 문제가되지 않을 수 있습니다.
user1578653

문제는 p가 어디에서 왔는지에 달려 있습니다. 그들은 총 관측 카운트를보고 있습니까?
Glen_b-복지 모니카

글쎄, 그것은 Ps처럼 보이므로 예상은 총 관측 수와 총 인구 를 모두 기반으로 합니다 ... 그러나 Excel 시트에 제공된 모든 예제에서 예상 값은 총 관측 카운트 / 횟수.
user1578653

p가 그런 식으로 카운트를 기반으로하는 경우 물론 예상이 따릅니다. 이 경우 자유도처럼 보이며 R에서 그랬던 것처럼 괜찮습니다.하지만 설명의 몇 마디 만 바꿔야 할 수도 있습니다.
Glen_b-복귀 모니카

답변:


13

이것은 매우 간단합니다.

이것은 분명히 이항 샘플링입니다. 그것을 보는 두 가지 방법이 있습니다.

방법 1, 스프레드 시트, 그 관측 횟수를 치료하는 것을 같은 로서 근사화 될 수 있으며, . 따라서 는 표준 표준이며 는 독립적이므로 입니다.XiBin(Ni,pi)N(μi=Nipi,σi2=Nipi(1pi))Zi=(Xiμi)/σiZiZi2χ2

(p가 관측 된 수에 기반한 경우 는 독립적이지 않지만 여전히 자유도가 1 인 카이 제곱입니다.)Z

방법 2 : 형태의 카이-제곱도 사용할 수 있지만 '관측 됨'으로 분류 된 범주의 항목뿐만 아니라 해당 범주에 없는 항목 도 고려해야합니다 .(OE)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

를 Where '첫 번째 열에 s는 당신이 그 (것)들을 가지고 있으며, 두 번째 열에 대한 사람들이ENi(1pi)

... 그리고 두 열의 합계(OE)2/E

두 형태는 대수적으로 동일합니다. 참고 . 카이-제곱 의 i 행을 고려하십시오 .1/p+1/(1p)=1/p(1p)th

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipi)2Nipi+(NiNi+NipiXi)2Ni(1pi)=(XiNipi)2Nipi+(NiXi(NiNipi))2Ni(1pi)=(XiNipi)2Nipi+((NiXi)Ni(1pi))2Ni(1pi)=(Oi(A)Ei(A))2Ei(A)+(Oi(A¯)Ei(A¯))2Ei(A¯)

이는 반올림 오류까지 두 가지 방법으로 동일한 대답을 가져야 함을 의미합니다.

보자 :

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

카이-제곱 = 11.353846 + 0.187548 = 11.54139

그들의 답변과 일치합니다.


1
당신의 도움을 주셔서 감사합니다! 저는 수학자 / 통계학자가 아니기 때문에 처음에는 혼란 스러웠지만 설명은 이해하기 쉽습니다.
user1578653
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.