왜 미국과 영국 학교가 표준 편차를 계산하는 다른 방법을 가르치는가?

15

영국 학교에서 이해하는 것처럼 표준 편차는 다음을 사용하여 찾을 수 있습니다.

$대체 텍스트$

반면 미국 학교는 다음과 같이 가르칩니다.

$대체 텍스트$

(어쨌든 기본 수준에서).

이것은 인터넷에서 검색 할 때 과거에 많은 학생들의 문제를 일으켰지 만 잘못된 설명을 찾았습니다.

왜 차이점이 있습니까?

간단한 데이터 세트에서 10 개의 값을 사용하면 잘못된 방법을 적용하면 (예 : 시험에서) 어느 정도의 오류가 발생합니까?

— 아모스
소스

4

하나 또는 다른 것을 '잘못된'공식으로 특성화하는 것이 문제를 이해하는 방법인지 확실하지 않습니다. 두 번째 것은 실제 표준 편차의 편견 추정치라는 점에서 '더 나은'것입니다. 따라서 편향되지 않은 견적에 관심이 있다면 두 번째는 '더 나은'/ '올바른'입니다.

나는 시험에서 강의 계획서에 규정되지 않은 공식을 사용하면 결국 "잘못된"답으로 끝날 것이라는 점에서 공식을 "잘못"으로 특성화하고있었습니다. 또한 값이 모집단 자체의 샘플이 아닌 경우 첫 번째 공식이 더 정확한 값을 제공합니다.

— Amos

14

Srikant, 나는 두 번째 것이 편견없는 추정이라고 생각하지 않습니다. 그것의 광장 입니다 진정한 분산의 불편 추정. 그러나 Jensen의 불평등은 랜덤 변수의 곡선 함수에 대한 기대치가 랜덤 변수에 대한 기대 함수와 같지 않다는 것을 확립합니다. 따라서 두 번째 공식은 실제 표준 편차의 편견 추정기가 될 수 없습니다.

— 앤드류 로빈슨

상호 참조 : @ m.SE 도 요청 했습니다.

— JM은 통계학자가 아닙니다.

4

s_{n}

$s_n$

18

첫 번째 공식은 모집단 표준 편차이고 두 번째 공식은 표본 표준 편차입니다. 두 번째 공식은 편차의 편향 추정량과도 관련이 있습니다 . 자세한 내용 은 Wikipedia 를 참조 하십시오.

나는 영국에서 고등학교에서 표본과 인구를 구별하지 않는다고 가정합니다. 그들은 편향 추정기와 같은 개념을 건드리지 않습니다.

— csgillespie
소스

4

표준 편차의 편향 추정량 인 콜린은 일반적인 경우 닫힌 형태로 표현되지 않습니다. 존재하는 것은 분산 (이 경우 s 2 )의 편향 추정량입니다. 둘 다 모집단 분산의 일관된 추정값이므로 연속 맵핑 이론에 의해 표준 편차의 두 추정값입니다. 관련된 요점은 s n 2 이 s 2 보다 MSE가 낮다는 것입니다. 편견을 부과함으로써 추가 장점은 논쟁의 여지가 있습니다.

— mornington

@Tirthankar-매우 조잡했습니다. 답변을 약간 변경했습니다. 감사.

— csgillespie

2

내가 기억하는 한, 나는 GCSE 수학과 과학 (14-16 세)에서 '샘플'계산을 배웠고, 모집단과 샘플과 그와 관련된 분산 측정의 차이는 A- 레벨 (깊이는 아니지만)에서 다루었 다 ( 16-18 세). 따라서 이것이 단순한 영국 / 미국의 차이인지 확실하지 않습니다.

— Freya Harrison

11

마지막 질문에 아무도 대답하지 않았기 때문에, 즉 두 공식의 차이점 을 정량화하기 위해 그 문제 를 처리해야합니다.

여러 가지 이유로 표준 편차를 차이가 아닌 비율 로 비교하는 것이 적절합니다 . 비율은

{에스}_{엔} / 에스 = \sqrt{\frac{엔 - 1}{엔}} = \sqrt{1 - \frac{1}{엔}} \approx 1 - \frac{1}{2 엔} .

$s_n / s = \sqrt{\frac{N-1}{N}} = \sqrt{1 - \frac{1}{N}} \approx 1 - \frac{1}{2N}.$

$|\binom{1/2}{2}N^{-2}|$ $1 / (8 N^2)$ $N$ $2$

$N$ $5$ $N$ $10$ 비교할두 데이터 세트의 스프레드를 비교할 때와 같은 SD (데이터 집합이 동등하지 않으면 불일치가 효과적으로 사라지고 두 수식 모두 동일한 결론으로 이어집니다.) 물론, 이것은 우리가 초급 학생들을 가르치려고하는 추론의 형태이므로, 학생들이 사용할 수식에 대해 걱정이되는 경우, 그것은 텍스트 나 클래스가 정말로 중요한 것을 강조하지 못한다는 표시로 받아 들여질 수 있습니다.

$N$ $t$ $z$ $s$ $s_n$

— 우버
소스

6

이것은 선박의 교정 입니다. 미국 버전은 샘플 표준 편차에 대한 공식을 보여줍니다. 여기서 영국 버전 은 샘플 의 표준 편차입니다 .

— 리드 콥시
소스

5

이것이 순전히 미국 대 영국의 문제인지 확실하지 않습니다. 이 페이지의 나머지 부분은 필자가 작성한 FAQ에서 발췌 한 것입니다 ( http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).

분모에서 n-1로 SD를 계산하는 방법

각 값과 표본 평균의 차이의 제곱을 계산합니다.
그 값을 더하십시오.
합계를 n-1로 나눕니다. 결과를 분산이라고합니다.
제곱근을 취하여 표준 편차를 얻습니다.

왜 n-1입니까?

표준 편차를 계산할 때 왜 n이 아닌 n-1로 나눕니 까? 1 단계에서 각 값과 해당 값의 평균 차이를 계산합니다. 당신은 인구의 진정한 평균을 모른다; 당신이 아는 것은 샘플의 평균입니다. 표본 평균이 모집단 평균과 같은 드문 경우를 제외하고 데이터는 실제 모집단 평균보다 표본 평균에 더 가깝습니다. 따라서 2 단계에서 계산 한 값은 1 단계에서 실제 모집단 평균을 사용한 경우의 값보다 약간 작을 수 있으며 더 클 수 없습니다.이를 보완하려면 n-1로 나눕니다. nv보다이를 베셀의 수정이라고합니다.

그러나 왜 n-1입니까? 표본 평균과 값 중 하나를 제외한 모든 값을 알고 있으면 마지막 값을 계산할 수 있습니다. 통계 학자들은 n-1 자유도가 있다고 말합니다.

SD는 언제 n-1 대신 n의 분모로 계산해야합니까?

통계 서적은 종종 분모에서 SD를 계산하는 두 가지 방정식을 보여줍니다. 하나는 n을 사용하고 다른 하나는 n-1을 사용합니다. 일부 계산기에는 두 개의 버튼이 있습니다.

n-1 방정식은 데이터 샘플을 분석하고보다 일반적인 결론을 내리고 자하는 일반적인 상황에서 사용됩니다. 이 방법으로 계산 된 SD (분모에 n-1이 있음)는 전체 모집단에서 SD의 가치를 가장 잘 추측합니다.

특정 데이터 집합의 변동을 수량화하고 더 넓은 결론을 내기 위해 외삽하지 않으려는 경우 분모에서 n을 사용하여 SD를 계산할 수 있습니다. 결과 SD는 이러한 특정 값의 SD입니다. 해당 점이 그려진 모집단의 SD를 추정하려는 경우 SD를 이런 식으로 계산하는 것은 의미가 없습니다. 모집단의 표본이없고 일반적인 결론을 내릴 필요가없는 경우에만 분모에 n을 사용하는 것이 좋습니다.

과학의 목표는 거의 항상 일반화하는 것이므로 분모가 n 인 방정식을 사용해서는 안됩니다. 내가 이해할 수있는 위치를 생각할 수있는 유일한 예는 시험 점수 간의 변동을 정량화하는 것입니다. 그러나 모든 점수의 산점도 또는 빈도 분포 히스토그램을 표시하는 것이 훨씬 좋습니다.

— 하비 모툴 스키
소스

1

나는 그것이 왜 그런 차이가 생겼는지, 잘못된 조언에 따라 어떤 종류의 오류가 발생할 수 있는지, 그리고 학생들에게 줄 수있는 차이점에 대한 적절한 설명이 있는지에 대해 궁금했습니다. .

— Amos

@ harvey-링크가 죽었습니다

— baxx

1

@baxx .. 이것을 지적 해 주셔서 감사합니다. 결정된.

— Harvey Motulsky

3

N은 데이터 세트의 포인트 수이므로 평균을 계산하여 데이터 세트의 자유도를 1 씩 줄 였다고 주장 할 수 있으므로 (데이터 세트에 종속성을 도입 한 이후) N을 사용해야합니다. 이전 평균을 추정해야하는 데이터 세트에서 표준 편차를 추정 할 때 -1입니다.

— 벤자민 바니에
소스