가장 확실한 이유는 종종 값에 시간 순서가 없기 때문입니다. 따라서 데이터가 혼란스러워도 데이터가 전달하는 정보에는 차이가 없습니다. 우리가 당신의 방법을 따르는 경우, 데이터를 뒤죽박죽 때마다 다른 샘플 차이가 발생합니다.
더 이론적 인 대답은 표본 분산이 랜덤 변수의 실제 분산을 추정한다는 것입니다. 랜덤 변수의 진정한 분산 인
E는 [ ( X - E X ) 2 ] .X
E[(X−EX)2].
여기서 는 기대 값 또는 "평균값"을 나타냅니다. 따라서 분산의 정의는 평균값에서 변수 사이의 평균 제곱 거리입니다. 이 정의를 보면 데이터가 없으므로 여기에 "시간 순서"가 없습니다. 임의 변수의 속성 일뿐입니다.E
이 분포에서 iid 데이터를 수집하면 실현 있습니다. 기대치를 추정하는 가장 좋은 방법은 표본 평균을 취하는 것입니다. 여기서 핵심은 iid 데이터를 가져 와서 데이터에 대한 순서가 없다는 것입니다. 샘플 x 1 , x 2 , … , x n 은 샘플 x 2 , x 5 , x 1 , x n과 동일 합니다. .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
편집하다
표본 분산은 표본과의 평균 거리를 측정하는 표본의 특정 종류의 분산을 측정합니다. 데이터 범위 및 양자 간 범위와 같은 다른 종류의 분산이 있습니다.
값을 오름차순으로 정렬하더라도 샘플의 특성은 변하지 않습니다. 얻은 샘플 (데이터)는 변수에서 실현됩니다. 표본 분산 계산은 변수에 얼마나 많은 분산이 있는지 이해하는 것과 유사합니다. 예를 들어, 20 명을 샘플링하고 신장을 계산하는 경우 무작위 변수 사람의 신장 에서 20 개의 "실현"입니다 . 이제 표본 분산은 일반적으로 개인의 신장 변동을 측정해야합니다. 데이터를 주문하면
100 , 110 , 123 , 124 , … ,X=
100 , 110 , 123 , 124 , … ,
샘플의 정보는 변경되지 않습니다.
하나 더 예를 보자. 이 방법으로 정렬 된 임의의 변수에서 100 개의 관측치가 있다고 가정합니다 . . . 100. 그런 다음 평균 후속 거리는 1 단위이므로 방법에 따라 분산은 1이됩니다.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
"분산"또는 "분산"을 해석하는 방법은 데이터에 어떤 범위의 값이 있는지 이해하는 것입니다. 이 경우 .99 단위의 범위를 얻게되며 물론 변동을 잘 나타내지 않습니다.
평균을 취하는 대신 후속 차이를 합하면 분산은 99가됩니다. 물론 99는 가변성이 아니라 데이터 범위를 제공하기 때문에 표본의 변동성을 나타내지 않습니다.