내 직감은 표준 편차가 다음과 같다는 것입니다 : 데이터의 확산 측정.
넓거나 빡빡한 지 여부는 데이터 분포에 대한 기본 가정이 무엇인지에 달려 있습니다.
주의 사항 : 산포도는 데이터 분포가 평균에 대해 대칭이고 정규 분포와 상대적으로 차이가있는 경우 가장 유용합니다. (이것은 대략 정상임을 의미합니다.)
데이터가 대략 정규 인 경우 표준 편차는 표준 해석을 갖습니다.
- 지역 : 표본 평균 +/- 1 표준 편차, 데이터의 약 68 % 포함
- 지역 : 표본 평균 +/- 2 표준 편차, 대략 95 %의 데이터 포함
- 지역 : 표본 평균 +/- 3 표준 편차, 대략 99 %의 데이터 포함
( 위키의 첫 그래픽 참조 )
즉, 모집단 평균이 5이고 표준 편차가 2.83이고 분포가 대략 정규라고 가정하면 (대단한) 많은 관측을 할 경우 5 % 만 예측할 수 있다고 합리적으로 확신합니다 0.4 = 5-2 * 2.3보다 작거나 9.6 = 5 + 2 * 2.3보다 커야합니다.
신뢰 편차에 대한 표준 편차의 영향은 무엇입니까? (확산이 많을수록 불확실성이 커짐)
또한 데이터가 거의 정상적이지 않지만 여전히 대칭 인 일반적인 경우에는 다음과 같은 가 있음을 알고 있습니다 .α
- 지역 : 표본 평균 +/- 표준 편차, 대략 95 %의 데이터 포함α
하위 표본에서 를 배우 거나 라고 가정 하면 이것은 미래의 관측치 또는 새로운 관측치 중 어느 것으로 간주 될 수 있는지를 계산할 때 일반적으로 좋은 경험 법칙을 제공합니다. 특이 치. (주의 사항을 명심하십시오!)α = 2αα = 2
어떻게 해석해야할지 모르겠습니다. 2.83은 값이 매우 넓게 퍼져 있거나 평균 주위에 단단히 묶여 있음을 의미합니까?
"넓거나 꽉 찬"질문은 "무엇과 관련하여?"도 포함해야한다고 생각합니다. 한 가지 제안은 잘 알려진 분포를 참조로 사용하는 것입니다. 상황에 따라 다음과 같은 생각을하는 것이 유용 할 수 있습니다. "정상 / 포아송보다 훨씬 넓습니까?
편집 : 주석의 유용한 힌트를 기반으로 거리 측정으로 표준 편차에 대한 또 다른 측면.
표준 편차 의 유용성에 대한 또 다른 직관은 그것이 표본 데이터 x 1 , … , x N 과 평균 ˉ x 사이의 거리 측정이라는 것입니다 .에스엔엑스1, … , x엔엑스¯
에스엔= 1엔∑엔나는 = 1( x나는− x¯¯¯)2−−−−−−−−−−−−−√
이에 비해 통계에서 가장 많이 사용되는 오차 측정 값 중 하나 인 평균 제곱 오차 (MSE)는 다음과 같이 정의됩니다.
MSE = 1엔∑엔나는 = 1( Y나는^− Y나는)2
위의 거리 기능이 왜 문제가 될 수 있습니까? 예를 들어 왜 절대 거리가 아닌 제곱 거리입니까? 왜 우리는 제곱근을 취합니까?
이차 거리 또는 오차가있는 함수는 차별화하고 쉽게 최소화 할 수있는 이점이 있습니다. 제곱근에 관한 한, 오류를 관측 된 데이터의 척도로 다시 변환하므로 해석 가능성을 추가합니다.