표준 편차가 완전히 잘못 되었습니까? 신장, 수 등 (정수)에 대한 표준 수치를 어떻게 계산할 수 있습니까?


13

높이 (cm)를 계산하고 숫자가 0보다 높아야한다고 가정 해 봅시다.

다음은 샘플 목록입니다.

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

이 예에서는 정규 분포에 따라 값의 99.7 %가 평균에서 표준 편차의 ± 3 배 사이 여야합니다. 그러나 표준 편차의 두 배라도 음수가됩니다.

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

그러나 내 숫자는 양수 여야합니다. 따라서 0보다 커야합니다. 음수를 무시할 수 있지만 이것이 표준 편차를 사용하여 확률을 계산하는 올바른 방법인지는 의문입니다.

올바른 방법으로 이것을 사용하고 있는지 누군가가 이해하도록 도울 수 있습니까? 아니면 다른 방법을 선택해야합니까?

솔직히 말해서 수학은 수학입니다. 정규 분포인지 여부는 중요하지 않습니다. 부호없는 숫자로 작동하면 양수로도 작동해야합니다! 내가 잘못?

EDIT1 : 히스토그램 추가

더 명확히하기 위해 실제 데이터의 히스토그램을 추가했습니다. 여기에 이미지 설명을 입력하십시오

EDIT2 : 일부 값

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
여기서 오해하는 것은 양수 만 가질 수있는 분포가 정상이 아니기 때문에 99.7 % 규칙이 적용되지 않는다는 것입니다. 둘째, (샘플) 표준 편차 공식에서 원래 값이 양수라는 조건이 없다는 것을 알 수 있습니다. 왜 잘못된 것입니까? 잘못 사용 되었을 수도 있지만 통계는 대부분 불가지론 적이며 무의식적으로 적용해서는 안됩니다.
Momo

8
68-95-99.7 규칙, @Momo의 아름다움은이다 않는 많은 확실히 비 정규 분포에도 적용됩니다. 이 경우 수의 50 %는 평균의 1 sd 내에 있고 100 %는 평균의 2 sds에 있습니다. 68 %는 50 %, 대략 95 %는 100 % 정도의 작은 데이터 세트에서 예상되는 편차 내에서 정확하게 근사합니다. 따라서이 예제는 작은 크기로 인해 약간 설득력이있을 수 있지만 경험 법칙을 보여줍니다.
whuber

2
동의한다. 이것을 "99.7 % 규칙이 반드시 적용되는 것은 아닙니다"로 수정하겠습니다 . 여기서 혼란의 근원은 이것을 대략적인 규칙 이상으로 적용하는 것으로 보이며 "미리 예상되는 편차 내에서"미묘한 차이가 아닙니다. OP의 마지막 의견은 단지 그것을 보여줍니다.
Momo

4
제목이 "긍정적 인 데이터에 68-95-99.7 규칙을 적용하는 방법"과 같은 제목으로 변경해야합니까? 나는 그것이 질문의 정신을 더 많이 포착한다고 생각합니다. (표준 편차가 계산되는 방식에는 문제가 아니며 제목이 제안하는 것이 아니라 확률을 찾는 데 사용되는 방식입니다.)
Silverfish

4
표준 편차가 "잘못된"것은 아닙니다. 덜 정확한 것은 그렇지 않은 정상적인 것으로 취급하는 것입니다. 정규성에 의해 암시 된 주어진 표준 편차 수를 벗어난 비율은 다른 분포에 대해 항상 정확한 것은 아닙니다. 연속 단봉 분포의 경우, 2 표준 편차에 가까우면 양측 구간이 종종 합리적이지만 꼬리 확률이 멀면 상대 오차가 매우 높아질 수 있습니다.
Glen_b-복지 주 모니카

답변:


23

숫자가 양수일 수있는 경우 정규 분포는 모든 실수에서 지원되므로 사용 사례에 따라 정규 분포로 모델링하는 것이 바람직하지 않을 수 있습니다.

아마도 높이를 지수 분포 또는 잘린 정규 분포로 모델링하고 싶습니까?

편집 : 데이터를 본 후에는 지수 분포에 잘 맞는 것처럼 보입니다! 예를 들어 최대 우도 접근 방식을 사용 하여 모수를 추정 할 수 있습니다.λ


10
첫 번째 문장은 일반적으로 정확하지 않습니다. 엄격하게 양의 많은 수량은 정규 분포로 근사화 될 수 있습니다. 0 미만의 확률 질량이 매우 작은 경우 모든 실제 목적에 중요하지 않습니다. 이 특별한 경우에는 확실히 옳습니다.
COOLSerdash

13
-1이 답변은 통계 모델이 무엇이며 정규 분포를 사용하여 데이터를 모델링하는 것이 실제로 무엇을 의미하는지에 대해 널리 알려진 (그리고 악의적 인) 오해를 반영합니다. 실제로이 게시물의 내용을 믿게되면 정규 분포를 사용하여 이항 분포를 근사화하는 것은 "분명히 부정확"할 것입니다. (편집 : 원래 주장을 훨씬 정확하고 유용한 주장으로 수정했기 때문에
다운 보트를 제거했습니다

4
그것은 "우수한"의 의미에 달려 있습니다. 모델 비용의 일부는 모델을 구현하는 데 필요한 것입니다. 잘린 노멀 모델을 채택한다면, 빠르고 쉽고 아름답고 정확한 분석 계산 대신 많은 사용자 정의 수치 계산을 수행하게 될 것입니다. 모델의 또 다른 목적은 통찰력 을 제공하는 것입니다. "자연이 이러한 가정과 거의 비슷하게 행동한다면 그 가정으로부터 어떤 결과를 유추 할 수 있습니까?" 종종 간단한 근사로 그러한 추론을하는 것이 더 쉽습니다.
whuber

2
@ whuber : "아름답게 정확한"후에 정신적으로 "잘못된"을 추가했습니다. 죄송합니다. 물론, 박스당 "하지만 유용하다".
Stephan Kolassa

2
데이터가 정수가 아닌 값으로 구성되어 있습니까?
케빈 리

19

"68-95-99.7을 제 사건에 적용하는 올바른 방법은 무엇입니까?"

(1) 전체 (무한) 모집단 또는 이론적 확률 분포를보고 , (2) 분포가 정확히 정규 경우에만 적용 범위에 대한 경험적 규칙 만 예상해야합니다 .

크기가 20 인 랜덤 표본을 실제로 정규 분포에서 추출하더라도 항상 데이터의 95 % (20 개 항목 중 19 개)가 평균의 2 (또는 1.960) 표준 편차 내에있는 것은 아닙니다. 실제로 20 개 항목 중 19 개가 모집단 평균의 1.960 모집단 표준 편차 내에 있거나 20 개 항목 중 19 개가 표본 평균의 1.960 샘플 표준 편차 내에 있다고 보장 할 수 없습니다.

정규 분포가 아닌 분포에서 데이터 표본을 추출하면 68-95-99.7 규칙이 정확하게 적용되지 않을 것입니다. 그러나 특히 표본 크기가 크면 ( "99.7 % 적용 범위"규칙이 표본 크기가 1000 미만인 경우 특히 의미가 없을 수 있음) 분포가 정규성에 합리적으로 근접한 경우 합리적으로 접근 할 수 있습니다. 이론적으로 키나 몸무게와 같은 많은 데이터는 정확하게 정규 분포에서 나올 수 없거나 작지만 0이 아닌 음의 확률을 암시합니다. 그럼에도 불구하고, 미드들 링 값이 더 일반적이고 매우 높거나 낮은 값이 확률 적으로 떨어지는 대략 대칭 및 단봉 분포를 갖는 데이터의 경우, 정규 분포 모델이 실제 목적에 적합 할 수 있습니다.히스토그램에 종 모양의 곡선이 표시되면 데이터가 정상적으로 분포되어 있다고 말할 수 있습니까?

이론적으로 모든 분포에 적용되는 바인딩 바인딩을 원하면 Chebyshev의 부등식 을 참조하십시오. 이 값은 최대 의 값이 보다 클 수 있음을 나타냅니다. K1/k2k평균과의 표준 편차. 이는 데이터의 75 % 이상이 평균의 두 표준 편차 내에 있고, 3 % 표준 편차 내에있는 것을 보장합니다. 그러나이 수치는 이론적으로 보장 된 최소치입니다. 대략 종 모양 분포의 경우 두 표준 편차 적용 범위 수치가 75 %보다 95 %에 훨씬 더 가깝다는 것을 알 수 있으므로 정규 분포의 "거짓의 법칙"이 여전히 유용합니다. 반면, 데이터가 종 모양 근처에없는 분포에서 나온 경우 데이터를 더 잘 설명하고 다른 적용 범위 규칙이있는 대체 모델을 찾을 수 있습니다.

합니다 (68-95-99.7 규칙에 대한 좋은 것은 그것이 적용한다는 것입니다 어떤 평균이나 표준 편차에 대한 매개 변수에 관계없이 정규 분포. 마찬가지로, 체비 쇼프 부등식은 매개 변수 또는 배포에 관계없이 적용됩니다,하지만 단지 예를 들어, 잘린 법선 또는 기울기 법선 모형을 적용하는 경우 분포의 모수에 따라 다르기 때문에 "68-95-99.7"적용 범위에 해당하는 것은 아닙니다. .)


7

내가 올바른 방법으로 이것을 사용하고 있는지 누군가가 이해하도록 도울 수 있습니까?

아, 쉽다. 아니요, 올바르게 사용하고 있지 않습니다.

먼저 작은 데이터 세트를 사용하고 있습니다. 이 크기 집합에서 통계 학적 동작을 시도하는 것은 확실히 가능하지만 신뢰 범위는 다소 큽니다. 작은 데이터 세트의 경우 예상 분포와의 편차가 코스에 필적하며 세트가 작을수록 문제가 커집니다. "평균 법칙은 가장 터무니없는 우연의 일치를 허용 할뿐만 아니라 필요로합니다."

더군다나, 사용하고있는 특정 데이터 세트는 단순히 정규 분포처럼 보이지 않습니다. 그것에 대해 생각해보십시오-평균 .498의 경우 0.1 미만의 샘플 2 개와 .748 이상의 샘플 3 개가 있습니다. 그런 다음 .17과 .22 사이에 3 점의 클러스터가 있습니다. 이 특정 데이터 세트를보고 정규 분포 여야한다고 주장하는 것은 Procrustean 주장의 좋은 사례입니다. 종 모양처럼 보입니까? 더 큰 모집단이 정규 또는 수정 된 정규 분포를 따르고 샘플 크기가 클수록 문제가 해결 될 가능성은 있지만, 특히 모집단에 대해 더 많이 알지 못하면 이에 대해 내기하지 않을 것입니다.

Kevin Li가 지적했듯이 기술적으로 정규 분포 에는 모든 실수가 포함 되므로 수정 된 정규이라고 말합니다 . 그의 답변에 대한 의견에서 지적했듯이 제한된 범위에 분포를 적용하고 유용한 결과를 얻는 것을 막지는 못합니다. "모든 모델이 잘못되었습니다. 일부는 유용합니다."

그러나이 특정 데이터 세트는 정규 분포 (한정된 범위에서도)를 유추하는 것처럼 보이지 않습니다. 특히 좋은 아이디어입니다. 10 개의 데이터 요소가 .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (평균 0.500)처럼 보이면 정규 분포를 가정합니까?


나는 나의 필요와 문제를 설명 할 수있는 임의의 데이터를 사용했다
Don Coder

1
@DonCoder 무작위 데이터 (어떤 방식 으로든 조정하지 않는 한)는 정규 분포가 아닌 균일 분포를 따릅니다.
barrycarter

5
임의의 분포에서 임의의 데이터를 생성해야합니다. 어느 것을 선택 했습니까?
Peter Flom-Monica Monica 복원

실제 데이터의 히스토그램을 추가했습니다
Don Coder

2

의견 중 하나에서 당신은 "무작위 데이터"를 사용했다고 말하지만 당신은 어떤 분포에서 말하지 않습니다. 인간의 키에 대해 이야기하는 경우 대략적으로 분포되어 있지만 데이터는 인간의 키에 원격으로 적합하지 않습니다.

그리고 데이터는 원격으로 정상적이지 않습니다. 경계가 0과 1 인 균일 분포를 사용했다고 가정합니다. 그리고 매우 작은 표본을 생성했습니다. 더 큰 샘플로 시도해 봅시다.

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

따라서 데이터의 범위를 넘어 서기 때문에 데이터에서 평균으로부터 2sd를 초과하는 데이터는 없습니다. 그리고 1 sd 내의 부분은 대략 0.56이 될 것입니다.


1

표본이 모두 양수 여야한다는 제약 조건이있는 경우 종종 로그 정규 분포로 분포를 근사 할 수 있는지 확인하기 위해 데이터의 로그를 살펴볼 가치가 있습니다.


1

표준 편차 계산은 평균을 기준으로합니다. 항상 양수인 숫자에 표준 편차를 적용 할 수 있습니까? 물론. 샘플 세트의 각 값에 1000을 추가하면 동일한 표준 편차 값이 표시되지만 0보다 높은 호흡 공간을 제공하게됩니다.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

그러나 데이터에 임의의 상수를 추가하는 것은 피상적입니다. 너무 작은 데이터 세트에 표준 편차를 사용하는 경우 정제되지 않은 출력이 필요합니다. 자동 초점 카메라 렌즈와 같은 표준 편차를 고려하십시오. 시간 (데이터)이 많을수록 사진이 더 선명 해집니다. 1000000 개의 데이터 포인트를 추적 한 후에 평균 및 표준 편차가 10과 동일하게 유지되면 실험의 유효성에 의문이 생길 수 있습니다.


1

히스토그램은 정규 분포가 적합하지 않음을 보여줍니다. 대수 정규 또는 비대칭적이고 엄격하게 긍정적 인 것을 시도 할 수 있습니다


1

요점은 우리 중 많은 사람들이 게으르고 * 정상적인 분포는 게으른 사람들과 함께 일하기에 편리하다는 것입니다. 정규 분포를 사용하여 쉽게 계산할 수 있으며 수학적 기초가 훌륭합니다. 따라서 데이터 작업 방법에 대한 "모델"입니다. 이 모델은 종종 놀랍게 잘 작동하며 때로는 얼굴이 평평 해집니다.

표본이 데이터의 정규 분포를 나타내지 않는다는 것은 매우 분명합니다. 따라서 딜레마에 대한 해결책은 다른 "모델"을 선택하고 다른 분포로 작업하는 것입니다. Weibull 배포판은 방향에있을 수 있으며, 다른 배포판이 있습니다.

  • 실제로 데이터를 알지 못하고 필요할 때 더 나은 모델을 선택하는 데 게으르다.

0

기본적으로 간격 데이터와 달리 비율 데이터를 사용하고 있습니다. 지리학자들은 특정 위치 (LA Civic Center에서 100 년 이상의 샘플 포인트) 또는 강설 (빅 베어 레이크에서 100 년 이상의 강설 샘플)에서 연간 강우량에 대한 S / D를 계산할 때 항상이 과정을 거칩니다. 우리는 양수 만 가질 수 있습니다.


0

기상학에서 풍속 분포는 이와 비슷하게 보입니다. 정의에 따르면 풍속도 음이 아닙니다.

따라서 귀하의 경우에는 Weibull 분포를 분명히 볼 것 입니다.


0

데이터가 명확하게 정규 분포가 아닌 경우 "정규 분포에 따라"로 시작합니다. 이것이 첫 번째 문제입니다. "정규 분포인지 여부는 중요하지 않습니다." 넌센스 데이터가 정규 분포가 아닌 경우 정규 분포 데이터에 대한 설명을 사용할 수 없습니다.

그리고 당신은 그 진술을 잘못 해석합니다. "99.7 %는 세 가지 표준 편차 내에 있어야합니다." 그리고 데이터의 99.7 % 가 실제로 세 가지 표준 편차 내에 있었습니다 . 더 좋은 것은 두 표준 편차 내에서 100 %였습니다. 따라서 진술 은 사실 이다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.