음이 아닌 데이터의 표준 편차가 평균을 초과 할 수 있습니까?


15

삼각 측량 된 3D 메쉬가 있습니다. 삼각형 영역에 대한 통계는 다음과 같습니다.

  • 최소 0.000
  • 최대 2341.141
  • 평균 56.317
  • 표준 개발 98.720

따라서 표준 편차에 특히 유용한 것이거나 수치가 위와 같이 작동 할 때 계산에 버그가 있음을 암시합니까? 이 지역은 정규 분포와는 거리가 멀다.

그리고 아래의 답변 중 하나에서 언급 한 바와 같이 숫자가 음수로 바뀌어 법적 영역에서 벗어나기 위해서는 평균에서 하나의 SD 만 가져 왔다는 사실에 놀랐습니다.

감사


4
데이터 세트 {2,2,2,202} 에서 표본 표준 편차는 100 이고 평균은 52 입니다. 관찰 한 것과 거의 비슷합니다.
whuber

5
친숙한 (일부) 예를 들어, 한 시간 동안 블랙 잭을 플레이 한 사람의 평균 결과는 음수 $ 25이지만 표준 편차는 $ 100 (예시 번호)입니다. 이 큰 변동 계수는 누군가가 실제보다 더 낫다고 생각하도록 속이기 쉽습니다.
Michael McGowan

후속 질문 도 매우 유익 : 그것은 평균 주어진 세트 (음수가 아닌 데이터)의 SD에 경계를 배치합니다.
whuber

답변:


9

표준 편차가 평균보다 작거나 커야한다는 것은 없습니다. 일련의 데이터가 주어지면 평균을 동일하게 유지할 수 있지만 양수를 적절히 더하거나 빼서 표준 편차를 임의의 정도로 변경할 수 있습니다 있습니다.

그의 의견에서 질문에 대한 @whuber의 예제 데이터 세트를 사용하여 {2, 2, 2, 202}. @ whuber가 말했듯이 평균은 52이고 표준 편차는 100입니다.

이제 데이터의 각 요소를 다음과 같이 교란하십시오 : {22, 22, 22, 142}. 평균은 여전히 ​​52이지만 표준 편차는 60입니다.


1
당신이 경우 추가 각 요소에, 당신은 변경 위치 , 즉 평균 매개 변수를. 척도 계수 (평균이 0 인 경우)를 곱하여 분산 (즉 표준 편차)을 변경합니다.
Dirk Eddelbuettel

@DirkEddelbuettel 당신이 맞습니다. 나는 대답을 수정하고 명확성을위한 예를 제공했습니다.
varty

2
나는 예제를 따르지 않습니다. 새로운 데이터 세트는 각 원래 값에서 "양수를 더하거나 빼서"원본에서 명확하게 도출 되지 않습니다 .
whuber

3
무슨 말을하는지 모르기 때문에 편집 할 수 없습니다. 데이터 집합의 각 숫자에 개별 값을 임의로 추가 할 수있는 경우 값 집합 중 하나만 완전히 다른 n 값 집합으로 변경 하면 됩니다. 나는 그것이 질문이나 시작 단락과 어떻게 관련이 있는지 알지 못합니다. 나는 그러한 변화가 평균과 SD를 바꿀 수 있다고 인정할 것이라고 생각하지만, 음이 아닌 데이터 세트의 SD가 평균의 양의 배수가 될 수있는 이유를 알려주지는 않습니다. nn
whuber

2
당신이 옳습니다 : 인용 된 주장은 내 것이며 답장에 나타나지 않습니다. (그러나 정확하고 관련성이 있습니다. :-) 내가 겪고 싶은 한 가지 점은 평균을 동일하게 유지하면서 SD를 변경하는 단순한 능력이 질문에 대답하지 못한다는 것입니다. SD를 얼마나 변경할 수 있습니까 (모든 데이터를 음이 아닌 상태로 유지)? 내가 시도한 또 다른 요점은 귀하의 예가 데이터를 변경하는 일반적인 예측 가능한 프로세스를 보여주지 않는다는 것입니다. 이것은 임의적 인 것으로 보이므로 별 도움이되지 않습니다.
whuber

9

물론 이들은 독립적 인 매개 변수입니다. R (또는 선호하는 다른 도구)에서 간단한 탐색을 설정할 수 있습니다.

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

마찬가지로 평균을 빼고 표준 편차로 나누어보고있는 데이터 를 표준화 합니다.

편집 @ whuber의 아이디어에 따라 다음은 네 가지 측정에 가까운 무한한 데이터 세트 중 하나입니다.

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

나는 당신의 요점을 이해하지 못합니다. 하나의 데이터 포인트를 교란시켜 평균을 변경할 수 있으므로 표준 편차도 변경할 수 있으므로 정확히 독립적이지 않습니다. 내가 잘못 해석 했습니까?
varty

삼각형 영역은 음수가 될 수 없다는 점에 유의하면서 (질문에 인용 된 최소값으로 확인) 음이 아닌 숫자로만 구성된 예를 원할 것입니다.
whuber

(+1) 다시 편집 : 52.15 :-)의 536 복제를 사용해보십시오.
whuber

536 회 반복하는 것이 좋습니다. 이진 검색을 수행해야합니다 :)
Dirk Eddelbuettel

@Dirk "이것은 독립적 인 매개 변수" 입니다. 가 bernouilli 인 경우를 고려하십시오 . 분산과 평균은 독립적이지 않습니다 : v a r ( X ) = p ( 1 p )Xvar(X)=p(1p) . 임의의 변수를 고려 , 최대 가능한 차이가있다 ( 50 ) (2) 는 (이하 즉, 하나의 동일하게 평균값을 강제하는 경우 현재 50 최대 편차보다 더 클 수 없다) 99 / 100 * ( 1 ) (2) +100>X>0(50)250 . 가우스 인보 다 본질적으로 경계 변수의 예가 더 있습니까? 99/100(1)2+(1/100)992
로빈 지라드

7

왜 @Andy가이 결과에 놀랐는지 모르겠지만, 그가 혼자가 아니라는 것을 알고 있습니다. 또한 데이터의 정규성이 sd가 평균보다 높다는 사실과 어떤 관련이 있는지 확실하지 않습니다. 이 경우에 일반적으로 분배되는 데이터 세트를 생성하는 것은 매우 간단합니다. 실제로 표준 법선의 평균은 0, sd가 1입니다. sd> mean으로 모든 양수 값의 정규 분포 데이터 세트를 얻는 것은 어렵습니다. 실제로, 그것은 가능하지 않아야합니다 (그러나 샘플 크기와 사용하는 정규성 테스트에 달려 있습니다 ... 매우 작은 샘플로 이상한 일이 발생합니다)

그러나 @Andy처럼 정규성 규정을 제거하면 모든 양수 값에 대해서도 sd가 평균보다 크거나 작아야 할 이유가 없습니다. 단일 특이 치가이를 수행합니다. 예 :

x <-runif (100, 1, 200) x <-c (x, 2000)

113의 평균과 198의 sd를 제공합니다 (물론 종자에 따라 다름).

그러나 더 큰 문제는 이것이 사람들을 놀라게하는 이유입니다.

나는 통계를 가르치지 않지만 통계가 가르치는 방식에 대해이 개념이 공통되는 것이 무엇인지 궁금합니다.


나는 통계학을 공부 한 적이 없으며 단지 몇 수학 공학 단위이며 30 년 전이었습니다. 도메인을 더 잘 이해한다고 생각한 직장의 다른 사람들은 "평균에서 벗어난 표준 개발자 수"로 나쁜 데이터를 나타내는 것에 대해 이야기하고 있습니다. 그래서, 그것은 "taught"보다 "std dev가 일반적으로 언급되는 방법"에 관한 것입니다 :-)
Andy Dent

@Andy는 평균에서 많은 수의 std를 갖는 것은 변수가 0과 크게 다르지 않다는 것을 의미합니다. 그런 다음 상황에 따라 다릅니다 (임의 변수의 의미 였음). 경우에 따라 해당 변수를 제거하고 싶습니까?
로빈 지라드

@Peter는 Dirk에 대한 나의 의견을 본다. 이것은 어떤 맥락에서 "놀람"을 설명 할 수있다. 실제로 나는 통계를 얼마 동안 가르쳤으며 당신이 말하는 놀라움을 본 적이 없습니다. 어쨌든, 나는 이것이 좋은 인식 론적 입장이라고 확신하는 모든 것에 놀라는 스터디를 선호합니다 (절대적으로 놀랄만 한 위치를 기절시키는 것보다 낫습니다 :)).
로빈 지라드

@AndyDent "나쁜"데이터는 잘못 기록 된 데이터를 의미합니다. 평균과 거리가 먼 데이터는 특이 치입니다. 예를 들어 사람들의 키를 측정한다고 가정합니다. 나를 측정하고 5'7 대신 7'5 '로 키를 기록하면 나쁜 데이터입니다. Yao Ming을 측정하고 높이를 7'5 "로 기록하면 이상치이지만 나쁜 데이터는 아닙니다. 평균과 매우 거리가 멀다는 사실에 관계없이 (6 sds와 같은)
Peter Flom-Reinstate Monica

@Peter Florn,이 경우에는 삼각형을 나타내므로 메쉬를 처리하는 알고리즘 문제를 일으킬 수있는 이상 치를 제거해야합니다. 그들은 잘못된 스캐닝 장치에 의해 생성되거나 다른 형식으로부터의 변환에 의해 만들어진다면 당신의 의미에서 "나쁜 데이터"일 수도 있습니다 :-) 다른 모양에는 이상과는 거리가 멀지 만 이상과는 거리가 멀지 만 문제를 나타내지는 않습니다. 이 데이터에서 가장 흥미로운 점 중 하나는 양쪽 끝에 "잘못된 데이터"가 있지만 작은 데이터는 평균과 멀지 않다는 것입니다.
Andy Dent

6

미적분 관점에서 x 2 f ( x ) d x 는 두 적분이 존재한다고 가정 할 때 Jensen의 불평등 과 관련이 있는 일반적인 점을 추가하면 됩니다. x 2 f ( x ) d x { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
이러한 일반적인 불평등을 감안할 때 분산이 임의로 커지는 것을 막는 것은 없습니다. 목격학생의 t 분배 ν 자유도는 X ~ T ( ν , μ , σ ) 및 소요 Y를 = | X | 두 번째 모멘트는 X 의 두 번째 모멘트와 동일합니다. E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|Xν>2. 따라서ν2로 내려갈때 무한대로되며,Y의 평균은ν>1만큼 유한하게 유지됩니다.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
질문에서 음수아닌 값에 대한 명시적인 제한에 유의하십시오 .
whuber

학생 사례는 학생의 절대 분포 값으로 쉽게 변환됩니다.
Xi'an

1
그러나 그것은 물론 평균을 변경합니다 :-). 문제는 SD와 평균 사이의 관계에 관한 것입니다 (제목 참조). 나는 당신이 틀렸다는 말이 아닙니다. 나는 단지 (암시 적으로) 당신의 대답이 적은 노력으로 질문을 더 직접적으로 해결할 수 있다고 제안합니다.
whuber

@whuber : OK, I의 절대 값을 고려가 상기 (I는 절대 값의 평균을 유도하지만, 편집 <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> 그것은 오히려 흉한 </ a> ...)
시안

3

아마도 OP는 평균-1 SD가 음수 (특히 최소값이 0 인 경우)에 놀랐습니다.

다음은 명확히 할 수있는 두 가지 예입니다.

18 학년 6 학년, 1 학년 5 학년, 1 학년 7 학급의 20 명의 1 학년생이 있다고 가정 해 봅시다. 이제 49 세의 교사를 추가하십시오. 평균 연령은 8.0이고 표준 편차는 9.402입니다.

이 클래스의 표준 편차 범위는 -1.402에서 17.402 년 사이입니다. SD에 음의 나이가 포함되어 있다는 것이 놀랄 수도 있습니다.

마이너스 연령 (또는 최소 0.0 미만으로 확장되는 3D 플롯)에 대해 걱정할 필요가 없습니다. 직관적으로, 여전히 평균의 1 SD 내에 약 2/3의 데이터가 있습니다. (실제로 2 SD 내에 95 %의 데이터가 있습니다.)

데이터가 비정규 분포를 취하면 다음과 같은 놀라운 결과가 나타납니다.

두 번째 예. 그의 책에서 Fooled by Randomness' 에서 나심 탈 레브 (Nasssim Taleb)는 길이가 긴 벽에서 눈가리개 궁수를 쏘는 사고 실험을 시작했다. 궁수는 +90 도와 -90도 사이에서 사격 할 수 있습니다.

때때로, 궁수는 화살을 벽에 평행하게 쏘고 절대로 맞지 않습니다. 숫자 분포로서 화살표가 목표를 얼마나 멀리 놓치고 있는지 고려하십시오. 이 시나리오의 표준 편차는 무의미합니다.


평균의 1 SD 내에있는 데이터의 2/3 정도는 일반 데이터에 대한 규칙입니다. 그러나 교실 데이터는 분명히 비정규입니다 (작은 표본 크기로 인해 정규성 테스트를 통과하더라도). 탈 레브의 예는 끔찍하다. 변수가 제대로 작동하지 않는 예입니다. 그대로 사용하면 평균과 SD는 모두 무한합니다. 그러나 그것은 말도 안됩니다. "화살표가 그리워지는 거리"-저에게 그것은 거리입니다. 아무리 발사해도 화살은 어딘가에 착륙합니다. 거기에서 목표물까지의 거리를 측정하십시오. 더 이상 무한대가 없습니다.
Peter Flom-Monica Monica 복원

1
그렇다. OP는 내가 처음으로 평균을 보았을 때 충분히 놀랐다.-SD는 음의 값을 가졌다. 적어도 내 알고리즘이 동일한 값을 계산하고 있음을 확인하기 위해 Excel의 데이터를 사용하여 완전히 새로운 단위 테스트 세트를 썼다. Excel은 신뢰할 수있는 출처 일 뿐이므로 그렇지 않습니까?
Andy Dent

@Peter 2/3 규칙 (68-95-99.7 % 규칙의 일부)은 매우 다양한 데이터 세트에 적합합니다. 많은 데이터 세트가 비정규 데이터이거나 비대칭 데이터에도 적용됩니다. (이 규칙은 대칭 데이터 셋에 매우 적합합니다.) SD의 비한 정도와 평균은 "논 센스"가 아닙니다. Taleb의 사례는 Cauchy 분포가 데이터 생성 프로세스를 명확하게 통제하는 몇 가지 미해결 상황 중 하나입니다. SD의 무한 성은 벽을 놓칠 가능성이 아니라 실제 적중의 분포에서 비롯됩니다.
whuber

1
@ whuber 나는 당신의 첫 번째 요점을 알고있었습니다. Taleb의 두 번째 요점에 동의하지 않습니다. 그것은 또 다른 고안된 예처럼 보입니다.
Peter Flom-Monica Monica 복원

3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVar[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

다른 답변에서 지적했듯이 평균 엑스¯ 표준 편차 σ엑스표준 편차가 평균보다 작을 필요는 없다는 점에서 본질적으로 무관하다. 그러나 데이터가 음수가 아닌 경우[0,]예를 들어, 큰 데이터 세트의 경우 ( 또는 1중요하지 않습니다), 다음의 불평등 다음과 같습니다 .

σ엑스엑스¯(엑스¯)2
그리고 만약에 엑스¯>/2, 우리는 확신 할 수 있습니다 σ엑스더 작아 질 것입니다. 실제로, 이후σ엑스=/2 극단 분포에 대해서만 (데이터의 절반이 가치를 가짐 0 나머지 반값 ), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski는 여기서 실제 문제를 지적합니다. 분포가 분명하게 정규 분포가 아닌 경우 정규 분포 조건으로 이야기하는 것은 의미가 없습니다. 평균이 비교적 작고 표준 편차가 비교적 큰 모든 양수 값은 정규 분포를 가질 수 없습니다. 따라서 과제는 상황에 맞는 배포 유형을 파악하는 것입니다. 원래 게시물은 정규 분포 (또는 그와 같은 일부)가 분명히 염두에 있음을 시사합니다. 그렇지 않으면 음수가 나타나지 않습니다. 정상적인 로그, 레일리,와 이블이 떠오른다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.