“정규 분포”에 평균 = 중간 = 모드가 필요합니까?


17

저는 대학원 정규 통계 교수와 "정규 분포"에 대해 토론했습니다. 정규 분포를 실제로 얻으려면 mean = median = mode가 있어야하며 모든 데이터는 종 곡선 아래에 있어야하며 평균 주위에서 완벽하게 대칭이어야합니다. 따라서 기술적으로 실제 연구에는 사실상 정규 분포가 없으며 "정규 근사치"라고도합니다.

그녀는 내가 너무 까다 롭다고 말하며, 왜도 / 커토 시스가 1.0보다 작 으면 정규 분포이며 시험에서 점수를 얻었습니다. 데이터 세트는 52 개 요양원의 무작위 표본 추출에서 총 낙상 횟수 / 년이며, 이는 더 많은 인구의 무작위 표본입니다. 통찰력이 있습니까?

문제:

질문 : 3.이 데이터에 대한 왜도 및 첨도를 계산합니다. 일반 곡선이있는 히스토그램을 포함시킵니다. 발견 한 내용을 토론하십시오. 데이터가 정규 분포되어 있습니까?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

ㅏ. 여러 모드가 존재합니다. 가장 작은 값이 표시됩니다

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

내 대답 :

데이터는 표절 식이며 약간의 양의 기울어 짐 만 있으며, 평균과 중앙값 및 모드가 같지 않고 데이터가 평균 주위에 균등하게 분포되지 않기 때문에 정규 분포가 아닙니다. 실제로는 인구 집단의 키, 몸무게, 온도 또는 성인의 약지 길이와 같은“정상적인 분포”에 대해 논의 할 수는 있지만 실제로는 완벽한 정규 분포가 아닙니다.

교수의 답변 :

완벽하게 정규 분포가없는 것이 맞습니다. 그러나 우리는 완벽을 찾고 있지 않습니다. 히스토그램과 중심 경향의 측정치 외에도 데이터를 살펴 봐야합니다. 왜도 및 첨도 통계는 분포에 대해 무엇을 알려줍니까? 둘 다 임계 값 -1과 +1 사이에 있기 때문에이 데이터는 정규 분포로 간주됩니다.


3
교수님의 정확한 문구를 알고 싶습니다. 원칙적으로 정규 분포는 평균, 중앙값 및 모드가 동일하지만 (많은 다른 분포도 마찬가지 임) 왜곡도 0 (과도한 초과) 첨도 0 (및 다른 분포도 있음)를 갖습니다. (예)와 최고의 분포에 약간의 비대칭 또는 첨도는 정상입니다. 거의 모든 실제 데이터는 이론적 메니 지리에서 명명 된 분포에 가장 근접한 것입니다.
Nick Cox

22
나는 @ user2974951에 동의하지 않는다. 모든 좋은 텍스트를 가진 회사에서 정규 분포에 중간 값과 모드가 있다고 생각하면 완벽하게 행복하다는 것을 알고 있습니다. 병리학 적 반대 사례를 식별 할 수 있다는 것을 의심하지는 않지만 연속 분포에 널리 적용됩니다.
Nick Cox

4
양측의 장점을 보여주는 구체적인 세부 사항에 감사하지만 어느 쪽도 채점하지 않습니다. 그러나, 왜도 및 첨도에 대한 ± 1 의 한계 는 사용될 수있는 경험의 법칙을 넘어 서 있지 않기 때문에 교수가 사용하는 임계 값 이라는 용어에 강력하게 반대 합니다 . 데이터를 사용하여 수행하는 작업에 따라, 왜곡 < 1 은 데이터를 변환하려는 것과 함께 진행될 수 있으며 > 1 의 왜곡은 데이터를 그대로두고 그대로두고 첨도와 유사 할 수 있습니다. ±1<1>1
Nick Cox

6
우리가 nitpicking의 기술을 진지하게 받아들이게되면, 부정적 하락이없고, 하락이 불 연속적이라는 사실을 관찰해야하므로 사실상 분포 는 정상이 될 수 없습니다. 이것은 처음에 질문을 무효로 만듭니다. 더 심각한 점은 문제는 특정 경험 법칙을 확인하는 것을 목표로 제작 된 예입니다. 실제로 연구의 목적에 따라 정규 분포를 가정하는 것이 합리적 일 수 있습니다. 우리는 단지 샘플 만 가지고 있기 때문에 실제로는 알 수 없습니다.
Ioannis

5
@ user2974951 이제 의견에 동의하지 않기 때문에 첫 번째 의견을 삭제하는 것을 고려해야합니다. 지금까지 세 명의 독자가 이에 동의한다는 신호를 보냈습니다!
whuber

답변:


25

교수와의 토론 문제는 용어 중 하나이며, 잠재적으로 유용한 아이디어를 전달하는 데 오해가 있습니다. 다른 곳에서는 오류가 발생합니다.

따라서 가장 먼저 해결해야 할 것은 배포 가 무엇인지에 대해 명확하게하는 것이 중요합니다 .

정규 분포 는 특정 수학적 객체로, 무한한 값의 모집단에 대한 모델로 고려할 수 있습니다. (유한 한 인구는 실제로 연속 분포를 가질 수 없습니다.)

느슨하게이 분포가 수행하는 작업 (모수를 지정하면)은 실제 줄의 주어진 간격 내에있는 모집단 값의 비율을 (대수식을 통해) 정의합니다. 약간 덜 느슨하게, 해당 모집단의 단일 값이 주어진 간격에있을 확률을 정의합니다.

관찰 된 표본은 실제로 정규 분포를 갖지 않습니다. 정규 분포에서 표본을 추출 할 수 있습니다 (잠재적으로). 샘플의 경험적 cdf를 보면, 그것은 별개입니다. 히스토그램 에서처럼 비닝하면 표본에 "빈도 분포"가 있지만 정규 분포는 아닙니다. 분포는 모집단의 랜덤 표본에 대해 (확률 적 의미로) 몇 가지를 알려줄 수 있으며, 표본이 모집단에 대해 몇 가지를 말해 줄 수도 있습니다.

"정규 분포 표본"*과 같은 문구에 대한 합리적인 해석은 "정규 분포 모집단의 무작위 표본"입니다.

* (나는 일반적으로 여기에서 충분히 명확하게 밝히기 위해 스스로 말을 피하려고 노력합니다. 일반적으로 나는 두 번째 종류의 표현으로 자신을 한정합니다.)

용어를 정의했지만 (여전히 조금 느슨하다면) 이제 질문을 자세히 살펴 보겠습니다. 질문의 특정 부분을 다룰 것입니다.

정규 분포는 평균 = 중간 = 모드 여야합니다

이것은 정규 분포에서 추출한 표본에 대한 요구 사항은 아니지만, 반드시 정규 확률 분포에 대한 조건입니다. 표본은 비대칭 일 수 있으며 평균과 평균이 다를 수 있습니다. 그러나 표본이 실제로 일반 모집단에서 추출 된 경우 표본이 얼마나 멀리 떨어져 있는지 예상 할 수 있습니다.]

모든 데이터는 벨 커브 아래에 포함되어야합니다

이 의미에서 "포함"이 무엇을 의미하는지 잘 모르겠습니다.

평균을 중심으로 완벽하게 대칭입니다.

아니; 여기서 데이터 에 대해 이야기 하고 있으며 (정확히 대칭 인) 정규 모집단의 표본 자체가 완벽하게 대칭 적이지는 않습니다.

따라서 기술적으로 실제 연구에는 사실상 정규 분포가 없습니다.

나는 당신의 결론에 동의 하지만 추론은 정확하지 않습니다. 데이터 가 완벽하게 대칭 적이 지 않다는 사실의 결과 는 아닙니다. 그것은 인구 자체가 완벽하게 정상적 이지 않다는 사실입니다 .

비뚤어 짐 / 커트 시스가 1.0 미만인 경우 정규 분포입니다

그녀가 그런 식으로이 말을했다면 분명히 틀린 것입니다.

샘플 왜도는 실제 값이 아닌 절대 크기를 의미하기 위해 "보다 작음"보다 0에 훨씬 더 가깝고 샘플 과도 첨도는 0보다 훨씬 더 클 수 있습니다 (우연이든 아니든 상관없이). 거의 정확하게 0 일 수있는 구조이지만, 샘플이 추출 된 분포는 쉽게 비정규 일 수 있습니다.

우리는 더 나아가서 갈 수 있습니다. 비록 인구 왜도 및 첨도가 정확히 정상의 것임을 마술로 알고 있더라도, 인구 자체가 정상이거나 정상에 가까운 것임을 우리 스스로 알 수는 없습니다.

데이터 세트는 52 개 요양원의 무작위 표본 추출에서 총 낙상 횟수 / 년이며, 이는 더 많은 인구의 무작위 표본입니다.

카운트의 인구 분포는 결코 정상적 이지 않습니다 . 카운트는 불연속적이고 음수가 아니고 정규 분포는 연속적이며 전체 실제 라인에 걸쳐 있습니다.

그러나 우리는 여기서 잘못된 문제에 정말로 집중하고 있습니다. 확률 모델은 바로 모델 입니다. 모델을 실제와 혼동 하지 마십시오 .

문제는 " 데이터 자체가 정상입니까?" (그럴 수는 없습니다), 심지어 "데이터가 정상적으로 수집 된 인구도?" (이것은 거의 사실이 아닙니다).

더 유용한 질문은 "인구를 정규 분포로 취급하면 추론에 어떤 영향을 미치는가?"입니다.

또한 대답하기가 훨씬 어려운 질문이며 몇 가지 간단한 진단을 수행하는 것보다 훨씬 더 많은 작업이 필요할 수 있습니다.

표시 한 표본 통계량은 정규성과 특히 일치하지 않습니다 (정상 모집단에서 해당 크기의 표본을 랜덤으로 추출한 경우 이와 같은 통계를 보거나 "걱정"할 수있는 경우는 거의 없음). 그러나 그 자체가 실제 모집단을 의미하지는 않습니다. 샘플이 추출 된 곳에서 특정 목적을 위해 자동으로 "충분히 근접"합니다. 목적 (답변하는 질문)과 그에 사용 된 방법의 견고성을 고려하는 것이 중요하며, 그래도 "충분히"충분한 지 확신 할 수 없습니다. 때로는 우리가 선험적 으로 가정 할만한 충분한 이유가없는 것을 단순히 가정하지 않는 것이 좋습니다 (예 : 유사한 데이터 세트에 대한 경험을 바탕으로).

정규 분포가 아닙니다

데이터 (일반 인구에서 추출한 데이터조차도)는 인구의 특성을 정확히 가지고 있지 않습니다. 그 숫자만으로도 인구가 정상이 아니라는 결론을 내릴 수있는 좋은 근거가 없습니다.

반면에 우리는 그것이 정상에 "충분히 가깝다"고 말하는 합리적 근거를 가지고 있지 않습니다. 우리는 정규성을 가정 할 목적조차 고려하지 않았기 때문에 어떤 분포 적 특징이 민감 할 수 있는지 모릅니다.

예를 들어, 제한된 측정을 위해 두 개의 샘플이 있고, 상당히 이산 적이 지 않고 (주로 몇 가지 고유 한 값을 취할뿐 아니라) 거의 대칭에 가깝다는 것을 알고 있다면, 2- 샘플을 사용하는 것이 상대적으로 행복 할 수 있습니다 그다지 작은 표본 크기에서 t- 검정; 그것은 가정과의 약간의 편차에서 약간 강하다 (약간 강하고 힘이 아닌 강하다). 그러나 스프레드 평등을 테스트 할 때 정규성을 가정하는 것으로 인과 관계를 갖는 것에 대해 더 신중할 것입니다.

둘 다 임계 값 -1과 +1 사이에 있기 때문에이 데이터는 정규 분포로 간주됩니다. "

그것이 실제로 정규 분포 모델을 사용하기로 결정한 기준이라면, 때로는 분석이 좋지 않을 수도 있습니다.

이러한 통계 값은 표본이 추출 된 모집단에 대한 힌트를 제공하지만, 그 값이 어떤 식 으로든 분석을 선택하는 '안전한 가이드'임을 암시하는 것은 아닙니다.


이제 당신이 가지고있는 질문과 같은 더 나은 문구 버전으로 근본적인 문제를 해결하십시오.

모델을 선택하기 위해 샘플을 보는 전체 과정에는 문제가 있습니다. 그렇게하면 본 결과에 따라 후속 분석 선택의 속성이 변경됩니다! 예를 들어, 가설 검정의 경우 유의 수준, p- 값 및 검정력은 모두 선택 / 계산하려는 것이 아닙니다. 계산은 데이터를 기반으로하지 않는 분석에 근거하기 때문입니다.

예를 들어 Gelman and Loken (2014), " 과학의 통계 위기 ", 미국 과학자 , 102 권, 6 호, p 460 (DOI : 10.1511 / 2014.111.460)을 참조하십시오.


피터 안녕하세요, 당신의 게시물을 보지 못해서 죄송합니다.
Glen_b-복지 주 모니카

이 대화는 채팅 으로 이동 되었습니다 .
Glen_b-복귀 모니카

41

당신은 요점을 잃어 버렸고 아마도 "어려운"것일 것입니다. 이것은 업계에서 인정되지 않습니다. 그녀는 데이터 세트의 정규성, 즉 데이터 세트 가 정규 분포에서 비롯된 것인지 평가하는 데 도움이되는 장난감 예제를 보여줍니다 . 분포 모멘트를 보는 것이 정규성을 확인하는 한 가지 방법입니다. 예를 들어 Jarque Bera 테스트 는 이러한 평가를 기반으로합니다.

예, 정규 분포는 완벽하게 대칭입니다. 그러나 정규 정규 분포에서 표본을 추출하는 경우 해당 표본은 완벽하게 대칭이 아닐 수 있습니다. 이것이 당신이 완전히 놓친 지점입니다. 당신은 이것을 매우 쉽게 직접 테스트 할 수 있습니다. 가우스 분포에서 표본을 생성하고 그 순간을 확인하십시오. 실제 배포판 에도 불구하고 완벽하게 "정상적인"상태는 아닙니다 .

바보 같은 파이썬 예제가 있습니다. 100 개의 난수로 100 개의 샘플을 생성 한 다음 평균과 중간 값을 얻습니다. 평균과 중앙값이 다르다는 것을 보여주기 위해 첫 번째 샘플을 인쇄 한 다음 평균과 중앙값의 차이에 대한 히스토그램을 표시합니다. 다소 좁다는 것을 알 수 있지만 차이는 기본적으로 0이 아닙니다. 숫자는 실제로 정규 분포에서 나옵니다 .

암호:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

출력 : 여기에 이미지 설명을 입력하십시오

추신

이제 질문의 예가 ​​정상으로 간주되어야하는지 여부는 상황에 따라 다릅니다. 교실에서 배운 내용과 관련하여 교수님은 틀 렸습니다. 교수님이 자신이 준 엄지 손가락 규칙을 알고 싶었는지 확인하고 싶었습니다. 즉, 왜곡과 과도한 첨도는 -1 대 1이어야합니다. 범위.

나는 개인적 으로이 특별한 경험 법칙을 사용하지 않았으며 (시험이라고 부를 수는 없음) 심지어 그것이 존재하는지조차 몰랐습니다. 분명히 일부 분야의 사람들은 그것을 사용합니다. 데이터 세트 설명을 JB 테스트에 연결하는 경우 정규성 을 거부 했을 것 입니다. 따라서 데이터 세트가 정상이 아니라고 제안하는 것은 잘못된 것이 아닙니다. 그러나 수업에서 배운 내용을 기반으로 예상되는 규칙을 적용하지 못했다는 의미에서 잘못된 것입니다.

내가 너라면 JB 시험 결과를 보여줄뿐만 아니라 정중하게 교수에게 다가 가서 설명해 보겠습니다. 나는 그녀의 테스트를 바탕으로 내 대답이 잘못되었다는 것을 인정했다. 여기에서 주장하는 방식으로 그녀와 논쟁하려고 시도하면 중앙값과 평균 및 표본에 대한 추론이 약하기 때문에 표본에서 모집단에 대한 이해가 부족하다는 것을 보여주기 때문에 시험에서 점수를 다시 얻을 확률이 매우 낮습니다. 음악을 바꾸면 사건이 발생합니다.


23
(+1) 정확히 요점. 랜덤 변수와 그 랜덤 변수의 실현 샘플을 혼동합니다.
시안

15

표본이 완벽하게 정규 분포되어 있다면 표본이 무작위가 아니라는 확실한 증거라고 말할 수 있습니까?
JimmyJames

@JimmyJames, 4 년 전 사이언스 지에 게이 캔서와 20 분 간의 대화가 게이 사람들에 대한 감정을 바꿀 수 있다고 주장하는 논문이있었습니다. 저자가 설문 조사 데이터를 구성한 것으로 나타났습니다. 그들은 너무 게으른했다 완벽 가우시안 잡음을 생성하고, 그들이 얼마나 그의 적발은 - Broockman 등으로 LACOUR (2014)의 불규칙성을 참조
Aksakal

@ Aksakal 나는 그것이 내가 요구하는 것과 정확히 같은 것이 확실하지 않습니다. 이 경우에는 실제 데이터가 완벽하게 정상적이지 않다는 주장이있었습니다. "그러나 정규 정규 분포에서 표본을 추출하면 해당 표본이 완벽하게 대칭이 아닐 수 있습니다." 완벽한 정규 분포에서 무작위로 샘플링하는 경우 연속 된 각 데이터 포인트가 완벽한 정규 곡선을 채우는 데 필요한 위치에 빠질 것이라고는 기대하지 않습니다. 그것은 나에게 비 랜덤 선택 과정과 비슷하게 보일 것입니다.
JimmyJames

6

교사는 분명히 자신의 요소를 벗어 났으며 통계를 가르치지 않아야합니다. 전혀 가르치지 않는 것보다 잘못된 것을 가르치는 것이 나에게 더 나쁜 것 같습니다.

"데이터"와 "데이터를 생성 한 프로세스"를보다 명확하게 구분하면 이러한 문제를 쉽게 해결할 수 있습니다. 데이터는 데이터를 생성 한 프로세스를 대상으로합니다. 정규 분포는이 프로세스의 모델입니다.

데이터가 정상적으로 분포되어 있는지 여부는 말이되지 않습니다. 한 가지 이유 때문에 데이터는 항상 개별적입니다. 다른 이유로, 정규 분포는 유한 한 특정 관 측량 세트가 아니라 잠재적으로 관측 가능한 수량의 무한대를 나타냅니다.

또한, 질문에 대한 대답 "는 것입니다 과정을 정상적으로 분산 된 데이터를 생산 과정 에 관계없이 데이터의"아니오 "항상도있다". 두 가지 간단한 이유 : (i) 우리가 취하는 모든 측정은 반드시 불 연속적이며 어느 정도 반올림됩니다. (ii) 완전한 원과 같은 완벽한 대칭은 관찰 가능한 성질로 존재하지 않습니다. 항상 결점이 있습니다.

기껏해야 "이 데이터가 데이터 생성 프로세스의 정상성에 대해 무엇을 알려 주는가?"라는 질문에 대한 대답은 다음과 같이 주어질 수 있습니다. 일반적으로 분산 된 프로세스입니다. " 그 대답은 분포가 정상이라고 결론 내리지 않습니다.

이러한 문제는 시뮬레이션을 사용하여 매우 쉽게 이해할 수 있습니다. 정규 분포에서 데이터를 시뮬레이션하고 기존 데이터와 비교하십시오. 데이터가 개수 (0,1,2,3, ...)이면 0,1,2,3, ...과 같은 숫자를 생성하지 않기 때문에 명백히 정상적인 모델은 잘못된 것입니다. 대신, 그것은 영원히 (또는 적어도 컴퓨터가 허용하는 한) 소수점 이하 자릿수를 생성합니다. 이러한 시뮬레이션은 정규성 질문에 대해 배울 때 가장 먼저해야합니다. 그러면 그래프와 요약 통계를보다 정확하게 해석 할 수 있습니다.


10
나는 당신의 대답을 다운 그레이드하지 않았지만 당신이 학생의 말로 대학원 교수를 판단하고 있다고 생각하십시오. 학생이 옳고 교사가 틀렸을 가능성은 얼마나됩니까? 학생이 교수와 대화의 상황을 잘못 표현하고있는 것 같습니까?
Aksakal

내 경험과 학생들의 말을 바탕으로 교사가 잘못되었을 가능성이 더 큽니다. 정규 교육이 거의없는 교사가 어디에서나 대학에서 과정, 심지어 대학원 과정을 가르칩니다. 인증 기관이 진실 만 알고 있다면!
피터 웨스트 폴

6
@ Possum-Pie, 나는 당신에게서 기대되는 것을 추측 할 수 있습니다. 아마도 통계 상으로는 101 개 코스 일 것이므로 왜도 및 첨도를 봐야합니다. 그들이 0과 3에 충분히 가깝지 않으면 정상이 아니라고 말합니다. 그게 다야. 실제로 JB 테스트는보다 공식적인 방식으로 수행됩니다. 운동의 요점은 가우시안이 0과 첨도 3을 기울 였다는 것을 기억하는 것입니다. 당신은이 어리석지 만 필요한 운동을 철학적 토론으로 바꾸고 있습니다.
Aksakal

2
교사의 의견은 "-1과 +1의 임계 값 사이에 있기 때문에이 데이터는 정상적으로 분포 된 것으로 간주됩니다."는 (i) 이해 부족 또는 (ii) 자신이 알고있는 것을 가르치려는 의지를 보여줍니다. 잘못되었다. 나는 교사의 준비 또는 교육 학적 방법에 의문을 제기하는 것이 철학적 토론이라고 생각하지 않습니다.
피터 웨스트 폴

3
"일관성"언어가 좋습니다. 그러나 Possum-Pie가 지적했듯이, 교사들은 학생들에게 "이 테스트 / 진단을 바탕으로 데이터는 정상입니다"라고 말하며 몇 가지면에서 잘못되었습니다. 교사 (정신 및 기타)는 (i) 데이터 생성 프로세스와 데이터를 구별하고, (ii) 일반 모델과 다른 모델이 데이터 생성 프로세스의 모델이라고 말하고, (iii) 정규 분포는 항상 진단에 관계없이 모델로서 잘못되고, (iv) 운동의 요점은 예 / 아니오로 대답하지 않고 비정규도를 진단하는 것이라고 말한다. 그런 다음 왜 중요한지 설명하십시오.
피터 웨스트 폴

4

저는 엔지니어이기 때문에 세계에서 응용 통계학자가 가장 많이보고 가장 구체적인 가치를 얻습니다. 응용 분야에서 일을하려는 경우 이론에 따라 실용적으로 견고해야합니다. 우아한 지 여부에 관계없이 항공기는 비행하고 충돌하지 않아야합니다.

제가이 질문에 대해 생각할 때, 제가 여기에 기술적으로 개선 한 많은 것들이했던 것처럼, "소음이있는 실제 세계에서는 어떤 모습 일까"에 대해 생각하는 것입니다.

두 번째로하는 일은 종종 질문에 대한 내 손을 잡을 수있는 시뮬레이션을 만드는 것입니다.

다음은 매우 간단한 탐색입니다.

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

출력으로 제공합니다. 여기에 이미지 설명을 입력하십시오

참고 : x 축은 로그 스케일이 아닌 균일 스케일이 아니므로주의하십시오.

평균과 중앙값이 정확히 동일하다는 것을 알고 있습니다. 코드는 말합니다. 경험적 실현은 표본 크기에 매우 민감하며, 실제로 무한한 표본이 없다면 이론과 완벽하게 일치 할 수는 없습니다.

중간 엔벨로프의 불확실성이 추정 된 평균을 포함하는지 또는 그 반대인지에 대해 생각할 수 있습니다. 평균의 최적 추정치가 중앙값 추정치의 95 % CI 내에 있으면 데이터에서 차이를 알 수 없습니다. 데이터는 이론적으로 동일하다고 말합니다. 더 많은 데이터를 얻는다면 그 내용을보십시오.


1
재미있는 그래프. 평균 추격 이상 점을 고려할 때 평균이 평균이 평균보다 일반적으로 클 것이라고 생각했을 것입니다. 즉, 빨간색 막대는 평균이며 녹색은 중간입니다. 내가 무엇을 놓치고 있습니까?
Possum-Pie

1
@ Possum-Pie 특이 치가 어느 방향이든 될 수 있음을 기억하십시오. 정규 분포에는 왼쪽 꼬리와 오른쪽 꼬리가 모두 있습니다!
Silverfish

2
@ 그것은 상자 그림의 표준 구현입니다.
Glen_b-복지 주 모니카

1
@Glen_b 특이점에 점을 사용하지 않는 교과서를 많이 보았으므로 익숙하지 않은 사람을 이해할 수 있습니다. 그러나 Hadley에 따르면 1970 년 Tukey가 "스키 매틱 음모"를 소개했을 때도 그 점들이 있었다고합니다.
Silverfish

1
예, 특이 치가없는 버전 (5 개의 숫자 요약을 바탕으로 함)은 본질적으로 Mary Spear의 범위 그림 (1952)입니다. (종이가 중요한 역사적인 박스 플롯 선구자를 그리워하는 NB, 1952 년 이전)
Glen_b -Reinstate Monica

4

의료 통계에서 우리는 분포의 모양과 모양에 대해서만 언급합니다. 불연속 유한 샘플이 정상이 될 수 없다는 사실은 관련이없고 의미가 없습니다. 나는 당신을 잘못 표시 할 것입니다.

분포가 "주로"정상인 것처럼 보이면 정상이라고 부를 수 있습니다. 비 통계적 청중에 대한 분포를 설명 할 때 정규 분포가 기본 확률 모델이 아님을 알고있을 때도 거의 정상적인 것으로 부르는 것이 매우 편합니다. 확인할 히스토그램이나 데이터 집합이 없습니다.

팁으로, 나는 다음 검사를 매우 면밀히 조사 할 것입니다.

  • 특이 치는 누구이며, 그 가치는 얼마입니까?
  • 데이터가 바이 모달입니까?
  • 로그와 같은 일부 변환이 관측치 간의 "거리"를 더 잘 정량화 할 수 있도록 데이터가 기울어 진 모양으로 보입니까?
  • 어 세이 또는 실험실이 특정 범위의 값을 안정적으로 감지하지 못하도록 명백한 절단 또는 힙 현상이 있습니까?

수학이 너무 많은 분야에서 사람들은 무언가가 "정규 분포"라고 말하는 것과 매우 엄격한 전염병이 있고 "거의 정상"이라고 말하는 것 사이에서 더 엄격 할 것입니다. 나는 1.932가 2라고 말한 적이 없지만 거의 2라고 말할 수 있습니다.
Possum-Pie

1
"무의미하고 pedantic"? 진심이야? Possum-Pie에 동의합니다. 또한 1.932가 2.0과 같다고 말하지 않을 것입니다. 데이터가 "정상"이라고 말하면 데이터 를 생성 한 프로세스 의 모델로서 정규 분포의 의미에서 정규 분포가 프로세스 를 정확하게 모델링하지 않는다는 사실에 이르기까지 모든 것이 혼동 됩니다. 모든 사람은 정규 분포를 배울 때 어리석은 말을하지 않는다는 것을 배워야합니다.
피터 웨스트 폴

2
@PeterWestfall 여기서 문제의 일부는 "정규 분포에서 나온 데이터"는 거의 문자 그대로 사실이 아니며, 사실이더라도 확실하게 결론을 내리는 것은 불가능할 것입니다. 따라서이 문구는 문자 그대로 사실이 아니기 때문에 사람들은 대신 "데이터는 정상적"이라고 말하면 "데이터는 실제적인 목적을 위해 정규성에 충분히 가까워 보인다"또는 "정규 분포는 양호합니다. DGP를위한 충분한 모델 "
Silverfish

그렇다면 옳은 것을 가르치는 것이 너무 간단 할 때 왜 무엇이 잘못되었는지 가르치는가?
피터 웨스트 폴

3
@PeterW 언어 적 요점은 단지 가르침에 관한 것이 아니라, 일상 생활에서이 구가 사용되는 방식에 관한 것입니다. "데이터는 정상입니다"는 거의 " 데이터가 샘플링 된 모집단은 정상입니다. " 사람들이 "데이터가 정상인 것 같다 "또는 "데이터가 정상인 것 같다 "고 말하면 더 좋을 것입니다 (즉, 정상과 의 편차를 신경 쓰지 않을 정도로 정상에 가깝게 보입니다). 그런 것들.
Silverfish

2

나는 당신과 교수가 다른 맥락에서 이야기하고 있다고 생각합니다. 평균의 평균 = 중앙값 = 모드는 이론적 분포의 특성이며 이것이 유일한 특성은 아닙니다. 재산 보유 위의 분배에 대해서는 분배가 정상이라고 말할 수 없습니다. T- 분포도 대칭이지만 정상적인 것은 아닙니다. 그래서, 당신은 정규 분포에 대해 항상 참인 정규 분포의 이론적 속성에 대해 이야기하고 있습니다.

교수님이 샘플 데이터 배포에 대해 이야기하고 있습니다. 그는 옳습니다. 실제로 데이터를 얻지 못할 것입니다. 평균 = 중간 = 모드를 찾으십시오. 이것은 단순히 샘플링 오류 때문 입니다. 마찬가지로, 샘플 데이터에 대해 0의 왜도 계수와 0의 초과 첨도를 얻을 가능성은 거의 없습니다. 교수는 표본 통계에서 분포에 대한 아이디어를 얻는 간단한 규칙을 제공합니다. 일반적으로 (추가 정보를 얻지 않고) 사실이 아닙니다 .


3
교수는 femaie라고합니다.
Nick Cox

평균 = 중간 = 모드를 얻지 못하는 이유는 대부분 많은 분포가 실제로 왜곡되어 있기 때문입니다! (심지어 평균 = 중간 = 모드는 많은 교과서의 말에도 불구하고 기울어 진 분포에서도 가능합니다.)
Nick Cox

1
평균 / 중간 값 / 모드 = 샘플링 오류가 동일하다는 데 동의하지 않습니다. 낙하 율에 대해 52 개의 요양원을 무작위로 샘플링했다고 가정합니다. 주택 27, 34 및 52는 만성적으로 직원 수가 적으며 항상 평균 이상으로 추락합니다. 그 가정은 꼬리를 향한 의미이며 샘플링 오류로 인한 것이 아닙니다.
Possum-Pie

1
@Possum Pie 여기서 데이터는 부차적 인 것이지만 다른 곳에서 다른 신호를주고 있습니다. 여기서 당신은 여러 요양원에 대해 이야기하고 있습니다. 그러나 귀하의 질문에 "요양원에서"라고 말합니다. 부수적 인 세부 사항조차 확실하지 않은 것은 도움이되지 않습니다.
Nick Cox

@Nick Cox 죄송합니다. 명확히했습니다. 52 개 요양원 샘플의 낙상 횟수 / 년
Possum-Pie

1

실제적인 목적으로, 이와 같은 기본 프로세스는 일반적으로 눈썹을 올리지 않고 정규 분포로 미세하게 근사됩니다.

그러나 만약 당신이 pedantic을 원한다면,이 경우 기본 프로세스는 음수 값을 생성 할 수 없기 때문에 (정확한 수는 음수가 될 수 없기 때문에) 정상적으로 분포 될 수 없습니다. 실제로 두 번째 피크가 0에 가까운 바이 모달 분포 인 경우 놀라지 않을 것입니다.


4 폴과 13 폴에서 모드가있는 바이 모달입니다. 낙하가 전혀 없습니다.
Possum-Pie
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.