교수와의 토론 문제는 용어 중 하나이며, 잠재적으로 유용한 아이디어를 전달하는 데 오해가 있습니다. 다른 곳에서는 오류가 발생합니다.
따라서 가장 먼저 해결해야 할 것은 배포 가 무엇인지에 대해 명확하게하는 것이 중요합니다 .
정규 분포 는 특정 수학적 객체로, 무한한 값의 모집단에 대한 모델로 고려할 수 있습니다. (유한 한 인구는 실제로 연속 분포를 가질 수 없습니다.)
느슨하게이 분포가 수행하는 작업 (모수를 지정하면)은 실제 줄의 주어진 간격 내에있는 모집단 값의 비율을 (대수식을 통해) 정의합니다. 약간 덜 느슨하게, 해당 모집단의 단일 값이 주어진 간격에있을 확률을 정의합니다.
관찰 된 표본은 실제로 정규 분포를 갖지 않습니다. 정규 분포에서 표본을 추출 할 수 있습니다 (잠재적으로). 샘플의 경험적 cdf를 보면, 그것은 별개입니다. 히스토그램 에서처럼 비닝하면 표본에 "빈도 분포"가 있지만 정규 분포는 아닙니다. 분포는 모집단의 랜덤 표본에 대해 (확률 적 의미로) 몇 가지를 알려줄 수 있으며, 표본이 모집단에 대해 몇 가지를 말해 줄 수도 있습니다.
"정규 분포 표본"*과 같은 문구에 대한 합리적인 해석은 "정규 분포 모집단의 무작위 표본"입니다.
* (나는 일반적으로 여기에서 충분히 명확하게 밝히기 위해 스스로 말을 피하려고 노력합니다. 일반적으로 나는 두 번째 종류의 표현으로 자신을 한정합니다.)
용어를 정의했지만 (여전히 조금 느슨하다면) 이제 질문을 자세히 살펴 보겠습니다. 질문의 특정 부분을 다룰 것입니다.
정규 분포는 평균 = 중간 = 모드 여야합니다
이것은 정규 분포에서 추출한 표본에 대한 요구 사항은 아니지만, 반드시 정규 확률 분포에 대한 조건입니다. 표본은 비대칭 일 수 있으며 평균과 평균이 다를 수 있습니다. 그러나 표본이 실제로 일반 모집단에서 추출 된 경우 표본이 얼마나 멀리 떨어져 있는지 예상 할 수 있습니다.]
모든 데이터는 벨 커브 아래에 포함되어야합니다
이 의미에서 "포함"이 무엇을 의미하는지 잘 모르겠습니다.
평균을 중심으로 완벽하게 대칭입니다.
아니; 여기서 데이터 에 대해 이야기 하고 있으며 (정확히 대칭 인) 정규 모집단의 표본 자체가 완벽하게 대칭 적이지는 않습니다.
따라서 기술적으로 실제 연구에는 사실상 정규 분포가 없습니다.
나는 당신의 결론에 동의 하지만 추론은 정확하지 않습니다. 데이터 가 완벽하게 대칭 적이 지 않다는 사실의 결과 는 아닙니다. 그것은 인구 자체가 완벽하게 정상적 이지 않다는 사실입니다 .
비뚤어 짐 / 커트 시스가 1.0 미만인 경우 정규 분포입니다
그녀가 그런 식으로이 말을했다면 분명히 틀린 것입니다.
샘플 왜도는 실제 값이 아닌 절대 크기를 의미하기 위해 "보다 작음"보다 0에 훨씬 더 가깝고 샘플 과도 첨도는 0보다 훨씬 더 클 수 있습니다 (우연이든 아니든 상관없이). 거의 정확하게 0 일 수있는 구조이지만, 샘플이 추출 된 분포는 쉽게 비정규 일 수 있습니다.
우리는 더 나아가서 갈 수 있습니다. 비록 인구 왜도 및 첨도가 정확히 정상의 것임을 마술로 알고 있더라도, 인구 자체가 정상이거나 정상에 가까운 것임을 우리 스스로 알 수는 없습니다.
데이터 세트는 52 개 요양원의 무작위 표본 추출에서 총 낙상 횟수 / 년이며, 이는 더 많은 인구의 무작위 표본입니다.
카운트의 인구 분포는 결코 정상적 이지 않습니다 . 카운트는 불연속적이고 음수가 아니고 정규 분포는 연속적이며 전체 실제 라인에 걸쳐 있습니다.
그러나 우리는 여기서 잘못된 문제에 정말로 집중하고 있습니다. 확률 모델은 바로 모델 입니다. 모델을 실제와 혼동 하지 마십시오 .
문제는 " 데이터 자체가 정상입니까?" (그럴 수는 없습니다), 심지어 "데이터가 정상적으로 수집 된 인구도?" (이것은 거의 사실이 아닙니다).
더 유용한 질문은 "인구를 정규 분포로 취급하면 추론에 어떤 영향을 미치는가?"입니다.
또한 대답하기가 훨씬 어려운 질문이며 몇 가지 간단한 진단을 수행하는 것보다 훨씬 더 많은 작업이 필요할 수 있습니다.
표시 한 표본 통계량은 정규성과 특히 일치하지 않습니다 (정상 모집단에서 해당 크기의 표본을 랜덤으로 추출한 경우 이와 같은 통계를 보거나 "걱정"할 수있는 경우는 거의 없음). 그러나 그 자체가 실제 모집단을 의미하지는 않습니다. 샘플이 추출 된 곳에서 특정 목적을 위해 자동으로 "충분히 근접"합니다. 목적 (답변하는 질문)과 그에 사용 된 방법의 견고성을 고려하는 것이 중요하며, 그래도 "충분히"충분한 지 확신 할 수 없습니다. 때로는 우리가 선험적 으로 가정 할만한 충분한 이유가없는 것을 단순히 가정하지 않는 것이 좋습니다 (예 : 유사한 데이터 세트에 대한 경험을 바탕으로).
정규 분포가 아닙니다
데이터 (일반 인구에서 추출한 데이터조차도)는 인구의 특성을 정확히 가지고 있지 않습니다. 그 숫자만으로도 인구가 정상이 아니라는 결론을 내릴 수있는 좋은 근거가 없습니다.
반면에 우리는 그것이 정상에 "충분히 가깝다"고 말하는 합리적 근거를 가지고 있지 않습니다. 우리는 정규성을 가정 할 목적조차 고려하지 않았기 때문에 어떤 분포 적 특징이 민감 할 수 있는지 모릅니다.
예를 들어, 제한된 측정을 위해 두 개의 샘플이 있고, 상당히 이산 적이 지 않고 (주로 몇 가지 고유 한 값을 취할뿐 아니라) 거의 대칭에 가깝다는 것을 알고 있다면, 2- 샘플을 사용하는 것이 상대적으로 행복 할 수 있습니다 그다지 작은 표본 크기에서 t- 검정; 그것은 가정과의 약간의 편차에서 약간 강하다 (약간 강하고 힘이 아닌 강하다). 그러나 스프레드 평등을 테스트 할 때 정규성을 가정하는 것으로 인과 관계를 갖는 것에 대해 더 신중할 것입니다.
둘 다 임계 값 -1과 +1 사이에 있기 때문에이 데이터는 정규 분포로 간주됩니다. "
그것이 실제로 정규 분포 모델을 사용하기로 결정한 기준이라면, 때로는 분석이 좋지 않을 수도 있습니다.
이러한 통계 값은 표본이 추출 된 모집단에 대한 힌트를 제공하지만, 그 값이 어떤 식 으로든 분석을 선택하는 '안전한 가이드'임을 암시하는 것은 아닙니다.
이제 당신이 가지고있는 질문과 같은 더 나은 문구 버전으로 근본적인 문제를 해결하십시오.
모델을 선택하기 위해 샘플을 보는 전체 과정에는 문제가 있습니다. 그렇게하면 본 결과에 따라 후속 분석 선택의 속성이 변경됩니다! 예를 들어, 가설 검정의 경우 유의 수준, p- 값 및 검정력은 모두 선택 / 계산하려는 것이 아닙니다. 계산은 데이터를 기반으로하지 않는 분석에 근거하기 때문입니다.
예를 들어 Gelman and Loken (2014), " 과학의 통계 위기 ", 미국 과학자 , 102 권, 6 호, p 460 (DOI : 10.1511 / 2014.111.460)을 참조하십시오.