경험적 측정의“정규 분포를 가정했다”라고 언제 쓸 수 있습니까?


9

인구에서 생물 의학 양의 측정이 정상적인 "종 모양 곡선"을 따르는 것은 의학과 같은 응용 분야의 가르침에 뿌리 내리고 있습니다. 하여 문자열의 Google 검색은 "우리는 정규 분포 가정" 반환23,900결과! 그들은 기후 변화에 관한 연구에서 "소수의 극단 데이터 포인트가 주어지면 온도 이상에 대한 정규 분포를 가정했다"는 것처럼 들린다 . 또는 "우리는 병아리 에 대한 논쟁의 여지가 적은 문서에서 병아리 부화 날짜의 정상적인 분포를 가정했습니다" ; 또는 "우리는 정상적인 GDP 성장 충격 분포를 가정하여" 시장에서 거시 경제적 변화를 언급했다 ( 이 책 을 기억 하고 다른 것들을 가져옴 ).

최근에, 나는 엄밀히 긍정적 인 성격으로 인해 카운트 데이터를 정상적으로 분포 된 것으로 취급하는 것에 의문을 제기했습니다. 물론, 카운트 데이터는 불 연속적이어서 정규성이 더 인공적입니다. 그러나 후자의 요점을 제쳐두고도, 왜 프로토 타입 적으로 "연속적인"것으로 간주되는 포도당의 무게, 높이 또는 농도와 같은 지속적인 경험적 측정이 정상으로 간주되어야 하는가? 그들은 카운트보다 더 이상 부정적인 실현 관찰을 가질 수 없습니다!

표준 편차가 평균보다 실질적으로 낮을 때 음수 값이 거의 없음 ( "95 % 범위 확인")을 나타내는 것은 실제적인 가정 일 수 있으며 너무 치우 치지 않으면 주파수 막대 그래프가이를 지원할 수 있음을 이해합니다. 그러나 그 질문은 사소한 것 같지 않았으며 빠른 검색으로 흥미로운 내용이 나왔습니다.

에서 자연 우리는에 다음 문을 찾을 수 있습니다 DF 히스로 편지 : "나는 특정 유형의 데이터의 통계적 분석을위한 데이터가 일반 인구에서 도출되는 가정은 일반적으로 잘못된 것을 지적하고자하고, 대체 그 이 대안은 통계 학자, 경제학자, 물리학 자들이 널리 사용하지만 어떤 이유로 다른 학문 분야의 과학자들은 종종 무시한다. "

Limpert는 "대수-정규 모형은 현재 많은 과학자들이 정상을 유효한 근사치로 인식한다는 점에서 근사치로 작용할 수있다" 면서도 정규성에 대한 적합도 검정의 낮은 힘과 선택의 어려움을 지적했습니다. 작은 샘플을 다룰 때 경험적으로 올바른 분포.

따라서 문제는 "추가 지원 증거없이 응용 과학에서 경험적 측정의 정규 분포를 가정하는 것이 언제 가능할까요?"입니다. 그리고 왜 로그 노멀과 같은 다른 대안이 채택되지 않았을까요?


답은 수행하는 작업의 종류와 정규 성과의 잠재적 편차에 대한 민감도에 따라 다릅니다 (즉, 비율의 F 검정을 사용하여 분산의 동등성을 검정하는 경우 분포가 더 좋습니다. 정규에 매우 가깝습니다 ...하지만 큰 표본이있는 평균의 차이에 대해 t 간격을 구성하는 경우 정규에 거의 근접하지 않아도됩니다). ...하고있는 추론에 미치는 영향에 대한 관용 (또는 청중).
Glen_b-복지 주 모니카

답변:


6

질문이 정말 흥미 롭습니다. 몇 가지 사항을 고려해 보겠습니다.

  1. 실제로 관찰 된 변수가 실제로 지속된다고 말하는 것은 실제로 지속적으로 측정하기가 매우 어렵 기 때문에 항상 잘못된 것입니다.
  2. 이제 정규 랜덤 변수의 속성을 추가하십시오 N(μ,σ2): 범위 (;+), 대칭 분포 (평균 = 모드 = 중앙값), 확률 밀도 함수 fX(x) 변곡점이있다 x=μσx=μ+σ.
  3. 랜덤 변수라고 말하면 X Log-Normal 분포에 따르면 변수가 Y=log(X) 정규 분포를 따릅니다.

그럼에도 불구하고 관찰 된 변수는 정상 또는 로그 정규 분포를 따르는 것이 미친 것 같습니다. 실제로, 변수가 정규 (또는 다른 분포) 모집단에서 온 경우 예상 빈도와 관측 된 빈도의 편차 를 측정 해야합니다. 당신은 그 편차는 샘플링되기 때문에 같은, 당신은 뭔가를 말할 수있는, 무작위 있다고 말할 수있는 경우 이 변수는 일반 인구에서 유래한다는 귀무 가설을 거부 할 수있는 충분한 증거가 아니다 번역으로 우리가 (것처럼 작동이 가정) 변수는 정규 분포를 따릅니다 .

첫 번째 질문에 대답하면 변수가 추가 증거없이 정상적으로 분포되어 있다고 가정하는 대담한 사람이 없다고 생각합니다 . 그런 말을하려면 적어도 qq- 플롯, 히스토그램, 적합도 테스트 또는 그 조합이 필요합니다.

두 번째 질문에 답하기 위해 정규 분포에 대한 특별한 관심은 많은 고전적 검정이 t- 검정과 같은 변수의 정규성 가정 또는 χ2-분산을 테스트합니다. 따라서 정규성은 작업을 단순화합니다. 그게 전부입니다.


많은 요점을 다루는 답변에 감사드립니다. 그러나, 나는 응용 과학의 "실제"에있는 것들이 덜 구조화되어 있다고 생각하는 경향이 있으며, 직접 탄젠트가 보통이라고 가정합니다.
Antoni Parellada

1
내가 언급하지 않은 것은 정규 분포의 경우 역사의 다른 부분입니다. 중앙 한계의 정리에 명시된 바와 같이 iid 임의 변수의 합계 표준화의 한계 분포입니다. 변수가 브라운 운동의 추론에서와 같이 많은 iid 랜덤 변수의 합이라고 말할 수 있다면, 그것은 정상적인 랜덤 변수라고 말할 수 있습니다. 그것이 내가 아는 유일한 유효한 지름길입니다. 원하는 경우 답변에 포함시킬 수 있습니다.
toneloy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.