t- 검정을 수행하기 위해 Excel을 사용하여 정규 분포를 확인하는 방법은 무엇입니까?


21

t-test를 사용하기위한 요구 사항이 충족되는지 확인하기 위해 Excel에서 데이터 세트의 정규성을 확인하는 방법 을 알고 싶습니다 .

오른쪽 꼬리의 경우 평균 및 표준 편차를 계산하고 평균에서 1, 2 및 3 표준 편차를 더하여 범위를 만든 다음 사용 후 표준 정규 분포의 표준 68 / 95 / 99.7과 비교하는 것이 적절합니다. Excel의 norm.dist 함수는 각 표준 편차 값을 테스트합니다.

아니면 정규성을 테스트하는 더 좋은 방법이 있습니까?


답변:


15

당신은 올바른 생각을 가지고 있습니다. 이는 체계적이고 포괄적이며 비교적 간단한 계산으로 수행 할 수 있습니다. 결과 그래프를 정규 확률도 (또는 경우에 따라 PP도)라고합니다. 그것으로부터 당신은 다른 그래픽 표현, 특히 히스토그램에 나타나는 것보다 훨씬 더 자세한 내용을 볼 수 있으며, 약간의 연습만으로도 데이터를 다시 표현하는 방법을 결정하여 정상에 더 가깝게 만드는 방법을 배울 수 있습니다.

예를 들면 다음과 같습니다.

확률도를 가진 스프레드 시트

데이터는 열에 A있으며 이름은 Data입니다. 기준선을 플롯에 맞추는 데 사용되는 "힌지 순위"값을 제어 할 수 있지만 나머지는 모두 계산입니다.

이 그림은 표준 정규 분포와 독립적으로 얻은 숫자로 얻은 값과 데이터를 비교하는 산점도입니다. 점이 대각선을 따라 정렬되면 보통에 가깝습니다. 데이터 축을 따라 수평 이탈은 정규성에서 이탈 함을 나타냅니다. 이 예에서 점은 기준선에 매우 가깝습니다. 가장 큰 출발은 가장 높은 값에서 발생하며, 이는 줄의 왼쪽에서 약 단위입니다. 따라서 우리는 이러한 데이터가 정규 분포와 매우 유사하지만 약간 "가벼운"오른쪽 꼬리를 가지고 있음을 한눈에 알 수 있습니다. 이것은 t- 검정을 적용하기에 완벽하게 좋습니다.1.5

세로 축의 비교 값은 두 단계로 계산됩니다. 먼저 각 데이터 값은 데이터 의 양인 에서 까지 ( 셀 의 필드에 표시됨 ) 순위가 매겨집니다 . 이것들은 비례 적으로 에서 값으로 변환됩니다 . 사용하기에 좋은 공식은 (원산지에 대해서는 http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm 을 참조 하십시오 .) 그런 다음 함수 를 통해 표준 Normal 값으로 변환됩니다 . 이 값은 열에 나타납니다 . 오른쪽의 도표는 XY 산점도입니다.1CountF201(계급1/6)/(+2/).NormSInvNormal scoreNormal Score데이터에 대한 (일부 참조에서는이 플롯의 전치가 더 자연 스럽지만 Excel은 가장 왼쪽 열을 가로 축에 배치하고 가장 오른쪽 열을 세로 축에 배치하는 것을 선호하므로 선호하는 작업을 수행했습니다. )

스프레드 시트 : 정상 점수 계산

(보시다시피, 평균 와 표준 편차가 정규 분포에서 독립적 인 무작위 추첨으로 이러한 데이터를 시뮬레이트했습니다 . 따라서 확률도가 너무 좋아 보인다는 것은 놀라운 일이 아닙니다.) 실제로 입력 할 수식은 두 가지뿐입니다. 데이터와 일치하도록 아래쪽으로 전파됩니다. 이는 셀에 표시되며 cell 에서 계산 된 값에 의존합니다 . 그것은 음모를 제외하고는 실제로 모든 것입니다.52B2:C2CountF2

이 시트의 나머지 부분은 필요하지 않지만 플롯을 판단하는 데 도움이됩니다. 참조 선의 강력한 추정치를 제공합니다. 이것은 플롯의 왼쪽과 오른쪽에서 똑같이 두 점을 선택하고 선으로 연결하여 수행됩니다. 이 예에서,이 점들은 셀 의 에 의해 결정된 바와 같이 3 번째로 가장 낮고 3 번째로 높습니다 . 보너스로, 기울기와 절편은 각각 표준 편차와 데이터 평균의 강력한 추정치입니다.Hinge RankF3

참 조선을 플로팅하기 위해 두 개의 극점이 계산되어 플롯에 추가됩니다. 계산은 열 I:J, X및로 표시 Y됩니다.

스프레드 시트 : 기준선 계산


B 열의 공식에 대해 1을 더하고 6과 3으로 나누는 이유를 설명 하시겠습니까 (“+ 1/6”및“+ 1/3”)? 또한 Hinge Rank Cell에서 6으로 나누기로 선택한 이유가 있습니까?

@Michael 좋은 질문입니다. 은 확률 플로팅 포인트 를 설정하는 간단하고 잘 알려진 방법 중 하나 입니다. John Tukey가 그의 책 EDA 에서 이것을 추천 한 것을 기억 합니다. 힌지 순위 공식은 신비합니다. 나는 및 percentiles 에서 끝에서 똑같이 두 점을 선택한다고 설명해야합니다 . 실질적으로 보다 크고 보다 작은 승수 는 작동합니다. 은 인기가 있습니다 : 사 분위수에 해당합니다. 그래서입니다 정규 분포에 대한 1 개 SD에 해당. 1/6100×1/6100×5/601/21/40.16
우버

공식 (순위 + 1/6) / (n + 1 / 3)은 예상대로 대칭이 아닌 것 같습니다. 예를 들어 중간 관측치가 3 인 경우 순위는 2이며 이는 중간 관측치 (0.5)에 자연스럽게 보이는 것보다 0.65의 해당 백분위 수를 나타냅니다. 내가 분명한 것을 그리워 했습니까? [Tukey는 (i-1 / 3) / (n + 1 / 3)을 포함하여 다른 장소에서 몇 가지 다른 수식을 사용하는 것을 보았습니다. 귀하의 링크에있는 공식은 일반적인 (ia) / (n + 1-2a) 체계에 적합하지만 귀하가 답변에 제공 한 공식은 그렇지 않습니다]
Glen_b -Reinstate Monica

아르 자형에이+12에이
아르 자형1에이011/6(아르 자형1/6)/(+2/)에이=1/

5

Excel의 데이터 분석 툴팩을 사용하여 히스토그램을 플로팅 할 수 있습니다. 그래픽 접근법은 비정규 성 정도를 전달할 가능성이 높으며, 이는 일반적으로 가정 테스트와 관련 이 있습니다 ( 정규성에 대한 논의 참조 ).

Excel의 데이터 분석 툴팩은 설명 통계를 요청하고 "요약 통계"옵션을 선택 하면 왜도 및 첨도를 제공합니다 . 예를 들어 플러스 또는 마이너스 1을 초과하는 왜도 값은 실질적인 비정규 성의 한 형태라고 생각할 수 있습니다.

즉, t- 검정의 가정은 잔차가 정규 분포가 아니라 변수가 아니라는 것입니다. 또한, 상당히 많은 양의 비정규성에도 불구하고 p- 값이 여전히 유효하도록 상당히 강력합니다.


4

이 질문은 통계 이론에도 영향을 미칩니다. 제한된 데이터로 정규성 테스트는 의문의 여지가 있습니다 (우리 모두가 때때로 이것을 했음에도 불구하고).

대안으로 첨도 및 왜도 계수를 볼 수 있습니다. 에서 한과 샤피로 : 공학 통계 모델은 몇 가지 배경이 뒤에 197 추가 이론은 위키 백과에서 찾을 수있는 속성 베타 1과 베타 (페이지 49-42) 및 페이지의 그림 6-1 (피어슨 배포 참조)에 제공됩니다.

기본적으로 소위 속성 Beta1 및 Beta2를 계산해야합니다. Beta1 = 0 및 Beta2 = 3은 데이터 세트가 정규성에 접근 함을 나타냅니다. 이것은 거친 테스트이지만 제한된 데이터로 모든 테스트가 거친 것으로 간주 될 수 있다고 주장 할 수 있습니다.

Beta1은 모멘트 2와 3 또는 각각 분산과 왜곡 과 관련이 있습니다. Excel에서는 VAR 및 SKEW입니다. ...가 데이터 배열 인 경우 공식은 다음과 같습니다.

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2는 모멘트 2와 4 또는 각각 분산과 첨도 와 관련이 있습니다. Excel에서는 VAR 및 KURT입니다. ...가 데이터 배열 인 경우 공식은 다음과 같습니다.

Beta2 = KURT(...)/VAR(...)^2

그런 다음 각각 0과 3의 값과 비교하여 확인할 수 있습니다. 이는 다른 분포 (Pearson Distributions I, I (U), I (J), II, II (U), III, IV, V, VI, VII 포함)를 식별 할 수 있다는 이점이 있습니다. 예를 들어, Uniform, Normal, Student 's t, Beta, Gamma, Exponential 및 Log-Normal과 같이 일반적으로 사용되는 많은 분포를 다음 속성에서 나타낼 수 있습니다.

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

한 (Hahn)과 샤피로 (Shapiro) 그림 6-1.

이것은 매우 거친 테스트 (일부 문제가 있음)이지만, 더 엄격한 방법으로 가기 전에 예비 점검으로 고려할 수 있습니다.

데이터가 제한되는 Beta1 및 Beta2의 계산에는 조정 메커니즘도 있지만이 게시물을 넘어선 것입니다.


이 자료를 많이 사용하면 대규모 데이터 세트에 효과적 일 수 있으며 소규모 데이터 세트에서는 정규성 테스트가 제한적이거나 의심 스러울 수 있다는 초기 평가에 동의합니다. 그러나 왜도 및 첨도 의 변동성을 감안할 때 이러한 통계를 기반으로 기본 분포 유형을 식별하려는 노력은 훨씬 의심스럽고 확실하지 않은 것처럼 보입니다. 결과적으로,이 방법은 예비 점검으로도 (최고) 오도되지 않습니까?
whuber

1
아마도 방법을 추가로 검증하는 것이 가장 좋습니다 : Hahn과 Shapiro (위에서 언급 한 바와 같이)는 특히 표본 크기가 200보다 작은 경우주의를 기울여야한다고 권장합니다. 그리고 빈도 표와 같은 추가 검증이 권장됩니다. 적합 분포를 실제 데이터와 비교합니다. 그러나 내 견해 로는 데이터가 다양한 가능성 내에서 어디에 위치 할 수 있는지 제안 할 수 있는 유용한 방법입니다 . 약 3000보다 작은 데이터 세트에서 사용했으며 유용한 것으로 입증 된 컴퓨터 시뮬레이션 소프트웨어에 내장했습니다.
AsymLabs

3000 이상의 데이터 세트로 유용한 정보를 제공하는 방법을 볼 수 있습니다. 그러나 평균 t- 검정의 적용 가능성을 평가하기 위해 분포 테스트를 수행 할 필요가 없습니다.
whuber

내가하는 것처럼 유용한 기술로 보든 그렇지 않든간에 당신의 견해 인 것처럼 보일지라도 그럼에도 불구하고 (Pearson의) 평범한 시험 (및 Student-t application)에 대한 빠르고 오래 된 대안입니다. 이 스레드의 컨텍스트 제발 나를 잘못 이해하지 마십시오. 귀하의 우려를 인정하고 동의합니다. 그러나 우리는 사전 정보가 없으면 아주 작은 데이터 샘플에서 가우시안에서 전체 모집단을 모델링 할 수 있는지 여부를 설정하려고 시도하는 것이 어떤 방법 으로든 가장 어두워지는 것에 동의 할 것입니다. 위험한.
AsymLabs

1
맞습니다. 내가 말하고 싶은 것은 작은 표본에서 모집단이 가우시안인지 여부를 테스트하는 것이 위험하다면, 왜도 및 첨도를 사용하여 근본적인 분포가 무엇인지 식별하는 것이 적어도 위험해야한다는 것입니다! 실제로, 이러한 시도는 첨도와 같은 불안정한 통계에 의존하기 때문에 실제로 더 나빠질 것 같습니다. Pearson의 시스템은 사람들이 가능한 분포를 식별하는 데 도움이되는 강력한 가이드 일 수 있지만 히스토그램과 같은 제한된 그래픽 디스플레이보다 통찰력이 떨어집니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.