첨도 정의 및 해석의 차이점


10

최근 SPSS와 Stata에서 제공하는 첨도 값에 차이가 있음을 깨달았습니다.

참조 http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm를

내 이해는 따라서 동일한 해석이 다를 수 있다는 것입니다.

이 문제를 해결하는 방법에 대한 조언이 있습니까?


나는 처음 두 공식에 대해 알고 있었고 그것들을 구별하는 것은 매우 쉽습니다. 나는 그 세 번째 공식을 보지 못했습니다.
Peter Flom

답변:


9

세 가지 공식

첨도의 세 가지 공식은 일반적으로 다른 프로그램에서 사용됩니다. 세 가지 공식 ( , G 2b 2 )과이를 사용하는 프로그램을 모두 설명하겠습니다 .222

제 식 많은 교과서에서 사용 된 일반적인 정의 (이 경우 제공 한 링크의 두 번째 식이다) 인 여기서mr샘플 모멘트를나타냅니다.

2=미디엄4미디엄22
미디엄아르 자형

미디엄아르 자형=1(엑스나는엑스¯)아르 자형

정규 분포의 첨도가 0이되도록 수정 수식 -3을이 수식에 추가합니다. -3이라는 첨도가있는 첨도 수식을 초과 첨도 (제공 한 링크의 첫 번째 수식)라고합니다.

번째 공식 은 (SAS, SPSS 및 MS Excel에서 사용되며 제공 한 링크의 세 번째 공식입니다)

2=케이4케이22=1(2)()[(+1)2+6]

여기서 는 첫 번째 공식에 정의 된 첨도입니다.2

번째 수식 (MINITAB 및 BMDP 의해 사용)한다

b2=m4s43=(n1n)2m4m223

여기서 바이어스되지 않은 샘플 분산입니다 .s2

s2=1n1(xix¯)2

에서는 R첨도은 USING 계산 될 수 kurtosis로부터 기능 e1071패키지 (링크 여기 ). 옵션 type세 수식 중 하나는 계산을 위해 사용되는 판정한다 (1 = , (2) = G (2) , (3) = B (2) ).g23G2b2

이 두 논문은 세 가지 공식을 모두 논의하고 비교합니다 : first , second .

공식 간의 차이점 요약

  1. 사용하면 정규 분포는 첨도 값이 3 인 반면 수정 항 -3 (즉, G 2b 2 )을 포함하는 공식 에서 정규 분포는 초과 첨도가 0입니다.g2G2b2
  2. 정규 표본에 대해편견없는 추정치산출하는유일한 공식입니다(즉,정규상태에서 G 2 의 기대치는 0 또는 E ( G 2 ) = 0 ).G2G2E(G2)=0
  3. 들어 큰 샘플, 공식의 차이는 무시할과 선택은 매우 중요하지 않습니다.
  4. 들어 정규 분포 작은 샘플 의 측면에서 세 개의 식의 관계를 평균 제곱 오차 (MSE)가 있다 : . 따라서 g 2 가 가장 작고 G 2 가 가장 큽니다 ( G 2 만이 편향되지는 않지만 ). 이는 G 2 가 세 가지 공식 중 가장 큰 분산을 갖기 때문입니다 . Var ( b 2 ) < Varmse(g2)<mse(b2)<mse(G2)g2222 .바르(2)<바르(2)<바르(2)
  5. 들면 비 - 정규 분포의 작은 샘플 , 편향면의 3 식의 관계는 다음과 . : 평균 제곱 erorrs 측면에서 MSE ( G 2 ) < MSE ( g 2 ) < MSE ( B 2 ) . 따라서 G 2 는 가장 작은 평균 제곱 오차와 세 가지 공식의 가장 작은 치우침을 갖습니다. b 2편견(2)<편견(2)<편견(2)mse(G2)<mse(g2)<mse(b2)G2b2 평균 제곱 오차와 편차가 가장 큽니다.
  6. 들면 큰 샘플 ( ) 비는 정규 분포로부터n>200 , 바이어스 조건의 3 식의 관계는 다음과 . : 평균 제곱 erorrs 측면에서 MSE ( B 2 ) < MSE ( g 2 ) < MSE ( G 2 ) .bias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

또한 참조 위키 백과 페이지매스 월드 페이지 첨도에 대한합니다.


나는 이것을 "평범한 이야기"에 대한 훌륭하고 명확한 해석이라고 부릅니다. 나는 leptokurtic, mesokurtic, platykurtic이라는 용어는 우리가 20 세기에 남겨 두어야 할 수하물 일 뿐이라고 덧붙입니다. 더 진지하게, 정점 대 평평한 해석은 가능한 분포 형태, 심지어 모든 대칭 인 분포의 큰 변화로 정의되지 않습니다. 마지막으로, 부적절하게 작은 샘플로 연주하지 않는 한 실제로 바이어스는 많이 물지 않지만 실제로는 차이가 있습니다!
Nick Cox

요약 항목 # 2를 명확하게 설명해 주시겠습니까? 분명히 는 표본 통계량이지만 명백히 변성 분포를 제외하고는 0이 아닙니다. 아마도 당신은 그 기대치 가 0 이라고 말하려고 했습니까? (BTW, 공식에서 " γ 2 "는 무엇입니까? g 2 아마?)G2γ2g2
whuber

@ whuber : 예, 물론 대한 기대 는 0입니다. γ 2 이전 답변에서 잔존했다되어야 g (2) (지금의 변경); 내 답변을 상당히 많이 편집했습니다. G2γ22
COOLSerdash

좋아, 좋아 보인다 나는 그것을 찬성하지만 결국 "정규 분포 "이라는 문구를 제거하기를 바랍니다 . 2=0
whuber

7

문제의 링크는 SAS에 대해서도 이야기합니다. 그러나 실제로 포스터 자체의 초점을 제외 하고는이 질문에서 아무것도 특정 명명 된 프로그램으로 제한하지 않습니다.

우리는 여기서 매우 다른 종류의 문제를 분리해야한다고 생각합니다. 그 중 일부는 환상적이고 일부는 진짜입니다.

  1. 보고 된 첨도 측정 값이 빼기가없는 가우스 / 정규 변수에 대해 3이고 빼기가있는 0이되도록 일부 프로그램은 3을 빼지 않습니다. 나는 사람들이 그것에 대해 의아해하는 것을 보았습니다. 차이가 정확히 2.999가 아니라 3이 아닌 것으로 나타났습니다.

  2. 일부 프로그램은 편향없이 첨도를 추정 할 수 있도록 설계된 보정 계수를 사용합니다. 이 보정 계수는 샘플 크기 이 클수록 1에 가까워 집니다. 첨도는 작은 샘플에서 어떤 식 으로든 잘 추정되지 않기 때문에 큰 문제가되지 않습니다.

따라서 수식의 작은 문제가 있습니다. # 1은 # 2보다 훨씬 더 큰 거래이지만 이해한다면 사소한 문제입니다. 조언은 분명히 사용중인 프로그램의 설명서를보고 해당 프로그램을 즉시 버릴 수있는 세부 정보를 설명하는 설명서가없는 경우입니다. 그러나 변수 (1, 2)만큼 간단한 테스트 사례는 # 1에만 의존하여 1 또는 4의 첨도를 산출합니다 (보정 계수 없음).

질문은 해석에 관해 묻지 만, 이것은 훨씬 더 개방적이고 논쟁적인 문제입니다.

주요 논의 영역에 도달하기 전에, 종종보고되었지만 거의 알려진 어려움은 첨도 추정치가 표본 크기의 함수로 제한된다는 것입니다. 나는 2010 년 뉴저지 콕스에서 리뷰를 썼습니다. 샘플 왜도 및 첨도의 한계. Stata Journal 10 (3) : 482-495. http://www.stata-journal.com/article.html?article=st0204

개요 : 샘플 왜도 및 첨도는 샘플 크기의 기능에 따라 제한됩니다. 지난 수십 년 동안 한계 또는 그 근사치가 반복적으로 재발견되었지만 그럼에도 불구하고 잘 알려지지 않은 것으로 보입니다. 이 한계는 추정에 대한 편견을 제공하며 극단적 인 경우 표본이 모 분포를 정확히 목격 할 수 없음을 의미합니다. 주요 결과는 튜토리얼 검토에 설명되어 있으며 Stata와 Mata를 사용하여 결과를 확인하고 탐색하는 방법을 보여줍니다.

이제 일반적으로 문제의 마비로 간주되는 것 :

많은 사람들이 첨도를 최고점으로 번역하지만 다른 사람들은 종종 꼬리 무게의 척도 역할을한다고 강조합니다. 실제로 두 해석은 모두 일부 배포판에 대해 합리적인 표현이 될 수 있습니다. 첨도에 대한 간단한 구두 해석이 없다는 것은 거의 불가피한 일입니다. 우리의 언어는 평균과의 제 4 거듭 제곱의 합과 제 2 거듭 제곱의 합을 비교하는 데 충분하지 않습니다.

경미하고 간과되는 고전에서 Irving Kaplansky (1945a)는 첨도에 대한 일부 토론과 일치하지 않는 다른 첨도 값과 동작을 가진 분포의 네 가지 예에 주목했습니다.

분포는 모두 평균 0과 분산 1로 대칭이며 변수 c = √에 대한 밀도 함수를 갖습니다.엑스 ,=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4특급(엑스2))

(4)   (/16)(2+엑스2)특급(엑스2/4)

첨도 (빼기 제외)는 (1) 2.75 (2) 3.125 (3) 4.5 (4) 8/3 2.667 : 가우스 또는 정규 값 3을 비교합니다. 평균 밀도는 (1) 0.423 (2)입니다. 0.387 (3) 0.470 (4) 0.366 : 0.399의 가우스 값을 비교하십시오.

이러한 밀도를 나타내는 것이 유익합니다. Stata 사용자는 kaplanskySSC에서 내 프로그램을 다운로드 할 수 있습니다 . 밀도에 로그 스케일을 사용하면 도움이 될 수 있습니다.

전체 세부 사항을 제공하지 않으면 서,이 예들은 첨도가 낮거나 높은 첨도 또는 다른 단일 대비에 대한 명확한 해석이 있다는 간단한 이야기를 훼손합니다.

Irving Kaplansky라는 이름이 종을 울리면 현대 대수학에서 그의 작품을 알고 있기 때문일 수 있습니다. 그 (1917-2006)는 캐나다 (후반 미국) 수학자였으며, 하버드, 시카고 및 버클리에서 가르치고 연구했으며, 컬럼비아 대학의 국방위원회 응용 수학 그룹에서 전시 연도를 보냈습니다. 카플란 스키는 그룹 이론, 고리 이론, 연산자 대수 이론 및 필드 이론에 크게 기여했습니다. 그는 피아니스트이자 서정가이며 수학에 열성적이고 명료 한 설명가였습니다. Kaplansky (1943, 1945b)와 Kaplansky and Riordan (1945)의 확률 및 통계에 대한 다른 기여도 주목하십시오.

Kaplansky, I. 1943. 정규 분포의 특성. 수학 통계 연표 14 : 197-198.

카플란 스키, 1945a. 첨도에 관한 일반적인 오류. Journal, American Statistical Association 40 : 259 만 해당.

카플란 스키, 1945b. 연속 요소의 런의 점근 분포입니다. 수학 통계 연대기 16 : 200-203.

Kaplansky, I. 및 Riordan, J. 1945. 다중 매칭 및 상징적 방법에 의해 실행됩니다. 수학 통계 연대기 16 : 272-277.


1
+1 Kaplansky에 대한 흥미로운 의견은 대수 작업으로 오랫동안 익숙해졌습니다.
whuber

Nick, 귀하의 의견 "사실, 두 가지 해석 (음성 및 꼬리)은 모두 일부 배포판에 대해 합리적인 표현이 될 수 있습니다." 따라서 첨도는 "말하기"에 대해 아무 것도 알려주지 않기 때문에 잘못되었습니다. 진심으로, "말하기"의 의미를 정의 할 수 있습니까? 그리고, 내가 할 수있는 후속 조치 : "말하기"에 대한 당신의 정의 (만약 당신이 하나를 생각 해낼 수 있다고 가정 할 때)가 수학적으로 첨도와 어떤 관련이 있습니까?
피터 웨스트 폴

서부 몰락 지대 @ 피터 우리는 첨도 다음 내 인수가 높은 첨도는 것을 구체적인 곡선과 수치 결과가 아니라 언어 적 스파링, 즉 기반으로 단지 Kaplansky의 주장이다, 조치를 첨도 것입니다 동의 할 수있는 경우 가끔 위한 반대로 더 높은 최대 밀도와 이동을하고, 낮은 첨도. 나는 정점이라는 용어에 전혀 부분적인 것이 아니며, 구두로 단순화해야 할 때 실제로 첨도는 대부분 꼬리 무게의 이야기라고 주장하는 경향이 있습니다. 나는 여기의 공식이 모든 작업을 수행하고 모든 통계적 무게를 지니고 구두 논쟁이 덜 도움이된다고 생각합니다.
Nick Cox

또한, 전체 대칭 분포를 제외하고 첨도를 쉽게 특성화 할 수는 없습니다. 나는 누구도 정점을 정의 할 의무가 없다고 생각한다. 존재하는 정의는 첨도의 정의이고 실제적인 질문은 그것에 대해 어떻게 생각하고 얼마나 멀리 사용하는지입니다.
Nick Cox

"Kurtosis가 정점에 대해 아무 것도 알려주지 않기 때문에"이라는 말 자체는 확실하지 않습니다. 누락 된 참고 문헌에는 TAS로 된 논문이 포함되어 있으며 관심있는 사람들이 자신의 더 긴 토론을 고려할 수 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.