최근 SPSS와 Stata에서 제공하는 첨도 값에 차이가 있음을 깨달았습니다.
참조 http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm를
내 이해는 따라서 동일한 해석이 다를 수 있다는 것입니다.
이 문제를 해결하는 방법에 대한 조언이 있습니까?
최근 SPSS와 Stata에서 제공하는 첨도 값에 차이가 있음을 깨달았습니다.
참조 http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm를
내 이해는 따라서 동일한 해석이 다를 수 있다는 것입니다.
이 문제를 해결하는 방법에 대한 조언이 있습니까?
답변:
첨도의 세 가지 공식은 일반적으로 다른 프로그램에서 사용됩니다. 세 가지 공식 ( , G 2 및 b 2 )과이를 사용하는 프로그램을 모두 설명하겠습니다 .
제 식 많은 교과서에서 사용 된 일반적인 정의 (이 경우 제공 한 링크의 두 번째 식이다) 인 여기서mr은샘플 모멘트를나타냅니다.
정규 분포의 첨도가 0이되도록 수정 수식 -3을이 수식에 추가합니다. -3이라는 첨도가있는 첨도 수식을 초과 첨도 (제공 한 링크의 첫 번째 수식)라고합니다.
두 번째 공식 은 (SAS, SPSS 및 MS Excel에서 사용되며 제공 한 링크의 세 번째 공식입니다)
여기서 는 첫 번째 공식에 정의 된 첨도입니다.
번째 수식 (MINITAB 및 BMDP 의해 사용)한다
여기서 는 바이어스되지 않은 샘플 분산입니다 .
에서는 R
첨도은 USING 계산 될 수 kurtosis
로부터 기능 e1071
패키지 (링크 여기 ). 옵션 type
세 수식 중 하나는 계산을 위해 사용되는 판정한다 (1 = , (2) = G (2) , (3) = B (2) ).
이 두 논문은 세 가지 공식을 모두 논의하고 비교합니다 : first , second .
문제의 링크는 SAS에 대해서도 이야기합니다. 그러나 실제로 포스터 자체의 초점을 제외 하고는이 질문에서 아무것도 특정 명명 된 프로그램으로 제한하지 않습니다.
우리는 여기서 매우 다른 종류의 문제를 분리해야한다고 생각합니다. 그 중 일부는 환상적이고 일부는 진짜입니다.
보고 된 첨도 측정 값이 빼기가없는 가우스 / 정규 변수에 대해 3이고 빼기가있는 0이되도록 일부 프로그램은 3을 빼지 않습니다. 나는 사람들이 그것에 대해 의아해하는 것을 보았습니다. 차이가 정확히 2.999가 아니라 3이 아닌 것으로 나타났습니다.
일부 프로그램은 편향없이 첨도를 추정 할 수 있도록 설계된 보정 계수를 사용합니다. 이 보정 계수는 샘플 크기 이 클수록 1에 가까워 집니다. 첨도는 작은 샘플에서 어떤 식 으로든 잘 추정되지 않기 때문에 큰 문제가되지 않습니다.
따라서 수식의 작은 문제가 있습니다. # 1은 # 2보다 훨씬 더 큰 거래이지만 이해한다면 사소한 문제입니다. 조언은 분명히 사용중인 프로그램의 설명서를보고 해당 프로그램을 즉시 버릴 수있는 세부 정보를 설명하는 설명서가없는 경우입니다. 그러나 변수 (1, 2)만큼 간단한 테스트 사례는 # 1에만 의존하여 1 또는 4의 첨도를 산출합니다 (보정 계수 없음).
질문은 해석에 관해 묻지 만, 이것은 훨씬 더 개방적이고 논쟁적인 문제입니다.
주요 논의 영역에 도달하기 전에, 종종보고되었지만 거의 알려진 어려움은 첨도 추정치가 표본 크기의 함수로 제한된다는 것입니다. 나는 2010 년 뉴저지 콕스에서 리뷰를 썼습니다. 샘플 왜도 및 첨도의 한계. Stata Journal 10 (3) : 482-495. http://www.stata-journal.com/article.html?article=st0204
개요 : 샘플 왜도 및 첨도는 샘플 크기의 기능에 따라 제한됩니다. 지난 수십 년 동안 한계 또는 그 근사치가 반복적으로 재발견되었지만 그럼에도 불구하고 잘 알려지지 않은 것으로 보입니다. 이 한계는 추정에 대한 편견을 제공하며 극단적 인 경우 표본이 모 분포를 정확히 목격 할 수 없음을 의미합니다. 주요 결과는 튜토리얼 검토에 설명되어 있으며 Stata와 Mata를 사용하여 결과를 확인하고 탐색하는 방법을 보여줍니다.
이제 일반적으로 문제의 마비로 간주되는 것 :
많은 사람들이 첨도를 최고점으로 번역하지만 다른 사람들은 종종 꼬리 무게의 척도 역할을한다고 강조합니다. 실제로 두 해석은 모두 일부 배포판에 대해 합리적인 표현이 될 수 있습니다. 첨도에 대한 간단한 구두 해석이 없다는 것은 거의 불가피한 일입니다. 우리의 언어는 평균과의 제 4 거듭 제곱의 합과 제 2 거듭 제곱의 합을 비교하는 데 충분하지 않습니다.
경미하고 간과되는 고전에서 Irving Kaplansky (1945a)는 첨도에 대한 일부 토론과 일치하지 않는 다른 첨도 값과 동작을 가진 분포의 네 가지 예에 주목했습니다.
분포는 모두 평균 0과 분산 1로 대칭이며 변수 및 c = √에 대한 밀도 함수를 갖습니다. ,
첨도 (빼기 제외)는 (1) 2.75 (2) 3.125 (3) 4.5 (4) 8/3 2.667 : 가우스 또는 정규 값 3을 비교합니다. 평균 밀도는 (1) 0.423 (2)입니다. 0.387 (3) 0.470 (4) 0.366 : 0.399의 가우스 값을 비교하십시오.
이러한 밀도를 나타내는 것이 유익합니다. Stata 사용자는 kaplansky
SSC에서 내 프로그램을 다운로드 할 수 있습니다 . 밀도에 로그 스케일을 사용하면 도움이 될 수 있습니다.
전체 세부 사항을 제공하지 않으면 서,이 예들은 첨도가 낮거나 높은 첨도 또는 다른 단일 대비에 대한 명확한 해석이 있다는 간단한 이야기를 훼손합니다.
Irving Kaplansky라는 이름이 종을 울리면 현대 대수학에서 그의 작품을 알고 있기 때문일 수 있습니다. 그 (1917-2006)는 캐나다 (후반 미국) 수학자였으며, 하버드, 시카고 및 버클리에서 가르치고 연구했으며, 컬럼비아 대학의 국방위원회 응용 수학 그룹에서 전시 연도를 보냈습니다. 카플란 스키는 그룹 이론, 고리 이론, 연산자 대수 이론 및 필드 이론에 크게 기여했습니다. 그는 피아니스트이자 서정가이며 수학에 열성적이고 명료 한 설명가였습니다. Kaplansky (1943, 1945b)와 Kaplansky and Riordan (1945)의 확률 및 통계에 대한 다른 기여도 주목하십시오.
Kaplansky, I. 1943. 정규 분포의 특성. 수학 통계 연표 14 : 197-198.
카플란 스키, 1945a. 첨도에 관한 일반적인 오류. Journal, American Statistical Association 40 : 259 만 해당.
카플란 스키, 1945b. 연속 요소의 런의 점근 분포입니다. 수학 통계 연대기 16 : 200-203.
Kaplansky, I. 및 Riordan, J. 1945. 다중 매칭 및 상징적 방법에 의해 실행됩니다. 수학 통계 연대기 16 : 272-277.