응용 통계 과정에서 첨도를 가르쳐야합니까? 그렇다면 어떻게?


17

중앙 경향, 확산 및 왜도는 적어도 직관적 인 기준으로 비교적 잘 정의 될 수 있습니다. 이러한 것들에 대한 표준 수학적 측정은 또한 우리의 직관적 인 개념과 비교적 잘 일치합니다. 그러나 첨도는 다른 것 같습니다. 매우 혼란스럽고 분포 모양에 대한 직감과 잘 맞지 않습니다.

적용된 설정에서 첨도에 대한 일반적인 설명은 Microsoft Excel 사용하여 비즈니스 및 관리에 대한 Applied 통계 에서 추출한 것입니다 .[1]

첨도는 분포의 정점 또는 정반대의 분포를 나타냅니다. 꼬리에 정규 분포에서 예상되는 것보다 많은 데이터 값이있는 경우 첨도는 양수입니다. 반대로 꼬리에 데이터 값이 적 으면 정규 분포에서 예상하는 것보다 첨도가 음수입니다. 네 개 이상의 데이터 값이 없으면 Excel에서이 통계를 계산할 수 없습니다.

"kurtosis"와 "excess kurtosis"(이 책에서와 같이, 다른 사람들이 후자를 부르는 것을 언급하기 위해 전자를 사용하는 것이 일반적 임)와 혼동을 제외하고, "피부"또는 "평탄도"에 대한 해석 그런 다음 꼬리에 몇 개의 데이터 항목이 있는지주의를 기울여 전환합니다. "피크"와 "꼬리"를 모두 고려해야합니다 — Kaplansky[2]1945 년에 첨도를 잘못 언급 한 많은 교과서는 꼬리를 고려하지 않고 분포의 피크가 정규 분포의 피크와 비교되는 것과 관련이 있다고 잘못 주장했다. 그러나 피크와 꼬리의 모양을 명확하게 고려해야하는 경우 직관을 이해하기가 더 어려워집니다. 위에서 인용 한 추출물은 마치 마치 마치 마치 같은 개념 인 것처럼 꼬리의 정점에서 무거움으로 분리하여 건너 뜁니다.

더욱이 첨도에 대한이 고전적인 "피크 앤 테일"설명은 대칭 및 단봉 분포에 대해서만 잘 작동합니다 (실제로 텍스트의 그림은 모두 대칭입니다). 그러나 "피크", "꼬리"또는 "어깨"와 관련하여 첨도를 해석하는 "올바른"일반적인 방법은 수십 년 동안 논쟁의 여지가 있습니다. [2][][4][5][6]

더 엄격한 접근 방식을 취했을 때 모순이나 반례에 맞지 않는 적용 환경에서 첨도를 가르치는 직관적 인 방법이 있습니까? 수학 통계 수업과 달리 이러한 종류의 응용 데이터 분석 과정에서 첨도도 유용한 개념일까요? 분포의 "피크 니스"가 직관적으로 유용한 개념이라면, 대신 L- 모멘트 가르쳐야 합니까?[7]

[1] Herkenhoff, L. 및 Fogli, J. (2013). Microsoft Excel을 사용한 비즈니스 및 관리에 대한 통계를 적용했습니다 . 뉴욕, 뉴욕 : 스프링거.

[2] Kaplansky, I. (1945). "첨도 관련 일반적인 오류". 미국 통계 협회 저널 , 40 (230) : 259.

[] Darlington, Richard B (1970). "Kertosis는 정말 '피크 니스'입니까?" 미국 통계 학자 24 (2) : 19–22

[4] JJA 무 어스. (1986) "첨도의 의미 : 달링턴 재검토". 미국 통계 학자 40 (4) : 283–284

[5] Balanda 케빈 P. 및 MacGillivray, HL (1988). " Kutosis : 중요한 검토". 미국 통계 학자 42 (2) : 111–119

[6] LT (DeCarlo, LT) (1997). " 첨도의 의미와 사용에 ". 심리학 적 방법 , 2 (3), 292. 시카고

[7] JRM Hosking (1992). "모멘트 또는 L 모멘트? 분포 형태의 두 측정 값을 비교하는 예". 미국 통계 학자 46 (3) : 186–189


2
일반적인 커리큘럼은 무엇을 의미합니까? 즉, 어느 수준의 교육.
메오

5
첨도에 대해 정확히 무엇을 가르치고 있습니까? 이 질문은 그대로 모호합니다. 현재 커리큘럼에 어떻게 적용되는지, 그리고 첨도에 모순되는 표준 측정의 직관적 인 예를 작성하십시오.
John

3
첨도의 모멘트 측정이 실제로 그 점에서 모멘트 왜곡과 크게 다르지 않다고 생각합니다. 두 경우 모두 그들은 사람들이 생각하는 것을 실제로 반영하지 않으며, 사람들이 자신에 대해 이야기하는 것보다 직관적이지 않습니다. 첨도에 관한 모든 놀라운 반례에 대해, 왜도에 대한 또 하나가 있습니다. 나는 그것들 중 하나를 제거하지는 않겠지 만, 나는 순간 측정에 대한 강조를 줄이고, 나중에 그것들을 옮기고 그들이 가르치는 방식을 바꾸어 다른 개념을 혼동하지 않으며 우리는 그렇지 않습니다. 유지하지 않는 주장을합니다.
Glen_b-복지 주 모니카

3
더 높은 왜도 왜도 방향으로 더 무거운 꼬리를 의미 하지 않습니다 . 제로 왜곡은 대칭을 의미하지 않습니다 (모든 홀수 모멘트는 대칭을 의미하지도 않습니다). 대칭은 왜도 0을 의미하지 않습니다. 어떤 직관이 남아 있습니까?
Glen_b-복지 주 모니카

3
다음 은 흥미로운 예제 클래스가있는 몇 가지 토론이있는 또 다른 답변입니다. 다른 사람들이 있지만 지금은 볼 수 없습니다. whuber의 일부 게시물도 유용합니다.
Glen_b-복지 주 모니카

답변:


18

첨도는 정말 간단하고 유용합니다. 그것은 단순히 특이 치 또는 꼬리의 척도입니다. 그것은 피크와 아무 관련이 없습니다. 그 정의는 포기해야합니다.

다음은 데이터 세트입니다 :
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

'999'는 특이 치입니다.

데이터 세트 의 값 은 다음과 같습니다 .4

0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98

특이 치 만이 0과 눈에 띄게 다른 를 제공합니다 .z4

이 값 의 평균은 경험적 분포의 첨도입니다 (원하는 경우 3을 뺍니다. 제가 만드는 시점에 상관 없습니다).z4

이 계산에서 "피크"근처의 데이터 (이상 치가 아닌 데이터)는 첨도 통계에 거의 영향을 미치지 않습니다.

첨도는 특이 치의 척도로 유용합니다. 특이 치는 초등학생에게 중요하므로 첨도를 가르쳐야합니다. 그러나 첨도는 뾰족하거나, 편평하거나, 바이 모달이든 무한이든, 피크와 거의 관련이 없습니다. 작은 첨도를 가진 위의 모든 것과 큰 첨도를 가진 위의 모든 것을 가질 수 있습니다. 그래서이해야 결코 그 잘못된 정보를 가르 칠 것이기 때문에, 피크와 아무 필요로 표시되지 않습니다. 또한 머티리얼을 불필요하게 혼란스럽게 만들고 유용하게 보이지 않습니다.

요약:

  1. 첨도는 꼬리 (이상치)의 척도로 유용합니다.
  2. 첨도는 피크와 관련이 없습니다.
  3. 첨도는 실질적으로 유용하며 특이 치의 척도로만 가르쳐야합니다. 첨도를 가르 칠 때 최고점을 언급하지 마십시오.

이 기사에서는 왜 "피크 니스"정의가 공식적으로 죽었는지 명확하게 설명합니다.

웨스트 폴, PH (2014). " 정점으로서의 첨도, 1905 – 2014. RIP " 미국 통계 학자 , 68 (3), 191–195.


4
CV에 오신 것을 환영합니다. 앞으로 더 많은 기여를하고 싶습니다. 논문에 대한 링크를 포함하도록 게시물을 편집하고 수학 표기법 중 일부를 다시 포맷했습니다. ( $예를 들어 수학을 배치 $z^4$하면 를 사용할 수 있습니다 .)LATEX
Silverfish

6

질문이 다소 모호하지만 흥미 롭습니다. 첨도는 어느 수준에서 가르치는가? 나는 (오래 전에 Seber의 책의 첫 번째 판을 기반으로) 선형 모델의 (마스터 레벨) 과정에서 언급 된 것을 기억합니다. 중요한 주제는 아니지만, 메모리에서 정확한 수준이 무증상으로 동일한 첨도를 갖는 것에 따라 변이의 동등성에 대한 우도 비율 검정 (F- 검정)의 견고성을 연구하는 것과 같은 주제에 들어갑니다. 정규 분포는 가정하기에 너무 많습니다! 우리는 Oja의 http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents 논문을 보았습니다. 왜냐하면 왜도, 첨도 및 실제로 측정되는지 확인하려고합니다.

왜이게 흥미로울까요? 나는 라틴 아메리카에서 가르치고 있기 때문에, 중요한 주제로 왜도 및 첨도를 가르치고 대학원생 (경제에서 많은 사람들)에게 첨도가 분포의 형태의 나쁜 척도라고 말하려고합니다 (주로 네 번째 거듭 제곱의 표본 변동성이 간단하기 때문에), 어려웠습니다. 대신 QQplots를 사용하려고했습니다. 따라서 일부 주석가에게, 예, 이것은 아마도 많은 곳에서 가르칩니다 !

그건 그렇고, 이것은 내 의견만이 아닙니다. 다음 블로그 게시물 https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics 에는이 인용이 포함되어 있습니다 (휠러 박사에 의한).

요컨대, 왜도 및 첨도는 실질적으로 가치가 없습니다. Shewhart는 그의 첫 번째 책에서 이러한 관찰을했습니다. 왜도 및 첨도에 대한 통계는 단순히 위치 및 분산 측정에 의해 제공된 것 이상의 유용한 정보를 제공하지 않습니다.

우리는 분포 형태를 연구하는 더 나은 기술을 가르쳐야합니다! QQplots (또는 상대 분포도)와 같은 누군가 수치 측정이 필요한 경우 L- 모멘트를 기반으로하는 측정이 더 좋습니다. JRM Hosking의 "J-Statist Soc B (1990) 52, No 1, pp 105--124"에서 발췌 한 한 구절을 인용하겠습니다. "L- 모멘트 : 주문 통계의 선형 조합을 사용한 분포 분석 및 추정", 페이지 109 :

L- 모멘트에 대한 이러한 해석의 대안 적 정당화는 Oja (1981)의 연구에 근거 할 수 있으며, Oja는 실제 라인의 하나의 확률 분포에 대해 직관적으로 합리적인 기준을 정의하여 오른쪽으로 더 먼 곳에 위치하도록합니다 (더 많이 분산되어 있고 더 많이 기울입니다) 첨도)보다. 이러한 기준에 의해 암시 된 분포의 부분적 순서를 유지하는 분포의 실제 가치 기능은 합리적으로 '위치 측정 (분산, 왜도, 첨도)'이라고 할 수 있습니다. Oja의 표기법 인 및 에서 및 는 각각 위치 및 척도의 측정 값 인 Oja의 작업에서 바로 집니다. Hosking (1989)은λ1λ2μ(F)12σ1(F)τ3및 는 오자 기준에 의해 각각 왜도 및 첨도의 척도이다.τ4

(현재로서는이 측정 값의 정의에 대한 논문을 참조하며 모두 L- 모멘트를 기반으로합니다.) 흥미로운 점은 네 번째 순간을 기준으로 한 전통적인 첨도 측정은 첨도의 측정 이 아니라는 것입니다 오자의 의미에서! (그 주장을 찾을 수있을 때 해당 주장에 대한 참조를 편집 할 것입니다).


1
분포 특성을 이해하기 위해 그래픽 및 기타 기술을 사용하는 데 아무런 문제가 없지만 "왜곡과 첨도는 실제로 가치가 없다"는 진술은 과장된 것입니다. 둘 다 모든 종류의 통계적 추론에 큰 영향을 미칩니다.
피터 웨스트 폴

@ 피터 아마도 그 진술에서 "임시적 첨도"를 의미했을 것입니다.
kjetil b halvorsen

1
그럼에도 불구하고 경험적 첨도는 데이터에 특이한 문제가있을 때 알려줍니다. 그래서 나는 아직도 "왜율과 첨도는 실제로 쓸모가 없다"라는 의견은 과장된 것이라고 생각합니다. 물론, 특히 표본 크기가 작은 경우 "인구"매개 변수의 추정치가 크지 않을 수도 있지만 "실제적으로 가치가없는"것은 확장입니다. 모집단 모수를 특히 잘 추정하지 않더라도 기존 데이터 세트에 대한 유용한 설명 정보를 제공합니다. 물론 qq 플롯과 같은 그래픽보기로 보충해야하는 정보입니다.
피터 웨스트 폴

@Peter Westfall : 실제 Q는 경험적 첨도가 특이 치 문제를 탐지하기위한 최상의 척도이거나 더 나은 것이있을 수 있습니다.
kjetil b halvorsen

경험적 첨도는 개별 특이 치가 아닌 데이터 세트의 특이 치 특성을 측정합니다. 나는 첨도 = 3 (정상과 같음)이 "이상 값 없음"을 의미한다고 말하지는 않겠지 만, 그런 경우에는 특이 값 (평균 z- 값으로 측정 할 때 각각 네 번째로 가져옴)을 의미한다고 말하고 싶습니다. power)는 정규 분포와 비슷합니다. 반면에 거대한 첨도는 분명히 특이한 문제를 나타냅니다. 그렇습니다. 정상적인 QQ 플롯은 더 정교한 진단에 더 좋습니다. BTW, 정상 qq 플롯 및 초과 첨도는 확실한 수학적 연관성을 가지고 있습니다.
피터 웨스트 폴

3

필자의 의견에 따르면, 왜도 계수는 용어를 긍정적으로 왜곡하고 부정적으로 왜곡하는 데 유용합니다. 그러나 목표가 정상을 평가하는 것이라면 그것이 멈추는 곳입니다. 왜도 및 첨도에 대한 고전적인 측정은 종종 정상에서 벗어난 다양한 유형의 편차를 포착하지 못합니다. 나는 보통 학생들에게 그래픽 기술을 사용하여 qq-plot 또는 normal 확률 도와 같은 정규성을 평가하는 것이 합리적이라고 평가하도록 옹호합니다. 또한 적절한 크기의 샘플로 히스토그램을 사용할 수도 있습니다. 상자 그림은 특이 치나 두꺼운 꼬리를 식별하는 데에도 유용합니다.

이것은 APA의 1999 년 태스크 포스 권고안과 일치한다 :

" 가정. 데이터를 감안할 때 분석에 필요한 기본 가정이 합리적이되도록 노력해야합니다. 잔차를주의 깊게 검사하십시오. 잔차를 그래픽으로 검사하는 대신에 분포 테스트 및 모양의 통계 지수 (예 : 왜도, 첨도)를 사용하지 마십시오. 모형 적합의 문제를 진단하기 위해 통계 테스트를 사용하면 몇 가지 단점이 있습니다. 첫째, 요약 통계 (예 : 분산 동질성 검정)를 기반으로하는 진단 유의성 검정은 비실용적으로 민감한 경우가 많습니다. 모델의 통계 검정은 종종 가정의 통계 검정보다 강력합니다. 둘째, 왜도 및 첨도와 같은 통계는 종종 잔차의 분포 불규칙성을 감지하지 못합니다. 셋째, 통계 테스트는 표본 크기에 따라 다르며 표본 크기가 증가함에 따라 테스트는 종종 무해한 가정을 거부합니다. 일반적으로, 가정의 그래픽 분석을 대신 할 수는 없습니다."

참조 : Wilkinson, L. 및 통계적 추론에 관한 태스크 포스. (1999). 심리학 저널의 통계적 방법 : 지침 및 설명. 미국 심리학자, 54, 594-604.


1

코스가 어떻게 적용되는지에 따라 추정의 정확성에 대한 문제가 생길 수 있습니다. 분산 추정의 정확도는 첨도에 크게 좌우됩니다. 이것이 발생하는 이유는 높은 첨도를 통해 분포가 희귀하고 잠재적으로 관찰 가능한 데이터를 허용하기 때문입니다. 따라서 데이터 생성 프로세스는 일부 샘플에서는 매우 극단적 인 값을 생성하고 다른 샘플에서는 극단적 인 값을 생성하지 않습니다. 전자의 경우 분산 추정치가 매우 크며 후자의 경우 분산 추정치가 작습니다.

구식이고 부정확 한 "피크 니스"해석이 제거되고 대신에 특이 치 (즉, 희귀하고 극단적 인 관찰 가능)에 초점을 둔 경우 입문 과정에서 첨도를 가르치는 것이 더 쉬울 것입니다. 그러나 사람들은 자신의 교과서에 (부정확하게) 그렇게 표현되어 있기 때문에 "말하기"를 정당화하려고하는 매듭으로 자신을 꼬아 서 첨도의 실제 적용을 그리워합니다. 이러한 응용 프로그램은 주로 특이 치와 관련이 있으며 물론 응용 통계 과정에서는 특이 치가 중요합니다.


1
이 글에서 가장 많이 답한 답변의 저자와 동일한 Peter Westfall입니까? 그렇다면 프로필을 병합 한 다음 다른 답변을 게시하는 대신 이전 답변을 직접 편집 할 수 있습니다.
amoeba는 Reinstate Monica가

1
네티켓이 없어서 죄송합니다.
피터 웨스트 폴

-1

커트[엑스]=이자형[(엑스μσ)4]=μ4σ4=E[(Xμ)4](E[(Xμ)2])2,

1ni=1nμ,σ2,μ4μσ2


1
문제는 일단 첨도에 걸리면 의미가 무엇인지 (직관이 있다면) 매우 직관적이지 않다는 것입니다. 유용한 분포 품질과 일치하지 않습니다.
Peter Flom-Monica Monica 복원

예, 첨도는 매우 유용한 분포 품질과 일치합니다. 이는 테일 웨이트 (이상치)의 척도입니다. (예) 첨도는 E (Z ^ 4 * I (| Z |> 1))과 E (Z ^ 4 * I (| Z |> 1)) + 1 사이에 있습니다. 유한 분포를 갖는 모든 분포에 대해 (ii) Z ^ 2의 밀도가 (0,1)에서 감소하는 연속 분포의 서브 클래스의 경우 첨도는 E (Z ^ 4 * I (| Z |> 1))과 E (Z ^ 4 * 사이입니다. 첨도가 무한대 인 경향이있는 분포의 순서에 대해 I (| Z |> 1)) + .5 및 (iii), E (Z ^ 4 * I (| Z |> b)) / kurtosis-> 1 모든 실제 b.
피터 웨스트 폴
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.