데이터 분포가 대칭인지 확인하는 방법


23

중간 값과 평균이 거의 같으면 대칭 분포가 있음을 의미하지만이 특별한 경우 확실하지 않습니다. 평균과 중앙값은 상당히 가깝고 (0.487m / 갤런 차이) 대칭 분포가 있다고 말하지만 박스 플롯을 보면 약간 긍정적으로 치우친 것처럼 보입니다 (확인 된 중앙값은 Q3보다 Q1에 가깝습니다) 값으로).

(이 소프트웨어에 대한 특정 조언이 있으면 Minitab을 사용하고 있습니다.)


세부 사항에 대한 직교 주석 : m / gall은 무엇입니까? 그것은 갤런 당 미터처럼 보이고, 나는 흥미 롭습니다.
Nick Cox

상자 그림에 일반적으로 수단이 전혀 표시되지 않는다는 것은 심각한 제한 사항입니다!
닉 콕스

데이터의 표준 편차는 무엇입니까? 0.487m / gall의 값이 표준 편차보다 훨씬 작 으면 분포가 대칭 일 수 있다고 생각할만한 이유가있을 수 있습니다. 해당 값이 표준 편차 (또는 MAD 또는보고있는 편차 측정 값)보다 훨씬 큰 경우 분포의 대칭성을 더 검사하는 것이 시간 손실입니다.
usεr11852는 Reinstate Monic

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100 은 의도적으로 대칭이 아니고 (하반부에는 균일하지 않지만 상반부는 아님) 상자 그림은 중앙값 (평균과 같음)을 하 분위보다 상위 사 분위수에 가깝게하지만 최대 값보다 최소에 가깝게합니다.
Henry

@NickCox 또한이 될 수 milligal 오타. 그것은 거의 500 갈 것입니다! 또는 g 미만 . (물론 위에서 언급 한 것처럼 MAD와 같은 분산 규모가 없으면 "중요한"것이 무엇인지 알 수있는 방법이 없습니다.)(10) - 4μ104
GeoMatt22

답변:


29

의심 할 여지없이 당신은 다른 말을 들었지만, 평균 중앙값은 대칭을 의미 하지 않습니다 .=

평균 마이너스 중앙값 (두 번째 피어슨 왜도)을 기준으로 왜도 측정이 있지만 분포가 대칭이 아닌 경우 (일반적인 왜도 측정과 같이) 0이 될 수 있습니다.

마찬가지로, 평균과 중앙값 사이의 관계가 중간 힌지 ( )와 중앙값 사이의 유사한 관계를 의미하지는 않습니다 . 반대의 왜도를 제안하거나 하나는 중앙값과 같지만 다른 하나는 그렇지 않습니다.(1+)/2

대칭을 조사하는 한 가지 방법은 대칭 플롯 *을 사용하는 것입니다.

만약 최소에서 최대까지 정렬 관측 (순서 통계)이고, , 다음 대칭 플롯 플롯 중간 인 vs , vs 등. M Y ( N ) - M M - Y ( 1 ) Y ( N - 1 ) - M M - Y ( 2 )와이(1),와이(2),...,와이()와이()MY(1)와이(1)와이(2)

* Minitab은이를 수행 할 수 있습니다 . 실제로이 도표를 Minitab에서 수행 한 것을 보았으므로이 도표를 가능성으로 제기합니다.

다음은 네 가지 예입니다.

대칭 플롯
4 개의 분포에서 추출한 표본에 대한 위 유형의 대칭 도표

(실제 분포는 (왼쪽에서 오른쪽, 맨 위 행)-Laplace, Gamma (모양 = 0.8), beta (2,2) 및 beta (5,2)입니다. 코드는 여기 에서 Ross Ihaka입니다 )

두꺼운 꼬리 대칭 예제의 경우 가장 극단적 인 점이 선에서 매우 멀리 떨어져있는 경우가 종종 있습니다. 그림 오른쪽 상단 가까이에있을 때 하나 또는 두 점의 선으로부터의 거리에 덜주의를 기울입니다.

물론 다른 음모가 있습니다 (나는 특정 음모에 대한 특정 옹호의 의미가 아니라 이미 Minitab에서 구현되었음을 알았 기 때문에 대칭 음모를 언급했습니다). 그럼 다른 것들을 살펴 봅시다.

Nick Cox가 의견에서 제안한 해당 skewplots는 다음과 같습니다.

왜도
주석에서 Nick Cox가 제안한 왜곡도

이 그림에서 추세 상승은 왼쪽보다 일반적으로 오른쪽 꼬리가 무겁고, 아래쪽 경향은 오른쪽보다 일반적으로 왼쪽 꼬리가 무겁다는 것을 나타냅니다.

Nick은이 음모가 더 우수하다고 제안합니다 (특히 "직접"). 나는 동의하는 경향이있다. 플롯의 해석은 결과적으로 약간 더 쉬워 보이지만 해당 플롯의 정보는 종종 매우 유사합니다 (첫 번째 세트에서 단위 경사를 뺀 후 두 번째 세트와 매우 유사한 것을 얻습니다).

[물론, 이러한 것들 중 어느 것도 데이터가 도출 된 분포가 실제로 대칭 적이라고 말하지 않을 것입니다. 우리는 표본이 얼마나 가까운 지에 대한 지표를 얻었고, 그 정도로 데이터가 대략적으로 가까운 인구 집단으로부터 도출 된 것과 일치하는지 판단 할 수있다.]


3
@ user72943 완전히 만족한다면 돌아와서 Glen_b의 답변을 선택하는 것을 잊지 마십시오. 누군가가 더 나은 답변을 제출하는지 확인하기 위해 잠시 기다려야 할 수도 있지만 답변을 수락하면 Glen_b가 더 많은 크레딧을받습니다.
Wayne

3
+1이지만 퀴즈입니다. 여기서 대칭 플롯보다 (상위 Quantile 하위 Quantile) / 2 vs (상한 Quantile Low Quantile) 플롯이 더 직접적입니다. 원한다면 Quantile read order statistic을 위해. 참조 상황은 쌍을 이룬 양자의 평균이 모두 중앙값과 동일한 대칭 분포이므로 대칭 분포는 직선으로 표시됩니다. (예) 중간의 대략적인 대칭 및 한쪽 또는 양쪽 꼬리의 예외는 표시되어 있으므로 약간 비대칭 및 비대칭은 쉽게 발견 할 수 있습니다. +
Nick Cox

6
+1 EDA 에서 John Tukey는 단순히 일련의 중간 범위를 플로팅합니다. 이 값 은 신중하게 선택된 인덱스 시퀀스 값 (근사치 등)입니다. ). 어떤 식 으로든이 플롯은 과도한 세부 사항을 걸러 내고 꼬리가 나올 때 대칭 (또는 부족)이 어떻게 변하는 지 시청자가 초점을 맞추는 한 대칭 플롯보다 낫습니다. n 문자 요약이 준비되면 즉시 쉽고 쉽게 계산할 수 있다는 이점이 있으며 줄기와 잎 그림에서 직접 읽을 수 있습니다. I N / 2 , N / 4 , N / 8(와이(+1나는)+와이(나는))/2나는/2,/4,/8
whuber

1
@ whuber와 나는 같은 기본 아이디어에 대해 이야기하고 있습니다. 차이점은 모든 페어링 된 주문 통계를 표시하거나 (실제로 산만하지는 않음) 일부를 표시하는 것입니다.
Nick Cox

1
(SSC) 설명서의 stata-journal.com/sjpdf.html?articlenum=gr0003 및 Stata 사용자에 대한 참조 skewplot이 아이디어는 적어도 윌크 (Wilk)의 JW Tukey와 1968 년 Gnanadesikan의 R. 1968에 근거한 제안으로 거슬러 올라갑니다. 데이터 분석을위한 확률 플로팅 방법. Biometrika 55 : 1-17.
Nick Cox

6

가장 쉬운 방법은 샘플 왜도 를 계산하는 것입니다 . Minitab에는이를위한 기능이 있습니다. 대칭 분포는 왜도가 없습니다. 제로 왜곡이 반드시 대칭을 의미하는 것은 아니지만 대부분의 실제 경우에 그러합니다.

@NickCox가 지적했듯이, 왜도에 대한 정의는 둘 이상입니다. Excel과 호환되는 것을 사용 하지만 다른 것을 사용할 수 있습니다.


2
철자가 필요하다고 생각합니다. 특히, "비뚤어 짐"과 같은 것은 없습니다. 많은 측정이 있으며, 드문 경우라도 보통의 경우 (예 : L- 모멘트)만큼 유용하거나 흥미 롭습니다. 칼 피어슨 (Karl Pearson)과 20 세기 초의 많은 다른 저자들에게는 비틀림이 모드와 관련하여 가장 자주 측정되었다는 점을 표준화 된 세 번째 순간으로 평가 하려는 경향이 있습니다.
Nick Cox

비대칭을 감지 할 수있는 전력이 부족하고 (올바로 언급 한대로) 모든 왜도 계수는 세 번째 샘플 모멘트를 기반으로하기 때문에 (매우) 비 강건한 문제가 있습니다. 또한, 대칭은 많은 (그리고 흥미로운) 방식으로 위반 될 수 있기 때문에, 단일 수치 적 특성의 특성화는 탐색 적 데이터 분석 문헌에 기술 된보다 풍부한 그래픽 진단을 대체 할 수 없습니다.
whuber

1

표본 평균을 빼서 데이터를 0에 맞 춥니 다. 이제 데이터를 음수와 양수의 두 부분으로 나눕니다. 음수 데이터 포인트의 절대 값을 가져옵니다. 이제 두 파티션을 서로 비교하여 2- 표본 Kolmogorov-Smirnov 테스트를 수행하십시오. p- 값을 기반으로 결론을 내립니다.


0

관측 값을 한 열에 증가하는 값으로 정렬 한 다음 다른 열에 감소하는 값으로 정렬합니다.
그런 다음이 두 열 사이의 상관 계수 (Rm이라고 함)를 계산하십시오.
키랄 지수를 계산하십시오 : CHI = (1 + Rm) / 2.
CHI는 [0..1] 간격으로 값을 가져옵니다.
CHI는 표본이 대칭 적으로 분포되어있는 경우에만 null입니다.
세 번째 순간이 필요 없습니다.
이론 :
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(대부분의 논문은이 두 페이지에 인용 된 PDF 파일로 다운로드 할 수있다)
희망이 최근에도 도움이됩니다.


상관 관계 Rm이 반드시 음수가 아닌가? Rm이 1이 아닌 경우 CHI가 1이 될 수있는 방법을 알 수 없지만 col1이 증가하고 col2가 감소함에 따라 RM <= 0이되므로 CHI는 [0, .5]의 값을 갖습니다. 뭔가 빠졌습니까?
gung-Monica Monica 복원

예 Rm은 양수일 수 없으며 실수 라인에서 값을 취하는 랜덤 변수 분포의 경우 CHI는 1/2을 초과 할 수 없습니다. 실제로 상한 1은 키랄 지수를 소개하는 일반적인 이론에서 나옵니다. 보다 일반적인 공간에서 값을 취하는 랜덤 변수의 분포에 적합합니다. 이 이론은 현재 논의의 범위를 벗어나지 만 이전에 언급 한 두 개의 웹 페이지에 제시되어 있습니다.
Petitjean

계정을 등록 및 / 또는 병합하십시오 ( 도움말 센터내 계정 섹션 에서이 작업을 수행하는 방법에 대한 정보를 찾을 수 있음 ). 그러면 자신의 질문에 대한 편집 및 의견을 작성할 수 있습니다.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.