상자 그림에서 왜도를 평가하는 방법?


19

이 데이터로 작성된 상자 그림을보고 왜도를 결정하는 방법 :

340, 300, 520, 340, 320, 290, 260, 330

한 책은 "하위 사 분위수가 위 사 분위수보다 중앙값에서 더 멀면 분포가 부정적으로 왜곡된다"고 말합니다. 다른 여러 출처는 거의 동일하다고 말했다.

R을 사용하여 상자 그림을 만들었습니다. 다음과 같습니다.

상자 그림

나는 그것의 것을 가지고 부정적으로 왜곡 낮은 분위수가 더 상위 분위보다 중간에서 때문에. 그러나 문제는 왜 다른 방법을 사용하여 왜도를 결정할 때입니다.

평균 (337.5)> 중앙값 (325)

이것은 데이터가 양으로 치우친 것을 나타냅니다 . 내가 뭐 놓친 거 없니?

답변:


19

왜도의 한 측정 단위는 평균- 피어슨의 두 번째 왜도 계수를 기반으로 합니다.

왜도의 다른 측정 값은 비율로 표현 된 상대 사 분위수 (Q3-Q2) 대 (Q2-Q1)을 기반으로합니다.

(Q3-Q2) 대 (Q2-Q1)이 대신 차이 (또는 동등하게 중간 범위 중앙값)로 표현되는 경우, IQR에 의해 치수가 (비대칭 측정에 일반적으로 필요한대로) 크기가 없도록 크기를 조정해야합니다. 여기에 ( 를 넣어서 ).u=0.25

가장 일반적인 척도는 물론 3 차 왜도 입니다.

이 세 가지 조치가 반드시 일관된 이유는 없습니다. 그들 중 하나는 다른 두 가지와 다를 수 있습니다.

우리가 "왜도"로 간주하는 것은 다소 미끄러운 정의가 잘못된 개념입니다. 자세한 내용은 여기 를 참조 하십시오 .

정상적인 qqplot으로 데이터를 보면 :

여기에 이미지 설명을 입력하십시오

[마지막으로 표시된 선은 패턴에서 마지막 두 점의 편차에 대해 논의하기 때문에 처음 6 점만 기준으로합니다.]

우리는 가장 작은 6 점이 거의 완벽하게 선상에 있음을 알 수 있습니다.

그런 다음 7 번째 점은 선 아래에 있고 (왼쪽 끝에서 해당하는 두 번째 점보다 상대적으로 중간에 더 가깝습니다), 8 번째 점은 위에 있습니다.

일곱 번째 요점은 마지막으로 강한 오른쪽으로 기울어 진 가벼운 왼쪽으로 기울임을 나타냅니다. 두 점 중 하나를 무시하면 왜도의 느낌이 다른 점에 의해 결정됩니다.

내가하면 말은 하나 또는 다른, 나는 그 "바로 스큐를"전화 싶지만 나는 또한 인상으로 인해 하나 매우 큰 포인트의 효과를 완전히이라고 지적 것이었다. 그것 없이는 그것이 정말로 비뚤어진다는 말이 없습니다. 반면에 7 포인트가 없으면 분명히 비뚤어지지 않습니다.

노출이 단일 지점에 의해 완전히 결정될 때 매우주의해야하며 한 지점을 제거하여 뒤집을 수 있습니다. 그것은 계속할 기초가 아닙니다!


나는 특이한 'outlying'을 만드는 것이 모델이라는 전제로 시작한다 (한 모델에 대한 특이 치는 다른 모델에서 꽤 일반적 일 수 있음).

지수 분포의 0.01 상위 백분위 수에 대한 관측 값이 지수 모델에 대한 것이므로 정규 0.01 (백분위 수 3.72 sds)의 0.01 상위 백분위 수 (1/10000)에 대한 관측치가 정규 모형과 동일하지 않다고 생각합니다. (자신의 확률 적분 변환으로 분포를 변환하면 각각 동일한 유니폼으로 이동합니다)

boxplot 규칙을 약간 오른쪽으로 치우친 분포에도 적용하는 문제를 보려면 지수 분포에서 큰 표본을 시뮬레이션하십시오.

예를 들어, 정규 크기에서 100 크기의 표본을 시뮬레이트하는 경우 표본 당 평균 1 개 미만의 특이 값을 나타냅니다. 지수로 계산하면 평균은 약 5입니다. 그러나 일반적인 모델과 비교하지 않으면 지수 값의 비율이 "외부"라는 실제 근거는 없습니다. 특정 상황에서 특정 형태의 특이한 규칙을 갖는 특별한 이유가있을 수 있지만, 일반적인 규칙은 없습니다.이 하위 섹션에서 시작한 것과 같은 일반적인 원칙이 있습니다. 각 모델 / 배포를 자체 조명으로 처리합니다. (모델과 관련하여 값이 비정상적이지 않은 경우 해당 상황에서 왜 특이 치라고 부릅니까?)


제목에 질문을 설정하려면 :

그것은 꽤 조잡한 도구이지만 (QQ 플롯을 보았던 이유) 박스 플롯에는 왜도 표시가 여러 개 있습니다. 최소한 점이 이상치로 표시되면 잠재적으로 (적어도) 3 가지가 있습니다.

여기에 이미지 설명을 입력하십시오

이 샘플 (n = 100)에서 바깥 쪽 점 (녹색)은 극단을 표시하고 중앙값으로 왼쪽 비대칭을 제안합니다. 그런 다음 울타리 (파란색)는 (중간 값과 결합 할 때) 오른쪽으로 기울임을 나타냅니다. 그런 다음 경첩 (사 분위수, 갈색)은 중앙값과 결합 할 때 왼쪽 왜도를 나타냅니다.

우리가 보는 바와 같이, 그것들은 일관 될 필요가 없습니다. 중점을 두는 것은 현재 상황 (및 선호도)에 따라 다릅니다.

그러나 박스 플롯이 얼마나 조잡한 지에 대한 경고 . 데이터를 생성하는 방법에 대한 설명을 포함하여 여기 끝까지의 예제 는 동일한 상자 그림으로 4 가지 다른 분포를 제공합니다.

여기에 이미지 설명을 입력하십시오

보시다시피 위에서 언급 한 모든 왜곡 표시기가 완벽한 대칭을 나타내는 상당히 치우친 분포가 있습니다.

-

"이것이 박스 플롯이라는 점을 감안할 때 교사가 어떤 대답을 기대 했습니까? 한 점을 특이점으로 표시합니까?"

우리는 먼저 "그 점을 제외한 왜도를 평가하거나 샘플에서 비대칭 성을 평가할 것으로 기대합니까?"라는 대답을 남겼습니다. jsk가 다른 답변에서했던 것처럼 일부는 그것을 제외하고 남은 것에서 왜도를 평가합니다. 그 접근법의 측면에 대해 논란이 있었지만 상황에 따라 잘못되었다고 말할 수는 없습니다. 일부는 그것을 포함 할 것입니다 (최소한 정규성에서 나온 규칙으로 인해 샘플의 12.5 %를 제외하는 것이 큰 단계 인 것 같습니다).

* 맨 오른쪽 꼬리를 제외하고 대칭 인 모집단 분포를 상상해보십시오 (정상이지만 오른쪽 오른쪽 꼬리는 파레토이지만 대답하지 않았습니다). 크기가 8 인 표본을 추출하면 관측치 중 7 개가 보통 부분에서 나오고 하나는 위쪽 꼬리에서 나옵니다. 이 경우 boxplot-outliers로 표시된 점을 제외하면 실제로 기울어 졌다는 점을 제외합니다! 우리가 그렇게 할 때, 그 상황에 남아있는 잘린 분포는 왼쪽으로 치우 치며, 우리의 결론은 올바른 것과 반대입니다.


1
@jsk 왜도를 측정 하려는지에 따라 다릅니다. 왜도는 외부 점 (한 방향보다 다른 방향보다 더 많은 경향이 있음)에 의해 부분적으로 결정되므로,이를 제거하면 왜도 측정 지점이 누락 될 수 있습니다. 더 자세한 토론과 분석은 업데이트 된 게시물에 있습니다. 당신이 확신하지 않는 경우, 동의하지 마십시오, 이러한 교환은 종종 가치가 있습니다.
Glen_b-복귀 모니카

1
@Glen_b 나는 당신이 취하는 자세를 확실히 존중하고 이해하지만, 이전과는 달리 특이 치를 제거한 후 비뚤어 짐을 판단하기 위해 합리적인 논쟁이 있다고 생각합니다. 특이 치를 제거한 후에도 7 차점 (260)을 제거한 후에도 분포가 여전히 부정적입니다. qqplot을 확인하거나 평균 및 중앙값을 비교 했습니까?
jsk

1
아마도 7 일을 제거한 후에는 사건이 매우 약할 수 있지만, 제거한 후에 비뚤어진 판단을 정당화 할 이유가 없습니다. 비뚤어진 측정 값은이 점에서 어떻게 보든 관계없이 단일 포인트에 의해 구동된다는 점이 잘 알려져 있지만 이상 치가 아닙니다.
jsk

1
@Glen_ b Q3 + 1.5IQR은 위 꼬리에서 특이 치를 식별하기 위해이 수준에서 가르치는 일반적인 경험 법칙입니다. 제거 여부는 또 다른 문제입니다. 평균이 더 크므로 분포가 오른쪽으로 치우친다고 주장합니까? Q1이 Q3보다 Q2에서 멀다는 사실을 무시하는 이유는 무엇입니까?
jsk

1
나는 여기에 표면 근처에있는 것을 철자하고 싶지만 : 종종 상자 그림이 너무 많이 응축되어 모든 데이터를 봐야 할 수도 있습니다.
Nick Cox

11

아니요, 당신은 아무것도 놓치지 않았습니다. 실제로 제시된 단순한 요약을 넘어 실제로보고 있습니다. 이러한 데이터는 양의 차이와 음의 차이를 띤다 ( 데이터 분포에서 어떤 형태의 비대칭 성 을 암시하는 "왜곡"의 의미 에서).

존 터키 (John Tukey)는 그의 "N- 숫자 요약 (N-number summary)"을 통해 데이터의 비대칭을 탐색하는 체계적인 방법을 설명했다. 상자 그림은 5 개의 숫자 요약으로 구성된 그래픽이므로이 분석을 수행 할 수 있습니다.


MH+HX+XTi+iTi+TiM=M+=M(Ti++Ti)/2i

이 아이디어를 상자 그림에 적용하려면 각 해당 부분 쌍의 중간 점 (중간 값 (이미 존재 함), 경첩의 중간 점 (상자의 끝, 파란색으로 표시됨) 및 극단의 중간 점을 그리면됩니다. (빨간색으로 표시).

상자 그림

이 예에서 중앙값에 비해 중간 힌지 의 낮은 값은 배치의 중간이 약간 부정적으로 왜곡 되었음을 나타냅니다 (따라서 질문에 인용 된 평가를 확인하는 동시에 배치 의 중간 으로 범위를 제한 함) ) 중 극단의 (많은) 높은 값은 배치의 꼬리 (또는 적어도 극단)가 긍정적으로 치우친 것을 나타냅니다 (그러나 면밀한 검사에서는 단일 특이 치 때문입니다). 이것은 거의 사소한 예이지만, 단일 "왜곡"통계량과 비교할 때이 해석의 상대적인 풍부함은 이미이 접근법의 기술적 인 힘을 보여줍니다.

약간의 연습만으로도 이러한 중간 통계를 그릴 필요가 없습니다. 그들이 어디에 있는지 상상하고 결과 왜곡 정보를 모든 상자 그림에서 직접 읽을 수 있습니다.


MHEDXi=1,2,3,4,5. 다음 그림의 왼쪽 그림은이 쌍으로 된 통계의 중간 점에 대한 진단 그림입니다. 가속 슬로프에서 데이터가 꼬리에 도달함에 따라 데이터가 점점 더 긍정적으로 왜곡되고 있음이 분명합니다.

그림 2

중간 및 오른쪽 그림 은 중간 수 통계 의 데이터가 아닌 데이터 의 제곱근 과 (기본 10) 로그에 대해 동일한 것을 표시합니다 . 뿌리 값의 상대적인 안정성 (상대적으로 작은 수직 범위와 중간에서 기울어 진 레벨에 주목)은 219 개의 값의이 배치가 중간 부분과 꼬리의 모든 부분에서 거의 대칭이됨을 나타냅니다. 높이가 제곱근으로 다시 표현 될 때 의 극단 . 이 결과는 제곱근의 관점에서 이러한 높이에 대한 추가 분석을 계속할 수있는 강력한 기반이됩니다.

무엇보다도,이 그림은 데이터의 비대칭성에 대해 정량적 인 것을 보여줍니다. 원래 규모에서, 데이터의 다양한 왜도를 즉시 보여줍니다 (왜곡 성을 특징 짓기 위해 단일 통계를 사용하는 유틸리티에 대한 상당한 의문을 제기 함). 제곱근 척도에서 데이터는 중간에 대해 대칭에 가깝기 때문에 간결하게 5 자리 요약으로 요약하거나 상자 그림으로 요약 할 수 있습니다. 왜도는 로그 스케일에 따라 크게 달라 지므로 로그가 이러한 데이터를 다시 표현하기에는 너무 "강하다"는 것을 나타냅니다.

상자 그림을 7, 9 및 더 많은 수의 요약으로 일반화하는 것은 간단합니다. Tukey는이를 "도식도"라고 부릅니다. 오늘날 많은 도표는 QQ 도표와 같은 대기 및 "콩 도표"및 "바이올린 도표"와 같은 상대적인 참 신성을 포함하여 유사한 목적을 제공합니다. (낮은 히스토그램도이 목적을 위해 사용 가능합니다.) 이러한 플롯의 점을 사용하여 세부적인 방식으로 비대칭 성을 평가하고 데이터를 다시 표현하는 방법에 대한 유사한 평가를 수행 할 수 있습니다.


7

중간 값보다 작거나 큰 평균은 특이 치가없는 한 기울기 방향을 결정하는 데 종종 사용되는 지름길입니다. 이 경우 분포가 부정적으로 치우 치지 만 평균값이 이상 값으로 인해 중앙값보다 큽니다.


설명합니다. 내가 읽은 책은 이것을 전혀 언급하지 않았습니다!
JerryW

다행스럽게도이 책이 평균이 어떻게 평균값보다 중앙값보다 덜 내성적인지를 언급했을 것입니다!
jsk

이 값이 음으로 치우친 지 여부는 기울기를 측정하는 방법에 따라 다릅니다.
Glen_b-복귀 모니카

그럴 수 있지. 왜도를 판단하기가 어려운 작은 데이터 세트입니다. 불행히도이 예제는 기울어
짐을

1
이와 같은 작은 데이터 세트로 인해 문제가 발생할 수 있지만 동의하는 연속 분포를 완벽하게 구성 할 수 있다는 데 동의합니다.
Glen_b-복귀 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.