왜도의 한 측정 단위는 평균- 피어슨의 두 번째 왜도 계수를 기반으로 합니다.
왜도의 다른 측정 값은 비율로 표현 된 상대 사 분위수 (Q3-Q2) 대 (Q2-Q1)을 기반으로합니다.
(Q3-Q2) 대 (Q2-Q1)이 대신 차이 (또는 동등하게 중간 범위 중앙값)로 표현되는 경우, IQR에 의해 치수가 (비대칭 측정에 일반적으로 필요한대로) 크기가 없도록 크기를 조정해야합니다. 여기에 ( 를 넣어서 ).u = 0.25
가장 일반적인 척도는 물론 3 차 왜도 입니다.
이 세 가지 조치가 반드시 일관된 이유는 없습니다. 그들 중 하나는 다른 두 가지와 다를 수 있습니다.
우리가 "왜도"로 간주하는 것은 다소 미끄러운 정의가 잘못된 개념입니다. 자세한 내용은 여기 를 참조 하십시오 .
정상적인 qqplot으로 데이터를 보면 :
[마지막으로 표시된 선은 패턴에서 마지막 두 점의 편차에 대해 논의하기 때문에 처음 6 점만 기준으로합니다.]
우리는 가장 작은 6 점이 거의 완벽하게 선상에 있음을 알 수 있습니다.
그런 다음 7 번째 점은 선 아래에 있고 (왼쪽 끝에서 해당하는 두 번째 점보다 상대적으로 중간에 더 가깝습니다), 8 번째 점은 위에 있습니다.
일곱 번째 요점은 마지막으로 강한 오른쪽으로 기울어 진 가벼운 왼쪽으로 기울임을 나타냅니다. 두 점 중 하나를 무시하면 왜도의 느낌이 다른 점에 의해 결정됩니다.
내가하면 한 말은 하나 또는 다른, 나는 그 "바로 스큐를"전화 싶지만 나는 또한 인상으로 인해 하나 매우 큰 포인트의 효과를 완전히이라고 지적 것이었다. 그것 없이는 그것이 정말로 비뚤어진다는 말이 없습니다. 반면에 7 포인트가 없으면 분명히 비뚤어지지 않습니다.
노출이 단일 지점에 의해 완전히 결정될 때 매우주의해야하며 한 지점을 제거하여 뒤집을 수 있습니다. 그것은 계속할 기초가 아닙니다!
나는 특이한 'outlying'을 만드는 것이 모델이라는 전제로 시작한다 (한 모델에 대한 특이 치는 다른 모델에서 꽤 일반적 일 수 있음).
지수 분포의 0.01 상위 백분위 수에 대한 관측 값이 지수 모델에 대한 것이므로 정규 0.01 (백분위 수 3.72 sds)의 0.01 상위 백분위 수 (1/10000)에 대한 관측치가 정규 모형과 동일하지 않다고 생각합니다. (자신의 확률 적분 변환으로 분포를 변환하면 각각 동일한 유니폼으로 이동합니다)
boxplot 규칙을 약간 오른쪽으로 치우친 분포에도 적용하는 문제를 보려면 지수 분포에서 큰 표본을 시뮬레이션하십시오.
예를 들어, 정규 크기에서 100 크기의 표본을 시뮬레이트하는 경우 표본 당 평균 1 개 미만의 특이 값을 나타냅니다. 지수로 계산하면 평균은 약 5입니다. 그러나 일반적인 모델과 비교하지 않으면 지수 값의 비율이 "외부"라는 실제 근거는 없습니다. 특정 상황에서 특정 형태의 특이한 규칙을 갖는 특별한 이유가있을 수 있지만, 일반적인 규칙은 없습니다.이 하위 섹션에서 시작한 것과 같은 일반적인 원칙이 있습니다. 각 모델 / 배포를 자체 조명으로 처리합니다. (모델과 관련하여 값이 비정상적이지 않은 경우 해당 상황에서 왜 특이 치라고 부릅니까?)
제목에 질문을 설정하려면 :
그것은 꽤 조잡한 도구이지만 (QQ 플롯을 보았던 이유) 박스 플롯에는 왜도 표시가 여러 개 있습니다. 최소한 점이 이상치로 표시되면 잠재적으로 (적어도) 3 가지가 있습니다.
이 샘플 (n = 100)에서 바깥 쪽 점 (녹색)은 극단을 표시하고 중앙값으로 왼쪽 비대칭을 제안합니다. 그런 다음 울타리 (파란색)는 (중간 값과 결합 할 때) 오른쪽으로 기울임을 나타냅니다. 그런 다음 경첩 (사 분위수, 갈색)은 중앙값과 결합 할 때 왼쪽 왜도를 나타냅니다.
우리가 보는 바와 같이, 그것들은 일관 될 필요가 없습니다. 중점을 두는 것은 현재 상황 (및 선호도)에 따라 다릅니다.
그러나 박스 플롯이 얼마나 조잡한 지에 대한 경고 . 데이터를 생성하는 방법에 대한 설명을 포함하여 여기 끝까지의 예제 는 동일한 상자 그림으로 4 가지 다른 분포를 제공합니다.
보시다시피 위에서 언급 한 모든 왜곡 표시기가 완벽한 대칭을 나타내는 상당히 치우친 분포가 있습니다.
-
"이것이 박스 플롯이라는 점을 감안할 때 교사가 어떤 대답을 기대 했습니까? 한 점을 특이점으로 표시합니까?"
우리는 먼저 "그 점을 제외한 왜도를 평가하거나 샘플에서 비대칭 성을 평가할 것으로 기대합니까?"라는 대답을 남겼습니다. jsk가 다른 답변에서했던 것처럼 일부는 그것을 제외하고 남은 것에서 왜도를 평가합니다. 그 접근법의 측면에 대해 논란이 있었지만 상황에 따라 잘못되었다고 말할 수는 없습니다. 일부는 그것을 포함 할 것입니다 (최소한 정규성에서 나온 규칙으로 인해 샘플의 12.5 %를 제외하는 것이 큰 단계 인 것 같습니다).
* 맨 오른쪽 꼬리를 제외하고 대칭 인 모집단 분포를 상상해보십시오 (정상이지만 오른쪽 오른쪽 꼬리는 파레토이지만 대답하지 않았습니다). 크기가 8 인 표본을 추출하면 관측치 중 7 개가 보통 부분에서 나오고 하나는 위쪽 꼬리에서 나옵니다. 이 경우 boxplot-outliers로 표시된 점을 제외하면 실제로 기울어 졌다는 점을 제외합니다! 우리가 그렇게 할 때, 그 상황에 남아있는 잘린 분포는 왼쪽으로 치우 치며, 우리의 결론은 올바른 것과 반대입니다.