상자 그림의 수염 이해하기


9

상자 그림의 수염의 해석에 관한 질문이 있습니다. 다음과 같은 내용을 읽었습니다. "사각형의 맨 위와 맨 아래에서"위스커 (whiskers) "는 0.25와 0.75 사이의 거리의 1.5 배 범위를 보여 주지만"거리 "의 의미를 완전히 이해하지는 못합니다. .

0.25와 0.75 Quantile 사이에서 항상 같은 비율의 데이터를 가지기 때문에 확률 질량을 의미 할 수는 없습니다. 그러면 아이디어는 무엇입니까?

답변:


6

75 Quantile에 해당하는 X 값에서 25에 해당하는 X 값을 뺀 거리입니다. 예를 들어, SAT 수학 시험의 경우 620은 75이고 520은 25 번째 Quantile입니다. 따라서 620 점 이상을 받으면 응시자의 75 % 이상을 달성 한 것입니다. 수염은 최대 1.5 * (620-520) 포인트 까지 연장 됩니다 .


글쎄, 그러나 수염의 길이는 상자의 양쪽에서 길이가 같을 것입니다 (반드시 그런 것은 아닙니다).
Guest555

8
+1, (약간 더) 완전한 대답은 수염이 최대 1.5 * IQR이라는 것입니다.이 간격 내에 더 이상 데이터가 없으면 수염이 짧게 멈 춥니 다. 또한 해당 지점 이외의 추가 데이터는 개별적으로 잠재적 특이 치로 표시됩니다.
gung-복직 모니카

이 작은 추가 설명으로 지금 분명합니다. 감사합니다!
Guest555

@gung의 훌륭한 지적으로 답변을 편집했습니다.
Dimitriy V. Masterov

5
@gung과 훨씬 더 완전한 대답은 수염이 항상 데이터의 기존 지점에 있다는 것입니다
hadley

4

상자 그림은 비교적 작은 데이터 집합 을 명확하게 보여주는 방식 으로 요약하기위한 것입니다.

  • 중심 가치.

  • "전형적인"값의 확산.

  • 스프레드와 관련하여 중심 값에서 너무 많이 벗어난 개별 값은 특별한주의를 위해 분류되고 별도로 (예를 들어 이름으로) 식별됩니다. 이를 "식별 된 값"이라고합니다.

이는 강력한 방식 으로 수행 되어야합니다. 즉, 데이터 값 중 하나 또는 비교적 작은 부분이 임의로 변경 될 때 상자 그림이 눈에 띄게 다르게 보이지 않아야합니다.

발명가 존 터키 (John Tukey) 가 채택한 솔루션 은 순서 통계 ( 데이터를 최저에서 최고로 정렬 된 데이터)를 체계적으로 사용하는 것입니다. 단순화를 위해 Tukey의가에 초점을 맞추고 (그는 정신적 또는 종이와 연필로 계산을 한) 중간 값 숫자의 배치의 중간 값은 다음과 같습니다. (균일 한 개수를 가진 배치의 경우 Tukey는 두 중간 값의 중간 점을 사용했습니다.) 중간 값은 기준 데이터의 최대 절반에서 변화에 대한 내성이 있으므로 강력한 통계로 탁월합니다. 그러므로:

  • 중앙 값은 모든 데이터의 평균으로 추정된다.

  • 확산은 모든 데이터가 중간 또는 이상일 - - 그리고 "아래쪽"-은 "상단부"의 중간 값 사이의 차이와 예상되는 모든 데이터를 이하 중앙값 같. 이 두 개의 중앙값을 상단 및 하단 "경첩"또는 "4 분의 1"이라고합니다. 그들은 오늘날 사 분위수 라고 불리는 것들로 대체되는 경향이 있습니다 (아마도 보편적 인 정의는 없습니다).

  • 특이 치를 스크리닝하기위한 보이지 않는 울타리 는 경첩 너머로 퍼져있는 1.5 배와 3 배 (중앙값에서 멀어짐)로 세워졌습니다.

    • "내부 울타리에 가장 가깝지만 내부에있는 각 끝의 값은 '인접'입니다."
    • 첫 번째 울타리 너머의 값을 "이상치"라고합니다.
    • 두 번째 울타리 너머의 값은 "멀리 떨어져 있습니다."

( 60 년대 의 히피 아군 을 기억할만큼 나이가 들었던 사람 은 농담을 이해할 것입니다.)

스프레드는 데이터 값의 차이이므로이 펜스는 원래 데이터와 동일한 측정 단위를 갖습니다. 이는 질문에서 "거리"의 의미입니다.

식별 할 데이터 값과 관련하여 Tukey는 다음과 같이 썼습니다.

우리는 최소한 극단적 인 가치를 식별 할 수 있으며 몇 가지를 더 잘 식별 할 수도 있습니다.

중앙값, 힌지 및 식별 된 값을 표시하는 모든 그래픽 방법은 "상자 그림"(원래 "상자 및 수염 그림")이라고합니다. 울타리는 일반적으로 묘사되어 있지 않습니다. Tukey의 디자인은 중간에 "허리"가있는 경첩을 설명하는 사각형으로 구성됩니다. 눈에 잘 띄지 않는 선과 같은 "위스커 (whisker)"는 힌지 에서 가장 안쪽으로 식별 된 값 (상자 위와 아래) 까지 바깥쪽으로 확장 됩니다. 일반적으로 가장 안쪽에 식별 된 값은 위에서 정의한 인접 값입니다.

따라서 상자 그림의 기본 모양은 수염을 가장 극단적이 아닌 데이터 값 으로 확장하고 수염 의 끝과 모든 특이 치를 포함하는 데이터를 텍스트 레이블을 통해 식별하는 것입니다. 예를 들어, Tupungatito 화산은 그림 오른쪽에 묘사 된 화산 높이 데이터에 대한 높은 인접 값입니다. 수염이 멈 춥니 다. Tupungatito와 모든 더 높은 화산은 별도로 식별됩니다.

그래야 데이터를 충실하게 표시 할 수 있으며 그래픽의 거리는 데이터 값의 차이에 비례합니다. (직접 비례에서 벗어나면 Tufte (1983) 용어에 "거짓 요인"이 도입됩니다.)

EDA의 그림

Tukey의 저서 EDA (p. 41) 의이 두 상자 그림은 구성 요소를 보여줍니다. 그는 왼쪽에있는 State 데이터 세트의 상한 및 하한에서 비 외향적 ​​값과 오른쪽의 화산 높이에 대한 하나의 낮은 비 외향적 ​​값을 식별했음을 주목할 만하다. 이것은 책에 퍼져있는 규칙판단 의 상호 작용을 보여줍니다 .

(펜스의 위치를 ​​추정 할 수 있기 때문에 식별 된 데이터가 외부에 있지 않다는 것을 알 수 있습니다. 예를 들어, 상태 높이의 경첩이 11,000과 1,000에 가까워 10,000 정도의 스프레드가 발생합니다. 1.5와 3을 곱하면 거리가 나타납니다. 따라서 보이지 않는 상단 펜스는 11,000 + 15,000 = 26,000 근처에 있어야하고 하단 펜스 (1,000-15,000)는 0보다 작아야합니다. 원거리 펜스는 11,000 + 30,000 = 41,000 및 1,000-30,000 =에 가깝습니다. -29,000.)


참고 문헌

에드워드 투 프테 양적 정보의 시각적 표시. 체셔 프레스, 1983.

터키, 존 제 2 장, EDA . 애디슨-웨슬리, 1977.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.