특이한 특이 치를 가진 상자 그림을 제시하는 방법은 무엇입니까?


17

일부 데이터를 제시하는 데 대한 지침을 사용할 수 있습니다.

이 첫 번째 줄거리는 사이토 카인 IL-10에 대한 사례-대조 비교입니다. 99 %의 데이터를 포함하도록 y 축을 수동으로 설정했습니다.

수동 Y 축 포함 IL-10

내가 수동으로 설정 한 이유는 사례 그룹에 특이 치가 있기 때문입니다. 이상 점

내 공동 작업자는 데이터 세트에서 이상치 제거를 수행하는 것을 주저합니다. 나는 괜찮지 만 오히려 그렇지 않습니다. 그것은 명백한 해결책이 될 것입니다. 그러나 모든 데이터를 유지 하고이 특이 치를 제거하지 않으려면이 상자 그림을 최적으로 표시하려면 어떻게해야합니까? 스플릿 축? 첫 번째 그래프 만 사용하고 모든 데이터를 포함하도록 구성되었다는 점에 유의해야합니까? (이 옵션은 부정직합니다.) 어떤 조언도 좋을 것입니다.


5
음모를 모두 제시하지 않습니까?
Alexis

답변:


24

이러한 데이터를 사용하면 실제로 변환 된 규모로 결과를 표시해야한다고 말하고 싶습니다. 이것이 박스 플롯을 그리는 방법보다 첫 번째로 중요하고 중요한 문제입니다.

그러나 나는 프랭크 하렐 (Frank Harrell)에게 최소한의 박스 플롯보다 더 유익한 정보를 촉구하는 데 반향을 일으켰다. 더 많은 정보를 표시 할 수있는 충분한 공간이 있습니다. 다음은 많은 예 중 하나 인 하이브리드 박스와 Quantile 플롯입니다. 데이터에서와 같이 두 그룹이 비교됩니다.

여기에 이미지 설명을 입력하십시오

이 두 점을 하나씩 가져 가서 더 말할 것입니다.

변형 된 규모

가장 간단한 경우 모든 값이 양수일 수 있으므로 먼저 로그 스케일을 사용해보십시오.

정확한 제로가있는 경우 제곱근 또는 큐브 근음 스케일은 여전히 ​​극단적 인 왜도를 개선합니다. 어떤 사람들은 0에 대처하는 방법으로 상수가 가장 일반적으로 1 인 log (value + constant)에 만족합니다.

변형 된 스케일 사용의 상자 그림에 대한 의미는 미묘합니다.

상위 사 분위수 + 1.5 IQR 또는 하위 사 분위수-1.5 IQR 이외의 모든 포인트를 개별적으로 표시하는 공통 Tukey 규칙을 사용하는 경우 이러한 제한을 변환 된 스케일에서 계산해야합니다. 즉 하지 후 원래 크기에 그 한계를 계산 바뀌는 동일.

대신 나는 여전히 수염의 끝을위한 Quantile을 선택하는 소수 관행 인 것처럼 보이는 것을지지 할 것이다. 이것의 몇 가지 장점 중 하나는 Quantile의 변환 = 변환의 Quantile이며, 대부분의 경우 그래픽 목적을 위해 충분히 가깝습니다. (작은 인쇄는 Quantile이 인접한 차수 통계 간의 선형 보간에 의해 계산 될 때마다 나타납니다.)

이 Quantile 협약은 Cleveland (1985)에 의해 상당히 두드러지게 제안되었습니다. 기록을 위해, 상자에서 사 분위수까지, 상자가 더 얇은 상자에서 바깥 쪽 옥타 테스 (12.5 및 87.5 % 포인트) 및 스트립 데이터의 스트립 도표가 (예 : Matthews (1936) 및 Grove (1956))에 의해 지리 및 기후학에 사용되었습니다. 이름 "분산도".

상자 이상의 플롯

박스 플롯은 1970 년 경 Tukey에 의해 재발 명되었으며 1977 년 그의 책에서 가장 눈에 띄게 홍보되었습니다. 그의 목적의 대부분은 비공식 탐사에서 펜과 종이를 사용하여 빠르게 그릴 수있는 그래프를 홍보하는 것이 었습니다. 또한 가능한 특이 치를 식별하는 방법을 제안하고있었습니다. 괜찮 았지만 이제는 모두 컴퓨터에 액세스 할 수 있습니다. 모든 데이터는 아니지만 최소한 더 자세히 보여주는 그래프를 그리는 것은 고통스럽지 않습니다. 상자 그림의 요약 역할은 중요하지만 흥미 롭거나 중요 할 경우를 대비하여 그래프에 미세한 구조도 표시 할 수 있습니다. (그리고 연구자들이 흥미롭지 않거나 중요하지 않다고 생각하는 것은 독자들에게 더 충격적 일 수 있습니다.)

정확히 무엇이 가장 효과가 좋은지에 대한 공손한 의견 불일치의 여지가 많지만 맨 박스 그림은 다소 과매도되어 있습니다.

Stata 사용자는 이 Statalist 게시물에서 수치를 그린 프로그램에 대해 더 많은 것을 찾을 수 있습니다 . 다른 소프트웨어를 사용하는 사람은 무언가 좋은 점이나 좋은 점을 그리는 데 어려움이 없어야합니다.

Cleveland, WS 1985. 그래프 데이터 요소. 몬트레이, 캘리포니아 : 워즈워스.

Grove, AT 1956. 나이지리아의 토양 침식. Steel, RW, Fisher, CA (Eds) 영국 열대 지대에 관한 지리학 적 수필. 런던 : George Philip, 79-111.

Matthews, HA 1936. 친숙한 인도 강우에 대한 새로운 견해. Scottish Geographical Magazine 52 : 84-97.

Tukey, JW 1977. 탐색 적 데이터 분석. 독서, MA : 애디슨-웨슬리.


1
나는 박스 플롯과 ECDF의 병치를 본 적이 없다. 정말 멋진! 두 ECDF를 별도의 패널에 오버레이하는 것에 대해 어떻게 생각하십니까?
Frank Harrell

2
@Frank Harrell 감사합니다. 오버레이도 좋은 생각입니다. 내 작업의 일부 예는 예를 들어 stata-journal.com/sjpdf.html?articlenum=gr0018 을 참조하십시오 .
Nick Cox

14

나는 틱의 훌륭한 답변에서 아무것도 빼앗아 가지 않을 것입니다. 나는 진드기와 공짜 가치가 있다고 생각하지만 몇 가지 가능성을 탐색하고 싶었습니다.

데이터가 몇 자릿수로 치우치면 로그 스케일에 대한 플롯이 종종 드러납니다. 여전히 원래 값에 눈금 표시 및 눈금 표시 레이블이있을 수 있습니다. (저는 변형과 관련된 Nick의 요점에 동의하므로 더 이상 확장하지 않겠습니다.)

변환 이외의 다른 옵션은 두 번째 플롯과 같은 작업을 수행하지만 플롯되지 않은 모든 값을 표시하는 것입니다.

  여기에 이미지 설명을 입력하십시오

그렇게 하면 특이 치를 제거 하지 않고 다르게 표시합니다.

그러나 Frank와 Nick과 함께 평범한 boxplot보다 더 유익한 디스플레이를 사용하도록 제안했습니다. Nick의 게시물에서 Quantile 플롯과 Boxplot의 조합은 특히 좋은 개념으로 보입니다. ), 옆에있는 대신 해당 상자 :

  여기에 이미지 설명을 입력하십시오

당신이 그런 일을하지 않으면 (단지 평범한 상자 그림으로 가십시오), 나는 상당히 좁은 상자를 제안합니다.


3
Quantile과 박스 플롯을 겹쳐 놓는 것도 매력적입니다. 박스 플롯은 Quantile 플롯을 축소 한 것으로 강조하지만 일부 박스 플롯은 중복으로 보일 수 있습니다. 두 그래프 간의 관계에 대한 강조는 Parzen, E. 1979를 참조하십시오. 비모수 통계 데이터 모델링. 미국 통계 협회 저널 74 : 105-121
Nick Cox

OP의 데이터 세트가 있습니까? 아니면 그래프를 긁거나 가짜입니까?
Nick Cox

2
@Nick 기본적으로 가짜입니다. 나는 극단 점을 효과적으로 긁어 냈습니다 (손으로 거의 없었습니다). 그런 다음 알려진 값 (3 사분 위와 최소 점) 사이, 3 사 분위수와 끝 사이의 3 개의 유니폼에서 샘플링하여 위 사 분위수 아래의 값을 생성했습니다 지수가있는 상단 수염의 다음 극단 점을 추가했습니다 (그래서 내 상자 그림이 비슷해 보일 것입니다). 적어도 그것은 아이디어의 요지입니다. 극단 점은 정확하지 않으므로 플롯에 인쇄 된 값은 더 비슷합니다.
Glen_b-복지 주 모니카

@Glen_b 원하는 경우 별도의 질문을 할 수 있지만 상자 플롯으로 Quantile 플롯을 오버레이하기 위해 어떤 방법을 사용 했습니까?
Tavrock

@Tavrock 내가 쓴지 2 년 반이 지났으므로 추측하고 있습니다. 분명한 것은 pointsQuantile 값을 표시 하기 위해 호출 하는 것입니다 (상자 그림 xs=sort(x); points(ppoints(xs),xs)후 줄을 따라 보이는 것처럼 보이지만 면밀히 살펴보면 점이 상자 그림 아래 에 있으므로 add = TRUE 또는 상자 그림으로 표시되었을 수 있습니다. 상자 그림 일 수도 있고, 그 다음에 점을 찍었을 수도 있습니다 ... 아마도
Glen_b-복지국 Monica

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.