작업을 완료하기 위해 14 개의 개별 시간으로 구성된 작은 데이터 세트가 있습니다. 그러나 데이터를 그래프로 표시하는 데 사용할 적절한 그래프를 찾는 데 어려움이 있습니다. 샘플이 더 큰 경우 상자 그림이나 히스토그램을 사용하지만 샘플이 너무 작은 경우이 경우에 사용하는 것이 적합한 지 확실하지 않습니다.
업데이트 : 시간은 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2입니다.
작업을 완료하기 위해 14 개의 개별 시간으로 구성된 작은 데이터 세트가 있습니다. 그러나 데이터를 그래프로 표시하는 데 사용할 적절한 그래프를 찾는 데 어려움이 있습니다. 샘플이 더 큰 경우 상자 그림이나 히스토그램을 사용하지만 샘플이 너무 작은 경우이 경우에 사용하는 것이 적합한 지 확실하지 않습니다.
업데이트 : 시간은 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2입니다.
답변:
여기서의 기본 원칙은 모든 개별 가치를 보여줄 수 있고 보여야한다는 것입니다. 디테일이 명백히 흥미 롭거나 유용하지 않더라도, 디테일을 보여주지 않거나 독자가 막대가 단지 하나 또는 두 개의 값을 나타낼 수있는 히스토그램을 디코딩 (예)하도록 강요 할 이유가 없습니다.
나는 여기에 작은 합성물을 제공합니다. 왼쪽 상단은 점 또는 스트립 플롯 (적어도 20 개의 다른 이름이 동일한 아이디어에 사용됨)으로 수평으로 표시되고 오른쪽 상단에는 동일한 아이디어가 수직으로 표시됩니다. 동일한 값의 인스턴스는 스태킹으로 일치합니다.
아래에는 Parzen의 의미에서 Quancit-box 플롯이 있는데, 여기에서 암묵적 수평 스케일은 누적 확률 (공통 용어로 플로팅 위치)이며 기존의 중앙값 및 사 분위수 상자는 원칙적으로 절반입니다. 값은 항상 광고 된대로 상자 안에 있고 값은 절반입니다. 여기의 추가 수평선은 평균을 나타냅니다. 어떤 사람들은 상자 점에 여분의 점이나 마커 심볼로 수단을 추가합니다. 데이터 자체를 표시하는 것과 충돌 할 수 있으며 추가 줄을 선호합니다. 중앙값에 대한 선과 평균에 대한 선이 일치하는 것처럼 보이면 어떻게해야하는지 생각해야합니다. 거의 항상 평균과 중앙값이 눈에 띄게 다릅니다.
아마도 측정 단위를 그래프에 명시 적으로 나타내는 것이 표준이지만, 그것이 무엇인지는 알 수 없습니다.
(그래서 여기에 의도적으로 추가 포인트를 넣었습니다. 그래프는 매우 작지만 여전히 유익합니다. 실제로, 실제로는 작게 만들지 않습니다.)
편집하다:
Parzen의 의미에서 Quantile-Box 플롯에 추가 된 상호 참조 (아래의 두 번째 참조 : "Quanttile-Box 플롯"의 다른 용도가 존재 함)
0이 많은 비모수 데이터 간의 차이를 어떻게 측정 할 수 있습니까?
상자 그림을 사용하여 다른 조건에서 값이 올 가능성이 높은 지점을 찾는 방법은 무엇입니까?
Mann-Whitney U Test를 사용하여 어떤 실험이 더 잘 수행되고 있는지 어떻게 알 수 있습니까?
Shera, DM 1991. 데이터 표현을 향상시키기 위해 Quantile 플롯을 사용하는 경우가 있습니다. 컴퓨팅 과학 및 통계 23 : 50-53.
Militký, J. 및 M. Meloun. 일 변량 탐색 데이터 분석을위한 일부 그래픽 지원. Analytica Chimica Acta 277 : 215-221.
Meloun, M. 및 J. Militký. 1994. 분석 화학 분석에서 컴퓨터 보조 데이터 처리. I. 일 변량 데이터의 탐색 적 분석. 화학 논문 48 : 151-157.
편집 2 :
이 스레드의 주요 요점은 즉각적인 질문에 대답하는 것이 아니라 다른 사람들이 관심을 가질 수있는 매우 유사한 질문을 다루는 것입니다.
다른 답변의 다른 그래프 디자인에는 식별자가 표시되며 다른 세부 사항이 없으면 1 ... 14로 표시됩니다. 이러한 식별자와 다른 식별자가 해석에 사용되었다고 가정하면 간단한 클리블랜드 도트 차트를 보여줍니다. 여기에는 식별자 순서가 문자 그대로 (왼쪽) 존중되고 값이 정렬되는 (오른쪽) 몇 가지 가능성이 있습니다. 필요한 경우 더 긴 라벨을 넣을 공간이 충분합니다.
막 대형 차트에 비해이 디자인의 장점은 응답 또는 결과 축이 더 나은 선택으로 보일 경우 0이 아닌 값에서 시작할 수 있다는 것입니다.
응답 축이 수직이되도록 차트를 회전시키는 것도 쉽게 상상할 수 있습니다.
@Nick Cox는 이미 몇 가지 좋은 예를 제시했습니다. 점점이 약간 겹쳐 지거나 약간 흔들리는 상자 그림은 다소 자주 사용하는 두 가지 옵션입니다.
R 코드로
times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')
boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')
편집 : 원하는 경우 바이올린 플롯을 사용할 수도 있습니다
ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()
귀하의 질문은이 블로그 게시물에 설명 된 기술을 상기시켜주었습니다 . 개별 이벤트의 시각화에 관한 것입니다.
핵심 트릭은 the time before an event
x 를 플로팅하는 것 the time after an event
입니다.
우연히 발생할 수 있지만 맨 위 중간 영역에는 데이터가 없습니다. 그래서 어떤 구조가 보입니다.
빠르고 더러운 R
코드.
data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event" )
for (i in 1:12) {
text(x[i],y[i], i)
}
text
는 벡터 인수를 취합니다- text(x, y, 1:12)
작동해야합니다.
시간을 사용하고 있기 때문에 또 다른 아이디어.
극좌표가있는 막대 그래프 인 경마장 플롯은 스톱워치와 동일한 효과를 제공합니다.
이상적으로는 관측 레이블이 막대 또는 적어도 다른 쪽 끝에 겹쳐져 있습니다. 현재 시청자는 비교할 때 어떤 관찰이 어떤 (위 / 아래) 추적되는지에 대한 추가 부담이 있습니다.