작은 샘플 그래프


13

작업을 완료하기 위해 14 개의 개별 시간으로 구성된 작은 데이터 세트가 있습니다. 그러나 데이터를 그래프로 표시하는 데 사용할 적절한 그래프를 찾는 데 어려움이 있습니다. 샘플이 더 큰 경우 상자 그림이나 히스토그램을 사용하지만 샘플이 너무 작은 경우이 경우에 사용하는 것이 적합한 지 확실하지 않습니다.

업데이트 : 시간은 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2입니다.


4
사람들이 다른 솔루션을 게시하도록 독려하기위한 구체적인 예로써 관심있는 실제 데이터를 보여주는 것이 가장 좋습니다. 사전에 상자가 겹쳐진 점 또는 스트립 플롯과 양자화 플롯을 제안합니다.
Nick Cox

답변:


16

여기서의 기본 원칙은 모든 개별 가치를 보여줄 수 있고 보여야한다는 것입니다. 디테일이 명백히 흥미 롭거나 유용하지 않더라도, 디테일을 보여주지 않거나 독자가 막대가 단지 하나 또는 두 개의 값을 나타낼 수있는 히스토그램을 디코딩 (예)하도록 강요 할 이유가 없습니다.

나는 여기에 작은 합성물을 제공합니다. 왼쪽 상단은 점 또는 스트립 플롯 (적어도 20 개의 다른 이름이 동일한 아이디어에 사용됨)으로 수평으로 표시되고 오른쪽 상단에는 동일한 아이디어가 수직으로 표시됩니다. 동일한 값의 인스턴스는 스태킹으로 일치합니다.

아래에는 Parzen의 의미에서 Quancit-box 플롯이 있는데, 여기에서 암묵적 수평 스케일은 누적 확률 (공통 용어로 플로팅 위치)이며 기존의 중앙값 및 사 분위수 상자는 원칙적으로 절반입니다. 값은 항상 광고 된대로 상자 안에 있고 값은 절반입니다. 여기의 추가 수평선은 평균을 나타냅니다. 어떤 사람들은 상자 점에 여분의 점이나 마커 심볼로 수단을 추가합니다. 데이터 자체를 표시하는 것과 충돌 할 수 있으며 추가 줄을 선호합니다. 중앙값에 대한 선과 평균에 대한 선이 일치하는 것처럼 보이면 어떻게해야하는지 생각해야합니다. 거의 항상 평균과 중앙값이 눈에 띄게 다릅니다.

아마도 측정 단위를 그래프에 명시 적으로 나타내는 것이 표준이지만, 그것이 무엇인지는 알 수 없습니다.

여기에 이미지 설명을 입력하십시오

(그래서 여기에 의도적으로 추가 포인트를 넣었습니다. 그래프는 매우 작지만 여전히 유익합니다. 실제로, 실제로는 작게 만들지 않습니다.)

편집하다:

Parzen의 의미에서 Quantile-Box 플롯에 추가 된 상호 참조 (아래의 두 번째 참조 : "Quanttile-Box 플롯"의 다른 용도가 존재 함)

0이 많은 비모수 데이터 간의 차이를 어떻게 측정 할 수 있습니까?

상자 그림을 사용하여 다른 조건에서 값이 올 가능성이 높은 지점을 찾는 방법은 무엇입니까?

독립적 인 두 샘플 t- 검정을 시각화하는 방법?

Mann-Whitney U Test를 사용하여 어떤 실험이 더 잘 수행되고 있는지 어떻게 알 수 있습니까?

Shera, DM 1991. 데이터 표현을 향상시키기 위해 Quantile 플롯을 사용하는 경우가 있습니다. 컴퓨팅 과학 및 통계 23 : 50-53.

Militký, J. 및 M. Meloun. 일 변량 탐색 데이터 분석을위한 일부 그래픽 지원. Analytica Chimica Acta 277 : 215-221.

Meloun, M. 및 J. Militký. 1994. 분석 화학 분석에서 컴퓨터 보조 데이터 처리. I. 일 변량 데이터의 탐색 적 분석. 화학 논문 48 : 151-157.

편집 2 :

이 스레드의 주요 요점은 즉각적인 질문에 대답하는 것이 아니라 다른 사람들이 관심을 가질 수있는 매우 유사한 질문을 다루는 것입니다.

다른 답변의 다른 그래프 디자인에는 식별자가 표시되며 다른 세부 사항이 없으면 1 ... 14로 표시됩니다. 이러한 식별자와 다른 식별자가 해석에 사용되었다고 가정하면 간단한 클리블랜드 도트 차트를 보여줍니다. 여기에는 식별자 순서가 문자 그대로 (왼쪽) 존중되고 값이 정렬되는 (오른쪽) 몇 가지 가능성이 있습니다. 필요한 경우 더 긴 라벨을 넣을 공간이 충분합니다.

막 대형 차트에 비해이 디자인의 장점은 응답 또는 결과 축이 더 나은 선택으로 보일 경우 0이 아닌 값에서 시작할 수 있다는 것입니다.

응답 축이 수직이되도록 차트를 회전시키는 것도 쉽게 상상할 수 있습니다.

여기에 이미지 설명을 입력하십시오


(+1) 때때로 점 또는 스트립 플롯을 보았습니다. 특히 세로 방향 인 경우 "스택 된"포인트가 왼쪽 정렬이 아닌 중앙에 정렬됩니다 (즉, 세 개의 스택 포인트가있는 경우 중간 포인트는 스택되지 않은 포인트). 이것은 심미적으로 즐거운 대칭 선을 제공하지만 실제로 그것이 얼마나 유익한 지 잘 모르겠습니다. 아마도 상자를 겹쳐 놓기가 더 쉬울 것입니다. 별개의 이름이 있습니까? 그리고 피하거나 채택해야 할 조언이 있습니까?
Silverfish

1
또한 Parzen에 대한 참조를 줄 수있는 기회가 있습니까? 나는 항상이 음모를 좋아했지만 실제로 그에 대한 적절한 참조를 읽지 않았습니다.
Silverfish

@Silverfish 중심 (중심) 변형은 확실히 인기가 있고 종종 논의됩니다. 작은 문제는 내가 언급 한 것처럼 약간 선호하는 경향이있는 히스토그램 스타일과 유사한 디자인에 비해 대칭에 대한 욕구 인 것처럼 보이지만 맛과 환경의 문제입니다. 상호 참조를 추가했으며 다른 사람들을 환영합니다.
Nick Cox

3

@Nick Cox는 이미 몇 가지 좋은 예를 제시했습니다. 점점이 약간 겹쳐 지거나 약간 흔들리는 상자 그림은 다소 자주 사용하는 두 가지 옵션입니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

R 코드로

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

편집 : 원하는 경우 바이올린 플롯을 사용할 수도 있습니다

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

여기에 이미지 설명을 입력하십시오


1
답장을 보내 주셔서 대단히 감사합니다. 원래 샘플 크기로 인해 분석에서 상자 그림을 사용하는 것을 꺼 렸습니다. 그러나 다른 교과서를 보니 샘플 크기가 충분합니다.
Eamonn

1

귀하의 질문은이 블로그 게시물에 설명 된 기술을 상기시켜주었습니다 . 개별 이벤트의 시각화에 관한 것입니다.

핵심 트릭은 the time before an eventx 를 플로팅하는 것 the time after an event입니다.

귀하의 데이터가 시각화되었습니다 [1]

우연히 발생할 수 있지만 맨 위 중간 영역에는 데이터가 없습니다. 그래서 어떤 구조가 보입니다.


빠르고 더러운 R코드.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OP는 14 번의 시간을 따냈다. 나는 이것이 시리즈 가 아니라는 것을 암시한다고 읽었습니다 . 그들이 시리즈라면, 당신의 아이디어는 확실히 적절합니다.
Nick Cox

당신 말이 맞을 것입니다. 그러나 시리즈 가 아니더라도 그래프 시간 간의 종속성 보여줍니다. 분명히 축 레이블이 잘못되었습니다.
Harald Thomson

2
OP만이 데이터가 무엇인지 명확하게 알 수 있지만이 그래프가 어느 쪽도 이길 것이라고 생각하지 않습니다. 데이터가 별도의 시간이면 값이 주어진 순서에 의미가 없으면 그래프는 의미가 없습니다.
Nick Cox

fyi text는 벡터 인수를 취합니다- text(x, y, 1:12)작동해야합니다.
MichaelChirico

1

시간을 사용하고 있기 때문에 또 다른 아이디어.

극좌표가있는 막대 그래프 인 경마장 플롯은 스톱워치와 동일한 효과를 제공합니다.

경마장

이상적으로는 관측 레이블이 막대 또는 적어도 다른 쪽 끝에 겹쳐져 있습니다. 현재 시청자는 비교할 때 어떤 관찰이 어떤 (위 / 아래) 추적되는지에 대한 추가 부담이 있습니다.


2
나는 편심으로, 실제로는 완전히 왜곡 된 그래프 기법이라고 생각해야한다. 눈은 호의 길이가 아니라 그와 같이 해독 될 영역을 보지만 뇌는 회전 각 만이 유익하다는 것을 개입시키고 밑줄을 그어야한다. 허용 가능한 그래프 스타일에서 즉시 어떤 값이 다른 값보다 작거나 같거나 큰지 정확히 파악하는 것은 어려운 일입니다.
Nick Cox

그레이딩이 비정상적인 디자인이 아니라면이 디자인에서 볼 수있는 유일한 장점은 식별자 1 번에서 14 번이 바로이 디자인에 있다는 것입니다. 나는 내 자신의 답변을 편집 하여이 지점을 선택했습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.