깨진 축에 대한 대안은 무엇입니까?

28

사용자는 종종 축 값을 나누어서 동일한 그래프에 다른 크기의 데이터를 표시하려고합니다 ( 여기 참조 ). 이것이 편리 할 수도 있지만 항상 데이터를 표시하는 선호되는 방법은 아닙니다 (잘못 오도 할 수 있음). 몇 자릿수가 다른 데이터를 표시하는 다른 방법은 무엇입니까?

데이터를 로그 변환하거나 격자 그림을 사용하는 두 가지 방법을 생각할 수 있습니다. 다른 옵션은 무엇입니까?

data-visualization logarithm

— 로만 루스 트리 크
소스

1

그 엑셀 가이드는 꽤

5

자신의 삶에서 코드 라인을 본 적이없는 사람에게 R에 대한 튜토리얼이 어떻게 보이는지 상상할 수 있습니까? :)

— Roman Luštrik

3

그러나 Excel에서 수동으로 수십 개의 막대 나누기를 그리는 사람들이 이것을 수행하는 유일한 (그리고 가장 쉽고 빠른) 방법이라고 생각하는 모든 사람들을 상상할 수 있습니다. 또는 큰 Word 문서에서 서식을 통합하는 데 몇 시간을 소비하는 사람들도 있습니다.

1

"아버지, 그들이 무엇을하고 있는지 모르기 때문에 용서하십시오." 생각 나다. :)

— Roman Luštrik

3

stats.stackexchange.com의 공식 밴드 : 부서진 도끼.

— 매트 파커

17

막대 그래프에 로그 축을 사용하는 것이 매우 조심 스럽습니다 . 문제는 축의 시작점을 선택해야하며 이는 거의 항상 임의적입니다. 축의 최소값을 변경하여 두 막대의 높이가 매우 다르거 나 거의 동일한 높이를 갖도록 선택할 수 있습니다. 이 세 그래프는 모두 동일한 데이터를 나타냅니다. 대체 텍스트

아직 언급하지 않은 불연속 축의 대안은 단순히 값 테이블을 표시하는 것입니다. 많은 경우에 테이블은 그래프보다 이해하기 쉽습니다.

— 하비 모툴 스키
소스

3

이러한 그래프에는 오류 막대가 없으므로 매우 기만적으로 보입니다. 오차 막대를 추가하면 차이가 덜 나타납니다. 또는 대부분 이런 종류의 문제를 피하는 상자와 수염 그림을 사용할 수 있습니다.

— nico

5

IMHO 원점은 막대 차트의 문제이며 로그와 관련이 없습니다. 선형 축으로 동일한 속임수에 도달 할 수 있습니다.

— cbeleites는 Monica

@cbeleites. 그렇습니다. 기준선을 변경하여 선형 축으로 잘못된 막대 그래프를 만들 수 있습니다. 그러나 선형 축의 경우 자연 기준선은 0입니다. 대수 축을 사용하면 대부분의 상황에서 자연스러운 기준선이 없습니다.

— Harvey Motulsky 2016 년

@HarveyMotulsky : 동의하지 않습니다. 로그 축으로 잘 설명되고 곱하기 변경 / 비율과 같은 기본 기준이있는 전체 데이터 클래스가 있습니다. 귀하의 예에서, 처리 된 신호는 제어 신호의 15 배일 수 있습니다. 해당 가정이 응용 프로그램에 적합하다면 로그에 대한 "자연적인"기준이 있습니다. 그렇지 않다면 다른 변형이 더 합리적일까요?

— cbeleites는

1

@cbeleites 변수가 비율이면 1.0이 자연스러운 기준선이므로 로그 스케일에 표시하는 것이 합리적입니다.

— Harvey Motulsky

11

몇 가지 추가 아이디어 :

(1) 대수 변환으로 자신을 제한 할 필요는 없습니다. 예를 들어이 사이트에서 "data-transformation"태그를 검색하십시오. 일부 데이터는 루트 또는 로짓과 같은 특정 변환에 적합합니다. 기술이 아닌 사용자를 위해 그래픽을 게시 할 때는 일반적으로 이러한 변환 (로그도 포함)을 피해야합니다. 반면에 데이터에서 패턴을 보는 데 유용한 도구가 될 수 있습니다.

(2) 차트 내부 또는 옆에 차트의 세부 정보를 설정하는 표준지도 제작 기법을 빌릴 수 있습니다. 특히, 하나의 차트와 다른 데이터의 축 범위가 더 제한된 다른 데이터의 극단적 인 값을 그 자체로 플롯 한 다음 관계의 표시 (시각적 및 / 또는 서면)와 함께 두 가지를 그래픽으로 정렬합니다. 그들 사이에. 알래스카와 하와이가 다른 규모로 시작된 미국지도를 생각해보십시오. (이것은 모든 종류의 차트에서는 작동하지 않지만 그림의 막대 차트에서는 효과적 일 수 있습니다.) [mbq의 최근 답변과 비슷합니다.]

(3) 파손되지 않은 축에 동일한 플롯을 사용하여 깨진 플롯을 나란히 표시 할 수 있습니다.

(4) 막 대형 차트 예의 경우 적합한 (아마도 크게 늘어난) 세로 축을 선택하고 패닝 유틸리티를 제공하십시오. [이것은 진정으로 유용한 기술인 IMHO보다 트릭이지만, 특별한 경우에는 유용 할 수 있습니다.]

(5) 다른 스키마를 선택하여 데이터를 표시하십시오. 예를 들어, 길이를 사용하여 값을 나타내는 막 대형 차트 대신 기호 영역이 값을 나타내는 차트를 선택하십시오. [분명히 절충이 여기에 포함됩니다.]

선택한 기법은 플롯의 목적에 따라 달라질 수 있습니다. 예를 들어 데이터 탐색을 위해 생성 된 플롯은 일반 사용자의 플롯과 다를 수 있습니다.

— 우버
소스

8

아마도 격자로 분류 될 수 있지만 시도해 볼 것입니다. 한 패널에서 가장 높은 비율로 조정 된 모든 막대를 플로팅하고 다른 패널을 아래쪽 패널에 확대 / 축소로 표시합니다. 산점도의 경우이 기술을 한 번 사용했는데 결과가 아주 좋았습니다.

8

로그 축 문제와 막대 차트 문제를 분리했습니다.

$A = lg I_0 - lg I$ $I_0$

통제 (기준선, 공백)의 역할을하는 현명하고 고정 된 원점이없는 경우 막 대형 차트 는 합리적 일 수 없습니다. 그러나 이것은 로그 축과 관련이 없습니다.
막대 차트에 내가 정기적으로 사용하는 것은 히스토그램입니다. 그러나 나는 그들이이 기원과의 차이를 보여주기 위해 잘한다고 상상할 수 있습니다 (차이가 긍정적인지 부정적인지 즉시 알 수 있습니다). 막대는 영역을 나타내므로 막대 차트는 곡선 아래에서 매우 이산화 된 영역의 영역으로 생각하는 경향이 있습니다. 즉, x 축은 메트릭 의미를 가져야합니다 (시간은 있지만 도시는 아닐 수 있음).

0에서 "자연적인"원점을 가진 무언가의 로그에 어떤 원점을 사용해야하는지 궁금하다면, 물러서서 무슨 일이 일어나고 있는지 조금 생각할 것입니다. 종종 이러한 문제는 로그가 여기에서 합리적인 변환이 아니라는 것을 나타내는 지표 일뿐입니다.

이제 로그 축 이 있는 막대 차트 는 배수로 발생하는 증가 또는 감소를 강조합니다. 제가 지금 생각할 수있는 합리적인 예는 모두 관심 가치와 선형 관계를 가지고 있습니다. 그러나 다른 누군가가 좋은 예를 찾을 수 있습니다.

따라서 현재 데이터의 의미와 관련하여 데이터 변환이 합리적이어야한다고 생각합니다. 이것은 위에서 언급 한 물리 화학적 단위 I의 경우이다 (A는 농도에 비례하고, pH는 예를 들어 pH 미터의 전압과 선형 관계를 가짐). 사실, 로그 장치가 새로운 이름을 가져와 선형 방식으로 사용되는 경우가 많습니다.

마지막으로, 나는 파쇄 된 축이 꽤 규칙적으로 사용되는 진동 분광법에서 나옵니다. 그리고 나는 이것이 축의 파괴가 속지 않는 몇 가지 예 중 하나를 사용한다고 생각합니다. 그러나 크기 순서는 변경되지 않았습니다. 우리는 우리의 x 범위의 30-40 %의 정보 영역을 가지고 있습니다. 예를 들면 다음과 같습니다. 이 샘플의 경우, 1800-2800 / cm 사이의 부분에는 유용한 정보를 포함 할 수 없습니다.
따라서 정보가없는 스펙트럼 범위가 제거됩니다 (이는 실제로 화학량 학 모델링에 사용하는 스펙트럼 범위를 나타냅니다). 정보가없는 스펙트럼 부분 제거

그러나 데이터를 해석하려면 x 위치를 정확하게 판독해야합니다. 그러나 일반적으로 서로 다른 범위에 걸쳐있는 배수는 필요하지 않습니다 (예 : 이러한 관계가 있지만 대부분의 연결은 더 복잡합니다) 예 : 신호가 3050 / cm이므로 불포화 또는 방향족 물질이 있지만 1000 / cm에서 강한 신호는 없습니다 따라서 모노, 메타, 1,3,5- 치환 방향족 고리는 없습니다. ...)
x를 더 큰 스케일로 묘사하는 것이 좋습니다 (실제로 우리는 가이드와 같은 밀리미터 시트를 사용하거나 정확한 위치에 레이블을 붙입니다). 따라서 축을 깨고 더 큰 x 스케일링을 얻습니다. 스펙트럼-부러진 축

실제로, 그것은 패싯과 매우 유사합니다. 패싯 버전
그러나 부러진 축 IMHO는 두 부분에서 x 축의 스케일이 동일하다는 것을 강조합니다. 플롯 된 영역 내의 간격은 동일합니다.

작은 강도 (y 축)를 강조하기 위해 확대 된 삽입을 사용합니다.
여기에 이미지 설명을 입력하십시오
[ ... 자세한 내용은 확대 된 (x 20) νCH 영역을 파란색으로 참조하십시오 .... ]

그리고 이것은 연결된 도표의 예에서도 가능합니다.

— cbeleites는 모니카를 지원합니다
소스

2

훌륭한 답변과 의견을 볼 때 명시 적으로 설명되지 않았지만 언급 된 두 가지 아이디어는 "라벨과 일치하지 않는 방식으로"막 대형 차트를 사용하고 표준화 / 차원이없는 데이터를 사용하고 있다는 것입니다.

플롯 유형 :

스타 / 스파이더 / 레이더 스타일 차트 (링크) (링크) 는 여러 좌표를 따라 여러 가지 다른 것을 비교하는 데 매우 유용합니다. 비즈니스 프레젠테이션에서는 (슬프게도) 드물게 나타나는 매우 유용한 도표가 많이 있습니다. 리더십은 정보를 사용하여 이해하기보다는 결론을 사용하여 결정을 내리고 이해를 통해 결정을 내리는 것을 선호하기 때문일 수 있습니다. 비즈니스에서는 합의를 구축하기가 매우 어려우므로 결과 전용 접근 방식은 합의 우선 의사 결정 다음 환경에서 더 높은 수율을 가질 수 있습니다. 막대 / 열 차트의 인기를 나타냅니다. 이해하기에 좋은 다른 그래프 유형의 예를 고려하십시오 (링크) .

변환:

도표화하는 값을 "특성"값으로 나누면 스케일링을 변환하여 정보를 잃지 않고 가독성을 향상시킬 수 있습니다. Fluid Dynamicist는 예측 유용성과 응용에서의 탄성으로 인해 치수가없는 수를 선호합니다. 그들은 버킹엄 파이 정리 (Buckingham Pi Theorem)와 같은 것을 무 차원 후보 형태 (link)의 출처로 본다 . 인기 있고 유용한 치수가없는 숫자로는 Reynolds Number, Mach 번호, Biot 번호, Grashof 번호, Pi, Raleigh 번호, Stokes 번호 및 Sherwood 번호가 있습니다. (링크) 비 물리적 응용에 유용하기 때문에 치수가없는 숫자를 좋아하는 물리학 자일 필요는 없습니다. 밀도, 동질성, 원형도 및 동일 평면성과 같은 측정 값은 이미지, 픽셀 필드 또는 다변량 확률 분포를 정의 할 수 있습니다. 대수 또는 알려진 값과의 상대적 거리를 고려하지 말고 제곱근을 취하여 숫자를 뒤집는 것도 고려할 수 있습니다.

행운을 빌어 요. 상황이 어떻게되는지 알려주십시오.

— EngrStudent-복직 모니카
소스

1

대부분의 데이터 Viz 당국은 레이더 차트 사용에 강력하게 반대합니다. 그들은 해석하기 어렵다. 훨씬 더 좋은 대안은 평행 좌표 차트 입니다.

— Jon Peltier

@ JonPeltier-동의하지만 Excel은 (응답 당시) 평행 좌표 차트를 작성하는 명확한 방법을 가지지 않았으므로 청중이 이해하기가 크게 어려울 수 있습니다.

— EngrStudent-복직 모니카

1

부러진 축 솔루션은 플롯을 가로 질러 명확한 브레이크가 있고 세로축에 레이블이 지정되어 간격이 분명 할 때 가장 잘 작동합니다. 이것의 장점은 스케일이 두 값 세트에 걸쳐 보존된다는 것입니다. 다른 척도를 가진 패널 도표는 낮은 그룹과 높은 그룹 내에서의 상대적 변화를 전달하지 못할 수 있습니다. 나는 산점도를 위해 프로그래밍했지만 바 플롯에 대해서는 생각하지 않은 확대 플롯의 아이디어를 좋아합니다.

— 사용자 4983
소스