이산 데이터에 선 그림을 사용하는 것이 잘못 되었습니까?


12

나는 종종 개별 데이터 세트를 선 플롯으로 표시하는 것을 보았지만, 선이 측정 간격 사이의 지점에서 값을 유추하여 개별 데이터 세트에 의미가없는 것으로 나타났습니다. 따라서 이산 데이터에 선 그림을 사용하는 것이 잘못 되었습니까?

예를 들어, 두 개의 시계열 데이터 세트를 사용하십시오. 하나는 연속 (내 무게는 매일 아침 측정)과 하나는 분리합니다 (하루에 먹는 도넛 수). 주어진 오후의 내 체중이 전과 다음날 아침의 체중과 관련이 있다고 추론하는 것이 합리적이므로 첫 번째 데이터 세트가 선 그림이되는 것이 합리적입니다. 그러나 도넛의 수를 선 그래프로 나타내면 점 사이의 선은 그 선에서 의미를 유추 할 수 없습니다.

편집하다

또 다른 예는 다음과 같습니다. http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html 의 시작 이후 연방 시간당 최저 임금

내가 틀리지 않는 한, 최저 임금 변동은 불연속 적이기 때문에, 임의로 선택된 시간을 찾아서 점을 연결하는 선을 사용하여 지점에서 최저 임금을 설정할 수 없습니다.


3
(+1) 시간당 최저 임금 사례가 우수합니다. 귀하의 질문에 대한 문구는 좋은 답변을 제시합니다. 즉, 그래프의 점을 연결하면 독자가 부정확 한 (또는 전혀 유효하지 않은) 보간을 할 수있을 때 유효하지 않습니다. 불연속성과 불연속성을 구분하면 추가 분석에 도움이됩니다. 도넛 소비는 불 연속적이며 최저 임금은 불 연속적입니다. 각각 다른 형태의 줄거리를 가질 자격이 있습니다.
whuber

불연속 데이터가있는 산점도가 선 그림에서 오도되는 그림이 있습니다. 일련의 이벤트가 필요하거나 (히스테리시스) 두 레벨 사이에서 진동이 발생하고 상태 변화와 위치를 추적해야하는 충분한 경우. 따라서 : 보간을 암시하기 위해 선 그림을 사용하지 말고 적절한 경우 지침으로 사용하십시오. 간단한 선택 규칙을 작성하기에는 간단하지 않지만 데이터와 모델을 고려해야합니다.
wirrbel

1
재미있는 질문! 고마워 나는 부분적으로 이산 모델과 부분적으로 측정 된 데이터에서 비롯된 많은 시간 관련 데이터를 다루고 있습니다. 불연속 데이터 (단계적으로 연속적 일 수 있지만 여전히 단일 지점간에 기능이없고 하나만 있다고 가정 할 수는 없음)와 연속 데이터에 대한 정규 데이터에 계단식 플롯을 사용하는 옵션은 어떻습니까? 그것이 내가 다루는 방법입니다.
Cord Kaldemeyer

@CordKaldemeyer는 의견을 보내 주셔서 감사합니다-차트 유형 "단계별 줄거리"는 알지 못했지만 확실히 내가 찾고있는 것입니다. 또한 Excel에서 단계별 라인 플롯을 수행하는 데 도움이되는 유용한 자습서를 찾았습니다. trumpexcel.com/step-chart-in-excel
user1379351

@ user1379351 : 도와 드리겠습니다.
코드 칼데 마이어

답변:


9

연결된 선 그림은 단일 해석으로 제한하기에는 너무 유용한 것으로 입증되었습니다. 몇 가지 눈에 띄는 용도 :

  • 보간 된 값 . 두 변수가 연속적이고 선을 따라 모든 보간 점이 의미있는 해석으로 언급되는 경우.
  • 변화율 . 중간 값이 의미가없는 경우에도 각 선분의 기울기는 변화율을 잘 나타냅니다. 이 해석을 위해 X 및 Y 값은 적절하게 간격을 두어야합니다. 이는 인용 한 임금 도표에는 해당되지 않습니다.
  • 프로필 비교 . 작은 배수 또는 중첩 측정 값을 비교할 때 선은 범주 형 요인에도 유용 할 수 있습니다. 이 경우, 라인은 제한된 패턴 인식을 위해 응답 그룹을 연결하는 역할을합니다. 다음 은 라벨을 쉽게 읽을 수 있도록 peltiertech.com 의 예 (X가 아닌 Y 축)에 대한 예입니다.

여기에 이미지 설명을 입력하십시오


1
물론 두 번째 및 세 번째 그래프는 미적분학을 전혀 사용할 수 없으므로 첫 번째 그래프보다 강력하지 않습니다.
Milind R

5

글쎄, 도넛은 무게와 관련이있을 수 있습니다 :-)

요점을 볼 때 시간 (선이 참조하는 수평 축)이 연속적이기 때문에이 예제가 그렇게 나쁘지 않다고 생각합니다. 나에게 줄의 의미는 하루 하루마다 특정 수의 도넛을 먹었을뿐 아니라 하루에 도넛의 수는 일정한 방식으로 바뀌는 정도는 아닙니다. 따라서, 우리는 라인에 황토처럼 부드러운 것을 추가 할 수 있습니다. 적어도 1 시간 또는 1 분마다 먹는 도넛을 생각하는 것이 합리적입니다 (하루에 더 많은 변수가 있으면 더 합리적이지만)

더 걱정되는 것은 수평 축이 불 연속적이며 (특히 공칭 일 때) 선이 그려 질 때입니다. 이것은 실제로 의미가 없습니다. 예를 들어 미국의 다른 지역에 거주하는 주민 중 투표율 (%)을보고 있다면 북동부와 중서부를 연결하는 것은 의미가 없습니다. 특히 영역의 순서는 임의적이지만 순서를 변경하면 선이 변경됩니다. 그러나 나는 이와 같은 그래프를 보았습니다.


1
선 그래프의 남용이 훨씬 더 심각하다는 데 절대적으로 동의하십시오. 나는 점을 연결하지 않기 때문에 더 부드러운 접근 방식을 좋아하므로 존재하지 않는 데이터를 의미하지는 않습니다. 그러나 그것은 도넛 소비의 걱정스러운 추세를 강조하는 역할을합니다. 감사!
user1379351

3
하나의 변수 (도넛 소비)를 다른 변수로 대체 할 것을 제안하는 것 같습니다. 즉, 도넛 소비 밀도 (단위 시간당 도넛). 비록 이것이 (특히 인구 밀도 맵과 같은) 2 차원 분석에서 자주 수행되고 매우 효과적 일 수 있지만, 독자들은 구별이 있다는 것을 인식하고 그 구별이 어떻게 가능한지 고려하는 것이 좋을 것입니다 그래픽으로 공개됩니다.
whuber

2
@ whuber 그것은 좋은 지적입니다. 라인이 교체를하는 것 같습니다. 교체를하지 않는 그래프는 단지 연결되지 않은 점일 수 있지만 도넛 소비가 특정 지점에 있다는 것을 적어도 힌트로 만드는 것처럼 보입니다. 따라서 우리는 시간을 연속적으로 렌더링하고 도넛이 소비되는 순간에 점을 찍을 수 있습니다.
Peter Flom-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.