데이터 시각화에 대한 조언자와 논의가 있습니다. 그는 실험 결과를 표현할 때 이미지 아래에 제시된대로 " 마커 "만으로 값을 플롯해야한다고 주장합니다 . 곡선은 " 모델 " 만 나타내야하지만
반면에 나는 두 번째 이미지에서 볼 수 있듯이 가독성을 높이기 위해 곡선이 불필요하다고 생각합니다.
내가 틀리거나 교수님? 후자의 경우라면, 어떻게 그에게 설명해 주어야합니까?
데이터 시각화에 대한 조언자와 논의가 있습니다. 그는 실험 결과를 표현할 때 이미지 아래에 제시된대로 " 마커 "만으로 값을 플롯해야한다고 주장합니다 . 곡선은 " 모델 " 만 나타내야하지만
반면에 나는 두 번째 이미지에서 볼 수 있듯이 가독성을 높이기 위해 곡선이 불필요하다고 생각합니다.
내가 틀리거나 교수님? 후자의 경우라면, 어떻게 그에게 설명해 주어야합니까?
답변:
나는이 경험 법칙을 좋아한다.
당신이 눈을 안내하는 라인이 필요한 경우 (즉, 선없이 명확로 표시되지 않을 것이라고 경향을 보여주기 위해), 당신은해야 하지 라인을 넣어.
인간은 패턴을 인식하는 데 매우 능숙합니다 (기존 트렌드를 놓치는 것보다 존재하지 않는 트렌드를 보는 편입니다). 선없이 추세를 얻을 수없는 경우 데이터 세트에 추세를 결정적으로 표시 할 수 없습니다.
두 번째 그래프에 대해 말하면 측정 지점의 불확실성에 대한 유일한 표시는 700 ° C에서 C : O 1.2의 두 개의 빨간색 사각형입니다. 이 두 가지의 확산은 내가 받아들이지 않을 것이라는 것을 의미한다.
아주 좋은 이유없이 그러나 그것은 다시 모델이 될 것입니다.
편집 : Ivan의 의견에 대한 답변 :
나는 화학자이고 오류없이 측정이 없다고 말하고 싶습니다. 수용 가능한 것은 실험과 도구에 달려 있습니다.
이 답변은 실험적 오류를 보여주는 것이 아니라 오류를 표시하고 고려하기위한 것입니다.
내 추론의 배후에는 그래프에 정확히 하나의 반복 측정이 표시되므로 토론이 모델이 얼마나 복잡 해야하는지 (예 : 수평선, 직선, 2 차 등)는 측정에 대한 아이디어를 줄 수 있습니다 오류. 귀하의 경우, 이것은 이차해야한다고 제안하는 단단한 모델 (예 : 열역학 또는 운동 방정식)이 있더라도 의미있는 이차 (스플라인)를 맞출 수 없음을 의미합니다. 데이터가 충분하지 않습니다. .
이것을 설명하려면 :
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
다음은 각 C : O 비율에 대한 95 % 신뢰 구간과 선형 피팅입니다.
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
C : O 비율이 높을수록 신뢰 구간의 범위는 0보다 훨씬 낮습니다. 이는 선형 모델의 암시 적 가정이 잘못되었음을 의미합니다. 그러나 더 높은 C : O 함량에 대한 선형 모형이 이미 초과 적합하다는 결론을 내릴 수 있습니다.
따라서 뒤로 물러서서 상수 값만 맞추십시오 (즉, T 의존성이 없음).
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
보완은 C : O에 대한 의존성을 모델링하지 않는 것입니다.
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
그럼에도 불구하고 신뢰 구간은 수평 또는 약간 오름차순 선을 포함합니다.
계속해서 3 개의 C : O 비율에 대해 서로 다른 오프셋을 허용하지만 동일한 기울기를 사용하여 시도해 볼 수 있습니다.
그러나 이미 몇 가지 측정만으로도 상황을 크게 개선 할 수 있습니다. C : O = 1 : 1에 대한 신뢰 구간이 3 개가 아닌 4 개로 측정되는 신뢰 구간이 얼마나 좁아 지는지 확인하십시오.
결론 : 내가 의심 할만한 결론을 비교해 보면, 이용 가능한 몇 가지 점을 너무 많이 읽고있는 것입니다!
JeffE가 말했듯 이 요점 은 데이터 입니다. 일반적으로 커브를 최대한 추가하지 않는 것이 좋습니다. 곡선을 추가하는 한 가지 이유는 점과 점 사이의 추세를 더 읽기 쉽게 만들어 그래프를 눈에 더 좋게 만들기 때문입니다. 데이터 포인트가 거의없는 경우에 특히 그렇습니다.
그러나 희소 데이터를 표시하는 다른 방법이 있는데 , 이는 산점도보다 낫습니다. 하나의 가능성은 다양한 막대가 단일 지점보다 훨씬 잘 보이는 막대 차트입니다. 색상 코드 (그림에서 이미 가지고있는 것과 유사)는 각 데이터 계열의 추세를 확인하는 데 도움이됩니다 (또는 데이터 계열이 분할되어 더 작은 개별 막대 차트로 나란히 표시 될 수 있음).
마지막으로 심볼 사이에 일종의 선을 추가하려면 두 가지 경우가 있습니다.
특정 모델이 데이터 (선형, 고조파 등)에 유효 할 것으로 예상되는 경우 데이터를 모델에 맞추고 텍스트로 모델을 설명하고 데이터와 모델 간의 일치에 대해 의견을 말하십시오.
데이터에 대한 합리적인 모형이없는 경우 그래프에 추가 가정 을 포함하지 않아야 합니다. 특히 이는 해협 선을 제외하고 점 사이에 선을 포함해서는 안됩니다. Excel (및 기타 소프트웨어)이 그릴 수 있는 멋진 "스플라인 맞춤"보간 은 거짓말 입니다. 데이터가 특정 수학적 모델을 따르는 유효한 이유가 없으므로 직선 세그먼트를 사용해야합니다.
또한이 경우“선은 눈을위한 안내자”와 같이 그림 캡션 어딘가에 고지 사항을 추가하는 것이 좋습니다.
나는 명백한 모델을 제안하지 않지만 눈에 대한 일종의 안내가 필요한 경우가 있다고 생각합니다. 내 규칙은 전염병과 같은 곡선을 피하고 일련의 연속 지점 사이에서 조각으로 직선을 유지하는 것입니다.
우선,이 가정은 독자에게 더 분명합니다. 또한 스파이는 독자들이 데이터에 의해 지원되지 않는 트렌드를 가정하지 않도록하는 데 탁월합니다. 전혀 그렇지 않으면 노이즈와 특이 치 만 강조합니다.
내가 조심하는 것은 스플라인, 2 차, 회귀 등의 거칠고 (명확하고 비명 시적인) 사용입니다. 매우 자주 이것은 추세가없는 것처럼 보입니다. 남용의 좋은 예는 @Ivan이 그린 곡선입니다. 3 개의 데이터 포인트를 사용하면 기본 모델의 최대 값이나 최소값이 분명하지 않다고 생각합니다.