시각화가 데이터 변환을위한 충분한 근거가됩니까?

13

문제

예를 들어 각 매개 변수마다 다른 막대가있는 막대 그림과 y 축의 분산과 같이 30 개 매개 변수 각각에 의해 설명 된 분산을 플로팅하고 싶습니다.

대체 텍스트

그러나 분산은 아래 히스토그램에서 볼 수 있듯이 0을 포함하여 작은 값으로 치우칩니다.

대체 텍스트

변환 하면 작은 값 (아래 막대 그래프 및 막대 그래프)의 차이점을 쉽게 볼 수 있습니다. $\log(x+1)$

대체 텍스트

질문

$\log(x+1)$

data-visualization data-transformation histogram

— 데이비드 르 바우어
소스

13

이를 일부 ( 예 : John Tukey) 에서 " 시작 로그 " 라고합니다 . (일부 예제의 경우 Google john tukey "started log" .)

사용하기에 완벽합니다. 실제로 종속 변수의 반올림을 설명하기 위해 0이 아닌 시작 값을 사용해야 할 수도 있습니다. 예를 들어, 종속 변수를 가장 가까운 정수로 반올림하는 것은 실제 분산에서 1/12로 효과적으로 떨어 지므로 합리적인 시작 값은 1/12 이상이어야합니다. (이 값은 이러한 데이터로 나쁜 일을하지 않습니다. 1 이상의 다른 값을 사용하더라도 실제로 그림을 많이 변경하지는 않습니다. 오른쪽 하단 플롯의 모든 값을 거의 균일하게 올립니다.)

로그 (또는 시작 로그)를 사용하여 분산을 평가해야하는 더 깊은 이유가 있습니다. 예를 들어, 로그 로그 스케일의 추정값에 대한 분산 플롯의 기울기는 분산 을 안정화하기위한 Box-Cox 매개 변수를 추정합니다 . 일부 관련 변수에 대한 이러한 거듭 제곱 법 편차가 종종 관찰됩니다. (이것은 이론적 인 진술이 아닌 경험적인 진술입니다.)

차이 를 나타내는 것이 목적이라면 주의해서 진행하십시오. 많은 과학 청중을 제외하고는 많은 청중이 로그를 이해하지 못합니다. 시작 값 1을 사용하면 다른 시작 값보다 설명하고 해석하기가 약간 더 쉽다는 장점이 있습니다. 고려해야 할 것은 물론 표준 편차 인 근을 플롯하는 것입니다. 다음과 같이 보일 것입니다 :

대체 텍스트

그럼에도 불구하고, 데이터를 탐색하거나, 데이터를 배우거나, 모델에 맞추거나, 모델을 평가하는 것이 목적이라면 데이터와 데이터 파생 값의 합리적인 그래픽 표현을 찾는 데 방해가되지 않도록하십시오. 이러한 차이와 같은

— 우버
소스

1

설명과 적절한 용어 / 참조에 감사드립니다. 청중은 과학 저널의 독자이며 주제는 분산 분해입니다. 로그 변환의 개념을 이해하는 것이 전제 조건이지만이 프레젠테이션에 추가 근거가 필요한지 확실하지 않습니다. 근본이 좋은 대안입니다. 감사.

— David LeBauer

3

합리적 일 수 있습니다. 더 좋은 질문은 1이 더하기 적절한 숫자인지 여부입니다. 최소값은 얼마입니까? 1로 시작하면 값이 0 인 항목과 값이 1 인 항목 사이에 특정 간격을 부과하는 것입니다. 연구 영역에 따라 오프셋으로 0.5 또는 1 / e를 선택하는 것이 더 합리적 일 수 있습니다. 로그 스케일로 변환하는 것은 이제 비율 스케일이 있다는 것입니다.

그러나 나는 음모에 귀찮게합니다. 왜곡 분포의 꼬리에 설명 된 분산이 가장 많은 모형이 바람직한 통계적 특성을 갖는 것으로 간주되는지 묻습니다. 나는 그렇게 생각하지 않는다.

— DWin
소스

확실하지는 않지만 확실하지 않지만 히스토그램은 분산의 30 값이며, 막대 그래프는 분산의 원시 값입니다. 즉 var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), 이것을 대부분의 분산을 설명하는 몇 가지 매개 변수로 해석합니다. 설명 된 차이는 꼬리에 있습니다. 더 이해가 되나요? 확실하지 않으면 죄송합니다.

— David LeBauer