문제
예를 들어 각 매개 변수마다 다른 막대가있는 막대 그림과 y 축의 분산과 같이 30 개 매개 변수 각각에 의해 설명 된 분산을 플로팅하고 싶습니다.
그러나 분산은 아래 히스토그램에서 볼 수 있듯이 0을 포함하여 작은 값으로 치우칩니다.
변환 하면 작은 값 (아래 막대 그래프 및 막대 그래프)의 차이점을 쉽게 볼 수 있습니다.
질문
문제
예를 들어 각 매개 변수마다 다른 막대가있는 막대 그림과 y 축의 분산과 같이 30 개 매개 변수 각각에 의해 설명 된 분산을 플로팅하고 싶습니다.
그러나 분산은 아래 히스토그램에서 볼 수 있듯이 0을 포함하여 작은 값으로 치우칩니다.
변환 하면 작은 값 (아래 막대 그래프 및 막대 그래프)의 차이점을 쉽게 볼 수 있습니다.
질문
답변:
이를 일부 ( 예 : John Tukey) 에서 " 시작 로그 " 라고합니다 . (일부 예제의 경우 Google john tukey "started log" .)
사용하기에 완벽합니다. 실제로 종속 변수의 반올림을 설명하기 위해 0이 아닌 시작 값을 사용해야 할 수도 있습니다. 예를 들어, 종속 변수를 가장 가까운 정수로 반올림하는 것은 실제 분산에서 1/12로 효과적으로 떨어 지므로 합리적인 시작 값은 1/12 이상이어야합니다. (이 값은 이러한 데이터로 나쁜 일을하지 않습니다. 1 이상의 다른 값을 사용하더라도 실제로 그림을 많이 변경하지는 않습니다. 오른쪽 하단 플롯의 모든 값을 거의 균일하게 올립니다.)
로그 (또는 시작 로그)를 사용하여 분산을 평가해야하는 더 깊은 이유가 있습니다. 예를 들어, 로그 로그 스케일의 추정값에 대한 분산 플롯의 기울기는 분산 을 안정화하기위한 Box-Cox 매개 변수를 추정합니다 . 일부 관련 변수에 대한 이러한 거듭 제곱 법 편차가 종종 관찰됩니다. (이것은 이론적 인 진술이 아닌 경험적인 진술입니다.)
차이 를 나타내는 것이 목적이라면 주의해서 진행하십시오. 많은 과학 청중을 제외하고는 많은 청중이 로그를 이해하지 못합니다. 시작 값 1을 사용하면 다른 시작 값보다 설명하고 해석하기가 약간 더 쉽다는 장점이 있습니다. 고려해야 할 것은 물론 표준 편차 인 근을 플롯하는 것입니다. 다음과 같이 보일 것입니다 :
그럼에도 불구하고, 데이터를 탐색하거나, 데이터를 배우거나, 모델에 맞추거나, 모델을 평가하는 것이 목적이라면 데이터와 데이터 파생 값의 합리적인 그래픽 표현을 찾는 데 방해가되지 않도록하십시오. 이러한 차이와 같은
합리적 일 수 있습니다. 더 좋은 질문은 1이 더하기 적절한 숫자인지 여부입니다. 최소값은 얼마입니까? 1로 시작하면 값이 0 인 항목과 값이 1 인 항목 사이에 특정 간격을 부과하는 것입니다. 연구 영역에 따라 오프셋으로 0.5 또는 1 / e를 선택하는 것이 더 합리적 일 수 있습니다. 로그 스케일로 변환하는 것은 이제 비율 스케일이 있다는 것입니다.
그러나 나는 음모에 귀찮게합니다. 왜곡 분포의 꼬리에 설명 된 분산이 가장 많은 모형이 바람직한 통계적 특성을 갖는 것으로 간주되는지 묻습니다. 나는 그렇게 생각하지 않는다.
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
, 이것을 대부분의 분산을 설명하는 몇 가지 매개 변수로 해석합니다. 설명 된 차이는 꼬리에 있습니다. 더 이해가 되나요? 확실하지 않으면 죄송합니다.