로그 스케일은 언제 적절합니까?


57

차트 / 그래프를 그릴 때 시계열 차트의 y 축과 같은 특정 상황에서 로그 스케일을 사용하는 것이 적절하다는 것을 읽었습니다. 그러나 왜 그런지 또는 적절한시기에 대한 명확한 설명을 찾지 못했습니다. 나는 통계학자가 아니기 때문에 그 요점을 완전히 잃어 버릴 수 있다는 점을 명심하십시오.


10
이것은 공식적인 대답은 아니지만 변수가 여러 자릿수에 걸쳐있을 때 종종 로그 스케일로 변수를 시각화하는 것이 더 쉽습니다.
매크로

매크로-이해하기 쉬운 주제 (특히 이해할 수있는 잠재 고객이있을 때)
dav

1
stats.stackexchange.com/questions/298 특정 응답을 기다리는 동안 이와 밀접하게 관련된 스레드를 찾을 수 있습니다 . 차트 작성의 관점에서 "종속 변수"를 "y 축"으로 해석 할 수 있습니다. 그런 다음 여기에 나타난 많은 밀접한 관련 질문 을 살펴보십시오 .
whuber

3
또한 참고로 나오미 로빈스 (Naomi Robbins)는 언제 관심을 가져야 할 지에 대한 매우 간단한 기사를 가지고 있는데, 언제 차트와 그래프에서 로그 스케일을 사용해야합니까? .
Andy W

Whuber, 추가 링크를 지적 해 주셔서 감사합니다. 나는 그중 일부를 보았지만 모두는 아니었고 지금은 그들을 통해 나아 가고 있습니다.
dav

답변:


51

이것은 매우 흥미로운 질문이며 너무 적은 사람들이 생각합니다. 로그 스케일이 적절한 여러 가지 방법이 있습니다. 가장 잘 알려진 첫 번째는 Macro가 그의 주석에서 언급 한 것입니다. 로그 스케일을 사용하면 작은 값을 그래프의 맨 아래로 압축하지 않고도 넓은 범위를 표시 할 수 있습니다.

로그 스케일링을 선호하는 다른 이유는 데이터가보다 자연스럽게 기하학적으로 표현되는 환경에 있기 때문입니다. 데이터가 생물학적 매개체의 농도를 나타내는 경우를 예로들 수 있습니다. 농도는 음수 일 수 없으며 변동성은 거의 평균에 따라 변하지 않습니다 (즉,이 분산 변동이 있습니다). 대수 스케일을 사용하거나 동등하게 로그 농도를 기본으로 사용하면 측정 값이 불균일 한 변동성을 '고정'하고 양쪽 끝에 제한되지 않는 스케일을 제공합니다. 농도는 아마도 로그 정규 분포 일 것이므로 로그 스케일링은 우리에게 매우 자연스러운 결과 인 매우 편리한 결과를 제공합니다. 약리학에서 우리는 약물 농도에 대해 로그 스케일을 사용합니다.

시계열 데이터에 관심이있는 로그 스케일의 또 다른 이유는 분수 스케일 변경을 동등하게 만들 수있는 로그 스케일 기능 때문입니다. 퇴직 투자의 장기 성과가 표시되는 것을 상상해보십시오. 내일의 관심은 오늘의 투자 (대략 말하기)에 달려 있기 때문에 대략 기하 급수적으로 성장해야합니다. 따라서 퍼센티지 용어의 성과가 상당히 일정하더라도 펀드의 그래프는 오른쪽에서 가장 빠르게 성장한 것으로 보입니다. 로그 스케일을 사용하면 일정한 백분율 변화가 일정한 수직 거리로 표시되어 일정한 성장률이 직선으로 표시됩니다. 그것은 종종 실질적인 이점입니다.

로그 스케일을 선택하는 약간 더 난해한 또 다른 이유는 값을 x 또는 1 / x로 합리적으로 표현할 수있는 상황에서 발생합니다. 내 연구의 예로는 혈관 저항이 있으며, 이는 상호, 혈관 전도도로도 현명하게 표현 될 수 있습니다. (일부 상황에서는 저항 또는 전도력으로 확장되는 혈관의 직경을 생각하는 것이 합리적입니다.) 이러한 조치 중 어느 것도 다른 조치보다 더 현실적이 없으며 연구 논문에서 찾을 수 없습니다. 그것들이 대수적으로 스케일링된다면 그것들은 단순히 서로 부정적이며, 하나 또는 다른 것을 선택하는 것은 확실한 차이를 만들지 않습니다. (혈관 직경은 모두 로그 스케일 일 때 일정한 배율로 저항 및 컨덕턴스와 다릅니다.)


큰 답변 주셔서 감사합니다! "값을 x로 합리적으로 표현할 수 있습니다"에 대해 자세히 설명 할 수 있습니까?
ktdrv

4
@ktdrv 어떤 것들은 의미가 있습니다. 어부의 능력을 기록하고 싶다고 가정 해보십시오. 하루에 잡은 물고기의 수를 세거나 연속적인 어획 간격을 측정 할 수 있습니다. 측정은 의미가 있지만 서로 비선형 적으로 관련되어 있습니다. 그것들은 서로의 크기가 조정되어 서로 일대일로 변환 될 수 있습니다. 구간의 로그와 하루 수의 로그는 서로 선형으로 관련되어 있으며 상수 (음수) 요인에 따라 다릅니다.
Michael Lew

1
마이클, 좋은 답변 감사합니다. 나는 당신의 모든 요점을 조사하는 데 시간이 걸렸다는 점을 인정해야한다. 나는 아직도 대답의 실제 영향이 내 업무에 어떤 영향을 미치는지 정확하게 함께 정리하고 있지만, 일반적인 방향과 그 지침을 따라야 할 지침에 대해 감사합니다.
dav

엑스1/엑스로그(엑스)엑스1/엑스 엑스1/엑스엑스1/엑스

H=영형[H+]

29

@Michael Lew의 매우 좋은 답변에 덧붙여서 실제 사례를 몇 가지 소개했습니다.

먼저, 아래의 두 시계열 도표는 통계 뉴질랜드에서 제공되는 월간 방문자가 뉴질랜드에 도착한 것을 보여줍니다 . 두 음모 모두 목적이 있지만 세로 축이 로그 축척을 갖는 것이 첫 번째보다 더 많은 목적에 매우 유용하다는 것을 알았습니다. 예를 들어, 도착의 계절성이 도착의 규모에 대략 비례한다는 것을 알 수 있습니다. 원래 규모로는 보이지 않는 성장률 (예 : 제 2 차 세계 대전 중)의 중요한 변화를 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

둘째, 아래 도표는 뉴질랜드 관광객에 대한 총 여행 관련 지출을 실제로 뉴질랜드에있는 동안의 지출과 비교하여 보여줍니다. 출처는 경제 개발부 의 국제 방문자 조사 입니다. 차이점은 여행 전 지출, 예를 들어 호텔이나 패키지가 미리 지불 된 것입니다. 원래 규모의 첫 번째 줄거리는 왼쪽 하단에 그룹화되는 데이터의 매우 조잡하지만 중요한 인상 이외의 몇 가지 목적으로 사용될 수 있습니다. 두 번째 줄거리는 특히 비 통계학자를 위해 즉각적인 해석 가능성을 희생합니다 (이 때문에 일반적으로 데이터를 변환하고 로그 값을 표시하는 척도가 아니라 실제로 축에 로그 스케일을 사용합니다). 보다 시각적 인 차별화.

예를 들어 총 지출이 뉴질랜드에서의 지출보다 적은 소수의 특이 치 (데이터 편집 오류로 밝혀 짐)를 명확하게 확인할 수 있습니다. 더 중요한 것은이 그래프를 다른 색상이나 패싯과 함께 사용하여 다른 시장 국가 또는 방문 목적 (예 : 휴가 대 친구 및 가족 방문)이 지출 "공간"의 다른 부분을 차지하는 방식을 보여줄 수 있습니다. 원래 축에.

이 그림을 유용한 것으로 바꾸려면 고밀도 데이터를 처리해야합니다 (예 : 점에 약간의 투명도를 추가하거나 점에 따라 색상이 지정된 6 각형 빈으로 점을 대체). 유용한 시각적 솔루션은 거의 확실히 로그 축을 포함합니다.

여기에 이미지 설명을 입력하십시오

편집 / 추가

큰 데이터 셋이있을 때 밀도를 나타 내기 위해 색상을 사용하여 육각형 빈의 의미를 설명하는 또 다른 플롯 (이 경우 뉴질랜드의 Rugby World Cup 경험에 대한 설문 조사에 약 12000 명의 응답자). 다시 이것은 지출을 위해 로그 스케일을 사용한 또 다른 예입니다.

여기에 이미지 설명을 입력하십시오


Peter, 추가 통찰력에 감사드립니다. 그래픽은 포인트 이해에 도움이됩니다. 하나의 후속 질문 (당신이 기울어 진 경우), 왜 점을 "육각형"통으로 대체합니까? "해바라기 줄거리"와 같은 생각입니까? 나는 그 용어를 전에 들어 본 적이 없다.
dav

아니요, 해바라기 음모와 다릅니다. 포인트는 플로팅 영역을 6 각형 빈으로 나누고 각 빈에 몇 개의 점이 있는지에 따라 채색 (예 : 밝은 색에서 어두운 색으로)하는 것입니다. 큰 데이터 세트를 플로팅하는 데 좋은 방법이 될 수 있습니다. 그렇지 않으면 대량의 검은 색으로 변하는 경향이 있습니다.
피터 엘리스

@DavidVandenbos-예를 추가했습니다
Peter Ellis

(의견의 나머지) @PeterEllis 설명을 주셔서 감사합니다. 그것은 내가 사용하는 지리적 열지 도와 매우 유사한 데이터를 시각화하는 좋은 방법입니다. 당신은 R에서 그것을 만들었습니까?
dav

예, R, ggplot2 패키지 사용-이 목적에 매우 적합하고 기본 사항을 얻은 후에는 매우 간단합니다.
Peter Ellis

9

로그 스케일에 대한 또 다른 멋진 점은 비율이 대칭으로 표시된다는 것입니다. 예를 들면 다음과 같습니다. 여기에 이미지 설명을 입력하십시오


9
비교를 위해 선형 스케일로 동일한 플롯을 보는 것이 좋을 것입니다.
nico
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.