차트 / 그래프를 그릴 때 시계열 차트의 y 축과 같은 특정 상황에서 로그 스케일을 사용하는 것이 적절하다는 것을 읽었습니다. 그러나 왜 그런지 또는 적절한시기에 대한 명확한 설명을 찾지 못했습니다. 나는 통계학자가 아니기 때문에 그 요점을 완전히 잃어 버릴 수 있다는 점을 명심하십시오.
차트 / 그래프를 그릴 때 시계열 차트의 y 축과 같은 특정 상황에서 로그 스케일을 사용하는 것이 적절하다는 것을 읽었습니다. 그러나 왜 그런지 또는 적절한시기에 대한 명확한 설명을 찾지 못했습니다. 나는 통계학자가 아니기 때문에 그 요점을 완전히 잃어 버릴 수 있다는 점을 명심하십시오.
답변:
이것은 매우 흥미로운 질문이며 너무 적은 사람들이 생각합니다. 로그 스케일이 적절한 여러 가지 방법이 있습니다. 가장 잘 알려진 첫 번째는 Macro가 그의 주석에서 언급 한 것입니다. 로그 스케일을 사용하면 작은 값을 그래프의 맨 아래로 압축하지 않고도 넓은 범위를 표시 할 수 있습니다.
로그 스케일링을 선호하는 다른 이유는 데이터가보다 자연스럽게 기하학적으로 표현되는 환경에 있기 때문입니다. 데이터가 생물학적 매개체의 농도를 나타내는 경우를 예로들 수 있습니다. 농도는 음수 일 수 없으며 변동성은 거의 평균에 따라 변하지 않습니다 (즉,이 분산 변동이 있습니다). 대수 스케일을 사용하거나 동등하게 로그 농도를 기본으로 사용하면 측정 값이 불균일 한 변동성을 '고정'하고 양쪽 끝에 제한되지 않는 스케일을 제공합니다. 농도는 아마도 로그 정규 분포 일 것이므로 로그 스케일링은 우리에게 매우 자연스러운 결과 인 매우 편리한 결과를 제공합니다. 약리학에서 우리는 약물 농도에 대해 로그 스케일을 사용합니다.
시계열 데이터에 관심이있는 로그 스케일의 또 다른 이유는 분수 스케일 변경을 동등하게 만들 수있는 로그 스케일 기능 때문입니다. 퇴직 투자의 장기 성과가 표시되는 것을 상상해보십시오. 내일의 관심은 오늘의 투자 (대략 말하기)에 달려 있기 때문에 대략 기하 급수적으로 성장해야합니다. 따라서 퍼센티지 용어의 성과가 상당히 일정하더라도 펀드의 그래프는 오른쪽에서 가장 빠르게 성장한 것으로 보입니다. 로그 스케일을 사용하면 일정한 백분율 변화가 일정한 수직 거리로 표시되어 일정한 성장률이 직선으로 표시됩니다. 그것은 종종 실질적인 이점입니다.
로그 스케일을 선택하는 약간 더 난해한 또 다른 이유는 값을 x 또는 1 / x로 합리적으로 표현할 수있는 상황에서 발생합니다. 내 연구의 예로는 혈관 저항이 있으며, 이는 상호, 혈관 전도도로도 현명하게 표현 될 수 있습니다. (일부 상황에서는 저항 또는 전도력으로 확장되는 혈관의 직경을 생각하는 것이 합리적입니다.) 이러한 조치 중 어느 것도 다른 조치보다 더 현실적이 없으며 연구 논문에서 찾을 수 없습니다. 그것들이 대수적으로 스케일링된다면 그것들은 단순히 서로 부정적이며, 하나 또는 다른 것을 선택하는 것은 확실한 차이를 만들지 않습니다. (혈관 직경은 모두 로그 스케일 일 때 일정한 배율로 저항 및 컨덕턴스와 다릅니다.)
@Michael Lew의 매우 좋은 답변에 덧붙여서 실제 사례를 몇 가지 소개했습니다.
먼저, 아래의 두 시계열 도표는 통계 뉴질랜드에서 제공되는 월간 방문자가 뉴질랜드에 도착한 것을 보여줍니다 . 두 음모 모두 목적이 있지만 세로 축이 로그 축척을 갖는 것이 첫 번째보다 더 많은 목적에 매우 유용하다는 것을 알았습니다. 예를 들어, 도착의 계절성이 도착의 규모에 대략 비례한다는 것을 알 수 있습니다. 원래 규모로는 보이지 않는 성장률 (예 : 제 2 차 세계 대전 중)의 중요한 변화를 볼 수 있습니다.
둘째, 아래 도표는 뉴질랜드 관광객에 대한 총 여행 관련 지출을 실제로 뉴질랜드에있는 동안의 지출과 비교하여 보여줍니다. 출처는 경제 개발부 의 국제 방문자 조사 입니다. 차이점은 여행 전 지출, 예를 들어 호텔이나 패키지가 미리 지불 된 것입니다. 원래 규모의 첫 번째 줄거리는 왼쪽 하단에 그룹화되는 데이터의 매우 조잡하지만 중요한 인상 이외의 몇 가지 목적으로 사용될 수 있습니다. 두 번째 줄거리는 특히 비 통계학자를 위해 즉각적인 해석 가능성을 희생합니다 (이 때문에 일반적으로 데이터를 변환하고 로그 값을 표시하는 척도가 아니라 실제로 축에 로그 스케일을 사용합니다). 보다 시각적 인 차별화.
예를 들어 총 지출이 뉴질랜드에서의 지출보다 적은 소수의 특이 치 (데이터 편집 오류로 밝혀 짐)를 명확하게 확인할 수 있습니다. 더 중요한 것은이 그래프를 다른 색상이나 패싯과 함께 사용하여 다른 시장 국가 또는 방문 목적 (예 : 휴가 대 친구 및 가족 방문)이 지출 "공간"의 다른 부분을 차지하는 방식을 보여줄 수 있습니다. 원래 축에.
이 그림을 유용한 것으로 바꾸려면 고밀도 데이터를 처리해야합니다 (예 : 점에 약간의 투명도를 추가하거나 점에 따라 색상이 지정된 6 각형 빈으로 점을 대체). 유용한 시각적 솔루션은 거의 확실히 로그 축을 포함합니다.
편집 / 추가
큰 데이터 셋이있을 때 밀도를 나타 내기 위해 색상을 사용하여 육각형 빈의 의미를 설명하는 또 다른 플롯 (이 경우 뉴질랜드의 Rugby World Cup 경험에 대한 설문 조사에 약 12000 명의 응답자). 다시 이것은 지출을 위해 로그 스케일을 사용한 또 다른 예입니다.