답변:
변수가 여러 자릿수에 걸쳐있을 때 수행됩니다. 소득은 전형적인 예입니다. 분배는 "권력 법"입니다. 이는 대다수 소득이 적고 아주 적다는 것을 의미합니다.
이 유형의 "팻 테일"분포는 로그의 수학적 특성으로 인해 로그 스케일로 연구됩니다.
이것은 암시
과
이는 큰 차이 변형
주로 비뚤어진 분포로 인해. 대수는 변수의 동적 범위를 자연스럽게 감소시켜 차이가 유지되는 반면 스케일이 크게 왜곡되지 않습니다. 어떤 사람들은 100,000,000 개의 대출을 받고 어떤 사람들은 10000과 어떤 0을 얻었다 고 상상해보십시오. 기능 확장은 아마도 가장 큰 숫자가 경계를 밀고있을 때 0과 10000을 서로 가깝게 배치 할 것입니다. 대수는 문제를 해결합니다.
대수 변환이 유용한 또 다른 이유는 비율 데이터에 작용하기 때문입니다 log(A/B) = -log(B/A)
. 원시 스케일에 비율 분포를 플로팅하면 점이 범위에 속합니다 (0, Inf)
. 1보다 작은 비율은 플롯의 작은 영역으로 찌그러지고, 비율을 (B/A)
대신에 뒤집 으면 플롯이 완전히 다르게 보입니다 (A/B)
. 로그 스케일로이 작업을 수행하면 범위는 이제 (-Inf, +Inf)
이므로 1보다 작고 1보다 큰 비율이 더 균등하게 퍼집니다. 비율을 뒤집기로 결정하면 플롯을 0 주위로 뒤집기 만하면됩니다. 그렇지 않으면 정확히 같습니다. 로그 스케일에서 비율을로 표시하더라도 실제로 중요하지는 않습니다 1/10 or 10/1
. 이는 선택해야 할 명확한 선택이 없을 때 유용합니다.
로그 정규 분포를 살펴 봐야합니다 .
사람들은 로그가 스케일이나 무언가를 압축한다고 생각하기 때문에 로그를 사용할 수 있지만, 로그의 기본 용도는 로그 정규 분포가있는 데이터로 작업하고 있다는 것입니다. 이는 급여, 주택 가격 등과 같은 경향이 있으며, 모든 가치는 긍정적이고 대부분은 비교적 적지 만 일부는 매우 큽니다.
데이터 로그를 가져 와서 정규화되는 경우 잘 정의 된 평균, 표준 편차 (따라서 z- 점수), 대칭 등과 같은 정규 분포의 많은 기능을 활용할 수 있습니다.
마찬가지로 로그를 추가하는 것은 로그되지 않은 값을 곱하는 것과 같습니다. 즉, 오차가 가산되는 분포를 곱하기 (예 : 백분율 기반)의 분포로 전환했음을 의미합니다. OLS 회귀와 같은 기술에는 정상적인 오류 분포가 필요하기 때문에 로그 작업을 수행하면 가산 성부터 곱셈 프로세스까지 적용 성이 확장됩니다.