답변:
저와 같은 경제학자들은 로그 변환을 좋아합니다. 우리는 특히 회귀 모델에서 이것을 좋아합니다.
우리는 왜 그렇게 좋아합니까? 강의 할 때 학생들에게 제공하는 이유는 다음과 같습니다.
통계 학자들은 일반적으로이 특정 데이터 변환에 대해 경제학자들이 과열 된 것을 발견합니다. 제 생각에 그들은 8 포인트와 3 포인트의 후반부가 매우 중요하다고 판단하기 때문입니다. 따라서 데이터가 정규 분포를 따르지 않거나 데이터를 로깅 할 때 변환 된 데이터가 관측치에 대해 동일한 분산을 갖지 않는 경우 통계학자는 변환을 매우 좋아하지 않는 경향이 있습니다. 경제학자는 우리가 변화에 대해 정말로 좋아하는 점이 1,2 및 4-7이기 때문에 어쨌든 앞으로 나아갈 것입니다.
먼저 삐뚤어진 것을 기록 할 때 일반적으로 어떤 일이 발생하는지 봅시다.
맨 윗줄에는 점점 더 치우친 세 가지 분포의 표본에 대한 히스토그램이 포함되어 있습니다.
하단 행에는 로그에 대한 히스토그램이 있습니다.
분포가보다 정상적인 것처럼 보이도록하려면 변환이 두 번째 및 세 번째 사례를 확실히 개선했습니다. 이것이 도움이 될 수 있음을 알 수 있습니다.
왜 작동합니까?
분포 모양의 그림을 볼 때 평균 또는 표준 편차를 고려하지 않고 축의 레이블에만 영향을 미칩니다.
따라서 우리는 일종의 "표준화 된"변수를보고 있다고 상상할 수 있습니다 (긍정적으로 남아있는 동안 모두 비슷한 위치와 확산을 가짐)
중앙값을 기준으로 오른쪽 (높은 값)에서 더 극단적 인 값을 로그로 가져 오는 반면, 가장 왼쪽 (낮은 값)의 값은 중간에서 멀어지면서 뒤로 늘어지는 경향이 있습니다.
그러나 우리가 통나무를 가져 가면, 그것은 중앙값을 향해 당겨집니다. 통나무를 채취 한 후 중앙값 위의 사 분위수 범위는 약 2 입니다.
log (750)와 log (30)가 log (y)의 중앙값에서 거의 같은 거리에 도달했을 때 750/150과 150/30의 비율이 모두 5 인 것은 우연이 아닙니다. 상수 비율을 상수 차이로 변환하여 로그가 작동하는 방식입니다.
항상 로그가 눈에 띄게 도움이되는 것은 아닙니다. 예를 들어, 로그 정규 확률 변수를 사용하여 평균을 표준 편차에 비해 크게되도록 실질적으로 오른쪽으로 이동하면 (즉, 큰 상수를 추가) 그 로그를 취하면 차이가 거의 없습니다. 형태. 덜 치우 치지 만 간신히.
그러나 제곱근과 같은 다른 변형도 큰 가치를 끌어낼 것입니다. 왜 로그가 더 인기가 있습니까?
예를 들어, 많은 규모의 경제 및 재무 데이터는 백분율 척도에 일정하거나 거의 일정한 영향을 미칩니다. 이 경우 로그 스케일이 의미가 있습니다. 또한, 그 비율 스케일 효과의 결과. 평균값이 증가함에 따라 값의 스프레드가 커지는 경향이 있으며 로그를 취하면 스프레드가 안정화되는 경향이 있습니다. 그것은 보통 정상보다 더 중요합니다. 실제로 원본 다이어그램의 세 가지 분포는 모두 표준 편차가 평균에 따라 증가하는 패밀리에서 나 왔으며 각 경우에 로그를 취하면 분산이 안정화됩니다. [이것은 모든 비뚤어진 데이터에서는 발생하지 않습니다. 특정 응용 분야에서 발생하는 데이터 종류에서 매우 일반적입니다.]
제곱근으로 인해 대칭이되는 경우도 있지만 여기 예제에서 사용하는 것보다 덜 치우친 분포로 발생하는 경향이 있습니다.
우리는 약간의 오른쪽으로 치우친 예제 3 개를 더 공정하게 쉽게 만들 수 있었는데, 여기에서 제곱근은 하나의 왼쪽 비대칭, 하나의 대칭, 세 번째는 여전히 오른쪽으로 치우 쳤습니다 (그러나 이전보다 약간 덜 치우침).
왼쪽으로 치우친 분포는 어떻습니까?
로그 변환을 대칭 분포에 적용한 경우 오른쪽 왜곡을 한 번 더 대칭으로 만드는 것과 같은 이유로 왼쪽으로 치우치는 경향이 있습니다 . 여기 에서 관련 설명을 참조 하십시오 .
이에 따라 이미 왜곡 된 항목에 로그 변환을 적용하면 훨씬 더 왼쪽으로 치우쳐 중앙값 위의 항목을 더 단단히 잡아 당기고 중간 값 아래의 항목을 더 세게 줄입니다.
따라서 로그 변환은 도움이되지 않습니다.
전력 변환 / 터키의 사다리 도 참조하십시오 . 비대칭 분포는 거듭 제곱 (1보다 크면-제곱합)을 취하거나 지수화하여 더 대칭 적으로 만들 수 있습니다. 명백한 상한이있는 경우 상한에서 관측 값을 빼고 (오른쪽으로 치우친 결과 제공) 변환을 시도 할 수 있습니다.
로그 기능은 본질적으로 매우 큰 값을 강조하지 않습니다. 아래 그림에서 . x의 값이 얼마나 큰지 확인하십시오. 축의 이 y 축의 상대적으로 더 작은 .
이제 오른쪽으로 치우친 분포에서는 매우 큰 값이 몇 개 있습니다. 로그 변환은 기본적으로이 값을 분포의 중심으로 가져 오므로 정규 분포처럼 보입니다.
이 모든 대답은 자연 로그 변환에 대한 판매 피치입니다. 사용에 대한주의 사항, 모든 변형에 일반화되는주의 사항이 있습니다. 일반적으로 모든 수학적 변환은 압축, 확장, 반전, 크기 조정 등 기본 원시 변수의 PDF를 재구성합니다. 이것이 실질적으로 실용적인 관점에서 나타나는 가장 큰 과제는 예측이 핵심 모델 출력 인 회귀 모델에 사용될 때 종속 변수의 변환 인 Y-hat입니다., 잠재적으로 심각한 재 변환 편향이 있습니다. 자연 로그 변환은이 편견에 영향을받지 않으며 다른 유사한 행동 변환만큼 영향을받지 않습니다. 이 편견에 대한 솔루션을 제공하는 논문이 있지만 실제로는 잘 작동하지 않습니다. 내 의견으로는, 당신은 Y 를 전혀 변형시키지 않고 원래의 메트릭을 유지할 수있는 강력한 기능적 형태를 찾는 것을 망설이지 않고 훨씬 더 안전하다고 생각합니다 . 예를 들어 자연 로그 외에 역 쌍곡 사인 또는 램버트 W 와 같은 왜곡 및 첨도 변수의 꼬리를 압축하는 다른 변환이 있습니다.. 이 두 변환은 대칭 PDF를 생성하는 데 매우 효과적이므로 두꺼운 정보에서 가우시안과 유사한 오류가 발생하지만 DV, Y 의 원래 스케일로 예측을 다시 가져 오려고 할 때 편견을 조심하십시오 . 못생긴 것일 수 있습니다.
많은 흥미로운 지적이 이루어졌습니다. 좀 더?
1) 선형 회귀의 또 다른 문제는 회귀 방정식의 '왼쪽'이 예상 값 E (y)라는 것입니다. 오차 분포가 대칭이 아닌 경우, 예상 값을 연구 할 때의 장점은 약합니다. 오차가 비대칭 일 때 기대 값이 중요하지 않습니다. 대신 양자화 회귀를 탐색 할 수 있습니다. 그런 다음 오차가 비대칭적인 경우에도 중앙값 또는 다른 백분율 포인트에 대한 연구가 가치가있을 수 있습니다.
2) 응답 변수를 변환하기로 선택한 경우 설명 변수 중 하나 이상을 동일한 기능으로 변환하려고 할 수 있습니다. 예를 들어, 응답으로 '최종'결과가있는 경우 설명 변수로 '기준'결과가있을 수 있습니다. 해석을 위해 동일한 기능을 가진 변환 '최종'과 '기준선'이 의미가 있습니다.
3) 설명 변수를 변환하는 주요 주장은 종종 반응-설명 관계의 선형성에 관한 것입니다. 요즘에는 설명 변수에 대해 제한된 입방 스플라인 또는 분수 다항식과 같은 다른 옵션을 고려할 수 있습니다. 선형성을 찾을 수 있다면 분명한 명확성이 종종 있습니다.