오른쪽으로 치우친 분포에 로그 변환이 사용되는 이유는 무엇입니까?


18

나는 한 번 들었다

로그 변환은 선형 회귀 또는 분위수 회귀 분석에서 오른쪽으로 치우친 분포에 가장 많이 사용됩니다.

이 진술의 근거가되는 이유가 무엇인지 알고 싶습니다. 로그 변환이 오른쪽으로 치우친 분포에 적합한 이유는 무엇입니까?

왼쪽으로 치우친 분포는 어떻습니까?

답변:


26

저와 같은 경제학자들은 로그 변환을 좋아합니다. 우리는 특히 회귀 모델에서 이것을 좋아합니다.

lnYi=β1+β2lnXi+ϵi

우리는 왜 그렇게 좋아합니까? 강의 할 때 학생들에게 제공하는 이유는 다음과 같습니다.

  1. 그것은 의 양성을 존중합니다 . 경제 및 다른 곳의 실제 응용 분야에서 여러 번 는 본질적으로 양수입니다. 가격, 세율, 생산량, 생산 원가, 일부 범주의 상품에 대한 지출 등일 수 있습니다. 변환되지 않은 선형 회귀에서 예측 된 값은 음수 일 수 있습니다. 로그 변환 회귀에서 예측 된 값은 절대 음수 일 수 없습니다. 그들이있다 ( 파생에 대한 내 초기 답변 참조 ).YYYY^j=exp(β1+β2lnXj)1Nexp(ei)
  2. 로그-로그 기능 형태는 놀랍도록 유연합니다. 공지 : 이것은 우리에게 다음을 제공합니다 : 그것은 많은 다른 모양입니다. 선 (이 기울기는exp ( β 1 )에 의해 결정되므로 양의 기울기를 가질 수 있음), 쌍곡선, 포물선 및 "제곱근 모양"모양. 나는 그것을β1=0ϵ=0으로그렸지만, 실제 응용에서는 이것들 중 어느 것도 맞지 않으므로X=에서 곡선의 기울기와 높이=
    lnYi=β1+β2lnXi+ϵiYi=exp(β1+β2lnXi)exp(ϵi)Yi=(Xi)β2exp(β1)특급(ϵ나는)
    로그 로그 기능 양식 사랑특급(β1)β1=0ϵ=0 1로 설정되지 않고 제어됩니다.엑스=1
  3. TrynnaDoStat에서 언급했듯이 로그-로그 형식은 큰 값을 "인입 (draw in)"하여 데이터를보다 쉽게보고 때로는 관측 간 편차를 정규화합니다.
  4. 계수 는 탄성으로 해석됩니다. X 의 1 % 증가에서 Y 의 백분율 증가입니다 .β2와이엑스
  5. 가 더미 변수 인 경우 로깅하지 않고 포함합니다. 이 경우 β 2X = 1 범주와 X = 0 범주 사이의 Y 차이 백분율 입니다.Xβ2YX=1X=0
  6. Xβ2YXXY
  7. β2XYβ2
  8. 데이터가 로그 정규 분포 인 경우 로그 변환으로 데이터가 정규 분포됩니다. 일반적으로 분산 된 데이터에는 많은 이점이 있습니다.

통계 학자들은 일반적으로이 특정 데이터 변환에 대해 경제학자들이 과열 된 것을 발견합니다. 제 생각에 그들은 8 포인트와 3 포인트의 후반부가 매우 중요하다고 판단하기 때문입니다. 따라서 데이터가 정규 분포를 따르지 않거나 데이터를 로깅 할 때 변환 된 데이터가 관측치에 대해 동일한 분산을 갖지 않는 경우 통계학자는 변환을 매우 좋아하지 않는 경향이 있습니다. 경제학자는 우리가 변화에 대해 정말로 좋아하는 점이 1,2 및 4-7이기 때문에 어쨌든 앞으로 나아갈 것입니다.


7
이것들은 표준적인 점이지만 간결하게 모아 두는 것이 좋습니다. 많은 계정이 이러한 요점 중 일부만 다룹니다. 작은 점 : 경제학자의 태도와 통계학 자의 태도 사이의 대조는 약간 과도하다고 생각합니다. 예를 들어, 오류 패밀리에 대한 링크의 중요성은 일반화 된 선형 모델 문헌을 통해 이루어 지지만 더 많은 트럼펫과 관련이있을 수 있습니다. Keene, Oliver N. 1995. 로그 변환은 특별합니다. 의학 14의 통계 : 811-819. DOI : 10.1002 / sim.4780140810이 또 다른 예입니다.
Nick Cox

21

먼저 삐뚤어진 것을 기록 할 때 일반적으로 어떤 일이 발생하는지 봅시다.

맨 윗줄에는 점점 더 치우친 세 가지 분포의 표본에 대한 히스토그램이 포함되어 있습니다.

하단 행에는 로그에 대한 히스토그램이 있습니다.

여기에 이미지 설명을 입력하십시오

yxz

분포가보다 정상적인 것처럼 보이도록하려면 변환이 두 번째 및 세 번째 사례를 확실히 개선했습니다. 이것이 도움이 될 수 있음을 알 수 있습니다.


왜 작동합니까?

분포 모양의 그림을 볼 때 평균 또는 표준 편차를 고려하지 않고 축의 레이블에만 영향을 미칩니다.

따라서 우리는 일종의 "표준화 된"변수를보고 있다고 상상할 수 있습니다 (긍정적으로 남아있는 동안 모두 비슷한 위치와 확산을 가짐)

중앙값을 기준으로 오른쪽 (높은 값)에서 더 극단적 인 값을 로그로 가져 오는 반면, 가장 왼쪽 (낮은 값)의 값은 중간에서 멀어지면서 뒤로 늘어지는 경향이 있습니다.

여기에 이미지 설명을 입력하십시오

xyz

y

그러나 우리가 통나무를 가져 가면, 그것은 중앙값을 향해 당겨집니다. 통나무를 채취 한 후 중앙값 위의 사 분위수 범위는 약 2 입니다.

y

여기에 이미지 설명을 입력하십시오

log (750)와 log (30)가 log (y)의 중앙값에서 거의 같은 거리에 도달했을 때 750/150과 150/30의 비율이 모두 5 인 것은 우연이 아닙니다. 상수 비율을 상수 차이로 변환하여 로그가 작동하는 방식입니다.

항상 로그가 눈에 띄게 도움이되는 것은 아닙니다. 예를 들어, 로그 정규 확률 변수를 사용하여 평균을 표준 편차에 비해 크게되도록 실질적으로 오른쪽으로 이동하면 (즉, 큰 상수를 추가) 그 로그를 취하면 차이가 거의 없습니다. 형태. 덜 치우 치지 만 간신히.


그러나 제곱근과 같은 다른 변형도 큰 가치를 끌어낼 것입니다. 왜 로그가 더 인기가 있습니까?

0.162

예를 들어, 많은 규모의 경제 및 재무 데이터는 백분율 척도에 일정하거나 거의 일정한 영향을 미칩니다. 이 경우 로그 스케일이 의미가 있습니다. 또한, 그 비율 스케일 효과의 결과. 평균값이 증가함에 따라 값의 스프레드가 커지는 경향이 있으며 로그를 취하면 스프레드가 안정화되는 경향이 있습니다. 그것은 보통 정상보다 중요합니다. 실제로 원본 다이어그램의 세 가지 분포는 모두 표준 편차가 평균에 따라 증가하는 패밀리에서 나 왔으며 각 경우에 로그를 취하면 분산이 안정화됩니다. [이것은 모든 비뚤어진 데이터에서는 발생하지 않습니다. 특정 응용 분야에서 발생하는 데이터 종류에서 매우 일반적입니다.]

제곱근으로 인해 대칭이되는 경우도 있지만 여기 예제에서 사용하는 것보다 덜 치우친 분포로 발생하는 경향이 있습니다.

우리는 약간의 오른쪽으로 치우친 예제 3 개를 더 공정하게 쉽게 만들 수 있었는데, 여기에서 제곱근은 하나의 왼쪽 비대칭, 하나의 대칭, 세 번째는 여전히 오른쪽으로 치우 쳤습니다 (그러나 이전보다 약간 덜 치우침).


왼쪽으로 치우친 분포는 어떻습니까?

로그 변환을 대칭 분포에 적용한 경우 오른쪽 왜곡을 한 번 더 대칭으로 만드는 것과 같은 이유로 왼쪽으로 치우치는 경향이 있습니다 . 여기 에서 관련 설명을 참조 하십시오 .

이에 따라 이미 왜곡 된 항목에 로그 변환을 적용하면 훨씬 왼쪽으로 치우쳐 중앙값 위의 항목을 더 단단히 잡아 당기고 중간 값 아래의 항목을 더 세게 줄입니다.

따라서 로그 변환은 도움이되지 않습니다.

전력 변환 / 터키의 사다리 도 참조하십시오 . 비대칭 분포는 거듭 제곱 (1보다 크면-제곱합)을 취하거나 지수화하여 더 대칭 적으로 만들 수 있습니다. 명백한 상한이있는 경우 상한에서 관측 값을 빼고 (오른쪽으로 치우친 결과 제공) 변환을 시도 할 수 있습니다.


이 훌륭한 답변에 대해 Glen_b에게 감사드립니다. 실증적 데이터를 설명하고이 변환이 왜 / 어떻게 작동하는지에 대한 직관적 인 설명을 제공합니다. 매우 감사.
Ram

5

로그 기능은 본질적으로 매우 큰 값을 강조하지 않습니다. 아래 그림에서 . x의 값이 얼마나 큰지 확인하십시오.y=ln(x)x 축의 이 y 축의 상대적으로 더 작은 .

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

이제 오른쪽으로 치우친 분포에서는 매우 큰 값이 몇 개 있습니다. 로그 변환은 기본적으로이 값을 분포의 중심으로 가져 오므로 정규 분포처럼 보입니다.


1

이 모든 대답은 자연 로그 변환에 대한 판매 피치입니다. 사용에 대한주의 사항, 모든 변형에 일반화되는주의 사항이 있습니다. 일반적으로 모든 수학적 변환은 압축, 확장, 반전, 크기 조정 등 기본 원시 변수의 PDF를 재구성합니다. 이것이 실질적으로 실용적인 관점에서 나타나는 가장 큰 과제는 예측이 핵심 모델 출력 인 회귀 모델에 사용될 때 종속 변수의 변환 인 Y-hat입니다., 잠재적으로 심각한 재 변환 편향이 있습니다. 자연 로그 변환은이 편견에 영향을받지 않으며 다른 유사한 행동 변환만큼 영향을받지 않습니다. 이 편견에 대한 솔루션을 제공하는 논문이 있지만 실제로는 잘 작동하지 않습니다. 내 의견으로는, 당신은 Y 를 전혀 변형시키지 않고 원래의 메트릭을 유지할 수있는 강력한 기능적 형태를 찾는 것을 망설이지 않고 훨씬 더 안전하다고 생각합니다 . 예를 들어 자연 로그 외에 역 쌍곡 사인 또는 램버트 W 와 같은 왜곡 및 첨도 변수의 꼬리를 압축하는 다른 변환이 있습니다.. 이 두 변환은 대칭 PDF를 생성하는 데 매우 효과적이므로 두꺼운 정보에서 가우시안과 유사한 오류가 발생하지만 DV, Y 의 원래 스케일로 예측을 다시 가져 오려고 할 때 편견을 조심하십시오 . 못생긴 것일 수 있습니다.


3
W

3
우리 모두는 규칙의 다양한 측면을보고 있지만 많은 사람들이 규칙의 지혜를 보았고 명백한 제한을 피하기위한 건설적인 방법을 찾았 기 때문에 여기에서 계속 상호 작용합니다. 이 규칙은 기본입니다. 질문에 대답하지 않은 게시물은 속하지 않습니다. 각 스레드를 일관되고 제한적이며 깨끗하며 주제에 가깝게 유지하는 경향이 있습니다. 다른 Q & A 사이트에서 찾을 수있는 것보다 더 유용하고 흥미로운 경향이있는 자료를 만드는 것이 중요합니다.
whuber

3
당신은 이것에 대해 고민했지만 내 견해로는 대답으로 매우 문제가 남아 있습니다. 1. 당신은 여러 가지 방법으로 질문을 넓히고 있습니다. 예를 들어 꼬리가 두꺼운 분포를 가져 오는 것. 그것은 일부 스레드에서 합리적인 일이 될 수 있지만 여기에 고품질 답변이있는 잘 집중 된 스레드가 있으며 여기에 추가 답변은 물에 의한 큰 진흙 투성이입니다. 질문에 대한 기존의 정답이있는 경우 새로운 정답이 있어야합니다.
Nick Cox

4
2. 변형 바이어스에 대한 주장은 여전히 ​​팔을 울리고있다. 로그가 다른 유사한 변환보다 문제가 적다는 신비로운 주장을 포함하여 주장과 일치하는 답변에 대한 기술적 정확성은 없습니다.
Nick Cox

4

0

많은 흥미로운 지적이 이루어졌습니다. 좀 더?

1) 선형 회귀의 또 다른 문제는 회귀 방정식의 '왼쪽'이 예상 값 E (y)라는 것입니다. 오차 분포가 대칭이 아닌 경우, 예상 값을 연구 할 때의 장점은 약합니다. 오차가 비대칭 일 때 기대 값이 중요하지 않습니다. 대신 양자화 회귀를 탐색 할 수 있습니다. 그런 다음 오차가 비대칭적인 경우에도 중앙값 또는 다른 백분율 포인트에 대한 연구가 가치가있을 수 있습니다.

2) 응답 변수를 변환하기로 선택한 경우 설명 변수 중 하나 이상을 동일한 기능으로 변환하려고 할 수 있습니다. 예를 들어, 응답으로 '최종'결과가있는 경우 설명 변수로 '기준'결과가있을 수 있습니다. 해석을 위해 동일한 기능을 가진 변환 '최종'과 '기준선'이 의미가 있습니다.

3) 설명 변수를 변환하는 주요 주장은 종종 반응-설명 관계의 선형성에 관한 것입니다. 요즘에는 설명 변수에 대해 제한된 입방 스플라인 또는 분수 다항식과 같은 다른 옵션을 고려할 수 있습니다. 선형성을 찾을 수 있다면 분명한 명확성이 종종 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.