언제 (그리고 왜) 배포 로그 (숫자)를 가져와야합니까?


173

과거 주가, 항공권 가격 변동, 회사의 과거 재무 데이터와 같은 과거 데이터가 있다고 가정합니다.

이제 누군가 (또는 일부 공식)가 와서 "배포 로그를 가져 가거나 사용합시다"라고 말하면 여기가 내가 어디로 갈까요 ?

질문 :

  1. 왜 먼저 배포 로그를 가져와야합니까?
  2. 배포판의 로그는 원래 배포판이 할 수 없었거나 할 수 없었던 것을 '주거나 단순화'합니까?
  3. 로그 변환이 '무손실'입니까? 즉, 로그 공간으로 변환하고 데이터를 분석 할 때 원래 분포에 대해 동일한 결론을 내립니까? 어떻게 오세요?
  4. 그리고 마지막으로 배포 로그를 언제 가져야합니까? 어떤 조건 하에서 이것을 결정합니까?

로그 기반 분포 (예 : 로그 정규)를 이해하고 싶었지만 언제 / 왜 측면을 이해하지 못했습니다. 즉, 분포 로그가 정규 분포이므로 어떻게해야합니까? 그게 나에게 무엇을 말하고 왜 귀찮게합니까? 따라서 질문!

업데이트 : @ whuber의 의견에 따라 게시물을 살펴 보았고 어떤 이유로 인해 선형 회귀 분석에서 로그 변환과 응용 프로그램의 사용을 이해합니다. 독립 변수와 종속 변수의 로그 사이의 관계를 그릴 수 있기 때문입니다. 그러나 내 질문은 분포 자체를 분석한다는 의미에서 일반적입니다. 분포를 분석하기 위해 로그를 취하는 이유를 이해하는 데 도움을 줄 수있는 관계는 없습니다. 나는 이해가되기를 바랍니다 :-/

회귀 분석에서는 데이터의 유형 / 적합 / 분포에 제약이 있으며 데이터를 변환하고 독립 변수와 변환되지 않은 종속 변수 간의 관계를 정의 할 수 있습니다. 그러나 유형 / 적합 / 분포 제약 조건이 반드시 회귀와 같은 프레임 워크에 적용 할 필요가없는 독립된 분포에 대해 언제 / 왜 그렇게 하는가? 설명이 혼란스러워하는 것보다 더 명확하게되기를 바랍니다. :)

이 질문은 "WHY and WHEN"에 대한 명확한 대답이 필요합니다.


3
여기여기의 이전 질문과 거의 동일한 근거를 다루므로 해당 스레드를 읽고 아직 해결되지 않은이 문제의 모든 측면에 초점을 맞추기 위해 질문을 업데이트하십시오. # 4 (및 # 3의 일부)는 여러 곳에서 쉽게 답을 찾을 수있는 로그에 대한 기본적인 질문입니다.
whuber

1
설명이 도움이됩니다. 그러나 일정한 항만 사용하고 다른 독립 변수는없는 회귀 분석이 평균 주위의 데이터 변동을 평가한다는 사실을 숙고하고 싶을 것입니다. 따라서 회귀 분석에서 종속 변수 로그를 가져 오는 효과를 실제로 이해하면 여기에서 요구하는 (더 간단한) 상황을 이미 이해 한 것입니다. 간단히 말해, 회귀에 대한 네 가지 질문 모두에 대한 답을 얻은 후에는 "독립 분포"에 대해 다시 질문 할 필요가 없습니다.
whuber

@ whuber : 알다시피 ... 그래서 회귀에 로그를 가져 오는 이유를 이해하지만, 그렇게 배웠기 때문에-나는 관점에서 데이터를 가정해야한다는 가정에서 이해합니다. 선형 회귀 그건 내 유일한 이해 야 어쩌면 내가 잃어버린 것은 통나무를 가져 오는 효과에 대한 "실제 이해"와 혼동입니다. 어떤 도움이 되겠습니까? ;)
PhD

2
아, 그러나 회귀 분석에 로그를 사용한 후에는 결과가 다르게 해석되고 역변환 적합치와 신뢰 구간을 관리한다는 것을 알기 때문에 그 이상을 알고 있습니다. 나는 당신이 혼란스럽지 않을 수도 있고 처음에는 그것을 알지 못했지만 이미 네 가지 질문에 대한 많은 답변을 이미 알고 있다고 제안합니다 .
whuber

2
여기서 독자는 또한 밀접하게 관련된 스레드를 살펴볼 수 있습니다. 로그 변환 예측 변수선형 회귀 분석에서 로그 변환 계수를 해석하는 방법 .
gung

답변:


98

비선형이지만 와 같은 선형 모델로 변환 될 수있는 모델 형식을 가정 하면 지정된 로그 형식을 충족시키기 위해 로그를 취하는 것이 정당화됩니다 . 당신이 인과 계열이 있는지 여부 일반적으로, 유일한 시간은 당신의 로그인 복용 정당화 또는 올바른 것 가의 분산 입증 할 수있는 경우이다 의 예상 값에 비례logY=β0+β1tYYYY2. 다음에 대한 원래 소스는 기억 나지 않지만 전력 변환의 역할을 잘 요약합니다. 분포 가정은 항상 관측 된 Y가 아니라 오차 프로세스에 관한 것이므로, 계열이 간단한 상수로 정의되지 않는 한 적절한 변환을 위해 원본 계열을 분석하는 것은 "아니오"입니다.

미확인 된 이상 / 레벨 이동 / 시간 추세 또는 매개 변수의 변경 또는 오류 분산의 변화를 다루기위한 부적절하거나 잘못 생각 된 시도이므로 차이를 포함하여 보증되지 않거나 부정확 한 변환은 적절하게 피해야합니다. 이에 대한 전형적인 예는 슬라이드 60에서 시작하여 여기에 설명되어 있습니다. http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation 여기서 3 개의 펄스 이상 ( 처리되지 않은) 초기 연구자들에 의해 불필요하게 로그 변환이 발생했습니다. 불행히도 현재의 일부 연구원들은 여전히 ​​같은 실수를하고 있습니다.

최적의 전력 변환은 Box-Cox Test 를 통해 찾을 수 있습니다 .

  • -1. 상호이다
  • -.5는 역수의 제곱근입니다.
  • 0.0은 로그 변환입니다
  • .5는 정사각형 ot 변환이고
  • 1.0은 변형이 없습니다.

더 예측 / 인과 /지지 입력 계열이 없을 때 모델 유의 도의 분포에 대해서 설명 더 요구 없는지 및 BUT 대해 만들어진다 오류 방법. 이 경우에 대한 분배 요구 사항 에 직접 전달할 . 당신은 이러한 회귀 또는 외인성 입력 모델 (과 회귀 - 이동 평균 모델 시리즈를 지원 한 경우 ARMAX 모델 )을 분배 가정 모두에 대한 있습니다 와의 분포와는 전혀 아무것도 없다 . 따라서 ARIMA 모델 또는 ARMAX 모델의 경우 변환을 가정하지 않습니다.Yt=u+atYatatYta t Y t Y Y Y X Y X 로그 Y 로그 Xat와이와이 다음에 대한 구제 (변환) 제안 최적의 박스 콕스 변환 발견하기 전에 . 초기에 일부 분석가는 와 사이의 회귀 계수를 검사하여 의 백분율 변화 결과로 의 백분율 변화를 반영 할 수 있도록 추정 방식으로 와 를 모두 변환 했습니다 . 요약하면 변형은 약물과 같으며 일부는 좋고 일부는 나에게 좋지 않습니다! 필요할 때만 사용해야하며주의해서 사용해야합니다.와이와이엑스와이엑스로그와이로그엑스


2
공감대를 떠난 사람은 이것이 공감 된 이유에 대해 언급해야한다는 데 동의합니다. Irishstat의 경우 답변을 남기기위한 형식화 옵션, 특히 라텍스에 방정식을 표시하는 데 사용할 수있는 형식화 옵션을 활용하면 게시물을 훨씬 쉽게 읽을 수 있습니다. 마크 다운 편집 도움말 섹션을 참조하십시오 . 해당 링크는 게시물 상자의 오른쪽 상단 (물음표가있는 주황색 원 안에)에 응답을 입력 할 때마다 사용할 수 있습니다.
Andy W

4
인용 된 표선형 회귀 분석대한 소개 , Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining에 있습니다.
user1717828

@ user1717828 tu .. 나는 시계 시리즈와 관련된 긴 수염을 가진 몽고메리의 팬이었다
IrishStat

두 번째 순간과 분산이 서로 비례한다는 것이 항상 사실이 아닙니까? 분산은 두 번째 모멘트에서 첫 모멘트 제곱을 뺀 것과 같습니다.
information_interchange

당신이 말하는 것처럼 분산은 두 번째 순간의 함수입니다. 나는 다른 곳에서 암시했다. 또한 분산은 다른 시점에서 (결정 론적으로) 변경 될 수 있습니다. pdfs.semanticscholar.org/09c4/… 는 전력 변환으로 해결되지 않습니다.
IrishStat

107

로그 스케일은 상대 변경에 대해 알려주고 (곱하기) 선형 스케일은 절대 변경에 대해 알려줍니다 (추가). 언제 사용합니까? 상대 변경에 관심이있는 경우 로그 스케일을 사용하십시오. 절대 변경에 관심이있는 경우 선형 스케일을 사용하십시오. 이는 분배뿐만 아니라 수량 또는 수량의 변경에도 적용됩니다.

여기서는 "care"라는 단어를 매우 구체적이고 의도적으로 사용합니다. 모델이나 목표가 없으면 질문에 대답 할 수 없습니다. 모델 또는 목표는 중요한 척도를 정의합니다. 무언가를 모델링하려고 할 때 메커니즘이 상대적 변경을 통해 작동하는 경우 데이터에 표시되는 동작을 캡처하는 데 로그 스케일이 중요합니다. 그러나 기본 모델의 메커니즘이 부가적인 경우 선형 스케일을 사용하는 것이 좋습니다.


$$$


$$$$


$

로그 공간으로 변환하면 상대 변경이 절대 변경으로 나타납니다.

로그10($1)로그10($1.10)
로그10($100)로그10($110)

이제 로그 공간절대 차이를 취하면 둘 다 .0413으로 변경되었음을 알 수 있습니다.

이 두 가지 변화 척도 모두 중요하며, 어느 것이 당신에게 중요한지는 전적으로 투자 모델에 달려 있습니다. 두 가지 모델이 있습니다. (1) 고정 된 금액의 원금 투자 또는 (2) 고정 된 수의 주식에 투자

모델 1 : 고정 된 금액의 원금으로 투자.

$$$$$$$$

모델 2 : 고정 주식 수

$

이제 주식 가치를 시간이 지남에 따라 변동하는 임의 변수로 생각하고 일반적으로 주식의 동작을 반영하는 모델을 생각해 내고자합니다. 수익을 극대화하기 위해이 모델을 사용한다고 가정 해 보겠습니다. x- 값이 '주가'단위 인 확률 분포와 주어진 주가를 관측 할 확률의 y- 값을 계산합니다. 우리는 주식 A와 주식 B에 대해이를 수행합니다. 투자하고자하는 고정 된 금액의 원금이있는 첫 번째 시나리오에 가입하면 이러한 분포를 기록하는 것이 유익합니다. 왜? 관심있는 것은 상대 공간의 분포 모양입니다. 주식이 1에서 10으로 또는 10에서 100으로가는 것이 중요하지 않습니까? 두 경우 모두 10 상대 이득. 이것은 단위 이득이 직접 폴드 이득에 해당한다는 점에서 로그 스케일 분포에서 자연스럽게 나타납니다. 그 평균값 다르지만 상대적인 변화를 동일하게 분배된다 (그들은 매일 동일한 분포가 두 증시 퍼센트 변화), 그 로그 분포 것이다 동일 단지 시프트 형상이다. 반대로, 선형 분포는 모양이 동일하지 않으며 값이 큰 분포는 분산이 더 높습니다.

선형 또는 절대 공간에서 동일한 분포를 살펴보면 주가가 높을수록 변동이 커진다고 생각할 수 있습니다. 그러나 상대적인 이익 만 중요한 투자 목적을 위해 이것이 반드시 사실은 아닙니다.

실시 예 2. 화학 반응. 가역적 반응을하는 두 개의 분자 A와 B가 있다고 가정하자.

에이

개별 속도 상수로 정의됩니다

케이에이에이케이에이에이

그들의 균형은 다음 관계에 의해 정의됩니다.

케이=케이에이케이에이=[에이][]

에이

케이=케이에이케이에이=[에이][]

(0,INF)

EDIT . 직관을 구축하는 데 도움이 된 흥미로운 유사점은 산술 수단기하학적 수단 의 예입니다.. 산술 (바닐라) 평균은 절대 차이가 중요한 숨겨진 모델을 가정하여 숫자의 평균을 계산합니다. 예. 1과 100의 산술 평균은 50.5입니다. 그래도 농도 사이의 화학적 관계가 곱해지는 농도에 대해 이야기한다고 가정 해보십시오. 그런 다음 평균 농도는 실제로 로그 스케일에서 계산되어야합니다. 이것을 기하 평균이라고합니다. 1과 100의 기하 평균은 10입니다! 상대적인 차이의 관점에서 이것은 10/1 = 10 및 100/10 = 10, 즉 평균과 두 값 사이의 상대적인 변화는 동일합니다. 또한 우리는 같은 것을 발견합니다. 50.5-1 = 49.5 및 100-50.5 = 49.5.


2
이것은 정말 유용한 답변이며 예제를 좋아합니다. 로그 변환을 사용하기 위해 "언제"에 대해 더 추가 할 수 있습니까? "상대적 변경에 관심이있을 때는 로그 스케일을 사용하고 절대 변경에 관심이있을 때는 선형 스케일을 사용하십시오."라고 말합니다. 그러나 상대적 변경에 관심이 있지만 로그 변환해서는 안되는 경우가 있습니까? 그렇다면 그러한 경우를 어떻게 감지합니까? 예를 들어,이 백서에서는 로그 정규 분포를 따르지 않는 데이터는 로그 변환하지 않아야한다고 설명합니다. ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88이 논문에 동의합니다. 그것은 왜 우리가 분포를 변형 시키는가?에 대한보다 광범위하고 철학적 인 질문에 대한 좁은 반응이다. 정답은 정규 분포 사이의 대조를 위해 잘 발달 된 통계 툴킷을 가지고 있지만 다른, 아마도 명명되지 않은 분포 (대부분)에 대해서는 덜 발달 된 툴킷이라고 생각합니다. 펑키 한 분포를 평가하는 방법은 더 정상적인 것으로 보이는지 확인하기 위해 로그를 가져 오는 것입니다. 그러나 IrishStat가 위에서 기술 한 바와 같이,이 경로는 위험이 있습니다 (사각형 페그, 둥근 구멍 종류).
vector07

1
이 효과에 대한 적절한 설명과 그것이 의사 결정 트리에 왜 datascience.com/에
Keith
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.