기록 된 변수를 사용하는 이유는 무엇입니까?


12

아마도 이것은 매우 기본적인 질문이지만 확실한 대답을 찾지 못하는 것 같습니다. 나는 여기서 할 수 있기를 바랍니다.

나는 현재 자신의 석사 논문 준비를 위해 논문을 읽고 있습니다. 현재 트윗과 주식 시장 기능의 관계를 조사하는 논문을 읽고 있습니다.

그들의 가설 중 하나에서, 그들은 증가 된 트위터 양이 거래량 증가와 관련이 있다고 제안합니다.

나는 상관 관계는 페어의 상관 관계에, 그들에게 기대 tweetVolume와 함께 tradingVolume, 대신 그들은이 버전을 기록하여 보고서 : LN(tweetVolume)LN(tradingVolume).

내 논문을 위해, 나는 그들의이 논문을 복제했다. 6 개월 동안 약 100 개의 회사 ( tweetVolume)와 같은 기간 동안 주식 거래량을 수집했습니다 . 절대 변수를 상관 시키면 찾을 수 r=.282, p.000있지만 로깅 된 버전을 사용할 때을 찾습니다 r=.488, p=.000.

연구원이 때때로 변수의 로그 버전을 사용 하는 이유 와 왜 그렇게하면 상관 관계가 훨씬 더 높은지 이해하지 못합니다 . 여기서 추론은 무엇이며, 기록 된 변수를 사용해도되는 이유는 무엇입니까?

당신의 도움은 대단히 감사합니다 :-)


1
페이지 오른쪽 하단에 관련 스레드가 표시되면 로그 사용이 몇 번 전에 다뤄졌습니다. 특히 선형 회귀 분석에서 실제 값 대신 독립 변수의 로그를 사용하는 것이 적절한 경우를 참조하십시오 . .
Andy W

답변:


24

기록 된 변수를 사용하는 이유는 통계 및 실질적인 두 가지 범주로 구분됩니다.

통계적으로 변수가 오른쪽으로 치우치면 (즉, 상한에서 긴 꼬리를 가짐) 상관 관계 또는 회귀와 같은 측정 값이 하나 또는 두 가지 모두의 상한에서 하나 또는 몇 경우에 의해 많은 영향을받을 수 있습니다. 변수 (이상치, 레버리지 포인트, 영향력있는 포인트). 로그를 가져 오면 기울어 짐을 줄이거 나 없앰으로써 도움이 될 수 있습니다.

실질적으로 일부 개념은 차이보다 비율 측면에서 더 잘 생각됩니다. 논의하는 두 가지 볼륨 측정을 수행하십시오. 이제 두 회사를 비교해보십시오. 하나는 소수의 사람들이들은 NASDAQ에 거래하는 소규모 회사이고 다른 하나는 대기업입니다. 전자는 하루에 아주 적은 트윗을받습니다. 후자는 많은 것을 얻게 될 것이다. 거래량과 유사합니다. 회사 A는 일반적으로 하루에 100 개의 트윗을 받고 후자는 100,000을받는다고 가정합니다 (수를 선택하기 만하면).

회사 A의 트윗이 100에서 500으로 증가하면 (400의 차이, 5의 비율) 큰 뉴스입니다. 무언가가 일어나고 있어야합니다. 그러나 회사 B가 100,000에서 100,400으로 증가하면 (400의 차이, 1에 매우 가까운 비율) 아무도 신경 쓰지 않습니다. 대략 동등한 것은 100,000에서 500,000으로 넘어가는 것입니다.


빠른 답변 감사합니다. 두 가지 질문이 더 있습니다. 먼저, 객체에 대한 3 가지 속성 (주식 거래량, 수익률 및 변동성)이 있고 그 중 하나에 대해 기록 된 버전을 가져 오면 어떻게됩니까? 회사 A와 B의 트윗에 대한 답변도 수익으로 계산 될 수 있습니다. 회사 A 주식이 1에서 1로 상승한 경우 수익은 (50 %) 0.50입니다. 회사 B는 비슷한 % 수익률을 위해 400에서 600 (200)으로 증가해야합니다. 그리고 그 결과에서 비롯됩니다. 수익이 음수이면 LN (-0.50)은 분명히 작동하지 않습니다. 그런 다음 -LN (0.50)을 사용할 수 있습니까?
Pr0no

또한 올바르게 이해하면 기록 된 변수를 취하는 것이 자유 선택이 아닙니다-skweness-charts (통계적으로)에 의해 논쟁되어야합니까? 그리고 실질적으로 로그를 가져 오는 논리적 인 추론이 실제로 그렇게하는 데 도움이 되는가? 다른 말로, 여기에 기록 규칙을 정의해야하는 임계 값을 정의하는 규칙이 있습니까? 아니면 해석의 문제입니까?
Pr0no

1
이 경우 백분율 로그를 원하지 않습니다. 백분율을 가져 오면 로그의 기능이 수행됩니다. 즉, 비율을 만듭니다. 확실히 일부 변수는 기록 할 수 있지만 다른 변수는 기록 할 수 없습니다. 로그를 가져 오는 데 왜도 차트가 필요하지 않지만 일반적으로 로그해야하는 변수는 오른쪽으로 치우칩니다. 그러나 가장 중요한 것은 물질 입니다. 로그를 가져 오는 것이 의미가 없다면 그렇게하지 마십시오. 대신 기울어 진 변수에 대해 작동하는 통계 방법을 사용하십시오. 물질이 우선입니다.
Peter Flom-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.