아마도 이것은 매우 기본적인 질문이지만 확실한 대답을 찾지 못하는 것 같습니다. 나는 여기서 할 수 있기를 바랍니다.
나는 현재 자신의 석사 논문 준비를 위해 논문을 읽고 있습니다. 현재 트윗과 주식 시장 기능의 관계를 조사하는 논문을 읽고 있습니다.
그들의 가설 중 하나에서, 그들은 증가 된 트위터 양이 거래량 증가와 관련이 있다고 제안합니다.
나는 상관 관계는 페어의 상관 관계에, 그들에게 기대 tweetVolume
와 함께 tradingVolume
, 대신 그들은이 버전을 기록하여 보고서 : LN(tweetVolume)
와 LN(tradingVolume)
.
내 논문을 위해, 나는 그들의이 논문을 복제했다. 6 개월 동안 약 100 개의 회사 ( tweetVolume
)와 같은 기간 동안 주식 거래량을 수집했습니다 . 절대 변수를 상관 시키면 찾을 수 r=.282, p.000
있지만 로깅 된 버전을 사용할 때을 찾습니다 r=.488, p=.000
.
연구원이 때때로 변수의 로그 버전을 사용 하는 이유 와 왜 그렇게하면 상관 관계가 훨씬 더 높은지 이해하지 못합니다 . 여기서 추론은 무엇이며, 기록 된 변수를 사용해도되는 이유는 무엇입니까?
당신의 도움은 대단히 감사합니다 :-)