관련 볼륨 시계열


12

다음 그래프를 고려하십시오.

트위터와 거래량

빨간색 선 (왼쪽 축)은 특정 주식의 거래량을 나타냅니다. 파란색 선 (오른쪽 축)은 해당 주식의 트위터 메시지 볼륨을 나타냅니다. 예를 들어, 5 월 9 일 (05-09)에는 약 1 억 1 천만 건의 거래와 4 만 건의 트윗이 작성되었습니다.

같은 날 또는 지연과 함께 시계열 사이에 상관 관계가 있는지 계산하고 싶습니다. 예를 들어 트윗 볼륨은 하루 후에 거래량과 상관 관계가 있습니다. 이러한 분석을 수행 한 많은 기사 (예 : Financial Time Series와 Micro-Blogging Activity )를 읽고 있지만 그러한 분석이 실제로 어떻게 수행되는지는 설명하지 않습니다. 이 기사에는 다음이 명시되어 있습니다.

여기에 이미지 설명을 입력하십시오

그러나 통계 분석에 대한 경험이 거의 없으며 내가 가지고있는 시리즈에서이를 실행하는 방법을 모릅니다. 나는 SPSS (PASW라고도 함)를 사용하며 내 질문은 위의 이미지의 기본 데이터 파일이있는 시점에서 그러한 분석을 수행하기 위해 취해야 할 단계는 무엇입니까? 이러한 테스트는 기본 기능입니까? 그리고 그 기능을 어떻게 실행할 수 있습니까?

어떤 도움이라도 대단히 감사하겠습니다 :-)


1
당신은 그들을 계산할 수 있습니다 ... 당신은 두 시리즈가
이변 량

여기에 원시 데이터를 붙여 넣었습니다. pastebin.com/tZajRae9 시리즈가 이변 량 정규인지 여부를 알 수있는 방법이 있습니까? 귀하의 의견에 진심으로 감사드립니다.
Pr0no

각 시리즈에서 특이 치 / 레벨 이동을 감지 한 후 결과 조정 된 시리즈는 AR (1) 모델을 나타 냈습니다. Outlier / level Shift 조정과 경험적으로 식별 된 AR (1)을 통합 한 후 두 노이즈 시리즈 모두 자동 상관 관계가 없었습니다 (구조 내). 이 두 대리 시리즈의 상호 상관은 구조상 실질적인 상호 상관이 없음을 나타내므로 트윗 수는 볼륨 예측에 도움이되지 않는 것으로 보입니다.
IrishStat

답변:


6

이변 량 정규성에 대한 두 가지 검사 세 가지 확인 :

  1. 첫 번째 일련의 관측치가 약간 정상인지 확인
  2. 두 번째 일련의 관측치가 약간 정상인지 확인
  3. 서로 회귀하고 잔차가 정상인지 확인하십시오.

각 단계에서 정규성을 확인하려면 정규 qq 플롯을 사용하거나 정규 가설 검정을 사용할 수 있습니다.

또는 두 시리즈의 모든 가능한 선형 조합 (실제 계수)이 거의 정상인지 확인할 수 있습니다. 그래도 어려울 것입니다.

편집 : (6 년 후) 나는 후손을 위해 위의 내용을 유지하지만 여기에 비슷한 질문에 대한 최신 답변이 있습니다 .


1 단계와 2 단계를 수행하여 다음과 같은 상자 그림을 만들었습니다. i.imgur.com/SDOTE.png 3 ~ 5 개의 특이 치 관측치를 제외하고는 약간 정상으로 보입니다. 그러나 시그. Shapiro-Wilk Test의 값은 0.000이며 이는 정규성에서 유의 한 편차를 나타냅니다. 특이 치가 제거 된 Shapiro Wilk Sig. 트윗은 0.201, 거래는 0.004입니다. 상관 관계가 없음을 나타 냅니까? 또한 이것은 시계열입니다. 이상 값을 삭제한다는 것은 조사 된 시간 내에 일을 삭제하는 것을 의미합니다. 이것이 허용되는 관행입니까?
Pr0no

또한 3 단계에 대한 pp 도표를 만들었습니다. 또는 적어도 내 해석에서 이것이 필요한 것입니다 ( 정확한 확률 도표를 사용한 선형 회귀) : i.imgur.com/EZ3Ic.png 의견이 있으 십니까?
Pr0no

한계 분포가 정상적으로 보이지 않습니다. 위키 백과 페이지 링크 에는 추론에 관한 작은 섹션이 있습니다 . 특이 치를 제거하는 것은 일반적으로 좋은 생각이 아닙니다. 신뢰 구간을 부트 스트랩 할 수 있습니다.
Taylor

1
문제는 상관 관계에 관한 것이지만 정답에 관한 것입니다. 답변은 여러 차례 공표되어 수락됩니다. 내가 여기서 무엇을 놓치고 있니? ..
Richard Hardy

이변 량 정규 분포는 Pearson 상관 관계를 사용하여 동기를 부여 / 정의하는 가장 간단한 모형입니다.
Taylor

11

시계열 간의 상관 계수는 쓸모가 없습니다. 유의성 검정에 대한 상관 계수-임계 값을 참조하십시오 . 이것은 1926 년 U. Yule이 처음 지적한 바있다 . "왜 우리는 때때로 시계열간에 넌센스 상관 관계를 얻는가? 샘플링과 시계열의 특성 연구", Royal Statistical Society 저널 89, 1 –64 . 더 많은 것을 위해 "우리는 왜 우리가 말도 안되는 상관 관계를 얻는가?"

그 이유는 상관 관계 관절의 정규성 검정입니다. 결합 정규성은 각 계열이 정상이어야합니다. 정규성은 독립성을 요구합니다. 시계열 간의 관계를 조사하려면 William WS Wei, David P. Reilly의 시계열 분석 : 일 변량 및 다변량 방법과 같은 좋은 시계열 책에서 전달 함수 식별을 검토하십시오 .

도전 답변

당신의 도전에 대한 해답입니다. 소수 ( Ule, GU, 1926 )에 따르면 , 두 시계열의 상관이 특히 시리즈 중 하나가 펄스 / 레벨 시프트 / 계절 펄스 및 / 또는 로컬 시간 추세에 영향을받는 경우 결함이있을 수 있다는 것은 잘 알려져 있습니다. 이 경우 각 시리즈를 개별적으로 가져와 ARIMA 구조와 오류 프로세스를 적용하고 생성 할 수있는 펄스 / 레벨 시프트 / 계절 펄스 및 / 또는 로컬 시간 추세를 식별합니다.

두 개의 원래 계열 각각에 대해 하나씩, 두 개의 명확한 오류 프로세스를 사용하여 교차 상관을 계산하여 각 계열 내에서 자동 상관 구조의 위와 그 이상의 연관 정도를 측정하는 데 사용할 수 있습니다. 이 솔루션을 이중 사전 미백 방식이라고합니다.

보다:


답장을 보내 주셔서 감사합니다. 그러나 당신은 정의에 의해 ao 내가 언급 한 논문이 가치가 없다고 말하고 있습니까? 둘째, 이것은 정의에 의해 cthe 상관 관계가 의미가있는 곳에서 두 계열이 상관 될 수 없다는 것을 의미합니까?
Pr0no

3
상관은 단순 산술로 계산 될 수 있습니다. 쉽게 계산할 수없는 것은 상관 관계가 통계적으로 유의할 확률입니다. 상관 계수를 처음 소개 한 시점으로 다시 생각하십시오. N 개의 독립적 인 샘플과 관련하여 2 개의 특성 / 값이 각각의 N 개의 독립적 인 샘플에 대해 계산되었고 조인트 밀도는 이변 량 정상이었다.
IrishStat

1
왜 동일한 (대칭?) 분포가 아닌 공동 정규성이 필요한가? 즉, 공동 균일 성이 작동하지 않습니까?
naught101

1
@ NAUGHT101. 상관 계수의 임계 값은 관절 정규성 가정 하에서 이용 가능하며 다른 방법으로는 정의되지 않습니다.
IrishStat

@IrishStat 편집 한 답변에 감사드립니다. 감사합니다. 정규성 테스트 의 경우 개별 변수의 qq 플롯에 대해서는 i.imgur.com/SDOTE.png 를 참조하십시오 . 특이 치가 제거 된 후, 공동 규범을 측정하는 것을 이해 한 pp 도표는 다음과 같습니다. i.imgur.com/EZ3Ic.png 의견 이 있으 십니까?
Pr0no
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.