시계열 세트 비교

비교할 시계열 데이터 세 세트가 있습니다. 그들은 약 12 일의 3 개의 별도 기간에 촬영되었습니다. 그들은 마지막 주 동안 대학 도서관에서 취한 평균, 최대 및 최소 인원 수입니다. 시간당 헤드 수는 연속적이지 않기 때문에 평균, 최대 및 최소를 수행해야했습니다 (시계열의 정규 데이터 간격 참조 ).

이제 데이터 세트는 다음과 같습니다. 12 저녁 동안 저녁마다 하나의 데이터 포인트 (평균, 최대 또는 최소)가 있습니다. 12 일 동안 만 3 학기 동안 데이터를 수집했습니다. 예를 들어 Spring 2010, Fall 2010 및 2011 년 5 월에는 각각 12 점 세트가 있습니다. 예제 차트는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

학기마다 패턴이 어떻게 변하는 지보고 싶기 때문에 학기를 겹쳤습니다. 그러나 링크 된 스레드 에서 들었 듯이 사이에 데이터가 없기 때문에 학기를 앞뒤로 두드리는 것은 좋지 않습니다.

문제는 다음과 같습니다. 각 학기의 출석 패턴을 비교하기 위해 어떤 수학적 기법을 사용할 수 있습니까? 시계열에 특별한 것이 있습니까, 아니면 단순히 백분율 차이를 취할 수 있습니까? 저의 목표는 요즘 도서관 이용이 증가하거나 감소하고 있다는 것입니다. 나는 그것을 보여주기 위해 어떤 기술을 사용 해야하는지 잘 모르겠습니다.

time-series multiple-comparisons trend

— 인두 비둘
소스

답변:

고정 효과 ANOVA (또는 선형 회귀 등가)는 이러한 데이터를 분석하는 강력한 방법을 제공합니다. 예를 들어, 다음은 저녁 당 평균 HC의 플롯과 일치하는 데이터 세트입니다 (색당 하나의 플롯).

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234

에 count대한 분산 day및 color이 테이블을 생성합니다.

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206

model0.0000 의 p- 값은 적합도가 매우 중요 함을 나타냅니다. day0.0000 의 p- 값도 매우 중요합니다. 매일 변화를 감지 할 수 있습니다. 그러나 color0.2001 의 (학기) p- 값은 중요하게 간주되지 않아야합니다 . 매일 변동을 제어 한 후에도 세 학기 간의 체계적인 차이를 감지 할 수 없습니다 .

Tukey의 HSD ( "정직한 유의미한 차이") 테스트는 0.05 수준에서 매일 평균 (학기에 관계없이)의 다음과 같은 중대한 변화를 식별합니다.

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

이것은 그래프에서 눈이 볼 수있는 것을 확인합니다.

그래프가 꽤 많이 움직이기 때문에 시계열 분석의 전체 지점 인 일상 상관 관계 (직렬 상관 관계)를 감지 할 수있는 방법이 없습니다. 다시 말해, 시계열 기술에 신경 쓰지 마십시오. 더 큰 통찰력을 제공하기에 충분한 데이터가 없습니다.

통계 분석 결과를 얼마나 많이 믿을 수 있는지 항상 궁금해야합니다. 이분산성에 대한 다양한 진단 (예 : Breusch-Pagan 테스트 )은 아무 것도 보여주지 않습니다. 잔차는 매우 정상적이지 않으며 (일부 그룹으로 묶임) 모든 p- 값은 한 알의 소금으로 가져와야합니다. 그럼에도 불구하고, 이들은 합리적인 지침을 제공하고 그래프를 통해 얻을 수있는 데이터의 의미를 정량화하는 데 도움이되는 것으로 보입니다.

일일 최소값 또는 일일 최대 값에 대해 병렬 분석을 수행 할 수 있습니다. 가이드와 유사한 플롯으로 시작하고 통계 출력을 확인하십시오.

— 우버
소스

단순하면서도 강력한 기술을 보여주는 +1 그래프에서 값을 추출하기 위해 어떻게 관리 했습니까? 일부 소프트웨어 또는 나쁜 행동을하는 학생에 대한 처벌? :)

— mpiktas

@mp 그래픽 스크린 샷 위에 포인트를 디지털화하고 좌표를 GIS 소프트웨어로 추출하고 좌표를 스프레드 시트로 변환 한 다음 통계 패키지로 가져 왔습니다. 몇 분 밖에 걸리지 않습니다. 이 방법은 사용자가 가지고있는 유일한 데이터가 차트 또는 맵 형식 일 때 유용합니다.

— whuber

트윗 담아 가기 나는 이것을 몰랐다.

— suncoolsu

@ whuber 36 개의 독립적 인 관측치에 비해 12 개의 자동 상관 된 판독 값 3 세트가 어떤 영향을 미치는지 궁금합니다. 우리는 실제로 35 도의 자유가 없다고 생각합니다. 반영 할 확률은 중심이 아닌 카이-제곱 변수와 중심 카이-제곱 변수의 비율을 전제로합니다. 내가 여기서 놓친 것이 있습니까? 줄거리에서 숫자를 추출하는 것이 좋습니다. 이와 관련하여 우리를 돕기 위해 참조 할 수있는 특정 프로그램이 있습니까?

— IrishStat

@Irish 는 하루 동안의 평균 (색상)이고 는 다른 날 의 평균입니다. 나는 동성애를 가정합니다. 즉, ( unknown)입니다. 원하는 비교 ( "사용 ... 증가 또는 감소")는 인지 테스트합니다 . 상관 관계가 없으면 입니다. 상관성 사이에 및 , . 경우 , 실제로 분산 이하 보다 ANOVA 모델에서 가정 하였다. 결과적으로 t- 통계량, F- 통계량 및 Tukey HSD는 모두 더 높아야합니다

x

$x$

y

$y$

V a r (x) = V a r (y) = σ^{2}

$Var(x)=Var(y)=\sigma^2$

σ

$\sigma$

x - y = 0

$x-y=0$

V a r (x - y) = 2 σ^{2}

$Var(x-y)=2\sigma^2$

ρ

$\rho$

x

$x$

y

$y$

V a r (x - y) = 2 (1 - ρ) σ^{2}

$Var(x-y)=2(1-\rho)\sigma^2$

ρ > 0

$\rho \gt 0$ 보이는 것보다 중요합니다.

— whuber

Sarah, 36 개의 숫자 (사이클 당 12 개 값, 3주기)를 가져 와서 학기당 가능한 주중 효과를 반영하는 11 개의 지표로 회귀 모델을 구성한 다음 렌더링에 필요한 개입 시리즈 (펄스, 레벨 시프트)를 식별하십시오. 잔차의 평균은 모든 곳에서 0.0이거나 적어도 0.0과 통계적으로 크게 다르지 않습니다. 예를 들어, 기간 13에서 레벨 이동을 식별하는 경우 이는 첫 번째 학기 평균 (즉, 첫 12 개 값)과 마지막 두 학기 평균 (마지막 24 개 값) 사이의 통계적으로 유의 한 차이를 암시 할 수 있습니다. 매주 학기 효과가없는 가설을 추론하거나 테스트 할 수 있습니다. 이와 관련하여 좋은 시계열 패키지가 유용 할 수 있습니다. 이 분석 분야에서 도움을 줄 사람을 찾아야 할 수도 있습니다.

— IrishStat
소스

이것은 양방향 ANOVA (주기 별 일수)에 대한 설명과 11 일 간의 계획된 테스트가있는 것처럼 들립니다. 평범한 기존 통계 소프트웨어는 특수한 시계열 소프트웨어보다 유연하고 강력합니다. 확실히 더 쉬울 것입니다. BTW에서 지수는 학기의 주가 아닌 일 (시험 기간)입니다.

— whuber

분산 분석을 사용하여 하루 최대 값과 최소값을 비교할 수 있습니까? 아니면 이것은 수단에만 적용됩니까?

— induvidyul

@Sarah 최소 및 최대 값에 적용될 수 있습니다. 그러나 이러한 통계는 평균보다 훨씬 가변적 인 경향이 있으므로 시간이 지남에 따라 또는 학기 사이에 이러한 변화를 감지 할 가능성이 적습니다. 그래프를 보면 평균이 크게 다른 것을 알 수 있습니다. 가능하면 하루 중 시간을 통합하고 일일 평균이 아닌 원래 시간별 계수를 사용하여 분산 분석을 3 방향으로 만드십시오 .

— whuber

@ whuber : 시간별 데이터를 함께 묶는 것은 12am에서 6am까지만 기록 되었기 때문에 사용할 수 없다고 들었습니다. 내 이전 질문보기 시계열의 정규 데이터 간격 .

— induvidyul

@Sarah 나는 다른 무언가에 대해 이야기하고 있습니다 : 3 가지 요소, 즉 기간 (3 개), 기간 (12 개) 및 시간 (6 개)의 세 가지 요소로 종속성을 모델링하십시오. 시간 간의 상관 관계를 설명 할 수도 있지만 목적에 필요하지 않을 수도 있습니다. 어쨌든, 나는 각 기간을 12 * 24 카운트의 일련의 중단 된 것으로 보는 것을 옹호 하지 않습니다 : 누락 된 데이터가 너무 많습니다.

— whuber