각 날짜에 대한 여러 관측치가 포함 된 시계열 작성


11

분기당 3 회 반복하여 10 년 동안 분기 별 샘플링 데이터 (동물 바이오 매스)에 시계열을 적용하려고합니다. 따라서 40 개의 날짜와 120 개의 총 관측치가 있습니다.

나는 Shumway와 Stoffer의 시계열 분석에서 SARIMA'a를 읽었으며 응용 프로그램뿐만 아니라 스키드 우드워드 등도 읽었습니다. al. 's Applied 시계열 분석, 그리고 내 이해는 각 모델이 시계열의 각 지점에서 단일 관찰을 기반으로한다는 것입니다.

질문 : 모형의 각 관측치에 변동을 어떻게 포함시킬 수 있습니까? 평균에 대한 시리즈를 만들 수는 있지만 각 관측치에서 편차를 잃어 버릴 것입니다. 이것이 무슨 일이 일어나고 있는지 이해하는 데 중요하다고 생각합니다.


SARIMA는 다변량 사례로 확장 될 수 있으며 이는 귀하에게 적합 할 수 있습니다. 이 경우 키워드는 VAR입니다. 즉, 각 기간 동안 하나의 숫자 대신 숫자로 구성된 벡터를 관찰 할 수 있습니다.
mpiktas

답변:


4

"분기당 3 회 반복"이 의미하는 바에 따라 패널 데이터 ( wikipedia ) 모델이 적합 할 수 있습니다. 즉, 시간이 지남에 따라 동일하게 유지되는 세 가지 개별 소스 각각에서 하나씩 분기마다 세 가지 측정을 수행합니다. 데이터는 다음과 같습니다.

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

이것이 당신이보고있는 것이라면, 패널 데이터로 작업하기위한 많은 모델이 있습니다. 다음 은 패널 데이터를 보는 데 사용할 기본 R 중 일부를 다루는 알맞은 프레젠테이션 입니다. 이 문서 는 계량 경제 학적 관점에서 볼 때 조금 더 깊이있게 설명됩니다.

그러나 데이터가 패널 데이터 방법론에 맞지 않으면 "풀링 된 데이터"에 사용할 수있는 다른 도구가 있습니다. 이 논문 의 정의 (pdf) :

데이터 풀링은 여러 모집단과 관련된 여러 데이터 소스를 사용하는 통계 분석을 의미합니다. 여기에는 정보의 평균, 비교 및 ​​일반적인 해석이 포함됩니다. 관련된 데이터 소스와 인구가 동일한 / 유사한 지 다른지에 따라 다른 시나리오와 문제도 발생합니다.

보시다시피, 그 정의에서 사용하려는 기술은 데이터에서 정확히 배울 것으로 기대하는 것에 달려 있습니다.

매 분기마다 세 번의 추첨이 시간이 지남에 따라 일정하다고 가정 할 때 시작하기위한 장소를 제안하려는 경우 고정 효과 추정기 (내부 추정기라고도 함)를 패널 데이터 모델과 함께 사용하여 시작한다고 말하고 싶습니다. 데이터.

위의 예에서 코드는 다음과 같습니다.

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

다음과 같은 결과를 얻습니다.

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

여기서 우리는 1/4 변수에 대한 계수에서 시간의 영향뿐만 아니라 그룹 B 또는 그룹 C에있는 효과 (그룹 A와 반대)를 명확하게 볼 수 있습니다.

이것이 올바른 방향으로 어딘가에 있기를 바랍니다.


3

나는 이것이 재미 있다고 생각한다. 내 제안은 부드러운 시계열을 얻기 위해 세 개의 데이터 포인트를 평균화하는 것입니다. 당신이 이것을 무시하면 당신이 정보를 버리고있는 세 가지 관찰을 평균했다는 것을 지적 할 때. 그러나 각 시점에 대해 평균과의 제곱 편차를 합할 수 있습니다. 모든 기간에 걸쳐 제곱합을 모아 n-1로 나눕니다. 여기서 n은 계산에 사용 된 총 포인트 수입니다. 시계열 구조 (예 : 추세, 계절 성분, AR 의존성 구조)가있는 모형이있는 경우이 계산은 모형에서 오차 항의 분산에 대한 독립적이고 편향되지 않은 추정치 일 수 있습니다.


1
211
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.