시계열에서 누락 된 데이터를 채우는 방법은 무엇입니까?


16

2 년 동안 10 분마다 기록 된 많은 오염 데이터가 있지만 데이터에는 몇 가지 간격이 있습니다 (한 번에 몇 주 동안 진행되는 데이터 포함).

데이터는 계절에 따라 다르며 밤에 비해 값이 많이 변하지 않고 데이터 포인트가 더 낮은 밤에 비해 큰 변화가 있습니다.

낮과 밤 시간 하위 집합에 황토 모델을 별도로 적용하고 (그들 사이에 명백한 차이가 있기 때문에) 누락 된 데이터의 값을 예측 하고이 점을 채우는 것을 고려했습니다.

이것이이 문제에 접근하는 적절한 방법인지, 또한 예측 지점에 국소 변형을 추가 해야하는지 궁금합니다.

답변:


20

답은 연구 설계 (예 : 단면 시계열? 코호트 시계열, 연속 코호트 시계열?)에 따라 다릅니다. Honaker와 King은 이러한 데이터를 전가하기위한 R 패키지 Amelia II 를 비롯하여 단면 시계열 (가정에 따라 직렬 코호트 시계열에 유용 할 수 있음)에 유용한 방법을 개발했습니다 . 한편 Spratt & Co. Cohort 시계열 설계에 사용할 수있는 다른 접근 방식을 설명했지만 소프트웨어 구현에서는 드물다.

단면 시계열 디자인 (패널 연구 설계 일명) (예를 들어, 동일한 변수, 악기 등 인구 (들)을 반복적으로 샘플링 (되는)되는 한 (예를 들면, 매년), 동일한 연구 프로토콜을 사용 ). 표본 추출 전략이 대표적이라면, 이러한 종류의 데이터는 연구에서 각 모집단에 대한 변수 분포의 연간 그림 (참가자 또는 대상 당 한 번의 측정)을 생성합니다.

코호트 시계열 디자인 (일명 반복 코호트 연구 디자인, 종 방향 연구 설계는 또한 때때로 패널 연구 설계라고도 함) 분석의 각 유닛은 일단 샘플링 시간의 긴 기간 동안 준수하는 것입니다. 개인은 하나 이상의 집단으로부터 대표적인 방식으로 샘플링 될 수있다. 그러나 대표 코호트 시계열 샘플 은 시간이 지남 에 따라 대상 인구 (최소한 인구)에서 점차 빈약 한 대표자가 될 것입니다. 이민과 이민으로.

시리얼 집단 시계열 디자인 (일명 반복, 멀티, 여러 동료, 또는 패널 조사 설계) 인구 (들)을 반복 샘플링 (된다)하는 일 (예를 들어, 매년), 같은 연구 프로토콜을 사용하여 (이다 예를 들어, 동일한 변수, 도구 등). 변화율 측정을 생성하기 위해 기간 (예 : 연도) 동안 두 시점에서 모집단 내 개별 분석 단위를 측정합니다. 표본 추출 전략이 대표적이라면, 이러한 종류의 데이터는 연구에서 각 모집단에 대한 변수의 변화율에 대한 연간 그림을 생성합니다.

참고
Honaker, J. 왕, G. (2010). 시계열 횡단면 데이터의 결 측값에 대해 수행 할 작업 . 미국 정치학 저널 , 54 (2) : 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J. 및 Tilling, K. (2010). 종단 연구에서 다중 대치에 대한 전략 . 미국 역학 저널 , 172 (4) : 478–4876.


당신의 답변에 감사드립니다. 나는이 유형의 연구에 비교적 익숙하지 않고 이전 에이 용어를 보지 못했기 때문에 다른 유형의 시계열 (코호트, 단면 등)을 정의 할 수 있는지 궁금합니다.
Jamesm131

@ Jamesm131 수정 된 답변보기.
Alexis

7

R에서 imputeTS 패키지를 사용할 수 있습니다 . 작업중 인 데이터는 일 변량 시계열이라고 생각합니다 imputeTS 패키지는 (일 변량) 시계열 대치에 전문화되어 있습니다. 여러 가지 대치 알고리즘 구현을 제공합니다. 대치 알고리즘 외에도 패키지는 누락 된 데이터 통계의 플로팅 및 인쇄 기능도 제공합니다. 누락 된 값에 대한 State Space Models 를 살펴 보는 것이 좋습니다. 이 패키지는 분석에 도움이됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.