집계시 어떤 통계가 유지됩니까?


12

노이즈가 많은 길고 높은 해상도의 시계열이있는 경우 데이터를 더 낮은 해상도 (예 : 매일부터 월 단위로)로 집계하여 진행 상황을 더 잘 이해하고 일부를 효과적으로 제거하는 것이 좋습니다. 소음.

별도의 변수에 대한 선형 회귀 분석에 대한 를 포함하여 집계 된 데이터에 일부 통계를 적용하는 논문이 하나 이상 있습니다. 유효합니까? 노이즈 감소로 인해 평균화 프로세스가 결과를 약간 수정한다고 생각했을 것입니다.r2

일반적으로 집계 된 시계열 데이터에 일부 통계를 적용 할 수 있습니까? 그렇다면 어느 것입니까? 선형 조합 인 것일 수도 있습니다.


관련, 생태 오류를 참조하십시오 .
Andy W

1
@cbeleites의 의견과 관련하여 여기에는 이론적 대답이 있다고 생각합니다. 선형 조합이 유지된다는 제안의 확장입니다. 그러나 실제 적용 용어로는 접근의 유효성에 대한 일반적인 결론을 내리기가 매우 어렵고 구체적인 예가 필요합니다.
Jonathan

답변:


6

제목과 같은 질문은 유용한 방법으로 답변하기에 너무 광범위하다고 생각합니다. 집계 방법과 문제 통계에 따라 달라질 수 있습니다.

  • 이것은 "평균"에도 적용됩니다 : 신호 모양과 강도를 유지하려고합니까 (예 : Savitzky-Golay 필터) 신호 아래의 영역을 유지하려고합니까 (예 : 황토)?

  • 노이즈 관련 통계는 분명히 영향을받습니다. 이는 일반적으로 집계 의 목적 입니다.

집계 된 데이터에 일부 통계를 적용하는 문서를 하나 이상 보았습니다. [...] 유효합니까? 노이즈 감소로 인해 평균화 프로세스가 결과를 약간 수정한다고 생각했을 것입니다.

이 수정은 아마도 집계 의 목적 일 것입니다 .

일반적으로 데이터에 대해 많은 작업을 수행 할 수 있지만

  • 당신이하고있는 일을 말하십시오.
  • 결과 모델의 품질 표시 (독립 데이터로 테스트)

유효한 집계는 응용 프로그램에 따라 다릅니다.
예 : 분광 데이터로 작업하고 있습니다. 단일 스펙트럼을 평균 스펙트럼으로 집계하는 것이 매우 일반적입니다. 측정 프로세스는 "한 번에"얻을 수있는 스펙트럼 품질에 대한 특정 제한을 의미합니다. 그러나 많은 응용 분야에서 항상 반복 측정을 수행하고 평균화해야 한다는 획득 절차를 지정하는 것이 완벽하게 유효합니다 . 반면에 응용 프로그램이 실시간 / 온라인 또는 FIA (flow injection analysis) 와 같은 인라인 분석 인 경우 가능한 집계 체계에 대한 제한이 있습니다.n


5

회귀 설정에서 실제로 단순 집계가 올바른 선택인지 테스트 할 수 있습니다. 월간 데이터 와 일별 데이터 ( 한 달에 고정 일) 가 있다고 가정합니다 . 회귀에 관심이 있다고 가정하십시오.YtXτm

Yt=α+βX¯t+ut,(1)

여기서

X¯t=1mh=0m1Xtmh.

여기서 우리는 매달 대한 일일 관측치가 합니다. 이 경우 우리는 매일 같은 무게를 가졌다 고 가정했는데, 이는 분명히 제한 사항입니다. 따라서 더 일반적인 모델이 있다고 가정 할 수 있습니다.tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

Xt(w)=h=1m1whXtmh.

다른 가능한 선택을 탐구하는 기사가 많이 있습니다 . 일반적 으로 매개 변수 에 의존하는 일부 함수 라고 가정합니다 . 이 유형의 회귀 모델을 MIDAS (MIxed DAta Sampling) 회귀라고합니다.w h = g ( h , α ) g αwhwh=g(h,α)gα

모델 (2)는 모델 (1)을 중첩하므로 가설을 테스트 할 수 있습니다 . 이 기사 에서 그러한 테스트 중 하나가 제안됩니다 (저는 필자 중 하나이며, 뻔뻔스러운 플러그에 대해 유감스럽게 생각합니다. 또한 이 테스트가 구현되는 MIDAS 회귀를 추정하고 테스트하기위한 R 패키지 midasr 을 작성했습니다 ).wh=1m

비 회귀 설정에는 집계가 시계열의 속성을 변경할 수 있음을 나타내는 결과가 있습니다. 예를 들어 단기 메모리가있는 AR (1) 프로세스를 집계하면 (두 시계열의 두 관측치 간의 상관 관계가 거리가 멀어지면 빨리 사라짐) 장기 메모리가있는 프로세스를 얻을 수 있습니다.

결론적으로 종합하면 집계 된 데이터에 대한 통계 적용의 타당성은 통계적 질문입니다. 모델에 따라 유효한 응용 프로그램인지 아닌지에 대한 가설을 구성 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.