비계 절화 카운트 데이터


12

R에서 stl ()을 사용하여 카운트 데이터를 추세, 계절 및 불규칙 구성 요소로 분해했습니다. 결과 트렌드 값은 더 이상 정수가 아닙니다. 다음과 같은 질문이 있습니다.

  1. stl ()이 카운트 데이터를 비계 절화하는 적절한 방법입니까?
  2. 결과 추세가 더 이상 값을 가지지 않으므로 lm ()을 사용하여 추세 구성 요소를 모델링 할 수 있습니까?

답변:


8

카운트 데이터의 비계 절화를 위해 stl ()을 사용하는 데 고유 한 문제는 없습니다. 그러나 알아야 할 한 가지 문제 는 일반적으로 평균이 증가함에 따라 카운트 데이터의 편차가 증가한다는 것입니다. 이것은 종종 분해의 계절적 요소와 무작위 요소 모두에서 볼 수 있습니다. 원시 데이터에 stl ()을 사용하면이를 고려하지 않으므로 먼저 데이터의 로그 (편집 또는 제곱근)를 사용하는 것이 가장 좋습니다.

트렌드 값이 더 이상 정수가 아닌 것은 중요하지 않습니다. 포아송 분포의 모수와 비슷한 방식으로 생각할 수 있습니다. 포아송 분산 변수는 정수 여야하지만 평균은 필요하지 않습니다.

그러나 이것이 반드시 lm ()을 사용하여 트렌드 구성 요소를 모델링 할 수 있다는 의미는 아닙니다. 가짜 상관 관계를 피하기가 매우 어렵 기 때문에 시계열의 모델링 트렌드에는 많은 함정이 있습니다. 보다 일반적으로 사람들은 먼저 시리즈를 추론 한 다음 잔차 부분을 모델링합니다.


1
수용해야 할 트렌드의 수와 각 트렌드의 길이를 어떻게 결정합니까? 레벨 변화와 추세를 구분하고 일반적으로 존재하는 pf 특이 치 / 이너에서 추세를 어떻게 추론합니까?
IrishStat

@IrishStat-그렇습니다. 이것은 모두 좋은 점이며 전체 문제를 해결하려고하지 않았습니다 .R의 stl () 출력에서 ​​추세 구성 요소를 회귀의 응답 변수로 사용하는 문제에주의를 기울이십시오. . stl ()은 분해에 국부적으로 가중 된 회귀를 사용합니다. 추세 변경 방향 등에 관해서는 일반적으로 합리적인 결과를 제공하지만, 특히 예측을위한 모델 기반 방법에 비해 한계가 있습니다.
피터 엘리스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.