시계열 분석의 함정

46

시계열 분석에서 자체 학습을 시작하고 있습니다. 일반 통계에 적용 할 수없는 여러 가지 잠재적 함정이 있음을 알게되었습니다. 그렇다면 일반적인 통계적 죄는 무엇입니까? , 전 물어보고 싶습니다:

시계열 분석에서 일반적인 함정 또는 통계적 죄는 무엇입니까?

이것은 커뮤니티 위키로서, 답변 당 하나의 개념이며, 일반적인 통계적 죄는 무엇입니까?에 열거되어 있거나 있어야하는보다 일반적인 통계적 함정을 반복하지 마십시오 .

time-series self-study

— naught101
소스

18

시계열에서 선형 회귀를 추정합니다. 여기서 시간은 회귀의 독립 변수 중 하나입니다. 선형 회귀는 짧은 시간 단위로 시계열에 근사 할 수 있으며 분석에 유용 할 수 있지만 직선을 외삽하는 것은 어리 석습니다. (시간은 무한하고 계속 증가하고 있습니다.)

편집 : "어리석은"에 대한 naught101의 질문에 대한 응답으로, 내 대답은 잘못되었을 수 있지만 대부분의 실제 현상은 지속적으로 계속 증가하거나 감소하지 않는 것 같습니다. 제한적인 요소가있는 대부분의 프로세스 : 사람들이 나이가 들어감에 따라 키가 자라지 않고, 주식이 항상 올라가지는 않으며, 인구가 부정적으로 올라갈 수 없으며, 10 억 마리의 강아지로 집을 채울 수 없습니다. 10 년 후에 애플의 주가를 예측하는 선형 모델이 실제로 존재한다고 상상할 수 있습니다. (20 미터 높이의 성인 남성의 체중을 예측하기 위해 신장 체중 회귀를 외삽하지는 않지만 존재하지 않을 것입니다.)

또한 시계열에는 종종 순환 또는 의사 순환 구성 요소 또는 랜덤 워크 구성 요소가 있습니다. 그의 대답에서 IrishStat이 언급했듯이 계절성 (때로는 여러 시간 척도의 계절성), 레벨 이동 (이를 설명하지 않는 선형 회귀에 이상한 일을 할 것) 등을 고려해야합니다.주기를 무시하는 선형 회귀는 단기간에 적합하지만 외삽하면 크게 오해의 소지가 있습니다.

물론 외삽이나 시계열의 유무에 관계없이 문제가 발생할 수 있습니다. 그러나 우리는 누군가가 시계열 (범죄, 주가 등)을 Excel에 던지고 FORECAST 또는 LINEST를 떨어 뜨리고 주식 가격이 지속적으로 상승하는 것처럼 본질적으로 직선을 통해 미래를 예측하는 것을 종종 보았습니다. (또는 부정적인 반응을 포함하여 지속적으로 감소).

— 3 revs
소스

어리석은 이유 를 확장 할 수 있습니까 ?

— naught101

1

멋진 예는 +1입니다. 나는 지금 내 집에 몇 마리의 강아지를

— 태울

3

이것은 당신의 점의 큰 그림 : xkcd.com/605

— 자크

1

@naught Mark Twain 은 가능한 가장 평범한 언어로 "어리석은"이 시계열의 선형 외삽에 적합한 이유를 잘 보여주었습니다.

— whuber

그리고이 : stats.stackexchange.com/a/13904/9007은 ... 비슷한 점은 물리적 관련성이없는 (특히 높은 수준의) 다항식 동향, 또는 다른 모델의 추정이다. 나는 자신에게 옥타브를 가르 칠 때 이것이 왜 나쁜 생각인지에 대한 블로그 게시물을 썼습니다 .

— naught101

13

두 개의 고정되지 않은 시계열 간의 상관 관계에주의를 기울입니다. ( "비센스 상관"및 "적분"에 대한 검색은 상관 계수가 높을 것으로 예상됩니다.)

예를 들어, Google 상관 관계에서 개와 귀 피어싱 의 상관 계수는 0.84입니다.

오래된 분석에 대해서는 Yule의 1926 문제 탐색을 참조하십시오.

— Wayne
소스

물론 항상 그런 것은 아닙니다. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

— naught101

@Wayne Yule 논문에 감사의 말을 전합니다. 1970 년 이래로 인용 해 왔으며 실제로 읽은 적이 없습니다. 그것은 아마도 작은 원으로 잘 알려져 있습니다.

— IrishStat

7

최상위 수준에서 Kolmogorov는 독립성 을 통계의 주요 가정으로 식별 했습니다. iid 가정 없이는 시계열 또는보다 일반적인 분석 작업에 적용 되더라도 통계의 많은 중요한 결과는 사실이 아닙니다.

대부분의 실제 이산 신호에서 연속적이거나 근처에있는 샘플은 독립적이지 않으므로 프로세스를 결정 론적 모델과 확률 적 노이즈 성분으로 분해하도록주의를 기울여야합니다. 그럼에도 불구하고, 고전 확률 론적 미적분학에서 독립적 증가분 가정은 문제가된다 : 1997 년 경제 노벨과 1998 년 LTCM의 붕괴로 교장들 사이에서 수상자들을 세었다. 행동 양식).

— alancalvitti
소스

연구 분야 인 "시계열 분석". 기본적으로 나는 시계열 공부를 처음 접하는 사람 (모든 유형 및 모든 유형의 분석)을 뒤흔들 수있는 것을 의미합니다. 포괄적 인 답변을 찾고 있지 않습니다. 내가하려는 일에 대한 느낌을 얻으려면 내 질문에서 언급 한 질문을 확인하십시오.

— naught101

나는 어떤 유형 의 분석을 의미 했는가

— alancalvitti

알아. 나는 당신이 질문의 요점을 놓치고 있다고 생각합니다. 모든 유형 분석에서 경험 한 모든 유형 의 시계열 문제 에 대한 일반적인 걸림돌에 대해 자유롭게 의견하십시오 . 시계열과 관련된 문제에만 집중하십시오.

— naught101

@alancalvitti, 경제 사례가 흥미롭게 들립니다. 여기에서 우리가 연결할 수있는 좋은 설명을 알고 있습니까?

— naught101

이 답변을 편집하여 제시된 요점으로 다시 파싱합니다 (답변 당 한 점으로 돌아 가기 위해). 그것은 스펙트럼 분석에 관한 것들을 제거하는 것을 의미했습니다. 아마도 별도의 답변으로 그것에 대해 뭔가 말할 수 있습니다 (함정에 관한 것은 아니지만, 특히 여기에 주목할 수있는 스펙트럼 분석 관련 함정이있을 수 있습니다). 위의 논의는 이제 의미가 없지만, 당신은 그렇게 생각합니다 : /

— naught101

2

시계열의 자기 상관을 설명하지 않는 기술 / 모델 (예 : OLS)을 사용하기 때문에 모델 결과가 너무 확실합니다.

좋은 그래프는 없지만 "Introductory Time Series with R"(2009, Cowpertwait, et al)이라는 책은 합리적인 직관적 설명을 제공합니다. 제 시간에 함께 모여 있습니다. 이로 인해 평균에 대한 비효율적 인 추정이 이루어 지므로 자기 상관이없는 경우보다 평균을 동일한 정확도로 추정하려면 더 많은 데이터가 필요합니다. 생각보다 적은 데이터를 효과적으로 가지고 있습니다.

OLS 프로세스 (및 따라서)는 자기 상관이 없다고 가정하므로 평균 추정치가 실제보다 더 정확하다고 가정합니다. 따라서 결과보다 자신감을 갖게됩니다.

(이것은 음의 자기 상관을위한 다른 방법으로 작동 할 수 있습니다 : 평균의 추정치가 실제로는 다른 것보다 더 효율적입니다. 이것을 증명할 수는 없지만, 대부분의 실제 시간에 긍정적 인 상관 관계가 더 일반적이라고 제안합니다 음의 상관 관계보다 시리즈.)

— 3 revs
소스

여기에 좋은 예가 있습니다. 답을 제대로 이해하지 못합니다.

— naught101

@Wayne을 편집 해 주셔서 감사합니다. 그러나 나는 일종의 시각화와 함께 실제 예제를 의미했습니다. 분명히, 다른 사람들도 그것을 추가 할 수 있습니다-그것은 커뮤니티 위키입니다.

— naught101

1

@ naught101 : 아. 내가 여기서 제안한 세 가지 제안 중 두 가지는 내가 배운 내용을 기반으로하지만 반드시 좋은 예를 만들기에 충분하지는 않습니다. 웹에서 찾도록하겠습니다.

— Wayne

그것은 시뮬레이션 된 데이터 일 뿐이지 만 다른 질문에 대한 대답에는 OLS에 맞는 모델을 가진 R 코드가 있고 p 값이 크게 높은 자기 상관을보다 적절하게 고려합니다. stats.stackexchange.com/questions/27254/…

— 피터 엘리스

2

일회성 펄스 외에 레벨 이동, 계절별 펄스 및 현지 시간 추세의 영향. 조사 / 모델화에는 시간에 따른 매개 변수의 변경이 중요합니다. 시간에 따른 오차의 변화에 대한 가능한 변화를 조사해야합니다. X의 동시 값과 지연된 값이 Y에 미치는 영향을 결정하는 방법 X의 미래 값이 Y의 현재 값에 영향을 줄 수 있는지 식별하는 방법 특정 월 중 특정 날짜를 찾는 방법이 영향을 미칩니다. 시간별 데이터가 일일 값의 영향을받는 혼합 주파수 문제를 모델링하는 방법은 무엇입니까?

Naught는 레벨 시프트 및 펄스에 대한보다 구체적인 정보 / 예를 제공하도록 요청했습니다. 이를 위해 이제 더 많은 토론을하겠습니다. 정상이 아닌 것을 시사하는 ACF를 보여주는 시리즈는 사실상 "증상"을 전달합니다. 제안 된 해결책 중 하나는 데이터를 "차이"하는 것입니다. 간과 된 구제책은 데이터를 "의미 제거"하는 것입니다. 계열이 평균 (즉, 절편)에서 "주"수준으로 이동하면이 전체 계열의 acf를 쉽게 잘못 해석하여 차이를 제안 할 수 있습니다. 레벨 시프트를 나타내는 시리즈의 예를 보여 드리겠습니다. 두 가지의 차이를 강조 (확대) 한 경우 전체 시리즈의 acf가 차이의 필요성을 제안 할 것입니다 (잘못된!). 처리되지 않은 펄스 / 레벨 이동 / 계절 펄스 / 현지 시간 추세는 모델 구조의 중요성을 모호하게하는 오류의 분산을 증가 시키며 매개 변수 추정에 결함이 있고 예측이 잘못되는 원인입니다. 이제 예를 들어 보겠습니다. Th 여기에 이미지 설명을 입력하십시오 은 27 개의 월별 값 목록입니다. 이것은 그래프 입니다. 4 개의 펄스와 1 개의 레벨 시프트 및 NO TREND가 있습니다! 그리고 . 이 모델의 잔차는 백색 잡음 과정을 나타 냅니다. 일부 (가장!) 상업용 및 무료 예측 패키지는 계절별 추가 요인이있는 추세 모델을 가정 한 결과 다음과 같은 부정확성을 제공합니다 여기에 이미지 설명을 입력하십시오 . 마크 트웨인의 결론과 역설. "넌센스가 있고 넌센스가 있지만 그 중 가장 넌센스적인 넌센스는 모두 통계적인 넌센스입니다!" 보다 합리적인에 비해 . 도움이 되었기를 바랍니다 !

— IrishStat
소스

1

정말? 이것들은 모두 함정 과 죄 입니까? (질문의 강조된 부분을 다시 읽으십시오!) 아마도 당신은 당신이 쓴 것과 반대의 의미입니까?

— whuber

내 의견의 의도는 이러한 가능한 실제 구조 중 일부를 즐겁게하거나 고려하지 않는 함정을 지적하는 것이 었습니다. 합리적으로 검증되지 않은 가정은 피해야합니다. 그렇지 않으면 매우 의심스러운 결과를 얻을 수 있습니다.

— IrishStat

3

나는 그것이 의도라는 것을 모았지만, 현재의 형태로 당신의 대답은 오해하기 쉽습니다. 예를 들어, "일회성 맥박"의 "충격"을 평가하는 것은 죄입니까, 아니면 그렇게하지 않는 것이 죄입니까? 이것은 어느 쪽 해석이든 좋은 사례를 만들 수있을 정도로 충분히 모호합니다! (예, 일회성 펄스는 과도한 영향을주지 않으려는 특이 치일 수도 있고 모델을 과도하게 매개 변수화 할 수 있기 때문에 포함하지 않아야합니다. 다른 매개 변수의 추정치를 바이어스 할 수있는 오랜 시간과 무시.)

— whuber

@whuber 일회성 펄스의 효과가 지속되는 경우 연속 포인트에서 일회성 펄스 시퀀스로 모델링 할 수 있습니다. 그럼에도 불구하고 이것은 우아하지는 않지만 효과적입니다. 정확하게 말했듯이 반복 구조의 매개 변수 추정값을 왜곡하는 잘못된 값을 원하지 않기 때문에 펄스, 레벨 시프트, 계절 펄스 및 / 또는 현지 시간 추세와 같은 지정되지 않은 결정 론적 구조를 처리하지 않는 것이 "죄인"입니다.

— IrishStat

첫 번째 문장 (레벨 시프트 및 펄스)이 크게 확장되고 (일부 예제와 함께) 나머지는 삭제되면 이것이 정말 흥미로운 대답이라고 생각합니다. 이분산성은 좋은 별도의 답변을 만들 것입니다.

— naught101

1

시간이 지남에 따라 추세를 선형 성장 으로 정의 .

일부 추세는 다소 선형 적이지만 (Apple 주가 참조) 시계열 차트는 선형 회귀를 찾을 수있는 꺾은 선형 차트처럼 보이지만 대부분의 추세는 선형이 아닙니다.

측정 동작을 변경 한 특정 시점에서 무언가가 발생했을 때 변경과 같은 단계 변경 이 있습니다 ( "교량은 무너졌으며 이후로 자동차가 운행되지 않습니다 ").

또 다른 인기 트렌드는 "버즈"입니다 . 기하 급수적 인 성장과 그 후 비슷한 감소입니다 ( "마케팅 캠페인은 큰 성공을 거두었지만 몇 주 후에 그 효과는 사라졌습니다" ).

시계열 트렌드의 올바른 모델 (Logistic Regression 등)을 아는 것은 시계열 데이터에서이를 감지하는 데 중요합니다.

— 사람
소스

1

이미 언급 한 몇 가지 훌륭한 점 외에도 다음과 같이 덧붙입니다.

긴주기 또는 계절성을 발견하지 못한 경우- '불충분하게 긴'기간 동안의 데이터 만 검사하여
지난 기간의 예측 오류 평가 실패 ( 백 테스팅 )
정권 변화를 감지하고 처리하지 못함

이러한 문제는 관련된 통계적 방법이 아니라 연구의 설계, 즉 포함 할 데이터 및 결과 평가 방법과 관련이 있습니다.

포인트 1의 까다로운 부분은 미래에 대한 결론을 내리기 위해 충분한 데이터 기간을 관찰했는지 확인하는 것입니다. 시계열에 대한 첫 강의에서 교수는 보드에 긴 부비동 곡선을 그리며 긴주기가 짧은 창에서 관찰 될 때 선형 추세처럼 보인다고 지적했습니다.

포인트 2는 모델의 오차에 실제적인 영향이있는 경우 특히 관련이 있습니다. 다른 분야 중에서도 재무 분야에서 널리 사용되고 있지만 지난 기간의 예측 오류를 평가하는 것이 데이터가 허용하는 모든 시계열 모델에 대해 의미가 있다고 주장합니다.

포인트 3. 과거 데이터의 일부가 미래를 대표하는 주제에 대해 다시 언급합니다. 이것은 많은 양의 문헌을 가진 복잡한 주제입니다. 저는 개인적으로 좋아하는 Zucchini와 MacDonald 를 예로 들겠습니다 .

— 의미하는 의미
소스

1

샘플링 된 시계열에서 앨리어싱을 피하십시오. 정기적으로 샘플링되는 시계열 데이터를 분석하는 경우 샘플링 속도는 샘플링중인 데이터에서 가장 높은 주파수 성분의 주파수의 두 배 여야합니다. 이것이 나이키 스트 샘플링 이론이며 디지털 오디오뿐만 아니라 일정한 간격으로 샘플링 된 모든 시계열에도 적용됩니다. 앨리어싱을 피하는 방법은 샘플링 속도의 절반 인 나이키 스트 속도 이상의 모든 주파수를 필터링하는 것입니다. 예를 들어, 디지털 오디오의 경우 48kHz의 샘플 속도는 24kHz 미만의 컷오프를 갖는 저역 통과 필터가 필요합니다.
스트로브 속도가 바퀴의 회전 속도에 가까운 스트로보 스코픽 효과로 인해 바퀴가 뒤로 회전하는 것처럼 보일 때 앨리어싱의 효과를 볼 수 있습니다. 관찰 된 느린 속도는 실제 회전 속도의 별칭입니다.

— 순교
소스