시계열 분석에서 자체 학습을 시작하고 있습니다. 일반 통계에 적용 할 수없는 여러 가지 잠재적 함정이 있음을 알게되었습니다. 그렇다면 일반적인 통계적 죄는 무엇입니까? , 전 물어보고 싶습니다:
시계열 분석에서 일반적인 함정 또는 통계적 죄는 무엇입니까?
이것은 커뮤니티 위키로서, 답변 당 하나의 개념이며, 일반적인 통계적 죄는 무엇입니까?에 열거되어 있거나 있어야하는보다 일반적인 통계적 함정을 반복하지 마십시오 .
시계열 분석에서 자체 학습을 시작하고 있습니다. 일반 통계에 적용 할 수없는 여러 가지 잠재적 함정이 있음을 알게되었습니다. 그렇다면 일반적인 통계적 죄는 무엇입니까? , 전 물어보고 싶습니다:
시계열 분석에서 일반적인 함정 또는 통계적 죄는 무엇입니까?
이것은 커뮤니티 위키로서, 답변 당 하나의 개념이며, 일반적인 통계적 죄는 무엇입니까?에 열거되어 있거나 있어야하는보다 일반적인 통계적 함정을 반복하지 마십시오 .
답변:
시계열에서 선형 회귀를 추정합니다. 여기서 시간은 회귀의 독립 변수 중 하나입니다. 선형 회귀는 짧은 시간 단위로 시계열에 근사 할 수 있으며 분석에 유용 할 수 있지만 직선을 외삽하는 것은 어리 석습니다. (시간은 무한하고 계속 증가하고 있습니다.)
편집 : "어리석은"에 대한 naught101의 질문에 대한 응답으로, 내 대답은 잘못되었을 수 있지만 대부분의 실제 현상은 지속적으로 계속 증가하거나 감소하지 않는 것 같습니다. 제한적인 요소가있는 대부분의 프로세스 : 사람들이 나이가 들어감에 따라 키가 자라지 않고, 주식이 항상 올라가지는 않으며, 인구가 부정적으로 올라갈 수 없으며, 10 억 마리의 강아지로 집을 채울 수 없습니다. 10 년 후에 애플의 주가를 예측하는 선형 모델이 실제로 존재한다고 상상할 수 있습니다. (20 미터 높이의 성인 남성의 체중을 예측하기 위해 신장 체중 회귀를 외삽하지는 않지만 존재하지 않을 것입니다.)
또한 시계열에는 종종 순환 또는 의사 순환 구성 요소 또는 랜덤 워크 구성 요소가 있습니다. 그의 대답에서 IrishStat이 언급했듯이 계절성 (때로는 여러 시간 척도의 계절성), 레벨 이동 (이를 설명하지 않는 선형 회귀에 이상한 일을 할 것) 등을 고려해야합니다.주기를 무시하는 선형 회귀는 단기간에 적합하지만 외삽하면 크게 오해의 소지가 있습니다.
물론 외삽이나 시계열의 유무에 관계없이 문제가 발생할 수 있습니다. 그러나 우리는 누군가가 시계열 (범죄, 주가 등)을 Excel에 던지고 FORECAST 또는 LINEST를 떨어 뜨리고 주식 가격이 지속적으로 상승하는 것처럼 본질적으로 직선을 통해 미래를 예측하는 것을 종종 보았습니다. (또는 부정적인 반응을 포함하여 지속적으로 감소).
두 개의 고정되지 않은 시계열 간의 상관 관계에주의를 기울입니다. ( "비센스 상관"및 "적분"에 대한 검색은 상관 계수가 높을 것으로 예상됩니다.)
예를 들어, Google 상관 관계에서 개와 귀 피어싱 의 상관 계수는 0.84입니다.
오래된 분석에 대해서는 Yule의 1926 문제 탐색을 참조하십시오.
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
최상위 수준에서 Kolmogorov는 독립성 을 통계의 주요 가정으로 식별 했습니다. iid 가정 없이는 시계열 또는보다 일반적인 분석 작업에 적용 되더라도 통계의 많은 중요한 결과는 사실이 아닙니다.
대부분의 실제 이산 신호에서 연속적이거나 근처에있는 샘플은 독립적이지 않으므로 프로세스를 결정 론적 모델과 확률 적 노이즈 성분으로 분해하도록주의를 기울여야합니다. 그럼에도 불구하고, 고전 확률 론적 미적분학에서 독립적 증가분 가정은 문제가된다 : 1997 년 경제 노벨과 1998 년 LTCM의 붕괴로 교장들 사이에서 수상자들을 세었다. 행동 양식).
시계열의 자기 상관을 설명하지 않는 기술 / 모델 (예 : OLS)을 사용하기 때문에 모델 결과가 너무 확실합니다.
좋은 그래프는 없지만 "Introductory Time Series with R"(2009, Cowpertwait, et al)이라는 책은 합리적인 직관적 설명을 제공합니다. 제 시간에 함께 모여 있습니다. 이로 인해 평균에 대한 비효율적 인 추정이 이루어 지므로 자기 상관이없는 경우보다 평균을 동일한 정확도로 추정하려면 더 많은 데이터가 필요합니다. 생각보다 적은 데이터를 효과적으로 가지고 있습니다.
OLS 프로세스 (및 따라서)는 자기 상관이 없다고 가정하므로 평균 추정치가 실제보다 더 정확하다고 가정합니다. 따라서 결과보다 자신감을 갖게됩니다.
(이것은 음의 자기 상관을위한 다른 방법으로 작동 할 수 있습니다 : 평균의 추정치가 실제로는 다른 것보다 더 효율적입니다. 이것을 증명할 수는 없지만, 대부분의 실제 시간에 긍정적 인 상관 관계가 더 일반적이라고 제안합니다 음의 상관 관계보다 시리즈.)
일회성 펄스 외에 레벨 이동, 계절별 펄스 및 현지 시간 추세의 영향. 조사 / 모델화에는 시간에 따른 매개 변수의 변경이 중요합니다. 시간에 따른 오차의 변화에 대한 가능한 변화를 조사해야합니다. X의 동시 값과 지연된 값이 Y에 미치는 영향을 결정하는 방법 X의 미래 값이 Y의 현재 값에 영향을 줄 수 있는지 식별하는 방법 특정 월 중 특정 날짜를 찾는 방법이 영향을 미칩니다. 시간별 데이터가 일일 값의 영향을받는 혼합 주파수 문제를 모델링하는 방법은 무엇입니까?
Naught는 레벨 시프트 및 펄스에 대한보다 구체적인 정보 / 예를 제공하도록 요청했습니다. 이를 위해 이제 더 많은 토론을하겠습니다. 정상이 아닌 것을 시사하는 ACF를 보여주는 시리즈는 사실상 "증상"을 전달합니다. 제안 된 해결책 중 하나는 데이터를 "차이"하는 것입니다. 간과 된 구제책은 데이터를 "의미 제거"하는 것입니다. 계열이 평균 (즉, 절편)에서 "주"수준으로 이동하면이 전체 계열의 acf를 쉽게 잘못 해석하여 차이를 제안 할 수 있습니다. 레벨 시프트를 나타내는 시리즈의 예를 보여 드리겠습니다. 두 가지의 차이를 강조 (확대) 한 경우 전체 시리즈의 acf가 차이의 필요성을 제안 할 것입니다 (잘못된!). 처리되지 않은 펄스 / 레벨 이동 / 계절 펄스 / 현지 시간 추세는 모델 구조의 중요성을 모호하게하는 오류의 분산을 증가 시키며 매개 변수 추정에 결함이 있고 예측이 잘못되는 원인입니다. 이제 예를 들어 보겠습니다. Th은 27 개의 월별 값 목록입니다. 이것은 그래프 입니다. 4 개의 펄스와 1 개의 레벨 시프트 및 NO TREND가 있습니다! 그리고 . 이 모델의 잔차는 백색 잡음 과정을 나타 냅니다. 일부 (가장!) 상업용 및 무료 예측 패키지는 계절별 추가 요인이있는 추세 모델을 가정 한 결과 다음과 같은 부정확성을 제공합니다 . 마크 트웨인의 결론과 역설. "넌센스가 있고 넌센스가 있지만 그 중 가장 넌센스적인 넌센스는 모두 통계적인 넌센스입니다!" 보다 합리적인에 비해 . 도움이 되었기를 바랍니다 !
시간이 지남에 따라 추세를 선형 성장 으로 정의 .
일부 추세는 다소 선형 적이지만 (Apple 주가 참조) 시계열 차트는 선형 회귀를 찾을 수있는 꺾은 선형 차트처럼 보이지만 대부분의 추세는 선형이 아닙니다.
측정 동작을 변경 한 특정 시점에서 무언가가 발생했을 때 변경과 같은 단계 변경 이 있습니다 ( "교량은 무너졌으며 이후로 자동차가 운행되지 않습니다 ").
또 다른 인기 트렌드는 "버즈"입니다 . 기하 급수적 인 성장과 그 후 비슷한 감소입니다 ( "마케팅 캠페인은 큰 성공을 거두었지만 몇 주 후에 그 효과는 사라졌습니다" ).
시계열 트렌드의 올바른 모델 (Logistic Regression 등)을 아는 것은 시계열 데이터에서이를 감지하는 데 중요합니다.
이미 언급 한 몇 가지 훌륭한 점 외에도 다음과 같이 덧붙입니다.
이러한 문제는 관련된 통계적 방법이 아니라 연구의 설계, 즉 포함 할 데이터 및 결과 평가 방법과 관련이 있습니다.
포인트 1의 까다로운 부분은 미래에 대한 결론을 내리기 위해 충분한 데이터 기간을 관찰했는지 확인하는 것입니다. 시계열에 대한 첫 강의에서 교수는 보드에 긴 부비동 곡선을 그리며 긴주기가 짧은 창에서 관찰 될 때 선형 추세처럼 보인다고 지적했습니다.
포인트 2는 모델의 오차에 실제적인 영향이있는 경우 특히 관련이 있습니다. 다른 분야 중에서도 재무 분야에서 널리 사용되고 있지만 지난 기간의 예측 오류를 평가하는 것이 데이터가 허용하는 모든 시계열 모델에 대해 의미가 있다고 주장합니다.
포인트 3. 과거 데이터의 일부가 미래를 대표하는 주제에 대해 다시 언급합니다. 이것은 많은 양의 문헌을 가진 복잡한 주제입니다. 저는 개인적으로 좋아하는 Zucchini와 MacDonald 를 예로 들겠습니다 .
샘플링 된 시계열에서 앨리어싱을 피하십시오. 정기적으로 샘플링되는 시계열 데이터를 분석하는 경우 샘플링 속도는 샘플링중인 데이터에서 가장 높은 주파수 성분의 주파수의 두 배 여야합니다. 이것이 나이키 스트 샘플링 이론이며 디지털 오디오뿐만 아니라 일정한 간격으로 샘플링 된 모든 시계열에도 적용됩니다. 앨리어싱을 피하는 방법은 샘플링 속도의 절반 인 나이키 스트 속도 이상의 모든 주파수를 필터링하는 것입니다. 예를 들어, 디지털 오디오의 경우 48kHz의 샘플 속도는 24kHz 미만의 컷오프를 갖는 저역 통과 필터가 필요합니다.
스트로브 속도가 바퀴의 회전 속도에 가까운 스트로보 스코픽 효과로 인해 바퀴가 뒤로 회전하는 것처럼 보일 때 앨리어싱의 효과를 볼 수 있습니다. 관찰 된 느린 속도는 실제 회전 속도의 별칭입니다.