지연이있는 다중 선형 회귀와 시계열의 "기계적"차이는 무엇입니까?


14

저는 현재 데이터 공학 석사 학위를 공부하고있는 비즈니스 및 경제학을 전공했습니다. 선형 회귀 (LR)와 시계열 분석 (TS)을 공부하면서 질문이 떠 올랐습니다. 여러 선형 회귀를 사용하고 지연된 변수를 추가하는 대신 (ACF 및 PACF를 사용하여 지연된 순서로) 완전히 새로운 방법, 즉 시계열 (ARIMA)을 만드는 이유는 무엇입니까? 그래서 선생님은이 문제에 대한 작은 에세이를 쓰라고 제안했습니다. 나는 빈손으로 도움을 구하지 않았으므로 주제에 대한 연구를했습니다.

LR을 사용할 때 Gauss-Markov 가정을 위반하면 OLS 회귀가 잘못되어 시계열 데이터 (자기 상관 등)를 사용할 때 발생한다는 것을 이미 알고있었습니다. (이에 대한 또 다른 질문은 GM의 한 가정은 독립 변수가 정규 분포 또는 독립 변수에 대한 종속 변수입니까?)

또한 분산 지연 회귀를 사용할 때 여기에서 제안하는 것으로 생각하고 OLS를 사용하여 매개 변수를 추정하면 변수 간의 다중 공선 성이 발생할 수 있으므로 추정이 잘못 될 수 있습니다.

A의 TS와 LR에 대해 비슷한 포스트 여기 @IrishStat는 말했다 :

회귀 모델은 동적 회귀 모델 또는 XARMAX 모델이라고도하는 전달 함수 모델의 특정 경우입니다. 두드러진 요점은 시계열의 모델 식별, 즉 적절한 차이, X의 적절한 지연, 적절한 ARIMA 구조, 펄스, 레벨 시프트, 로컬 시간 추세, 계절 펄스 및 통합과 같은 지정되지 않은 결정 론적 구조의 적절한 식별입니다. 매개 변수의 변경 또는 오류 분산 을 고려해야합니다.

(또한 Box Jenkins vs LR에 대한 Autobox에서 그의 논문을 읽었습니다.) 그러나 이것은 여전히 ​​내 질문을 해결하지 못합니다 (또는 적어도 RL과 TS의 다른 메커니즘을 명확히하지는 못합니다).

지연된 변수가 있어도 OLS 문제가 발생하고 효율적이거나 정확하지 않지만 최대 가능성을 사용할 때 이러한 문제가 지속됩니까? 나는 ARIMA가 최대 가능성을 통해 추정된다는 것을 읽었으며, 지연이있는 LR이 OLS 대신 ML로 추정되는 경우 "올바른"계수를 산출합니까? 큐).

요컨대, OLS 문제입니까? ML 적용으로 문제가 해결 되었습니까?


4
존 메이 너드 케인즈와 닮은 점이 없습니다.
Nick Cox

안녕하세요 @NickCox, 예, 그는 제가 가장 좋아하는 경제학자입니다. 그는 놀라운 사람이었고 여러면에서 극도로 재능이 있다고 생각합니다. 내가 알아 내려고하는 것은 지연 된 모델이 OLS 추정과 함께 작동하지 않는 이유와 최대 가능성 추정으로 올바르게 추정하는 것입니다. 나는 최고의 모델이 전달 함수라는 것을 이해하고 현재 연구하고 있습니다. 그러나 OLS에 대한 이론적 질문은 여전히 ​​남아 있습니다. 자기 상관이 존재하지 않으면 지연이이를 제거하고 (다중 콜이 존재하지 않는다고 가정) 작동합니까? 또는 여전히 존재
Miguel M.

@NickCox ... OLS와 함께 사용할 수없고이 방법으로 적합하지 않은 가우스 가정의 효과 / 위반? 보시다시피, 이것으로 조금 길을 잃었습니다. 대답하기에 너무 길다면, 고맙게 생각할 수있는 강의를 해주시면 감사하겠습니다
Miguel M.

1
역학 측면에서 사용자가 제안한 (적절하게 차이가 나는) X 변수에 대한 ARMA 모델이 정상이 아닌 것을 반영한다고 제안합니다.이 필터가 적절히 차이가있는 시리즈 모두에 적용되면 결과 계열 쌍은 종종 상호 상관 절차를 통해 연구 될 수 있습니다 제안 된 지연 구조를 산출합니다 (이해). 그런 다음이 지연 구조를 적절히 차분 된 원본 계열에 적용하여 지정되지 않은 / 백그라운드 계열 (임시 오류 프로세스)에 대한 제안을 얻을 수 있습니다. 그런 다음이 오류 프로세스를 조사하여 적절한 ARMA를 생성 할 수 있습니다.
IrishStat

@IrishStat이므로 방금 말한 내용을 다시 말씀 드리겠습니다. 종속 변수 Yt와 독립 변수 Xt를 가지고, 우리가 정상 성을 가질 때까지 Yt와 Xt를 모두 차분한 다음, 교차 상관 함수를 적용하여 지연 구조를 알아낼 수 있습니다. 그런 다음 Yt를 Xt로 되돌리고 오류 항을 연구합니다. 오류 항에서 ARMA 구조를 찾으면 화이트 노이즈가 나타날 때까지 모델에 적용합니다. 맞습니까? 그러나 내 질문은 여전히 ​​그렇습니다. 최종 모델이 OLS를 통해 적합합니까? 그렇지 않다면 왜 안되며 어떤 방법을 사용합니까?
Miguel M.

답변:


9

여러 선형 회귀를 사용하고 지연된 변수를 추가하는 대신 (ACF 및 PACF를 사용하여 지연된 순서로) 완전히 새로운 방법, 즉 시계열 (ARIMA)을 만드는 이유는 무엇입니까?

즉각적인 요점은 선형 회귀는 관측 된 변수에서만 작동하고 ARIMA는 관측되지 않은 변수를 이동 평균 부분에 통합한다는 것입니다. 따라서 ARIMA는 어떤 방식 으로든 더 유연하거나 더 일반적입니다. AR 모델은 선형 회귀 모델로 볼 수 있으며 계수는 OLS를 사용하여 추정 할 수 있습니다. 여기서 는 관찰 되는 종속 변수의 지연으로 구성됩니다 . 한편, MA 또는 ARMA 모델은 지연된 오류 항과 같은 일부 변수가 관찰되지 않으므로 OLS 프레임 워크에 적합하지 않으므로 OLS 추정기가 실행 불가능합니다.Xβ^OLS=(XX)1XyX

GM의 가정 중 하나는 독립 변수가 정규 분포되어야한다는 것입니다. 또는 독립 변수에 조건부 종속 변수입니까?

정규성 가정은 때때로 독립 변수가 아닌 모형 오류에 대해 호출됩니다. 그러나 OLS 추정기의 일관성과 효율성 또는 Gauss-Markov 정리가 유지 될 필요는 없습니다. Gauss-Markov 정리에 대한 Wikipedia 기사 에 "오류가 정상일 필요는 없습니다"라고 명시되어 있습니다.

변수 간의 다중 공선 성이 (분명히) 발생할 수 있으므로 추정값이 잘못되었습니다.

고도의 다중 공선 성은 OLS 추정기의 팽창 된 분산을 의미합니다. 그러나 다중 공선 성이 완벽하지 않은 한 OLS 추정기는 여전히 청색입니다. 따라서 귀하의 진술은 옳지 않습니다.

지연된 변수가 있어도 OLS 문제가 발생하고 효율적이거나 정확하지 않지만 최대 가능성을 사용할 때 이러한 문제가 지속됩니까?

AR 모델은 OLS와 ML을 모두 사용하여 추정 할 수 있습니다. 이 두 가지 방법 모두 일관된 추정값을 제공합니다. MA 및 ARMA 모델은 OLS로 추정 할 수 없으므로 ML이 주요 선택입니다. 다시 말하지만 일관성이 있습니다. 다른 흥미로운 속성은 효율성이며, 여기에서는 완전히 확실하지 않습니다 (그러나 질문이 꽤 표준 적이므로 정보를 어딘가에 사용할 수 있어야합니다). 나는 "정확성"에 대해 언급하려고 노력하지만 그 의미가 무엇인지 잘 모르겠습니다.


안녕 하디 씨, 답변 주셔서 대단히 감사합니다. 관찰 된 값과 관찰되지 않은 값에 대해서는 요약하면됩니다. ARIMA 및 시계열 (보다 구체적으로 XARIMAX)에서는 예측 오차를 사용하기 위해 "동적"접근 방식을 사용하고 선형 회귀에서는이를 사용하지 않지만 그럼에도 불구하고 사용할 수는 있습니다. 나는 여기서 문제를 이해하지 못한다. 또는 @IrishStat가 말한 것처럼 유일한 차이점은 식별 및 모델 수정 전략의 경로입니까?
Miguel M.

그리고 모델에 지연된 오류를 포함시킬 때 OLS (정확히)가 어떻게 추정됩니까? 다중 공선성에 관해서는, 추정 된 계수가 정확하지 않기 때문에 추정 계수가 정확하지 않을 수 있음을 의미했습니다. 올바른 방법으로, OLS를 사용하면 제안 된 지연 모델을 사용할 때 ML과 비교하여 편견이없고 효율적인 추정값이 제공됩니다.
Miguel M.

@MiguelM, 나는 지금 여행하고있다, 나는 나중에 돌아 오려고 노력할 것이다.
Richard Hardy

1
"선형 회귀 분석에서 우리는 그것들을 사용하지 않지만 그럼에도 불구하고 그것들을 사용할 수 있습니다": 우리는 이러한 변수를 관찰하지 않으므로 거기에 역학으로 인해 선형 회귀 프레임 워크에서 사용할 수 없습니다 (답변에서 언급했듯이, 추정기는 불가능하다); 그러나 ARIMA 프레임 워크에서 사용할 수 있습니다. "모델에 지연된 오류를 포함시킬 때 OLS (다시)가 정확합니까?"와 관련하여 그렇습니다. "정확성"과 관련하여 모델이 올바르게 지정되고 OLS와 ML이 모두 가능한 경우 둘 다 제대로 작동합니다. 잘못된 사양에서는 상황이 잘못되는 경향이 있습니다.
Richard Hardy

1
나는 설명에 나쁜해야하며, 나는 그것이 어려운 당신이 회귀 실행해야 가정 ...이 경우 다른 설명과 함께 올 찾을 , 당신은 준수하지 않는 . 그런 다음 회귀 분석을 실행할 수있는 방법이 없습니다. 이것이 요점입니다. OLS는 누락 된 변수를 허용하지 않습니다. 그러나 변수가 누락 된 특정 구조는 ML을 사용하여 복구 할 수 있으며 이러한 구조의 예로 MA 모델이 있습니다. (회귀 은 OLS뿐만 아니라 가 관찰되지 않을 때 ML 추정에도 적합 하지 않습니다.)x y = β 0 + β 1 x + ε xy=β0+β1x+εxy=β0+β1x+εx
Richard Hardy

5

좋은 질문입니다. ARIMA 모델과 다중 선형 회귀의 실제 차이점은 오류 구조에 있습니다. 다중 선형 회귀 모델에서 독립 변수를 조작하여 시계열 데이터에 맞도록 할 수 있습니다. 이것이 @IrishStat의 말입니다. 그러나 그 후에는 정확한 계수 및 테스트 결과를 얻기 위해 ARIMA 오류를 다중 회귀 모델에 통합해야합니다. 이에 대한 훌륭한 무료 책은 https://www.otexts.org/fpp/9/1 입니다. ARIMA와 다중 회귀 모델 결합에 대해 설명하는 섹션을 연결했습니다.


1

좋은 질문은, 실제로 데이 터 과학자로 일하면서 두 가지를 모두 구축 한 것입니다. 시계열 모델은 쉽게 구축 할 수 있으며 (R의 프리 캐스트 패키지를 사용하면 5 초 이내에 하나를 만들 수 있음) 회귀 모델과 동일하거나 더 정확합니다. 일반적으로 항상 시계열을 구축 한 다음 회귀를 작성해야합니다. 시계열에 대한 철학적 의미도 있습니다. 아무 것도 몰라도 예측할 수 있다면 무엇을 의미합니까?

달링턴을 타요 1) "회귀는 훨씬 더 유연하고 강력하여 더 나은 모델을 생성합니다.이 지점은 작업 전반에 걸쳐 수많은 지점에서 개발되었습니다."

아니요, 정반대입니다. 회귀 모델은 시계열 모델보다 훨씬 더 많은 가정을합니다. 가정이 적을수록 지진에 견딜 수있는 가능성이 더 높아집니다 (정규 변경). 또한 시계열 모델은 갑작스러운 변화에 더 빠르게 반응합니다.

2) "적어도 다른 영역에서 회귀 사용에 익숙한 사람들에게는 회귀가 ARIMA보다 훨씬 쉽게 마스터 할 수 있습니다." 이것은 순환 추론입니다.

3) "회귀 분석은"폐쇄 된 "계산 알고리즘을 사용합니다. 가능한 경우 결과를 얻을 수 있도록 보장되는 반면 ARIMA와 다른 많은 방법은 종종 솔루션에 도달하지 못하는 반복 알고리즘을 사용합니다. ARIMA 방법이 자주 나타납니다. "회귀 분석법에 문제가없는 데이터."

회귀는 답을 제공하지만 정답입니까? 선형 회귀 및 기계 학습 모델을 구축하고 모두 동일한 결론에 도달하면 무엇을 의미합니까?

요약하면, 예 회귀와 시계열은 모두 같은 질문에 대답 할 수 있으며 기술적으로 시계열은 기술적으로 회귀합니다 (자동 회귀). 시계열 모델은 회귀 모델보다 덜 복잡하고 더 강력합니다. 전문화에 대해 생각하면 TS 모델은 예측을 전문으로하고 회귀는 이해를 전문으로합니다. 그것은 당신이 설명하든 예측하든 말입니다.


1
"시계열 모델은 회귀 모델보다 덜 복잡하므로 더 강력합니다.".... "ARIMA 모델은 회귀 모델보다 덜 복잡하고 더 강력합니다." ARIMA와 회귀를 통합하는 것을 Transfer Function Models라고합니다. 그러면 이해 (회귀)와 알 수없는 / 지정되지 않은 배경 요소 (ARIMA)를 결합하는 현명한 선택입니다.
IrishStat

2
@IrishStat 안녕하세요 Mr. Reilly, 저는 스택 교환에서 여러 게시물에 대한 답변을 읽었으며 Autobox의 많은 논문과 PSU 시계열 과정 링크를 읽었지만 여전히 읽지 못했습니다. 지연된 변수를 사용하고 필요한 경우 지연된 오류 용어를 사용하여 선형 회귀 (OLS 사용)를 사용하는 이유 (또는 경우) 이해
Miguel M.

@IrishStat가 작동하지 않는 OLS 방법입니까?
Miguel M.

1
IrishStat는 요점을 확장하기 위해 Granger 인과 관계가 될 것입니다. 예를 들어, 계수가 통계적으로 유의하더라도 예측 정확도를 향상시키는 데 반드시 중요하지는 않습니다. 내 연구에서, 회귀 모델 (선형, 올가미 등)은 실제보다 중요하다고 말하는 경향이 있으며, 임의의 숲은 다운 그레이드하고 진정한 레버를 식별하는 경향이 있습니다. 또한 임의 포리스트는 선형 모델과 동일한 샘플 정확도를 갖습니다. 유일한 단점은 계수가 실제로 무엇인지 알 수 없다는 것입니다.
숨겨진 마르코프 모델

2
@MiguelM. 전달 함수는 아마도 펄스 (한 시간 이상) 나는 차 차이가 식별 및 모델 수정 전략에 대한 경로입니다 생각을 보정하는 동안 경험적으로 탐지 수준의 변화 / 시간 동향 / 계절 펄스를 포함하여 다항식 분산 지연 모델이기 때문에 그것은 확실히 일할 수
IrishStat

0

전달 함수와 multipe linear regression (보통 사용시)의 가장 큰 차이점이 그들의 목표에 있다고 생각하면, 여러 회귀 분석은 종속 변수의 주요 인과 적 관찰 가능한 결정 요인을 찾는 데 중점을 두는 반면 전달 함수는 종속에 대한 영향을 예측하려고합니다. 특정 외인성 변수의 변이의 변수 ... 요약 적으로, 다중 회귀는 매우 구체적인 효과를 예측하기위한 철저한 설명 및 전달 함수를 지향합니다 ...


두 방법 모두 실제로 해석 할 수있는 계수를 산출하기 때문에 이것이 매우 정확하다고 생각하지 않습니다. 또한 전달 함수 DO는 인과 분석에 크게 의존하며 실제로 다중 선형 회귀 분석보다 구별하는 것이 좋습니다. 또한,이 포스트는 이러한 두 방법 사이의 기계적 / 방법 론적 차이를 요구합니다
Miguel M.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.