저는 현재 데이터 공학 석사 학위를 공부하고있는 비즈니스 및 경제학을 전공했습니다. 선형 회귀 (LR)와 시계열 분석 (TS)을 공부하면서 질문이 떠 올랐습니다. 여러 선형 회귀를 사용하고 지연된 변수를 추가하는 대신 (ACF 및 PACF를 사용하여 지연된 순서로) 완전히 새로운 방법, 즉 시계열 (ARIMA)을 만드는 이유는 무엇입니까? 그래서 선생님은이 문제에 대한 작은 에세이를 쓰라고 제안했습니다. 나는 빈손으로 도움을 구하지 않았으므로 주제에 대한 연구를했습니다.
LR을 사용할 때 Gauss-Markov 가정을 위반하면 OLS 회귀가 잘못되어 시계열 데이터 (자기 상관 등)를 사용할 때 발생한다는 것을 이미 알고있었습니다. (이에 대한 또 다른 질문은 GM의 한 가정은 독립 변수가 정규 분포 또는 독립 변수에 대한 종속 변수입니까?)
또한 분산 지연 회귀를 사용할 때 여기에서 제안하는 것으로 생각하고 OLS를 사용하여 매개 변수를 추정하면 변수 간의 다중 공선 성이 발생할 수 있으므로 추정이 잘못 될 수 있습니다.
A의 TS와 LR에 대해 비슷한 포스트 여기 @IrishStat는 말했다 :
회귀 모델은 동적 회귀 모델 또는 XARMAX 모델이라고도하는 전달 함수 모델의 특정 경우입니다. 두드러진 요점은 시계열의 모델 식별, 즉 적절한 차이, X의 적절한 지연, 적절한 ARIMA 구조, 펄스, 레벨 시프트, 로컬 시간 추세, 계절 펄스 및 통합과 같은 지정되지 않은 결정 론적 구조의 적절한 식별입니다. 매개 변수의 변경 또는 오류 분산 을 고려해야합니다.
(또한 Box Jenkins vs LR에 대한 Autobox에서 그의 논문을 읽었습니다.) 그러나 이것은 여전히 내 질문을 해결하지 못합니다 (또는 적어도 RL과 TS의 다른 메커니즘을 명확히하지는 못합니다).
지연된 변수가 있어도 OLS 문제가 발생하고 효율적이거나 정확하지 않지만 최대 가능성을 사용할 때 이러한 문제가 지속됩니까? 나는 ARIMA가 최대 가능성을 통해 추정된다는 것을 읽었으며, 지연이있는 LR이 OLS 대신 ML로 추정되는 경우 "올바른"계수를 산출합니까? 큐).
요컨대, OLS 문제입니까? ML 적용으로 문제가 해결 되었습니까?