Auto.arima와 autobox의 차이점은 무엇입니까?


16

이 사이트에 읽는 글에서 나는 R의가 알고있는 기능을 auto.arima 합니다 (에서 forecast 패키지 ). 또한 이 사이트의 회원 인 IrishStat 는 1980 년대 초에 상용 패키지 오토 박스 를 구축 했음을 알고 있습니다. 이 두 패키지가 현재 존재하고 주어진 데이터 세트에 대해 자동으로 arima 모델을 선택함에 따라 다르게 수행하는 작업은 무엇입니까? 동일한 데이터 세트에 대해 다른 모델을 생성 할 수 있습니까?


@Wayne을 편집 해 주셔서 감사합니다. 나는 R 예측 패키지에 익숙하지 않지만 그것이 오토 박스와 비교할 의미라고 확신합니다.
Michael R. Chernick

(방금 "auto-arima"를 "auto.arima"로 두 번째로 약간 변경했습니다.) auto.arima다른 패키지에는 다른 기능 이있을 수 있지만 forecast, 그 중 하나에 대한 설명이 있습니다. 이 함수는 제공된 순서 제약 조건 내에서 가능한 모델을 검색합니다. "
Wayne

1
AUTOBOX는 식별 가능한 구조가없는 오류 프로세스를 가지면서 통계적으로 중요한 매개 변수 만있는 모델을 렌더링하기 위해 실제로 진단 스텝 업 및 스텝 다운 절차를 수행하여 자동 식별을 통해 자동 식별을 반복하여 전체 식별 방식으로 자동 식별을 처리합니다. 이런 식으로 반복 스크립트를 따릅니다. 1975 년경 AUTOBOX의 초기 버전은 "하나의 통계적 접근"을 사용하려했지만, 이는 식별 된 모델이 중복되거나 어리석은 구조 (예를 들어 5,1,2)이거나 구조가 불충분 한 것으로 나타났습니다.
IrishStat

1
@IrishStat 좋은 접근 방식 인 것 같습니다. 요구 사항을 충족시키는 두 가지 경쟁 모델을 찾으면 어떻게해야합니까? 가능성이있는 것 같습니다. 특정 기준에 따라 "최적의"모델을 권장합니까? "통계적으로 중요한 매개 변수"만있는 모델을 선택하면 parsimony를 선호하는 경향이 있지만 모든 매개 변수가 통계적으로 중요하고 잔차가 흰색으로 보이는 매개 변수 AR 프로세스가 낮고 하위 AEMA 모델이 낮을 수는 없습니다. 소음?
Michael R. Chernick

1
@IriehStat. 동의합니다. 결국 사용자를 위해 무엇을합니까? 하나의 모델 만 제공합니까? 또는 경쟁 가능한 수용 가능한 모델의 주문 목록을 제공 할 수 있습니까? 후자가 아니라면 목록을 작은 수로 제한하는 위치에 추가하는 것이 좋습니다.
Michael R. Chernick

답변:


9

마이클 / 웨인

AUTOBOX는 다음 조건 중 하나 이상이 충족되면 다른 모델을 제공 / 확실히 식별합니다.

1) 데이터에 펄스가 있습니다

2) 데이터에 하나 이상의 레벨 / 스텝 시프트가 있습니다

3) 데이터에 계절 펄스가있는 경우

4) 단순히 해결되지 않은 데이터에 하나 이상의 현지 시간 추세가 있습니다.

5) 시간이 지남에 따라 모델의 매개 변수가 변경되는 경우

6) 시간에 따라 오차의 변화가 변하고 전력 변환이 적절하지 않은 경우.

구체적인 예를 들어, 두 사람 모두 시계열을 선택 / 만들고 웹에 게시하는 것이 좋습니다. AUTOBOX를 사용하여 무인 모드에서 데이터를 분석하고 모델을 목록에 게시합니다. 그런 다음 R 프로그램을 실행 한 다음 각각의 결과를 서로 객관적으로 분석하여 유사점과 차이점을 지적합니다. 의견에 대한 최종 오류 조건을 포함하여 사용 가능한 모든 지원 자료가 포함 된이 두 모델을 보내주십시오. 이러한 결과를 요약하고 목록에 제시 한 다음 목록 독자에게 어떤 절차가 가장 적합한 지 투표하도록 요청하십시오.


같은 콘테스트를 의미 합니까?
whuber

@whuber 예. 아마도 배경으로 사용될 수있는 "알 수없는 / 코딩 된 교과서 예"를 사용할 수도 있습니다.
IrishStat

22

두 가지 유사하지만 다른 문제에 대한 두 가지 접근 방식을 나타냅니다. 나는 썼고 auto.arima@IrishStat는Autobox .

auto.arima() 드리프트 항을 포함하여 (계절별) ARIMA 모델에 적합합니다. Autobox레벨 시프트 및 이상 값을 처리하기 위해 전달 함수 모델에 적합합니다. ARIMA 모델은 특별한 전달 함수 모델입니다.

에서 레벨 시프트 및 이상치 감지를 끈 경우에도 Autobox다른 ARIMA 모델을 얻을 수 있습니다.auto.arima() ARIMA 매개 변수를 식별하는 방법에 대한 다른 선택으로 인해 됩니다.

M3 및 M- 경쟁 데이터에 대한 테스트에서 이러한 데이터 auto.arima()보다 정확한 예측을 생성 Autobox합니다. 그러나 Autobox주요 특이 치 및 레벨 이동이 포함 된 데이터를 사용하면 더 효과적입니다.


3
몇 년 전부터 AUTOBOX 버전을 언급했다고 생각합니다. AUTOBOX는 수년 동안 엄청나게 변화했습니다. 내가 틀렸다면 1 점의 정확도 만 비교했을 것입니다. 1 점의 샘플이라는 데 동의합니다. 정확도는 여러 출처에서 평가해야합니다.
IrishStat

15
나는 수천 시리즈에 걸쳐 출판 된 비교를 언급하고있다. International Journal of Forecasting의 편집장으로서 예측을 평가하는 방법에 대한 아이디어가 있다고 생각합니다.
Rob Hyndman

2
나는이 질문이 누가 최고의 예측 알고리즘을 가지고 있는지에 대한 논쟁을 불러 일으키려고하지 않았다. autobox와 auto.arima는 모두 매우 좋은 패키지라고 생각합니다. 여러 가지 이유로 일대일 비교는 불공평 할 수 있습니다. 1) 사용자는 판단 방법을 알기에 전문가가 아닐 수 있습니다. 2) 단일 시계열의 예측 정확도는 불량품입니다. 예측에서 평균 제곱 오차가 낮을 수 있지만 임의성이 포함될 때마다 고려해야합니다. 여러 시리즈를 살펴보고 IrishStat가 제안한대로 다른 시작점을 살펴 봐야합니다.
Michael R. Chernick

또한 예측을 시작하는 다른 지점이 유용 할 것입니다. 3) ARIMA 세계에는 동일한 시계열 모델에 대한 여러 표현이 있으며, 유한 AR 프로세스에는 무한 이동 평균 표현이 있으며 그 반대도 마찬가지입니다. 따라서 하위 AR은 상위 이동 평균 또는 ARMA와 거의 동일 할 수 있습니다. Box는 항상 parsimony의 원칙에 따라 제안했습니다. 그러나 데이터가 많으면 모수에 대한 추정치를 얻을 수 있으며 고차 수 모델은 비유적인 것과 거의 동일한 예측치를 생성 할 수 있습니다. 4) 두 패키지는 서로 다른 목표를 가지고 있습니다.
Michael R. Chernick

3
이 방법은 시간이 지남에 따라 발전했습니다. Dave Reilly는이 사이트에서 IrishStat로 활발히 활동하고 있으며 일반적인 용어로 어떻게 작동하는지 설명하는 데 매우 개방적입니다. 영업 비밀과 독점 알고리즘을 갖는 것이 비즈니스의 필수 요소입니다. 그의 관점에서 R은 SPlus와 마찬가지로 자신의 비즈니스를 해치고 있습니다. 그러나 그는 괴로움을 나타내지 않으며 오늘날 자신이 볼 수 있듯이 그의 소프트웨어를 보여줄 의향이 있습니다. 또한 경쟁사에 대한 테스트를 기꺼이 수행하고 있으며 시계열 예측 경쟁에 참여한 것으로 보입니다.
Michael R. Chernick

11

편집 : 귀하의 의견에 따라, 많은 autobox옵션을 끄면 비슷한 답변을 얻을 것이라고 생각합니다 auto.arima. 그러나 당신이하지 않고, 이상 치가있는 경우 분명히 차이가있을 것입니다 : auto.arima이상 치를 신경 쓰지 않고, 이상 치를 autobox감지하고 적절하게 처리하여 더 나은 모델을 제공 할 것입니다. 다른 차이점도있을 수 있으며 IrishStat가이를 설명 할 수 있다고 확신합니다.


autobox최고의 AR, I 및 MA 계수를 검색하는 것 이상으로 특이 치 및 기타 사항을 감지 한다고 생각 합니다. 그것이 맞다면, 더 많은 분석과 비슷한 기능을 가진 다른 R 함수가 필요할 것입니다. 그리고 IrishStats는이 커뮤니티의 귀중한 회원이며 매우 친절합니다.

물론 R은 무료이며 ARIMA를 넘어선 독창적 인 일을 할 수 있습니다.

경제 스타일의 ARIMA에 무료로 제공되는 또 다른 선택은 X13-ARIMA SEATS 은 오픈 소스 인 미국 인구 조사국의 것입니다. Windows 및 Linux 용 바이너리가 있지만 gnu의 gfortran 컴파일러를 이미로드 한 경우 Mac에서 직접 컴파일되었습니다. 그것은 후임자 X12-ARIMA이며 지난 몇 년간 개발 및 테스트를 거쳐 방금 발표되었습니다. (X12를 업데이트하고 SEATS / TRAMO 기능도 추가합니다. X12는 공식 미국 도구이며 SEATS / TRAMO는 스페인 은행에서 제공하는 "유럽 도구"입니다.

나는 X12 (현재 X13)를 정말 좋아합니다. 상당한 양의 진단을 출력하고이를 통해 읽고 의미를 알게되면 실제로 ARIMA 및 시계열에서 상당히 훌륭한 교육입니다. 나만의 워크 플로를 개발했지만 R 패키지가 있습니다.x12 내에서 대부분의 작업을 수행 가 있습니다 (여전히 X12 용 입력 모델 ( ".spc") 파일을 만들어야 함).

X12는 3 년 이상의 데이터가 포함 된 월간 데이터를 의미하는 "경제 스타일"ARIMA에 능숙하다고 말합니다. (일부 진단 기능을 사용하려면 5 년 이상의 데이터가 필요합니다.) 이상치 식별 기능이 있으며 모든 종류의 이상치 사양을 처리 할 수 ​​있으며 휴일, 부동 휴일, 거래일 효과 및 수많은 경제적 인 사항을 처리 할 수 ​​있습니다. 계절별로 조정 된 데이터를 생성하기 위해 미국 정부가 사용하는 도구입니다.


내 질문에는 실제로 두 알고리즘이 다른 모델 선택을 생성 할 수있는 데이터 세트가 주어졌습니다. 내가 관심이 있고 다른 진단 기능 중 하나가 다른 진단 기능에 영향을 미치지 않는 것은 자동 선택입니다. ARMA 모델 패밀리와 패밀리의 두 모델은 동일한 모델의 정확하거나 거의 동일한 대체 표현 일 수 있습니다. 따라서 선택 절차에 약간의 차이가 있으면 다른 모델을 선택할 수 있다고 생각합니다.
Michael R. Chernick

3
@MichaelChernick: Ah. My guess would be that if you turn off all of the auto-stuff in autobox you'd get the same answer. But one of the points of using autobox is that it will detect outliers and handle them as such, so the model returned would be different if there are outliers.
Wayne

@Wayne +1 for the extra information about X13-ARIMA SEATS and SEATS/TRAMO.
Graeme Walsh

@Wayne By the way, another "European Tool" is DEMETRA+.
Graeme Walsh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.