Facebook의 예언자는 선형 회귀와 다른가요?


11

Facebook의 선지자 에 대해 읽은 것은 기본적으로 시계열을 추세와 계절성으로 분류한다는 것입니다. 예를 들어, 추가 모델은 다음과 같이 작성됩니다.

y(t)=g(t)+s(t)+h(t)+et

  • t 시간을
  • g(t) 추세 (선형 또는 로지스틱 일 수 있음)
  • s(t) 계절성 (일일, 주별, 매년 ...)
  • h(t) 휴일
  • et 오류

내 질문은 : 간단한 선형 회귀로 수행 할 수 없었습니까? 결과를 비교하면 결과 기간의 차이는 무엇이며 왜됩니까?


예, 선형 모델 로이 작업을 수행 할 수 있습니다. 나는 예언자를 모르지만 이것이 전부라면 아무런 차이가 없습니다.
user2974951

답변:


13

여기서 문제는 관찰 된 데이터를 신호와 노이즈로 파싱하는 방정식을 얻는 것입니다. 데이터가 단순하면 회귀 접근 방식이 효과적 일 수 있습니다. 그들이 선지자와 맺고있는 일부 가정을 이해하도록주의를 기울여야한다. 단순한 모델뿐만 아니라 구조를 추가하려고 시도하기 때문에 Prophet의 기능을 더 잘 이해해야합니다.

예를 들어, 잘 작성된 서론을 읽은 후 내가 반영한 내용이 평가에 도움이 될 수 있습니다. 그들의 접근 방식을 잘못 이해 한 경우 사전에 사과 드리며, 가능하다면 시정을 원합니다.

1) 그들의 주요 사례는 트렌드에 두 개의 중단 점이 있지만 가장 분명한 것만 포착했습니다.

2) 생략 된 확률 계열을 반영하거나 예측을 안내하기 위해 Y의 과거 값을 사용하는 값을 반영하는 모든 ARIMA 구조를 무시합니다.

3) 사용자가 제안한 확률 론적 결정 론적 시리즈의 가능한 역학 (리드 앤 래그 효과)을 무시합니다. 선지자의 인과 회귀 효과는 단순히 동시 적입니다.

4) 직렬 이벤트 또는 계절 펄스에서 단계 / 레벨 이동을 식별하려고 시도하지 않습니다. 예를 들어, 일부 외부 이벤트가 알려지지 않아 MONDAY EFFECT가 반쯤 변경되는 경우. 선지자는 대체 가능성을 검토하여 "단순한 선형 성장"이라고 가정합니다. 이에 대한 예는 Facebook Prophet 및 R을 사용하여 온라인 구독 사업에 대한 반복 주문 예측을 참조하십시오.

5) 사인과 코사인은 계절을 다루는 불투명 한 방법이며, 요일, 월, 월, 일과 같은 계절 효과는 인위적 (인간을 다루는 것) 효과를 다룰 때 훨씬 더 효과적이고 유익한 정보.

연간 패턴에 대해 365.25의 빈도를 제안하는 것은 작년과 동일한 요일에 동일한 작업을 수행하지 않지만 월별 활동은 훨씬 더 영구적이지만 Prophet은 11 개의 월별 지표를 제공하지 않는 것으로 보이므로 의미가 거의 없습니다. 선택권. 우리는 매년 52 주가 없기 때문에 52의 주간 빈도는 의미가 없습니다.

6) 가우시안 인 오류 프로세스를 검증하려고 시도하지 않으므로 유의미한 의미 테스트를 수행 할 수 있습니다.

7) 모형 오차 분산이 균질해야한다는 것에 대한 우려가 없다. 즉, 가중 최소 제곱을 제안하는 특정 시점에서 결정적으로 변화하지 않는다. 오차 분산이 예상 값에 비례하는 최적의 전력 변환을 찾는 것에 대해 걱정하지 않아도 언제 (그리고) 분포의 로그를 가져와야합니까? .

8) 사용자는 이벤트 / 휴일과 관련하여 가능한 모든 리드 및 지연 효과를 미리 지정해야합니다. 예를 들어, 11 월 말부터 크리스마스의 장기적인 영향을 반영하여 일일 매출이 증가하기 시작합니다.

9) 결과 오류가 충분한 지 진단 검사를 통해 모델을 개선 할 수있는 방법을 제안하는 구조가 없다고 걱정할 필요가 없습니다.

10) 중요하지 않은 구조를 삭제하여 모델을 개선 할 염려가없는 것 같습니다.

11) 가능한 예외를 허용하여 모델의 오류를 부트 스트랩하여 신뢰 한계가 반드시 대칭 일 필요는없는 모의 예측 군을 얻을 수있는 기능이 없습니다.

12) 사용자가 트렌드 (트랜드 중단 점 수 및 실제 중단 점 수)에 대해 가정 할 수있게하면 핸즈프리 대규모 애플리케이션을 위해 설계된 대규모 분석에있어 원치 않는 / 사용할 수없는 유연성이 허용됩니다.


동의하지만, 그런 것들이 "가지고있는 것"기능에 더 가깝고 "필수적"이라고 말하고 싶습니다. 고품질 예측 모델 중 일부가 부족한 경우도 있습니다. 그러나 내가 말했듯이 좋은 점과 좋은 리뷰.

당신은 당신의 반성에있어 정확합니다. "데이터"의 본질적인 복잡성은 지배 문제입니다. 간단한 데이터 .. 간단한 솔루션을 필요로합니다. 복잡한 데이터는 "가지고있는 것이 좋을 것"이 "필요한 것"이 될 수 있음을 나타냅니다. 당신의 데이터 만이 확실합니다! Occam의 면도기가 떠오른다 ..
IrishStat

@ 팀 stats.stackexchange.com/questions/417908/...의 스레드는 "가지고 좋은"몇 가지 기능은 현실에서와 같은 "간단한 선형 추세"등의 부적절한 가정을 막을 수 "가지고해야"인 것을 제안한다.
IrishStat

10

나는 그것을 사용하지 않았지만, 이것은 그들의 preprint 의 초록 (강조 광산)입니다.

예측은 용량 계획, 목표 설정 및 이상 감지 기능을 갖춘 조직을 돕는 일반적인 데이터 과학 작업입니다. 그 중요성에도 불구하고, 특히 다양한 시계열이 있고 시계열 모델링에 대한 전문 지식을 가진 분석가가 상대적으로 드문 경우 신뢰할 수 있고 고품질 예측을 생성하는 것과 관련된 심각한 문제가 있습니다 . 이러한 과제를 해결하기 위해 구성 가능한 모델과 루프 내 분석가 성능 분석을 결합한 "규모"예측에 대한 실질적인 접근 방식을 설명합니다.. 분석가가 시계열에 대한 도메인 지식을 가지고 직관적으로 조정할 수있는 해석 가능한 매개 변수가있는 모듈 식 회귀 모델을 제안합니다. 예측 절차를 비교 및 ​​평가하기위한 성능 분석을 설명하고 수동 검토 및 조정을 위해 예측에 자동 플래그를 지정합니다. 분석가가 자신의 전문 지식을 가장 효과적으로 사용할 수 있도록 도와주는 도구로 비즈니스 시계열을 안정적이고 실질적으로 예측할 수 있습니다.

소개에서 :

비즈니스 예측을 작성하는 데있어 두 가지 주요 주제를 관찰했습니다. 첫째, 완전 자동 예측 기술은 조정이 어려울 수 있으며 유용한 가정이나 휴리스틱을 통합하기에는 너무 융통성이없는 경우가 많습니다. 둘째, 조직 전체의 데이터 과학 작업을 담당하는 분석가는 일반적으로 지원하는 특정 제품 또는 서비스에 대한 심도있는 전문 지식을 보유하고 있지만 시계열 예측에 대한 교육은없는 경우가 많습니다.

그래서 그들이 여기에 상당한 통계적 진보를 이루었다 고 주장하지 않는 것 같습니다 (단순한 모델보다 훨씬 더 많은 기능을 제공 할 수는 있지만). 대신, 그들은 시계열 분석에 대한 전문 지식이없는 많은 사람들이 자신의 도메인 전문 지식과 시스템 별 제약 조건을 적용하면서 예측을 생성하는 것이 가능하다고 주장합니다.

시계열 분석과 복잡한 모델 코딩에 대한 전문 지식이 이미있는 경우에는 그다지 도움이되지 않을 수 있습니다. 그러나 그들의 주장이 사실이라면, 이것은 매우 유용 할 수 있습니다! 과학 (및 상거래)은 새로운 아이디어뿐만 아니라 새로운 도구와 그 확산으로 인해 발전 합니다 (주제 와이 응답 에 대한 이 Freeman Dyson의 짧은 기사 참조 ).

통계 자체에서 예를 들자면 R통계적 진보를 나타내지는 않았지만 훨씬 더 많은 사람들이 통계 분석을 쉽게 할 수 있었기 때문에 막대한 영향을 미쳤습니다. 많은 통계적 이해가 구축 된 비계였습니다. 운이 좋으면 선지자는 비슷한 역할을 할 수 있습니다.

Dyson, Freeman J. "과학은 주로 아이디어 나 도구에 의해 주도됩니까?" 과학 338 호 6113 (2012) : 1426-1427.


0

선형 모델에서 구현할 수있는 변경 점인 부분 선형 스플라인이 없습니다.

적어도 제한적인 경우 선형 정규 회귀 (L1 및 L2 정규화) 인 것이 옳습니다.

로지스틱 성장이라는 별도의 선지자 모델이 있습니다.

또한 계절적 요인이 부가 적이라고 가정하지만, 또한 성장 모델링에 더 자연스럽게 보이는 다중 계절적 영향도 지원합니다.


이 가치있는 논의에 직면하여 통나무를 얻는 선지자 가정은 ... stats.stackexchange.com/questions/18844/… 여기서 전력 변환은 기대 값과 모형 오차 분산 또는 특정 오차 간의 경험적 관계에 근거하여 정당화됩니다. 영역 지식에 근거한 비선형 추정 기반.
IrishStat

@IrishStat 그 점에 감사드립니다 (나는 곱셈 계절성을 구현하기 위해 변환을 로그하지 않았으며 STAN을 사용하므로 로그를 가져 오는 대신 비선형 모델을 사용할 수 있다고 생각합니다). 곱하기 계절성 가정과 '비선형 추정'의 차이점을 설명 할 수 있습니까?
seanv507

@whuber의 답변 stats.stackexchange.com/questions/298/ 을 보면, "과학 이론이 나타낼 때"도메인 지식을 기반으로 가능한 비선형 가정이 될 수있는 변환을 제안합니다. 경험적 거듭 제곱 변환은 오차의 분산이 예상 값에 비례하는 경우 유용합니다. 그렇지 않으면 단순히 "창 드레싱"일 수 있습니다.
IrishStat

0

간단한 선형 회귀로 많은 것을 할 수 있지만 선지자가하는 것은 아닙니다. 예를 들어, 트렌드에 대한 자신의 변경점 후보를 지정할 수 있으며 선지자가이를 이전으로 사용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.