전체 공개 : 나는 통계학자가 아니며, 하나라고 주장하지도 않습니다. 저는 IT 관리자가 적습니다. 나와 함께 부드럽게 놀아주세요. :)
회사의 디스크 스토리지 사용을 수집하고 예측할 책임이 있습니다. 스토리지 사용량을 매월 수집하고 예측을 위해 간단한 롤링 12 개월 선형 회귀를 사용합니다 (즉, 예측시 이전 12 개월의 데이터 만 고려 됨). 우리는이 정보를 할당 및 자본 지출 계획에 사용합니다. 예를 들어 "이 모델을 기반으로 요구 사항을 충족하기 위해 y 개월 내에 스토리지를 구매하면 x 수량을 구매해야합니다." 이 모든 것이 우리의 요구에 맞게 충분히 작동합니다.
주기적으로, 우리는 예측을 포기하는 많은 수의 일회성 움직임을 가지고 있습니다. 예를 들어 누군가 더 이상 필요하지 않은 500GB의 오래된 백업을 찾아 삭제합니다. 공간을 되찾아 주셔서 좋습니다! 그러나 우리의 예측은 이제 한 달 만에 이처럼 큰 폭으로 감소했습니다. 우리는 항상 이와 같은 하락이 모델을 벗어나는 데 9-10 개월이 걸리지 만 자본 지출 계획 시즌에 들어가면 실제로 오랜 시간이 걸릴 수 있음을 인정했습니다.
예측값이 그다지 영향을받지 않도록 (예 : 선의 기울기가 크게 변하지 않도록) 이러한 일회성 분산을 처리 할 수있는 방법이 있는지 궁금합니다. 특정 시점과 관련된 y 값의 일회성 변화). 이를 해결하기위한 첫 번째 시도는 몇 가지 추악한 결과를 낳았습니다 (예 : 지수 성장 곡선). 중요한 경우 SQL Server에서 모든 처리를 수행합니다.