(선형 회귀) 예측 조정


11

전체 공개 : 나는 통계학자가 아니며, 하나라고 주장하지도 않습니다. 저는 IT 관리자가 적습니다. 나와 함께 부드럽게 놀아주세요. :)

회사의 디스크 스토리지 사용을 수집하고 예측할 책임이 있습니다. 스토리지 사용량을 매월 수집하고 예측을 위해 간단한 롤링 12 개월 선형 회귀를 사용합니다 (즉, 예측시 이전 12 개월의 데이터 만 고려 됨). 우리는이 정보를 할당 및 자본 지출 계획에 사용합니다. 예를 들어 "이 모델을 기반으로 요구 사항을 충족하기 위해 y 개월 내에 스토리지를 구매하면 x 수량을 구매해야합니다." 이 모든 것이 우리의 요구에 맞게 충분히 작동합니다.

주기적으로, 우리는 예측을 포기하는 많은 수의 일회성 움직임을 가지고 있습니다. 예를 들어 누군가 더 이상 필요하지 않은 500GB의 오래된 백업을 찾아 삭제합니다. 공간을 되찾아 주셔서 좋습니다! 그러나 우리의 예측은 이제 한 달 만에 이처럼 큰 폭으로 감소했습니다. 우리는 항상 이와 같은 하락이 모델을 벗어나는 데 9-10 개월이 걸리지 만 자본 지출 계획 시즌에 들어가면 실제로 오랜 시간이 걸릴 수 있음을 인정했습니다.

예측값이 그다지 영향을받지 않도록 (예 : 선의 기울기가 크게 변하지 않도록) 이러한 일회성 분산을 처리 할 수있는 방법이 있는지 궁금합니다. 특정 시점과 관련된 y 값의 일회성 변화). 이를 해결하기위한 첫 번째 시도는 몇 가지 추악한 결과를 낳았습니다 (예 : 지수 성장 곡선). 중요한 경우 SQL Server에서 모든 처리를 수행합니다.


훌륭한 질문입니다. 간단히 설명해주세요. 이러한 이벤트를 예측 하시겠습니까, 아니면 일단 발생하면 새 정보가 제공되는 모델 예측을 조정 하시겠습니까?
Matthew Drury

1
500GB 예제와 같은 이러한 희귀 한 이벤트를 "부드럽게"하려고하는지 여부가 확실하지 않으므로 결과에 큰 영향을 미치지 않거나 암캐 조정을 저장할 때 캡처하려는 이후 더 많은 결과를 고려하려고하는 경우 만들어 지나요? 차이점은 미묘합니다. 첫 번째로, 새로운 점 (희귀 사건)을 거의 무시하고 싶지만, 두 번째로, 그 점을 강조하고 싶습니다 (희귀 사건). 전자의 경우에는 이미 선형 회귀를 사용하고 있기 때문에 강력한 회귀는 아마도 간단한 방법 일 것입니다. 여기를 참조하십시오 : ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

또한 소프트웨어를 사용하여 예측을하고 신뢰 구간을 사용합니까?
Stats 학생

사실 후에 조정을 추가 할 수 있습니다. 사실, 다음 달의 숫자를보고 큰 변화를 볼 때까지 대부분의 경우 큰 편차에 대해 알지 못합니다. 나는 예측을하기 위해 어떤 소프트웨어도 사용하지 않습니다. 회귀 값을 계산하기 위해 SQL Server의 저장 프로 시저.
sbrown

빠른 반응 : (a) 아마도 로그 디스크 사용량의 변화에 ​​매우 기본적인 AR (1)을 적용 할 수 있습니까? 기본적으로 디스크 사용량의 장기 성장률을 예측하고 충격 후 디스크 사용량의 증가율이 해당 추세로 얼마나 빨리 되돌아 가는지 추정합니다. (aa) 다른 데이터도 사용할 수 있으며 VAR (벡터 자동 회귀)에 맞출 수 있습니다. (b) 12 개월을 초과하는 모든 데이터를 폐기하는 것이 최선의 방법이 아닐 수도 있습니다. (c) 규칙적인 OLS는 제곱의 합을 최소화합니다. 특이 치에보다 강력한 다른 페널티 기능 (예 : Huber)을 사용할 수 있습니다.
Matthew Gunn

답변:


0

여기 간단한 제안이 있습니다. 나는 그것이 당신에게 효과가 있는지 모르겠고 어쩌면 내가 코멘트로 만들어야했을 수도 있지만, 답장보다 코멘트를 작성하려면 더 많은 권한이 필요합니다.

올바르게 이해하면 사용중인 수치는 매달 사용하는 저장 용량입니다. 아마도 이러한 평상시 증가하고 아마도 추세가 계속된다면 앞으로 어느 정도의 금액이 될지 예측하고 싶을 것입니다. 큰 변화가 발생했음을 알게되면 (예 : 500GB가 릴리스 됨) 이전 달의 수치를 변경하고 (예 : 500GB를 모두 삭제)? 기본적으로 당신이하고있는 일은 이전 달의 수치를 과거의 수치로 조정하는 것입니다.

물론 나는 당신이 오래된 인물로 돌아갈 수 있는지 확인하지 않는 한 이것을 권장하지 않습니다. 그러나 Excel에서 할 수있는 것처럼 들리는 예측은 원하는 수의 버전을 가질 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.