이동 평균이 누락 된 데이터 포인트를 어떻게 처리해야합니까?


10

다른 날에 걸쳐 사용자의 체중을 평균화하는 프로그램을 작성 중입니다. 5 점 이동 평균 (현재 날짜, 이틀 전과 이틀 후)을 사용할 계획입니다. 때로는 1-2 일 동안 데이터 포인트가 누락되는 경우가 있습니다. 이러한 경우는 일반적으로 어떻게 처리됩니까?

(사용할 수있는 더 나은 저역 통과 필터가 있다면 제안을 좋아합니다)


가장 먼저 떠오르는 것은 이동 평균 필터를 사용하기 전에 포인트를 보간하는 것입니다
someguy

3
(A)의 진짜보다 통계적 적어도 더 문맥의 부재 신호 처리 질문보다 질문. 그러나 평균 재 계산을 건너 뛰거나 현재 평균을 대체 값으로 사용하거나 후속 측정을 기다렸다가 선형 또는 다른 방식으로 보간을 시도 할 수 있습니다.
Daniel R은

다른 사람들이 지적했듯이 이것은 일반적으로 필터링 된 출력의 작동 방식을 고려한 응용 프로그램 별 결정입니다. 대부분의 신호 처리 이론은 균일 한 간격으로 샘플을 기반으로하기 때문에 객관적으로 "올바른 답"이라고 할 수있는 것을 얻지 못합니다.
Jason R

@JasonR 해당 시점에서 사용자의 체중을보다 합리적으로 추정하기 위해 필터링합니다. 일부 데이터 포인트가 누락 된 것을 제외하고 데이터는 균일하게 샘플링됩니다 (샘플링 빈도 = 1 / 일).
Anna

@Anna : 맞습니다. 왜 데이터를 필터링하는지 이해합니다. 그러나 누락 된 데이터 포인트가 있으므로 데이터가 균일하게 샘플링되지 않습니다. 따라서 내가 언급했듯이 문제에 대한 만족스러운 이론적 대답을 찾지 못할 것입니다. 특정 응용 프로그램에 "적합한"것으로 간주되는 임시 솔루션이 아마도 답이 될 것입니다.
Jason R

답변:


4

일반적인 인상으로, 회귀 분석은 선택한 이동 평균 필터보다 결 측점을 자동으로 맞추는 데 더 효과적입니다.

AR (자동 회귀 필터) 또는 ARMA 필터를 사용하는 경우 과거 입력을 기반으로 샘플 출력의 예측 값을 가질 수 있습니다.

X^[i]=ωkx[i1k]+η

여기서 는 예측값입니다.X^[i]

특히 귀하의 경우, 사람의 체중이 특정 범위 임을 알고 있다고 가정하십시오 . 당신이하지 않은 경우 지금 값 - 두 개의 서로 다른 대체 적용 - 최소 하나와 최대 한 사용 가능한 모델을 기반으로이 두 가지 극단적 인 경우 결과 것 당신은 할 수 그들 사이에서 무언가를 선택하십시오.Xmax,Xminx[i1]X^[i]

다양한 다른 대안이 있습니다-유지할 수 있습니다

X^[i]=X[i1]
또는
X^[i]=Long term sample average of X 

본질적으로 그것은 그 값을 예측하고 그것을 신호로 계속 사용하는 게임입니다. 물론 예측은 원본 샘플과 같지 않지만 데이터가 없어서 지불하는 가격은 아닙니다.


2
회귀 분석이 적합 할 때 왜 더 효과적이라고 말합니까? 감사합니다
Spacey

3

완전한 데이터가있는 경우 누락 된 데이터를 채우는 간단하고 일반적인 방법은
선형 회귀 를 사용하는 것 입니다. 행이 5 개씩 1000 회가없는 경우를 가정 해 봅시다.
1000 x 1 벡터 y 및 1000 x 4 행렬 X를 설정하십시오.

y       X
wt[0]   wt[-2] wt[-1] wt[1] wt[2]
---------------------------------
68      67     70     70    68
...

회귀는 가장 일치하는 4 개의 숫자 abcd를 제공합니다

wt[0] ~= a * wt[-2]  + b * wt[-1]  + c * wt[1]  + d * wt[2]

1000 행의 데이터 – 다른 데이터, 다른 abc d.
그런 다음이 abcd를 사용하여 누락 된 wt [0]을 추정 (예측, 보간)합니다.
(인체 체중의 경우 abcd가 모두 약 1/4이 될 것으로 예상합니다.)

파이썬에서는 numpy.linalg.lstsq를 참조하십시오 .

(모든 수준에서 회귀에 관한 수많은 책과 논문이 있습니다. 그러나 보간과 관련하여 좋은 소개를 모릅니다.


1

일부 데이터를 모르는 경우 데이터를 평균화하지 않는 것이 가장 좋습니다. 선형 회귀 등으로 추측하면 도움이 될 수 있지만 데이터에 대한 복잡성과 의도하지 않은 편향이 발생할 수 있습니다. 다섯 가지 데이터 요소에 대해 평균을 계산하는 경우 대답은 다음과 같아야합니다.[a,b,c,?,e]

a+b+c+e4

1

가장 간단한 방법은 이전 데이터를 사용하여 시계열의 "전체"날짜를 "예측"하는 것입니다. 이 시계열을 매개 변수 추정에 사용할 수 있습니다. (그러면 전체 (완료된) 시계열의 추정 된 매개 변수를 사용하여 결 측값을 진행하고 다시 예측하고 수렴 될 때까지이를 반복 할 수 있습니다). 그러나 완성 된 데이터 계열의 길이가 아니라 실제 데이터 포인트 수에서 신뢰 한계를 도출해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.