재무 시계열 데이터 (예 : tickdata)에서 특이 치 및 오류 (원인이 무엇이든)를 제거 할 수있는 강력한 기술을 찾고 있습니다.
틱별로 금융 시계열 데이터는 매우 지저분합니다. 교환이 닫히면 엄청난 시간 간격이 생기고 교환이 다시 열리면 크게 점프합니다. 거래소가 열리면 모든 종류의 요소가 잘못되었거나 발생하지 않은 가격 수준 또는 시장을 대표하지 않는 가격 수준에서 거래를 유도합니다 (예를 들어, 잘못 입력 된 입찰 또는 가격 요청으로 인한 급증). tickdata.com (PDF) 의이 문서는 문제를 개략적으로 설명하지만 구체적인 솔루션은 거의 제공하지 않습니다.
온라인 에서이 문제를 언급하는 대부분의 논문은이 문제를 무시하거나 (틱 데이터가 필터링 된 것으로 가정) 유용한 필터링 단계를 숨기는 거대한 거래 모델의 일부로 필터링을 포함합니다.
이 분야에서 더 심도 깊은 작업을 알고있는 사람이 있습니까?
업데이트 : 이 질문 은 표면적으로 비슷해 보이지만 다음과 같습니다.
- 재무 시계열은 (적어도 눈금 수준에서) 비 주기적입니다.
- 마지막 날의 데이터를 정말로 원하지만 (아무것도 없기 때문에) 초기화로 단순히 사용할 수 없기 때문에 오프닝 효과는 큰 문제입니다. 외부 사건으로 인해 새로운 날 개회가 절대적인 수준과 전날의 변동성 모두에서 크게 달라질 수 있습니다.
- 들어오는 데이터의 빈도가 불규칙합니다. 하루 종일 열리고 닫히는 데이터 포인트 / 초의 양은 하루 동안의 평균보다 10 배 더 높을 수 있습니다. 다른 질문은 정기적으로 샘플링 된 데이터를 처리합니다.
- 재무 데이터의 "이상치"는 다른 도메인에는 적용 할 수없는 특정 기술로 감지 할 수있는 특정 패턴을 나타내며 이러한 특정 기술을 부분적으로 찾고 있습니다.
- 더 극단적 인 경우 (예 : 플래시 충돌) 이상 값은 더 긴 간격 (> 10 분) 동안 데이터의 75 % 이상에 달할 수 있습니다. 또한 들어오는 데이터의 (높은) 빈도에는 상황의 특이한 측면에 대한 일부 정보가 포함됩니다.