거대한 데이터 스트림에서 작동하는 유용한 알고리즘은 무엇이며 결과도 상당히 작으며 결과를 병합하여 두 스트림을 혼합하여 결과를 계산할 수 있습니까?
몇 가지 이름을 지정할 수 있습니다.
- sum, min, max, count, top-K 등과 같은 명백한 것
- 히스토그램, 별개의 항목 수 계산 또는 Quantile 계산을위한 대략적인 "스케치 기반"스트림 알고리즘
다른 사람이 있습니까?
(이 알고리즘의 유용성에 의해 유용성이 직접 결정되는 분산 시스템 모니터링을위한 취미 프로젝트를 작성하고 있기 때문에 관심이 있습니다)