SQL 관점 에서이 접근 방식을 원한다면 다른 행동을 일으키는 분류 변수를 광범위하게 식별 할 것입니다. 그런 다음 여러 분석 변수에 대해 다음과 같은 작업을 수행하십시오.
SELECT ClassificationVar1,
ClassificationVar2,
MIN(AnalysisVar1) as Min_AnalysisVar1,
MAX(AnalysisVar1) as Max_AnalysisVar1,
MEAN(AnalysisVar1) as Mean_AnalysiVar1,
STDEV(AnalysisVar1) as Std_AnalysisVar1,
MIN(AnalysisVar2) as Min_AnalysisVar2,
MAX(AnalysisVar2) as Max_AnalysisVar2,
MEAN(AnalysisVar2) as Mean_AnalysiVar2,
STDEV(AnalysisVar2) as Std_AnalysisVar2,
etc.
FROM YourDataFile
GROUP BY ClassificationVar1, ClassificationVar2
ORDER BY ClassificationVar1, ClassificationVar2
나는 이것을 가장 최근의 데이터 가치에 대해 일회성 연습으로 수행 한 다음 속도 관점에서 예외적 인 데이터를 플래그 지정하기 위해 필요할 때마다 정기적으로 실행합니다.
더 나은 접근법은 아마도 새로운 기술을 배우는 것이 HDFS / Spark와 PIG / Python / R 솔루션이라는 것을 의미합니다. 그러나 HDFS / Spark에는 로그 분석을 수행 할 수있는 몇 가지 솔루션이 있습니다. 5 억 개의 레코드가 테이블 분할 및 열 인덱싱에서도 SQL의 성능 문제에 도달 할 수 있습니다.