컨텍스트 : 임상 데이터를 분석하여 오타가 될 수없는 데이터를 필터링하는 시스템을 개발 중입니다.
내가 지금까지 한 일 :
타당성을 정량화하기 위해 지금까지의 시도는 데이터를 정규화 한 다음 세트 D에서 알려진 데이터 포인트까지의 거리를 기준으로 포인트 p에 대한 타당성 값을 계산하는 것입니다 (= 훈련 세트).
그런 수량화를 통해 그럴듯한 데이터와 타당하지 않은 데이터를 분리하는 임계 값을 선택할 수 있습니다. python / numpy를 사용하고 있습니다.
내 문제 :
- 이 알고리즘은 독립 치수를 감지 할 수 없습니다. 이상적으로는 내가 레코드에 대해 알고있는 것을 알고리즘에 넣고 차원 X가 레코드의 타당성에 영향을 미치지 않는다는 것을 스스로 알아낼 수있었습니다.
- 이 알고리즘은 부울 또는 선택 입력과 같은 이산 값에는 실제로 작동하지 않습니다. 연속 값에 매핑 될 수 있지만 선택 1이 선택 3보다 선택 2에 더 가깝다는 것은 직관적이지 않습니다.
질문:
이 작업을 위해 어떤 종류의 알고리즘을 조사해야합니까? 가장 가까운 이웃 기반, 클러스터 기반 기반 및 통계적 접근 방법을 포함한 수많은 옵션이있는 것 같습니다. 또한이 복잡성에 대한 이상 감지를 다루는 논문을 찾는 데 어려움이 있습니다.
모든 조언을 부탁드립니다.
[편집] 예 :
데이터가 사람의 신장, 사람의 체중 및 타임 스탬프로 구성되어 있다고 가정하면 3D 데이터입니다. 무게와 높이는 서로 관련이 있지만 타임 스탬프는 완전히 독립적입니다. 유클리드 거리를 고려한다면 대부분의 교차 검증 데이터에 맞는 작은 임계 값을 선택해야합니다. 타임 스탬프가 다른 차원과 상관 관계가 없기 때문에 레코드가 그럴듯한 지 여부를 결정하는 것은 부적절하기 때문에 알고리즘은 타임 스탬프 차원을 무시하는 것이 이상적입니다. 모든 타임 스탬프는 그럴듯합니다.
반면에 타임 스탬프가 중요한 예를 구성 할 수 있습니다. 예를 들어 특정 날짜 이전에는 측정하지 않았지만 특정 날짜 이후에는 측정되지 않은 피처 X의 Y 값일 수 있습니다.