LOF (Local Outlier Factor) 탐지 분석을위한 k- 값 선택

3 차원 데이터 세트가 있으며 가장 특이하거나 이상한 값을 식별하기 위해 Local Outlier Factor 분석을 사용하려고합니다. LOF 분석에 사용할 k- 값을 어떻게 결정합니까? k- 값이 무엇을 결정하는지 이해하므로 다른 k를 사용하여 약간 다른 결과를보고 있다는 사실에 놀라지 않습니다. . 감사!

data-mining outliers

— 헨리 D
소스

미래에 내 질문을 겪는 사람을 위해 여기에 게시하면 로컬 이상치 요인 알고리즘 "LOF : 밀도 기반 로컬 이상치 식별"(Breunig et al)을 설명하는 원본 논문에서 k- 값을 선택하는 방법을 권장합니다. . LOF 알고리즘은 각 포인트의 밀도를 가장 가까운 이웃 의 밀도와 비교합니다 . 이 논문의 저자는 최소 와 최대 를 선택하고 각 포인트마다 해당 범위의 각 에 대해 최대 LOF 값을 취하는 것이 좋습니다 . 범위를 선택하기위한 몇 가지 지침을 제공합니다. $k$ $k$ $k$ $k$

최소값의 경우 LOF 값은 에 대한 균일 분포의 점에서 변동이 심하며, 균일 분포의 점이 때때로 이상치로 표시되므로 최소 을 권장 합니다. 둘째, 최소 값은 "클러스터"로 간주되는 대상의 최소 크기로 사용되므로 해당 클러스터에 비해 점이 이상 치가 될 수 있습니다. 경우 , 그리고 당신의 그룹이 점과 점 , 그룹의 각 지점이 포함됩니다 의 가장 가까운 이웃에서, 그리고 매우 유사 LOI들을 가지고 그들을 선도, 그 점을 포함 할 것이다. 따라서 그룹 근처의 점을 고려하려면 $k<10$ $min(k)=10$ $k$ $k=15$ $12$ $p$ $p$ $p$ $N$ 해당 그룹의 일부가 아닌 특이 치로서 k 값은 이상이어야합니다 . $N$

최대 값의 경우, 유사한 기준이 적용되는데, 이는 함께 클러스터 된 경우 이상치로 간주 할 최대 오브젝트 수 여야한다는 점입니다. 기본 집합에서 격리 된 개체 그룹은 클러스터이거나 이상일 수 있습니다. 위한 , 그들은 제 것; 위한 , 그들은 제 것이다. $N$ $N$ $k<N$ $k>N$

잘하면 이것은 비슷한 문제가있는 사람에게 도움이되기를 바랍니다. 전체 논문은 여기 에 있으며 최대 / 최소 k- 값에 대한 설명은 7 페이지에서 시작하여 9 페이지를 통해 진행됩니다 ( 값을 MinPts 라고 함) . $k$

— 헨리 D
소스

한 가지만 이해하고 싶습니다. 모든 데이터 세트에 대해 k = 20을 선택하고 각 점에 대해 LOF를 생성 한 다음 모든 점을 LOF의 내림차순으로 표시한다고 가정하겠습니다. 이제 데이터를 분석 할 때 데이터가 이상치라고 생각할 때까지 범위를 선택할 수 있습니다 (도메인의 지식에 따라) 이것이 도움이된다고 생각하십니까? 나는 지금 k의 가치에 대해 걱정할 필요가 없으며 LOF 순위에 따라 이상 치를 분석하기 위해 도메인 지식을 사용하고 있습니다. 감사합니다,

— Swapnil Bhure