LOF (Local Outlier Factor) 탐지 분석을위한 k- 값 선택


9

3 차원 데이터 세트가 있으며 가장 특이하거나 이상한 값을 식별하기 위해 Local Outlier Factor 분석을 사용하려고합니다. LOF 분석에 사용할 k- 값을 어떻게 결정합니까? k- 값이 무엇을 결정하는지 이해하므로 다른 k를 사용하여 약간 다른 결과를보고 있다는 사실에 놀라지 않습니다. . 감사!

답변:


11

미래에 내 질문을 겪는 사람을 위해 여기에 게시하면 로컬 이상치 요인 알고리즘 "LOF : 밀도 기반 로컬 이상치 식별"(Breunig et al)을 설명하는 원본 논문에서 k- 값을 선택하는 방법을 권장합니다. . LOF 알고리즘은 각 포인트의 밀도를 가장 가까운 이웃 의 밀도와 비교합니다 . 이 논문의 저자는 최소 와 최대 를 선택하고 각 포인트마다 해당 범위의 각 에 대해 최대 LOF 값을 취하는 것이 좋습니다 . 범위를 선택하기위한 몇 가지 지침을 제공합니다.kkkk

최소값의 경우 LOF 값은 에 대한 균일 분포의 점에서 변동이 심하며, 균일 분포의 점이 때때로 이상치로 표시되므로 최소 을 권장 합니다. 둘째, 최소 값은 "클러스터"로 간주되는 대상의 최소 크기로 사용되므로 해당 클러스터에 비해 점이 이상 치가 될 수 있습니다. 경우 , 그리고 당신의 그룹이 점과 점 , 그룹의 각 지점이 포함됩니다 의 가장 가까운 이웃에서, 그리고 매우 유사 LOI들을 가지고 그들을 선도, 그 점을 포함 할 것이다. 따라서 그룹 근처의 점을 고려하려면k<10min(k)=10kk=1512pppN해당 그룹의 일부가 아닌 특이 치로서 k 값은 이상이어야합니다 .N

최대 값의 경우, 유사한 기준이 적용되는데, 이는 함께 클러스터 된 경우 이상치로 간주 할 최대 오브젝트 수 여야한다는 점입니다. 기본 집합에서 격리 된 개체 그룹은 클러스터이거나 이상일 수 있습니다. 위한 , 그들은 제 것; 위한 , 그들은 제 것이다.NNk<Nk>N

잘하면 이것은 비슷한 문제가있는 사람에게 도움이되기를 바랍니다. 전체 논문은 여기 에 있으며 최대 / 최소 k- 값에 대한 설명은 7 페이지에서 시작하여 9 페이지를 통해 진행됩니다 ( 값을 MinPts 라고 함) .k


한 가지만 이해하고 싶습니다. 모든 데이터 세트에 대해 k = 20을 선택하고 각 점에 대해 LOF를 생성 한 다음 모든 점을 LOF의 내림차순으로 표시한다고 가정하겠습니다. 이제 데이터를 분석 할 때 데이터가 이상치라고 생각할 때까지 범위를 선택할 수 있습니다 (도메인의 지식에 따라) 이것이 도움이된다고 생각하십니까? 나는 지금 k의 가치에 대해 걱정할 필요가 없으며 LOF 순위에 따라 이상 치를 분석하기 위해 도메인 지식을 사용하고 있습니다. 감사합니다,
Swapnil Bhure
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.