DBSCAN에 대해 eps 및 minPts를 선택하는 루틴


14

DBSCAN은 일부 문헌에 따르면 가장 많이 인용되는 클러스터링 알고리즘이며 밀도에 따라 임의의 모양 클러스터를 찾을 수 있습니다. 그것은 두 개의 매개 변수 eps (인접 반경으로)와 minPts (점을 핵심 지점으로 고려하기위한 최소 이웃으로)를 가지고 있습니다.

이러한 매개 변수를 선택하기 위해 일상적으로 사용되는 방법이 있습니까?


답변:


11

이러한 매개 변수를 선택하는 방법을 제안하는 많은 출판물이 있습니다.

가장 주목할만한 것은 OPTICS이며, epsilon 매개 변수를 없애는 DBSCAN 변형입니다. 그것은 대략 "모든 가능한 엡실론으로 DBSCAN을 실행하는"것으로 볼 수있는 계층 적 결과를 생성합니다.

minPts, 나는 할 제안 하지 자동 방법에 의존하지만에 도메인 지식 .

좋은 클러스터링 알고리즘 에는 필요에 따라 사용자 정의 할 수있는 매개 변수가 있습니다.

간과 한 파라미터는 거리 기능입니다. DBSCAN을 위해 가장 먼저해야 할 일은 어플리케이션에 적합한 거리 기능을 찾는 것 입니다. 유클리드 거리가 모든 응용 분야에서 최고가되는 것에 의존하지 마십시오!


사용자가 거리 기능을 선택할 수 있지만 매개 변수인지 의심됩니다.
Mehraban

1
당연하지. 그것은 다른 커널 방식의 커널 함수만큼이나 매개 변수입니다 (사실 실제로 이런 식으로 DBSCAN을 간단하게 커널 화 할 수 있음). 내 경험에 따르면 캔버라 또는 클라크와 같은 다른 거리는 결과를 크게 향상시킬 수 있습니다.
Quit--Anony-Mousse를 가지고있다

클러스터링에 대한 거리 함수의 영향을 과소 평가하지는 않지만 dbscan 또는 다른 모든 클러스터링 알고리즘에만 국한된 것이 아니라고 생각합니다. eps 및 minPts는 명시 적으로 dbscan 매개 변수입니다.
Mehraban

1
거리 기반이 아닌 알고리즘도 많이 있습니다. 그리고 minPts가 예 k를 들어 가장 가까운 이웃 분류 와 동일하다고 생각할 때 minPts 매개 변수에 대해 동일하게 말할 수 있습니다. 주된 차이점은 거리에 대해 "종종"합리적인 수준이 있다는 것입니다. 유클리드 거리; minPts의 경우 값은 데이터에 따라 다릅니다.
Quit--Anony-Mousse를 가지고있다

1
OPTICS 자체는 파티션이 아니라 클러스터 순서를 제공합니다. 파티션을 얻으려면 OPTICS 용지에 설명 된 xi 추출을 사용하십시오. 차이점을 이해하려면 각 변형 용지를 참조하십시오.
종료-익명-무스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.