클러스터링에 대한


14

누구나 L 2 대신 L1 또는 L.5 메트릭을 클러스터링에 사용 합니까? Aggarwal et al., 고차원 공간에서의 거리 측정법의 놀라운 행동에 대해 (2001 년)L2

높은 차원의 데이터 마이닝 응용 프로그램에 대해L1유클리드 거리 측정법 보다 L 1 이 지속적으로 더 바람직 L2합니다.

또는 이 아직 더 수 있다고 주장했습니다 .L.5L.1

또는 를 사용하는 이유는 이론적이거나 실험적인 수 있습니다. 예나 그림은 평신도의 직관에 도움이 될 것입니다.L1L.5

이 질문은 밥 듀란트가 ' 가까운 이웃 사람 '에 대한 답변에 대한 후속 조치 입니다 . 그가 말했듯이 의 선택은 데이터와 응용 프로그램에 따라 다릅니다. 그럼에도 불구하고 실제 경험에 대한 보고서는 유용 할 것입니다.p


6 월 7 일 화요일에 추가 된 메모 :

"L1-norm 및 관련 방법을 기반으로 한 통계 데이터 분석", Dodge ed., 2002, 454p, isbn 3764369205 – 수십 회의 논문을 우연히 발견했습니다.

누구든지 iid 지수 기능에 대한 거리 농도를 분석 할 수 있습니까? 지수의 한 가지 이유는 ; 또 다른 (비전문가)는 그것이 최대 엔트로피 분포 0이라는 것입니다. 세 번째는 일부 실제 데이터 세트, 특히 SIFT가 대략 지수 적으로 보입니다.|expexp|exp


Aggarwal et al. 클러스터링, 가장 가까운 이웃 및 인덱싱과 같은 문제에서 규범 의 동작을 찾는 특정 기사에서 . Lp
deps_stats

함수에 대해 L p 대신 시퀀스에 대해 메트릭을 의미 했습니까? 제 생각에는 최적화 기준이 있으면 문제를 최적화하여 해결할 수 있습니다. 일반적으로 이러한 규칙은 정확한 솔루션과 관련이 있습니다. 어쨌든 knn 솔루션의 속성이 선호되는지 생각하십시오. 기사를 읽은 후에는 주제에 대해 더 많은 것을 말할 수 있습니다. lpLp
Dmitrij Celov

@deps_stats, 예, 감사합니다. 제목과 첫 줄을 변경했습니다. @ Dmitrij, 1) 그렇습니다. 작은 l은 엄격하게 정확하지만 큰 l은 일반적이며 이해할 수 있습니다. 2) 예, 주어진 문제에 대한 최적의 p를 찾을 수 있지만 첫 번째 선택은 무엇입니까?
데니스

답변:


6

여기서 핵심은 논문이 참조하는 "차원의 저주"를 이해하는 것입니다. Wikipedia에서 : 차원 수가 매우 많을 때

거의 모든 고차원 공간이 중심으로부터 "멀리 떨어져"있거나, 다시 말하면, 고차원 단위 공간은 거의 전적으로 하이퍼 큐브의 "코너"로 구성되어 있다고 말할 수 있습니다. "가운데"

결과적으로 어느 지점이 다른 지점과 가까운 지에 대해 생각하기가 까다로워지기 시작합니다. 이것은 당신이 연결 한 첫 번째 논문의 문제입니다.

높은 p의 문제는 더 큰 값을 강조한다는 것입니다. 5 제곱과 4 제곱은 9 단위 떨어져 있지만 1 제곱과 2 제곱은 단지 3 단위 떨어져 있습니다. 따라서 더 큰 치수 (코너에있는 것)가 모든 것을 지배하고 대비를 잃습니다. 따라서이 장거리 인플레이션은 피하고 싶은 것입니다. 분수 p를 사용하면 더 작은 치수 (실제 중간 값을 갖는 치수)의 차이에 중점을 두어보다 대비를 높일 수 있습니다.


(+1) 따라서 @David, 일반적으로 대비 품질을 설명하는 기준이 있습니까?
Dmitrij Celov 2016

연결 한 첫 번째 논문에서 최대 거리에서 최소 거리를 뺀 것으로 보입니다. 그래도 더 좋은 방법이있을 수 있습니다.
David J. Harris

좋은 직관력, +1 (모서리가 거리 분포에 있는지는 확실하지 않지만). 실제 데이터에 또는 L .5 를 사용 했습니까 ? L1L.5
데니스

1
@Denis 감사합니다! 데이터가 가장 가깝거나 모든 차원에 바인딩되어 있으면 모서리 비트가 가장 의미가 있다고 생각합니다. 어쨌든 클러스터링에 대한 경험이 충분하지 않아서 다른 메트릭에 대한 좋은 직관을 갖지 못할 것입니다. 짜증나게하는 가장 좋은 방법은 몇 가지를 시도하고 어떤 일이 일어나는지 보는 것입니다.
David J. Harris

1

Lp 측정법을 사용하여 p가 1에서 5 사이 인 용지가 있습니다.

Amorim, RC 및 Mirkin, B., Minkowski 메트릭, K- 평균 군집화, 패턴 인식, vol. 45 (3), pp. 1061-1075, 2012

다운로드, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

Rnu2uu2


L2L1L.5
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.