누구나 L 2 대신 또는 메트릭을 클러스터링에 사용 합니까?
Aggarwal et al.,
고차원 공간에서의 거리 측정법의 놀라운 행동에
대해 (2001 년)
높은 차원의 데이터 마이닝 응용 프로그램에 대해유클리드 거리 측정법 보다 L 1 이 지속적으로 더 바람직 합니다.
또는 이 아직 더 수 있다고 주장했습니다 .
또는 를 사용하는 이유는 이론적이거나 실험적인 수 있습니다. 예나 그림은 평신도의 직관에 도움이 될 것입니다.
이 질문은 밥 듀란트가 ' 가까운 이웃 사람 '에 대한 답변에 대한 후속 조치 입니다 . 그가 말했듯이 의 선택은 데이터와 응용 프로그램에 따라 다릅니다. 그럼에도 불구하고 실제 경험에 대한 보고서는 유용 할 것입니다.
6 월 7 일 화요일에 추가 된 메모 :
"L1-norm 및 관련 방법을 기반으로 한 통계 데이터 분석", Dodge ed., 2002, 454p, isbn 3764369205 – 수십 회의 논문을 우연히 발견했습니다.
누구든지 iid 지수 기능에 대한 거리 농도를 분석 할 수 있습니까? 지수의 한 가지 이유는 ; 또 다른 (비전문가)는 그것이 최대 엔트로피 분포 0이라는 것입니다. 세 번째는 일부 실제 데이터 세트, 특히 SIFT가 대략 지수 적으로 보입니다.