유클리드 거리와 반대로 맨해튼 거리를 언제 사용합니까?


18

기계 학습에서 유클리드 거리 에서 맨해튼 거리 를 사용하는 이유에 대한 좋은 논쟁을 찾고 있습니다.

내가 지금까지 좋은 논증을 찾은 가장 가까운 것은 이 MIT 강의 입니다.

36시 15 분에 슬라이드에서 다음 내용을 볼 수 있습니다.

"일반적으로 유클리드 메트릭을 사용 합니다. 다른 차원을 비교할 수없는 경우 Manhattan이 적합 할 수 있습니다. "

교수가 파충류의 다리 수가 0에서 4까지 변하기 때문에 (다른 기능은 이진이고 0에서 1까지만 변함) "다리의 수"기능은 훨씬 더 높아질 것이라고 유클리드 거리가 사용되는 경우 무게. 물론, 맞습니다. 그러나 맨해튼 거리를 사용하는 경우에도 문제가 있습니다 (유클리드 거리에서와 같이 차이를 제곱하지 않기 때문에 문제가 약간 완화되는 경우에만).

위의 문제를 해결하는 더 좋은 방법은 "다리 수"기능을 정규화하여 값이 항상 0과 1 사이가되도록하는 것입니다.

따라서 문제를 해결하는 더 좋은 방법이 있기 때문에 맨해튼 거리를 사용한다는 주장은 적어도 내 견해로는 더 강점이 부족한 것처럼 느껴졌습니다.

누군가가 언제 그리고 언제 누군가가 유클리드에서 맨해튼 거리를 사용할지 알고 있습니까? 누구든지 맨해튼 거리를 사용하면 더 나은 결과를 얻을 수있는 예를 들어 줄 수 있습니까?

답변:


4

이 흥미로운 논문에 따르면, 고차원 데이터의 경우 맨해튼 거리 (L1 표준)가 유클리드 거리 (L2 표준)보다 바람직 할 수 있습니다.

https://bib.dbvis.de/uploadedFiles/155.pdf

이 논문의 저자는 한 단계 더 나아가 클러스터링과 같은 거리 기반 알고리즘의 결과를 향상시키기 위해 매우 높은 차원의 데이터에 대해 분수 값 k의 Lk 표준 거리를 사용할 것을 제안합니다.


stats.stackexchange.com/a/99191 은 더 자세한 답변을 제공합니다
마이크

3

Wikipedia 에서 몇 가지 아이디어를 제안 할 수 있습니다 .

  1. 특이 치에 덜 중점을 두려면 맨해튼 거리는 그래디언트의 크기가 일정하므로 모든 오차를 똑같이 줄이려고합니다.
  2. 소음이 Laplacian으로 분산 된 경우 MLE는 맨해튼 추정값을 최소화하여 찾을 수 있습니다.

3

Scikit-Learn 및 TensorFlow를 사용한 Hands-On Machine Learning 에서이 문제에 대한 직관을 발견했습니다.

RMSE와 MAE는 예측 벡터와 목표 값 벡터 사이의 거리를 측정하는 방법입니다. 다양한 거리 측정 또는 규범이 가능합니다.

  • RMSE (제곱합)의 근을 계산하는 것은 유클리드 표준에 해당합니다. 이는 익숙한 거리의 개념입니다. 또한 ℓ2 규범이라고도합니다 (...)

  • 절대 값의 합 (MAE) 계산은 ℓ1 규범 (...)에 해당합니다. 직교 도시 블록을 따라 여행 할 수있는 경우 도시의 두 지점 사이의 거리를 측정하기 때문에 맨해튼 표준이라고도합니다.

  • 더 일반적으로, (...) ℓ 0은 벡터에서 0이 아닌 요소의 수를 제공하고 ℓ∞은 벡터의 최대 절대 값을 제공합니다.

  • 표준 지수가 높을수록 큰 값에 더 집중하고 작은 값을 무시합니다. RMSE가 MAE보다 특이 치에 더 민감한 이유입니다. 그러나 특이 치가 기하 급수적으로 희귀 한 경우 (종 모양 곡선과 같이) RMSE는 매우 잘 수행되며 일반적으로 선호됩니다.


2

맨해튼 거리의 사용은 데이터 세트가 사용하는 좌표계의 종류에 따라 다릅니다. 유클리드 거리는 두 점 사이의 최단 또는 최소 거리를 제공하지만 맨해튼에는 특정 구현이 있습니다.

예를 들어, Chess 데이터 셋을 사용하려는 경우 맨해튼 거리를 사용하는 것이 유클리드 거리보다 더 적합합니다. 또 다른 용도는 몇 블록 떨어져있는 집들 사이의 거리를 아는 데 관심이있을 때입니다.

또한 입력 변수가 유형 (예 : 연령, 성별, 키 등)이 유사하지 않은 경우 맨해튼 거리를 고려할 수 있습니다. 치수의 저주로 인해 치수 수가 증가함에 따라 유클리드 거리가 좋지 않은 선택이된다는 것을 알고 있습니다.

요컨대 맨해튼 거리는 일반적으로 점이 그리드 형태로 배열되고 작업하는 문제가 그리드와 함께 포인트 사이의 거리에 우선 순위를 부여하지만 기하학적 거리는 아닌 경우에만 작동합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.