어느 거리를 사용해야합니까? 예 : 맨해튼, 유클리드, 브레이 커티스 등


11

저는 지역 사회 생태학자가 아니지만 요즘에는 지역 사회 생태 데이터를 연구하고 있습니다.

이 거리의 수학을 제외하고 내가 이해할 수 없었던 것은 사용할 각 거리의 기준과 적용 가능한 상황입니다. 예를 들어, 카운트 데이터와 함께 무엇을 사용해야합니까? 두 위치 사이의 경사각을 거리로 변환하는 방법은 무엇입니까? 아니면 두 곳의 기온이나 강우? 각 거리에 대한 가정은 무엇이며 언제 의미가 있습니까?


거리 측정법, 가정, 의미 및 적용 가능성을 이해하는 신뢰할 수있는 방법은 공식을 묵상하는 것입니다. 비교 해부학은 다른 동물들이 어떻게 살고 행동하는지 예측할 수있게 해주었습니다. 또한 거리 측정법에 관한 책이나 기사를 읽으십시오.
ttnphns

2
Pedantic note : Bray–Curtis는 거리가 아니라 비 유사성입니다.
Franck Dernoncourt

답변:


13

불행히도, 대부분의 상황에서 귀하의 질문에 대한 명확한 답변이 없습니다. 즉, 특정 응용 분야에 대해 유사하고 정확한 답변을 얻을 수있는 거리 측정법이 많이 있습니다. 유효한 거리 측정법이 수십 개, 아마도 수백 개에 이르고 있다고 생각할 때, "올바른"거리를 찾을 수 있다는 개념은 적절한 거리 측정법을 선택하는 문제를 생각하는 생산적인 방법이 아닙니다.

대신 잘못된 거리 측정 항목을 선택 하지 않는 데 집중합니다 . 거리가 "절대 크기"를 반영하도록 하시겠습니까 (예 : 거리를 사용하여 유사한 평균 값을 갖는 주식을 식별하는 데 관심이 있거나) 응답의 전체 모양 (예 : 시간이 지남에 따라 유사하게 변동하는 주식 가격, 그러나 완전히 다른 원시 값을 가질 수 있습니다)? 전자는 맨해튼과 유클리드와 같은 거리를 나타내고 후자는 상관 거리를 나타냅니다.

데이터의 공분산 구조를 알고 있다면 Mahalanobis 거리가 더 적합 할 것입니다. 순전히 범주 형 데이터의 경우 일치 거리와 같이 제안 된 거리가 많이 있습니다. 혼합 범주와 연속 Gower의 거리가 인기가 있습니다 (그러나 이론적으로는 다소 불만족 스럽습니다).

마지막으로, (물론 적절한 거리의 하위 세트 내에서) 거리 측정법 선택에 대한 결과와 결론이 강력하다는 것을 입증하면 분석이 강화됩니다. 사용 된 거리 측정법의 미묘한 변화로 분석이 급격히 변하는 경우 불일치의 원인을 식별하기 위해 추가 연구를 수행해야합니다.


1
무슨 소리 야 correlation distance? 1- r ?
ttnphns

1
@ttnphns yep, 이 가장 일반적입니다. 주어진 유사성 메트릭 에 대해 비 유사성으로 변환하기위한 적어도 세 가지 공식이 있음을 주목할 가치가 있습니다 . (1) Bhattacharyya의 방법 , (2) Kolmogorov의 방법 및 (3) Matusita의 방법 . 이것은 선택이 중요하지 않다고 생각하는 또 다른 영역 이며, 그렇다면 선택 결과의 견고성에 대해 걱정할 것입니다. 1아르 자형ρ[1,1]영형에스1(ρ)1ρ22ρ아르 자형나는이자형
ahfoss

마지막 코멘트 인용 : Krzanowski (1983). Biometrika, 70 (1), 235--243. 236 페이지를 참조하십시오.
ahfoss

1
알았어 고마워. 이 답변 도 확인 하십시오. 그것은 r 이 표준화 된 데이터 (프로필 비교)에서 얻은 유클리드 거리와 정확히 관련이 있다는 사실에 동의합니다 reflect overall shape of the response.
ttnphns

1
좋은 소식입니다. 두 지표는 실제로 지적한대로 관련이 있습니다. 현재 논의에 대한 요점을 맥락화하기 위해 주요 차이점은 유클리드 거리 변수는 (일반적으로) 중심이 아니지만 상관 공식은 표준 편차에 따라 변수와 스케일을 중심에 둔다는 것입니다. 따라서 상관 관계는 선형 변환에는 변하지 않지만 유클리드 거리는 반드시 그런 것은 아닙니다.
ahfoss

6

올바른 거리를 선택하는 것은 기본적인 작업이 아닙니다. 데이터 세트에 대해 군집 분석을 수행하려는 경우 다른 거리를 사용하여 다른 결과가 표시 될 수 있으므로 가변성을 잘 포착하지만 실제로는 그렇지 않은 허위 유물을 만들 수 있으므로 어떤 거리를 선택해야하는지주의하는 것이 중요합니다 우리 문제의 의미.

유클리드 내가 연속 숫자 변수를 가지고 있고 절대 거리를 반영 할 때 거리가 적합하다. 이 거리는 모든 변수를 고려하고 중복성을 제거하지 않으므로, 같은 것을 설명하는 세 개의 변수가 있으면 (상관 관계가있는 경우)이 효과의 가중치를 3으로 가중시킵니다. 또한,이 거리는 스케일이 변하지 않으므로 일반적으로 거리를 사용하기 위해 미리 스케일을 조정해야합니다.
생태의 예 : 우리는 많은 지역과는 다른 관찰 결과를 얻었으며, 전문가들은 미생물 학적, 물리적, 화학적 요소의 샘플을 채취했습니다. 우리는 생태계에서 패턴을 찾고 싶습니다. 이러한 요소는 상관 관계가 높지만 모든 사람이 관련이 있다는 것을 알고 있으므로 이러한 중복성을 제거하고 싶지 않습니다. 우리는 단위의 영향을 피하기 위해 스케일 된 데이터와 함께 유클리드 거리를 사용합니다.

마할 라 노비스 I 연속 숫자 변수를 가지고 있고 절대 거리를 반영하기를 원하지만 우리는 중복을 제거 할 때 거리가 적합하다. 변수를 반복하면 반복 효과가 사라집니다.

가족 Hellinger은 , 종 프로필코드 거리는 우리가 변수 간의 차이에 중점을 할 때 프로필을 구별 할 때 적합하다. 이러한 거리는 각각의 관측치의 총량에 의해 가중치를 두는데, 절대 크기는 매우 다르지만, 변수에 의해 가변적 일 때 개체가 더 유사 할 때 거리가 작도록하는 방식이다. 조심해! 이 거리는 프로파일 간의 차이를 매우 잘 반영하지만 크기 효과를 잃었습니다. 샘플 크기가 다른 경우 매우 유용 할 수 있습니다.
생태의 예 : 우리는 많은 땅의 동물 군을 연구하고자하며 복족류 (행의 표본 위치와 종의 이름)에 대한 데이터 매트릭스를 가지고 있습니다. 이 매트릭스는 일부 지역에는 어떤 종이 ​​있고 다른 지역에는 다른 종이 있기 때문에 많은 영점과 다른 크기를 갖는 것이 특징입니다. 헬 링거 거리를 사용할 수 있습니다.

Bray-Curtis 는 매우 유사하지만 프로파일을 차별화하고 상대적인 크기를 고려할 때 더 적합합니다.


사용 사례와 예제를 차별화 해 주셔서 감사합니다. 이것은 에어로 분류 모델에 적용 할 때 매우 유용합니다.
S3DEV

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.