유클리드 거리가 높은 차원에서 좋은 지표가 아닌 이유는 무엇입니까?


239

나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?



5
이것은 당신에게 너무 기본적 일 것입니다. 나는 유클리드 메트릭의 주제에 대한 일련의 블로그 게시물을 더 높은 차원으로, 이것이 가장 근접한 일치를위한 벡터 공간 검색에 미치는 영향을 작성했습니다. blogs.msdn.com/b/ericlippert/archive/tags/…
Eric Lippert

1
@ HorstGrünbusch는 일부 참조에 대한 아래 답변을 참조하십시오. 거리의 변화는 평균에 비해 작아집니다. 따라서 어느 시점에서 임계 값, 무게, 순서를 선택하는 데 어려움이 있습니다. 수치 정밀도 문제도 발생할 수 있습니다. 그러나 데이터가 드문 경우 본질적인 차원 이 훨씬 낮을 수 있습니다.
익명-무스

3
"높은 차원"은 오해의 소지가있는 용어 인 것 같습니다. 일부 답변은 9-12를 "높은 차원"으로 취급하지만 다른 영역에서는 높은 차원은 수천 또는 백만 개의 차원을 의미합니다 (예 : 백 오브 백 벡터 간의 각도 측정) 각 차원은 사전에서 일부 단어의 빈도)이며 100 차원은 높지 않고 낮게 표시됩니다.
Peteris

2
이 질문은 실제로 어떤 맥락에서 할 수 있습니다. 무엇에 좋지 않습니까?
Szabolcs

답변:


242

더 큰 차원의 비 직관적 결과에 대한 요약 은 워싱턴 대학 (University of Washington)의 페드로 도밍고 스 (Pedro Domingos)의 " 머신 러닝에 대해 알아야 할 몇 가지 "에서 비롯됩니다 .

3 차원 세계에서 온 직관은 종종 고차원 세계에는 적용되지 않습니다. 높은 차원에서, 다변량 가우스 분포의 질량의 대부분은 평균에 가깝지 않지만 그 주변에서 점점 멀어지는 "쉘"입니다. 고차원 오렌지의 대부분은 펄프가 아닌 피부에 있습니다. 일정한 수의 예제가 고차원 하이퍼 큐브에 균일하게 분포되면, 일부 차원을 넘어 서면 대부분의 예제는 가장 가까운 이웃보다 하이퍼 큐브의면에 더 가깝습니다. 그리고 우리가 하이퍼 스퀘어에 하이퍼 스피어를 기술하여 하이퍼 스피어를 근사화하면, 고차원의 거의 모든 볼륨이 하이퍼 스피어 외부에 있습니다. 한 유형의 모양이 종종 다른 유형의 모양에 의해 근사되는 기계 학습에는 나쁜 소식입니다.

이 기사에는 머신 러닝에 대한 많은 추가 지식이 담겨 있습니다.

머신 러닝 이외의 다른 응용 프로그램은 가장 가까운 이웃 검색입니다. 관심있는 관찰이 있으면 가장 가까운 이웃을 찾으십시오 (이는 쿼리 지점에서 가장 작은 거리라는 점에서). 그러나 높은 차원에서 가장 가까운 점과 가장 먼 점 사이의 비율이 1에 가까워지는 점에서 호기심 현상이 발생합니다. 이 현상은 다양한 거리 측정법에서 관찰 할 수 있지만 맨해튼 거리 측정법보다 유클리드 측정법에서 더 두드러집니다. 가장 가까운 이웃 검색의 전제는 "가까운"지점이 "먼"지점보다 관련성이 있지만 모든 지점이 본질적으로 균일하게 떨어져 있으면 구별은 의미가 없습니다.

Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, "고차원 공간에서의 거리 측정법의 놀라운 행동 ":

[Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft, " '가장 가까운 이웃'은 언제 의미가 있는가? ")에서 데이터 분포에 대한 합리적인 합리적인 가정 하에서 가장 가까운 이웃과 가장 가까운 이웃의 거리의 비율 고차원 공간에서 주어진 목표물에 대한 광범위한 데이터 분포 및 거리 함수의 경우 거의 1입니다. 이러한 경우, 가장 가까운 이웃 문제는 다른 데이터 포인트까지의 거리 사이의 대비가 존재하지 않기 때문에 잘못 정의됩니다. 이러한 경우 근접성 개념조차도 질적 인 관점에서 의미가 없을 수 있습니다. 이는 고차원 알고리즘의 성능 저하보다 훨씬 더 근본적인 문제입니다.

... 많은 고차원 인덱싱 구조와 알고리즘은 [E] uclidean 거리 측정법을 2 차원 또는 3 차원 공간 응용 분야에서 전통적인 용도의 자연스러운 확장으로 사용합니다. ...이 논문에서 우리 는 값에 대한 규범 의 의존성을 분석하는 놀라운 이론적 및 실험적 결과를 제공 합니다. 보다 구체적으로, 우리는 쿼리 포인트까지의 거리의 상대적인 대비가 사용 된 메트릭 에 크게 의존한다는 것을 보여줍니다 . 이것은 규범 의 의미 가 더 높은 값에 대한 차원이 증가함에 따라 더 빨리 악화 된다는 상당한 증거를 제공합니다 . 따라서 차원 대해 고정 된 (높은) 값을 가진 주어진 문제에 대해LkkLkLkkd보다 낮은 값을 사용하는 것이 바람직 할 수있다 . 이것은 거리 측정법 (Manhattan distance metric)이 높은 차원의 적용에 가장 적합하고, 유클리드 측정법 ( ) 이 가장 바람직 함을 합니다. ...kL1L2

"Surprising Behavior"논문의 저자는 과 함께 규범을 사용할 것을 제안 합니다. 이들은 이러한 "분획 규범"이 가장 먼 지점과 가장 가까운 지점 사이의 대비를 증가시키는 특성을 보여주는 일부 결과를 생성합니다. 이것은 일부 상황에서 유용 할 수 있지만주의해야 할 점이 있습니다. 이러한 "분수 규범"은 삼각형 불평등을 위반하기 때문에 적절한 거리 측정법이 아닙니다. 삼각형 부등식이 연구에있어 중요한 품질이라면 분수 지표는 그다지 유용하지 않을 것입니다.Lkk<1


7
이 참조는 굉장합니다
Antoine

1
다시 한 번 읽는 중 ... 아름다운 ...
Richard Hardy

113

유클리드에 의해 연구 된 2 차원 및 3 차원 세계에서 잘 작동 유클리드 거리의 개념은 우리의 (어쩌면 그냥 반대되는 더 높은 차원에서 일부 속성이 또한 2 세에서 외삽) 기하학적 직관을 치수.

정점이 있는 square를 고려하십시오 . 중심에 네 개의 단위 반지름 원을 그 립니다. 이것들은 정사각형을 "채우고"각 원은 두 점에서 정사각형의 측면에 닿고 각 원은 두 개의 이웃에 닿습니다. 예를 들어, 중심으로 한 원 은 및 에서 사각형의 측면에 닿고 그 주변 원은 및 닿습니다 . 다음 으로 원점을 중심으로 작은 원을 그립니다.4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)네 원 모두에 닿습니다. 그 끝점 두 osculating 원의 중심이 최대 접촉 지점을 통과하는 선분 때문에, 쉽게 작은 원 반경이 있는지 확인 하고 만지는 것을에있는 4 개의 큰 원을 터치 . 작은 원은 네 개의 큰 원으로 "완전히 둘러싸여"있으므로 사각형 안에 완전히 들어갑니다. 점 은 작은 원 위에 있습니다. 또한 원점에서, 시선이 중심에있는 두 원 의 오실 레이션 포인트 를 통과하기 때문에 정사각형 가장자리의 포인트 을 "볼"수 없습니다. ...에서r2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) 및 . 축이 사각형의 모서리를 통과하는 다른 지점에 대한 시선을 조정하십시오.(1,1)

다음 으로 정점이 있는 큐브를 고려하십시오 . 우리 는 중심으로 한 osculating unit-radius spheres로 채운 다음 원점을 중심으로 작은 osculating sphere를 넣습니다. 작은 구의 반지름은 이고 점 은 작은 구의 표면에 있습니다. 그러나 3 차원 에서 점 "볼" 수 있습니다.4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)기원에서; 2 차원에서 발생하는 것처럼 더 큰 구가 뷰를 차단하지 않습니다. 원점에서 축이 큐브 표면을 통과하는 지점까지의 명확한 가시선은 모든 큰 치수에서도 발생합니다.

일반적으로, 우리는 측면 의 차원 하이퍼 큐브를 고려하고 중심으로 osculating unit-radius hyperspheres로 채운 다음 "더 작게"넣을 수 있습니다 원점에서 반경 의 구형 구 . 점 은이 "더 작은"구에 있습니다. 그러나 에서 이면 이므로 "작은"구의 단위 반지름은 의 "작은"soubriquet을 가질 자격이 없습니다.n42n(±1,±1,,±1)

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. 실제로 "큰 구체"또는 "중앙 구체"라고 부르면 더 좋습니다. 마지막 단락에서 언급했듯이, 원점에서 축이 하이퍼 큐브의 표면을 통과하는 지점까지 명확한 시야가 있습니다. 설상가상 때 , 우리에서가 그 이와 같이, 상기 포인트 중심 구체 측의 하이퍼 큐브 밖에 는 비록 (완전하게 포장 된 의미에서) 하이퍼 큐브를 "채우는"단위 반경 하이퍼 스피어에 의해 "완전히 둘러싸인".n>9(1)rn>2(rn,0,0,,0)4 중심 구체는 고차원 공간에서 하이퍼 큐브 바깥으로 "팽창"합니다. 유클리드 거리의 개념에 대한 나의 정신적 해석이 내가 친숙한 2 공간과 3 공간에서 개발 한 기하학적 직관을 사용하여 더 높은 차원으로 변환했기 때문에 나는 이것이 매우 반 직관적이라고 생각한다. 고차원 공간.

OP의 질문에 대한 나의 대답은 " '고차원'이란 무엇입니까?" 인 .n9



9
@ stackoverflowuser2010 :이 답변이 완전히 이해하기 어려운 경우, 원래 질문을 해결하는지 또는 시도하는지 어떻게 알 수 있습니까? 보다 건설적인 접근 방식은 모든 것을 무시하지 않고 명확하지 않은 점을 설명하는 것입니다.
Scortchi

8
@ stackoverflowuser2010이 답변에는 수십 개의 공짜가 있기 때문에 많은 사람들이 합리적으로 이해 가능하고 질문에 대한 수용 가능한 방식으로 반응한다고 생각합니다. 아마도 당신은 좀 더 건설적인 비판을 시도 할 수있을 것입니다.이 답변이 어떻게 향상 될 것이라고 구체적으로 생각하십니까? 포함되지 않은 것은 무엇을 포함해야합니까?
Glen_b

1
@Scortchi : 어쩌면 너무 많이 기대하고 있지만,이 질문에 대한 명확한 대답은 커뮤니티가 "<X> 때문에 유클리드 거리는 좋은 척도가 아닙니다"와 같은 것이 될 것입니다.
stackoverflowuser2010

7
@ stackoverflow2010 <if-then 문보다 훨씬 더 복잡 하기 때문에 > 이와 같은 "좋은"대답을 보지 못할 것입니다. 쉬운 답변을 원한다면 아마도 거짓 일 것입니다. 빌어 먹을 Brexit 거짓말 쟁이처럼, 그들은 쉬운 답변을 제공하는 데 능숙했습니다 (거짓이지만 쉽지는 않습니다).
Anony-Mousse

42

신호 대 잡음 문제입니다 . 제곱 항으로 인한 유클리드 거리는 노이즈에 특히 민감합니다. 그러나 맨해튼 거리와 "프랙탈"(비 메트릭) 거리까지 겪습니다.

이 기사의 연구는 매우 밝아졌습니다.

Zimek, A., Schubert, E. 및 Kriegel, H.-P. (2012),
고차원 수치 데이터에서 감독되지 않은 이상치 탐지에 대한 조사.
통계 분석 데이터 마이닝, 5 : 363-387. 도 : 10.1002 / sam.11161

@Pat에 의해 언급 된 Aggarwal, Hinneburg 및 Keim의 고차원 공간에서의 거리 측정법의 놀라운 행동에 대한 관찰을 다시 검토합니다. 그러나 합성 실험이 어떻게 오해의 소지가 있으며 실제로 고차원 데이터 가 더 쉬워 질 있는지 보여줍니다 . 많은 (중복) 신호가 있고 새로운 치수는 노이즈가 거의 없습니다.

중복 치수를 고려할 때 마지막 주장이 가장 분명합니다. 데이터 세트 매핑 하면 대표 차원이 증가하지만 유클리드 거리가 실패하지는 않습니다. (참조 : 고유 차원 )x,yx,y,x,y,x,y,x,y,...,x,y

결국, 그것은 여전히 ​​귀하의 데이터에 달려 있습니다. 쓸모없는 속성이 많으면 유클리드 거리가 쓸모 없게됩니다. 저 차원 데이터 공간에 데이터를 쉽게 포함시킬 수 있다면 유클리드 거리도 전체 차원 공간에서 작동해야합니다. 특히 텍스트의 TF 벡터와 같은 희소 데이터의 경우 데이터가 벡터 공간 모델이 제안한 것보다 훨씬 낮은 차원 인 경우로 보입니다.

어떤 사람들은 코사인 거리가 고차원 데이터에서 유클리드보다 더 낫다고 생각합니다. 나는 그렇게 생각하지 않습니다 : 코사인 거리와 유클리드 거리는 밀접한 관련이 있습니다; 그래서 우리는 그들이 같은 문제를 겪을 것으로 기대해야합니다. 그러나 코사인이 널리 사용되는 텍스트 데이터는 일반적으로 드문 편이고 드문 데이터에서는 코사인이 더 빠릅니다. 따라서 드문 데이터의 경우 코사인을 사용해야하는 이유가 있습니다. 데이터가 희박하기 때문에 고유 차원은 벡터 공간 차원보다 훨씬 작습니다.

또한 이전 질문에 대한이 답변을 참조하십시오 : https://stats.stackexchange.com/a/29647/7828


에 무작위로 배치 된 점의 평균 각도 는 항상 큰 90 °에 가깝습니다 ( 여기 그림 참조 )[1,1]nn
Martin Thoma

그리고 그 결론은 무엇입니까? [-1; 1] ^ d에서 코사인은 0으로 정의되어 있지 않으므로 평균을 사용하면 저주에 대해 아무 것도 알려주지 않으며 균일 한 데이터는 비현실적입니다.
Anony-Mousse

나는 지금까지 시도하지 않았지만 각도는 실제 데이터와 비슷하게 보인다고 생각합니다. 그것이 0으로 정의되지 않았다는 사실은 단일 지점이므로 실제로 중요하지 않아야합니다. 내 결론은 당신과 비슷합니다. 코사인 거리는 고차원 공간에 적합하지 않습니다 (아직 작동하는 도메인이있을 수 있음)
Martin Thoma

보다 현실적인 시나리오는 음이 아닌 단위 구의 점입니다. 그리고 관심 측정은 평균이 아닌 분산 일 것입니다.
Anony-Mousse

음이 아닌 단위 구체에 도달하려면 +1을 더하고 2로 나누면됩니다.
Martin Thoma

34

시작하기 가장 좋은 곳은 아마도 Aggarwal, Hinneburg 및 Keim의 고차원 공간에서 거리 측정법의 놀라운 행동 을 읽는 것입니다 . 여기에 현재 작동하는 링크 (pdf) 가 있지만, 이것이 깨질 경우 구글에서 사용할 수 있어야합니다. 요컨대, 차원의 수가 증가함에 따라 세트의 한 지점과 가장 가까운 이웃 사이, 그리고 그 지점과 가장 가까운 이웃 사이의 상대 유클리드 거리는 명백하지 않은 방식으로 변경됩니다. 이것이 결과에 악영향을 미치는지 여부는 달성하려는 데이터와 데이터의 모양에 따라 크게 달라집니다.


6

유클리드 거리는 머신 러닝에서 선택하기에 좋은 거리는 거의 없으며 더 큰 치수에서 더 분명해집니다. 이것은 머신 러닝에서 대부분 유클리드 메트릭 공간을 다루지 않고 확률 메트릭 공간을 다루기 때문에 확률 및 정보 이론 거리 함수 (예 : 엔트로피 기반 함수)를 사용해야하기 때문입니다.

유클리드 공간과 같은 인간은 개념화하기 쉽기 때문에 선형 대수를 적용 할 수 있다는 선형 특성으로 인해 수학적으로 쉽습니다. Kullback-Leibler Divergence와 같이 거리를 정의하면 수학적으로 시각화하고 작업하기가 더 어렵습니다.


2
KL Divergence가 메트릭이 아니기 때문에 문제가 될 수 있습니다. :-)
agarie

2
대칭이 필요한 경우 힌트 정보를 사용하여 KL로 정의 할 수 있습니다.
samthebest

3

비유로 원점을 중심으로 한 원을 상상해보십시오. 포인트가 고르게 분포됩니다. 임의로 선택된 점이 (x1, x2)에 있다고 가정합니다. 원점으로부터의 유클리드 거리는 ((x1) ^ 2 + (x2) ^ 2) ^ 0.5입니다.

이제 구체에 점들이 고르게 분포되어 있다고 상상해보십시오. 같은 점 (x1, x2)은 이제 (x1, x2, x3) 일 것입니다. 짝수 분포에서는 소수의 점만 좌표 중 하나를 0으로 갖기 때문에 무작위로 선택한 균일하게 분포 된 점에 대해 [x3! = 0]으로 가정합니다. 따라서 랜덤 포인트는 (x1, x2, x)가 아닌 (x1, x2, x3) 일 가능성이 높습니다.

이것의 결과는 다음과 같습니다. 임의의 점이 3 차원 구의 원점에서 ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 거리에 있습니다. 이 거리는 2 차원 원의 원점 근처의 임의의 점에 대한 거리보다 큽니다. 이 문제는 높은 차원에서 나빠져서 높은 차원에서 작동하기 위해 유클리드 차원 이외의 메트릭을 선택하는 이유입니다.

편집 : 내가 지금 회상 한 말이 있습니다 : "고차원 오렌지의 질량의 대부분은 펄프가 아닌 피부 에 있습니다."는 고차원에서 고르게 분포 된 점이 더 "가까운"(유클리드 거리) 경계를 의미합니다. 원점보다.

참고 사항 : 유클리드 거리는 기본적으로 실제 데이터의 경우 데이터가 더 높은 차원의 공간에 균등하게 분배되지는 않는다는 '불균일의 축복'으로 인해 실제 문제에 너무 나쁘지 않습니다. 공간의 작은 클러스터 부분을 차지합니다. 키, 체중 등과 같은 사람에 대해 100 개의 양을 측정하는 경우 치수 공간에 대한 균일 한 분포는 의미가 없습니다. (높이 = 65 인치, 체중 = 150 파운드, avg_calorie_intake = 4000) 현실에서는 불가능합니다.


미래의 독자들이 "오렌지 / 펄프"인용문 또는 "비 균일의 축복"에 관심이 있다면, 둘 다 "기계 학습에 대해 배울 수있는 몇 가지 유용한 것들"에 나와 있습니다. 실.
Sycorax

1

이 질문의 또 다른 측면은 다음과 같습니다.

(기계 학습 / 통계) 문제에서 종종 높은 차원은 특징이 지나치게 제약 된 결과입니다.

차원이 독립적이 아니거나 상관 관계가 없음을 의미하지만 유클리드 메트릭은 상관 관계가 없다고 가정하므로 최상의 결과를 얻지 못할 수 있습니다.

따라서 귀하의 질문에 답변하기 위해 "높은 치수"의 수는 상호 정의되거나 중복되거나 과도하게 제한되는 기능의 수와 관련이 있습니다

또한 : Csiszar (et al.) 는 유클리드 메트릭스가 특정 형태 일 때 추론에 대한 "천연"후보라고 정리했다 .


3
유클리드 지표는 "상관 관계가 없다"고 가정하지 않습니다. 유클리드 거리는 관련이없는 변수로 인해 높은 차원에서 최악으로 작동합니다. 극단적 인 경우를 고려하십시오. 모두가 완벽하게 상관 관계가있는 매우 많은 차원을 가지고 있습니다 .r = 1, 이제 데이터는 실제로 일차원이며 유클리드 거리는 일차원 데이터와 함께 잘 작동합니다.
gung

아니요, 그렇게 생각하지 않습니다. 정의에 따른 유클리드 거리는 상관되지 않은 데이터를 가정합니다 (상관 행렬과 함께 일반화 된 유클리드 거리를 사용하는 경우 제외)
Nikos M.

전체 상관 관계 (r = 1)를 가진 기능은 사소한 예이며 "사소한 상관 관계 행렬"과 동일하지만 잘못되었을 수 있습니다.
Nikos M.

@gung 유클리드 손실을 단위 등방성 분산 행렬이 고정 된 가우시안의 교차 엔트로피 손실로 해석 할 수 있습니다. 나는 이것이 좋은 지적이라고 생각하지만 더 잘 설명 할 수 있습니다.
Neil G

1
@ NeilG, 나는 그것이 무엇을 의미하는지 전혀 모른다. 평면에서 & 두 점을 고려하십시오 . 이들 사이의 유클리드 거리는 다음과 같이 정의됩니다. ; 여기 입니다. 이제이 평면에 더 많은 점이 존재하지만 모두 선을 따라 존재 하여 상관 관계 b / t를 2 변수 만듭니다. 이 두 점 사이의 유클리드 거리는 얼마입니까? 여전히 입니다. 이제 추가 점이 st 으로 균일하게 배열되어 있다고 가정 . 이 두 점 사이의 유클리드 거리는 얼마입니까? 여전히 입니다. (0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02
gung

0

이 문서는 "스퀘어-코사인 유사성 측정 개선"도 참조 할 수 있습니다. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 이 문서는 왜 유클리드 거리가 높은 차원에서 좋은 지표가 아닌지를 설명합니다 데이터와 고차원 데이터에서 유클리드 거리를 대체하는 가장 좋은 방법은 무엇입니까? 유클리드 거리는 L2 규범이며 Lk 규범에서 k 값을 줄이면 고차원 데이터에서 거리 문제를 완화 할 수 있습니다. 이 백서에서도 참고 문헌을 찾을 수 있습니다.


2
사이트에 오신 것을 환영합니다. 우리는 질문과 답변의 형태로 고품질 통계 정보의 영구 저장소를 구축하려고합니다. 따라서 우리는 linkrot으로 인해 링크 전용 답변에주의를 기울입니다. 링크가 종료 된 경우 링크에 전체 인용 및 정보 요약을 게시 할 수 있습니까?
gung
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.