나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?
나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?
답변:
더 큰 차원의 비 직관적 결과에 대한 요약 은 워싱턴 대학 (University of Washington)의 페드로 도밍고 스 (Pedro Domingos)의 " 머신 러닝에 대해 알아야 할 몇 가지 "에서 비롯됩니다 .
3 차원 세계에서 온 직관은 종종 고차원 세계에는 적용되지 않습니다. 높은 차원에서, 다변량 가우스 분포의 질량의 대부분은 평균에 가깝지 않지만 그 주변에서 점점 멀어지는 "쉘"입니다. 고차원 오렌지의 대부분은 펄프가 아닌 피부에 있습니다. 일정한 수의 예제가 고차원 하이퍼 큐브에 균일하게 분포되면, 일부 차원을 넘어 서면 대부분의 예제는 가장 가까운 이웃보다 하이퍼 큐브의면에 더 가깝습니다. 그리고 우리가 하이퍼 스퀘어에 하이퍼 스피어를 기술하여 하이퍼 스피어를 근사화하면, 고차원의 거의 모든 볼륨이 하이퍼 스피어 외부에 있습니다. 한 유형의 모양이 종종 다른 유형의 모양에 의해 근사되는 기계 학습에는 나쁜 소식입니다.
이 기사에는 머신 러닝에 대한 많은 추가 지식이 담겨 있습니다.
머신 러닝 이외의 다른 응용 프로그램은 가장 가까운 이웃 검색입니다. 관심있는 관찰이 있으면 가장 가까운 이웃을 찾으십시오 (이는 쿼리 지점에서 가장 작은 거리라는 점에서). 그러나 높은 차원에서 가장 가까운 점과 가장 먼 점 사이의 비율이 1에 가까워지는 점에서 호기심 현상이 발생합니다. 이 현상은 다양한 거리 측정법에서 관찰 할 수 있지만 맨해튼 거리 측정법보다 유클리드 측정법에서 더 두드러집니다. 가장 가까운 이웃 검색의 전제는 "가까운"지점이 "먼"지점보다 관련성이 있지만 모든 지점이 본질적으로 균일하게 떨어져 있으면 구별은 의미가 없습니다.
Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, "고차원 공간에서의 거리 측정법의 놀라운 행동 ":
[Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft, " '가장 가까운 이웃'은 언제 의미가 있는가? ")에서 데이터 분포에 대한 합리적인 합리적인 가정 하에서 가장 가까운 이웃과 가장 가까운 이웃의 거리의 비율 고차원 공간에서 주어진 목표물에 대한 광범위한 데이터 분포 및 거리 함수의 경우 거의 1입니다. 이러한 경우, 가장 가까운 이웃 문제는 다른 데이터 포인트까지의 거리 사이의 대비가 존재하지 않기 때문에 잘못 정의됩니다. 이러한 경우 근접성 개념조차도 질적 인 관점에서 의미가 없을 수 있습니다. 이는 고차원 알고리즘의 성능 저하보다 훨씬 더 근본적인 문제입니다.
... 많은 고차원 인덱싱 구조와 알고리즘은 [E] uclidean 거리 측정법을 2 차원 또는 3 차원 공간 응용 분야에서 전통적인 용도의 자연스러운 확장으로 사용합니다. ...이 논문에서 우리 는 값에 대한 규범 의 의존성을 분석하는 놀라운 이론적 및 실험적 결과를 제공 합니다. 보다 구체적으로, 우리는 쿼리 포인트까지의 거리의 상대적인 대비가 사용 된 메트릭 에 크게 의존한다는 것을 보여줍니다 . 이것은 규범 의 의미 가 더 높은 값에 대한 차원이 증가함에 따라 더 빨리 악화 된다는 상당한 증거를 제공합니다 . 따라서 차원 대해 고정 된 (높은) 값을 가진 주어진 문제에 대해보다 낮은 값을 사용하는 것이 바람직 할 수있다 . 이것은 거리 측정법 (Manhattan distance metric)이 높은 차원의 적용에 가장 적합하고, 유클리드 측정법 ( ) 이 가장 바람직 함을 합니다. ...
"Surprising Behavior"논문의 저자는 과 함께 규범을 사용할 것을 제안 합니다. 이들은 이러한 "분획 규범"이 가장 먼 지점과 가장 가까운 지점 사이의 대비를 증가시키는 특성을 보여주는 일부 결과를 생성합니다. 이것은 일부 상황에서 유용 할 수 있지만주의해야 할 점이 있습니다. 이러한 "분수 규범"은 삼각형 불평등을 위반하기 때문에 적절한 거리 측정법이 아닙니다. 삼각형 부등식이 연구에있어 중요한 품질이라면 분수 지표는 그다지 유용하지 않을 것입니다.
유클리드에 의해 연구 된 2 차원 및 3 차원 세계에서 잘 작동 유클리드 거리의 개념은 우리의 (어쩌면 그냥 반대되는 더 높은 차원에서 일부 속성이 내 또한 2 세에서 외삽) 기하학적 직관을 치수.
정점이 있는 square를 고려하십시오 . 중심에 네 개의 단위 반지름 원을 그 립니다. 이것들은 정사각형을 "채우고"각 원은 두 점에서 정사각형의 측면에 닿고 각 원은 두 개의 이웃에 닿습니다. 예를 들어, 중심으로 한 원 은 및 에서 사각형의 측면에 닿고 그 주변 원은 및 닿습니다 . 다음 으로 원점을 중심으로 작은 원을 그립니다.네 원 모두에 닿습니다. 그 끝점 두 osculating 원의 중심이 최대 접촉 지점을 통과하는 선분 때문에, 쉽게 작은 원 반경이 있는지 확인 하고 만지는 것을에있는 4 개의 큰 원을 터치 . 작은 원은 네 개의 큰 원으로 "완전히 둘러싸여"있으므로 사각형 안에 완전히 들어갑니다. 점 은 작은 원 위에 있습니다. 또한 원점에서, 시선이 중심에있는 두 원 의 오실 레이션 포인트 를 통과하기 때문에 정사각형 가장자리의 포인트 을 "볼"수 없습니다. ...에서 및 . 축이 사각형의 모서리를 통과하는 다른 지점에 대한 시선을 조정하십시오.
다음 으로 정점이 있는 큐브를 고려하십시오 . 우리 는 중심으로 한 osculating unit-radius spheres로 채운 다음 원점을 중심으로 작은 osculating sphere를 넣습니다. 작은 구의 반지름은 이고 점 은 작은 구의 표면에 있습니다. 그러나 3 차원 에서 점 "볼" 수 있습니다.기원에서; 2 차원에서 발생하는 것처럼 더 큰 구가 뷰를 차단하지 않습니다. 원점에서 축이 큐브 표면을 통과하는 지점까지의 명확한 가시선은 모든 큰 치수에서도 발생합니다.
일반적으로, 우리는 측면 의 차원 하이퍼 큐브를 고려하고 중심으로 osculating unit-radius hyperspheres로 채운 다음 "더 작게"넣을 수 있습니다 원점에서 반경 의 구형 구 . 점 은이 "더 작은"구에 있습니다. 그러나 에서 이면 이므로 "작은"구의 단위 반지름은 의 "작은"soubriquet을 가질 자격이 없습니다.
OP의 질문에 대한 나의 대답은 " '고차원'이란 무엇입니까?" 인 .
신호 대 잡음 문제입니다 . 제곱 항으로 인한 유클리드 거리는 노이즈에 특히 민감합니다. 그러나 맨해튼 거리와 "프랙탈"(비 메트릭) 거리까지 겪습니다.
이 기사의 연구는 매우 밝아졌습니다.
Zimek, A., Schubert, E. 및 Kriegel, H.-P. (2012),
고차원 수치 데이터에서 감독되지 않은 이상치 탐지에 대한 조사.
통계 분석 데이터 마이닝, 5 : 363-387. 도 : 10.1002 / sam.11161
@Pat에 의해 언급 된 Aggarwal, Hinneburg 및 Keim의 고차원 공간에서의 거리 측정법의 놀라운 행동에 대한 관찰을 다시 검토합니다. 그러나 합성 실험이 어떻게 오해의 소지가 있으며 실제로 고차원 데이터 가 더 쉬워 질 수 있는지 보여줍니다 . 많은 (중복) 신호가 있고 새로운 치수는 노이즈가 거의 없습니다.
중복 치수를 고려할 때 마지막 주장이 가장 분명합니다. 데이터 세트 매핑 하면 대표 차원이 증가하지만 유클리드 거리가 실패하지는 않습니다. (참조 : 고유 차원 )
결국, 그것은 여전히 귀하의 데이터에 달려 있습니다. 쓸모없는 속성이 많으면 유클리드 거리가 쓸모 없게됩니다. 저 차원 데이터 공간에 데이터를 쉽게 포함시킬 수 있다면 유클리드 거리도 전체 차원 공간에서 작동해야합니다. 특히 텍스트의 TF 벡터와 같은 희소 데이터의 경우 데이터가 벡터 공간 모델이 제안한 것보다 훨씬 낮은 차원 인 경우로 보입니다.
어떤 사람들은 코사인 거리가 고차원 데이터에서 유클리드보다 더 낫다고 생각합니다. 나는 그렇게 생각하지 않습니다 : 코사인 거리와 유클리드 거리는 밀접한 관련이 있습니다; 그래서 우리는 그들이 같은 문제를 겪을 것으로 기대해야합니다. 그러나 코사인이 널리 사용되는 텍스트 데이터는 일반적으로 드문 편이고 드문 데이터에서는 코사인이 더 빠릅니다. 따라서 드문 데이터의 경우 코사인을 사용해야하는 이유가 있습니다. 데이터가 희박하기 때문에 고유 차원은 벡터 공간 차원보다 훨씬 작습니다.
또한 이전 질문에 대한이 답변을 참조하십시오 : https://stats.stackexchange.com/a/29647/7828
시작하기 가장 좋은 곳은 아마도 Aggarwal, Hinneburg 및 Keim의 고차원 공간에서 거리 측정법의 놀라운 행동 을 읽는 것입니다 . 여기에 현재 작동하는 링크 (pdf) 가 있지만, 이것이 깨질 경우 구글에서 사용할 수 있어야합니다. 요컨대, 차원의 수가 증가함에 따라 세트의 한 지점과 가장 가까운 이웃 사이, 그리고 그 지점과 가장 가까운 이웃 사이의 상대 유클리드 거리는 명백하지 않은 방식으로 변경됩니다. 이것이 결과에 악영향을 미치는지 여부는 달성하려는 데이터와 데이터의 모양에 따라 크게 달라집니다.
유클리드 거리는 머신 러닝에서 선택하기에 좋은 거리는 거의 없으며 더 큰 치수에서 더 분명해집니다. 이것은 머신 러닝에서 대부분 유클리드 메트릭 공간을 다루지 않고 확률 메트릭 공간을 다루기 때문에 확률 및 정보 이론 거리 함수 (예 : 엔트로피 기반 함수)를 사용해야하기 때문입니다.
유클리드 공간과 같은 인간은 개념화하기 쉽기 때문에 선형 대수를 적용 할 수 있다는 선형 특성으로 인해 수학적으로 쉽습니다. Kullback-Leibler Divergence와 같이 거리를 정의하면 수학적으로 시각화하고 작업하기가 더 어렵습니다.
비유로 원점을 중심으로 한 원을 상상해보십시오. 포인트가 고르게 분포됩니다. 임의로 선택된 점이 (x1, x2)에 있다고 가정합니다. 원점으로부터의 유클리드 거리는 ((x1) ^ 2 + (x2) ^ 2) ^ 0.5입니다.
이제 구체에 점들이 고르게 분포되어 있다고 상상해보십시오. 같은 점 (x1, x2)은 이제 (x1, x2, x3) 일 것입니다. 짝수 분포에서는 소수의 점만 좌표 중 하나를 0으로 갖기 때문에 무작위로 선택한 균일하게 분포 된 점에 대해 [x3! = 0]으로 가정합니다. 따라서 랜덤 포인트는 (x1, x2, x)가 아닌 (x1, x2, x3) 일 가능성이 높습니다.
이것의 결과는 다음과 같습니다. 임의의 점이 3 차원 구의 원점에서 ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 거리에 있습니다. 이 거리는 2 차원 원의 원점 근처의 임의의 점에 대한 거리보다 큽니다. 이 문제는 높은 차원에서 나빠져서 높은 차원에서 작동하기 위해 유클리드 차원 이외의 메트릭을 선택하는 이유입니다.
편집 : 내가 지금 회상 한 말이 있습니다 : "고차원 오렌지의 질량의 대부분은 펄프가 아닌 피부 에 있습니다."는 고차원에서 고르게 분포 된 점이 더 "가까운"(유클리드 거리) 경계를 의미합니다. 원점보다.
참고 사항 : 유클리드 거리는 기본적으로 실제 데이터의 경우 데이터가 더 높은 차원의 공간에 균등하게 분배되지는 않는다는 '불균일의 축복'으로 인해 실제 문제에 너무 나쁘지 않습니다. 공간의 작은 클러스터 부분을 차지합니다. 키, 체중 등과 같은 사람에 대해 100 개의 양을 측정하는 경우 치수 공간에 대한 균일 한 분포는 의미가 없습니다. (높이 = 65 인치, 체중 = 150 파운드, avg_calorie_intake = 4000) 현실에서는 불가능합니다.
이 질문의 또 다른 측면은 다음과 같습니다.
(기계 학습 / 통계) 문제에서 종종 높은 차원은 특징이 지나치게 제약 된 결과입니다.
차원이 독립적이 아니거나 상관 관계가 없음을 의미하지만 유클리드 메트릭은 상관 관계가 없다고 가정하므로 최상의 결과를 얻지 못할 수 있습니다.
따라서 귀하의 질문에 답변하기 위해 "높은 치수"의 수는 상호 정의되거나 중복되거나 과도하게 제한되는 기능의 수와 관련이 있습니다
또한 : Csiszar (et al.) 는 유클리드 메트릭스가 특정 형태 일 때 추론에 대한 "천연"후보라고 정리했다 .
이 문서는 "스퀘어-코사인 유사성 측정 개선"도 참조 할 수 있습니다. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 이 문서는 왜 유클리드 거리가 높은 차원에서 좋은 지표가 아닌지를 설명합니다 데이터와 고차원 데이터에서 유클리드 거리를 대체하는 가장 좋은 방법은 무엇입니까? 유클리드 거리는 L2 규범이며 Lk 규범에서 k 값을 줄이면 고차원 데이터에서 거리 문제를 완화 할 수 있습니다. 이 백서에서도 참고 문헌을 찾을 수 있습니다.