유클리드 거리는 일반적으로 희소 데이터에 적합하지 않습니까?


72

나는 우리가 다차원적이고 희소 한 데이터를 가질 때 고전적인 거리 (유클리드 거리와 같은)가 약하게 구별되는 곳을 보았다. 왜? 유클리드 거리가 잘 수행되지 않는 두 개의 희소 데이터 벡터의 예가 있습니까? 이 경우 어떤 유사성을 사용해야합니까?


1
이 기사도 도움이 될 수 있습니다. 이 기사에서 저자는 고차원 데이터에서 코사인 유사성의 문제를 설명하고이 문제를 완화하기위한 새로운 유사성 측정을 제안합니다. journalofbigdata.springeropen.com/articles/10.1186/…
Sahar

답변:


33

다음은 차별 문제에서 치수의 영향을 보여주는 간단한 장난감 예입니다. 예를 들어 어떤 것이 관찰되는지 또는 임의의 효과 만 관찰되는지 말하려고 할 때 직면하는 문제 (이 문제는 과학에서는 고전적입니다).

발견적인, 귀납적 인. 여기서 중요한 문제는 유클리드 표준이 모든 방향에 동일한 중요성을 부여한다는 것입니다. 이것은 이전의 부족을 의미하며, 높은 차원에서 분명히 알 수 있듯이 무료 점심은 없습니다 (즉, 당신이 찾고있는 것에 대한 사전 아이디어가 없다면 어떤 소음이 당신이 아닌 것처럼 보일 이유가 없습니다. 검색, 이것은 타우 톨 로지입니다 ...).

나는 어떤 문제에 대해서도 노이즈 이외의 것을 찾는 데 필요한 정보의 한계가 있다고 말합니다. 이 한계는 "노이즈"레벨 (정보가없는 컨텐츠의 레벨)과 관련하여 탐색하려는 영역의 "크기"와 관련이 있습니다.

높은 차원에서 신호가 희소 한 경우에는 희소 벡터로 공간을 채우는 메트릭으로 또는 임계 값 기술을 사용하여 비 희소 벡터를 제거 (즉, 불이익) 할 수 있습니다.

프레임 워크 가 가정 평균과 가우스 벡터이다 ν 대각선 공분산 σ 나는 d 개 ( σ가 알려져있다)하고 간단한 가설을 테스트하려는ξνσIdσ

(주어진 θ R n에 대해 ) θ 는 반드시 사전에 알려지지 않아도된다.

H0:ν=0,VsHθ:ν=θ
θRnθ

에너지로 통계량을 검정합니다 . 당신은 확실히 가지고있는 직관은 표준 / 에너지 평가하는 것이 좋습니다 것입니다 당신 관찰의 테스트 통계를 작성합니다. 실제로 에너지 의 표준화 된 중심 ( ) 버전 있습니다. 그러면 잘 선택된 대해 수준의 임계 영역을 형식으로 ξH0TnTn=iξ 2 iσ2En=1ni=1nξi2ξH0Tn α{T, NV1-α}V1-αTn=iξi2σ22nσ4α{Tnv1α}v1α

시험의 힘과 치수. 이 경우 검정력에 대한 다음 공식을 보여주는 것은 쉬운 확률 연습입니다.

ZnE[Z]=0Var(Z)=1

Pθ(Tv1α)=P(Zv1α1+2θ22/(nσ2)θ222nσ4+2σ2θ22/(nσ2))
와 의 합계 와 IID 랜덤 변수 및 .ZnE[Z]=0Var(Z)=1

이는 테스트의 힘이 신호의 에너지 만큼 증가하고 만큼 감소 함을 의미 합니다. 실제로 이것은 문제 의 크기 이 동시에 신호의 강도를 증가시키지 않으면 문제에 대한 정보를 관찰에 추가하거나 정보에서 유용한 정보의 비율을 줄이는 것을 의미합니다. 당신은) : 이것은 노이즈를 추가하는 것과 같으며 테스트의 힘을 줄입니다 (즉, 실제로 무언가가있는 동안 아무것도 관찰되지 않을 것입니다). n nθ22nn

임계 값 통계가있는 테스트를 향합니다. 신호에 에너지가 많지 않지만이 에너지를 신호의 작은 부분에 집중시키는 데 도움이되는 선형 변환을 알고 있다면 작은 것의 에너지 만 평가하는 테스트 통계량을 작성할 수 있습니다 신호의 일부. 이 미리 알려진 경우는 (예를 들어, 알려진 사용자의 신호에 고주파가 될 수 없다)를 다음과 선행 시험에 전력을 얻을 수있는 농축 소수 대체 거의 동일 ... 사전에 알지 못하는 경우이를 추정해야하며 잘 알려진 임계 값 테스트로 이어집니다.θ 2 2nθ22

이 논증은 다음과 같은 많은 논문들과 정확히 일치합니다.

  • Antoniadis, F Abramovich, T Sapatinas 및 B Vidakovic. 분산 모델의 기능 분석에서 테스트하기위한 웨이블릿 방법. Wavelets와 그 응용에 관한 International Journal, 93 : 1007–1021, 2004.
  • MV Burnashef와 Begmatov. 안정된 분포로 이어지는 신호 감지 문제. 확률론과 그 적용, 35 (3) : 556–560, 1990.
  • 바라 우. 신호 감지에서 비 점근 미니 맥스 테스트 속도. Bernoulli, 8 : 577–606, 2002.
  • J 팬. 웨이블릿 임계 값과 neyman의 잘림에 따른 유의성 테스트. JASA, 91 : 674-688, 1996.
  • J. Fan과 SK Lin. 데이터가 곡선 일 때 유의성 검정. JASA, 93 : 1007–1021, 1998.
  • V. 스포 코 이니. 웨이블릿을 사용한 적응 가설 검정. 통계의 연대기, 24 (6) : 2477–2498, 1996 년 12 월.

51

나는 그것이 희소성이 아니라 높은 차원이 일반적으로 희소 데이터와 관련이 있다고 생각합니다. 그러나 데이터가 매우 드문 경우 더 나쁠 수 있습니다. 따라서 두 객체의 거리는 길이의 2 차 평균이거나

limdimd(x,y)=||xy||p||x||2+||y||2

방정식은 유지됩니다 . 거의 모든 속성에 적용 할 수 있도록 차원을 늘리고 충분히 넓히면 차이가 최소화됩니다.ixi=0yi=0

더 나쁜 것은 벡터의 길이가 가되도록 정규화 하면 두 객체의 유클리드 거리는 가 될 가능성이 높습니다.||x||=12

따라서 경험적으로 유클리드 거리를 사용할 수있게하려면 (유용하거나 의미가 있다고 주장하지는 않음) 속성의 에서 객체가 0이 아니어야 합니다. 그런 다음 적절한 수의 속성이 있어야합니다.벡터 차이가 유용하게됩니다. 이것은 다른 규범에 의한 차이에도 적용됩니다. 위 상황에서| y | | x iy i | | x | | x y | p | x + y |3/4|yi||xiyi||xi||xy|p|x+y|

나는 이것이 거리 함수가 실제 차이 또는 절대 합계에 수렴하는 절대 차이와 크게 독립적이되는 바람직한 행동이라고 생각하지 않습니다!

일반적인 해결책은 코사인 거리와 같은 거리를 사용하는 것입니다. 일부 데이터에서는 매우 잘 작동합니다. 대략적으로 말하면 두 벡터가 모두 0이 아닌 속성 만 봅니다. 흥미로운 접근법은 아래 참조에서 논의됩니다 (발명하지는 않았지만 속성에 대한 실험적인 평가를 좋아합니다)는 가장 가까운 공유 이웃을 사용하는 것입니다. 따라서 벡터 x와 y에 공통 속성이없는 경우에도 공통 이웃이있을 수 있습니다. 두 객체를 연결 하는 객체의 수를 세는 것은 그래프 거리와 밀접한 관련이 있습니다.

거리 기능에 대한 많은 토론이 있습니다.

  • 이웃 이웃이 차원의 저주를 물리 칠 수 있습니까?
    ME Houle, H.-P. Kriegel, P. Kröger, E. Schubert 및 A. Zimek
    SSDBM 2010

과학 기사를 선호하지 않는 경우 Wikipedia : Curse of Dimensionality


2
재미있는 종이. 이 유사성 측정과 관련된 클러스터링 알고리즘도 있습니다. 가장 가까운 이웃을 어떻게 든 유효한 Mercer 커널로 표현할 수 있습니까?
Seeda

내가 기억한다면 그들은 공간 에서 유클리드에 해당 합니다. 그렇다면, 좋은 커널을 만들어냅니다. Rn
Anony-Mousse

44

거의 직교하는 거의 모든 벡터의 데이터에 대해서는 유클리드가 아닌 코사인 거리로 시작하는 것이 좋습니다 . 0. 이유를 보려면 입니다. 경우 0,이 감소에 : Anony 무스 등의 거리 측정이 지저분한 지적.xy
|엑스와이|2=|엑스|2+|와이|22 엑스와이
엑스와이|엑스|2+|와이|2

코사인 거리는또는 단위 구의 표면에 데이터를 투영하므로= 1. 그렇다면 는 평범한 유클리드와는 상당히 다른 측정법입니다. 는 작을 수 있지만 잡음이있는 로 가리지 않습니다 .엑스/|엑스||엑스||엑스와이|2=22 엑스와이
엑스와이|엑스|2+|와이|2

엑스와이희소 데이터의 경우 는 대부분 0에 가깝습니다. 예를 들어, 와 각각 0이 아닌 100 개의 용어와 900 개의 0이있는 경우, 약 10 개의 용어 (0이 아닌 용어가 무작위로 흩어질 경우)에서만 모두 0이 아닙니다.엑스와이

정규화 / =희소 데이터의 경우 속도가 느려질 수 있습니다. scikit-learn 에서 빠릅니다 .엑스|엑스|

요약 : 코사인 거리로 시작하지만 이전 데이터에 대한 경이로움을 기대하지 마십시오.
성공적인 지표에는 평가, 조정, 도메인 지식이 필요합니다.


1
+1 이것은 다른 답변에 사려 깊고 유용한 분석을 추가합니다.
whuber

1
에 무작위로 배치 된 점의 평균 각도 는 항상 큰 90 °에 가깝습니다 ( 여기 그림 참조 ) n[1,1]
Martin Thoma

10

차원의 저주의 일부는 데이터가 중심에서 멀어지기 시작한다는 것입니다. 이는 다변량 법선 및 구성 요소가 IID (구형 법선) 인 경우에도 마찬가지입니다. 그러나 데이터가 상관 관계 구조를 갖는 경우 낮은 차원 공간에서도 유클리드 거리에 대해 엄격하게 이야기하려면 유클리드 거리가 적절한 메트릭이 아닙니다. 데이터가 0이 아닌 공분산으로 다변량 법선이라고 가정하고 인수를 위해 공분산 행렬이 알려져 있다고 가정합니다. 그런 다음 Mahalanobis 거리는 적절한 거리 측정 값이며 공분산 행렬이 항등 행렬에 비례하는 경우에만 줄어드는 유클리드 거리와 동일하지 않습니다.


1
데이터가 상관 될 때 유클리드 거리 대신 Mahalanobis 거리를 제안 해 주셔서 감사합니다. 유클리드 거리가 상관 데이터와 마할 라 노비스 거리를 처리하지 않는 이유를 자세히 설명 할 수 있습니까?
Jubbles

5

나는 이것이 차원의 측정 / 집중의 저주와 관련이 있다고 생각하지만 더 이상이 발언을 자극하는 토론을 찾을 수 없습니다. 메타 최적화에 스레드가 있다고 생각하지만 Google에 실패했습니다 ...

텍스트 데이터의 경우, TF-IDF를 사용하여 벡터를 정규화 한 다음 코사인 유사성을 적용하면 긴 문서 (많은 단어가있는)가 동일한 주제를 공유 할 수 있으므로 많은 공통점을 공유하는 짧은 문서와 매우 유사하므로 유클리드 거리보다 더 나은 결과를 얻을 수 있습니다. 말. 벡터의 표준을 폐기하면 특정 경우에 도움이됩니다.


4

희소성에 대한 공리적 측정 단위는 소위 카운트로, 벡터에서 0이 아닌 항목의 유한 수를 계산합니다. 이 측정으로 벡터 및 은 동일한 희소성을 . 그리고 절대적으로 같은 규범이 아닙니다 . 그리고 (매우 드문)는 와 동일한 규범을 , 매우 평평하고 스파 스가 아닌 벡터입니다. 그리고 절대적으로 같은 수 는 아닙니다 .0(1,0,0,0)(0,21,0,0)2(1,0,0,0)2(14,14,14,14)0

이 함수는 규범이나 반음계가 아니며 부드럽 지 않고 볼록하지 않습니다. 도메인에 따라 그 이름은 예를 들어 카디널리티 함수, 수치 측정 또는 단순히 parsimony 또는 희소성입니다. 그것은 그것의 사용이 NP 어려운 문제를 야기 하므로 실용적인 목적으로 실용적이지 않은 것으로 종종 간주된다 .

표준 거리 또는 규범 (예 : 유클리드 거리)은 다루기 쉽지만 문제 중 하나는 균질성입니다.대한 . 스칼라 곱이 데이터의 널 항목 비율을 변경하지 않기 때문에 이는 직관적이지 않은 것으로 볼 수 있습니다 ( 은 균질).21

에이.엑스=|에이|엑스
에이000

따라서 는 올가미, 릿지 또는 탄성 그물 정규화와 같은 항 ( ) 조합에 대한 일부 ressort 입니다. 규범 (맨하탄 또는 택시 거리), 또는 부드럽게 처리 아바타, 특히 유용합니다. E. Candès 등의 작품 때문에, 하나는 설명 할 수있는 이유는 좋은 근사 기하학적 설명 : . 다른 사람들은 볼록하지 않은 문제 로 에서 을 만들었습니다 .P 1 1 1 0 P < 1 ℓ의 P ( X )(엑스)1110<1(엑스)

또 다른 흥미로운 경로는 희소성 개념을 재 분류시키는 것입니다. 최근 주목할만한 작품 중 하나는 분포의 희소성을 다루는 N. Hurley 등 의 희소성 측정 비교 입니다. 6 개의 공리 (Robin Hood, Scaling, Rising Tide, Cloning, Bill Gates 및 Babies와 같은 재미있는 이름)에서 두 가지 희소성 지수가 나타났습니다. 두 개의 규범 비율 (아래 참조) :12

여기에 이미지 설명을 입력하십시오

볼록하지는 않지만 몇 가지 수렴 증명과 일부 역사적 참고 자료는 Euclid의 Taxicab : Smoothed 정규화 와 함께 희소 블라인드 디컨 볼 루션에12 자세히 설명되어 있습니다.


4

고차원 공간에서 거리 메트릭의 놀라운 동작에 관한 논문 고차원 공간에서 거리 메트릭 의 동작에 대해 설명합니다.

그들은 규범을 취하고 맨해튼 규범을 군집화 목적으로 고차원 공간에서 가장 효과적인 것으로 제안 합니다. 또한 규범 과 유사 하지만 과 같은 분수 규범 소개합니다 .L 1 L f L k f ( 0..1 )케이1 에프케이에프(0..1)

요컨대, 그들은 유클리드 규범을 기본값으로 사용하는 고차원 공간의 경우 아마도 좋은 생각이 아니라는 것을 보여줍니다. 우리는 일반적으로 그러한 공간에서 직관력이 거의 없으며 차원의 수로 인한 지수 폭발은 유클리드 거리와 함께 고려하기가 어렵습니다.


1
좋은. 의 는 규범 대신 준 규범입니다. 0 < f < 1에프0<에프<1
Laurent Duval
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.