SVD보다 Johnson-Lindenstrauss lemma를 언제 사용해야합니까?

Johnson-Lindenstrauss의 정리는 고차원 공간의 점들을 저 차원의 점들로 나타낼 수있게합니다. 가장 적합한 저 차원 공간을 찾을 때 표준 기법은 특이 값 분해를 찾은 다음 가장 큰 특이 값으로 생성 된 부분 공간을 취하는 것입니다. SVD에 Johnson-Lindenstrauss를 사용하는 것이 언제 중요합니까?

machine-learning

— 사용자 09128323
소스

답변:

두 가지 접근 방식은 매우 다른 보증을 제공합니다.

JL Lemma는 본질적으로 "당신이 원하는 오류를 주며, 그 오류까지의 거리를 포착하는 저 차원 공간을 줄 것"이라고 말합니다. 또한 최악의 페어 와이즈 보증입니다 : 각 포인트 쌍 등

SVD는 본질적으로 "어떤 차원에 살고 싶은지 말해 주겠다. 그리고 가능한 최선의 임베딩을 제공 할 것이다". 여기서 "best"는 평균으로 정의된다 : 진정한 유사성 대 예상 유사성의 총 오차는 최소이다.

따라서 이론적 인 관점에서 그들은 매우 다른 문제를 해결합니다. 실제로, 원하는 것은 문제의 모델, 더 중요한 매개 변수 (오류 또는 차원) 및 필요한 보증 종류에 따라 다릅니다.

— 수레 쉬 벤 카트
소스

누군가 가 (1-eps) | uv | ^ 2 <= | f (u) -f (v) | ^ 2 <= (1 + eps) | uv | ^에서 를 얼마나 정확하게 얻었 는지 말해 줄 수 있습니까? 2 ( en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma에서 )?

f (\cdot)

$f(\cdot)$

— T ....

그것은 다른 질문입니다. 그러나 (매우) 간단히 말하면 행렬 를 가져 와서 표준 법선에서 가져온 항목으로 채우면 는 로 정의됩니다 .

A

$A$

f (x)

$f(x)$

A x

$Ax$

— Suresh Venkat

왜곡이 해밍 메트릭에있는 유한 필드에 대한 JL 체계가 있습니까? 그렇다면, 어떤 것이 여기에?

f

$f$

— T ....

해밍 메트릭에 대해서는 차원 축소를 효과적으로 수행 할 수 없습니다. 구조는 매우 다르다. 매우 손쉬운 의미에서, JL 스타일 축소를 인정하는 것은 힐버트 공간에서의 생활과 관련이 있습니다.

ℓ_{1}

$\ell_1$

— Suresh Venkat

SVD와 JL은 미래의 포인트에 대해서도 다르게 추정합니다.

즉, 데이터가 일부 기본 분포에서 나온 것으로 가정하면 원칙적으로 SVD는 동일한 분포에서 표본 추출되는 한 미래의 포인트에 대해 "양호"상태를 유지해야합니다. 반면, JL의 대상 차원은 포인트 수에 따라 달라집니다. 즉, 추가 포인트에 JL 변환을 적용하면 오류 확률이 높아질 수 있습니다.

예를 들어 차원 축소를 다른 알고리즘의 전처리 단계로 사용하는 경우에는 관련이 있습니다. 훈련 데이터에 대한 SVD 경계는 테스트 데이터를 유지할 수 있지만 JL은 그렇지 않습니다.

— 멍청이
소스

이것은 매우 좋은 지적입니다.

— Paul Siegel

이것은 Suresh의 답변에 대한 후속 조치입니다. 나는 그의 답변을 읽은 후에 약간 구글을 보았고 다음과 같은 이해를 얻었습니다. 나는 원래 그의 답변에 대한 의견으로 이것을 게시하려고했지만 계속 증가했습니다.

답변에서 오류를 지적하십시오.이 분야의 전문가는 아닙니다.

어떤 의미에서 JL과 SVD는 사과와 오렌지와 같습니다.

1) 그들이 해결하는 문제는 완전히 다릅니다. 하나는 쌍 거리에 관한 것이고 다른 하나는 가장 잘 표현 된 것입니다. 하나는 최악의 경우이고 다른 하나는 평균 경우입니다.

서브 스페이스의 JL 반환 ~~(JL은 건설 아니지만, 그것이 가장 좋은 부분 공간 반환 가정 할 수 있습니다)~~ 다음과 같은 최적화의 해결책이

\begin{matrix} (1) & \arg min_{P} {sup_{u, v} (| 1 - \frac{| | P u - P v | |_{2}}{| | u - v | |_{2}} |)} \end{matrix}

$\arg\min\limits_{P} \left\{\sup\limits_{u,v} \left(\Biggl\lvert 1- \frac{||Pu-Pv||_2}{||u-v||_2} \Biggl\rvert \right) \right\} \tag{1}$

(이것은 정확하지 않습니다, 나중에 이것에 대해 더 언급 할 것입니다)

SVD가 해결하는 문제는 (치수 ) $k$

\arg min_{P of dim k} {Avg (| | u - P u | |_{2})}

$\arg\min\limits_{P\text{ of dim k}} \left\{\text{Avg}\left(||u-Pu||_2\right)\right\}$

2) 입력 : 두 알고리즘 모두 부분 공간을 출력하지만 필요한 입력은 다릅니다. JL에는 공차 (실제 거리와 부분 공간의 거리를 용인하려는 최대 오류는 얼마입니까)이 필요하지만 SVD에는 차원 수가 필요합니다. $\epsilon$

3) JL은 비 구조적이며 SVD는 구성 적입니다.이 용어는 건설적인 용어가 정확하게 정의되지 않았기 때문에 약간 모호합니다. SVD를 계산하는 결정 론적 알고리즘이 있지만 JL 공간을 찾는 알고리즘은 무작위로 만들어집니다. 실패하면 무작위 투영을 수행하고 다시 시도하십시오.

4) SVD는 고유합니다 (서브 스페이스는 고유하지 않을 수 있지만 목표 값은 모든 서브 스페이스에 대해 동일합니다). 위의 식 (1)은 JL이 실제로 쌍 단위 거리의 불일치를 최소화하는 것에 대해 이야기하지 않는다는 점에서 정확하지 않습니다. 거리가 실제 과 거의 다를 수있는 더 작은 부분 공간의 존재를 보장합니다 가치. 이러한 하위 공간이 많을 수 있으며 일부는 다른 것보다 낫습니다. $\epsilon$

(답변의 파업 부분에 대한 설명은 주석을 참조하십시오).

편집 : @ john-myles-white는 JL에 대한 주장을 확인하고 투영을 구성하는 방법을 보여주기 위해 게시물을 작성했습니다 : http://www.johnmyleswhite.com/notebook/2014/03/24/a-note- 존슨 린든 스트라우스-엘레 마 /

— 일렉 토비
소스

답에 여러 가지 오류가 있습니다. (1) JL은 매우 건설적입니다. 매핑을 구성하는 모든 종류의 알고리즘이 있습니다. (2) 차이를 유지하지 않지만 상대적인 차이 (비) (3) 위한 모든 벡터의 집합 : 구조는 실제 입력 독립적이다. 필요한 유일한 정보 는 벡터 수 입니다.

— Suresh Venkat

감사합니다 Suresh. 최종 제안을 제외한 모든 것을 통합했습니다. 답변을 추가로 수정하십시오. 마지막으로 혼란 스러워요. 내가 제공 한 벡터 세트에 상관없이 동일한지도가 작동한다고 말하고 있습니까?

— elexhobby

그것은 약간 미묘한 점입니다. 오류와 벡터 수를 수정하면 모든 벡터 집합에 대해 높은 확률로 작동 하는 고정 확률 분포 가 맵에 있습니다. 물론이 속성을 만족시키는 결정적으로 고정 된 선형 맵은 없습니다.

— Sasho Nikolov

그것은 올리비에 Grisel의 아웃 가치가 검사의 scikit 배우기 구현

— KLDavenport

일반적으로 JL 임베딩을 구성하기위한 결정 론적 알고리즘이 없을뿐만 아니라 JL 알고리즘에 따라 무작위로 생성 된 행렬이 실제로 "거의 등거리 변환"속성을 가지고 있는지 확인하는 것이 계산적으로 금지되어 있습니다. 매우 높은 확률로 수행됩니다). JL 정리가 건설적이지 않다고 말하는 것이 합리적이라고 생각합니다. 알고리즘 " 과 사이의 임의의 실수를 선택하십시오"와 비교 ; 이것은 확률이 인 초월 수를 제공 하지만 건설적인 것으로 부르지는 않습니다.

0

$0$

1

$1$

1

$1$

— Paul Siegel