허락하다 우리가 유사성 함수 라고하는 함수 입니다. 유사도 함수의 예는 코사인 거리, 규범, 해밍 거리, Jaccard 유사성 등
치다 길이의 이진 벡터 : .
우리의 목표는 비슷한 벡터를 그룹화하는 것입니다. 더 공식적으로, 우리 는 노드가 벡터이고 가장자리가 비슷한 벡터를 나타내는 유사성 그래프 를 계산하려고합니다.).
과 매우 큰 숫자이며 두 길이를 비교 벡터는 비싸고 모든 짐승을 다 할 수는 없습니다 작업. 연산이 훨씬 적은 유사성 그래프를 계산하려고합니다.
이것이 가능한가? 그렇지 않다면 유사성 그래프의 모든 모서리를 포함하는 그래프에 대한 근사값을 계산할 수 있습니다. 다른 가장자리?
그럴까요
—
usul
오히려 ?
@usul 귀하의 의견에 감사드립니다. 질문을 편집했습니다. 지금 명확 해지기를 바랍니다.
—
Ram
유사성 보존 해싱 ( arxiv.org/pdf/1311.7662v1.pdf )을 사용하여 문제의 차원을 줄일 수 있다고 생각 합니다.
—
RB
이 질문은 잘 정의되어 있지 않습니다. 자세한 내용을 제공해주세요. 예를 들어 오라클에 의해 주어지면, 당신은 분명히 더 나은 것을 할 수 없습니다 .
—
domotorp
트위터에서 일하십니까? blog.twitter.com/2014/all-pairs-similarity-via-dimsum 심각 하게도 ,이 그래프의 가장자리 (즉, 독립 정점 세트가 아님)를 감지하는 것보다임의의 유사성 기능.
—
Ryan Williams