유클리드 거리 점수 및 유사성


13

나는 Toby Segaran의 Collective Intelligence 책을 사용하여 유클리드 거리 점수를 발견했습니다. 이 책에서 저자는 두 개의 추천 배열 사이의 유사성을 계산하는 방법 (예 : 줍니다.person×moviescore)

그는 의해 두 사람 및 의 유클리드 거리를 계산합니다.p 2 d ( p 1 , p 2 ) = p1p2

d(p1,p2)=i  item(sp1sp2)2

이것은 나에게 완전히 이해됩니다. 내가 실제로 이해하지 못하는 것은 왜 "거리 기반 유사성"을 얻기 위해 다음을 계산하는지입니다.

11+d(p1,p2)

그래서 어떻게 든 이것이 거리에서 유사성으로 변환되어야한다는 것을 알 수 있습니다 (오른쪽?). 그러나 왜 공식화가 이런 식으로 보입니까? 누군가 설명 할 수 있습니까?


비 유사성과 유사성을 서로 변환하는 방법에는 여러 가지가있을 수 있습니다. 구체적인 공식은 자신에게 맞는 것과 미래의 분석에 달려 있습니다. 그 교과서에서 저자는 어떤 이유로 든 당신이 보여주는 공식을 선호했습니다. 다른 상황에있는 다른 사람은 다른 공식을 선택할 수 있습니다. 가장 기하학적으로 정확한 변환하는 방법 유클리드 유사성에 거리에서 따를 것입니다 코사인 법칙 데이터 중심되는 조건 및 설명 여기에 파에. 1.
ttnphns

확인! 그러나 내가 올바르게 이해한다면 실제로 유클리드 거리를 유사도로 변환하지는 않지만 0과 1 (코사인 때문에) 내의 값을 반환하는 다른 함수를 사용하는 것입니다. 나는 모든 거리를 계산 한 다음 가장 작은 거리와 가장 큰 거리 사이의 보간을 통해 유사성으로 변환하는 것과 나에게 다르게 보인다는 것을 의미합니다. 권리?
navige

정사각형 유클리드 거리의 정사각 대칭 행렬이 있고 "이중 센터링"연산을 수행하는 경우, 구성의 중심에 유클리드 공간의 원점을 배치 할 때 관찰되는 스칼라 곱의 행렬을 얻습니다. 사물. 이 스칼라 제품 입니다 각 타입의 유사성. 공분산 과 매우 유사 합니다. 범위는 0-1 범위에 속하지 않으며 음수, 양수 및 대각선 요소가 반드시 1 일 필요는 없습니다. 여전히 유사성입니다.
ttnphns

답변:


12

그 반대는 거리에서 유사도로 변경하는 것입니다.

분모의 1은 최대 값이 1이되도록합니다 (거리가 0 인 경우).

제곱근-확실하지 않습니다. 거리가 일반적으로 1보다 큰 경우 루트는 큰 거리를 덜 중요하게 만듭니다. 거리가 1보다 작 으면 큰 거리가 더 중요합니다.


죄송합니다! 제곱근이 잘못되었습니다. 저자는 실제로 그것을 두 번째 공식에 넣었지만 첫 번째 공식에는 남겨 두었습니다. 그래서 거기에 있어서는 안됩니다
navige

예, 그러나 최대 값을 1로 설정하는 힌트는 의미가 있습니다! 감사!
navige

4

거리 및 유사성 (의미 적 의미에서)을 측정하기 위해 가장 먼저 확인해야 할 것은 유클리드 공간에서 움직이고 있는지 여부입니다. 이것을 확인하는 경험적 방법은 의미를 알고있는 한 쌍의 값의 거리를 추정하는 것입니다.


1

언급했듯이 유클리드 거리의 계산을 알고 있으므로 두 번째 공식을 설명합니다.

유클리드 공식은 거리를 계산하며, 이는 거리가 더 가까운 사람이나 항목의 경우 더 작아집니다. 그것들이 같다면 거리는 0이고 완전히 다르며 0보다 큽니다.

그러나 더 높은 값을 제공하는 함수가 필요합니다. 이것은 함수에 1을 추가하여 (0으로 나누기 오류가 발생하지 않음) 반전시킬 수 있습니다. 거리 0과 유사도 점수 1 / 1 = 1 인 경우


이 답변을 이해하지 못합니다.
Michael R. Chernick

항목 1과 항목 2 사이의 유클리드 거리가 4이고 항목 1과 항목 3 사이의 유클리드 거리가 0이라고 가정합니다 (100 % 유사 함). 이들은 가상 공간에서 아이템의 거리입니다. 거리 값이 작을수록 서로 가까이 있음을 의미하므로 유사 할 가능성이 높습니다. 이제 우리는 숫자가 훨씬 비슷하면 더 큰 숫자를 제공하는 숫자 값을 원합니다. 따라서 거리 값을 반대로 할 수 있습니다. 그러나 거리가 0이면 분모에 1을 더하는 이유는 무엇입니까? 따라서 항목 1과 2의 유사성 점수는 1 / (1 + 4) = 0.2이고 항목 1과 항목 3의 유사성 점수는 1 / (1 + 0) = 0
user10009133

어쩌면 어떤 종류의 거리 측정에 대해 이야기하고 있지만 유클리드 거리는 벡터 공간과 관련된 특정 공식을 따릅니다.
Michael R. Chernick

1/1+d(p1,p2)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.