코사인 유사성, 피어슨 상관 관계 및 z- 점수간에 관계가 있습니까?


16

이 세 가지 측정 값 사이에 어떤 관계가 있는지 궁금합니다. 나는 정의를 참조하여 그들 사이를 연결할 수없는 것 같습니다 (아마도 이러한 정의에 익숙하지 않고 이해하는 데 약간의 시간이 걸리기 때문일 수 있습니다).

코사인 유사성의 범위는 0-1 일 수 있으며 피어슨 상관 관계는 -1에서 1 사이 일 수 있으며 z 점수 범위는 확실하지 않습니다.

그러나 코사인 유사성의 특정 값이 어떻게 피어슨 상관 또는 z- 점수에 대해 말할 수 있고 그 반대도 마찬가지입니까?


1
무엇의 z 점수 ? 어떤 것의 z 점수는 Pearson 상관 관계와 관련이있을 수 있고, 다른 것의 Z 점수는 그렇지 않을 수 있습니다. 예를 들어 원래 변수를 내부적으로 표준화하면 x와 y 사이의 Pearson 상관 관계는 z- 점수의 예상 곱입니다. 또는 Pearson 상관 관계 z- 점수 (Pearson 상관 관계에서 특정 조건 하에서 예상을 뺀 값을 모두 Pearson 상관 관계의 표준 오류로 나눈 값)에 대해 이야기하는 것일 수 있습니다 . 이는 분명히 Pearson 상관 관계와 관련이 있습니다.
Glen_b-복귀 모니카

답변:


29

두 벡터 ab 사이 의 코사인 유사성 은 그 사이의 각도입니다. cos θ = a ba

cosθ=abab
사용 코사인 유사도 많은 애플리케이션에서, 벡터는 비 - 네거티브 (문서에 대한 예 용어 주파수 벡터)이며,이 경우의 코사인 유사도는 음이 아닌 것이다.

벡터 경우 " z- 점수"벡터는 일반적으로 z = x ˉ x 로 정의됩니다. xz 여기서 ˉ x =1

z=xx¯sx
하고이야 2 X = ¯ ( X - ˉ X ) 2 의 평균 및 표준 편차이다(X). 그래서Z는0의 평균 및 표준 편차가 1, 즉, 보유ZX를는 IS표준화버전X는x¯=1nixisx2=(xx¯)2¯xzzxx .

두 벡터 y의 경우 상관 계수는 ρ x , y = ¯ ( z x z y )입니다.xy

ρx,y=(zxzy)¯

asa2=1na2

a^=aa=zan

ab 가 중심에 있으면 (즉, 0의 평균을 가짐) 코사인 유사성은 상관 계수와 동일합니다.

TL; DR 코사인 유사성은 단위 벡터의 내적입니다. 피어슨 상관은 중심 벡터 간의 코사인 유사성입니다. 벡터의 "Z- 점수 변환"은 의 표준으로 스케일링 된 중심 벡터입니다.n


+1. latexnazi 코멘트 : \|자주보다 더 나은 모습 ||, 그리고 \lVert ... \rVert그것을 쓸 수있는 가장 좋은 방법입니다.
amoeba 말한다 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.