유사도 행렬을 (유클리드) 거리 행렬로 변환


27

랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다.

  1. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다.

  2. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다.

  3. 나무 수로 행렬 정규화

그는 말한다 :

케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 따르면,이 행렬이 대칭이고 양의 한정이 있으며 1보다 큰 대각선 요소가 1 인 경계임을 쉽게 알 수 있습니다. 1-prox (n, k) 값은 유클리드에서 제곱 거리입니다 사례의 수보다 크지 않은 차원의 공간. 출처

그의 구현에서, 그는 sqrt (1-prox)를 사용하는데 , 여기서 prox 는 유사도 행렬이며이를 거리 행렬로 변환합니다. 나는 그것이 위에서 인용 한 "유클리드 공간에서의 거리"와 관련이 있다고 생각한다.

유클리드 공간에서 1- 프록스가 제곱 거리이고 왜 제곱근을 사용하여 거리 행렬을 얻는 지에 대해 누군가가 약간의 빛을 비출 수 있습니까?

답변:


30

여기에 이미지 설명을 입력하십시오

따르면 코사인 법칙 , 유클리드 공간에서 두 점 (벡터)도 1 및도 2의 (유클리드) 제곱 거리이다 . 제곱 길이 및 는 각각 점 1과 2의 제곱 좌표의 합입니다 (피타고라스 빗변). 수량 는 벡터 1과 2의 스칼라 곱 (= 내적, = 내적)이라고합니다.122=h12+h222h1h2코사인ϕh12h22h1h2코사인ϕ

스칼라 곱은 1과 2 사이의 각도 유형 유사성이라고도하며 유클리드 공간 에서는 유클리드 거리로 쉽게 변환되기 때문에 유클리드 공간에서 기하학적으로 가장 유효한 유사성 측정법입니다 ( 여기 참조 ).

공분산 계수와 피어슨 상관 스칼라 곱입니다. 다변량 데이터를 중심에두면 (원점이 점 구름의 중심에 있도록) 의 정규화는 벡터의 분산 (위 그림의 변수 X 및 Y가 아님)이며 중심 데이터에 대한 는 Pearson . 따라서 스칼라 곱 는 공분산입니다. [부주의. 데이터 점이 아닌 변수 사이에서 공분산 / 상관 관계를 지금 생각하고 있다면 위의 그림과 같이 변수를 벡터로 그릴 수 있는지 묻습니다. 예, 가능합니다. " 주제 공간h2코사인ϕ아르 자형σ1σ2아르 자형12"표현 방법. 코사인 정리는이 경우"벡터 "로 간주되는 것 (데이터 포인트 또는 데이터 특징)에 관계없이 사실로 유지됩니다.]

우리가 때마다 대각선에 1 유사성 행렬을 - 모두와 함께,입니다 1의 설정, 그리고 우리가 믿는 / 유사성 기대 입니다 유클리드 스칼라 제품 , 우리는 할 수 제곱 유클리드 거리로 변환 할 경우 우리 (예를 들어, 거리를 필요로하고 바람직하게는 유클리드 클러스터링 또는 MDS를 수행하기 위해) 위의 코사인 정리 공식에 따라 는 제곱 유클리드 입니다. 물론 분석에 필요하지 않은 경우 계수 떨어 뜨릴 수 있으며 공식 로 변환h에스2=2(1에스)22=1에스. 흔히 발생하는 예로서, 이러한 공식은 Pearson 을 유클리드 거리로 변환하는 데 사용됩니다 . ( 이것 과 을 거리 로 변환하는 공식에 의문 있는 전체 스레드를 참조하십시오 .)아르 자형아르 자형

바로 위의 "우리가 믿거 나 기대한다면 ..."이라고 말했습니다. 당신은 확인하고 유사성이 있는지 확인 할 수 행렬 - 손에 특별한 사람이 - 매트릭스가 부정적인 고유 값이없는 경우 "OK"스칼라 제품 매트릭스 기하학적. 이 사람들이 있다면, 그것은 그 수단 중 어느 정도 있기 때문에 사실 스칼라 제품 아닙니다 기하학적 비 수렴 에 두 의 또는에 '매트릭스 뒤에 그 "숨기기"S. 이러한 매트릭스를 유클리드 거리로 변환하기 전에 이러한 매트릭스를 "치료"하는 방법이 있습니다.에스에스h

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.