두 개의 다변량 분포 사이의 "거리"측정


28

리소스를보다 쉽게 ​​찾을 수 있도록 내가하려는 일을 설명 할 수있는 좋은 용어를 찾고 있습니다.

따라서 두 개의 점 A와 B의 클러스터가 있는데, 각각 두 개의 값 X와 Y와 연관되어 있고 A와 B 사이의 "거리"를 측정하려고합니다. 즉, 동일한 분포에서 표본이 추출 될 가능성은 얼마나됩니까? (분포가 정상이라고 가정 할 수 있습니다). 예를 들어, X와 Y가 A에서는 상관되어 있지만 B에서는 상관되지 않으면 분포가 다릅니다.

직관적으로 A의 공분산 행렬을 구한 다음 B의 각 점이 거기에 적합 할 가능성을보고 그 반대도 가능합니다 (마할 라 노비스 거리와 같은 일부를 사용하는 경우).

그러나 이것은 약간 "임시"이며 아마도 이것을 설명하는 더 엄격한 방법이있을 것입니다 (물론 실제로 두 개 이상의 변수가있는 두 개 이상의 데이터 세트가 있습니다-내 데이터 세트를 식별하려고합니다 이상치입니다).

감사!


Dunno 왜,하지만 당신의 게시물을 읽을 때 Mantel 테스트가 내 눈앞에서 번쩍였다.
Roman Luštrik

답변:



16

흠, Bhattacharyya 거리는 내가 찾고있는 것 같지만 Hellinger 거리도 작동합니다.


당신은 Bhattacharyya와 Helling을 언급하고 KL에 대한 답변을 받아들입니다 ... 결국 당신의 선택은 무엇이며 왜?
사이먼 C.

1
나는 그것이 KL 발산이라고 생각하지만 ... 2010 년이었고 내 기억은 완벽하지 않습니다.
Emile

아 그래 그래,하지만 어쨌든 감사합니다!
Simon C.

9

휴리스틱

  • 민코프 스키 형태
  • 가중 평균 편차 (WMV)

비모수 테스트 통계

  • 2 (치 스퀘어)
  • 콜 모고 로프-스 미르 노프 (KS)
  • 크 래머 / 폰 미제스 (CvM)

정보 이론의 차이

  • 쿨백-라이 블러 (KL)
  • 젠슨-샤논 분기 (메트릭)
  • 제프리 발산 (숫자 적으로 안정적이고 대칭 적)

지상 거리 측정

  • 히스토그램 교차
  • 2 차 형태 (QF)
  • 지구 발동기 거리 (EMD)


0

"통계적 차이"에 대한 몇 가지 조치

  • 순열 테스트 (피셔 별)
  • 중앙 한계 정리 및 슬 루츠 키 정리
  • 맨-휘트니-윌 콕신 테스트
  • 앤더슨 – 달링 테스트
  • 샤피로-야생 테스트
  • 호스 머-레임 쇼 테스트
  • 카이퍼의 시험
  • 커널 화 된 Stein 불일치
  • Jaccard 유사성
  • 또한 계층 적 클러스터링은 그룹 간의 유사성 측정을 처리합니다. 그룹 유사성의 가장 보편적 인 측정 값은 단일 연결, 전체 연결 및 평균 연결 일 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.