카이-제곱 거리를 사용하여 두 히스토그램 비교


18

두 얼굴의 이미지를 비교하고 싶습니다. 나는 그들의 LBP- 히스토그램을 계산했습니다. 이제이 두 히스토그램을 비교하고이 히스토그램이 어느 정도 (0-100 %)인지 알 수있는 정보를 얻어야합니다.

이 작업을 해결하는 방법에는 여러 가지가 있지만 LBP 방법의 저자는 카이-제곱 거리가 히스토그램 교차점 및 로그 우도 통계량보다 우수하다는 점을 강조합니다.

저자는 또한 카이-제곱 거리의 공식을 보여줍니다.

나는=1(엑스나는와이나는)2(엑스나는+와이나는)

여기서 빈들의 수이고, 제 1 빈의 값이다 초 빈의 값이다.x i y i엑스나는와이나는

일부 연구 (예 : 2 차 치 히스토그램 거리 패밀리)에서 카이-제곱 거리의 공식은 다음과 같습니다.

12나는=1(엑스나는와이나는)2(엑스나는+와이나는)

그리고 http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm 카이-제곱 거리의 공식은 다음과 같습니다.

나는=1(엑스나는와이나는)2와이나는

나는 그것을 고수했다. 몇 가지 질문이 있습니다.

  1. 어떤 표현을 사용해야합니까?
  2. 차이의 결과를 어떻게 해석해야합니까? 0과 같은 차이는 두 히스토그램이 동일하다는 것을 알고 있지만 두 히스토그램이 완전히 다른 경우 어떻게 알 수 있습니까? Chi-Square 테이블을 사용해야합니까? 아니면 임계 값을 사용해야합니까? 기본적으로 차이를 퍼센트로 매핑하고 싶습니다.
  3. 이 세 가지 표현이 다른 이유는 무엇입니까?

yi가 xi와 동일한 구간의 값이 아니라 비교기 분포에있는 두 번째 구간이 아닌가?
ReneBt

답변:


7

@Silverfish는 제공되지 않은 PolatAlemdar의 답변 확장을 요청했기 때문에 여기에서 확장하려고합니다.

왜 이름이 chisquare 거리입니까? 우발 사태 표에 대한 검정은 양식을 유지하고이를 거리 측정. 이는 가 관측치로 해석되고 가 기대 값으로 해석되는 OP의 세 번째 공식을 제공합니다. 예를 들어 적합도 테스트의 적합성과 같이 PolatAlemdar의 의견은 "이산 확률 분포에 사용됩니다"라고 설명합니다. 이 세 번째 형태는 변수 및 에서 비대칭이므로 거리 함수 가 아닙니다 . 히스토그램 비교를 위해 와 에서 대칭 인 거리 함수가 필요합니다. xiyixyxy1

χ2=세포(영형나는이자형나는)2이자형나는
엑스나는와이나는엑스와이엑스와이, 그리고 두 개의 첫 번째 형태가 이것을 제공합니다. 그들 사이의 차이점은 상수 팩터 이며, 단지 하나의 폼을 일관되게 선택하는 한 중요하지 않습니다 (추가 팩터 가 있는 버전 이 비대칭 폼과 비교하려는 경우 더 낫습니다). 일치하지 않는 제곱 유클리드 거리와 이러한 공식의 유사성을 주목하십시오. 카이 제곱 거리는 일종의 가중 유클리드 거리입니다. 이러한 이유로 OP의 수식은 일반적으로 거리 를 얻기 위해 근사 부호 아래에 배치됩니다 . 다음에서 우리는 이것을 따릅니다. 11212

Chisquare 거리는 대응 분석에도 사용됩니다. 여기에 사용 된 형식과의 관계를 보려면 를 행과 열 이있는 우발성 테이블의 셀로 설정하십시오 . 행 합계는 x + j = i x i j 이고 열 합계는 x i + = j x i j 입니다. 로우 사이 chisquare 상기 거리 (L)는 , K가 주어진다 χ (2) ( L , K ) = R C엑스나는제이아르 자형엑스+제이=나는엑스나는제이엑스나는+=제이엑스나는제이,케이 행이 두 개인 (히스토그램 두 개) 인 경우 OP의 첫 번째 공식 (루트 기호 모듈로)을 복구합니다.

χ2(,케이)=제이1엑스+제이(엑스제이엑스+엑스케이제이엑스케이+)2
EDIT

카이 제크 거리에 대한 긴 토론이있는 책은 Michael Greenacre (Chapman & Hall)의 "PRACTICE (2 판)의 기업 분석"입니다. 우 발표와 함께 사용되는 chisquare와의 유사성에서 비롯된 잘 알려진 이름입니다. 어떤 배포판이 있습니까? 나는 그것을 연구 한 적이 없지만 아마도 (일부 조건에서 ...) 대략 chisquare 분포를 가질 것입니다. 증거는 우발성 표로 수행 한 것과 유사해야하며, 대응 분석에 대한 대부분의 문헌은 분포 이론에 포함되지 않습니다. 아마도 그러한 이론과 관련이있는 논문은 http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 입니다. 참조이 사이트의 다른 관련 게시물에 대해서는 /stats//search?q=%22chisquare+distance%22참조 하십시오.


마지막 방정식을 왜 카이 제곱 거리라고 할 수 있습니까? 그렇게 배포됩니까? 당신은 파생 또는 제발 링크를 제공 할 수 있습니까? 찾을 수없는 것 같습니다.
LeastSquaresWonderer

1
위의 편집 내용을 참조하십시오.
kjetil b halvorsen

3

이 링크가 매우 유용하다는 것을 알았습니다. http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

왜 그런지 잘 모르겠지만 OpenCV는 Chi-Square 막대 그래프 비교를 위해 세 번째 공식을 사용합니다.

의미의 측면에서, 어떤 측정 알고리즘이 0 %에서 100 %와 같은 범위를 제공하는지 확실하지 않습니다. 다시 말해, 두 이미지가 동일하다는 것을 알 수 있습니다 : 상관 값 1.0 또는 카이 제곱 값 0.0; 그러나 두 이미지가 얼마나 다른지에 대한 한계를 정하기는 어렵습니다. 완전 흰색 이미지와 완전 검은 이미지를 비교해보십시오. 숫자 값은 무한대이거나 숫자가 아닐 수 있습니다.


2

엑스와이

다른 두 개는 히스토그램 유사성을 계산하는 데 사용됩니다.


1
$x$x

2
엑스와이

0

OP가 요청한대로 백분율 값 (방정식 1) :

=χ에스100

χ에스

요청에 따라 보완 :

이 방정식을 계산하면 전체 히스토그램과의 차이 백분율을 가질 수 있습니다. 히스토그램에 대해 이것을 계산 한 다음 서로 빼면 백분율 차이가있을 수 있습니다.


2
나는 이것이 어떤 질문에 대한 답인지를 보는 데 어려움을 겪고 있습니다. 정교하게 할 수 있습니까?
Laconic

이것은 하나의 히스토그램이 전체 히스토그램과 얼마나 다른지를 (요청에 따라 백분율로) 제공합니다. 두 히스토그램에서이 방정식을 계산하면 삼각 측량에 사용 된 것과 다른 차이를 알 수 있습니다.
Carlos Barcellos 2014 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.