@Silverfish는 제공되지 않은 PolatAlemdar의 답변 확장을 요청했기 때문에 여기에서 확장하려고합니다.
왜 이름이 chisquare 거리입니까? 우발 사태 표에 대한 검정은
양식을 유지하고이를 거리 측정. 이는 가 관측치로 해석되고 가 기대 값으로 해석되는 OP의 세 번째 공식을 제공합니다. 예를 들어 적합도 테스트의 적합성과 같이 PolatAlemdar의 의견은 "이산 확률 분포에 사용됩니다"라고 설명합니다. 이 세 번째 형태는 변수 및 에서 비대칭이므로 거리 함수 가 아닙니다 . 히스토그램 비교를 위해 와 에서 대칭 인 거리 함수가 필요합니다. xiyixyxy1
χ2= ∑세포( O나는− E나는)2이자형나는
엑스나는와이나는엑스와이엑스와이, 그리고 두 개의 첫 번째 형태가 이것을 제공합니다. 그들 사이의 차이점은 상수 팩터 이며, 단지 하나의 폼을 일관되게 선택하는 한 중요하지 않습니다 (추가 팩터 가 있는 버전 이 비대칭 폼과 비교하려는 경우 더 낫습니다). 일치하지 않는 제곱 유클리드 거리와 이러한 공식의 유사성을 주목하십시오. 카이 제곱 거리는 일종의
가중 유클리드 거리입니다. 이러한 이유로 OP의 수식은 일반적으로
거리 를 얻기 위해 근사 부호 아래에 배치됩니다 . 다음에서 우리는 이것을 따릅니다.
11212
Chisquare 거리는 대응 분석에도 사용됩니다. 여기에 사용 된 형식과의 관계를 보려면 를 행과 열 이있는 우발성 테이블의 셀로 설정하십시오 . 행 합계는 x + j = ∑ i x i j 이고 열 합계는 x i + = ∑ j x i j 입니다. 로우 사이 chisquare 상기 거리 (L)는 , K가 주어진다
χ (2) ( L , K ) = √ R C엑스나는 j아르 자형씨엑스+ j= ∑나는엑스나는j엑스나는 +=∑제이엑스나는 jl , k
행이 두 개인 (히스토그램 두 개) 인 경우 OP의 첫 번째 공식 (루트 기호 모듈로)을 복구합니다.
χ2( l , k ) = ∑제이1엑스+ j( x난 j엑스l +− xk j엑스k +)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
카이 제크 거리에 대한 긴 토론이있는 책은 Michael Greenacre (Chapman & Hall)의 "PRACTICE (2 판)의 기업 분석"입니다. 우 발표와 함께 사용되는 chisquare와의 유사성에서 비롯된 잘 알려진 이름입니다. 어떤 배포판이 있습니까? 나는 그것을 연구 한 적이 없지만 아마도 (일부 조건에서 ...) 대략 chisquare 분포를 가질 것입니다. 증거는 우발성 표로 수행 한 것과 유사해야하며, 대응 분석에 대한 대부분의 문헌은 분포 이론에 포함되지 않습니다. 아마도 그러한 이론과 관련이있는 논문은 http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 입니다. 참조이 사이트의 다른 관련 게시물에 대해서는 /stats//search?q=%22chisquare+distance%22 를 참조 하십시오.