모든 배포판이 동일한 70 개의 이산 값을 가질 수 있다는 것을 이해합니다. 그런 다음 분포의 누적 곡선을 쉽게 비교할 수 있습니다 (누적 곡선을 비교하는 것이 분포를 비교하는 일반적인 방법 임). 모양, 위치 및 분산의 차이에 대한 옴니버스 비교입니다.
따라서 (A, B, ... 등은 분포입니다) 형식으로 데이터를 준비하십시오.
Value CumProp_A CumProp_B ...
1 .01 .05
2 .12 .14
... ... ...
70 1.00 1.00
그리고 분포들 사이의 거리 매트릭스를 계산하도록 구성된다. 계층 적 클러스터링에 제출하십시오 (완전한 연결 방법을 권장합니다). 몇 거리? 두 누적 곡선이 하나의 값 ( b ) 에서 멀리 떨어져있는 경우 매우 다르다고 생각되면 체비 쇼프 거리를 사용하십시오. 하나의 값이 넓은 범위의 값 ( c )을 따라 다른 것보다 안정적으로 높은 경우에만 두 누적 곡선이 매우 다르다고 생각되면 자기 상관 거리를 사용하십시오. 커브 간의 로컬 차이가 중요한 경우 ( a ) 맨해튼 거리를 사용하십시오.

PS 자동 상관 거리는 누적 곡선 X와 Y 사이의 차이의 정규화되지 않은 자기 상관 계수 일뿐입니다.
∑Ni=2(X−Y)i∗(X−Y)i−1