연중 웹 사이트 사용 시간을 조사하는 데이터 분석 프로젝트를 수행하고 있습니다. 내가하고 싶은 것은 사용 패턴이 얼마나 "일관성"인지, 즉 일주일에 한 번 1 시간 동안 사용하는 패턴과 얼마나 가까운 지 비교하고, 한 번에 10 분 동안 사용하는 패턴과 얼마나 유사한 지 비교하는 것입니다. 주당 시간. 계산할 수있는 몇 가지 사항을 알고 있습니다.
- Shannon 엔트로피 : 결과의 "확실성"이 얼마나 다른지, 즉 확률 분포가 균일 한 것과 얼마나 다른지를 측정합니다.
- Kullback-Liebler 분기 : 하나의 확률 분포가 다른 확률 분포와 얼마나 다른지 측정
- Jensen-Shannon 분기 : KL 분기 와 유사하지만 유한 값을 반환하므로 더 유용합니다.
- Smirnov-Kolmogorov 검정 : 연속 랜덤 변수에 대한 두 개의 누적 분포 함수가 동일한 표본에서 나오는지 여부를 확인하는 검정입니다.
- 카이 제곱 테스트 : 주파수 분포가 예상 주파수 분포와 얼마나 다른지 결정하기위한 적합도 검정입니다.
내가하고 싶은 것은 실제 사용 시간 (파란색)이 분포에서 이상적인 사용 시간 (주황색)과 얼마나 다른지 비교하는 것입니다. 이 분포는 불 연속적이며 아래 버전은 정규 분포가되도록 정규화됩니다. 가로 축은 사용자가 웹 사이트에서 보낸 시간 (분)을 나타냅니다. 이것은 연중 매일 기록되었습니다. 사용자가 웹 사이트를 전혀 방문하지 않은 경우 이는 지속 시간이 0으로 계산되지만 빈도 분포에서 제거되었습니다. 오른쪽에는 누적 분포 함수가 있습니다.
내 유일한 문제는 JS 사용자가 유한 값을 반환하도록 할 수 있지만 다른 사용자를보고 사용 분포를 이상적인 사용자와 비교할 때 대부분 동일한 값을 얻습니다 (따라서 좋지 않습니다) 그들이 얼마나 다른지에 대한 지표). 또한 빈도 분포가 아닌 확률 분포로 정규화 할 때 상당량의 정보가 손실됩니다 (예 : 학생이 플랫폼을 50 회 사용하는 경우 막대 분포의 총 길이가 50이되도록 파란색 분포를 수직으로 조정해야합니다. 주황색 막대의 높이는 1이 아닌 50이어야합니다. "일관성"이라는 의미의 일부는 사용자가 웹 사이트를 얼마나 자주 방문하는지가 얼마나 많은 웹 사이트를 나가는 지에 영향을 미치는지 여부입니다. 그들이 웹 사이트를 방문한 횟수가 없어지면 확률 분포를 비교하는 것은 다소 모호하다. 사용자 기간의 확률 분포가 "이상적인"사용량에 근접하더라도, 해당 사용자는 1 년 동안 1 주일 동안 만 플랫폼을 사용했을 수 있으며, 이는 매우 일관되지 않습니다.
두 주파수 분포 를 비교 하고 그것들이 얼마나 유사하거나 다른지를 특징으로하는 어떤 종류의 메트릭을 계산 하는 잘 확립 된 기술 이 있습니까?