시간 이벤트의 긴 꼬리 분포

웹 서버의 로그가 있다고 가정하십시오. 이 로그에는 이런 종류의 튜플이 있습니다.

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

이 타임 스탬프는 예를 들어 사용자의 클릭을 나타냅니다. 이제 user1한 달 동안 사이트를 여러 번 방문 (세션)하고 각 세션 동안 각 사용자의 클릭이 급증합니다 (사용자가 귀하의 사이트를 방문하면 여러 페이지를 클릭한다고 가정 함).

이러한 클릭 버스트를 생성 한 세션에서 이러한 클릭 버스트를 분할하려고하지만 추가 정보 소스가없고 타임 스탬프 목록 만 있다고 가정합니다. 동일한 사용자로부터 발생하는 두 번의 클릭 사이의 간격 분포를 계산하면 긴 꼬리 분포를 얻게됩니다. 직관적으로, " 초기 매개 변수"(예 : N 초 timestamp_{i+1} - timestamp{i} > N)를 찾으십시오 timestamp_{i+1}.

문제는 실제로이 분포가 두 변수의 혼합이라는 것입니다. X = "동일한 세션에서 두 번의 클릭 사이의 간격"및 Y = "이전 세션의 마지막 클릭과 새 세션의 첫 번째 클릭 사이의 간격"

문제는이 N을 추정하는 방법이며 클릭 버스트를 보면서 두 분포를 (일부 중복으로) 나눌 수 있습니까?

distributions estimation mixture

— 마르코로시
소스

"클릭 버스트를보고"라고 말하면 N 이외의 다른 것을 계산할 수 없다는 의미입니까?

— jerad

나는 튜플 (사용자, 타임 스탬프) 이외의 추가 정보 소스가 없다는 것을 의미합니다. 임계 값 기반 방법 (델타> N 기준)은 방법의 예일뿐입니다. 다른 것이 가능할 수도 있습니다.

— marcorossi

이 글타래는 여러분에게 흥미로울 것입니다 : 적절한 클러스터링 기술-시간 데이터 .

— gung-모니 티 복원

실제 값 대신 클릭 간 간격의 로그를 표시해야합니다. 이렇게하면 분포가 평평 해지고 분포에 여러 모드가 표시 될 수도 있습니다.

신경 과학자들은 신경 스파이크의 파열을 식별하는데있어서 매우 유사한 문제를 해결하기 위해보다 진보 된 접근법을 개발 하였다. 이 고전 논문 또는 Google Scholar의 기타 여러 관련 논문 .

— 제라드
소스

배포판의 로그를 인쇄했습니다. 평평한 선입니다. 그래도 어떻게 도움이 되나요? 무엇을 보시겠습니까? 논문에 대한 참조는 훌륭합니다.

— marcorossi

로그 확률도는 어떻습니까? 즉, 간격이 아닌 주파수 만 기록합니다. 두 가지 모드가 있습니까?

— jerad