웹 서버의 로그가 있다고 가정하십시오. 이 로그에는 이런 종류의 튜플이 있습니다.
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
이 타임 스탬프는 예를 들어 사용자의 클릭을 나타냅니다. 이제 user1
한 달 동안 사이트를 여러 번 방문 (세션)하고 각 세션 동안 각 사용자의 클릭이 급증합니다 (사용자가 귀하의 사이트를 방문하면 여러 페이지를 클릭한다고 가정 함).
이러한 클릭 버스트를 생성 한 세션에서 이러한 클릭 버스트를 분할하려고하지만 추가 정보 소스가없고 타임 스탬프 목록 만 있다고 가정합니다. 동일한 사용자로부터 발생하는 두 번의 클릭 사이의 간격 분포를 계산하면 긴 꼬리 분포를 얻게됩니다. 직관적으로, " 초기 매개 변수"(예 : N 초 timestamp_{i+1} - timestamp{i} > N
)를 찾으십시오 timestamp_{i+1}
.
문제는 실제로이 분포가 두 변수의 혼합이라는 것입니다. X = "동일한 세션에서 두 번의 클릭 사이의 간격"및 Y = "이전 세션의 마지막 클릭과 새 세션의 첫 번째 클릭 사이의 간격"
문제는이 N을 추정하는 방법이며 클릭 버스트를 보면서 두 분포를 (일부 중복으로) 나눌 수 있습니까?
"클릭 버스트를보고"라고 말하면 N 이외의 다른 것을 계산할 수 없다는 의미입니까?
—
jerad
나는 튜플 (사용자, 타임 스탬프) 이외의 추가 정보 소스가 없다는 것을 의미합니다. 임계 값 기반 방법 (델타> N 기준)은 방법의 예일뿐입니다. 다른 것이 가능할 수도 있습니다.
—
marcorossi
이 글타래는 여러분에게 흥미로울 것입니다 : 적절한 클러스터링 기술-시간 데이터 .
—
gung-모니 티 복원