매일 방문하여 웹 사이트가 활성화되어 있는지 확인


15

문맥:

매일 방문수를 기록하는 웹 사이트 그룹이 있습니다.

W0 = { 30, 34, 28, 30, 16, 13, 8, 4, 0, 5, 2, 2, 1, 2, .. } 
W1 = { 1, 3, 21, 12, 10, 20, 15, 43, 22, 25, .. }
W2 = { 0, 0, 4, 2, 2, 5, 3, 30, 50, 30, 30, 25, 40, .. } 
...
Wn 

일반적인 질문 :

  • 어떤 사이트가 가장 활동적인지 어떻게 알 수 있습니까?

이것은 지난 몇 일 동안 더 많은 방문을 받거나 방문이 갑자기 증가 함을 의미합니다. 설명을 위해 위의 작은 예에서 W0은 처음에는 인기가 있었지만 포기하기 시작했으며 W1은 꾸준한 인기를 보였으며 (일부 고립 된 피크로) W3은 조용한 시작 후 중요한 인상을 받았습니다.

초기 생각 :

간단한 수식이 설명되어있는 SO 에서이 스레드를 찾았습니다 .

// pageviews for most recent day
y2 = pageviews[-1]
// pageviews for previous day
y1 = pageviews[-2]
// Simple baseline trend algorithm
slope = y2 - y1
trend = slope * log(1.0 +int(total_pageviews))
error = 1.0/sqrt(int(total_pageviews))
return trend, error

이것은 좋아 보이고 쉬워 보이지만 문제가 있습니다.

계산은 기울기를 기준으로합니다. 이것은 괜찮으며 관심있는 기능 중 하나이지만 IMHO는 non-monotonic 시리즈에 문제가 있습니다. 며칠 동안 일정한 방문 횟수 (따라서 경사 = 0)가 있다고 가정하면 위의 추세는 0이 될 것입니다.

질문 :

  • 두 경우 (모노 닉 증가 / 감소)와 많은 히트를 어떻게 처리합니까?
  • 별도의 수식을 사용해야합니까?

1
아직 답변을받지 못한 것에 놀랐습니다 (물론 인기있는 질문 임에도 불구하고). 네 개의 글 머리 기호 각각에 대해 질문 할 가치가 있으므로이 질문을 그중 하나에 제한하고 다른 질문을 별도의 질문으로 게시하는 방법은 어떻습니까. 그것들은 모두 뚜렷한 접근법을 취하는 정말 훌륭한 질문이며, 네 가지 모두 스스로 가치가 있습니다.
Andy W

앤디 안녕, 답변 주셔서 감사합니다. 나는 그것을 바꾸고 한 번에 하나의 문제에 집중하려고 노력할 것이다. 내 초기 생각은 가능한 한 광범위하게 만들었고 (나중에 동일한 질문을 반복하지 말고) 대답이 부족하면 누군가 대답하기가 너무 일반적 인 것 같습니다.
Dan

나는 주로 관심이있는 두 가지 주요 이슈를 드러내 기 위해 질문을 편집했습니다. 긴밀한 관계에서 동일한 질문에 답하기로했습니다.
Dan

1
나는 작은 오류로 하나의 추정치가 접근을 '사용 불가능'하게 만드는 이유를 여전히 이해하지 못했습니다.
onestop

의견 주셔서 감사합니다. 나는 aproach (트렌드 계산)를 사용할 수 없다고 말하지는 않지만 오류 계산에 잠재적 인 문제가있을 수 있습니다. 지금까지 답변을 얻지 못했기 때문에 질문에 더 쉽게 답변하기를 바라면서 해당 항목을 질문에서 제거합니다.
Dan

답변:


4

"온라인 변경점 감지 방법"을 찾고있는 것 같습니다. (이것은 인터넷 검색에 유용한 문구입니다.) 최근 유용한 (그리고 접근하기 쉬운) 논문은 Adams & MacKay (베이지안 접근)와 Keogh et al. R에 대한 감시 패키지 를 눌러 서비스 할 수 있습니다 . 통계적 공정 제어 방법을 사용하여 많은 수의 적중을 찾아 낼 수 있습니다 .


2

이런 종류의 문제를 해결하는 방법은 점점 더 복잡합니다. 사물의 소리에서, 당신은 상당히 간단한 해결책 (SO에서 찾은 공식)으로 시작했습니다. 이런 종류의 단순성을 염두에두고 게시물의 현재 버전에서 몇 가지 핵심 사항을 다시 살펴볼 것이라고 생각했습니다.

지금까지 "사이트 활동"의 측정 값을 캡처하고 싶다고 말씀하셨습니다.

  • "지난 며칠"동안 방문 / 일의 기울기 변화
  • "지난 며칠"동안 방문 / 일의 크기 변화

@ jan-galkowski가 지적한 것처럼, 당신은 또한이 차원을 따라 서로에 대한 사이트의 순위에 (적어도 암묵적으로) 관심이있는 것처럼 보입니다.

그 설명이 정확하다면, 세 가지 측정치 (변화, 크기, 순위)를 별도의 구성 요소로 통합하는 가장 간단한 솔루션을 탐색 할 것을 제안합니다. 예를 들어 다음을 수행 할 수 있습니다.

  • 기울기 변화를 포착하기위한 SO 솔루션의 결과 (3-4 일의 데이터를 통합하더라도)
  • 각 사이트의 가장 최근 방문 / 일 값의 크기를 해당 사이트의 (y2)평균 방문 / 일로 나눈 값 ( Y) :

y2 / mean(Y)

W0, W1 및 W2 각각에 대해 0.16, 1.45 및 2.35가 산출됩니다. (해석을 위해 최근의 일일 방문수와 동일한 사이트가 평균 일일 방문수와 1의 결과를 낳는 사이트를 고려하십시오.) 가장 최근 2 일 이상을 캡처하도록이 측정 값을 조정할 수도 있습니다.

y2 + y1 / 2 * mean(Y)

세 개의 샘플 사이트에 대해 0.12, 1.33, 1.91이 산출됩니다.

실제로 이러한 종류의 측정에 각 사이트의 방문 / 일 분포 평균을 사용하는 경우 분포의 표준 편차를보고 상대적 변동성을 파악합니다. 각 사이트의 방문 / 일 배포에 대한 표준 편차는 12.69, 12.12 및 17.62입니다. y2/mean(Y)표준 편차 에 대한 측정 값을 생각 하면 W2 사이트의 최근 활동 규모를 원근감있게 유지할 수 있기 때문에 도움이됩니다 (더 큰 표준 편차 = 전체적으로 덜 안정적 / 일관되지 않음).

마지막으로 순위에 관심이 있다면 이러한 접근 방식을 해당 방향으로 확장 할 수도 있습니다. 예를 들면, 나는 잘 하루에 각 사이트의 평균 방문 (의 계급의 계급처럼 일 값마다 가장 최근의 방문의 측면에서 사이트의 순위를 알고 있다고 생각 mean (Y)W에서 Wn유용 할 수있다). 다시, 당신은 당신의 요구에 맞게 조정할 수 있습니다.

이러한 모든 계산 결과를 표로 표시하거나 정기적으로 업데이트하여 시각화하여 매일 추적 할 수 있습니다.


1

웹 사이트 사용자의 도착률은 불규칙적이며 Poisson의 관점에서 과도하게 분산되는 경향이 있으므로 도착 및 해당 피팅을 볼 때 음수 이항 분포를 고려하십시오. 또한 매일 사이트 수가 아닌 사이트의 주문 통계를 조사 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.