첫 번째 요소가 방문 횟수가 가장 많은 고유 IP에 의해 주어진 기간 동안 웹 사이트를 방문한 횟수가 있고 두 번째 요소가 두 번째가있는 고유 한 IP에 의한 방문 수인 순서 벡터가 있다고 가정하십시오. 최고 방문수 등. 사이트 당 변형이있을 수 있지만 일반적으로이 벡터의 모양에 가정 된 패턴이 있습니까? 예를 들어 권력 법 배포판을 따르고 있습니까?
첫 번째 요소가 방문 횟수가 가장 많은 고유 IP에 의해 주어진 기간 동안 웹 사이트를 방문한 횟수가 있고 두 번째 요소가 두 번째가있는 고유 한 IP에 의한 방문 수인 순서 벡터가 있다고 가정하십시오. 최고 방문수 등. 사이트 당 변형이있을 수 있지만 일반적으로이 벡터의 모양에 가정 된 패턴이 있습니까? 예를 들어 권력 법 배포판을 따르고 있습니까?
답변:
아니요, 웹 사이트를 방문한 순 방문자는 권력 법을 따르지 않습니다.
지난 몇 년간 권력 법 주장에 대한 엄격한 테스트가 진행되고있다 (예 : Clauset, Shalizi and Newman 2009). 과거의 주장은 종종 잘 테스트되지 않았으며 로그 로그 스케일로 데이터를 표시하고 "안구 테스트"를 사용하여 직선을 나타내는 것이 일반적이었습니다. 공식적인 테스트가 더 일반적이기 때문에 많은 배포판에서 전력 법을 따르지 않는 것으로 나타났습니다.
웹에서 사용자 방문을 조사한 것으로 알고있는 두 가지 참고 문헌은 Ali and Scarr (2007)와 Clauset, Shalizi and Newman (2009)입니다.
Ali and Scarr (2007) 는 Yahoo 웹 사이트에서 무작위로 클릭 한 사용자 클릭 샘플을보고 다음과 같이 결론을 내 렸습니다.
웹 클릭과 페이지 뷰의 분포는 스케일이없는 전력 법 분포를 따른다는 것이 일반적인 지혜입니다. 그러나, 통계적으로 유의하게 더 나은 데이터 설명은 스케일에 민감한 Zipf-Mandelbrot 분포이며 이들의 혼합물은 적합도를 더욱 향상 시킨다는 것을 발견했습니다. 이전 분석에는 세 가지 단점이 있습니다. 작은 후보 분포 세트를 사용하고, 오래된 사용자 웹 행동을 분석했으며 (1998 년경) 의심스러운 통계 방법론을 사용했습니다. 언젠가는 더 적합한 피팅 분포를 찾을 수는 없지만, 스케일에 민감한 Zipf-Mandelbrot 분포는 스케일없는 전력 법칙 또는 Zipf on Yahoo 도메인의 다양한 카테고리.
다음은 한 달 동안 개별 사용자 클릭에 대한 히스토그램과 서로 다른 모델을 사용하여 로그 로그 플롯에서 동일한 데이터를 기록한 것입니다. 데이터는 스케일없는 전력 분배로 예상되는 직선 로그 라인에 명확하게 나타나지 않습니다.
Clauset, Shalizi and Newman (2009) 은 권력 법 설명을 우도 비율 검정을 사용하여 대체 가설과 비교하고 웹 적중과 링크 모두 "권력 법을 따르는 것으로 간주 될 수 없다"고 결론지었습니다. 전자에 대한 그들의 데이터는 하루에 아메리카 온라인 인터넷 서비스 고객에 의한 웹 히트였으며, 후자는 1997 년에 약 2 억 개의 웹 페이지로 크롤링 된 웹 사이트에 대한 링크였다. 아래 이미지는 누적 분포 함수 P (x) 및 최대 우도 검정력 법칙을 제공합니다.
Clauset, Shalizi 및 Newman은이 두 데이터 세트 모두 분포의 극한을 수정하기 위해 지수 cuto ff가있는 전력 분포가 순수한 전력 법칙 분포보다 분명히 우수하고 로그 정규 분포도 적합 함을 발견했습니다. (또한 지수 및 가설 지수 가설을 살펴 보았습니다.)
손에 데이터 세트가 있고 단순히 궁금한 점이 아니라면 다른 모델과 맞추고 비교해야합니다 (R : pchisq (2 * (logLik (model1)-logLik (model2)), df = 1, 더 낮음). 꼬리 = 거짓)). 제로 조정 ZM 모델을 모델링하는 방법을 전혀 모릅니다. Ron Pearson은 ZM 배포에 대해 블로그를 작성 했으며 분명히 R 패키지 zipfR이 있습니다. 나, 아마도 부정적인 이항 모델로 시작할 것이지만 나는 실제 통계학자가 아닙니다 (그리고 나는 그들의 의견을 좋아할 것입니다).
(또한 웹을 크롤링하는 프로그램 및 많은 사람들의 컴퓨터를 나타내는 IP 주소와 같이 개인의 인간 행동과 관련이없는 요소에 의해 데이터가 영향을받을 수 있다고 지적하는 @richiemorrisroe의 의견을 두 번째로 설명하고 싶습니다.)
언급 된 논문 :