웹 사이트를 순 방문자로 방문하는 사람은 권력 법을 준수합니까?


14

첫 번째 요소가 방문 횟수가 가장 많은 고유 IP에 의해 주어진 기간 동안 웹 사이트를 방문한 횟수가 있고 두 번째 요소가 두 번째가있는 고유 한 IP에 의한 방문 수인 순서 벡터가 있다고 가정하십시오. 최고 방문수 등. 사이트 당 변형이있을 수 있지만 일반적으로이 벡터의 모양에 가정 된 패턴이 있습니까? 예를 들어 권력 법 배포판을 따르고 있습니까?


6
IP는 동적 주소 지정 및 여러 가지 다른 문제 (예 : 여러 컴퓨터를 사용하는 사람들) 때문에 사람들과 잘 어울리지 않을 것입니다. 이 가설을 테스트하려면 IP 주소 대신 방문자 ID를 사용합니다.
richiemorrisroe

답변:


23

아니요, 웹 사이트를 방문한 순 방문자는 권력 법을 따르지 않습니다.

지난 몇 년간 권력 법 주장에 대한 엄격한 테스트가 진행되고있다 (예 : Clauset, Shalizi and Newman 2009). 과거의 주장은 종종 잘 테스트되지 않았으며 로그 로그 스케일로 데이터를 표시하고 "안구 테스트"를 사용하여 직선을 나타내는 것이 일반적이었습니다. 공식적인 테스트가 더 일반적이기 때문에 많은 배포판에서 전력 법을 따르지 않는 것으로 나타났습니다.

웹에서 사용자 방문을 조사한 것으로 알고있는 두 가지 참고 문헌은 Ali and Scarr (2007)와 Clauset, Shalizi and Newman (2009)입니다.

Ali and Scarr (2007) 는 Yahoo 웹 사이트에서 무작위로 클릭 한 사용자 클릭 샘플을보고 다음과 같이 결론을 내 렸습니다.

웹 클릭과 페이지 뷰의 분포는 스케일이없는 전력 법 분포를 따른다는 것이 일반적인 지혜입니다. 그러나, 통계적으로 유의하게 더 나은 데이터 설명은 스케일에 민감한 Zipf-Mandelbrot 분포이며 이들의 혼합물은 적합도를 더욱 향상 시킨다는 것을 발견했습니다. 이전 분석에는 세 가지 단점이 있습니다. 작은 후보 분포 세트를 사용하고, 오래된 사용자 웹 행동을 분석했으며 (1998 년경) 의심스러운 통계 방법론을 사용했습니다. 언젠가는 더 적합한 피팅 분포를 찾을 수는 없지만, 스케일에 민감한 Zipf-Mandelbrot 분포는 스케일없는 전력 법칙 또는 Zipf on Yahoo 도메인의 다양한 카테고리.

다음은 한 달 동안 개별 사용자 클릭에 대한 히스토그램과 서로 다른 모델을 사용하여 로그 로그 플롯에서 동일한 데이터를 기록한 것입니다. 데이터는 스케일없는 전력 분배로 예상되는 직선 로그 라인에 명확하게 나타나지 않습니다.

Ali와 Scarr의 그림 2와 4

Clauset, Shalizi and Newman (2009) 은 권력 법 설명을 우도 비율 검정을 사용하여 대체 가설과 비교하고 웹 적중과 링크 모두 "권력 법을 따르는 것으로 간주 될 수 없다"고 결론지었습니다. 전자에 대한 그들의 데이터는 하루에 아메리카 온라인 인터넷 서비스 고객에 의한 웹 히트였으며, 후자는 1997 년에 약 2 억 개의 웹 페이지로 크롤링 된 웹 사이트에 대한 링크였다. 아래 이미지는 누적 분포 함수 P (x) 및 최대 우도 검정력 법칙을 제공합니다.

여기에 이미지 설명을 입력하십시오

Clauset, Shalizi 및 Newman은이 두 데이터 세트 모두 분포의 극한을 수정하기 위해 지수 cuto ff가있는 전력 분포가 순수한 전력 법칙 분포보다 분명히 우수하고 로그 정규 분포도 적합 함을 발견했습니다. (또한 지수 및 가설 지수 가설을 살펴 보았습니다.)

손에 데이터 세트가 있고 단순히 궁금한 점이 아니라면 다른 모델과 맞추고 비교해야합니다 (R : pchisq (2 * (logLik (model1)-logLik (model2)), df = 1, 더 낮음). 꼬리 = 거짓)). 제로 조정 ZM 모델을 모델링하는 방법을 전혀 모릅니다. Ron Pearson은 ZM 배포에 대해 블로그를 작성 했으며 분명히 R 패키지 zipfR이 있습니다. 나, 아마도 부정적인 이항 모델로 시작할 것이지만 나는 실제 통계학자가 아닙니다 (그리고 나는 그들의 의견을 좋아할 것입니다).

(또한 웹을 크롤링하는 프로그램 및 많은 사람들의 컴퓨터를 나타내는 IP 주소와 같이 개인의 인간 행동과 관련이없는 요소에 의해 데이터가 영향을받을 수 있다고 지적하는 @richiemorrisroe의 의견을 두 번째로 설명하고 싶습니다.)

언급 된 논문 :


@MattBag, 흥미로운 것 같습니다,이 경우에 이것을 시도합니다 stats.stackexchange.com/q/41286/13201
FredrikD
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.