Google 크롤링 통계 이해


11

11 월 1 일에 내 웹 사이트를 시작했으며 지금까지 약 300 페이지의 콘텐츠가 Google에 색인되어 있습니다. 6 월 말과 7 월 초에 크롤링 통계가 어떻게되는지 이해하려고합니다. 대규모 등반의 원인은 무엇입니까? 앞으로 무엇을 의미합니까? 내가해야 할 다른 일이 있습니까?


여기에 이미지 설명을 입력하십시오

답변:


2

사이트가 지나치게 크롤링되고 있다고 생각되면 (아마도 더 깊은 내용이 누락 된 경우) HTTP 헤더가 '마지막 수정 된'시간 등과 같은 항목에 대해 좋은 값을 반환하는지 확인해야합니다. . 보너스로 귀하의 사이트는 캐싱 (프록시 또는 브라우저 기반)과 관련하여 더 잘 작동하므로 조금 더 느리게 느낍니다.

서버 로그를 검토하여 크롤링되는 URL을 연구하는 것이 좋습니다. 그들이 동일한 URL을 계속해서 다시 크롤링하는 경우 분명히 문제가 있습니다. 이에 대한 일반적인 변형은 요청 변수를 사용하여 다양한 방법으로 표시 할 수있는 페이지가있는 경우입니다. Googlbot은 가능한 모든 변수 조합 을 크롤링하려고 시도 할 수 있습니다 .

크롤링 연산자로 발생한 예는 20 개의 제목 목록이있는 페이지로, 조합을 확장 할 수 있습니다. 기본적으로이 페이지에는 2 ^ 20 개의 서로 다른 URL이 있습니다!

Googlebot이 기본적으로 동일한 매개 변수를 사용하여 기본적으로 동일한 페이지를 계속 반복해서 크롤링하지 않는지 확인하십시오 (이 페이지에서 잡히는 것을 보았습니다)


감사합니다. 오늘 활동에 또 다른 '스파이크'가 있다는 것을 알았으므로 Google의 크롤링 통계가 1,000 페이지의 콘텐츠를 크롤링함에 따라 점점 더 우려되고 있습니다. 300 페이지 만 있습니다! Google이 몇 번이고 다시 크롤링하고 있는지 확인하려면 어떻게해야하나요? 그리고 HTTP 헤더가 좋은 값을 반환하는지 어떻게 확인합니까? 테스트 앱이 있습니까?
Ubique

서버 로그는 Google이 크롤링하는 페이지를 알려줍니다. HTTP 헤더와 관련하여 여러 Firefox 플러그인이 있습니다. 개인적으로 Firebug를 사용합니다.
Kris

1

Google은 사이트 연령, 인기도 (사이트 링크), 마크 업 및 헤더, 적절한 사이트 맵 등으로 크롤링 속도를 변경한다고 생각합니다. 또한 이전에는 크롤러를 변경하여 콘텐츠가 이전보다 훨씬 빠르게 검색 결과에 표시 될 수 있습니다. (변경 최소 2 주 전).

2 년 전 내 블로그를 출시했을 때 모든 게시물의 색인을 생성하는 데 몇 개월이 걸리고 새 게시물의 색인을 생성하는 데 몇 주가 걸렸습니다. 이제 검색 결과에 게시 한 날과 같은 게시물이 표시됩니다.

구글은 새로운 사이트를 좋아하지 않지만 장로들을 존중합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.