Google 봇에서 수천만 페이지의 색인을 생성하는 방법은 무엇입니까?


12

현재 8 백만 개의 고유 한 페이지가있는 사이트를 현재 약 2 천만 개로, 결국 약 5 천만 개 이상으로 늘리는 사이트를 개발 중입니다.

비판하기 전에 ... 예, 독특하고 유용한 콘텐츠를 제공합니다. Google은 공개 레코드에서 원시 데이터를 지속적으로 처리하고 일부 데이터 스크러빙, 엔터티 롤업 및 관계 매핑을 수행하여 양질의 콘텐츠를 생성 할 수 있었으며, 부분적 으로 폭이 넓기 때문에 매우 유용하고 고유 한 사이트를 개발했습니다 . 데이터.

PR은 0 (새 도메인, 링크 없음)이며, 하루에 약 500 페이지의 속도로 스파이더 링되어 약 30,000 페이지가 색인됩니다. 이 속도로 모든 데이터를 색인화하는 데 400 년 이상이 걸렸습니다.

두 가지 질문이 있습니다.

  1. 인덱싱 비율은 PR과 직접적으로 관련이 있으며, 좋은 PR을 가진 오래된 도메인을 구입하면 하루에 10 만 페이지 정도의 인덱싱 비율을 얻을 수있을 정도로 상관 관계가 있습니다.
  2. 인덱싱 프로세스 자체를 전문으로하는 SEO 컨설턴트가 있습니까? 우리는 달리, 검색 엔진 최적화와 아주 잘하고있는 대부분의 페이지 수에 대한 우리의 성공 경첩 색인 있도록 -page 특히, 게다가, 우리의 "긴 꼬리"키워드 어구를위한 경쟁은 매우 낮습니다.

우리의 주요 경쟁 업체는 Alexa 2000 순위와 함께 1 년 만에 약 20MM 페이지의 색인을 생성했습니다.

우리가 가지고있는 주목할만한 특성 :

  • 페이지 다운로드 속도가 매우 좋음 (250-500ms)
  • 오류 없음 (스파이더 될 때 404 또는 500 오류 없음)
  • Google 웹 마스터 도구를 사용하고 매일 로그인합니다
  • 친숙한 URL
  • 사이트 맵을 제출하는 것이 두렵습니다. 일부 SEO 커뮤니티 게시물에는 수백만 페이지의 새로운 사이트가 있으며 PR이 의심되지 않습니다. 면밀한 조사를 피하기 위해 대규모 사이트의 단계적 온 보딩에 대해 말하는 Matt CuttsGoogle 비디오 도 있습니다 (동영상의 약 2:30).

  • 클릭 가능한 사이트 링크는 4 페이지 이하, 일반적으로 페이지에 250 (-ish) 이하의 내부 링크를 포함한 모든 페이지를 제공합니다.
  • 내부 링크의 앵커 텍스트는 논리적이며 세부 사항 페이지의 데이터에 계층 적으로 관련성을 추가합니다.
  • 이전에는 웹 마스터 도구에서 크롤링 속도를 최고로 설정했습니다 (최대 2 초마다 한 페이지). 최근에 Google에서 권장하는 "Google 결정"으로 되돌 렸습니다.


6
정말 유용한 콘텐츠를 제공하는 5 천만 페이지를보고 싶습니다. 멋지다 Wikipedia는 현재 사이트에 비해 많은 지식이 부족하여 현재 350 만 페이지에 불과합니다. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio

3
:) 냉소를 지나쳐 보면 위키피디아를 엄청난 지식의 원천으로 만드는 것은 페이지 수가 아닙니다. 우리 사이트는 데이터베이스에서 개인의 모든 레코드에 대한 페이지와 회사의 모든 레코드에 대한 페이지를 생성합니다. 데이터 분석 및 스크러빙을 사용하여 비즈니스 파트너 간의 관계를 동적으로 생성하고 관련 인물 및 회사의 비즈니스 네트워크를 그래픽으로 보여줍니다. 페이지 수는 우리가 가진 데이터 양의 함수입니다. 검색을 통해 검색 할 수있게하면 모두에게 더 유용합니다. 당신의 의견에 감사드립니다.
Chris Adragna

1
더 많은 인 링크를 통해 더 많은 페이지 순위를 얻으십시오. 페이지 순위가있는 페이지에서 페이지로 연결하십시오.
Alex Black

답변:


20

몇 가지 잠재적 인 전략 :

  • Google 웹 마스터 도구를 사용하면 크롤링 속도를 높일 수 있습니다. 아직하지 않았다면 시도해보십시오.
  • 탐색 아키텍처를 다시 살펴보고 더 많은 컨텐츠에 대한 액세스를 향상시킬 수 없는지 확인하십시오. 사용자의 관점에서 살펴보십시오. 사용자가 특정 정보를 찾기가 어렵다면 검색 엔진도 어려울 수 있습니다.
  • URL 매개 변수가 일치하지 않거나 슬래시를 잘못 사용하여 내용이 중복되지 않도록하십시오. 중복 콘텐츠를 제거하면 Googlebot이 이미 색인을 생성 한 항목을 크롤링하는 데 소요되는 시간을 줄일 수 있습니다.
  • 가능하면 컨텐츠 내에서 관련 컨텐츠 링크 및 사이트 내 링크를 사용하십시오.
  • 귀하의 링크 중 일부를 무작위로 만드십시오. 내부 콘텐츠가 무작위 인 사이드 바는 사용하기에 좋은 패턴입니다.
  • 날짜 및 기타 마이크로 포맷을 사용하십시오 .
  • 가능하면 RSS 피드를 사용하십시오. RSS 피드는 사이트 맵과 거의 동일하게 작동합니다 (실제로 웹 마스터 도구를 사용하면 피드를 사이트 맵으로 제출할 수 있습니다).
  • 사이트 맵에 대해서는 이 질문을 참조하십시오 .
  • 콘텐츠에 대한 외부 링크를 얻는 방법을 찾으십시오. 이로 인해 색인 생성 프로세스가 가속화 될 수 있습니다. 컨텐츠 유형에 적합한 경우 소셜 또는 이메일을 통해 쉽게 공유하면 도움이됩니다.
  • 데이터 사용 및 데이터에 대한 외부 링크 인센티브를 제공하는 API를 제공하십시오. 데이터 사용에 대한 요구 사항으로 귀속 링크를 가질 수 있습니다.
  • 커뮤니티를 포용하십시오. 올바른 방법으로 올바른 사람들에게 다가 가면 블로그와 Twitter를 통해 외부 링크를 얻을 수 있습니다.
  • 데이터를 중심으로 커뮤니티를 만드는 방법을 찾으십시오. 사회적으로 만드는 방법을 찾으십시오. API, 매시업, 소셜 위젯은 모두 도움이되지만 블로그, 커뮤니티 쇼케이스, 포럼 및 게임 메커니즘 도 마찬가지입니다 ( 이 비디오 참조 ).
  • 색인을 생성 한 컨텐츠의 우선 순위를 정하십시오. 많은 양의 데이터로 모든 데이터가 절대적으로 중요하지는 않습니다. 어떤 콘텐츠가 가장 중요한지에 대한 전략적 결정을 내리십시오. 예를 들어 가장 인기가 높고 ROI 가능성이 가장 높으며 가장 유용 할 것입니다. 콘텐츠가 먼저 색인화되도록하십시오.
  • 경쟁 업체의 콘텐츠 색인 생성을 위해 수행중인 작업에 대한 자세한 분석을 수행하십시오. 사이트 아키텍처, 탐색, 외부 링크 등을보십시오.

마지막으로 이것을 말해야합니다. SEO와 색인 생성은 비즈니스 사이트 운영에있어 작은 부분 일뿐입니다. SEO를 위해 ROI에 집중하지 마십시오. Google의 트래픽이 많은 경우에도 변환 할 수없는 것은 중요하지 않습니다. SEO는 중요하지만 관점을 유지해야합니다.

편집 :

유스 케이스의 부록 : 각 개인 또는 비즈니스에 대한 리뷰 또는 회원 평가 제공을 고려할 수 있습니다. 또한 StackOverflow와 같은 사용자 배지를 제공하면 적어도 일부 사람들이 귀하의 사이트에서 자신의 프로필에 연결하도록 유도 할 수 있습니다. 이렇게하면 외부 페이지가 깊은 페이지에 연결될 수 있으므로 색인 생성 속도가 빨라질 수 있습니다.


1
+1-SEO는 비즈니스 홍보의 더 큰 문제의 축소판이라고 항상 언급합니다. 또한 (기술적으로 생각하는 사람들에게는) 길을 잃는 것이 가장 쉬운 방법입니다. 더 많은 사람들이 과거 어느 시점보다 지금 TV를보고 있습니다. 제공하는 제품에 따라 TV 광고가 더 나을 수 있습니다. PPC보다 ROI ...
danlefree

마이크로 포맷에 대한 좋은 생각. 총알은 아니지만 마이크로 포맷 표준을 사용한 의미 적 마크 업이 도움이 될 수있는 곳이 많이 있습니다.
크리스 아 드라

1
시간 소인이 아닌 다른 마이크로 포맷이 더 빨리 색인을 생성하는 것을 의미하는지는 알지 못하지만이를 사용하면 다른 SEO 이점이있을 수 있습니다. 최소한 페이지 크롤링이 쉬워지고 검색 엔진 결과 페이지에서 항목이 눈에 띄도록 도와줍니다 (마이크로 포맷에 따라 다름).
Virtuosi Media 21

5

Google 봇에서 수천만 페이지의 색인을 생성하는 방법은 무엇입니까?

그러나 하룻밤 사이에는 발생하지 않지만 비슷한 콘텐츠 (특히 더 깊은 콘텐츠를 가리키는 사이트 맵 페이지 또는 디렉토리 색인)에 대한 인바운드 링크가 비슷한 대형 사이트에서 추가 된 경우 더 많은 페이지가 더 빨리 스파이더 링됩니다. 한동안 주위에 있었다.

오래된 도메인으로 하루에 100,000 페이지를 인덱싱 할 수 있습니까?

수년에 걸쳐 상당한 양의 활동이있는 오래된 도메인 (즉, 누적 된 콘텐츠 및 인바운드 링크)에 대해 이야기하지 않는 한 의심 할 여지가 없습니다.

인덱싱 프로세스 자체를 전문으로하는 SEO 컨설턴트가 있습니까?

당신이 그런 식으로 질문을 제기 할 때, 당신은 "그렇다!" 그러나 하루가 끝날 무렵 Virtuosi Media의 제안은 당신이 그들로부터 얻을 수있는만큼 좋은 조언입니다 (잠재적으로 나쁜 조언은 없습니다).

이 시점에서 비즈니스 개발 및 홍보 채널을 활용하여 현재 사이트의 순위를 결정하는 것이 좋습니다. 콘텐츠에 대한 더 많은 링크를 얻으십시오 (바람직하게는 지역 타겟팅 콘텐츠를 제공하는 기존 사이트와 제휴하여 예를 들어 지역으로 나누어 진 콘텐츠), 더 많은 사람들이 귀하의 사이트를 탐색하게하고 (일부는 Google 툴바가 설치되어 트래픽 페이지 검색을 위해 작동 할 수 있음) 가능한 경우 비즈니스가 뉴스 나 커뮤니티에 대해 이야기하도록합니다 특정 서비스를 청구하려는 경우 무료 평가판 기간을 광고하여 관심을 끌 수 있습니다.


3

내가 알고있는 두 가지 가능한 옵션이 있습니다.

하나 : 놀랍게도 잘 작동하는 3 백만 페이지가있는 웹 사이트로 시도한 약간의 트릭은 동료가 크롤링 루프를 만들었습니다. 귀하의 사이트에 맞게 아이디어를 조금 조작해야 할 수도 있습니다.

기본적으로 우리는 많은 트래픽 (크리스마스)을받을 것이라고 생각하지 않는 날을 설정했으며 문자 그대로 사이트의 모든 단일 링크 목록을 복사하여 모든 단일 링크를 모든 단일 웹 페이지에서 호출되는 php 파일에 붙여 넣었습니다. (사이드 바 PHP 파일)

그런 다음 Google 검색 콘솔 (이전의 Google 웹 마스터 도구)로 이동하여 Google에 URL을 가져와 해당 URL 페이지의 모든 단일 링크를 크롤링하도록 지시했습니다.

링크가 너무 많고 링크가 많은 페이지에도 링크가 많으므로 Google은 약간의 루프를 거쳐 사이트를 훨씬 빠르게 크롤링합니다. 나는 처음에 회의적이지만 매력처럼 작동했습니다.

이를 수행하기 전에 매우 효율적인 데이터베이스 설정 및 매우 강력한 서버가 있는지 확인해야합니다. 그렇지 않으면 페이지로드 시간이 느려서 서버에 과부하가 걸리거나 SEO가 손상 될 수 있습니다.

이것이 옵션이 아닌 경우 언제든지 Google의 클라우드 콘솔 API를 살펴볼 수 있습니다. 검색 콘솔 API가 있으므로 검색 콘솔에서 각 웹 페이지를 자체 웹 사이트 인스턴스로 추가하거나 Google이 귀하의 모든 URL을 가져 오도록 스크립트를 작성할 수 있습니다.

API는 매우 빠르게 복잡해 지지만 올바르게 사용하면 놀라운 도구입니다.

행운을 빕니다!


1
페이지를 연결하는 것은 모든 페이지를 크롤링하기위한 훌륭한 전략입니다. XML 사이트 맵을 사용하는 것보다 훨씬 낫습니다. 그러나 나는 그 링크를 항상 크리스마스 날보다는 항상 제자리에 두겠습니다. 링크를 다운하자마자 Google은 링크가 끊어진 페이지를 발견하고 색인 생성을 중단합니다.
Stephen Ostermiller

2

온라인 평판을 중요하게 여기는 합법적 인 비즈니스를 운영하는 경우 시스템 게임을하는 것은 결코 좋은 생각이 아닙니다. 또한 귀하의 사이트가 진정으로 가치를 제공하는 경우 사이트가 오래 지속 될수록 (어떤 형태의 마케팅을하고 있다고 생각하십니까?) 더 많은 백 링크가 발생하므로 PR이 올라가고 크롤링 속도가 올라갑니다.

또한 사이트의 링크 구조가 양호하면 (모든 페이지를 합리적인 수의 클릭 / 링크로 검색 할 수 있음) 사이트 맵을 통해서만 주 색인을 제출하면됩니다. Google에서 해당 페이지의 색인을 생성하면 Google에서 크롤링하고 나머지 페이지는 자체적으로 색인을 생성합니다.


+1 RE : 시스템 게임- 웹 마스터가 자신의 사이트에 합법적 인 백 링크 (방문자에게 유용 할 수 있음)를 생성 할 수있는 시스템 게임에 대한 대안이 많이 있다고 생각합니다 .
danlefree

@ danlefree : 물론입니다. 남은 PR / 트래픽을 얻기 위해 만료 된 도메인 이름을 구매하는 것에 대해서만 언급했습니다. 그러나 사이트를 광고하고 무역 출판물, 응용 프로그램 검토 사이트 등에 보도 자료를 보내면 합법적 인 백 링크를 생성하는 매우 좋은 방법입니다.
Lèse majesté

2

Google 웹 마스터 도구에서 알 수있는 한 가지는 초당 최대 두 번의 요청으로 최대 크롤링 속도를 허용한다는 것입니다. 그런 다음 약 일주일 정도 후에 웹 사이트에 자주 액세스하는 것을 발견하면 한도를 높일 수 있습니다.

500,000 개가 넘는 원본 이미지를 호스팅하는 웹 사이트를 공동 실행하고 때로는 최대 한도는 초당 10 건입니다. 더 이상 그렇지 않으면 하루에 700 ~ 1000 번의 조회수가 발생하기 때문입니다.

따라서 매주 웹 마스터 도구를 사용하여 크롤링 제한을 늘릴 수 있는지 확인하는 것이 좋습니다. 크롤링 제한을 변경하면 특정 날이 지나면 (인터페이스에 표시됨) Google이 기본 설정으로 다시 재설정합니다. 그 날에 다시 한도를 높이십시오.


2

이런 종류의 사이트에 대한 경험이 있습니다. 몇 년 전에 기사 디렉토리를 실행했으며 색인이 생성되고 더 중요하게 실제로 수행 된 페이지의 비율은 참조 도메인의 수, 즉 링크하는 고유 웹 사이트의 수와 거의 직접적으로 관련이있었습니다. 수백만 페이지가있는 큰 사이트에는 약 1,000이 필요합니다. 그 자체로 수행하기 위해 연결되는 합리적인 도메인.

확실히 하룻밤 사이에 일어나지는 않을 것이지만, 하루에 5-10 개의 좋은 링크를 구축 할 수 있습니다. 그러면 수입을 창출 할 수 있고 전문적인 SEO 복장을 통해 링크를 구축 할 수 있습니다. 당신을 위해.

초기에 비슷한 정보가 풍부한 사이트를 구축하고 있지만 하루에 700-1,000 페이지의 크롤링 속도로 약 4 백만 페이지의 콘텐츠와 동일한 문제가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.