Google이 웹 사이트에서 바이너리를 다운로드하고 대역폭을 사용하는 이유는 무엇입니까?

2014 년 8 월 중순부터 여러 Google 서버가 일주일에 한 번 내 웹 사이트에있는 (매우) 큰 이진 파일을 모두 다운로드했습니다. IP는 모두 Google이 소유 한 것으로 표시되며 google-proxy-66-249-88-199.google.com과 같습니다. 이들은 GET 요청이며 서버 트래픽에 큰 영향을 미칩니다.

이전에는 이러한 Google 프록시 IP의 트래픽이 없었기 때문에 비교적 새로운 것으로 보입니다. 다른 Google IP의 모든 종류의 트래픽을 볼 수 있습니다. 모두 Googlebot 및 HEAD 요청 만 해당합니다.

매주마다 Google에서 이러한 파일을 모두 다운로드한다는 점을 제외하고는 걱정하지 않아도됩니다. 사용 된 대역폭이 과도 해지기 시작했습니다.

이러한 파일 중 많은 파일이 Windows 실행 파일이기 때문에 Google이 악성 코드 검사를 수행하기 위해 파일을 다운로드하고 있다고 추측했습니다. 그것이 사실이더라도, 매주 그렇게해야합니까?

지금까지 11 월 Google 프록시 IP의 트래픽 예 :

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

업데이트 # 1 : 문제의 파일이 이미 사이트의 robots.txt 파일에 있음을 언급하지 않았습니다. robots.txt 구성이 제대로 작동하는지 확인하기 위해 Google 웹 마스터 도구에서 robots.txt 테스터를 사용했는데 Adsbot-Google을 제외하고 모든 Google 봇에 대해 파일이 확실히 차단되어 있음을 보여줍니다. 그게 무엇인지 잘 모르겠습니다. 그리고 Google에서 일부 파일을 검색했지만 검색 결과에 나타나지 않습니다.

업데이트 # 2 : 예 : 11 월 17 일 PST의 오전 5시 12 분에서 오전 5시 18 분 사이, 약 6 개의 IP (모든 Google 프록시)가 문제의 모든 이진 파일에 대해 총 27 개를 얻었습니다. 11 월 4 일 오후 2시 09 분에서 오후 2시 15 분 (PST) 사이에 동일한 IP가 기본적으로 동일한 작업을 수행했습니다.

업데이트 # 3 : 현재는 유효한 Google IP이지만 Google의 웹 크롤링 시스템이 아니라 Google 프록시 서비스의 일부임을 분명히 알 수 있습니다. 이들은 프록시 주소이므로 GET 요청이 실제로 어디에서 발생하는지 또는 한 곳에서 오는지 여부를 결정할 방법이 없습니다. GET의 산발적 성격에 근거하여, 사악한 일이 일어나고있는 것으로 보이지는 않습니다. Google 프록시 서비스를 사용하는 동안 모든 바이너리를 다운로드하기로 결정한 사람 일 수 있습니다. 불행히도 그 서비스는 완전히 문서화되지 않은 것으로 보이며 도움이되지 않습니다. 사이트 관리자의 입장에서 보면 프록시는 다소 성가시다. 그들이 합법적으로 사용하기 때문에 차단하고 싶지 않습니다. 그러나 오용 될 수도 있습니다.

google proxy bandwidth

— boot13
소스

좋은 질문. 나는 그것을 투표했다! robots.txt를 사용하여이를 차단해야합니다. Google이 실행 파일을 다운로드하는 이유는 저쪽에 있습니다. 당신 이론은 좋은 것처럼 보이지만, 주파수 때문에 나는 확실하지 않습니다. 다소 이상해 보인다. 내 목록에 google-proxy-66-102-6-104.google.com이 없지만 유효한 Googlebot IP 주소 인 것 같습니다.

— closetnoc

문제의 파일이 이미 사이트의 robots.txt 파일에 있다는 것을 언급하지 않았습니다. 위의 업데이트 # 1을 참조하십시오.

— boot13

당신은 나를 혼란스럽게했다. 나는 계약자가 어느 순간이라도 예상하고 있으므로 이것에 대해 생각해야합니다. Google은 도메인 이름과 IP 주소 할당으로 재미있는 일을 해 왔으며 호스팅을 포함한 다양한 Google 서비스 및 사람들이 봇이 Google IP 주소 공간에 나타날 수있는 다른 서비스와 일부 중복되었지만 Googlebot IP 주소를 사용하는 것을 보지 못했습니다. 우주. 보안 시스템이 이러한 IP 주소를 올바르게 신뢰할 수 있도록 Google은 다양한 검색 프로세스에 겹치지 않거나 적은 공간을 확보하기를 바랍니다.

— closetnoc

나는이 질문에 대한 연구를했고 다음과 같은 흥미로운 부분을 발견했습니다.

1. 가짜 크롤러입니까? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

사용자의 결론 :

이 '크롤러'는 크롤러가 아니지만 Google 검색 엔진에서 사용되는 라이브 웹 사이트 미리보기의 일부입니다.

미리보기에 내 웹 사이트 중 하나를 표시하기 위해이 작업을 시도했으며 차단 된 IP 메시지를 받았습니다.

사용자가 웹 사이트의 미리보기를 볼 수있게하려면 이러한 '크롤러'를 수락해야합니다.

다른 사람들이 말했듯이 : "해당 URL의 루트 도메인은 google.com이며 쉽게 스푸핑 할 수 없습니다".

결론 :이 봇 또는 크롤러를 신뢰할 수 있으며 Google 검색에서 미리보기를 표시하는 데 사용됩니다.

실시간 미리보기가 파일을 다운로드하지 않는 것이므로 질문 2로 넘어갑니다.

2. Google 서비스의 일부입니까? -> 이 Google 프록시가 가짜 크롤러입니까 : google-proxy-66-249-81-131.google.com?

결론:

일부 사람들은 학교 등의 웹 사이트에 액세스 (차단 된) 웹 사이트뿐만 아니라 DOS 공격 및 유사한 활동에도 Google 서비스 (Google 번역, Google 모바일 등)를 사용하고 있다고 생각합니다.

이것에 대한 나의 추측은 위와 같습니다. 누군가가 Google 서비스를 사용하여 번역기와 같은 파일에 액세스하려고합니다.

예를 들어 robots.txt에 의해 파일이 이미 차단 된 경우 이는 수동 요청 일 수 있습니다.

편집 : OP 의견을 광범위하게 다루려면 :

크롤러가 robots.txt를 무시할 수 있습니까? 예. 다음 은 Google이 그렇게 생각하지 않는 목록 입니다. 이는 Google 프록시를 사용하는 다른 봇일 수 있음을 의미합니다.

나쁜 봇일 수 있습니까? 그렇습니다.

.htaccess 금지 :

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

이 코드는 IP 또는 사용자 에이전트를 금지 할 수 있습니다.

또는 여기 에 소개 된 스파이더 트랩을 사용 하십시오

수동 요청이라고 생각합니다.

— 누노 바티스타
소스

나는 그 대답도 보았지만 내 특정 문제를 해결하지 못하는 것 같습니다. Google 프록시가 어떻게 잘못 사용되고 있는지 알 수 있습니다.이 경우에는 완전히 차단할 것입니다. robots.txt에 대한 이해는 크롤러 소프트웨어가이를 무시하도록 선택할 수 있다는 것입니다. 친절한 봇은 그것을 존중해야하며 대부분 그렇습니다. 그러나 프록시는 다릅니다.

— boot13

@ boot13 조심하십시오. 유효한 Googlebot IP 주소입니다. 따라서 차단하면 이러한 파일에 대해서만 차단하십시오. Apache를 사용한다고 가정하면 .htaccess로이를 수행 할 수 있어야합니다. 그러나 다른 문제가 발생할 수 있으므로 Google 웹 마스터 도구에주의를 기울여야합니다.

— closetnoc

@ boot13 답변을 업데이트했습니다. 액세스가 같은 요일 / 시간에 이루어 졌는지 또는 무작위인지 확인할 수 있습니까?

— nunorbatista

@nunorbatista : 그들은 무작위로 보입니다. 질문을 몇 차례 업데이트했습니다.

— boot13

@nunorbatista : 위의 업데이트 # 3을 참조하십시오. Googlebot 또는 다른 크롤러가 아니며 Google의 프록시 서비스입니다. Google의 라이브 사이트 미리보기와 관련이 없습니다. 한 명 이상의 사람들이 Google 프록시를 통해 바이너리를 다운로드 한 것으로 보입니다. 스파이더 트랩 제안은 트래픽이 봇이 아니기 때문에 도움이되지 않습니다. Google 프록시 IP가 바이너리가 포함 된 폴더에 액세스하지 못하도록 차단하고 싶습니다. 나는 htaccess 코드를 사용하려고 시도하지만 물론 다운로더는 항상 다른 프록시로 전환 할 수 있으므로 무의미 할 수 있습니다.

— boot13