2014 년 8 월 중순부터 여러 Google 서버가 일주일에 한 번 내 웹 사이트에있는 (매우) 큰 이진 파일을 모두 다운로드했습니다. IP는 모두 Google이 소유 한 것으로 표시되며 google-proxy-66-249-88-199.google.com과 같습니다. 이들은 GET 요청이며 서버 트래픽에 큰 영향을 미칩니다.
이전에는 이러한 Google 프록시 IP의 트래픽이 없었기 때문에 비교적 새로운 것으로 보입니다. 다른 Google IP의 모든 종류의 트래픽을 볼 수 있습니다. 모두 Googlebot 및 HEAD 요청 만 해당합니다.
매주마다 Google에서 이러한 파일을 모두 다운로드한다는 점을 제외하고는 걱정하지 않아도됩니다. 사용 된 대역폭이 과도 해지기 시작했습니다.
이러한 파일 중 많은 파일이 Windows 실행 파일이기 때문에 Google이 악성 코드 검사를 수행하기 위해 파일을 다운로드하고 있다고 추측했습니다. 그것이 사실이더라도, 매주 그렇게해야합니까?
지금까지 11 월 Google 프록시 IP의 트래픽 예 :
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
업데이트 # 1 : 문제의 파일이 이미 사이트의 robots.txt 파일에 있음을 언급하지 않았습니다. robots.txt 구성이 제대로 작동하는지 확인하기 위해 Google 웹 마스터 도구에서 robots.txt 테스터를 사용했는데 Adsbot-Google을 제외하고 모든 Google 봇에 대해 파일이 확실히 차단되어 있음을 보여줍니다. 그게 무엇인지 잘 모르겠습니다. 그리고 Google에서 일부 파일을 검색했지만 검색 결과에 나타나지 않습니다.
업데이트 # 2 : 예 : 11 월 17 일 PST의 오전 5시 12 분에서 오전 5시 18 분 사이, 약 6 개의 IP (모든 Google 프록시)가 문제의 모든 이진 파일에 대해 총 27 개를 얻었습니다. 11 월 4 일 오후 2시 09 분에서 오후 2시 15 분 (PST) 사이에 동일한 IP가 기본적으로 동일한 작업을 수행했습니다.
업데이트 # 3 : 현재는 유효한 Google IP이지만 Google의 웹 크롤링 시스템이 아니라 Google 프록시 서비스의 일부임을 분명히 알 수 있습니다. 이들은 프록시 주소이므로 GET 요청이 실제로 어디에서 발생하는지 또는 한 곳에서 오는지 여부를 결정할 방법이 없습니다. GET의 산발적 성격에 근거하여, 사악한 일이 일어나고있는 것으로 보이지는 않습니다. Google 프록시 서비스를 사용하는 동안 모든 바이너리를 다운로드하기로 결정한 사람 일 수 있습니다. 불행히도 그 서비스는 완전히 문서화되지 않은 것으로 보이며 도움이되지 않습니다. 사이트 관리자의 입장에서 보면 프록시는 다소 성가시다. 그들이 합법적으로 사용하기 때문에 차단하고 싶지 않습니다. 그러나 오용 될 수도 있습니다.