Google 웹 마스터 도구가 내 웹 사이트에서 차단 된 많은 리소스를보고하는 것으로 나타났습니다. 현재 모든 "차단 된 리소스"는 Cloudfront CDN에서 제공하는 .css, .js 및 이미지 (.jpg, .png)입니다.
Google에서이 파일을 크롤링하지 않는 이유를 파악하고 "리소스 차단"상태를보고하는 데 많은 시간을 보냈습니다.
현재 나는 cdn1.example.com, cdn2.example.com과 같은 여러 호스트 이름에서이 파일들을 제공합니다.…
cdn1, cdn2 및 기타는 CNAME의 클라우드 프론트 배포 이름입니다.
테스트 : 클라우드 프론트 배포 (CNAME 없음)를 직접 사용하려고했지만 문제가 지속됩니다.
현재 내 robots.txt는 다음과 같습니다.
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
그리고 하나의 예제 페이지에서 차단 된 파일의 예 :
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
나는 robots.txt의 모든 것을 허용하려고 노력했지만 항상 같은 결과를 얻습니다.
또한 Amazon의 CloudFront 설정을주의 깊게 살펴보고 관련이없는 항목은 없습니다 ( "뷰어 액세스 제한 (서명 된 URL 또는 서명 된 쿠키 사용)"옵션을 사용하지 않았으며 사용하지 않았습니다).
지금 나는 이것에 대해 많은 시간을 보냈고 더 이상 아이디어가 없습니다.
누군가 Google Cloud가 Amazon CloudFront에서 호스팅되는 파일을 크롤링하지 못하도록 차단하는 이유를 생각할 수 있습니까?
*
URL 끝에 "접두사"가 없어도됩니다. /test*
와 동일합니다 /test
.