«robots.txt» 태그된 질문

Robots.txt는 웹 사이트 소유자가 자신의 사이트에 대한 지침을 웹 로봇에 제공하기 위해 사용하는 텍스트 파일입니다. 기본적으로 로봇은 사이트의 어떤 부분이 열려 있고 어떤 부분이 닫혀 있는지 알려줍니다. 이것을 로봇 배제 프로토콜이라고합니다.

4
모든 웹 사이트에 있어야 할 파일
모든 웹 사이트에 존재해야하는 파일 목록을 갖고 싶습니다. 아이디어는 대부분의 브라우저와 봇을 기쁘게하고 로그에 404 개의 메시지 수를 기록하는 것입니다. 지금까지 다음 파일이 있습니다. /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png 자주 요청되며 모든 웹 사이트에 있어야하는 다른 파일이 있습니까?




2
robots.txt로 전체 디렉토리를 허용하지 않으려면 어떻게해야하나요?
이 질문은 웹 마스터 스택 교환에서 답변을 얻을 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 8 년 전에 이주했습니다 . 현재 작업중인 두 개의 사이트 (쇼핑 카트 및 다른 쇼핑객)가 있습니다. 예를 들어 둘 다 동일한 도메인 이름 아래에 있습니다. http://example.com/first_url http://example.com/second_url 이 두 URL 모두 아래에 많은 …
19 seo  robots.txt 

2
Google 검색 결과에 robots.txt에서 허용되지 않는 페이지가 포함되는 이유는 무엇입니까?
내 사이트에 검색 엔진을 멀리하려는 일부 페이지가 있으므로 robots.txt다음과 같이 파일 에서 허용하지 않았습니다 . User-Agent: * Disallow: /email 그러나 최근 Google은 때때로 검색 결과에서 해당 페이지에 대한 링크를 여전히 반환한다는 것을 알았습니다. 왜 이런 일이 발생하며 어떻게 막을 수 있습니까? 배경: 몇 년 전, 친척이 참여한 클럽을위한 간단한 웹 …

7
Google은 robots.txt를 캐시합니까?
일주일 전에 내 사이트 중 하나에 robots.txt 파일을 추가했는데 Googlebot이 특정 URL을 가져 오지 못했을 것입니다. 그러나 이번 주말에 Googlebot이 정확한 URL을로드하는 것을 볼 수 있습니다. Google은 robots.txt를 캐시합니까? 그렇다면 캐시 해야합니까?

3
robots.txt가 서버의 하위 디렉토리에있을 수 있습니까?
검색 엔진 웹 크롤러에서 숨기려는 하위 디렉토리가 있습니다. 이를 수행하는 한 가지 방법 robots.txt은 서버의 루트 디렉토리에서 표준 방법 을 사용하는 것 입니다. 그러나 웹 사이트 URL을 알고 있고 기본적인 웹 지식이있는 사람은 robots.txt 내용에 액세스하여 허용되지 않는 디렉토리를 찾을 수 있습니다. 나는 이것을 피하는 방법을 생각했지만 효과가 있는지 확실하지 …

4
사이트가 해킹당했습니다. Google에서 +로 시작하는 모든 URL을 삭제해야합니까? robots.txt를 사용 하시겠습니까?
robots.txtGooglebot이 색인 생성을 중지하기 위해 이러한 URL을 차단하는 방법을 알려주시겠습니까 ? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 내 웹 사이트가 해킹되어 현재 복구되었지만 해커가 Google에서 5000 개의 URL을 색인 생성했으며 위의 링크와 같이 시작하는 임의 생성 링크에서 오류 404가 발생합니다 /+. Google 웹 마스터 도구에서이 URL을 수동으로 제거하는 것 외에 다른 빠른 방법이 있는지 궁금합니다. …

3
유효한 최소 robots.txt 파일은 무엇입니까?
내 웹 서버 의 access.log 에 많은 404 오류가 표시되는 것을 좋아하지 않습니다 . 크롤러가 robots.txt 파일 을 열려고하는데 찾을 수 없기 때문에 이러한 오류가 발생 합니다. 따라서 로그 파일에 404 오류가 나타나는 것을 방지 하는 간단한 robots.txt 파일 을 배치하고 싶습니다 . 사이트의 모든 항목을 크롤링 할 수 있는 …
14 robots.txt 

3
Robots.txt-CSS 허용 또는 금지
robots.txt 에서 CSS와 템플릿이 허용 됩니까? 문제가 발생합니까? Joomla에서는 robots.txt 에서 CSS 및 템플릿이 허용되지 않습니다 . 다가오는 웹 사이트의 CSS, 템플릿 등을 로봇에 허용하지 않는지에 대한 해결책을 찾도록 도와주세요.
12 css  robots.txt 

3
Robots.txt : 어디에도 연결되지 않은 페이지를 허용하지 않아야합니까?
내 웹 사이트에는 사용자가 URL을 제공 한 경우에만 방문 할 수있는 일부 페이지가 있습니다. 에서 단일 페이지를 허용하지 않으면 robots.txt누구나 해당 페이지를 볼 수 있습니다. 내 질문은 : 어디서나 또는 적어도 색인 페이지에서 링크하지 않으면 어떤 식 으로든 크롤러가 여전히 도달 할 수 있습니까?
12 robots.txt 

2
어떤 봇이 실제로 사이트에 참여할 가치가 있습니까?
많은 봇을 작성하고 사이트를 크롤링하는 엄청난 양의 임의 봇을 보았는데 웹 마스터로서 궁금합니다. 내 생각은 봇을 사이트에 허용하면 잠재적 인 트래픽이 발생할 수 있다는 것입니다. 실제 트래픽을 사이트로 전송하는 것으로 알려지지 않은 봇을 허용 할 이유가 있습니까? 이러한 "좋은"봇을 어떻게 발견합니까?


2
Google 웹 마스터 도구에서 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 알려줍니다.
이것은 내 robots.txt입니다 . User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 그러나 Google 웹 마스터 도구는 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 말합니다. 사이트 맵에 액세스하는 중 오류가 발생했습니다. Sitemap이 Google 가이드 라인을 따르고 제공 한 위치에서 액세스 한 다음 robots.txt로 URL 을 다시 제출할 수 있는지 확인하십시오 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.