유효한 최소 robots.txt 파일은 무엇입니까?


14

내 웹 서버 의 access.log 에 많은 404 오류가 표시되는 것을 좋아하지 않습니다 . 크롤러가 robots.txt 파일 을 열려고하는데 찾을 수 없기 때문에 이러한 오류가 발생 합니다. 따라서 로그 파일에 404 오류가 나타나는 것을 방지 하는 간단한 robots.txt 파일 을 배치하고 싶습니다 .

사이트의 모든 항목을 크롤링 할 수 있는 최소 유효한 robots.txt 파일 은 무엇입니까 ?

답변:


17

여기 에 표시된 대로 웹 서버의 최상위 디렉토리에 robots.txt 라는 텍스트 파일을 작성 하십시오 . 비워 두거나 다음을 추가 할 수 있습니다.

User-agent: *
Disallow:

로봇이 모든 것을 크롤링하기를 원한다면 . 그렇지 않은 경우 더 많은 예제를 보려면 위의 링크를 참조하십시오.


왜 "허용 : *"이 아닌 "허용 안함 :"을 추가해야합니까?
Athoxx

2
@Patrik "허용"은 이전의 "Disallow"지시문을 무시하기위한 것입니다. "Disallow"가 없으면 의미가 없습니다. 솔직히 가장 좋은 해결책은 빈 파일입니다.
DisgruntledGoat

2
아, 알겠습니다 또한 빈 파일이 최고라는 데 동의합니다.
Athoxx

2
@PatrikAlienus "허용"이 robots.txt 사양에 없기 때문입니다.
user11153

1
@ user11153 : 응? 1997 인터넷 초안 사양의 "3.2.2 허용 및 거부 라인"섹션은 어떤가? 웹 로봇 제어 방법 ?
David Cary

2

가장 작은 robots.txt것은 완전히 비어있는 파일입니다.

비어 Disallow있거나 비어있는 것과 같은 다른 "널"지시문 Allow: *은 작동하지 않기 때문에 쓸모 없을뿐만 아니라 불필요한 복잡성을 추가합니다.

파일이 완전히 비어 있지 않게하거나보다 사람이 읽을 수있게하려면 다음과 같이 #문자로 시작하는 주석을 추가하십시오 # blank file allows all. 크롤러는로 시작하는 행을 무시합니다 #.


0

나는 이것을 말할 것이다.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Google은 모든 것을 크롤링 할 수 있지만 Google은 관리자 패널을 크롤링하지 않습니다. 당신에게 이상적인 상황입니다.


2
뭔가 빠졌을 지 모르지만, 워드 커가 워드 프레스를 사용하고 있다고 생각하지는 않습니다.
Maximillian Laumeister
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.