여기에는 실제로 두 가지 문제가 있습니다.
- 의지
robots.txt
귀하의 사이트에 허용 안 귀하의 사이트를 크롤링 (블록) 뒤로가.
- Will Wayback이 사이트를 크롤링합니다.
포인트 # 1 :
다른 사람들이 말했듯이 robots.txt의 올바른 항목은 다음과 같습니다.
User-agent: ia_archiver
Disallow:
Wayback에서 robots.txt에 대한 변경 사항을 발견하려면 시간이 오래 걸릴 수 있습니다 (아마도 시간이 오래 걸릴 수 있음).
robots.txt
사이트에서를 통해 Wayback이 사이트를 크롤링 할 수 있는지 확인하려면 다음 단계를 따르 십시오.
- 이 URL로 이동 하십시오 : https://archive.org/web/
- 페이지 상단의 상자에 사이트의 페이지 URL을 입력하고
"Browse History"
버튼을 클릭하십시오 .
- 또는 "지금 페이지 저장"(현재 오른쪽 하단 근처) 아래의 상자에 사이트의 페이지 URL을 입력하고
"Save Page"
버튼을 클릭하십시오 .
이 시점에서 다음 세 가지 중 하나가 표시됩니다.
- "robots.txt"로 인해 Wayback이 해당 사이트의 페이지에 액세스 할 수 없다는 오류 메시지가 표시됩니다.
- 사이트의 페이지에 대한 과거 저장 지점의 "달력"이 표시됩니다. 이 경우 Wayback이 사이트 크롤링을 차단하지 않는다는 것을 알고 있습니다.
- 또는 Wayback에 해당 페이지의 아카이브가 없음을 나타내는 메시지와 페이지를 Wayback에 추가하기위한 링크를 클릭하라는 제안이 표시됩니다. 이 경우에도 Wayback이 사이트 크롤링을 차단하지 않는다는 것을 알고 있습니다.
이제 포인트 # 2의 경우 :
윌 뒤로 귀하의 사이트를 크롤링?
당신은 그냥 있기 때문에 허용 뒤로 귀하의 사이트를 크롤링, (지금까지) 그들이 당신의 사이트를 크롤링 것을 의미하지 않습니다.
Wayback FAQ (강조 추가)에 따르면 :
보관 된 웹 데이터의 대부분은 자체 크롤링 또는 Alexa Internet의 크롤링에서 제공됩니다. 어느 조직도 "지금 사이트를 크롤링하지 않습니다!" 제출 과정. Internet Archive의 크롤링 은 다른 사이트와 잘 연결된 사이트를 찾는 경향이 있습니다 . 웹 사이트를 찾는 가장 좋은 방법은 웹 사이트가 온라인 디렉토리에 포함되어 있고 유사한 / 관련 사이트가 사용자에게 연결되어 있는지 확인하는 것입니다.
Alexa Internet은 자체 방법을 사용하여 크롤링 할 사이트를 검색합니다. 무료 Alexa 도구 모음을 설치하고 크롤링하려는 사이트를 방문하여 그들이 알고 있는지 확인하는 것이 도움이 될 수 있습니다.
사이트를 크롤링하는 사람에 관계없이 사이트의 'robots.txt'규칙 및 인 페이지 META 로봇 명령어가 크롤러에게 사이트를 피하도록 지시하지 않아야합니다.
업데이트 : 2017 년 5 월 9 일
다른 사람들은 Archive.org가 더 이상 robots.txt를 존중하지 않음을 나타내는 의견 / 응답을 남겼습니다. 아마도 이것은 "진행중인 작업"일 것이고 결국에는 그럴 것입니다. 그러나 나는이 새로운 행동을 아직 보지 못했습니다.
이에 대한 사례는이 기사에서 나온 것으로 보입니다. Robots.txt : ROBOTS.TXT는의 참고 사항 입니다 archiveteam.org
. 이 페이지에는 "Robots.txt"에 대해 언급해야 할 내용이 거의 없지만 Archive.org 가 더 이상 robots.txt를 인정하지 않는 곳 은 없습니다.
또한 노트의 : 문서에 호스팅되는 것을 archiveteam.org
가장 확실히하지 않은, archive.org
그리고 아니에요 확인 사이 (공식) 관계가 archive.org
하고 archiveteam.org
.
사실,이 페이지에서 아카이브 팀에 대한이 사이에 구별을 선언하는 것 및 (강조 추가)archive.org
archive.org
archiveteam.org
2009 년에 설립 된 Archive Team ( archive.org Archive-It Team 과 혼동하지 말 것 )은 역사 및 디지털 유산을 위해 빠르게 죽어 가거나 삭제 된 웹 사이트의 사본을 저장하는 데 전념하는 불량 보관 단체입니다. ...
어쨌든, 나는 이것을 시도하기로 결정했고, 적어도 현재로서는 Archive.org STILL이 robots.txt를 존중 한다는 것을 알았 습니다.
- eBay에서 임의의 항목을 찾았습니다. 품목 번호 : 131795294232
- 클릭하면 판매 품목을 볼 수 있습니다.
- "판매 된 품목"페이지가 열립니다. http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 클립 보드에 링크를 복사하십시오.
- 고토 web.archive.org , 이베이에서 링크를 붙여 넣습니다.
- 당신은 그 볼
archive.org
을 나타냅니다 "페이지 인해 robots.txt에에 표시 할 수 없습니다."
따라서 현재로서는 확신이 없지만 잘못된 것으로 판명되고 싶습니다 ... 사실이라면 좋을 것입니다.