검색 엔진으로 Github Wiki를 크롤링 할 수 있도록하려면 어떻게해야합니까? robots.txt가 금지하는 것 같습니다


9

W3C 링크 검사기를 사용하는 동안 Github Wiki를 크롤링 할 수 없다는 것을 알았습니다.

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync- 개발
상태 : (해당 없음) robots.txt에 의해 금지됨

사람들이 검색 엔진에서이 Wiki를 쉽게 찾을 수 있기를 바랍니다.

질문 : 검색 엔진으로 Github Wiki를 크롤링 할 수있게하려면 어떻게해야합니까?
아니면 내가 잘못하고 Github의 robots.txt가 실제로 괜찮습니까?


1
나는 그 대답 이이 비슷한 질문 에서와 거의 같다고 생각한다 .
John C

답변:


9

GitHub robots.txt 는 Googlebot 섹션과 같이 위키 페이지의 크롤링을 명시 적으로 허용하지 않습니다.

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

이것은 사이트 전체 로봇 파일이므로 해결 방법이 없습니다.

GitHub 는 위키 를 "프로젝트에 대한 긴 형식의 컨텐츠를 공유하는 장소"로 설명 하므로 흥미로운 선택 입니다. 기본적으로 공개 위키는 모든 사용자가 편집 할 수 있기 때문에 스패머로부터 보호 할 수 있습니다.


0

GitHub 위키는이를 지원하는 엔진으로 검색 할 수 있습니다. https://github.com/robots.txt 의 처음 두 줄을 참조하십시오 .

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

그것은 아마도 다양한 위키 형식 등을 파싱하기위한 것입니다.

예를 들어 Google에서 "openrefine broker protocol"을 검색하면 첫 번째 조회는 Github 프로젝트 위키의 페이지입니다.


흠, 왜 OP의 Wiki가 아닌 Broker-Protocol Wiki의 색인을 생성 합니까?
Vidar S. Ramdal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.