나는 때때로 데이터베이스에서 설명하는 문자 그대로 수천 개의 PDF가있는 꽤 큰 레거시 사이트를 가지고 있지만 종종 페이지의 링크 일 뿐이며 사이트의 모든 디렉토리에 저장됩니다.
내 사이트의 모든 링크를 따르기 위해 PHP 크롤러를 작성한 다음 디렉토리 구조의 덤프와 비교하지만 더 쉬운 것이 있습니까?
나는 때때로 데이터베이스에서 설명하는 문자 그대로 수천 개의 PDF가있는 꽤 큰 레거시 사이트를 가지고 있지만 종종 페이지의 링크 일 뿐이며 사이트의 모든 디렉토리에 저장됩니다.
내 사이트의 모든 링크를 따르기 위해 PHP 크롤러를 작성한 다음 디렉토리 구조의 덤프와 비교하지만 더 쉬운 것이 있습니까?
답변:
Xenu의 Link Sleuth를 사용 했습니다 . 그것은 꽤 잘 작동합니다. 스스로 DOS하지 마십시오!
Windows 7을 사용하는 경우 가장 좋은 도구는 IIS7의 SEO Toolkit 1.0입니다. 무료이며 무료로 다운로드 할 수 있습니다.
이 도구는 모든 사이트를 검색하여 모든 사용 불능 링크의 위치,로드하는 데 걸리는 페이지, 제목이없는 페이지, 중복 된 제목, 키워드 및 설명에 대해 동일한 페이지, HTML을 손상시킨 페이지를 알려줍니다.
W3C의 오픈 소스 도구 인 Link Checker를 사용해보십시오 . 온라인으로 사용하거나 로컬로 설치할 수 있습니다
유닉스 명령 줄이 있다면 (리눅스, MacOS 및 FreeBSD에서 사용했습니다) 대형 정적 사이트를 링크 확인 하는 linklint의 팬입니다 . 설치 지침은 해당 사이트를 참조하십시오. 일단 설치되면 check.ll
다음과 같은 파일을 작성 하고 수행합니다.
linklint @check.ll
내 check.ll 파일은 다음과 같습니다
# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-host www.example.com
-timeout 10
크롤링을 수행 www.example.com
하고 손상되었거나 누락 된 항목에 대한 상호 참조 보고서가 포함 된 HTML 파일을 생성합니다.
Microsys의 여러 제품 , 특히 A1 Sitemap Generator 및 A1 Website Analyzer 는 웹 사이트 를 크롤링하고 상상할 수있는 모든 것을보고합니다.
여기에는 깨진 링크뿐만 아니라 모든 페이지의 테이블 뷰가 포함되어 있으므로 동일한 <title> 및 메타 설명 태그, nofollow 링크, 웹 페이지의 메타 noindex 및 날카로운 눈을 필요로하는 많은 질병과 같은 것들을 비교할 수 있습니다 빠른 손으로 고칠 수 있습니다.
Link Examiner 는 귀하의 필요에 따라 정말 좋은 프리웨어입니다.