내 사이트를 크롤링하고 데드 링크 및 링크되지 않은 파일을 찾는 데 유용한 도구 [닫힘]


21

나는 때때로 데이터베이스에서 설명하는 문자 그대로 수천 개의 PDF가있는 꽤 큰 레거시 사이트를 가지고 있지만 종종 페이지의 링크 일 뿐이며 사이트의 모든 디렉토리에 저장됩니다.

내 사이트의 모든 링크를 따르기 위해 PHP 크롤러를 작성한 다음 디렉토리 구조의 덤프와 비교하지만 더 쉬운 것이 있습니까?


맞춤법 검사에 대해서도 묻는 webmasters.stackexchange.com/questions/13310/… 도 참조하십시오 .
James Skemp

답변:


15

Xenu의 Link Sleuth를 사용 했습니다 . 그것은 꽤 잘 작동합니다. 스스로 DOS하지 마십시오!


1
옵션에서 '고아 파일'옵션을 확인하면 사이트에 ftp 로그인하라는 메시지가 표시됩니다.
pelms

페이지로 이동하기 위해 로그인해야하는 사이트도 처리합니까?
Donny V.

@Jim 끊어진 링크가 어느 페이지에 있는지 어떻게 알 수 있습니까?
Rob

크롤링이 완료되면 정보를 알려주는 보고서가 있습니다. 사이트의 크기와 끊어진 링크 수에 따라 구문 분석이 어려울 수 있습니다. 일반적으로 크롤링 전에보고 옵션을 조정하고 .htm이므로 보고서를 텍스트 파일로 열고보다 관리하기 쉽도록 적절하지 않은 내용을 삭제합니다. 이것이 도움이되기를 바랍니다.
plntxt

6

Windows 7을 사용하는 경우 가장 좋은 도구는 IIS7의 SEO Toolkit 1.0입니다. 무료이며 무료로 다운로드 할 수 있습니다.

이 도구는 모든 사이트를 검색하여 모든 사용 불능 링크의 위치,로드하는 데 걸리는 페이지, 제목이없는 페이지, 중복 된 제목, 키워드 및 설명에 대해 동일한 페이지, HTML을 손상시킨 페이지를 알려줍니다.


1
나는 이것을 개인적으로 사용했으며 스캔 및 물론 SEO에는 탁월하지만 Xenu의 FTP 검사는이를 능가합니다.
MrChrister


1

유닉스 명령 줄이 있다면 (리눅스, MacOS 및 FreeBSD에서 사용했습니다) 대형 정적 사이트를 링크 확인 하는 linklint의 팬입니다 . 설치 지침은 해당 사이트를 참조하십시오. 일단 설치되면 check.ll다음과 같은 파일을 작성 하고 수행합니다.

linklint @check.ll

내 check.ll 파일은 다음과 같습니다

# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-host www.example.com
-timeout 10

크롤링을 수행 www.example.com하고 손상되었거나 누락 된 항목에 대한 상호 참조 보고서가 포함 된 HTML 파일을 생성합니다.


1

Microsys의 여러 제품 , 특히 A1 Sitemap GeneratorA1 Website Analyzer웹 사이트 를 크롤링하고 상상할 수있는 모든 것을보고합니다.

여기에는 깨진 링크뿐만 아니라 모든 페이지의 테이블 뷰가 포함되어 있으므로 동일한 <title> 및 메타 설명 태그, nofollow 링크, 웹 페이지의 메타 noindex 및 날카로운 눈을 필요로하는 많은 질병과 같은 것들을 비교할 수 있습니다 빠른 손으로 고칠 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.