내 사이트를 크롤링하고 데드 링크 및 링크되지 않은 파일을 찾는 데 유용한 도구 [닫힘]

21

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다.

이 질문을 개선하고 싶습니까? 웹 마스터 스택 교환에 대한 주제가 되도록 질문을 업데이트하십시오 .

휴일 육년 전 .

나는 때때로 데이터베이스에서 설명하는 문자 그대로 수천 개의 PDF가있는 꽤 큰 레거시 사이트를 가지고 있지만 종종 페이지의 링크 일 뿐이며 사이트의 모든 디렉토리에 저장됩니다.

내 사이트의 모든 링크를 따르기 위해 PHP 크롤러를 작성한 다음 디렉토리 구조의 덤프와 비교하지만 더 쉬운 것이 있습니까?

site-maintenance web-crawlers dead-links

— MrChrister
소스

맞춤법 검사에 대해서도 묻는 webmasters.stackexchange.com/questions/13310/… 도 참조하십시오 .

— James Skemp

15

Xenu의 Link Sleuth를 사용 했습니다 . 그것은 꽤 잘 작동합니다. 스스로 DOS하지 마십시오!

— plntxt
소스

1

옵션에서 '고아 파일'옵션을 확인하면 사이트에 ftp 로그인하라는 메시지가 표시됩니다.

— pelms

페이지로 이동하기 위해 로그인해야하는 사이트도 처리합니까?

— Donny V.

@Jim 끊어진 링크가 어느 페이지에 있는지 어떻게 알 수 있습니까?

— Rob

크롤링이 완료되면 정보를 알려주는 보고서가 있습니다. 사이트의 크기와 끊어진 링크 수에 따라 구문 분석이 어려울 수 있습니다. 일반적으로 크롤링 전에보고 옵션을 조정하고 .htm이므로 보고서를 텍스트 파일로 열고보다 관리하기 쉽도록 적절하지 않은 내용을 삭제합니다. 이것이 도움이되기를 바랍니다.

— plntxt

6

Windows 7을 사용하는 경우 가장 좋은 도구는 IIS7의 SEO Toolkit 1.0입니다. 무료이며 무료로 다운로드 할 수 있습니다.

이 도구는 모든 사이트를 검색하여 모든 사용 불능 링크의 위치,로드하는 데 걸리는 페이지, 제목이없는 페이지, 중복 된 제목, 키워드 및 설명에 대해 동일한 페이지, HTML을 손상시킨 페이지를 알려줍니다.

— 벤 호프만
소스

1

나는 이것을 개인적으로 사용했으며 스캔 및 물론 SEO에는 탁월하지만 Xenu의 FTP 검사는이를 능가합니다.

— MrChrister

4

W3C의 오픈 소스 도구 인 Link Checker를 사용해보십시오 . 온라인으로 사용하거나 로컬로 설치할 수 있습니다

— mvark
소스

1

유닉스 명령 줄이 있다면 (리눅스, MacOS 및 FreeBSD에서 사용했습니다) 대형 정적 사이트를 링크 확인 하는 linklint의 팬입니다 . 설치 지침은 해당 사이트를 참조하십시오. 일단 설치되면 check.ll다음과 같은 파일을 작성 하고 수행합니다.

linklint @check.ll

내 check.ll 파일은 다음과 같습니다

# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-host www.example.com
-timeout 10

크롤링을 수행 www.example.com하고 손상되었거나 누락 된 항목에 대한 상호 참조 보고서가 포함 된 HTML 파일을 생성합니다.

— Artlung
소스

1

Microsys의 여러 제품 , 특히 A1 Sitemap Generator 및 A1 Website Analyzer 는 웹 사이트 를 크롤링하고 상상할 수있는 모든 것을보고합니다.

여기에는 깨진 링크뿐만 아니라 모든 페이지의 테이블 뷰가 포함되어 있으므로 동일한 <title> 및 메타 설명 태그, nofollow 링크, 웹 페이지의 메타 noindex 및 날카로운 눈을 필요로하는 많은 질병과 같은 것들을 비교할 수 있습니다 빠른 손으로 고칠 수 있습니다.

— 예브게니
소스

1

Link Examiner 는 귀하의 필요에 따라 정말 좋은 프리웨어입니다.

— 어두운
소스