사이트에서 URL 목록 가져 오기 [닫힘]


94

클라이언트를 위해 대체 사이트를 배포하고 있지만 모든 이전 페이지가 404로 끝나는 것을 원하지 않습니다. 끔찍했기 때문에 이전 URL 구조를 유지할 수 없었습니다.

그래서 저는 요청되는 이전 페이지를 찾고 새 페이지로 영구 리디렉션을 수행해야하는 404 핸들러를 작성하고 있습니다. 문제는 모든 이전 페이지 URL 목록이 필요하다는 것입니다.

이 작업을 수동으로 수행 할 수 있지만 홈에 지정된 URL (예 : http : /.../ page / path가 아닌 / page / path) 목록을 제공하는 앱이 있으면 관심이 있습니다. 페이지. 거미와 같지만 더 깊은 페이지를 찾는 것 외에는 내용에 신경 쓰지 않는 거미.


답변:


65

내 질문에 답할 생각은 없었지만 사이트 맵 생성기를 실행하는 것에 대해 생각했습니다. 처음에 http://www.xml-sitemaps.com 에 멋진 텍스트 출력이 있습니다. 내 필요에 완벽합니다.


하지만 링크는 5000 개로 제한됩니다! .. :( 무료 php 사이트 맵 생성기 스크립트를 찾고 있습니다.
Jenson M John

13
현재 제한이 500 - ... 점점 작아지고
OLI Studholme

오류가 발생했습니다 : ::::::: 오류가 발생했습니다 지정된 URL에 액세스하는 동안 오류가 발생했습니다 : 159.121.ssss 올바른 웹 사이트 URL을 지정하고 요청을 다시 제출하십시오.
JustJohn

참고 : 프런트 엔드 라우팅을 사용하는 경우이 방법에서 해당 경로를 가져올 수 없습니다.
jasonleonhard 19

참고 : 웹 사이트에서 인증 및 / 또는 권한 부여를 사용하는 경우 모든 경로를 얻을 수 없습니다.
jasonleonhard 19

46

하다 wget -r -l0 www.oldsite.com

그런 다음 find www.oldsite.com모든 URL을 공개 할 것입니다.

또는 404 요청마다 해당 맞춤 찾을 수없는 페이지를 제공하세요! 즉, 누군가가 잘못된 링크를 사용하면 해당 페이지를 찾을 수 없다는 페이지가 표시되고 사이트의 콘텐츠에 대한 힌트를 제공합니다.


15
특히 이것은 URL이 아닌 파일 목록을 반환하기 때문에 정적 HTML 파일 모음 인 사이트에서만 실제로 작동합니다. 사이트에 URL 쿼리 매개 변수, 서버 측 재 작성 URL 또는 모든 종류의 include/ require/ etc가있는 경우 페이지를 조합하면 실제로 작동하지 않습니다.
TJ Schuck 2011 년

나는 wget을 오해하고 있을지도 모른다. 'wget'이 사이트의 콘텐츠를 다운로드하는 것이라고 생각 했나요?
Cosmic Hawk

@Doomsy 예,하지만 모든 콘텐츠를 다운로드하면 해당 콘텐츠에 대한 모든 URL을 확실히 알고 있으며 다운로드하지 않고 URL을 찾을 방법이 없습니다.
alamar

1
기본 깊이를 고려하십시오. gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar 예, 무한 재귀를위한 "-r -l inf"가 있지만 문서를 확인하는 것이 좋습니다. 멋진 옵션이 너무 많습니다! "-m"옵션이 미러링되고 이미지를 건너 뛰는 "-R.jpg, .jpeg, .gif, .png"를 시도해 보겠습니다.
PJ Brunet

24

다음은 사이트 맵 생성기 목록입니다 (사이트에서 URL 목록을 확실히 가져올 수 있음). http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

웹 사이트 맵 생성기

다음은 sitemaps.org에 정의되고 Ask, Google, Microsoft Live Search 및 Yahoo!와 같은 검색 엔진에서 지원하는 개방형 표준 인 XML Sitemaps 형식으로 파일을 생성하거나 유지하는 도구에 대한 링크입니다. Sitemap 파일에는 일반적으로 이러한 URL에 대한 일부 메타 데이터와 함께 웹 사이트의 URL 모음이 포함됩니다. 다음 도구는 일반적으로 "웹 유형"XML Sitemap 및 URL 목록 파일을 생성합니다 (일부는 다른 형식도 지원할 수 있음).

참고 : Google은이 사이트에 나열된 타사 소프트웨어의 기능 또는 보안을 테스트하거나 확인하지 않았습니다. 소프트웨어에 대한 질문은 소프트웨어 작성자에게 직접 문의하십시오. 이러한 도구를 즐기시기 바랍니다!

서버 측 프로그램

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap 생성기 (Linux / Windows, 32/64 비트, 오픈 소스)
  • Outil en PHP (프랑스어, PHP)
  • Perl Sitemap 생성기 (Perl)
  • Python Sitemap 생성기 (Python)
  • 단순 Sitemap (PHP)
  • SiteMap XML 동적 Sitemap 생성기 (PHP) $
  • OS / 2 용 Sitemap 생성기 (REXX- 스크립트)
  • XML Sitemap 생성기 (PHP) $

CMS 및 기타 플러그인 :

  • ASP.NET-Sitemaps.Net
  • DotClear (스페인어)
  • 닷 클리어 (2)
  • 드루팔
  • 전자 상거래 템플릿 (PHP) $
  • 전자 상거래 템플릿 (PHP 또는 ASP) $
  • 라이프 타입
  • 미디어 위키 사이트 맵 생성기
  • mnoGoSearch
  • OS 상거래
  • phpWebSite
  • 플론
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • 워드 프레스

다운로드 가능한 도구

  • GSiteCrawler (Windows)
  • GWebCrawler 및 Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap 생성기 (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider 및 Sitemap 생성기 (Windows / Mac) $
  • 사이트 맵 프로 (Windows) $
  • 사이트 맵 작성자 (Windows) $
  • DevIntelligence의 Sitemap 생성기 (Windows)
  • Sorrowmans Sitemap 도구 (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Sitemap 생성기 (Java Webstart 응용 프로그램)
  • Weblight (Windows / Mac) $
  • WonderWebWare Sitemap 생성기 (Windows)

온라인 생성기 / 서비스

  • AuditMyPc.com 사이트 맵 생성기
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • 무료 Sitemap 생성기
  • Neuroticweb.com 사이트 맵 생성기
  • ROR 사이트 맵 생성기
  • ScriptSocket 사이트 맵 생성기
  • SeoUtility Sitemap 생성기 (이탈리아어)
  • SitemapDoc
  • Sitemapspal
  • Sitemap 제출
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML Sitemap 생성기
  • XML 사이트 맵 생성기

Sitemap 생성기가 통합 된 CMS

  • 콘크리트 5

Google 뉴스 Sitemap 생성기 다음 플러그인을 사용하면 게시자가 Google 도움말 센터에서 설명하는 sitemaps.org 프로토콜의 변형 인 Google 뉴스 Sitemap 파일을 업데이트 할 수 있습니다. Sitemap 파일의 일반적인 속성 외에도 Google 뉴스 Sitemap을 사용하면 게시자가 게시하는 콘텐츠 유형을 설명하고 개별 기사에 대한 액세스 수준을 지정할 수 있습니다. Google 뉴스에 대한 자세한 내용은 도움말 센터 및 도움말 포럼에서 확인할 수 있습니다.

  • WordPress Google 뉴스 플러그인

코드 조각 / 라이브러리

  • ASP 스크립트
  • Emacs Lisp 스크립트
  • 자바 라이브러리
  • Perl 스크립트
  • PHP 클래스
  • PHP 생성기 스크립트

합법적 인 이유로 도구를 추가하거나 제거해야한다고 생각하는 경우 웹 마스터 도움말 포럼에 의견을 남겨주세요.


모든 URL에서 인쇄 화면을 제공하는 사람이 있습니까?
ValRob

6

내가 찾은 최고는 http://www.auditmypc.com/xml-sitemap.asp 로 Java를 사용하고 페이지에 제한이 없으며 결과를 원시 URL 목록으로 내보낼 수도 있습니다.

또한 세션을 사용하므로 CMS를 사용하는 경우 크롤링을 실행하기 전에 로그 아웃했는지 확인하십시오.


3
좋은 소리 였지만 고장났습니다.
NoobishPro jul.

2

따라서 이상적인 세상에서는 사이트의 모든 페이지에 대한 사양이 있습니다. 또한 모든 페이지를 테스트하여 테스트 할 수있는 테스트 인프라가 있습니다.

당신은 아마도 이상적인 세상에 있지 않을 것입니다. 이거 왜 안돼 ...?

  1. 잘 알려진 이전 URL과 새 URL 간의 매핑을 만듭니다. 이전 URL이 표시되면 리디렉션합니다. "이 페이지는 이동했습니다. 새 URL은 XXX입니다. 곧 리디렉션 될 것입니다."라는 표시를 고려할 수 있습니다.

  2. 매핑이없는 경우 "죄송합니다.이 페이지가 이동되었습니다. 홈 페이지에 대한 링크입니다."메시지를 표시하고 원하는 경우 리디렉션하십시오.

  3. 모든 리디렉션, 특히 매핑이없는 리디렉션을 기록합니다. 시간이 지남에 따라 중요한 페이지에 대한 매핑을 추가하십시오.



1

디스크에서 모든 html을 읽고 "a"요소의 모든 "href"속성을 출력하는 스파이더를 작성하십시오 (파서로 수행 가능). 어떤 링크가 특정 페이지에 속하는지 염두에 두십시오 (이것은 MultiMap datastructre의 일반적인 작업입니다). 그런 다음 404 핸들러에 대한 입력 역할을하는 매핑 파일을 생성 할 수 있습니다.


0

여러 온라인 사이트 맵 생성 도구를 살펴 보겠습니다. 개인적으로 나는 과거 에이 (자바 기반)을 사용했지만 "사이트 맵 빌더"에 대한 구글 검색을한다면 다양한 옵션을 찾을 수있을 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.