백업없이 손실 된 웹 사이트를 복구 하시겠습니까?


262

유감스럽게도 호스팅 제공 업체는 100 % 데이터 손실을 경험했기 때문에 두 개의 호스팅 된 블로그 웹 사이트의 모든 콘텐츠를 잃었습니다.

(예, 예, 나는 완전한 오프 사이트 백업을 수행 해야했습니다 . 불행히도, 모든 백업은 서버 자체에있었습니다. 따라서 강의를 저장하십시오. 당신은 절대적으로 100 % 맞습니다. 그러나 그것은 지금 저에게 도움이되지 않습니다. 여기서 질문에 집중하십시오!)

웹 크롤러 캐시에서 웹 사이트를 복구하는 느리고 고통스러운 프로세스를 시작하고 있습니다.

Warrick 과 같은 인터넷 웹 스파이더 (Yahoo, Bing, Google 등) 캐시에서 웹 사이트를 복구하는 몇 가지 자동화 도구가 있지만 다음 과 같은 결과가 나빴습니다.

  • 사용하기 위해 내 IP 주소가 Google에서 빨리 금지되었습니다.
  • 500 및 503 오류가 많이 발생하고 "5 분 대기 중 ..."
  • 궁극적으로 손으로 텍스트 내용을 더 빨리 복구 할 수 있습니다

모든 블로그 게시물 목록을 사용하여 Google 캐시를 클릭하고 각 개별 파일을 HTML로 저장하여 훨씬 더 운이 좋았습니다. 블로그 게시물 많지만 수가 많지 않아서 더 나은 백업 전략을 갖지 못한 것에 대한 자체 광고 가 필요 하다고 생각합니다. 어쨌든 중요한 것은 블로그 게시물 텍스트를 이런 식으로 얻는 것이 행운이었고 인터넷 캐시에서 웹 페이지의 텍스트를 확실히 얻을 수 있다는 것입니다. 내가 지금까지 한 일을 기반으로, 나는 잃어버린 블로그 게시물 텍스트와 의견을 모두 복구 할 수 있다고 확신 합니다.

그러나 각 블로그 게시물과 함께 제공 되는 이미지 는 증명하기가 더 어렵습니다.

인터넷 캐시에서 웹 사이트 페이지를 복구하기위한 일반적인 팁, 특히 웹 사이트 페이지에서 아카이브 된 이미지복구 할 수있는 장소는 무엇입니까?

(그리고 다시, 제발, 백업 강의가 없습니다. 당신은 완전히, 완전히, 완전히 옳습니다! 그러나 옳은 것이 내 즉각적인 문제를 해결하지 못합니다 ... 당신이 타임머신이 없다면 ...)


96
Jeff Atwood와 같은 누군가 가 한 번에 두 개의 전체 웹 사이트 를 잃을 수 있다면 ... 다음 중 하나에 대한 자체 백업 절차를 검토하겠습니다. : P

240
@Phoshi : Jeff는 백업시 Coding Horror에 대한 좋은 기사를 가지고 있습니다. 당신은 그들에게 빠른 읽기를 제공해야합니다.

34
joshhunt는 1 개의 인터넷에서 승리합니다. 이 오퍼는 다른 오퍼와 결합되거나 교환되거나 대체 될 수 없습니다. 레인 체크가 없습니다.
Adam Davis

28
SU에 대한 담당자를 얻기 위해 어떤 사람들이 갈 길이 ...

26
"백업"으로 수행 한 작업을 참조하지 마십시오. 해당 파일이 동일한 서버에있는 경우 "백업"이 아닙니다.

답변:


220

어두운 곳에서의 내 찔림 : 모든 이미지 요청에 대해 304를 반환하도록 웹 서버를 구성 한 다음 어딘가에 URL 목록을 게시하고 모든 독자가 각 URL을로드하고 이미지를 수집하도록 팟 캐스트를 요청하여 복구를 크라우드 소싱하십시오 로컬 캐시에서로드합니다. (이것은 HTML 페이지 자체를 복원하고 <img ...>태그로 완성한 후에 만 ​​작동 할 수 있습니다 .

이것은 기본적으로 "독자의 웹 브라우저 캐시에서 가져옵니다"라는 멋진 표현입니다. 많은 독자와 팟 캐스트 청취자가 있으므로 최근에 웹 사이트를 보았을 가능성이있는 많은 사람들을 효과적으로 동원 할 수 있습니다. 그러나 다양한 웹 브라우저의 캐시에서 이미지를 수동으로 찾고 추출하는 것은 어렵고, 많은 사람들이 시도하고 성공할 수있을 정도로 쉬운 경우 전체 접근 방식이 가장 효과적입니다. 따라서 304가 접근합니다. 독자에게 필요한 것은 일련의 링크를 클릭하고 웹 브라우저에로드 된 이미지 (또는 마우스 오른쪽 단추를 클릭 한 후 다른 이름으로 저장 등)를 끌어온 다음 이메일로 보내거나 업로드하는 것입니다. 설정 한 중앙 위치 등 이 접근 방식의 주요 단점은 웹 브라우저 캐시가 그 당시로 돌아 가지 않는다는 것입니다. 그러나 지난 며칠 동안 2006 년부터 게시물을로드 한 독자 한 명만 있으면 아주 오래된 이미지까지 구할 수 있습니다. 충분한 잠재 고객이 있으면 무엇이든 가능합니다.


52
가장 창의적인 접근 방식은 +1입니다. CH에 독자가 많기 때문에 실제로 작동 할 수 있습니다.

16
여기에 구현 되었습니까? diovo.com/2009/12/…
Jeff Atwood

3
모든 사람들이 각 링크를 클릭하는 대신 이미지 태그에 대한 정적 파일을 크롤링하고 모든 파일을 하나의 거대한 이미지 페이지로 복사 할 수 있다고 생각합니다. diovo.com 구현은 매우 인상적입니다. 그것이 효과가 있기를 바랍니다.

2
와우 그것은 사악한 마법사 똥 I <3
Ahmad Alfy

4
실제로 canvasAJAX를 사용하여 이미지를 검색하여 집으로 보낼 수 있어야합니다 .
Tomáš Zato

65

우리 중 일부는 RSS 리더로 당신을 따르고 캐시를 지우지 않습니다. 2006 년으로 돌아가는 것으로 보이는 블로그 게시물이 있습니다. 볼 수있는 이미지는 없지만 지금하는 것보다 낫습니다.


확실히 +1. Google 리더는 그렇지 않지만 데스크톱 기반의 것이 좋습니다.

2
사람들에게 브라우저 캐시를 확인하도록 요청할 수도 있습니다. Coding Horror retro 스타일을 보는 사람들은 일부 이미지가 캐시 될 수 있습니다.

GReader에서 2005 년까지 블로그 게시물을 다시 얻었지만 안타깝게도 이미지가 없으며 일련의 페이지로 내보낼 수는 없습니다. 이메일로 알려 드릴 수 있습니다. Jeff. ..
Glen Solsberry 2009

네, "요청하면 내가 보내 드릴게요." 내 대답에도.

3
너무 많은 RSS 리더는 이미지가 절대 죽지 않을 것이라고 가정합니다. 나는 내 일을 안다 :(

62

(1) HTML 백업에서 누락 된 모든 이미지의 파일 이름 목록을 추출하십시오. 당신은 다음과 같은 것을 남길 것입니다 :

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • 야후-홈페이지 -small.png
  • password-show-animated.gif
  • tivo2.jpg
  • 마이클-애 래쉬 그래픽스 프로그램

(2) 해당 파일 이름으로 Google 이미지 검색을 수행하십시오. 다른 블로거들에 의해 많은 사람들이 "미러링"된 것으로 보이며 , 같은 파일 이름을 가지고 있기 때문에 복용하기에 잘 익은 것 같습니다 .

(3) 이미지가 10 개 이상인 경우 자동화 된 방식으로이를 수행 할 수 있습니다.


그가 실제로 이와 같은 이미지를 다시 얻는다면 매우 아이러니 할 것입니다.
Hashim

51

로 이동하여 구글 이미지 검색 및 입력 site:codinghorror.com적어도 모든 이미지의 썸네일 이미지 버전을 찾을 수있다. 아니요, 반드시 도움이되는 것은 아니지만 수천 장의 이미지를 검색하기위한 시작점을 제공합니다.

코딩 공포 이미지

구글에서 더 큰 썸네일 저장하는 것 같습니다 몇 가지 경우가 :

구글 대 빙

Google은 왼쪽에, Bing은 오른쪽에 있습니다.


2
예, 최악의 경우 Google에서 미리보기 이미지를 확대해야합니다. 그래도 Bing에서 더 큰 섬네일을 저장한다고 들었습니다.
Jeff Atwood

모르겠다. 나는 빙의 일종이 아니다. Google처럼 이미지 검색을 수행하는지조차 모르겠습니다. 해당 게시물을 찾아 업데이트합니다.
George Stocker

18
이것이 당신인지 모르겠습니다. 그러나 Imageshack에는 많은 블로그 이미지가있는 것 같습니다. profile.imageshack.us/user/codinghorror
Nick Berardi

그들은 전체 크기의 456 이미지처럼 보이는 것처럼 보입니다. 이것은 모든 것을 복구하는 가장 좋은 방법 일 것입니다. 그들은 심지어 당신에게 덤프를 제공 할 수도 있습니다.
Nick Berardi

28
Google 미리보기 이미지를 시작으로 사용한 다음 tineye.com 을 사용 하여 사본을 호스팅하는 사람이 있는지 확인하십시오.
sep332 2009

40

블로그에 대해 유감스럽게 생각합니다. 강의하지 않습니다. 그러나 Imageshack에서 귀하의 이미지 인 것으로 나타났습니다. 그들은 정말로 당신의 것입니까 아니면 누군가 주위에 그들의 사본을 보관하고 있습니까?

http://profile.imageshack.us/user/codinghorror

그들은 전체 크기의 456 이미지처럼 보이는 것처럼 보입니다. 이것은 모든 것을 복구하는 가장 좋은 방법 일 것입니다. 그들은 심지어 당신에게 덤프를 제공 할 수도 있습니다.


37

제프, 나는 당신을 위해 뭔가를 작성했습니다 여기에

요컨대 내가 제안하는 것은 다음과 같습니다.

  1. 모든 이미지 요청에 대해 304를 리턴하도록 웹 서버를 구성하십시오. 304는 파일이 수정되지 않았 음을 의미하며, 브라우저가 존재하는 경우 브라우저가 캐시에서 파일을 가져옵니다. (신용 : 이 수퍼 유저 답변 )

  2. 웹 사이트의 모든 페이지에서 작은 스크립트를 추가하여 이미지 데이터를 캡처하여 서버로 보냅니다.

  3. 이미지 데이터를 서버에 저장하십시오.

  4. 짜잔!

주어진 링크에서 스크립트를 얻을 수 있습니다.


수퍼 유저 답변이 연결되어 있지 않습니다.
Nathaniel

@Nathaniel : FIXED
alexanderpas

28

Wayback Machine 에서이 쿼리를 시도하십시오 .

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

그러면 archive.org에서 보관 한 codinghorror.com의 모든 이미지를 얻을 수 있습니다. 이렇게하면 3878 개의 이미지가 반환되고 그 중 일부는 중복됩니다. 완전하지는 않지만 좋은 시작은 그다지 중요하지 않습니다.

나머지 이미지의 경우 검색 엔진 캐시에서 썸네일을 사용한 다음 http://www.tineye.com/ 에서이를 사용하여 역방향 조회를 수행 할 있습니다. 썸네일 이미지를 제공하면 웹에서 찾은 이미지와 밀접하게 일치하는 미리보기와 포인터가 제공됩니다.


1
지금 404를 반환합니까?
rogerdpack

Wayback Machine에서 자동으로 백업을 얻는 도구를 만들었습니다. github.com/hartator/wayback-machine-downloader
Hartator

26

dd(1) 원시 디스크를 사용할 수있는 경우 권장 사항 에 +1 ; (2) 이미지는 단순한 파일이었습니다. 그런 다음 법의학 '데이터 조각'도구를 사용하여 JPG / PNG / GIF로 보이는 모든 신뢰할 수있는 범위를 추출 할 수 있습니다. 이런 식으로 지워진 iPhone에서 사진의 95 % 이상을 복구했습니다.

오픈 소스 툴 '최초'와 그 후속 툴인 '메스'는 다음과 같이 사용할 수 있습니다.

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
dd 이미지를 받으면 Photorec을 사용할 수도 있습니다.

무엇보다도 페도라에 냠를 통해 사용할 수 있습니다

26

다행히 미래 세대는 괜찮을 것입니다.

이 큰 바위의 일부만으로도 과학자 / 언어 학자들은 많은 것을 알아 냈습니다.

로제타 스톤

몇 장의 사진이 누락 된 경우 몇 천 년 동안 알아볼 수 있도록 누군가에게 맡기십시오.

잘만되면, 당신은 조금 웃고 있습니다. :)


5
좋아, 당신은 적어도 나에게서 킥킥 웃음 ;-)

21

언제든지 archive.org를 사용해 볼 수도 있습니다. 웨이 백 머신을 사용하십시오. 나는 이것을 사용하여 내 웹 사이트에서 이미지를 복구했습니다.


3
적어도 CodingHorror에 대한 캐시가 많지 않은 것 같습니다. 그래도 blog.stackoverflow에 대한 이미지가 보입니다.

인터넷 웨이 백 머신을 사용하여 웹 사이트를 한 번 재 구축했지만 그 이후 몇 번 시도했지만 실제로는 많은 사이트를 보관하지 않습니다 ...
djangofan

그것은 여기에 2004 년까지 거슬러 올라갑니다 것 같은데 web.archive.org/web의 * / codinghorror.com

감사합니다. robots.txt 파일이 없었습니다. :)
Synetech

14

따라서 최악의 경우는 복구 할 수 없습니다. 제길.

축소 된 Google 검색 엔진을 잡고 이미지 검색 엔진 TinEye를 통해 입력 해보십시오 . 바라건대 사람들이 만든 복제본이나 호스트를 가져와야합니다.


14

긴 샷이지만 다음을 고려할 수 있습니다.

  • 누락 된 정확한 그림 목록 게시
  • 모든 독자의 인터넷 캐시를 통해 검색 프로세스를 크라우드 소싱합니다.

예를 들어 Nirsoft Mozilla 캐시 뷰어를 참조하십시오 .

대체 텍스트
(출처 : nirsoft.net )

간단한 명령 줄을 통해 "blog.stackoverflow.com"그림을 빠르게 찾을 수 있습니다.

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

참고 : Chrome 용 캐시 탐색기 는 동일 합니다 .

대체 텍스트
(출처 : nirsoft.net )

(15 일 분량의 blog.stackoverflow.com 사진이 있어야합니다)

그리고 Internet Explorer 또는 Opera .


그런 다음 공개 목록을 업데이트하여 독자가 캐시에서 찾은 내용을 반영하십시오.


12

과거에는 http://www.archive.org/ 를 사용 하여 캐시 된 이미지를 가져 왔습니다 . 그것은 일종의 히트 또는 미스이지만 그것은 나를 위해 일했습니다.
또한 이전 사이트에서 사용한 재고 사진을 복구하려고 할 때 www.tineye.com은 축소판 만 있고 전체 크기 이미지가 필요할 때 유용합니다.

이것이 도움이되기를 바랍니다. 행운을 빕니다.


몇 분 전에 codinghorror.com 이미지를 찾고 archive.org를 살펴본 결과 클릭 한 게시물이 표시되지 않았습니다.
George Stocker

Archive.org는 데이터를 처음 색인 한 후 몇 개월 후에 데이터를 릴리스합니다.
Christian

10

이 방법은 가장 쉽고 완벽한 솔루션은 아니지만 Evernote와 같은 서비스는 일반적으로 텍스트와 이미지가 응용 프로그램 내부에 저장 될 때 텍스트와 이미지를 모두 저장합니다. 기사를 저장 한 일부 유용한 독자는 이미지를 저장하고 다시 보낼 수 있습니다. ?


10

archive.org에 대한 훌륭한 경험이 있습니다. 사이트에서 모든 블로그 게시물 을 추출 할 수없는 경우에도 정기적 인 스냅 샷을 유지합니다.

대체 텍스트

이렇게하면 각 페이지를 확인하고 작성한 블로그 게시물을 볼 수 있습니다. archive.org에 게시물이없는 경우 모든 게시물의 이름을 사용하여 Google 캐시에서 쉽게 찾을 수 있습니다. 보관소에서 이미지 보관을 시도하고 Google 캐시에 이미지가 있으며 최근에 캐시를 비우지 않아 최신 블로그 게시물에 도움을 줄 수 있습니다. :)


얼마 전에 일했던 회사의 웹 사이트에서 데이터를 얻으려고했습니다. 텍스트에는 좋았고 이미지에는 좋지 않았습니다. 그러나 YMMV
ChrisF

Google 웹 캐시는 이미지를 저장 하지 않는다고 생각 합니다.
Nathaniel


8

미래에 대한 제안 : 블로그에 Windows Live Writer 를 사용 하고 블로그에 게시 할뿐만 아니라 내 컴퓨터에 게시물의 로컬 사본을 저장합니다.


또한 Windows Live Writer를 사용하는 것은 좋은 상식입니다.

7

약 5 년 전에 모든 디지털 사진을 저장하고 있던 외장 하드 드라이브의 초기 화신이 실패했습니다. 나는 ddJPEG 이미지처럼 보이는 것을 복구하기위한 초보 도구를 사용하여 하드 드라이브의 이미지를 만들었습니다 . 내 사진의 대부분을 빼 냈습니다.

문제는 이미지를 보유한 가상 머신 디스크 이미지의 사본을 얻을 수 있습니까?



7

archive.org와 [Tor] [2]와 같은 요청 익명화 프로그램의 조합을 제안합니다. 익명 처리기를 사용하는 것이 좋습니다. 각 요청에는 임의의 IP와 위치가 있으며, 비정상적으로 많은 수의 요청에 대해 archive.org (Google처럼)에 의해 금지되는 것을 피할 수 있기 때문입니다.

행운을 빕니다, 그 블로그에는 많은 보석들이 있습니다.


Jeff가 archive.org에 기부하려고하므로 익명자를 학대하는 것은 절대로 용납 될 수 없습니다. 그러나 나는 여전히 당신에게 그것을 위해 차기를 원합니다. :-|

6

웨이 백 머신에는 일부가 있습니다. Google 캐시 및 이와 유사한 캐시에는 일부 캐시가 있습니다.

가장 효과적인 방법 중 하나는 도움을 요청하여 원본 포스터를 이메일로 보내는 것입니다.

나는 실제로 모든 인프라 권장 사항을 가지고 있습니다. 근본적인 문제는 실제로 백업이 아니라 사이트 복제 및 감사 부족입니다. 개인 전자 메일 필드의 내용으로 나에게 전자 메일을 보내면 나중에 다시 발로 돌아갈 때 문제에 대해 이야기하고 싶습니다.


6

이미지가 Flickr 또는 CDN과 같은 외부 서비스 (Podcast 중 하나에서 언급 한 것처럼)에 저장된 경우 여전히 이미지 리소스가있을 수 있습니다.

일부 이미지는 Google 이미지 에서 검색하고 "유사 이미지 찾기"를 클릭 하면 다른 사이트에 사본이있을 수 있습니다.


5

archive.org는 때때로 이미지를 숨 깁니다. 각 URL을 수동으로 가져 오거나 짧은 스크립트를 작성하여 다음과 같이 쿼리하십시오.

string.Format ( "GET / * / {0}", nextUri)

물론 그것은 검색하기가 상당히 어려울 것입니다.

브라우저 캐시에 일부가있을 수 있습니다. 내가하면 어딘가에서 호스팅합니다.


4

사용자 캐시를 긁어 내고자하는 304 Not Modified경우, 브라우저가 사용하는 모든 조건부 GET ( 'If-Modified-Since'또는 'If-None-Match') 요청에 서버가 응답하도록 설정할 수 있습니다. 캐시 된 자료를 다시 확인하십시오.

이미지와 같은 정적 콘텐츠의 초기 캐싱 헤더가 꽤 자유로 워서 며칠 또는 몇 달 동안 캐시되도록 허용하는 경우 잠시 동안 요청을 다시 확인할 수 있습니다. 해당 요청에 쿠키를 설정하고 해당 사용자가 캐시에 대해 스크립트를 실행하여 여전히 보유한 이미지를 추출하도록 요청하십시오.

그러나 아직 존재하지 않는 인라인 리소스로 텍스트 콘텐츠를 게시하기 시작한 순간에 유효성 검사기가 404에 도달하면 캐시 된 버전을 지울 수 있습니다.



4

명백한 점을 지적 할 위험이 있으므로 이미지에 대한 자신의 컴퓨터 백업마이닝하십시오 . 내 백업 전략이 외부 드라이브, 구운 디스크 및 zip / tar 파일에 여러 파일을 여러 개 보관할 수있을만큼 충분히 위험하다는 것을 알고 있습니다. 행운을 빕니다!


4

Snow Leopard의 Safari 캐시에서 이러한 파일을 복구했습니다.

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

다른 사람이 시도하고 싶은 경우에, 나는 ~ / codinghorror / 파일 이름, 그들을 추출하는 파이썬 스크립트를 작성했습니다 여기 온라인 넣었습니다을 .

이게 도움이 되길 바란다.


3

호스팅 제공 업체에 백업이 있는지 (일부 이전 버전) 볼 수 있었습니까?


백업 프로그램이 가상 시스템 하드 드라이브 파일을 백업 할 수 없어서 백업이 없습니다.
Jeff Atwood

2

이 데이터의 가치는 얼마입니까? 상당한 금액 (수천 달러)의 가치가 있다면, 웹 사이트의 데이터를 저장하는 데 사용 된 하드 드라이브 (하드웨어 고장으로 인한 데이터 손실의 경우)를 호스팅 제공 업체에 문의하십시오. 그런 다음 드라이브를 추적하거나 다른 데이터 복구 서비스로 가져 와서 드라이브에서 얻을 수있는 것을 확인할 수 있습니다. 드라이브에서 다른 사람의 복구되지 않은 데이터가 발생할 가능성으로 인해 협상하기가 까다로울 수 있지만 실제로 관심이있는 경우 해결할 수 있습니다.


내가 아는 한 서버는 VM이었습니다.
splattne

1
@splattne조차도 많은 데이터를 복구 할 수있는 가능성은 0이 아닙니다.

고도로 전문화 된 서비스 여야합니다.

2

이 소식을 듣게되어 정말 유감스럽고 시간이 많이 났고 타이밍이 너무 좋았습니다. 게시물 몇 개를 오프라인으로 복사하고 전체 사이트에서 HTTrack을 수행했지만 나가야했습니다 (2 주 전). 나는 그것을 멈췄다.

호스트가 절반 이하인 경우-사실 당신이 좋은 고객이라고 생각합니다 ... 하드 드라이브를 보내거나 (RAID를 사용해야한다고 생각할 때) 복구를 직접 수행하도록 요청합니다.

이것이 빠른 프로세스는 아니지만 클라이언트를 위해 하나의 호스트 로이 작업을 수행했으며 전체 데이터베이스를 그대로 복구 할 수있었습니다 (... 기본적으로 호스트는 사용중인 제어판의 업그레이드를 시도하여 엉망으로 만들었습니다 .. 그러나 아무것도 덮어 쓰지 않았습니다).

무슨 일이 있어도-SO 사이트의 모든 팬들에게 행운을 빕니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.