매우 큰 데이터 풀 (수십에서 수백 기가)에 중복 사진을 찾으려면 어떻게해야합니까?


16

누구나 약 100GB의 데이터 (수년에 걸쳐 수집)를 처리 할 때 잘 작동하는 훌륭한 사진 복제 감지 유틸리티를 제안 할 수 있습니까?

우분투에서 작동하는 것을 선호합니다.

미리 감사드립니다!

편집 : 컬렉션이 발견되면 컬렉션을 재구성하고 중복을 제거하는 데 도움이되는 도구가 있습니까?

Edit2 : 어려운 부분은 수천 개의 중복 파일로 구성된 출력 (예 : fdupes 출력)을 얻은 후에 수행 할 작업을 파악하는 것입니다.

디렉토리를 안전하게 삭제할 수 있는지 (즉, 디렉토리에 고유 한 파일이있을 수있는 경우) 디렉토리가 다른 디렉토리의 서브 세트 등인지는 확실하지 않습니다. 이 문제에 대한 이상적인 도구는 파일 복제를 확인한 다음 파일과 폴더를 재구성하는 강력한 수단을 제공해야합니다. (fslint처럼) 하드 링크로 병합을 수행하면 디스크 공간이 실제로 비워 지지만 중복 된 파일을 생성하는 근본적인 문제, 즉 잘못된 파일 / 디렉토리 구성은 해결되지 않습니다.


AskUbuntu , unix.stackexchange수퍼 유저 에 대한 관련 질문도 참조하십시오 .
BioGeek

답변:


7

구조에 ImageMagick. 솔루션의 첫 번째 단계는 컬렉션의 크기를 줄이는 것입니다. 내용을 기준으로 사진을 비교하려면 , 특히 일부가 약간 수정 된 버전 일 때 매우 좋은 시작은 축소판 그림으로 축소 한 다음 축소판 그림을 비교하는 것입니다. 이것은 거의 같은 사진을 찾고 비교하는 동안 중요하지 않은 차이점을 "무시"하려는 경우에 특히 유용합니다.

제 제안은 다음과 같습니다.
1- ImageMagick의 mogrify 도구를 사용하여 사진을 축소판 그림으로 줄입니다. 시간이 좀 걸리지 만 실제 비교 단계는 훨씬 빠르고 정확 해집니다.
2- ImageMagick의 비교 도구를 사용하면 비교할 임계 값 을 설정할 수 있습니다 . 즉 85 %의 사진을 찾을 수 있습니다. 가장 선호하는 임계 값을 찾기 위해 통제 된 실험을 수행하려고합니다.


미리보기 이미지를 먼저 만드는 아이디어가 정말 마음에 듭니다. 중복을 발견하면 어떻게됩니까? 목록 만 표시합니까? 나는 수만 개의 복제본을 가지고 있으며 이것을 해결하는 데 도움이되는 멋진 GUI가 매우 유용합니다.
Fasterz

2
Ubuntu를 사용하므로 언급 한 2 개의 작업과 같은 매우 구체적인 작업을 해결하는 다양한 특수 도구에 자동으로 액세스 할 수 있습니다. 그것은 레고 게임입니다. 원하는대로 할 수 있습니다. 조각을 모으기 만하면됩니다. 기술적으로, 당신은 '비교'도구에 2 장의 사진을 공급하고 하나가 다른 것과 얼마나 비슷한지를 알려줍니다. 문제를 해결하는 한 가지 방법은 모든 유사한 사진을 폴더로 그룹화하여이를 통해 오 탐지를 필터링 할 수 있습니다. 그런 다음 오 탐지에서 '비교'를 다시 실행하고 모든 것이 올바른 위치에 올 때까지 프로세스를 반복하십시오.
코디

4

오픈 소스 사진 뷰어 / 오거나이저 Geeqie 에는 강력한 중복 찾기 기능이 있습니다. 중복을 찾기 위해 여러 가지 전략을 사용할 수 있습니다.

  • 파일 이름 (대소 문자 구분)
  • 파일 크기
  • 파일 날짜
  • 이미지 치수
  • MD5 체크섬.
  • 유사한 이미지 내용 (몇 가지 임계 값까지)

그러면 축소판을 포함 할 수있는 결과 목록이 제공되므로 수동으로 확인할 수 있습니다.

것입니다 아마 수천 개의 파일에 대한 속도가 느릴 수 있지만, 난 그냥 그것을 사용하고 며칠 동안 실행하거나시키는 생각 적은 노력이 경우에 맞는 무언가를 찾거나 만드는 것보다 전체 아마 무엇이든 - 체크섬이 일치 당신이 필요한 모든 경우를 제외하고.


그거 좋은데 중복을 발견하면 어떻게됩니까? 목록 만 표시합니까? 나는 수만 개의 복제본을 가지고 있으며 이것을 해결하는 데 도움이되는 멋진 GUI가 매우 유용합니다.
Fasterz

GUI 창에 표시됩니다.
mattdm

3

당신이 원하는 것을 할 수있는 "fdupes" 라는 작은 유틸리티가 있습니까?

시도해 볼 수도있는 "fslint" 라는 다른 유틸리티 도 있습니다. (이것은 GUI가 있습니다).


나는 방금 작은 그림 세트 (몇 가지 공연)에서 fslint를 시도했고 거기에 앉아서 회전하는 좌절감을 느꼈습니다. 진행률 표시기 없음, 남은 시간 추정치, 없음.
Fasterz

1
이러한 도구는 동일한 파일을 찾는 것 같습니다. 동일한 (픽셀 당 픽셀) 이미지라도 파일 내용이 다를 수 있습니다. 똑같은 모양의 이미지뿐만 아니라 작물 및 다른 처리를 포함하여 다른 사진과 같은 형식으로 크기를 일치시키고 싶다고 생각합니다. 예배 규칙서. 이것은 신뢰 일치 계수가 있고 동일한 장면의 다른 사진을 일치시킬 수있는 이미지를 부드럽게 비교하는 것입니다.
Skaperen

@Skaperen 당신이 제안하는 것은 훌륭하지만 우분투에는 그러한 도구가 있습니까? 나는 Windows에서 어딘가에 언급 한 것을 보았지만 그것은 끔찍한 인터페이스를 가지고있는 것처럼 보였습니다.
Fasterz

ImageDupeless는 모양은 비슷하지만 약간의 차이가있는 사진을 포착하는 Windows 앱입니다. 회전, 자르기, 크기 조정, 색조 변경, 워터 마크 등을 잡을 수 있습니다. 라이브러리를 스캔하고 얼마나 많은 차이를 허용하는지 알려 주면 파일을 즐겁게 보여줍니다. 그러나 수백 개의 파일에는 매우 번거롭고 수천 개의 파일이 끔찍할 것입니다. 나도 ImageDupeless와 동등한 리눅스를 찾고 있습니다. 이미지가 유사한시기를 알리기 위해 웨이블릿 또는 기타 이미징 마법을 수행하는 앱입니다.
Therealstubot

에 대한 맨 페이지 옵션을 읽으십시오 fdupes-듀피를 삭제하는 옵션이 있습니다. askubuntu.com/a/476732
rrauenza

1

dupeGuru Picture Edition 은 Windows, Mac OS X 및 Linux 용으로 사용자 정의 가능한 복제 이미지 파인더입니다.

dupeGuru (표준, 음악 및 그림판) 버전에는 몇 가지 버전이 있으며 그림판을 사용하면 EXIF 원본 이미지 타임 스탬프 또는 파일이 동일한 파일 등 다른 방법 중에서 비트 맵 차단 비교 알고리즘을 통해 시각적으로 유사한 이미지를 찾을 수 있습니다. .

제외 된 폴더, iPhoto / Aperture 보관함 지원, 중복 감지 방법 및 폴더와의 기능에 대한 상당한 사용자 화와 같은 다양한 기타 유용한 기능이 있습니다.


0

중복 사진이란 무엇입니까? 여분의 시간을 2 ~ 2 회 복사 한 것과 동일한 파일을 의미합니까? 아니면 "같은"사진을 의미합니까?

동일한 파일을 의미하는 경우 모든 파일에서 'shasum'을 사용하고 결과를 정렬하고 'uniq'로 고유 한 줄을 찾은 다음 'diff'를 실행하여 제거 된 내용을 볼 수 있습니다. 우분투 쉘에서 모두 쉽습니다.


이 중 어느 것도 쉽고 편리하지 않습니다. 아래 언급 된 fdupes는 단순히 SHA를 계산하는 것보다 이미 더 나은 작업을 수행합니다. 이제 이미지 유사성을 찾는 유닉스 도구가 있습니까? 그렇다면 대단 할 것입니다.
Fasterz

유닉스 도구를 사용하는 데 익숙한 사람에게 쉽고 편리합니다. 유니크, 정렬, diff, shasum 등입니다. 그러나 정기적으로 사용하지 않으면 사용하기 어려울 수 있습니다. "모양처럼 보일"수있는 것은 아무것도 모르겠습니다. Aperture 및 Lightroom을 포함하여 내가 본 모든 파일은 동일합니다. 실제로는 md5 또는 shasum입니다
Pat Farrell

나는 정기적으로 유닉스 도구를 사용 하며이 대답이 다소 어리석은 것을 발견합니다. 첫째, 파일 크기 비교가 문제를 해결할 때 SHA를 맹목적으로 수행하는 것이 느립니다. 둘째, SHA 또는 MD5가 충돌 할 수 있으므로 SHA 비교만으로는 충분하지 않습니다. 이 두 가지를 모두 고려하면 fdupes의 기능을 활용할 수 있습니다.
Fasterz

또한,이 작업을 수행하는 주문을 올바르게 소탕 한 후에도 여전히 출력이 유용하지 않습니다. 기껏해야 비슷한 파일의 덤프 인 fdupes의 출력을 얻습니다. 내 경우에는 수만 명이며 중복을 제거하는 방법을 확인하기 위해 해당 데이터를 선택하기가 매우 어렵습니다.
Fasterz

1
SHA는 이론적으로 충돌하지만 실제로는 충돌하지 않습니다. 예, 영원히 걸립니다. 작동하는 것은 빠른 것이 아닙니다. 그러나 당신은 그것을 걷어차 고 하루나 이틀 안에 다시 올 수 있어야합니다. 그것은 단지 제안 일뿐입니다. 나는 그것에 대한 전쟁에 참여하지 않을 것입니다.
Pat Farrell

0

크기, 이름 및 기타 필터별로 중복 파일을 찾는 "블리치 비트"라는 응용 프로그램이 있습니다. 우분투의 시냅틱 패키지 관리자에서 설치할 수 있습니다.


중복을 발견하면 어떻게됩니까? 목록 만 표시합니까? 나는 수만 개의 복제본을 가지고 있으며 이것을 해결하는 데 도움이되는 멋진 GUI가 매우 유용합니다.
Fasterz
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.