TLDR
원래 질문은 명확하지 않았으며 OP가 단순히 파일 내용의 고유 버전을 원한다는 것을 읽었습니다. 아래에 나와 있습니다. 업데이트 된 질문 형식에서 OP는 이제 파일의 내용이 고유한지 여부를 단순히 알고 싶다고 말합니다.
파일 내용이 고유한지 테스트
sort
파일이 고유하거나 중복이 포함되어 있는지 확인 하는 데 간단히 사용할 수 있습니다 .
$ sort -uC input.txt && echo "unique" || echo "duplicates"
예
이 두 파일이 있다고 가정 해보십시오.
중복 샘플 파일
$ cat dup_input.txt
This is a thread 139737522087680
This is a thread 139737513694976
This is a thread 139737505302272
This is a thread 139737312270080
This is a thread 139737203164928
This is a thread 139737194772224
This is a thread 139737186379520
고유 한 샘플 파일
$ cat uniq_input.txt
A
B
C
D
이제 이러한 파일을 분석 할 때 파일이 고유하거나 중복이 있는지 확인할 수 있습니다.
테스트 중복 파일
$ sort -uC dup_input.txt && echo "unique" || echo "duplicates"
duplicates
고유 파일 테스트
$ sort -uC uniq_input.txt && echo "unique" || echo "duplicates"
unique
원문 (파일의 고유 내용)
그냥 할 수 있습니다 sort
:
$ sort -u input.txt
This is a thread 139737186379520
This is a thread 139737194772224
This is a thread 139737203164928
This is a thread 139737312270080
This is a thread 139737505302272
This is a thread 139737513694976
This is a thread 139737522087680