내 질문은 이 질문 과 비슷 하지만 몇 가지 다른 제약 조건이 있습니다.
\n
한 줄에 하나씩 큰 단어 목록이 있습니다. 파일 크기는 2GB에서 10GB까지입니다.- 중복 줄을 제거해야합니다.
- 프로세스는 중복을 제거하는 과정에서 목록을 정렬 할 수 있지만 필수는 아닙니다.
- 새로운 고유 한 단어 목록을 출력하기에 충분한 공간이 파티션에 있습니다.
이 두 가지 방법을 모두 시도했지만 메모리 부족 오류로 실패합니다.
sort -u wordlist.lst > wordlist_unique.lst
awk '!seen[$0]++' wordlist.lst > wordlist_unique.lst
awk: (FILENAME=wordlist.lst FNR=43601815) fatal: assoc_lookup: bucket-ahname_str: can't allocate 10 bytes of memory (Cannot allocate memory)
다른 어떤 접근법을 시도 할 수 있습니까?
awk unix.stackexchange.com/a/30178/56820을
—
ezdazuzena