파일에서 다른 문자 수를 어떻게 셀 수 있습니까?


19

파일의 다른 문자 수를 출력하는 프로그램이 필요합니다. 예:

> stats testfile
' ': 207
'e': 186
'n': 102

어떤 도구가 있습니까?

답변:


21

다음이 작동해야합니다.

$ sed 's/\(.\)/\1\n/g' text.txt | sort | uniq -c

먼저 모든 문자 뒤에 줄 바꿈을 삽입하여 각 문자를 자체 줄에 넣습니다. 그런 다음 정렬합니다. 그런 다음 uniq 명령을 사용하여 중복을 제거하고 각 줄 앞에 해당 문자의 발생 횟수를 붙입니다.

빈도별로 목록을 정렬하려면이 항목을 모두로 파이프하십시오 sort -nr.


4
맥 OS X에 대한 나오지에 그것은이다sed 's/\(.\)/\1\'$'\n/g' text.txt
mb21

매우 훌륭하지만 불행히도 텍스트에 유니 코드 (utf8) 문자가 포함되어 있으면 올바르게 작동하지 않습니다. sed이것을 할 수있는 방법이있을 수 있지만 Jacob Vlijm의 Python 솔루션 은 저에게 효과적이었습니다.
bitinerant

14

Steven의 솔루션은 훌륭하고 간단합니다. 정렬 단계 때문에 매우 큰 파일 (RAM의 절반에 편안하게 맞지 않는 파일)에 대해서는 성능이 좋지 않습니다. awk 버전이 있습니다. 그것은 몇 가지 특수 문자 옳은 일을하려고하기 때문에 복잡 또한 조금 더 (줄 바꿈, ', \, :).

awk '
  {for (i=1; i<=length; i++) ++c[substr($0,i,1)]; ++c[RS]}
  function chr (x) {return x=="\n" ? "\\n" : x==":" ? "\\072" :
                           x=="\\" || x=="'\''" ? "\\" x : x}
  END {for (x in c) printf "'\''%s'\'': %d\n", chr(x), c[x]}
' | sort -t : -k 2 -r | sed 's/\\072/:/'

동일한 원칙에 대한 Perl 솔루션이 있습니다. Perl은 내부적으로 정렬 할 수 있다는 장점이 있습니다. 또한 파일이 줄 바꿈 문자로 끝나지 않으면 추가 줄 바꿈을 올바르게 계산하지 않습니다.

perl -ne '
  ++$c{$_} foreach split //;
  END { printf "'\''%s'\'': %d\n", /[\\'\'']/ ? "\\$_" : /./ ? $_ : "\\n", $c{$_}
        foreach (sort {$c{$b} <=> $c{$a}} keys %c) }'

1
끔찍한 일을하지 않기 위해 +1
Sparr

1

루비를 사용하는 느리지 만 비교적 메모리 친화적 인 버전입니다. 입력 크기에 관계없이 약 12MB의 RAM.

# count.rb
ARGF.
  each_char.
  each_with_object({}) {|e,a| a[e] ||= 0; a[e] += 1}.
  each {|i| puts i.join("\t")}

ruby count.rb < input.txt
t       20721
d       20628
S       20844
k       20930
h       20783
... etc
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.