트윗이 포함 된 텍스트 파일이 있는데 트윗에 단어가 언급 된 횟수를 세어야합니다. 예를 들어, 파일에는 다음이 포함됩니다.
Apple iPhone X is going to worth a fortune
The iPhone X is Apple's latest flagship iPhone. How will it pit against it's competitors?
그리고 파일에서 iPhone이라는 단어가 몇 번 언급되었는지 세고 싶습니다. 여기 내가 시도한 것이 있습니다.
cut -f 1 Tweet_Data | grep -i "iPhone" | wc -l
확실히 작동하지만 유닉스의 'wc'명령에 대해 혼란 스럽습니다. 다음과 같은 것을 시도하면 차이점은 무엇입니까?
cut -f 1 Tweet_Data | grep -c "iPhone"
대신 -c가 사용됩니까? 이 두 가지 결과는 트윗으로 가득 찬 큰 파일에서 다른 결과를 산출하며 어떻게 작동하는지 혼란 스럽습니다. 발생을 계산하는 올바른 방법은 어떤 방법입니까?
또 다른 기술 : unix.stackexchange.com/q/39039/117549
—
Jeff Schaller
cut -f1
탭을 기반으로 절단하고 있습니다. 당신은 확실히되어 있는지wc -l
정말 당신에게 정확한 수를주고있다? 여기에 2가 표시되지만 "iPhone"의 3 개 인스턴스를 계산합니다.