모든 문자 뒤에 여분의 공간이 추가 된 텍스트가있는 텍스트 문서가 있습니다!
예:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
시각적으로 :
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t…
이 생길 것을 참고 추가 모든 편지 쓰기 후 공간, 그래서 연속 단어 사이에 두 개의 공간이있다.
여분의 공간을 얻 awk
거나 sed
삭제할 수있는 방법이 있습니까? (안타깝게도이 텍스트 문서는 방대하며 수동으로 처리하는 데 시간이 오래 걸립니다.)
나는 일종의 텍스트 인식이 필요하기 때문에 간단한 bash 스크립트로 해결하는 것이 훨씬 더 복잡한 문제 일 것입니다.
이 문제에 어떻게 접근 할 수 있습니까?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'