나는 tm
친구가 초안을 읽고 UCINET으로 텍스트 코퍼스를 탐색하고 텍스트 클라우드, 2 모드 네트워크 그래프 및 단일 값 분해 (Stata를 사용하는 그래픽 포함)를 보여준 지 3 일을 보냈다 . Mac OS X에서는 Snowball (stemming) 또는 Rgraphviz (graphs)와 같은 라이브러리 뒤에 Java 관련 문제가 있습니다.
누군가 포인트 아웃 할 수 없는 패키지 - 나는 살펴 보았다 tm
, wordfish
그리고 wordscores
, 그리고 NLTK에 대해 알고 -하지만 조사, 코드 가능하면 텍스트 데이터를 성공적으로 사용 tm
하거나 다른 무언가가 의회 논쟁 또는 법률 문서 등의 데이터를 분석하기 위해? 나는이 문제에 대해 많이 찾을 수 없으며 배우는 코드가 적습니다.
내 자신의 프로젝트는 의회 회의, 발표자, 의회 그룹, 구두 개입의 텍스트와 같은 CSV 파일로 이러한 변수를 알려주는 2 개월 의회 토론입니다. 저는 "민간 자유"대화에 대한 "보안 대화"와 같이 드물고 덜 드문 용어를 사용할 때 화자들 사이, 특히 의회 그룹 사이의 차이를 찾고 있습니다.