R을 사용한 텍스트 마이닝의 예 (tm 패키지)

14

나는 tm친구가 초안을 읽고 UCINET으로 텍스트 코퍼스를 탐색하고 텍스트 클라우드, 2 모드 네트워크 그래프 및 단일 값 분해 (Stata를 사용하는 그래픽 포함)를 보여준 지 3 일을 보냈다 . Mac OS X에서는 Snowball (stemming) 또는 Rgraphviz (graphs)와 같은 라이브러리 뒤에 Java 관련 문제가 있습니다.

누군가 포인트 아웃 할 수 없는 패키지 - 나는 살펴 보았다 tm, wordfish그리고 wordscores, 그리고 NLTK에 대해 알고 -하지만 조사, 코드 가능하면 텍스트 데이터를 성공적으로 사용 tm하거나 다른 무언가가 의회 논쟁 또는 법률 문서 등의 데이터를 분석하기 위해? 나는이 문제에 대해 많이 찾을 수 없으며 배우는 코드가 적습니다.

내 자신의 프로젝트는 의회 회의, 발표자, 의회 그룹, 구두 개입의 텍스트와 같은 CSV 파일로 이러한 변수를 알려주는 2 개월 의회 토론입니다. 저는 "민간 자유"대화에 대한 "보안 대화"와 같이 드물고 덜 드문 용어를 사용할 때 화자들 사이, 특히 의회 그룹 사이의 차이를 찾고 있습니다.

r text-mining

— Fr.
소스

1

stackoverflow.com/questions/4070483/text-retrieval-using-r

7

오스트리아의 Ingo Feinerer, tm 저자의 박사 학위 논문은 영어로 작성되었습니다. 이 문서의 7-10 장에는 복잡성이 증가하면서 tm 패키지의 응용 프로그램이 포함되어 있습니다.

http://epub.wu.ac.at/1923/

7 장에서는 R-devel 2006 메일 링리스트를 분석하여 tm을 적용하는 방법을 설명합니다. 8 장에서는 비즈니스를위한 전자 상거래에 텍스트 마이닝을 적용하는 방법을 보여줍니다. 9 장은 회비와 세금에 관한 오스트리아 최고 행정 법원 관할권을 조사하기 위해 tm을 적용한 것입니다. [...] . 10 장에서는 Wizard of Oz 데이터 세트의 스타일러스 및 저작자 표시 속성에 대한 응용 프로그램을 보여줍니다.

전체 문서 커버를 읽고 커버하십시오. 그러나이 문서는 2008 년에 작성되었으며 이후 API 변경 사항이 몇 가지있었습니다. 예를 들어 PhD 논문 tmMap()은로 이름이 바뀐 함수 를 언급합니다 tm_map(). 따라서 코드 예제는 그대로 작동하지 않으므로 잘라 내기 및 붙여 넣기를 사용하여 시도 할 수 없습니다.

당신은 또한 갈 수 있습니다

http://tm.r-forge.r-project.org/users.html

"이 사이트는 신규 사용자에게 기존의 tm 애플리케이션에 대한 정보를 제공하기 위해 (불완전한 알파벳순)의 tm 사용자 및 의견 목록을 제공하는 것을 목표로합니다. 알려진 사용자는 회사의 연구소 나 개인에 이르기까지 다양합니다."

해당 페이지에서 "종이 작성"이라는 구를 검색하면 많은 링크를 찾을 수 있습니다. "노래 가사의 자동 주제 감지"라는 논문 중 하나만 읽었습니다. 꽤 흥미롭고 재미 있습니다.

— knb
소스

Feinerer의 논문은 지금까지 가장 도움이 된 문서라고 생각합니다. 감사!

— Fr.

5

시작하기에 좋은 곳 은 다음과 같은 웹 사이트 의 출판물 목록입니다tm .

R.의 텍스트 마이닝 인프라 http://www.jstatsoft.org/v25/i05

이러한 각 출판물의 끝에있는 참조 목록에는 성공적인 응용 프로그램이 포함 tm되어 있습니다. 특히 참조의 참조를 따르는 경우 많은 것이 있습니다.

예를 들어, 다음은 관련이있을 수 있습니다.

Feinerer I, Hornik K (2007). 최고 행정 법원 관할 구역의 텍스트 마이닝. "C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds.), \ Data Analysis, Machine Learning 및 Applications (제 31 차 연례 Gesellschaft 컨퍼런스 컨퍼런스 진행) Klassikation eV, 2007 년 3 월 7 일 {독일, 프라이 부르크), "고전, 데이터 분석 및 지식 조직 연구. Springer-Verlag.

행운을 빕니다.

— 한 남자
소스

참조 주셔서 감사합니다. 그러나 이러한 간행물에서는 세부 사항의 수준이 충분하지 않습니다. 필자는 Feinerer의 논문을 읽어야 tm내 끝 에서 작동하는 방법에 대한 충분한 세부 정보를 얻을 수 있었습니다. 여전히 감사합니다 :)

— Fr.