«nltk» 태그된 질문

Natural Language Toolkit은 계산 언어학을위한 Python 라이브러리입니다.

7
엔트로피와 정보 획득이란 무엇입니까?
이 책을 읽고 있는데 ( NLTK ) 혼란 스럽습니다. 엔트로피 는 다음과 같이 정의됩니다 . 엔트로피는 각 레이블의 확률에 동일한 레이블의 로그 확률을 곱한 값의 합입니다. 텍스트 마이닝과 관련하여 엔트로피 와 최대 엔트로피 를 어떻게 적용 할 수 있습니까? 누군가 나에게 쉽고 간단한 예를 줄 수 있습니까 (시각적)?

15
nltk.data.load로 english.pickle을 (를) 불러 오지 못했습니다.
punkt토크 나이저 를로드하려고 할 때 ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... LookupError가 제기되었습니다. > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' …
144 python  jenkins  nltk 


15
파이썬에서 n 그램, 4, 5, 6 그램?
텍스트를 n 그램으로 나누는 방법을 찾고 있습니다. 일반적으로 다음과 같은 작업을 수행합니다. import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams nltk는 bigram과 trigram 만 제공하지만 텍스트를 4 그램, 5 그램 또는 심지어 100 그램으로 분할하는 방법이 있습니까? 감사!
137 python  string  nltk  n-gram 

9
파이썬으로 단어가 영어 단어인지 확인하는 방법?
단어가 영어 사전에 있는지 파이썬 프로그램에서 확인하고 싶습니다. 나는 nltk wordnet 인터페이스가 갈 길이라고 생각하지만 그런 간단한 작업에 그것을 사용하는 방법에 대한 실마리는 없습니다. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) 앞으로, 단어의 단수형이 사전에 있는지 확인하고 싶을 수도 있습니다 (예 : 속성-> 속성-> 영어 단어). 어떻게하면 …
134 python  nltk  wordnet 


11
NLTK 토크 나이저를 사용하여 구두점을 제거하는 방법은 무엇입니까?
방금 NLTK를 사용하기 시작했는데 텍스트에서 단어 목록을 얻는 방법을 잘 모르겠습니다. 을 사용하면 nltk.word_tokenize()단어 목록과 구두점을 얻습니다. 대신 단어 만 필요합니다. 구두점을 제거하려면 어떻게해야합니까? 또한 word_tokenize여러 문장에서 작동하지 않습니다. 점이 마지막 단어에 추가됩니다.
125 python  nlp  tokenize  nltk 

12
nltk 또는 python을 사용하여 불용어를 제거하는 방법
그래서 사용에서 불용어를 제거하고 싶은 데이터 세트가 있습니다. stopwords.words('english') 나는 단순히이 단어를 제거하기 위해 코드 내에서 이것을 사용하는 방법에 어려움을 겪고 있습니다. 이 데이터 세트의 단어 목록이 이미 있습니다. 제가 고민하고있는 부분은이 목록과 비교하여 불용어를 제거하는 것입니다. 도움을 주시면 감사하겠습니다.
110 python  nltk  stop-words 

7
설치된 nltk, scikit learn 버전을 확인하는 방법은 무엇입니까?
쉘 스크립트에서이 패키지가 설치되었는지 여부를 확인하고 있습니다. 설치되지 않은 경우 설치합니다. 따라서 쉘 스크립트를 사용하여 : import nltk echo nltk.__version__ 하지만 import라인 에서 쉘 스크립트를 중지 합니다. 리눅스 터미널에서 다음과 같은 방식으로 보려고했습니다. which nltk 설치되었다고 생각하지 않습니다. 쉘 스크립트에서이 패키지 설치를 확인하는 다른 방법이 있습니까 (설치되지 않은 경우 설치).

26
거의 모든 라이브러리를 설치하는 pip 문제
거의 모든 것을 설치하기 위해 pip를 사용하는 데 어려움이 있습니다. 나는 코딩을 처음 접했기 때문에 이것이 내가 잘못하고있는 일이라고 생각하고 내가 필요한 대부분의 작업을 수행하기 위해 easy_install을 선택했지만 일반적으로 작동했습니다. 그러나 이제 nltk 라이브러리를 다운로드하려고하는데 둘 다 작업이 완료되지 않았습니다. 나는 들어 가려고했다 sudo pip install nltk 그러나 다음과 같은 …
101 python  pip  nltk  easy-install 

17
리소스 u'tokenizers / punkt / english.pickle '을 찾을 수 없습니다.
내 코드 : import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') 에러 메시지: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …
96 python  unix  nltk 

6
Python : tf-idf-cosine : 문서 유사성 찾기
Part 1 & Part 2 에서 사용할 수있는 튜토리얼을 따르고있었습니다 . 불행히도 저자는 실제로 두 문서 사이의 거리를 찾기 위해 코사인 유사성을 사용하는 마지막 섹션에 대한 시간이 없었습니다. 나는 stackoverflow 의 다음 링크의 도움으로 기사의 예제를 따랐 습니다. 위 링크에 언급 된 코드가 포함되어 있습니다 (삶을 더 쉽게 만들기 위해) …



4
NLTK로 새 말뭉치 만들기
나는 종종 내 제목에 대한 답은 가서 문서를 읽는 것이라고 생각했지만 NLTK 책을 훑어 보았지만 답을 얻지 못했습니다. 저는 Python에 익숙하지 않습니다. 많은 .txt파일이 있고 NLTK가 말뭉치에 제공하는 말뭉치 기능을 사용할 수 있기를 원합니다 nltk_data. 시도 PlaintextCorpusReader했지만 더 이상 얻을 수 없습니다. >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = …
83 python  nlp  nltk  corpus 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.