bigram (N-gram) 모델을 사용하여 텍스트 문서의 피처 벡터 작성


10

텍스트 마이닝을위한 기능 구성에 대한 전통적인 접근 방식은 단어 별 접근 방식이며, tf-idf를 사용하여 주어진 텍스트 문서를 특성화하는 기능 벡터를 설정하여 향상시킬 수 있습니다. 현재 피처 벡터를 구축하기 위해 Bi-gram 언어 모델 또는 (N-gram)을 사용하려고하는데 어떻게 해야할지 모르겠습니다. 단어 대신 백 그램 단위로 빈도 수를 계산하고 tf-idf 가중치 구성표를 사용하여 향상시키는 등의 bag-of-words 접근 방식을 따를 수 있습니까?

답변:


4

예. 그래도 더 많은 기능을 생성 할 수 있습니다. 분류 기가 너무 시끄럽지 않도록 분류자를 익사하지 않도록 컷오프를 적용하는 것이 중요 할 수 있습니다 (예 : 데이터 그램에서 5 회 미만으로 발생하는 그림이나 단어와 같은 기능 삭제). 풍모.


감사. bigram (N-gram)으로 각 기능 값을 계산하는 일반적인 아이디어가 정확하다는 것을 의미합니까? 다시 말해, bag-of-words와 N-gram 모델 간의 피처 값을 계산하는 데 큰 차이가 없습니다. 설명 주셔서 감사합니다.
user3125

예, 일부 차단 수준으로 최소 빈도를 자르는 한 큰 기능 모음에서 모든 bigrams + unigrams (단어)를 모두 사용할 수 있습니다.
ogrisel

3

긍정적 인 상호 정보를 가진 것들만 선택함으로써 bigram의 수를 줄일 수 있습니다.

INEX XML 마이닝 트랙 ( http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp) 에서 bigrams 백을 생성하기 위해이를 수행했습니다 .

우리가 시도하지 않은 것은 bi-gram에 가중치를 부여하는 용어 사이에 상호 정보를 사용하는 것입니다. https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdfhttp : //www.nltk를 참조 하십시오 . bigram의 포인트 별 상호 정보에 대한 자세한 설명은 org / howto / collocations.html 을 참조하십시오.

참조 /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python/programming/22118350/python-sentiment-analysis 이와 관련된 다른 질문에 대해서는 -using-pointwise-mutual-information 을 사용합니다.


죽은 링크 :-( ...
Renaud

1
@Renaud 링크 :-) 업데이트되었습니다
크리스 드 브리스에게

0

무작위 투영법을 사용하여 데이터의 차원을 줄이면 기능을 저장하는 데 필요한 공간을 줄일 수 있습니다 ( https://en.wikipedia.org/wiki/Random_projection) . 그것은 매우 잘 확장되며 모든 예제는 PCA, SVD, Sammon Maps, NMF 등과 같은 직접적인 최적화 방법없이 독립적으로 낮은 차원 공간으로 투사 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.