답변:
예. 그래도 더 많은 기능을 생성 할 수 있습니다. 분류 기가 너무 시끄럽지 않도록 분류자를 익사하지 않도록 컷오프를 적용하는 것이 중요 할 수 있습니다 (예 : 데이터 그램에서 5 회 미만으로 발생하는 그림이나 단어와 같은 기능 삭제). 풍모.
긍정적 인 상호 정보를 가진 것들만 선택함으로써 bigram의 수를 줄일 수 있습니다.
INEX XML 마이닝 트랙 ( http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp) 에서 bigrams 백을 생성하기 위해이를 수행했습니다 .
우리가 시도하지 않은 것은 bi-gram에 가중치를 부여하는 용어 사이에 상호 정보를 사용하는 것입니다. https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf 및 http : //www.nltk를 참조 하십시오 . bigram의 포인트 별 상호 정보에 대한 자세한 설명은 org / howto / collocations.html 을 참조하십시오.
참조 /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python 및 /programming/22118350/python-sentiment-analysis 이와 관련된 다른 질문에 대해서는 -using-pointwise-mutual-information 을 사용합니다.
무작위 투영법을 사용하여 데이터의 차원을 줄이면 기능을 저장하는 데 필요한 공간을 줄일 수 있습니다 ( https://en.wikipedia.org/wiki/Random_projection) . 그것은 매우 잘 확장되며 모든 예제는 PCA, SVD, Sammon Maps, NMF 등과 같은 직접적인 최적화 방법없이 독립적으로 낮은 차원 공간으로 투사 될 수 있습니다.