데이터 과학 nltk

1

xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?

100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

단어의 의미 적 유사성을 어떻게 측정 할 수 있습니까?

단어의 의미 적 유사성을 알아내는 가장 좋은 방법은 무엇입니까? Word2Vec은 괜찮지 만 이상적이지는 않습니다. # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer …

20 nlp word-embeddings word2vec nltk

4

두 단어의 유사성

두 단어 또는 문장의 유사성을 식별하는 데 도움이되는 Python 라이브러리를 찾고 있습니다. 오디오를 텍스트로 변환하여 영어 사전 또는 비 사전 단어를 생성합니다 (개인 또는 회사 이름 일 수 있음). 그런 다음 알려진 단어와 비교해야합니다. 예: 1) 텍스트 대 오디오 결과 : America Expansion에 전화 해 주셔서 감사합니다 . American Express …

15 nlp nltk

«nltk» 태그된 질문