«nlp» 태그된 질문

자연어 처리 (NLP)는 컴퓨터와 인간 (자연) 언어 간의 상호 작용과 관련된 컴퓨터 과학, 인공 지능 및 언어학 분야입니다. 따라서 NLP는 인간과 컴퓨터의 상호 작용 영역과 관련이 있습니다. NLP의 많은 과제는 자연 언어 이해, 즉 컴퓨터가 인간 또는 자연 언어 입력에서 의미를 도출 할 수있게하는 것과 관련이 있으며 다른 문제는 자연 언어 생성과 관련이 있습니다.


5
문장 유사성을위한 가장 실용적인 알고리즘
나는 S1과 S2의 두 문장을 가지고 있는데, 둘 다 단어 수가 (일반적으로) 15 미만입니다. 구현하기 쉬운 가장 실질적으로 유용하고 성공적인 (머신 러닝) 알고리즘은 무엇입니까 (아키텍처가 Google Inception 등과 같이 복잡하지 않으면 신경망은 괜찮습니다). 너무 많은 시간을 투자하지 않고 잘 작동하는 알고리즘을 찾고 있습니다. 성공적이고 사용하기 쉬운 알고리즘이 있습니까? 이는 클러스터링 …

1
NLP-왜 "정지"가 아닌 단어입니까?
주제 모델링을 수행하기 전에 중지 단어를 제거하려고합니다. 나는 어떤 부정 단어들도 (아무것도 아닌 등) 보통 중지 단어로 간주됩니다. 예를 들어, NLTK, spacy 및 sklearn은 중지 단어 목록에 "not"을 포함합니다. 그러나 아래 문장에서 "not"을 제거하면 의미가 상실되어 주제 모델링이나 감정 분석에 정확하지 않습니다. 1). StackOverflow is helpful => StackOverflow helpful 2). …

4
거대한 데이터를 위해 파이썬에서 t-sne 구현 속도 향상
200 치수 ( doc2vec)를 가진 거의 백만 개의 벡터에서 차원 축소를하고 싶습니다 . 모듈 TSNE에서 구현을 사용 sklearn.manifold하고 있으며 주요 문제는 시간 복잡성입니다. 로도 method = barnes_hut계산 속도는 여전히 느립니다. 언젠가는 심지어 메모리가 부족합니다. 130G RAM의 48 코어 프로세서에서 실행 중입니다. 병렬로 실행하거나 많은 리소스를 사용하여 프로세스 속도를 높이는 방법이 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
NLP-Gazetteer가 사기꾼입니까?
NLP에는 Gazetteer주석을 만드는 데 매우 유용한 개념 이 있습니다. 내가 이해하는 한도에서는: 가제트는 도시, 조직, 요일 등과 같은 엔티티의 이름을 포함하는 일련의 목록으로 구성됩니다.이 목록은 예를 들어 명명 된 엔티티 인식 작업과 같은 텍스트에서 이러한 이름의 발생을 찾는 데 사용됩니다. 따라서 본질적으로 조회입니다. 이런 종류의 속임수가 아닌가? Gazetteer명명 된 엔터티를 …

2
문서에서 가장 유익한 텍스트 부분 추출
현재 문서에 대한 대부분의 정보를 담고있는 텍스트 일부 추출에 대한 기사 나 토론이 있습니까? 예를 들어, 같은 도메인의 많은 문서 모음이 있습니다. 단일 문서에 대한 주요 정보를 담고있는 텍스트 부분이 있습니다. 해당 부분 중 일부를 추출하여 텍스트 요약으로 사용하고 싶습니다. 이와 같은 것을 달성하는 방법에 대한 유용한 문서가 있습니까? 이 …
16 nlp  text-mining 

3
단어 기반 및 문자 기반 텍스트 생성 RNN의 차이점은 무엇입니까?
Recurrent Neural Networks로 텍스트 생성에 대해 읽는 동안 실제로 단어를 말하지 않고 문자별로 단어 를 생성 하고 문자별로 문자 를 생성하기 위해 일부 예가 구현되었음을 알았습니다 . 그래서, 텍스트를 예측 RNN 모델 사이의 차이가 무엇 단어 당 기준 및 텍스트 예측 사람 당 문자 근거는? 단어 기반 RNN이 더 큰 …

4
두 단어의 유사성
두 단어 또는 문장의 유사성을 식별하는 데 도움이되는 Python 라이브러리를 찾고 있습니다. 오디오를 텍스트로 변환하여 영어 사전 또는 비 사전 단어를 생성합니다 (개인 또는 회사 이름 일 수 있음). 그런 다음 알려진 단어와 비교해야합니다. 예: 1) 텍스트 대 오디오 결과 : America Expansion에 전화 해 주셔서 감사합니다 . American Express …
15 nlp  nltk 

5
문장 유사성 예측
다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

4
사전 훈련 된 모델 가중치로 새로운 word2vec 모델을 초기화하는 방법은 무엇입니까?
Word2vector 모델을 사용하고 훈련시키기 위해 Python에서 Gensim Library를 사용하고 있습니다. 최근에 (GoogleNewDataset 사전 훈련 모델)과 같은 사전 훈련 된 word2vec 모델을 사용하여 모델 가중치를 초기화하려고했습니다. 나는 몇 주에 어려움을 겪고있다. 이제 gesim에는 사전 훈련 된 모델 가중치로 모델의 가중치를 초기화하는 데 도움이되는 기능이 있음을 검색했습니다. 아래에 언급되어 있습니다. reset_from(other_model) Borrow …

2
NLP의 분류 프로세스에서 구문 분석 트리에서 일반적으로 사용되는 기능은 무엇입니까?
다른 유형의 구문 분석 트리 구조를 탐색하고 있습니다. 널리 알려진 두 가지 구문 분석 트리 구조는 a) 구성 요소 기반 구문 분석 트리 및 b) 종속성 기반 구문 분석 트리 구조입니다. Stanford NLP 패키지를 사용하여 두 가지 유형의 구문 분석 트리 구조를 모두 사용할 수 있습니다. 그러나 분류 작업에 이러한 …

1
딥 러닝의 1D 컨볼 루션 레이어 란 무엇입니까?
2D 또는 3D 구현의 경우 이미지 처리를위한 딥 러닝에서 컨볼 루션 레이어의 역할과 메커니즘에 대해 잘 이해하고 있습니다. 이미지에서 2D 패턴 (3D의 경우 3 개 채널)을 "간단하게"포착하려고합니다. 그러나 최근에 나는 자연 언어 처리의 맥락에서 1D 컨볼 루션 레이어에 부딪 혔습니다. 내 이해에는 2D 컨볼 루션이 1D (벡터) 형태로는 드러날 수없는 …

3
자연어 대 SQL 쿼리
"자연 언어를 SQL 쿼리로 변환"시스템을 개발하고 있습니다. 비슷한 질문에 대한 답변을 읽었지만 원하는 정보를 얻을 수 없었습니다. 아래는 알고리즘에서 Arun Solanki의 Garima Singh에 의해 자연어를 관계형 데이터베이스에 대한 SQL 쿼리로 변환하기 위해 얻은 시스템의 순서도입니다. 음성 태그 지정 단계의 일부까지 이해했습니다. 그러나 나머지 단계에 어떻게 접근합니까? 가능한 모든 SQL 쿼리를 …

1
LSTM의 장점은 무엇입니까?
Keras 패키지에 대한 지식을 넓히고 있으며 사용 가능한 모델 중 일부를 툴링하고 있습니다. 해결하려는 NLP 이진 분류 문제가 있으며 다른 모델을 적용하고 있습니다. 일부 결과로 작업하고 LSTM에 대해 점점 더 많은 것을 읽은 후에는이 접근법이 내가 시도한 다른 것 (여러 데이터 세트에서)보다 훨씬 우수한 것처럼 보입니다. "왜 LSTM을 사용 하지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.