«natural-language» 태그된 질문

자연어 처리는 언어 처리, 인공 지능, 기계 학습 및 통계에서 인간 언어 처리 및 이해를 목표로하는 기술 세트입니다.

2
SpaCy의 .similarity 방법은 어떻게 계산됩니까?
이것이 올바른 스택 사이트라면 확실하지 않지만 여기에 있습니다. .similiarity 방법은 어떻게 작동합니까? 와우 spaCy는 위대하다! tfidf 모델이 더 쉬울 수 있지만 한 줄의 코드로 w2v가 가능합니까?! spaCy andrazhribernik 에 대한 10 줄의 튜토리얼에서 우리는 토큰, 전송, 단어 청크 및 문서에서 실행할 수있는 .similarity 방법을 보여줍니다. 후 nlp = spacy.load('en')와 doc …


2
시간에 따른 잘린 역 전파를 사용할 때 초기 패턴 캡처 (RNN / LSTM)
RNN / LSTM을 사용하여 감정 분석을 수행한다고하는데, 이는 다 대일 접근 방식입니다 ( 이 블로그 참조 ). 네트워크는 절단 된 역 전파 전파 시간 (BPTT)을 통해 훈련되며, 여기서 네트워크는 평소와 같이 30 개의 마지막 단계 만 수행됩니다. 필자의 경우 분류하려는 각 텍스트 섹션이 풀리는 30 단계 (~ 100 단어)보다 훨씬 …

2
왜 단어 대신 텍스트 언어 식별에 n-gram이 사용됩니까?
널리 사용되는 두 가지 언어 식별 라이브러리 인 C ++ 용 Compact Language Detector 2와 Java 용 언어 탐지기 에서 둘 다 (문자 기반) n-gram을 사용하여 텍스트 기능을 추출했습니다. 단어 백 (한 단어 / 사전)이 사용되지 않는 이유는 무엇입니까? 단어 백과 n- 그램의 장점과 단점은 무엇입니까? 또한 텍스트 분류에서 n-grams …

2
다중 레이블 분류 문제에 신경망을 적용하는 방법은 무엇입니까?
기술: 문제 영역은 각각 하나 이상의 클래스에 속하는 일련의 특징 벡터가 존재하는 문서 분류로하자. 예를 들어, 문서 doc_1는 Sports및 English범주에 속할 수 있습니다 . 질문: 분류를 위해 신경망을 사용하면 특징 벡터의 레이블은 무엇입니까? 관련이없는 클래스에 0 값이 주어지고 관련 클래스에 1이되도록 모든 클래스를 구성하는 벡터입니까? 따라서 클래스 레이블 목록이 [Sports, …

3
Word2Vec의 스킵 그램 모델은 어떻게 출력 벡터를 생성합니까?
Word2Vec 알고리즘의 스킵 그램 모델을 이해하는 데 문제가 있습니다. 연속 단어 단위로 신경망에서 문맥 단어가 어떻게 "맞을"수 있는지 쉽게 알 수 있습니다. 기본적으로 각각의 one-hot 인코딩 표현에 입력 행렬 W를 곱한 후 평균을 계산하기 때문입니다. 그러나 skip-gram의 경우 one-hot encoding과 입력 행렬을 곱하여 입력 단어 벡터 만 얻은 다음 컨텍스트 …

1
성능 측면에서 단어 포함 알고리즘
약 6 천만 개의 문구를 벡터 공간 에 삽입하려고 시도하고 그 사이 의 코사인 유사성 을 계산 하려고합니다. 나는 유니 그램 CountVectorizer과 bigram을 생성하는 맞춤형 내장 토큰 화 기능과 함께 sklearn을 사용 하고 있습니다. 의미있는 표현을 얻으려면 행 수에서 선형으로 엄청난 수의 열을 허용해야합니다. 이로 인해 엄청나게 희소 행렬이 발생하여 …

1
기대 극대화 설명
EM 알고리즘 에 관한 매우 유용한 튜토리얼을 찾았습니다 . 튜토리얼의 예제와 그림은 단순히 훌륭합니다. 확률 계산에 대한 관련 질문 기대 최대화가 어떻게 작동합니까? 튜토리얼에 설명 된 이론을 예제에 연결하는 방법에 관한 또 다른 질문이 있습니다. 전자 단계에서, EM 함수를 선택 그 하한은 로그 P ( X , Θ ) 도처하고있는 …

1
SVD 이전에 단어 동시 발생 행렬에 포인트 상호 정보를 적용하는 장단점은 무엇입니까?
단어 포함을 생성하는 한 가지 방법은 다음과 같습니다 ( mirror ). 예를 들어 "나는 비행을 즐긴다. 나는 NLP를 좋아한다. 나는 딥 러닝을 좋아한다." 그것에서 단어 동시성 매트릭스를 빌드하십시오. XXX 에서 SVD를 수행 하고 U 의 첫 번째 kkk 열을 유지하십시오 . U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} 2 단계와 3 단계 사이에 포인트 상호 정보 …

2
연속 단어 모음에 대한 질문
이 문장을 이해하는 데 문제가 있습니다. 제안 된 첫 번째 아키텍처는 피드 포워드 NNLM과 유사합니다. 여기서 비선형 히든 레이어가 제거되고 프로젝션 레이어는 프로젝션 매트릭스뿐만 아니라 모든 단어에 대해 공유됩니다. 따라서 모든 단어가 같은 위치에 투영됩니다 (그들의 벡터는 평균화됩니다). 프로젝션 레이어와 프로젝션 매트릭스는 무엇입니까? 모든 단어가 같은 위치에 투사된다는 것은 무슨 …

2
LSTM을 사용하여 언어 모델링 작업에서 알 수없는 단어 처리
자연어 처리 (NLP) 작업의 경우 단어에 대한 포함으로 word2vec 벡터 를 종종 사용합니다 . 그러나, 단어 2vec 벡터에 의해 포착되지 않는 많은 알 수없는 단어가있을 수 있습니다. 단순히이 단어가 훈련 데이터에서 자주 보이지 않기 때문입니다 (많은 구현에서는 단어를 단어에 추가하기 전에 최소 개수를 사용합니다). 특히 단어의 철자가 틀린 Twitter와 같은 …

5
단어 빈도 데이터의 분산을 측정하는 방법은 무엇입니까?
단어 개수로 구성된 벡터에서 분산 량을 어떻게 정량화 할 수 있습니까? 자주 발생하지 않는 여러 단어가 포함되어 있기 때문에 문서 A에 대해 높은 통계를 찾고 있는데, 자주 발생하는 단어 하나 (또는 ​​몇 단어)가 포함되어 있기 때문에 문서 B에 대해서는 낮습니다. 보다 일반적으로 명목 데이터의 분산 또는 "확산"을 어떻게 측정합니까? 텍스트 …

1
TF-IDF 로그에서 로그 사용 이해
나는 읽고 있었다: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다. 내가 이해하는 것 : iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다. 그 관점에서 나는 D F( S) = # 문서의# S를 포함하는 서류나는디에프(에스)=# 문서# S가 포함 된 …

3
bigram (N-gram) 모델을 사용하여 텍스트 문서의 피처 벡터 작성
텍스트 마이닝을위한 기능 구성에 대한 전통적인 접근 방식은 단어 별 접근 방식이며, tf-idf를 사용하여 주어진 텍스트 문서를 특성화하는 기능 벡터를 설정하여 향상시킬 수 있습니다. 현재 피처 벡터를 구축하기 위해 Bi-gram 언어 모델 또는 (N-gram)을 사용하려고하는데 어떻게 해야할지 모르겠습니다. 단어 대신 백 그램 단위로 빈도 수를 계산하고 tf-idf 가중치 구성표를 사용하여 …

2
공통 주제별로 문자열을 그룹화하려면 어떻게해야합니까?
예를 들어, 프로그래밍에 관한 다른 문자열로 프로그래밍하는 것에 관한 문자열, 물리학에 관한 다른 문자열을 가진 물리에 관한 문자열 등을 광범위한 주제로 그룹화하려고합니다. 문제의 눈에 띄는 이론적 언어 측면에도 불구하고 실제로 프로그래밍 / 소프트웨어를 사용 하여이 작업을 수행하려고합니다. 요약 : 많은 문자열이 주어지면 의미 론적 주제별로 그룹화하는 방법은 무엇입니까? 특정 응용 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.