주어진 단어를 이름, 휴대폰 번호, 주소, 이메일, 주, 카운티, 도시 등으로 분류하는 데 사용되는 기계 / 딥 러닝 / nlp 기술


9

단어 또는 문자열 집합을 스캔하고 기계 학습 또는 딥 러닝을 사용하여 이름, 휴대폰 번호, 주소, 도시, 주, 국가 및 기타 엔티티로 분류 할 수있는 지능형 모델을 생성하려고합니다.

나는 접근법을 찾았지만 불행히도 취할 접근법을 찾지 못했습니다. 나는 끈이 이름인지 도시인지를 예측하기 위해 bag of words 모델과 gloved word embedding을 사용해 보았습니다.

그러나 나는 bag of words 모델에 성공하지 못했고 GloVe에는 포함 예제에서 다루지 않은 많은 이름이 있습니다 .- Lauren은 장갑에 있고 laurena는 그렇지 않습니다

이 게시물 찾았어요 여기에 합리적인 대답을했다,하지만 난이는 NLP와 SVM은 그것을 해결하는 데 사용 된 사실에서 떨어져 그 문제를 해결하는 데 사용에 접근 할 수 없었다.

모든 제안을 부탁드립니다

감사합니다. Sai Charan Adurthi.


4
답은 아니지만이를 명명 된 엔터티 인식이라고합니다. 해당 용어로 검색하면 유용한 정보가 표시 될 수 있습니다.
kbrose

@kbrose에게 감사합니다. 명명 된 엔터티 인식 기술을 살펴볼 것입니다.
사이 Charan Adurthi

답변:


1

문자 그램을 적용 할 수 있습니다. 직관적으로 전화 번호와 전자 메일 주소간에 문자 집합에 큰 차이가있을 수 있습니다. 그런 다음 문자 그램 벡터를 SVM에 전달하여 예측합니다. 아래 기능 추출기를 사용하여 sklearn에서 이것을 사용하여 구현할 수 있습니다.

  1. TfIdfVectorizer (분석기 = '문자')

  2. CountVectorizer (분석기 = '문자')

SVM의 ngram 범위와 슬랙 변수를 교차 검증하여 모델을 미세 조정하십시오.


감사! 아리따움 나는 현재 R을 사용하여 작업 중이며 sklearn을 살펴보고 작동하는지 확인합니다.
Sai Charan Adurthi

@Sai Charan Adurthi-도움이 되셨다면 공표 해 주시고 도움이 되셨다면 답변을 받으십시오.
karthikbharadwaj

확실히, 내가 파이썬에서 그것을 확인하면 확실히 그것을 할 것입니다 ...
Sai Charan Adurthi

0

단어에 공통 범주 레이블을 적용하는 것을 일반적으로 이름이 지정된 엔터티 인식 (NER)이라고 합니다.

NER는 정적 규칙 (예 : 정규식) 또는 학습 된 규칙 (예 : 의사 결정 트리)으로 수행 할 수 있습니다. 이러한 규칙은 종종 취하기 쉽고 일반화되지 않습니다. 조건부 임의 필드 (CRF) 는 잠재적 인 언어 상태를 모델링 할 수 있기 때문에 종종 더 나은 솔루션입니다. NER의 최신 성능 은 딥 러닝 모델의 조합으로 수행됩니다 .

스탠포드 개체 명 인식기적응는 NER을 수행 할 수있는 패키지입니다.


뇌 박사님 감사합니다! .. 그러나 한 단어 또는 문자열 단어 만 취하는 모델을 만들고 이름, 주소 등을 예측하고 싶습니다. R에서 Apache의 openNLP를 사용하여 NER를 사용해 보았습니다. 나는 성공하지 못했습니다. 그 안에. 문법과 품사를 활용하기 위해 단어 단락이 필요했기 때문에 우편 번호, 우편 번호 및 주 코드와 같은 것을 이해할 수있는 모델을 원합니다. 닥터 브레인 여기에 올바른 접근 방식으로 가고 있습니까?
사이 Charan Adurthi

단일 일반 모델이 있다고 생각해서는 안됩니다. 각 유형의 요소에 대한 모델을 작성해야합니다. 예를 들어, 대부분의 우편 번호는 정규식으로 찾을 수 있습니다. 또한 문맥은 왕이다. 한 단어가 주어진 모델은 NER를 예측하는 데 나쁜 역할을한다. 큰 텍스트 섹션을 갖는 것이 좋습니다.
Brian Spiering

안녕 @Dr. Brain, R의 text2vec 패키지를 사용해 보았지만 Glove Word 포함을 사용하여 단어가 얼마나 유사한 지 확인했습니다. 예 : 이름, 도시, 주, 국가 등의 카테고리로 1000 행의 데이터를 훈련하고 다른 값을 가진 테스트 데이터를 가지고 있습니다. 나는 text2vec를 사용하여 기차, 테스트 데이터 값 모두에 대한 TCM을 구성한 다음 장갑 모델을 해당 TCM에 맞추고 코사인 유사성 함수를 사용하여 범주별로 데이터를 학습하기 위해 테스트 데이터의 각 단어의 유사성을 확인했습니다. 그러나 글러브 모델을 생성하고 유사성을 확인할 때마다 좋은 정확도와 그 변수를 얻을 수 없었습니다.
사이 Charan Adurthi

감사합니다, Dr.Brian은 문장을 사용하여 컨텍스트를 얻고 NER를 사용하면 작동합니다. 그러나 단어 만 사용하여 모델에서 단어의 패턴을 배울 수 있는지 확인하고 싶습니다.
사이 Charan Adurthi

안녕하세요 Brain, Apache Open NLP를 사용하여 사전 훈련 된 NER 모델을 사용했습니다. 그리고 그렇습니다. 단어에서도 작동합니다.
사이 Charan Adurthi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.