NER에 대한 감독되지 않은 기능 학습


11

나는 수작업으로 만들어진 CRF 알고리즘을 사용하여 NER 시스템을 구현하여 꽤 좋은 결과를 얻었습니다. 문제는 POS 태그 및 보조 정리를 포함하여 많은 다른 기능을 사용했다는 것입니다.

이제 다른 언어에 대해 동일한 NER를 만들고 싶습니다. 여기서 문제는 POS 태그와 젬마를 사용할 수 없다는 것입니다. 딥 러닝 및 비지도 기능 학습에 대한 기사를 읽기 시작했습니다.

내 질문은 :

CRF 알고리즘으로 비지도 기능 학습을위한 방법을 사용할 수 있습니까? 누구든지 이것을 시도하고 좋은 결과를 얻었습니까? 이 문제에 대한 기사 나 튜토리얼이 있습니까?

나는 여전히 이러한 기능 생성 방식을 완전히 이해하지 못하므로 작동하지 않는 것에 많은 시간을 소비하고 싶지 않습니다. 어떤 정보라도 도움이 될 것입니다. 딥 러닝을 기반으로 전체 NER 시스템을 만드는 것은 현재로서는 많은 부분입니다.

답변:


5

예, 비지도 학습과 CRF 모델을 결합하는 것은 전적으로 가능합니다. 특히, word2vec 기능을 CRF의 입력으로 사용할 가능성을 탐색하는 것이 좋습니다 .

Word2vec는 주어진 문맥에 적합한 단어와 무작위로 선택된 단어를 구별하기 위해 a를 훈련시킵니다. 모델의 가중치를 선택한 다음 주어진 단어의 밀도가 높은 벡터 표현으로 해석 할 수 있습니다.

이러한 조밀 한 벡터는 의미 상 또는 구문 상 유사한 단어가 유사한 벡터 표현을 갖는다는 매력적인 특성을 갖는다. 기본 벡터 산술은 단어 사이에 흥미로운 학습 관계를 보여줍니다.
예를 들어, vector ( "Paris")-vector ( "France") + vector ( "Italy")는 vector ( "Rome")와 매우 유사한 벡터를 생성합니다.

대략적으로, 희소 입력 벡터를 단어 유사성 정보를 포함하는 조밀 한 출력 벡터로 변환 할 수 있다는 점에서 word2vec 표현을 LDA 또는 LSA 표현과 유사한 것으로 생각할 수 있습니다.

LDA와 LSA는 감독되지 않은 기능 학습을위한 유효한 옵션이기도합니다. 둘 다 단어를 "주제"와 출력 밀집 단어 표현의 조합으로 표현하려고합니다.

영어 텍스트의 경우 Google은 1 천억 단어의 Google 뉴스 데이터 세트에 사전 훈련 된 word2vec 모델을 배포하지만 다른 언어의 경우 고유 한 모델을 학습해야합니다.


이봐, 주먹 대답 해줘서 고마워 질문이 하나 더 있습니다. word2vec 알고리즘에서 반환되는 워드 벡터는 부동 소수점 값을 가지므로 크고 큰 단어는 벡터 공간에 가까운 벡터를 갖지만 벡터 값은 완전히 다를 수 있습니다. 예를 들어 big = [0.1, 0.2, 0,3] 및 더 큰 = [0.11, 0.21, 0.31]입니다. 이 알고리즘은 CRF 알고리즘에 문제가되지 않습니까? CRF에서이 워드 벡터를 사용하기 전에 수행해야 할 추가 처리가 있습니까? 내 질문이 충분히 명확하기를 바랍니다.
MaticDiba

4

이 2014 논문 ( GitHub )에서 저자는 밀집된 임베딩, 이진화 된 임베딩, 클러스터 임베딩 및 새로운 프로토 타입 방법을 포함하여 CRF 기반 NER 시스템에 단어 임베딩을 통합하는 여러 전략을 비교했습니다 . vlad가 제안한대로 밀도가 높은 벡터를 직접 사용하는 것이 가장 간단하지만 여러 평가에서 가장 효과적이지 않습니다.

내 도메인 별 NER 프로젝트에서 프로토 타입 아이디어를 구현했으며 나에게 매우 효과적입니다.


3

나는 5 개월 늦었지만 CRFSuite를 사용하면 실제로 부동 기능을 문자열이 아닌 숫자로 사용할 수 있습니다. 이를 위해 각 측정 기준에 대해 고유 한 라벨을 만든 다음 ":"다음에 값을 추가하면됩니다.

예를 들어, "정글"이라는 단어는 5 차원으로 표시됩니다. 0.1 0.4 0.8 0.2 0.9

그런 다음 CRFSuite는 다음과 같은 단어 + 기능을 사용합니다.

LABEL f1 : 0.1 f2 : 0.4 f3 : 0.8 f4 : 0.2 f5 : 0.9

물론``LABEL ''을 실제 문자열로 바꾸고 모든 공백을 탭으로 분리하십시오 (CRFSuite 형식).

다른 패키지에 대해서는 확실하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.