n-gram은 어떤 n에서 비생산적인가?


13

자연어 처리를 할 때, 코퍼스를 취하고 n의 순서로 다음 단어가 발생할 확률을 평가할 수 있습니다. n은 일반적으로 2 또는 3 (bigrams 및 trigrams)으로 선택됩니다.

해당 수준에서 특정 모음을 한 번 분류하는 데 걸리는 시간을 고려할 때 n 번째 체인에 대한 데이터 추적이 비생산적인 것으로 알려진 시점이 있습니까? 또는 (데이터 구조) 사전에서 확률을 찾는 데 시간이 얼마나 걸립니까?


차원의 저주에 대한 다른 스레드 와 관련
Antoine

답변:


2

해당 수준에서 특정 모음을 한 번 분류하는 데 걸리는 시간을 고려할 때 n 번째 체인에 대한 데이터 추적이 비생산적인 것으로 알려진 시점이 있습니까?

난도 대 n-gram 크기 표 또는 그림을 찾아야합니다 .

예 :

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

여기에 이미지 설명을 입력하십시오

http://images.myshared.ru/17/1041315/slide_16.jpg :

여기에 이미지 설명을 입력하십시오

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

여기에 이미지 설명을 입력하십시오

난처함은 언어 모델, n-gram 크기 및 데이터 세트에 따라 다릅니다. 평소와 같이 언어 모델의 품질과 실행하는 데 걸리는 시간 사이에는 상충 관계가 있습니다. 오늘날 최고의 언어 모델은 신경망을 기반으로하기 때문에 n-gram 크기 선택은 문제가되지 않습니다 (그러나 CNN을 사용하는 경우 다른 하이퍼 파라미터 중에서도 필터 크기를 선택해야합니다 ...).


12

"카운터 생산성"측정 값은 임의적 일 수 있습니다 (예 : 빠른 메모리가 많으면 처리 속도가 빨라집니다 (보다 합리적으로).

그렇게 말하면 지수 성장이 일어나고 내 자신의 관찰에서 3-4 마크 정도 인 것으로 보입니다. (나는 구체적인 연구를 보지 못했다).

Trigram은 bigram보다 장점이 있지만 작습니다. 나는 4 그램을 구현 한 적이 없지만 개선은 훨씬 적습니다. 아마도 비슷한 차수의 감소입니다. 예 : 트라이 그램이 bigram보다 10 % 개선 된 경우, 4 그램에 대한 합리적인 추정치는 트라이 그램보다 1 % 개선 될 수 있습니다.

10,000100002100003100004

당신은 희석 효과를 보상하기 위해 거대한 코퍼스가 필요하지만 Zipf의 법칙에 따르면 거대한 코퍼스는 훨씬 더 독특한 단어를 가질 것이라고합니다 ...

이것이 우리가 많은 bigram 및 trigram 모델, 구현 및 데모를 보는 이유라고 추측합니다. 그러나 완전히 작동하는 4 그램 예제는 없습니다.


2
좋은 요약입니다. 다음 백서의 48-53 페이지 ( "긴 장거리 냉소 형 당뇨병")에 대한 자세한 내용이 나와 있습니다 (이 논문에는 고차 n- 그램에 대한 결과도 포함되어 있음) research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny

2
연결이 끊어졌습니다. 다음은 arXiv 버전에 대한 전체 참조 및 링크입니다. Joshua T. Goodman (2001). 언어 모델링의 진보 : 확장 버전. Microsoft Research : 미국 워싱턴 주 레드몬드 기술 보고서 ​​MSR-TR-2001-72.
scozy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.