예를 들어, 프로그래밍에 관한 다른 문자열로 프로그래밍하는 것에 관한 문자열, 물리학에 관한 다른 문자열을 가진 물리에 관한 문자열 등을 광범위한 주제로 그룹화하려고합니다. 문제의 눈에 띄는 이론적 언어 측면에도 불구하고 실제로 프로그래밍 / 소프트웨어를 사용 하여이 작업을 수행하려고합니다.
요약 : 많은 문자열이 주어지면 의미 론적 주제별로 그룹화하는 방법은 무엇입니까?
특정 응용 프로그램 : 나는 일반적인 그룹 (자동차, 컴퓨터, 정치, 캐나다, 음식, 버락 오바마 등)으로 분류하고 싶은 ~ 200,000 개의 퀴즈 질문이 있습니다.
내가 살펴본 것 : Wikipedia에는 자연어 처리 툴킷 목록이 있는데 (내가하려고하는 것이 실제로 NLP라고 가정 함) 몇 가지를 보았지만 내 요구와 비슷한 것을 수행하지 않는 것 같습니다.
참고 : 이 작업을 수행하려면 추가 지식 (예 : 포르쉐는 자동차, C ++은 프로그래밍 언어)이 필요합니다. 그런 다음 교육 데이터가 필요하다고 가정하지만 질문과 답변 목록 만있는 경우 교육 데이터를 어떻게 생성 할 수 있습니까? 그런 다음 교육 데이터를 어떻게 사용합니까?
추가 참고 사항 : 현재 Q & A의 형식이 도움말 인 경우 (JSON처럼 보이지만 기본적으로 원시 텍스트 파일 임) :
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
그러나 누군가가 이미 범주가 있음을 지적하기 전에 ~ 200k 개의 질문과 답변이 있으며 기본적으로 많은 "범주"가 있습니다. 위에 나열된 것과 같이 더 넓은 그룹으로 그룹화하려고합니다. 또한이 형식은 모든 질문에 대해 매우 쉽게 변경할 수 있습니다. 프로그래밍 방식으로 수행합니다.
그리고 더 많은 메모 : 실제로 모든 질문을 스스로 읽지 않았기 때문에 필요한 범주 (최소 10-20)가 얼마나되는지 알지 못합니다 . 나는 분류하는 동안 어떻게 든 유한 숫자가 결정되도록 기대했다. 어쨌든 항상 여러 범주를 수동으로 만들 수 있습니다.