텍스트 입력을 사용하고 몇 가지 범주를 기억하고 그에 따라 질문에 대답하는 봇을 훈련하고 싶습니다. 버전 2.0 외에도 봇이 음성 입력에 응답하도록 만들고 싶습니다. 동일한 머신 러닝 / AI 알고리즘 중 어떤 것이 가능합니까? 알려주세요.
텍스트 입력을 사용하고 몇 가지 범주를 기억하고 그에 따라 질문에 대답하는 봇을 훈련하고 싶습니다. 버전 2.0 외에도 봇이 음성 입력에 응답하도록 만들고 싶습니다. 동일한 머신 러닝 / AI 알고리즘 중 어떤 것이 가능합니까? 알려주세요.
답변:
귀하의 질문은 엄청나게 광범위합니다. 따라서 응답으로 볼 수 있도록 두 가지 광범위한 프레임 워크가 있습니다.
봇이 몇 가지 범주를 "기억"한 다음 질문에 대답하면 현재 시나리오에서 매우 쓸모가 없습니다. 이 경우 다른 데이터 세트 (테스트 세트)에서 성능이 매우 저하되기 때문입니다. 통계 용어에서는 "과적 합"이라고합니다. 그리고 "응답"이라는 질문에는 "최첨단"알고리즘을 정의하는 경험 법칙이 없습니다. 동적 메모리 네트워크 또는 seQ2seQ 모델을 좋아하는 아기 또는 유사한 데이터 세트에서 훌륭하게 수행 된 몇 가지 모델을 확인할 수 있지만. 이 분야의 기본 아이디어를 얻으려면 기본 기계 학습 용어를 배우고 고급 자연 언어 처리 과정 (stanford offer cs224n)으로 넘어가는 것이 좋습니다.
AbuShawar & Atwell 주 :
챗봇은 자연 언어를 사용하여 사용자와 교대로 대화하는 대화 형 에이전트입니다. 음성 대화 또는 텍스트 커뮤니케이션을 사용하여 다양한 챗봇 또는 인간 컴퓨터 대화 시스템이 개발되었으며 언어 연구, 언어 교육, 고객 서비스, 웹 사이트 도움말 및 재미와 같은 다양한 영역에 적용되었습니다.
그들의 논문과 다른 논문은이 글을 쓰는 시점에서 챗봇 교육에 대한 많은 현대적인 접근법 중 일부를 전달합니다.
Natural Dialogue Corpora의 Chatbot 교육 데이터 자동 추출 , Bayan AbuShawar, Eric Atwell, 2016
그러나 대부분의 챗봇은 파일에 수동으로 포함 된 지식과 작성되거나 말한 특정 자연 언어로 제한됩니다. 이 백서는 기계가 읽을 수있는 텍스트 (corpus)를 특정 챗봇 형식으로 변환하기 위해 개발 한 프로그램을 보여줍니다. 그런 다음 챗봇을 재교육하고 사람의 언어에 더 가까운 채팅을 생성하는 데 사용됩니다. 다른 코포 라가 사용되었다 : 영국 국립 코퍼스 (BNC)와 같은 대화 코포 라; 구절과 다음 구절이 차례가되는 독백 코퍼스 인 이슬람 꾸란의 거룩한 책; 질문과 답변이 한 쌍의 FAQ 인 FAQ입니다. 이 자동화 프로세스의 주요 목표는 말뭉치에 따라 다른 언어를 사용하는 다른 챗봇 프로토 타입을 생성하는 기능입니다.
파라미터 화 된 보조 강화 학습 , Chuandong Yin, Rui Zhang, Jianzhong Qi, Yu Sun 및 Tenglun Tan을 통한 상황-불확실성 인식 챗봇 액션 선택 2018
우리는 챗봇을 훈련시키기 위해 상황 불확실성 인식 챗봇과 강화 학습 (RL) 모델을 제안합니다. 제안 된 모델의 이름은 PA4C (Parameterized Auxiliary Asynchronous Advantage Actor Critic)입니다. 대화 시뮬레이터에서 사용자 발화 신뢰의 불확실성을 시뮬레이션하기 위해 사용자 시뮬레이터를 사용합니다. 순진한 규칙 기반 접근 방식과 비교할 때 PA4C 모델을 통해 학습 된 챗봇은 수작업으로 만든 작업 선택을 피하고 사용자 발화 분산에 더욱 강력합니다. PA4C 모델은 챗봇 교육을위한 액션 매개 변수화 및 보조 작업으로 기존 RL 모델을 최적화하여 넓은 액션 공간 및 무 보상 상태의 문제를 해결합니다. 캘린더 이벤트 생성 작업을위한 챗봇 교육에 대한 PA4C 모델을 평가합니다.
Chatbot Interaction을 이용한지도 학습 시스템 교육 , 미국 특허 출원 공개 0034828 A1, International Business Machines Corporation, Armonk, NY, US, 2019
데이터 포인트를 수신 및 분석하여 데이터 포인트의 파라미터를 결정하고, 데이터 포인트의 분석에 기초하여 경고 티켓을 생성하고, 챗봇을 통해, 경고 티켓에 포함 된 적어도 일부 정보를 하나에 전달하는 컴퓨터 구현 방법. 그 이상의 데이터 포인트를 생성 한 장치의 행동에 기초하여 경고 티켓을 초래 한 데이터 포인트를 챗봇을 통해 분류하고 더 많은 사용자. 조나단 A. 카가 다스, Alexander D. Lewitt, 사이먼 D. 미 쿨식, Karan Shukla, Leigh A. Williamson
작은 대화 코퍼스로 생성 채팅 챗봇을 구현하기위한 2 단계 교육 및 혼합 인코딩 디코딩 , 김진태, 이현구, 김학수, 이연수, 김영길, 2016
시퀀스 간 네트워크를 기반으로 한 생성 된 챗봇 모델은 거대한 대화 말뭉치를 훈련 데이터로 사용하면 자연스러운 대화 상호 작용을 생성 할 수 있습니다. 그러나 영어와 중국어와 같은 일부 언어를 제외하고는 큰 대화 모음을 수집하기가 여전히 어렵습니다. 이 문제를 해결하기 위해 단어와 음절을 혼합하여 인코딩 디코딩 단위로 사용하는 챗봇 모델을 제안합니다. 또한, 우리는 대화가 아닌 큰 말뭉치를 사용한 사전 훈련과 작은 대화 말뭉치를 사용한 재 훈련을 포함한 2 단계 훈련 방법을 제안합니다. 우리의 실험에서, 혼합 단위는 어휘 외 (OOV) 문제를 줄이는 데 도움이되는 것으로 나타났습니다. 또한, 2 단계 훈련 방법은 챗봇이 작은 대화 말뭉치를 사용하여 훈련되었을 때 응답에서 문법 및 의미 오류를 줄이는 데 효과적이었습니다 (533,
문장 삽입 , Mladen Dimovski, Claudiu Musat, Vladimir Ilievski, Andreea Hossmann, Michael Baeriswyl을 기반으로하는 목표 지향형 챗봇 교육을위한 하위 모듈 식에서 영감을 얻은 데이터 선택
목표 지향 챗봇 또는 개인 비서와 같은 음성 언어 이해 (SLU) 시스템은 의도를 결정하고 입력으로받는 사용자 쿼리에서 관련 정보를 추출하기 위해 초기 자연 언어 이해 (NLU) 모듈에 의존합니다. SLU 시스템은 일반적으로 사용자가 비교적 좁은 도메인에서 문제를 해결하고 많은 양의 도메인 내 교육 데이터를 필요로합니다. 이로 인해 성공적인 시스템의 개발을 방해하는 중대한 데이터 가용성 문제가 발생합니다. 이 문제를 완화하기 위해 적은 데이터 영역에서 데이터를 선택하는 기술을 제안하여 레이블이 적은 문장으로 훈련 할 수 있으므로 레이블링 비용이 줄어 듭니다. 우리는 하위 모듈 식에서 영감을 얻은 데이터 순위 기능, 비율 불이익 한계 이득, 텍스트 임베딩 공간으로부터 추출 된 정보에 기초하여 라벨링 할 데이터 포인트를 선택하기 위해. 우리는 임베딩 공간에서의 거리가 데이터 선택에 사용될 수있는 실용적인 정보원임을 보여줍니다. 우리의 방법은 알려진 두 가지 능동적 학습 기술을 능가하며 비용 효율적인 NLU 장치 교육을 가능하게합니다. 또한, 제안 된 선택 기술은 선택 단계 사이에서 모델을 재교육 할 필요가 없으므로 시간 효율적입니다.