데이터 세트에서 시맨틱 검색을 수행하려는 위치에서 해결하려는 문제가 있습니다. 예를 들어, 도메인 특정 데이터 (예 : 자동차에 관한 문장)
우리의 데이터는 문장의 한 묶음이며 우리가 원하는 것은 문구를주고 다음과 같은 문장을 다시 얻는 것입니다.
- 그 문구와 비슷
- 문구와 유사한 문장의 일부가 있음
- 문맥 상 유사한 의미를 갖는 문장
"구매 경험"이라는 문구를 검색한다고 가정하면 다음과 같은 문장이 표시됩니다.
- 자동차 구매에 서명하고 구매하는 데 30 분도 걸리지 않을 것이라고 생각한 적이 없습니다.
내가 좋아하는 자동차를 찾았고 구매 과정이
간단하고 쉬웠다나는 자동차 쇼핑을하는 것을 절대적으로 싫어했지만 오늘 나는 기뻤다.
나는 우리가 단지 무차별적인 단어 검색이 아니라 문맥상의 유사성을 찾고 있다는 사실에 중점을두고 싶습니다 .
문장이 다른 단어를 사용하면 그것을 찾을 수 있어야합니다.
우리가 이미 시도한 것들 :
Open Semantic Search 여기서 직면 한 문제는 우리가 보유한 데이터에서 온톨로지를 생성하거나 관심있는 다른 영역에서 사용 가능한 온톨로지를 검색하는 것입니다.
Elastic Search (BM25 + Vectors (tf-idf)), 우리는 몇 문장을 제공했지만 정밀도는 그다지 좋지 않은 곳에서 이것을 시도했습니다. 정확도도 나빴습니다. 우리는 인간이 다루는 데이터 세트에 대해 시도했지만 문장의 약 10 % 만 얻을 수있었습니다.
우리는 문장- 변형기에서 한 번 언급 한 것과 같은 다른 삽입을 시도 했으며 또한 예제를 통해 인간이 만든 세트에 대해 평가를 시도했으며 정확도도 매우 낮았습니다.
우리는 ELMO를 시도했다 . 이것은 우리가 예상했던 것보다 낫지 만 여전히 정확도가 낮으며 코사인 값을 결정하는인지 부하가 있습니다. 이것은 포인트 3에도 적용됩니다.
도움을 주시면 감사하겠습니다. 미리 도움을 주셔서 감사합니다