정보 검색과 정보 추출의 관계 및 차이점은 무엇입니까?


11

에서 위키 백과

정보 검색 은 정보 자원 모음에서 정보 요구와 관련된 정보 자원을 얻는 활동입니다. 검색은 메타 데이터 또는 전체 텍스트 인덱싱을 기반으로 할 수 있습니다.

에서 위키 백과

정보 추출 (IE) 은 비정형 및 / 또는 반 정형 기계 판독 가능 문서에서 정형 정보를 자동으로 추출하는 작업입니다. 대부분의 경우이 활동은 자연어 처리 (NLP)를 통한 인간 언어 텍스트 처리와 관련이 있습니다. 이미지 / 오디오 / 비디오에서 자동 주석 및 컨텐츠 추출과 같은 멀티미디어 문서 처리의 최근 활동은 정보 추출로 볼 수 있습니다.

정보 검색과 정보 추출의 관계와 차이점은 무엇입니까?

감사!

답변:


9

정보 검색쿼리를 기반으로 합니다. 필요한 정보를 지정하면 사람이 이해할 수있는 형태로 반환됩니다.

정보 추출 은 구조화되지 않은 정보를 구성하는 것에 관한 것입니다. 일부 소스를 고려 하면 모든 (관련) 정보 가 처리하기 쉬운 형태로 구조화됩니다. 이것은 인간이 이해할 수있는 형태 일 필요는 없으며 컴퓨터 프로그램의 용도로만 사용될 수 있습니다.

일부 출처 :


7

http://gate.ac.uk/ie/ 는 매우 훌륭하고 간결한 구별을 제공합니다.

정보 추출은 정보 검색이 아닙니다. 정보 추출은 키워드 검색 (어쩌면 동의어 사전에 의해 보강 됨)을 기반으로 쿼리와 관련이있는 문서의 하위 집합을 모음에서 복구하지 않는다는 점에서 전통적인 기술과 다릅니다. 대신, 목표는 사전 지정된 유형의 이벤트, 엔티티 또는 관계에 대한 중요한 사실을 다양한 언어로 된 문서에서 추출하는 것입니다. 그런 다음 이러한 사실은 일반적으로 데이터베이스에 자동으로 입력 된 다음 추세에 대한 데이터를 분석하거나 자연어 요약을 제공하거나 온라인 액세스를 위해 사용될 수 있습니다.

그림으로 표현하려면 :

정보 검색은 관련 문서 세트를 얻습니다.

여기에 이미지 설명을 입력하십시오

정보 추출은 문서에서 사실을 얻습니다.

여기에 이미지 설명을 입력하십시오


2

모델링 관점에서 볼 때 정보 검색은 통계, 수학, 언어학, 인공 지능 및 현재 데이터 과학을 포함한 여러 분야를 전제로하는 심층 분야입니다. 실제로,이 모델들은 데이터 내의 패턴을 발견하기 위해 corpora 내의 텍스트에 적용됩니다. IR 모델은 사용법이 겹칠뿐만 아니라 k- 평균 또는 k- 최근 접 이웃 모델과 같은 다른 모델과 "파트너"가 될 수 있으며, LDA / LDI 및 LDA / LDI와 같은 계산 언어의 유리한 관점에서 다른 모델을 적용 할 수 있습니다. 주제 모델링 그렇다면 최종 게임은 순위, 클러스터링 및 집계 작업 후 이러한 발견에 대한 일종의 정보 시각화입니다. 정보 검색은 비밀스러운 훈련으로 보일 수 있지만 진지한 노력으로 대단히 감사합니다. 각 모델에 대한 심층적 인 이해와 모델 간의 상호 작용을위한 영역을 여는 것입니다. IR의 기초를 탐구하기에 가장 적합한 장소로 "정보 개념, 검색 및 서비스에 대한 종합 강의"시리즈를 인용합니다.

IR과 정보 추출을 완전히 분리하지는 않지만 IE의 하위 집합 인 개념 수준 추출은 관련 온톨로지를 추출하기 위해 AI 기반 추론 규칙과 함께 IR 패턴을 적용합니다. 이러한 관계의 그래픽 특성은 OWL 및 RDF의 온톨로지 모델링과 그래프 데이터베이스를 통해 향상되어 덜 엄격하거나 엄격한 관계 모델링을 허용하고 자체적으로 제어되는 것이 아니라 표면과 더 많은 관계를 허용합니다. 정보 추출을 동적으로 확장 할 수있는 능력은 연구자들에게 "징계"를 강력하게 유지합니다.

IR과 IE는 우리 자신의 중요한 "현 시점의 엔터티"(일부는 "동적 온톨로지"라고 불림) – 일부는 팔란 티르 (Palantir) 임)에서 비즈니스를 수행하기 위해서는 중요한 엔터티의 패턴, 모델, 시뮬레이션 및 시각화가 필요합니다. 새로운 정보원을 변형시키고 기존 정보를 변경하는 얼굴. 개념, 관계, 정의, 패턴 및 존재 론적 모델링은 유연해야하고 시각화도 동일해야합니다. 정보 추출 및 추론 분야에서 Watson과 같은 AI 엔진이 과도하게 들어 올려 IE와 솔직한 IR 분야에서 주목을 받았습니다. 또한 자연어 처리 및 기계 학습의 편재성으로 인해 IR 및 IE 모델 및 엔진에 대한 관심이 높아지고 있습니다. IR 모델이 검색 및 SEO와 시맨틱 웹 모델링에 미치는 영향은 "


1

정보 검색 은 특정 쿼리 또는 관심 분야와 관련된 정보를 반환하는 것입니다. 이 정보는 일반적인 문서의 형태 일 수도 있습니다. 충분한 검색 엔진이 이러한 작업의 주목할만한 예입니다. 정보 검색을 위해 인식 할 수있는 가장 중요한 엔터티는 초기 문서 / 정보 및 "검색 대상"을 지정하는 쿼리입니다.

한편, 정보 추출 은 일련의 문서 또는 정보로부터 일반적인 지식 (또는 관계)을 추출 (또는 추론)하는 것에 관한 것이다. 여기서 문서의 모든 내용은 지식을 추출하는 전체 데이터 모음으로 간주 될 수 있습니다. 물론이 경우 추출하려는 항목을 어떻게 든 지정할 수 있지만 특정 주제 / 주제보다 속성 / 관계에 관한 것입니다. 속성은 도메인에 따라 다르지만 일반적으로 관계는보다 일반적인 시나리오에 적용됩니다.

다시 한 번 검색 엔진을 사용하면 특정 주제에 대한 정보를 포함 할 가능성이 가장 높은 사이트를 요청합니다. 이것은 정보 검색 의 예입니다 .

예를 들어 정보 추출 을 위해 문서 모음에 나타나는 도시 이름이나 전자 메일 주소를 모두 추출하도록 요청할 수 있습니다. 단순히 지식을 추출하도록 요구하는 훨씬 더 일반적인 방법으로 갈 수도 있습니다. 보시다시피 이것이 실제로는 일반적이지만, 예를 들어 텍스트의 각 유효한 문장에 대해 subject-action-object 형식의 트리플렛을 얻음으로써 달성 할 수 있습니다 (이것은 자연어 텍스트에 가장 적합합니다).

이 주제 (및 기타)에 관심이있는 경우 인공 지능 : 현대적 접근 책의 자연어 처리 장에서 자세히 설명 합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.