많은 텍스트 문서 (자연어, 구조화되지 않은)가있는 경우, 의미 론적 메타 데이터로 주석을 달 수있는 가능한 방법은 무엇입니까? 예를 들어 짧은 문서를 생각해보십시오.
I saw the company's manager last day.
정보를 추출 할 수 있으려면 모호하지 않도록 추가 데이터로 주석을 달아야합니다. 이러한 메타 데이터를 찾는 프로세스는 문제가되지 않으므로 수동으로 수행한다고 가정하십시오. 문제는 이러한 데이터를보다 편리하고 효율적으로 수행 할 수있는 방식으로 이러한 데이터를 저장하는 방법입니다.
가능한 접근 방식은 XML 태그를 사용하는 것이지만 (아래 참조) 너무 장황한 것 같으며 텍스트 문서에 이러한 메타 데이터를 저장하기위한 더 나은 접근 방법 / 지침이있을 수 있습니다.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.