텍스트 마이닝 응용 프로그램에서 간단한 접근 방법 중 하나는 휴리스틱을 사용하여 문서의 간결한 스파 스 표현으로 벡터를 만드는 것입니다. 에 전체 코퍼스가 필요하기 때문에 전체 코퍼스가 선험적으로 알려진 배치 설정에 적합 합니다.
여기서 는 용어, 는 문서, 는 문서 모음, (표시되지 않음)는 사전입니다.
그러나 일반적으로 시간이 지남에 따라 새 문서가 수신됩니다. 한 가지 옵션은 특정 수의 새 문서가 수신 될 때까지 기존 를 계속 사용 하여 다시 계산하는 것입니다. 그러나 이것은 다소 비효율적입니다. 모든 데이터가 미리 표시되면 증분 업데이트 체계에 대해 아는 사람이 있습니까? 아니면 동일한 개념을 포착하지만 점진적으로 계산할 수있는 또 다른 측정법이 있습니까?
가 시간이 지남에 따라 좋은 척도로 남아 있는지에 대한 관련 질문도 있습니다 . idf는 코퍼스 단어 빈도의 개념을 포착하기 때문에 시간에 따라 다른 단어의 빈도가 변함에 따라 코퍼스의 오래된 문서 (예를 들어, 코퍼스에 100 년이 넘는 저널 기사가 포함되어 있음)를 생각할 수 있습니다. 이 경우 새 문서가 들어올 때 실제로는 슬라이딩 윈도우 사용하여 오래된 문서를 버리는 것이 현명 할 수 있습니다 . 생각할 수 있듯이 새로운 벡터를 계산할 때 모든 이전 벡터를 저장할 수 있으며 1920-1930에서 문서를 검색하려면 해당 날짜 범위의 문서에서 계산 된 사용할 수 있습니다 . 이 접근법이 의미가 있습니까?
편집 : 사전 에 대해 별도의 관련 문제가 있습니다. 시간이 지남에 따라 이전에는 없었던 새로운 사전 용어가 생길 것이므로자라야하므로 벡터 의 길이입니다 . 오래된 벡터에 0을 추가 할 수 있기 때문에 이것이 문제가되지 않는 것 같습니다 .