증분 IDF (역 문서 빈도)


11

텍스트 마이닝 응용 프로그램에서 간단한 접근 방법 중 하나는 휴리스틱을 사용하여 문서의 간결한 스파 스 표현으로 벡터를 만드는 것입니다. 에 전체 코퍼스가 필요하기 때문에 전체 코퍼스가 선험적으로 알려진 배치 설정에 적합 합니다.tfidfidf

idf(t)=log|D||{d:td}|

여기서 는 용어, 는 문서, 는 문서 모음, (표시되지 않음)는 사전입니다.tdDT

그러나 일반적으로 시간이 지남에 따라 새 문서가 수신됩니다. 한 가지 옵션은 특정 수의 새 문서가 수신 될 때까지 기존 를 계속 사용 하여 다시 계산하는 것입니다. 그러나 이것은 다소 비효율적입니다. 모든 데이터가 미리 표시되면 증분 업데이트 체계에 대해 아는 사람이 있습니까? 아니면 동일한 개념을 포착하지만 점진적으로 계산할 수있는 또 다른 측정법이 있습니까?idf

가 시간이 지남에 따라 좋은 척도로 남아 있는지에 대한 관련 질문도 있습니다 . idf는 코퍼스 단어 빈도의 개념을 포착하기 때문에 시간에 따라 다른 단어의 빈도가 변함에 따라 코퍼스의 오래된 문서 (예를 들어, 코퍼스에 100 년이 넘는 저널 기사가 포함되어 있음)를 생각할 수 있습니다. 이 경우 새 문서가 들어올 때 실제로는 슬라이딩 윈도우 사용하여 오래된 문서를 버리는 것이 현명 할 수 있습니다 . 생각할 수 있듯이 새로운 벡터를 계산할 때 모든 이전 벡터를 저장할 수 있으며 1920-1930에서 문서를 검색하려면 해당 날짜 범위의 문서에서 계산 된 사용할 수 있습니다 . 이 접근법이 의미가 있습니까?idfidfidfidf

편집 : 사전 에 대해 별도의 관련 문제가 있습니다. 시간이 지남에 따라 이전에는 없었던 새로운 사전 용어가 생길 것이므로자라야하므로 벡터 의 길이입니다 . 오래된 벡터에 0을 추가 할 수 있기 때문에 이것이 문제가되지 않는 것 같습니다 .T|T|idfidf


멍청한 질문 : 각 t에 대한 분모를 저장하는 것이 문제입니까? | t |의 비율은 어떻게됩니까 | d | (일반적으로)처럼 보이는가?
steffen

죄송하지만 방정식이 명확하지 않을 수 있습니다. 는 시간 에서가 아니라 용어 t의 역 문서 빈도입니다 . 따라서 시간 당신은 길이즉 사전의 크기 (변경 될 수도 있음)입니다. 그 효과를 편집하겠습니다. idf(t)tt|T|
tdc

1
나는 방정식을 이해했다. 내 질문은 : 사전을 저장하는 데 아무런 문제가 없다면 | T |를 저장하는 대신 idfs one store | T | 분모 (방정식) + 문서 수 증분 업데이트는 문제가되지 않으며 idf는 즉시 계산됩니다. 나는 무언가를 간과 한 느낌이있다.
steffen

따라서 새로운 문서 주어지면 값을 가지면 의 분모에 하나를 추가하면됩니다.dd:tdt:td
tdc

정확히 이것이 가능하다면?
steffen

답변:


6

유용한 의견을 보내 주신 Steffen에게 감사드립니다. 나는 그 대답이 결국 매우 간단하다고 생각합니다. 그가 말했듯이 우리가해야 할 일은 현재 분모를 저장하는 것입니다 ( 라고 부름 ).z

z(t)=|{d:td}|

이제 새로운 문서 주어지면 다음과 같이 간단히 분모를 업데이트합니다.d

z(t)=z(t)+{1iftd0otherwise

그런 다음 새로운 벡터를 기반으로 를 다시 계산해야합니다 .tfidfidf

마찬가지로 오래된 문서를 제거하기 위해 비슷한 방식으로 분자를 줄입니다.

이것은 수행 우리 중 전체 저장해야한다는 것을 의미 잘만큼 행렬 매트릭스 (메모리 요구 두배) 또는, 우리가 계산해야 (계산적 비용을 증가) 필요시 점수. 나는 그 길을 볼 수 없습니다.tftfidftfidf

질문의 두 번째 부분에서는 시간이 지남에 따라 벡터 의 진화에 대해 위의 방법을 사용하고 다른 날짜 범위 (또는 콘텐츠 하위 집합)에 대해 "랜드 마크" 벡터 (분모) 세트를 저장할 수있는 것으로 보입니다. . 물론 는 사전 길이의 밀도가 높은 벡터이므로 많은 양을 저장하면 메모리가 많이 사용됩니다. 그러나 이것은 필요할 때 벡터 를 다시 계산하는 것이 좋습니다 ( 행렬을 저장 하거나 대신 저장해야 함 ).idfzzidftf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.