백만 개가 넘는 문서 모음
주어진 문서에 대해 벡터 공간 모델 에서와 같이 코사인을 사용하여 유사한 문서를 찾으려고 합니다.
이 tf-idf 와 같이 더 긴 문서에 대한 편견을 방지하기 위해 모든 tf는 기능 보강 된 빈도를 사용하여 정규화되었습니다 .
모두 미리 계산했습니다
분모 값이 미리 계산
되어 있으므로 주어진 d 1에 대해 백만 d 이상을 기록해야합니다. 2
유사성에 대해 0.6 코사인 임계 값을 갖습니다.
나는 주어진 상당히 좁은 범위가 | | d 2 | | 코사인에 대한 ≥ 0.6
의 코사인 유사 하나 개의 검색 예를 들어 ≥ 0.6과 | | d 1 | | 7.7631 중 | | d 2 | | 7.0867 ~ 8.8339 범위 :
코사인 임계 값을 벗어난 경우 0.6 | | d 2 | | 0.7223 ~ 89.3395 범위
이 표준 TF 문서 정상화했다
그것의 많은보고있다 코사인 0.6 경기가 될 가능성이없는
마지막으로 질문 :
기부 및 코사인> = 0.6 범위 | | d 2 | | 그 기회가 있습니까?
어느 | | d 2 | | 안전하게 제거 할 수 있습니까?
용어 개수 범위가 있으면 및 d 2 의 항 수도 알고 있습니다.
실험을 통해
와 | | d 2 | | < | | d 1 | | / .8
안전 해 보이지만 안전하다는 것이 입증 된 범위가 있기를 바랍니다.
매우 독특한 용어, 너무 독특하지 않은 용어 및 일반적인 용어로 테스트 사례를 작성했습니다. 물론 가장 독특한 용어를 사용하여 비교에서 해당 빈도를 늘릴 수 있습니다. 분자는 (dot product) 올라가고 || compar || 코사인은 1에 매우 가깝습니다.
관련이 있고 질문이 아닙니다.
또한 tf-idf를 사용하여 문서를 그룹으로 그룹화합니다. 내가 팔고있는 고객층은 근처의 Dup Group 근처에 사용됩니다. 거기에서 관련 접근법을 사용하고 있습니다. 가장 작은 용어 수로보고 최대 3 배의 용어 수에 대해 평가합니다. 따라서 10이라는 용어 개수는 10에서 30까지입니다 (4-9는 이미 10에 총을 맞았습니다). 여기서 나는 다른 하나에서 픽업 된 것을 놓칠 여유가 있습니다. 나는 10 % 완료되었고 가장 큰 비율은 1.8입니다.
이 분석에서 결함을 확인하시기 바랍니다
AN6U5가 가리키는 아웃이 분석에 결함이 존재하므로
문서가 가중에 정상화되면 그것은 더 이상 코사인
그리고 매튜가 가리키는 아웃으로도 d1⋅d2≤d1⋅d1 결론을 내릴 수없는
나는 여전히 뭔가를 기대하는 것은 나에게주는 바인딩하지만이 물건을 모르는 것 같다 사람들이 저를 말하고있다 열심히 아니요
난 그냥이 무시 그래서 질문을 변경하지 않으
내가 몇 가지 분석을 할 것을 어쩌면 문서 정상화에 별도의 질문을 게시
의 경우를 문서를 가정이 질문의 목적은 원시 TF에 정규화
미안하지만 난 지금 마크 업 방정식을 만드는 데 사용되는 것과 단지 좋은 아니에요
내 표기법 그래서
|| (D1) || = sqrt (sum (w1 x w1))
d1 dot d2 = sum (w1 X w2)
d1이 더 짧은 문서라고 가정
할 수있는 가장 좋은 d1 dot d2는 d1 dot
d1이고 d1이 결혼 한 경우 100 paul 20
그리고 d2가 결혼 한 경우 100 paul 20 peter 1
정규화 된
d1이 결혼합니다 1 paul 1/5
d2는 결혼 1 paul 1/5 peter 1/100
명백하게 결혼하고 paul은 두 문서에서 모두 동일한 idf를 갖습니다.
가능한 최상의 d1 dot d2는 d1 dot d1 d1에
가능한 최대 일치는 d1
cos = d1 dot입니다. d1 / || d1 || || d2 ||
양쪽 제곱
코사인 X COS = (D1 점 D1) X (D1 도트 (D1)) / ((D1 점 D1) X (D2 도트 D2)) COS X COS = (D1 점 D1) / (D2 도트 D2)
받아 제곱 양쪽
cos의 근 = = || d1 || / || d2 ||
|| d2 || cos에 묶이지 않습니까?
|| d2 ||를 사용하면 > = cos || d1 || 그리고 || d2 || <= || d1 || / cos 필요한 계산 속도를 얻습니다.