이 질문이 여기에 속하는지 잘 모르겠으며 그렇지 않은 경우 사과드립니다. 내가하고자하는 것은 주어진 끈이 끈으로 묶여 있는지 여부를 확률 적으로 결정할 수있는 프로그래밍 방식을 개발하는 것입니다. 예를 들어, 미국 도시 이름이 10,000 개이고 문자열 "필라델피아"가있는 경우 '필라델피아'가 내가 이미 알고있는 미국 도시 이름을 기반으로하는 미국 도시 이름 일 가능성을 정량적으로 측정하고 싶습니다. 이 상황에서 실제 도시 이름과 가짜 도시 이름을 분리 할 수는 없지만 최소한 "123.75"및 "빨간 여우가 게으른 갈색 개 위로 뛰어 올랐다"와 같은 문자열이있을 것으로 예상됩니다. 일부 임계 값.
시작하기 위해 Levenshtein Distance를 살펴보고 해결하려는 문제와 적어도 비슷한 문제에 어떻게 적용되는지 살펴 보았습니다. 내가 찾은 흥미로운 응용 중 하나는 표절 감지 였는데, 한 논문은 수정 된 Smith-Waterman 알고리즘으로 Levenshtein 거리를 사용하여 주어진 기본 논문의 표절 된 버전에 따라 논문의 점수를 매기는 방법을 설명합니다. 내 질문은 누군가 나를 도울 수있는 다른 확립 된 알고리즘이나 방법론으로 올바른 방향으로 나를 가리킬 수 있는지입니다. 나는 이것이 과거의 누군가가 해결하려고 시도한 문제 일 수 있다고 생각하지만 지금까지 내 Google fu가 실패했습니다.