나는 수천 개의 문자열 목록을 가지고 있으며 각 목록에는 약 10 개의 문자열이 있습니다. 주어진 목록에있는 대부분의 문자열은 매우 유사하지만 일부 문자열은 다른 문자열과 거의 관련이 없으며 일부 문자열에는 관련이없는 단어가 포함되어 있습니다. 그것들은 표준 문자열의 시끄러운 변형으로 간주 될 수 있습니다. 각 목록을이 표준 문자열로 변환하는 알고리즘이나 라이브러리를 찾고 있습니다.
다음은 그러한 목록 중 하나입니다.
- 스타 워즈 : 에피소드 IV 새로운 희망 | StarWars.com
- 스타 워즈 에피소드 IV-새로운 희망 (1977)
- 스타 워즈 : 에피소드 IV-새로운 희망-썩은 토마토
- 스타 워즈보기 : 에피소드 IV-새로운 희망 온라인 무료
- 스타 워즈 (1977)-가장 위대한 영화
- [REC] 4 포스터 선외 모터로 죽음을 약속하다-SciFiNow
이 목록의 경우 정규식과 일치하는 모든 문자열 ^Star Wars:? Episode IV (- )?A New Hope$
이 허용됩니다.
나는 코스타의 머신 러닝에 관한 앤드류 응 (Andrew Ng)의 코스를 보았지만 비슷한 문제를 찾을 수 없었다.