형식이 다르거 나 철자가 틀린 경우 우편 주소를 일치시키는 방법을 알고 싶습니다.
지금까지 다른 솔루션을 찾았지만 솔루션이 상당히 오래되고 비효율적이라고 생각합니다. 나는 더 좋은 방법이 존재한다고 확신하므로 읽을만한 참고 문헌이 있다면 여러 사람이 관심을 가질 수있는 주제라고 확신합니다.
내가 찾은 해결책 (예는 R에 있음) :
한 단어를 다른 단어로 변환하기 위해 삽입, 삭제 또는 변경해야하는 문자 수와 같은 레 벤슈 테인 거리.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
음소의 비교
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
철자 교정기 (Peter Norvig와 같은 베이지안) 를 사용하지만 주소에 대해서는 효율적이지 않습니다.
Google의 제안을 사용하는 것에 대해 생각했지만 개인 우편 주소에는 그리 효율적이지 않습니다.
기계 학습 감독 방식을 사용한다고 상상할 수 있지만 사용자에게 잘못된 철자 요청을 저장해야합니다.