다른 언어보다 일부 언어에서 더 잘 작동하는 몇 가지 방법이 있습니다. 예를 들어, soundex (및 내가 좋아하는 다른 설명 )는 영어 발음 이름 용으로 설계되었습니다. soundex와 함께 Michael
M240이됩니다. 여기에는 몇 가지 단계가 있습니다.
- 첫 글자가 격리됩니다. (
M
및 ichael
)
- 모든 모음은 나머지 (
M
및 chl
) 에서 제거됩니다.
- 자음 교체
- 왼쪽 패드는 0입니다.
- 자음 전환의 그룹화는 자신의 음성 유사성을 기반으로 B
, F
, P
및 V
모든지도 1
.
그리고 시간이 지남에 따라 이것에 변형이 있습니다 . 이름의 철자가 시간이 지남에 따라 변경 될 수 있지만 계보는 유사하게 남아있는 계보에서 특히 유용합니다.
항공사가 미국 계보 대신 이름을 위해 개발 한 일치 등급 과 같은 접근 방식도 있습니다 .
일치 등급 접근 방식 (MRA)의 인코딩은 다음과 같습니다.
- 모든 비를 선도하는 모음을 삭제하는 것은 (
Michael
이된다 Mchl
및 Anthony
됩니다 Anthny
)
- 복식의 두 번째 상수 제거
- 문자열이 6자를 초과하면 처음 3 개와 마지막 3 개를 가져 와서 나머지 문자열을 6 자로 줄이십시오.
이에 대한 전체 사양은 archive.org 에서 찾을 수 있습니다. "소형이 아님"(인쇄 된 양식은 214 페이지)입니다.
비교는 텍스트가있는 시간에 따른 일치하는 임계 값을 가지고있다.
거기 다른 소리 알고리즘도 .
따라서 내가 추천하는 것은 soundex를 그대로 사용하거나, 일치 등급 접근 방식을 취하거나, 루마니아어 자음 과 폴란드어 자음을 기반으로 soundex를 수정하는 것 입니다.
사운 덱스로, 자음이되는 것을 기억 그룹화 (에서 폴란드어, m
, n
, ɲ
무언 그들이 일 또는 함께 목소리 - - 부여, 내가하지 않는 모든 코 자음 그룹화 할 수 있습니다, 당신은 아마 그룹, 입술 치과 및 치조 파열음이 것 폴란드어를 알기 때문에 내가 사실이 아닌 것을 말하고 있는지 모르겠습니다.)
그런 다음 데이터베이스의 모든 이름을 두 개의 서로 다른 soundex 시스템에 적용하고 다른 언어로 가장 충돌이 적은 이름을 찾으십시오. 이것은 당신에게 독특한 이름을 제공합니다. 따라서로 Smith
표시되지 않습니다 Smyth
.
그러나 이것은 "이름이 다른 이름과 충돌하여 뭉개 질 가능성"만 해결합니다. 그것은 "이름이 올바르게 들리고 잘못 기록되었습니다"라는 다른 방법을 다루지 않으므로 일반적인 이름에주의를 기울여야합니다.
예를 들어, Michael
미국에서 아주 흔한 이름은 그것이 1950 년대 초 후반에 1970 년까지였다 정말 인기 . 그러나 어떤 이유로 든이 이름 Micheal
은 1950 년대에 인기가있었습니다 (정점에서 83 번째로 가장 일반적인 이름을 얻었습니다). 그리고 나는 지명 된 사람들이 Micheal
끊임없이 철자가 틀렸다는 것을 확신합니다 .
따라서 주어진 발음에 대한 이름의 인기를 지배하는 이름이 하나있는 이름에 중점을 두어야합니다. 연도 별 이름에 대한 다른 데이터 소비자에 반짝이기는하지만, 당신이 볼 수있는 소년에 대한 엉망 ... 이름 잼로 시작 으로 Jamaal
, Jamal
, Jamar
등이있다. 덧붙여, 이러한 이름에 대해 약간 다른 soundexes이 미국 ( J540
, J540
와 J560
-을 l
하고 r
그들이 밀접하게 음성학에 관련된 경우에도 다른 그룹에있다). 그러나, 일본 말, 누군가를 들어,이 음성 지역에 하나의 소리가 어디에 l
와r
미국 영어로 발음됩니다. 이것은 또한 알고 있어야 할 soundex를 사용하여 주요 자음에 도전을 제기 할 수 있습니다 (저는 한때 일본인 이름의 로마자로 Lisa 대신 Risa라고 불리는 일본 여성과 일했습니다).
저의 예는 미국을위한 것입니다. 해당 데이터에 쉽게 액세스 할 수 있습니다. 분명히 폴란드 와 헝가리어 에는 몇 가지 가 있으며 헝가리어 이름 공통점에 대한 힌트 만 있습니다 ... 영어 이외의 언어로 검색하면 도움이 될 것으로 생각됩니다.
따라서 이름에 대한 soundex가 주어지면 충돌이 거의 없으며 실제 철자는 충돌 집합에 있습니다. 바람직하게는 이것은 일반적인 이름입니다. 이 헝가리어 목록을 보면 Krisztián
철자가 틀릴 수 있지만 Zoltán
헝가리에서는 2011 년에 22 번 가장 일반적인 아기 이름입니다! 즉, 당신은 잘못 갈 수 없습니다 Michael
.