라틴 알파벳의 시각적으로 그리고 청각 적으로 모호하지 않은 부분 집합?


13

누군가에게 "5SBDO0"코드가있는 카드를 준다고 상상해보십시오.

일부 글꼴에서 문자 "S"는 숫자 5와 시각적으로 구분하기 어렵습니다 (숫자 0 및 문자 "O"와 동일).

코드를 큰 소리로 읽으면 "B"를 "D"와 구별하기 어려울 수 있습니다. "B는 소년처럼", "D는 개처럼"또는 " 음성 알파벳 "을 대신 사용해야 합니다.

대부분의 경우 큰 소리로 읽을 때 시각적으로 모호하지 않게 들리거나 소리가 들리는 가장 큰 문자와 숫자는 무엇입니까?


배경:

우리는 여전히 의사 소통을 유지하면서 가능한 많은 값을 인코딩 할 수있는 짧은 문자열을 생성하려고합니다.

6 자리 문자열 "123456"이 있다고 상상해보십시오. 10 진법에서는 10 ^ 6 값을 인코딩 할 수 있습니다 .

16 진수 "1B23DF" 에서는 같은 수의 문자로 16 ^ 6 값을 인코딩 할 수 있지만 소리내어 읽을 때 모호하게 들릴 수 있습니다. ( "B"대 "D")

마찬가지로 모든 N 문자 문자열에 대해 (알파벳 크기) ^ N 값을 얻습니다.

사람의 작업 메모리 용량 내에 쉽게 들어가기를 원하기 때문에 문자열의 길이는 약 6 자로 제한됩니다 .

따라서 인코딩 할 수있는 최대 값 수를 찾으려면 가장 큰 문자 / 숫자 집합을 찾아야합니다. 문자 GZ와 일반적인 구두점을 고려할 수있는 이유는 없지만 "G 소리가 A와 같은가?", "G 소리가 B와 같은가?", "하는가? G는 C "처럼 들린다. 우리가 알듯이 이것은 O (n ^ 2) 언어 작업이 =) 일 것입니다 ...


6
글자가 비슷한 발음은 언어마다 많이 다를 수 있습니다.
Michael Borgwardt

게다가, 정확히 무엇 라틴 알파벳은?
MSalters

관련 StackOverflow 질문에서 내 답변 을 참조하십시오 .
MSalters

시각적 구분을 위해 Base 32 는 기호의 유사성을 제한하는 표준 인코딩입니다.
barjak

@MSalters "라틴어 스크립트"는 언어 학적 아이디어입니다. 우리의 목적 상 "유니 코드로 코드화 된 라틴어 스크립트의 서브 세트에서 선택"을 의미합니다. 예 : en.wikipedia.org/wiki/ISO/IEC_8859-1
elliot42

답변:


15

시각적 유사성으로 영숫자 집합을 그룹으로 분할하고 각 그룹에서 "가장 상징적"인 대표자를 선택해야합니다. 사용자 테스트를 실행할 수는 있지만 다소 주관적입니다. 선택은 그림이 인쇄 될지 또는 필기 체인지에 따라 달라집니다. 예를 들면 다음과 같습니다.

  • { O , 0 , Q , D }

  • { I , L , 1 }

  • { B , 8 }

  • { Z , 2 }

  • { S , 5 }

  • { 7 , T }

  • { U , V , Y }

마찬가지로 이름의 발음과 발음의 유사성으로 문자를 분할하십시오.

  • { A [ʔeɪ], 8 [ʔeɪ (ʔ / t)]}
    = [ʔeɪ]로 시작

  • { P [pi :], B [bi :], V [vi :], D [di :], T [ti :], E [ʔi :]}
    = 정지 / 마찰력 + [i :]

  • { G [ʤi :], C [si :], Z [zi :], 3 [θɹi :]}
    = 마찰 / 난민 (클러스터) + [i :]

  • { M [ɛm], N [ɛn]}
    = [ɛ] + 코

  • { S [ɛs], F [ɛf], X [ɛks]}
    = [ɛ] + 마찰음

  • { I [ʔaɪ], Y [waɪ], 5 [faɪv], 9 [naɪn]}
    = 자음 + [aɪ] + (자음)

  • { Q [kjʉ :], U [jʉ :], 2 [t (j) ʉ :]}
    = 자음 + [(j) ʉ :]

물론 이것은 유일하게 가능한 파티션이 아니라 지금 당장 떠오르는 것입니다. 그럼에도 불구하고 추가 테스트를 시작하기에 충분해야합니다. 또한 이것들은 전문적인 출처에 의해 뒷받침되지 않습니다. 저는 타이포그래피와 음성학에서 취미적인 배경만을 인용합니다.


3
청각 유사성으로 시작하려면 항공 교통 관제 운영 매뉴얼 (언어 통신이 올바르게 해석되거나 사람이 사망해야하는 곳) 및 Ham Radio와 같은 무선 통신을 살펴보십시오. 예를 들어 5와 9는 혼합하기 쉬우므로 "five"와 "nine-a"로 표시
mattnz

@ mattnz : 고마워요. 5와 9를 잊어 버렸습니다. 라디오, 전화, 스튜디오 녹음 및 개인 커뮤니케이션은 모두 고유 한 문제를 일으 킵니다.
Jon Purdy

1
기술적으로는 "나이 너", 4 개는 "파워"입니다.
Patrick Hughes

3

Mechanical Turk 를 사용하면 실제 사람들이 청각 및 시각적 유사성에 대해 26 ^ 2 쌍의 문자를 모두 평가할 수 있습니다 . 이런 식으로 다양한 모국어에 대한 데이터를 얻을 수 있다는 장점이 있습니다.


1

영어의 경우 soundexMetaphone 알고리즘은 어떤 사운드가 모호한지를 인코딩합니다. Soundex는 아마도 너무 간단하지만 Metaphone에는 몇 가지 좋은 점이 있습니다. "OU"시퀀스를 원하십니까? 이 문장이 몽타주하는 것처럼 여러 가지로 발음 될 수있다.)


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.