라틴 알파벳의 시각적으로 그리고 청각 적으로 모호하지 않은 부분 집합?

13

누군가에게 "5SBDO0"코드가있는 카드를 준다고 상상해보십시오.

일부 글꼴에서 문자 "S"는 숫자 5와 시각적으로 구분하기 어렵습니다 (숫자 0 및 문자 "O"와 동일).

코드를 큰 소리로 읽으면 "B"를 "D"와 구별하기 어려울 수 있습니다. "B는 소년처럼", "D는 개처럼"또는 " 음성 알파벳 "을 대신 사용해야 합니다.

대부분의 경우 큰 소리로 읽을 때 시각적으로 모호하지 않게 들리거나 소리가 들리는 가장 큰 문자와 숫자는 무엇입니까?

배경:

우리는 여전히 의사 소통을 유지하면서 가능한 많은 값을 인코딩 할 수있는 짧은 문자열을 생성하려고합니다.

6 자리 문자열 "123456"이 있다고 상상해보십시오. 10 진법에서는 10 ^ 6 값을 인코딩 할 수 있습니다 .

16 진수 "1B23DF" 에서는 같은 수의 문자로 16 ^ 6 값을 인코딩 할 수 있지만 소리내어 읽을 때 모호하게 들릴 수 있습니다. ( "B"대 "D")

마찬가지로 모든 N 문자 문자열에 대해 (알파벳 크기) ^ N 값을 얻습니다.

사람의 작업 메모리 용량 내에 쉽게 들어가기를 원하기 때문에 문자열의 길이는 약 6 자로 제한됩니다 .

따라서 인코딩 할 수있는 최대 값 수를 찾으려면 가장 큰 문자 / 숫자 집합을 찾아야합니다. 문자 GZ와 일반적인 구두점을 고려할 수있는 이유는 없지만 "G 소리가 A와 같은가?", "G 소리가 B와 같은가?", "하는가? G는 C "처럼 들린다. 우리가 알듯이 이것은 O (n ^ 2) 언어 작업이 =) 일 것입니다 ...

design

— 엘리엇 42
소스

6

글자가 비슷한 발음은 언어마다 많이 다를 수 있습니다.

— Michael Borgwardt

게다가, 정확히 무엇 라틴 알파벳은?

— MSalters

관련 StackOverflow 질문에서 내 답변 을 참조하십시오 .

— MSalters

시각적 구분을 위해 Base 32 는 기호의 유사성을 제한하는 표준 인코딩입니다.

— barjak

@MSalters "라틴어 스크립트"는 언어 학적 아이디어입니다. 우리의 목적 상 "유니 코드로 코드화 된 라틴어 스크립트의 서브 세트에서 선택"을 의미합니다. 예 : en.wikipedia.org/wiki/ISO/IEC_8859-1

— elliot42

15

시각적 유사성으로 영숫자 집합을 그룹으로 분할하고 각 그룹에서 "가장 상징적"인 대표자를 선택해야합니다. 사용자 테스트를 실행할 수는 있지만 다소 주관적입니다. 선택은 그림이 인쇄 될지 또는 필기 체인지에 따라 달라집니다. 예를 들면 다음과 같습니다.

{ O , 0 , Q , D }
{ I , L , 1 }
{ B , 8 }
{ Z , 2 }
{ S , 5 }
{ 7 , T }
{ U , V , Y }

마찬가지로 이름의 발음과 발음의 유사성으로 문자를 분할하십시오.

{ A [ʔeɪ], 8 [ʔeɪ (ʔ / t)]}
= [ʔeɪ]로 시작
{ P [pi :], B [bi :], V [vi :], D [di :], T [ti :], E [ʔi :]}
= 정지 / 마찰력 + [i :]
{ G [ʤi :], C [si :], Z [zi :], 3 [θɹi :]}
= 마찰 / 난민 (클러스터) + [i :]
{ M [ɛm], N [ɛn]}
= [ɛ] + 코
{ S [ɛs], F [ɛf], X [ɛks]}
= [ɛ] + 마찰음
{ I [ʔaɪ], Y [waɪ], 5 [faɪv], 9 [naɪn]}
= 자음 + [aɪ] + (자음)
{ Q [kjʉ :], U [jʉ :], 2 [t (j) ʉ :]}
= 자음 + [(j) ʉ :]

물론 이것은 유일하게 가능한 파티션이 아니라 지금 당장 떠오르는 것입니다. 그럼에도 불구하고 추가 테스트를 시작하기에 충분해야합니다. 또한 이것들은 전문적인 출처에 의해 뒷받침되지 않습니다. 저는 타이포그래피와 음성학에서 취미적인 배경만을 인용합니다.

— 존 퍼디
소스

3

청각 유사성으로 시작하려면 항공 교통 관제 운영 매뉴얼 (언어 통신이 올바르게 해석되거나 사람이 사망해야하는 곳) 및 Ham Radio와 같은 무선 통신을 살펴보십시오. 예를 들어 5와 9는 혼합하기 쉬우므로 "five"와 "nine-a"로 표시

— mattnz

@ mattnz : 고마워요. 5와 9를 잊어 버렸습니다. 라디오, 전화, 스튜디오 녹음 및 개인 커뮤니케이션은 모두 고유 한 문제를 일으 킵니다.

— Jon Purdy

1

기술적으로는 "나이 너", 4 개는 "파워"입니다.

— Patrick Hughes

3

Mechanical Turk 를 사용하면 실제 사람들이 청각 및 시각적 유사성에 대해 26 ^ 2 쌍의 문자를 모두 평가할 수 있습니다 . 이런 식으로 다양한 모국어에 대한 데이터를 얻을 수 있다는 장점이 있습니다.

— 마이클 보그 워드
소스

1

영어의 경우 soundex 및 Metaphone 알고리즘은 어떤 사운드가 모호한지를 인코딩합니다. Soundex는 아마도 너무 간단하지만 Metaphone에는 몇 가지 좋은 점이 있습니다. "OU"시퀀스를 원하십니까? 이 문장이 몽타주하는 것처럼 여러 가지로 발음 될 수있다.)

— MSalters
소스

0

위의 Jon Purdy의 답변이 가장 정확합니다. 실용적인 목적으로, 나는 z-base-32의사 소통을 염두에두고 설계된 비표준 base32 인코딩을 시도하고 있습니다. 이상적이지는 않지만 기능적으로 보입니다. 예를 들어 음성 명확성에 초점을 맞추지 않았습니다.

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

— 엘리엇 42
소스