나는 유니 코드가 대부분의 이전 시도 (ASCII 등)에서 작은 주소 공간 (8 비트)으로 인해 많은 다른 인코딩을 갖는 전체 문제를 해결하도록 설계되었다고 생각했습니다. 그렇다면 왜 그렇게 많은 유니 코드 인코딩이 있습니까? UTF-8, UTF-16 등과 같은 (본질적으로) 동일한 버전의 여러 버전조차도.
Wikipedia 기사 에 따르면 UTF-8의 형식은 다음과 같습니다. 첫 번째 코드 마지막 코드 바이트 바이트 1 바이트 2 바이트 3 바이트 4 사용 된 포인트 U + 0000 U + 007F 1 0xxxxxxx U + 0080 U + 07FF 2110xxxxx 10xxxxxx U + 0800 U + FFFF 3 1110xxxx 10xxxxxx …
나는 가지고있는 문자열을 인코딩하는 데 관심이 있으며 알파와 숫자 만 포함하고 문자열을 나타내는 데 필요한 문자 수를 줄이는 인코딩 유형이 있는지 궁금합니다. 지금 까지이 작업을 수행하기 위해 Base64 인코딩을 사용하는 방법을 살펴 보았지만 문자열을 더 길게 만들고 때로는 ==피하고 싶은 것을 포함 시키는 것으로 보입니다. 예: 테스트 이름 | 120101 …