유니 코드 표준에는 모두 저장하는 데 4 바이트가 필요한 충분한 코드 포인트가 있습니다. 이것이 UTF-32 인코딩이하는 일입니다. 그러나 UTF-8 인코딩은 "가변 너비 인코딩"이라는 것을 사용하여이를 훨씬 더 작은 공간으로 압축합니다.
실제로 US-ASCII의 처음 127 개 문자를 실제 ASCII와 똑같이 보이는 단 1 바이트로 표현할 수 있으므로 아무 작업도하지 않고도 많은 ASCII 텍스트를 UTF-8 인 것처럼 해석 할 수 있습니다. 깔끔한 트릭. 그래서 어떻게 작동합니까?
나는 그것을 이해하기 위해 약간의 독서를했고 다른 누군가의 시간을 절약 할 수있을 것이라고 생각했기 때문에 여기에서 내 자신의 질문을 묻고 대답 할 것입니다. 게다가 내가 틀렸다면 누군가 나를 고칠 수도 있습니다.