유니 코드에 공백과 줄 바꿈이 너무 많은 이유는 무엇입니까?


19

유니 코드에는 50 개의 공백이있을 수 있습니다

\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000

6 줄 바꿈

CRLF, LF, CR뿐만 아니라 NEL (U + 0085), PS (U + 2029) 및 LS (U + 2028)

어쩌면 나는 대부분의 공백과 PS ( "Paragraph separator")를 이해할 수 있지만 "Next Line"과 "Line separator"는 무엇입니까?

모든 사람들이 자신의 공간을 원했고 지도자들은 각각 한 줄씩 나누는 매우 큰위원회가 발명 한 것처럼 보입니다. 그러나 진지하게, 당신의 프로그래밍 언어가 그것을 지원하지 않을 때 (또는 자바처럼 잘못합니까?) 어떻게 처리합니까?


1
Java는 어떻게 "잘못"합니까?
Billy ONeal


2
@maaartinus : (나는 모든 것을 Java를 변호한다고 믿을 수 없다) Java의 문자 클래스는 특정 문자 세트에 적용되도록 문서화되어있다. 유니 코드는 이러한 문자 클래스에 맞는 것처럼 더 많은 문자를 제공하지만 정규식 언어는 정의하지 않습니다. 문자 인코딩 만. Java는 사양에 따라 완벽하게 올바르게 작동합니다. 즉 일반적인 공백과 일치합니다. 빈 공간으로 표시 될 수있는 유니 코드 표준의 모든 항목과 일치 시키려면 직접 작성해야합니다.
Billy ONeal

2
정보에 대한 Thx. 그러나 Pattern.compile2010작년 정의에 따라 작동하는 정규 표현식을 반환 하는 메서드를 자유롭게 만들 수 있습니다 . 또한 Pattern.compileLatestUTS새로운 사양에 따라 의미가 바뀔 것이라고 명시 적으로 설명 하는 방법 을 자유롭게 만들 수 있습니다.
maaartinus

2
자바 것 같은데 결국 수정 / 이전 버전과의 호환성 문제를 방지하기 위해 선택 하에서 플래그를 사용하여 정규 표현식 구현을 현대화 : stackoverflow.com/a/4307261/1172352을
peterflynn

답변:


15

어쩌면 나는 대부분의 공백과 PS ( "Paragraph separator")를 이해할 수 있지만 "Next Line"과 "Line separator"는 무엇입니까?

NEXT LINE (U + 0085)은 종종 EBCDIC 시스템에서 줄 바꿈 문자 (0x15)로 사용됩니다. CR + LF와 비슷하지만 하나의 문자입니다.

LINE SEPARATOR (2,028 U +)와 문단 SEPARATOR (2,029 U +)는 섹션 5.8에서 설명 유니 코드 표준 HTML의 일반 텍스트 버전으로이를 설명 <br>하고 <p>"줄 바꿈"의 이러한 기능을 명확하게하기 위해. 그러나 실제로 이러한 문자는 많이 사용되지 않습니다.


1
그러나 좋은 설명은위원회 리더 당 한 줄 바꿈을 의미합니다.
maaartinus

5
트윗 담아 가기 이전의 모든 상충되는 표준마다 한 줄을 나누고 유니 코드 표준에서 두 가지 모호한 것을 줄입니다.
Milind R

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.