SQL Server 2005/2008 UTF-8 데이터 정렬 / 문자 집합

16

다른 SQL 엔진에서 설정 한 것과 동일하게 SQL Server 2005/2008에서 UTF-8rellated 로 설정할 옵션을 직접 찾을 수 없지만 Collations/CharsetsSQL Server 2005/2008에서는 라틴어 및 SQL 데이터 정렬 만 있습니다.

Win2008 OS의 SQL Server 엔진 (버전 둘 다) 2005/2008에서 이러한 데이터 정렬 / 문자 집합을 강제 / 설치하는 옵션이 있습니까?

— 코벨
소스

13

아닙니다. SQL Server는 UTF-8을 지원하지 않습니다.

유니 코드 데이터를 원하면 열을 nvarchar / nchar로 정의해야합니다. 내부적으로 SQL Server는이를 UCS-2로 저장합니다.

이 벤에서 요청이 있습니다 연결에 MS 와이 오래된 KB 문서가 . 이 블로그의 일부 정보 도

— gbn
소스

6

또한 외국 문자가있는 nvarchar에서 텍스트 일치를 수행하려면 문자열 앞에 N으로 형식이 지정된 문자열 (예 : N'οἰκονόμον ')과 일치해야합니다.

— swasheck

최신 SQL Server 릴리스에서이 동작이 변경 되었습니까?

— Seiyria

@Seiyria : 아니, 같은 행동

— gbn

이 답변에 대한 길을 찾은 사람은 MS Connect 페이지 로 이동하여 MS 가 SQL Server에서 UTF-8을 지원한다는 것을 투표 하십시오 . 감사합니다 : D

— DarcyThomas

@DarcyThomas SQL Server 2019에서는 현실화되고 있지만 명시적인 요구가없는 한 사용해야 할 것은 아닙니다. 자세한 내용은 내 답변 을 참조하십시오.

— Solomon Rutzky 2014 년

2

문자 세트가 아니고 인코딩이기 때문에 UTF-8을 문자 세트로 설치할 수 없습니다.

유니 코드 텍스트를 저장하려면 nvarchar데이터 유형 을 사용하십시오 .

UTF-8을 사용하여 인코딩 된 텍스트를 저장하려면 이진 데이터 ( varbinary) 로 저장하십시오 .

— 구파
소스

1

SQL Server 2019 (현재 베타 / "Community Tech Preview")부터는 새로운 일련의 UTF-8 데이터 정렬을 통해 UTF-8을 기본적으로 지원합니다. 그러나 UTF-8을 사용할 수 있다고해서 꼭 그래야하는 것은 아닙니다 . UTF-8을 사용하면 다음과 같은 확실한 결점이 있습니다.

처음 128 개의 코드 포인트 만 1 바이트입니다 (즉, 표준 7 비트 ASCII 세트)
다음 거의 2000 코드 포인트는 2 바이트이므로 UTF-16 / NVARCHAR
BMP의 나머지 63k 코드 포인트 (즉, U + 0800-U + FFFF 범위)는 모두 3 바이트이므로 UTF-16 /의 동일한 문자보다 1 바이트 더 큽니다NVARCHAR .
보조 문자는 두 인코딩 모두에서 4 바이트이므로 공간 차이가 없습니다.
UTF-8을 사용하여 공간을 절약 할 수는 있지만 그렇게하면 성능이 저하 될 가능성이 매우 높습니다.

UTF-8은 8 비트 시스템 (일반적으로 ASCII 및 ASCII 확장-코드 페이지를 중심으로 설계됨)이 기존의 내용을 변경하거나 수정하지 않고도 유니 코드를 사용할 수 있도록하는 저장소 형식 디자인입니다. 일을 계속하기 위해 파일. UTF-8은 파일 시스템과 네트워킹을위한 훌륭한이지만, 저장된 데이터 의 내부 SQL 서버는 어느 쪽도 없습니다. 표준 ASCII 범위 내에서 대부분 (또는 전체적으로) 발생하는 데이터는 UTF-16으로 저장 될 때 동일한 데이터보다 적은 공간을 필요로 한다는 사실이 NVARCHAR부작용입니다. 물론, 그것은 유용 할 수있는 부작용, 그러나 그 결정의 요구는 데이터를 모두 이해하는 사람이 만들 수 및 이 결정의 결과 / 단점. 이것은일반적인 기능은 아닙니다 .

또한 UTF-8 (SQL Server)의 주요 사용 사례는 이미 UTF-8을 사용하는 앱 코드에 대한 것입니다.이를 지원하는 다른 RDBMS와 함께 이미 가능하며 앱 코드 / DB 스키마를 업데이트하려는 욕구 또는 능력이 없습니다 사용하는 NVARCHAR데이터 타입 (표, 변수, 파라미터 등의 경우), 또는 대문자 "N"접두사 문자열 리터럴. UTF-8이 존재하는 이유와 동일합니다. 전체 구조를 변경하거나 렌더링 데이터가 유효하지 않은 상태에서 앱 코드가 유니 코드를 사용하도록 설정합니다. 이것이 상황을 설명하는 경우 UTF-8을 사용하되 여전히 몇 가지 버그 / 문제가 있음에 유의하십시오.

NVARCHAR대문자 "N"접두사 문자열 리터럴 을 사용하지 않고 유니 코드 작업을 명시 적으로 필요로하지 않는 경우 UTF-8이 유리한 유일한 다른 시나리오는 대부분 표준 ASCII 데이터를 많이 사용해야하는 경우 입니다. 유니 코드 문자를 사용하고 있으며 NVARCHAR(MAX)(데이터 압축이 작동하지 않음을 의미) 테이블이 자주 업데이트되므로 Clustered Columnstore Index는 실제로 도움이되지 않습니다.

자세한 내용은 내 게시물을 참조하십시오.

SQL Server 2019의 기본 UTF-8 지원 : 구주 또는 거짓 예언자?

— 솔로몬 루츠 키
소스

0

내 경우에는 아랍어 문자를 표시해야했고 개발 데이터베이스는 2014 년에 있었으며 여기에서 문제가 해결되었습니다. 여기에서 쿼리에서 아랍어 문자를 볼 수 있었고 데이터 정렬은 SQL_Latin1_General_CP1256_CI_AS였습니다.

그러나 내 프로덕션은 SQL Server 2008에 있었고 결국 UTF-8 문자 세트를 지원하지 않았습니다. 여기, 나는 모두 볼 수 있었다 ?????????? SQL 2008에서는 UTF-8이 지원되지 않습니다.

내가 한 일은 모든 varchar를 nvarchar로 변경하고 아랍어 문자를 올바르게 볼 수 있습니다. 또한 2008 데이터베이스 데이터 정렬을 SQL_Latin1_General_CP1256_CI_AS로 변경합니다.

— 할림
소스