거기에 정수를 변환하는 방법을 설명하는 몇 가지 질문 이미 std::string같은 C ++로, 이 하나 ,하지만 제공되는 솔루션 중 어느 것도 효율적인 없습니다.

다음은 경쟁 할 몇 가지 일반적인 메서드에 대한 컴파일 준비 코드입니다.

대중 적인 믿음boost::lexical_cast는 달리 자체 구현 ( 백서 )이 stringstream있으며 숫자 삽입 연산자를 사용하지 않습니다 . 이 다른 질문은 그것이 비참하다는 것을 암시 하기 때문에 그 성능을 비교하고 싶습니다 .

그리고 데스크탑 컴퓨터에서 경쟁력이 있으며 정수 모듈로에 의존하는 알고리즘과 달리 임베디드 시스템에서도 최대 속도로 실행되는 접근 방식을 보여줍니다.

해당 코드를 사용하려면 단순화 된 BSD 라이선스 (상업적 사용 허용, 저작자 표시 필요)에 따라 사용할 수 있도록 만들겠습니다. 그냥 물어봐.

마지막으로이 기능 ltoa은 비표준이지만 널리 사용 가능합니다.

  • ltoa 버전, 제공하는 컴파일러가있는 모든 사용자를위한 (ideone은 제공하지 않음) : http://ideone.com/T5Wim

곧 답변으로 성능 측정치를 게시하겠습니다.

알고리즘 규칙

  • 32 비트 이상의 부호있는 정수와 부호없는 정수를 십진수로 변환하기위한 코드를 제공하십시오.
  • 출력을 std::string.
  • 스레딩 및 신호와 호환되지 않는 트릭은 없습니다 (예 : 정적 버퍼).
  • ASCII 문자 집합을 가정 할 수 있습니다.
  • INT_MIN절대 값을 표현할 수없는 2의 보수 시스템에서 코드를 테스트해야합니다 .
  • 이상적으로 출력은 stringstream, http://ideone.com/jh3Sa를 사용하는 표준 C ++ 버전과 동일한 문자 대 문자 여야 하지만 올바른 숫자로 명확하게 이해할 수있는 모든 것도 괜찮습니다.
  • 새로운 기능 : 비교를 위해 원하는 컴파일러 및 옵티 마이저 옵션 (완전히 비활성화 된 경우 제외)을 사용할 수 있지만 코드는 최소한 VC ++ 2010 및 g ++에서 올바른 결과를 컴파일하고 제공해야합니다.

희망 토론

더 나은 알고리즘 외에도 여러 다른 플랫폼과 컴파일러에 대한 벤치 마크를 얻고 싶습니다 (MB / s 처리량을 표준 측정 단위로 사용하겠습니다). 내 알고리즘의 코드 ( sprintf벤치 마크가 몇 가지 지름길을 사용 한다는 것을 알고 있습니다 -이제 수정 됨)는 최소한 ASCII 가정 하에서 표준에 의해 잘 정의 된 동작이라고 생각하지만, 정의되지 않은 동작이나 출력에 대한 입력이 표시되는 경우 유효하지 않다는 점을 지적하십시오.

결론 :

g ++ 및 VC2010에 대해 서로 다른 알고리즘이 수행됩니다. std::string 있습니다. VC2010은 분명히 NRVO에서 더 나은 작업을 수행하여 gcc에서만 도움이되는 가치 별 반환을 제거합니다.

엄청난 성능 sprintf을 보이는 코드가 발견되었습니다 . ostringstream50 배 이상 뒤쳐집니다.

도전의 승자는 gcc에서 내 속도의 350 %를 실행하는 코드를 생성하는 user434507입니다. SO 커뮤니티의 변덕으로 인해 추가 항목이 닫힙니다.

현재 (최종?) 속도 챔피언은 다음과 같습니다.

#include <string>

const char digit_pairs[201] = {

std::string& itostr(int n, std::string& s)
        return s;

    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
            else if(val>=100000000)
            else if(val>=100000)
    size -= sign;
    char* c = &s[0];

    c += size-1;
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    return s;

std::string& itostr(unsigned val, std::string& s)
        return s;

    int size;
            else if(val>=100000000)
            else if(val>=100000)

    char* c = &s[size-1];
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    return s;

이것은 정렬되지 않은 메모리 액세스를 허용하지 않는 시스템에서 폭발합니다 (이 경우 첫 번째 정렬되지 않은 할당은 *(short*) segfault가 발생 함). 그렇지 않으면 매우 훌륭하게 작동합니다.

해야 할 한 가지 중요한 일은 std::string. (Ironic, 알아요.) 예를 들어 Visual Studio에서 std :: string 메서드에 대한 대부분의 호출은 컴파일러 옵션에서 / Ob2를 지정하더라도 인라인되지 않습니다. 따라서 std::string::clear()매우 빠르다고 예상 할 수있는를 호출하는 것과 같은 사소한 것조차도 CRT를 정적 라이브러리로 연결할 때 100 개의 클럭 틱을, DLL로 링크 할 때는 300 개의 클럭 틱을 취할 수 있습니다.

같은 이유로 할당, 생성자 및 소멸자를 피하므로 참조로 반환하는 것이 더 좋습니다.

시도해 주셔서 감사합니다. ideone ( ideone.com/BCp5r )에서는 18.5MB / s로 sprintf. 그리고 VC ++ 2010에서는 sprintf 속도의 약 두 배인 약 50MB / s를 얻습니다.
Ben Voigt

MB / s는 이상한 메트릭입니다. 특히 구현에서 문자열에서 후행 공백을 제거하지 않는 방법을 볼 수 있습니다. 업데이트 된 코드는 Core i7 920 (16.2M ops / s 대 14.8M ops / s)에서 x64 VC ++ 2005로 구현 한 것보다 빠르게 실행되고, _ltoa는 8.5M ops / s를 수행하고 sprintf ()는 3.85M ops / s를 수행합니다.
Eugene Smith

귀하의 코드는 문자열의 크기를 적절하게 조정하지 않습니다 (81, 198 및 290 행 참조). sprintf구현 에서 몇 가지 지름길을 사용했으며 이미 질문에서 언급했지만 코드 비트가 stringstream과 똑같은 결과를 제공한다고 생각합니다.
Ben Voigt

sprintf혼란을 피하기 위해 래퍼도 수정했습니다 .
Ben Voigt

BTW, 개선 된 버전 ( ideone.com/GLAbS )은 ideone 에서 41.7MB / s를, VC ++ 2010 32 비트에서 약 120MB / s를 얻습니다.
Ben Voigt


아, 그나저나 대단한 챌린지 ... 이거 정말 재미 있었어요.

제출할 알고리즘이 두 개 있습니다 (건너 뛰고 싶은 경우 코드가 맨 아래에 있습니다). 내 비교에서 함수가 문자열을 반환하고 int 및 unsigned int를 처리 할 수 ​​있어야합니다. 문자열을 구성하지 않는 것과 그렇지 않은 것을 비교하는 것은 의미가 없습니다.

첫 번째는 미리 계산 된 조회 테이블 또는 명시 적 분할 / 모듈로를 사용하지 않는 재미있는 구현입니다. 이것은 gcc를 사용하는 다른 것들과 경쟁적이며 msvc에서 Timo를 제외한 모든 것들과 경쟁합니다 (아래에서 설명하는 좋은 이유 때문에). 두 번째 알고리즘은 최고의 성능을위한 실제 제출입니다. 내 테스트에서는 gcc와 msvc 모두에서 다른 모든 것을 능가합니다.

MSVC의 일부 결과가 왜 매우 좋은지 알고 있다고 생각합니다. std :: string에는 두 개의 관련 생성자가 std::string(char* str, size_t n)
std::string(ForwardIterator b, ForwardIterator e)
gcc는 둘 다에 대해 동일한 작업을 수행합니다. 즉, 두 번째를 사용하여 첫 번째를 구현합니다. 첫 번째 생성자는 그것보다 훨씬 더 효율적으로 구현 될 수 있으며 MSVC는 그렇게합니다. 이것의 부수적 인 이점은 어떤 경우 (내 빠른 코드와 Timo의 코드와 같은) 문자열 생성자가 인라인 될 수 있다는 것입니다. 사실, MSVC에서 이러한 생성자 사이를 전환하는 것만으로도 내 코드에서 거의 2 배의 차이가 발생합니다.

내 성능 테스트 결과 :

코드 소스 :

- 보이트
- 티모
- ergosys
- user434507
- 사용자 보이트 - 티모
- 호프만 - 재미
- 호프만 빠른

Ubuntu 10.10 64 비트, Core i5의 gcc 4.4.5 -O2

hopman_fun : 124.688MB / 초 --- 8.020 초
hopman_fast : 137.552 MB / 초 --- 7.270 초
voigt : 120.192 MB / 초 --- 8.320 초
user_voigt_timo : 97.9432 MB / 초 --- 10.210 초
timo : 120.482 MB / 초 --- 8.300 초
사용자 : 97.7517 MB / 초 --- 10.230 초
ergosys : 101.42 MB / 초 --- 9.860 초

Windows 7 64 비트, Core i5의 MSVC 2010 64 비트 / Ox

hopman_fun : 127MB / 초 --- 7.874 초
hopman_fast : 259MB / 초 --- 3.861 초
voigt : 221.435 MB / 초 --- 4.516 초
user_voigt_timo : 195.695MB / 초 --- 5.110 초
timo : 253.165 MB / 초 --- 3.950 초
사용자 : 212.63 MB / 초 --- 4.703 초
ergosys : 78.0518 MB / 초 --- 12.812 초

다음은 ideone
http://ideone.com/XZRqp 에 대한 몇 가지 결과 및 테스트 / 타이밍 프레임 워크
입니다. ideone은 32 비트 환경입니다. 두 알고리즘 모두 그 문제를 겪고 있지만 hopman_fast는 적어도 여전히 경쟁력이 있습니다.

문자열을 구성하지 않는 둘 정도의 경우 다음 함수 템플릿을 추가했습니다.

template <typename T>
std::string itostr(T t) {
    std::string ret;
    itostr(t, ret);
    return ret;

이제 내 코드를 위해 ... 먼저 재미있는 것 :

    // hopman_fun

template <typename T> 
T reduce2(T v) {
    T k = ((v * 410) >> 12) & 0x000F000F000F000Full;
    return (((v - k * 10) << 8) + k);

template <typename T>
T reduce4(T v) {
    T k = ((v * 10486) >> 20) & 0xFF000000FFull;
    return reduce2(((v - k * 100) << 16) + (k));

typedef unsigned long long ull;
inline ull reduce8(ull v) {
    ull k = ((v * 3518437209u) >> 45);
    return reduce4(((v - k * 10000) << 32) + (k));

template <typename T>
std::string itostr(T o) {
    union {
        char str[16];
        unsigned short u2[8];
        unsigned u4[4];
        unsigned long long u8[2];

    unsigned v = o < 0 ? ~o + 1 : o;

    u8[0] = (ull(v) * 3518437209u) >> 45;
    u8[0] = (u8[0] * 28147497672ull);
    u8[1] = v - u2[3] * 100000000;

    u8[1] = reduce8(u8[1]);
    char* f;
    if (u2[3]) {
        u2[3] = reduce2(u2[3]);
        f = str + 6;
    } else {
        unsigned short* k = u4[2] ? u2 + 4 : u2 + 6;
        f = *k ? (char*)k : (char*)(k + 1);
    if (!*f) f++;

    u4[1] |= 0x30303030;
    u4[2] |= 0x30303030;
    u4[3] |= 0x30303030;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 16) - f);

그리고 빠른 것 :

    // hopman_fast

struct itostr_helper {
    static unsigned out[10000];

    itostr_helper() {
        for (int i = 0; i < 10000; i++) {
            unsigned v = i;
            char * o = (char*)(out + i);
            o[3] = v % 10 + '0';
            o[2] = (v % 100) / 10 + '0';
            o[1] = (v % 1000) / 100 + '0';
            o[0] = (v % 10000) / 1000;
            if (o[0]) o[0] |= 0x30;
            else if (o[1] != '0') o[0] |= 0x20;
            else if (o[2] != '0') o[0] |= 0x10;
            else o[0] |= 0x00;
unsigned itostr_helper::out[10000];

itostr_helper hlp_init;

template <typename T>
std::string itostr(T o) {
    typedef itostr_helper hlp;

    unsigned blocks[3], *b = blocks + 2;
    blocks[0] = o < 0 ? ~o + 1 : o;
    blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
    blocks[2] = hlp::out[blocks[2]];

    if (blocks[0]) {
        blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[1] = hlp::out[blocks[1]];
        blocks[2] |= 0x30303030;

    if (blocks[0]) {
        blocks[0] = hlp::out[blocks[0] % 10000];
        blocks[1] |= 0x30303030;

    char* f = ((char*)b);
    f += 3 - (*f >> 4);

    char* str = (char*)blocks;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 12) - f);

방법 호프만 - 재미있는 작품에 관심이 있지만, 그것을 밖으로 수수께끼처럼 생각하지 않는 사람들을 위해, 나는에 주석 버전을 만들어 ideone.com/rnDxk
크리스 호프만

첫 번째 댓글이 어떻게 작동하는지 이해할 수 없습니다. : D 메모리 사용량에 가격이 있지만 빠른 것은 정말 좋습니다. 그러나 40kB는 여전히 허용됩니다. 실제로 4 개의 문자 그룹을 사용하도록 자체 코드를 수정했으며 비슷한 속도를 얻었습니다. ideone.com/KbTFe

uint64_t와 함께 작동하도록 수정하기가 어렵습니까? 이 코드를 C로 옮기고 'T'를 int 유형으로 바꾸고 작동하지만 uint64_t에서는 작동하지 않으며 사용자 정의하는 방법에 대한 단서가 없습니다.


질문에 제공된 코드에 대한 벤치 마크 데이터 :

ideone (gcc 4.3.4) :

Core i7, Windows 7 64 비트, 8GB RAM, Visual C ++ 2010 32 비트 :

cl /Ox /EHsc

  • 스트링 스트림 : 3.39MB / s, 3.67MB / s
  • sprintf : 16.8MB / s, 16.2MB / s
  • 내 : 194MB / s, 207MB / s (PGO 활성화시 : 250MB / s)

Core i7, Windows 7 64 비트, 8GB RAM, Visual C ++ 2010 64 비트 :

cl /Ox /EHsc

  • 스트링 스트림 : 4.42MB / s, 4.92MB / s
  • sprintf : 21.0MB / s, 20.8MB / s
  • 내 : 238MB / s, 228MB / s

Core i7, Windows 7 64 비트, 8GB RAM, cygwin gcc 4.3.4 :

g++ -O3

  • stringstreams : 2.19MB / s, 2.17MB / s
  • sprintf : 13.1MB / s, 13.4MB / s
  • 내 : 30.0MB / s, 30.2MB / s

편집 : 내 답변을 추가하려고했는데 질문이 닫혀서 여기에 추가하겠습니다. :) 나는 MSVC 2010에서만 테스트했지만 내 자신의 알고리즘을 작성하고 Ben의 코드에 대해 상당한 개선을 얻을 수있었습니다. 또한 Ben의 원본과 동일한 테스트 설정을 사용하여 지금까지 제시된 모든 구현에 대한 벤치 마크를 만들었습니다. 암호. -티모

Intel Q9450, Win XP 32 비트, MSVC 2010

cl /O2 /EHsc

  • stringstream : 2.87MB / s
  • sprintf : 16.1MB / s
  • Ben : 202MB / s
  • Ben (서명되지 않은 버퍼) : 82.0MB / s
  • ergosys (업데이트 버전) : 64.2 MB / s
  • user434507 : 172MB / s
  • Timo : 241MB / s


const char digit_pairs[201] = {

static const int BUFFER_SIZE = 11;

std::string itostr(int val)
  char buf[BUFFER_SIZE];
  char *it = &buf[BUFFER_SIZE-2];

  if(val>=0) {
    int div = val/100;
    while(div) {
      val = div;
      div = val/100;
  } else {
    int div = val/100;
    while(div) {
      val = div;
      div = val/100;
    *it = '-';

  return std::string(it,&buf[BUFFER_SIZE]-it);

std::string itostr(unsigned int val)
  char buf[BUFFER_SIZE];
  char *it = (char*)&buf[BUFFER_SIZE-2];

  int div = val/100;
  while(div) {
    val = div;
    div = val/100;

  return std::string((char*)it,(char*)&buf[BUFFER_SIZE]-(char*)it);

이 정보에 감사드립니다, gcc 속도에 대해 설명 해주세요! 그것은 :( 매우 낮다

@Behrouz : 그렇습니다. gcc의 버전 이건 std::string산술 코드의 최적화가 좋지 않은지에 상관없이 gcc가 왜 그렇게 느린 지 정확히 모르겠습니다 . std::string마지막에 변환되지 않는 다른 버전을 만들고 gcc가 더 나은지 확인하겠습니다 .
Ben Voigt

@Timo : 정말 멋지네요. VC ++를 지원하기 위해 서명되지 않은 버퍼에 대한 변경이 실제로는 예상하지 못했습니다. VC ++는 이미 매우 빠르기 때문에 gcc에만 적용 할 수 있었고 이제 user434507이 훨씬 더 나은 버전을 제공했습니다.
Ben Voigt

std :: string으로 변환하지 않는 버전을 추가해야한다고 생각합니다. 코드 한 줄만 변경하면 GCC를 사용하여 내 컴퓨터에서 함수가 절반의 시간에 실행됩니다. 그리고 std :: string을 제거함으로써 사람들은 C 프로그램 내에서이 기능을 사용할 수 있습니다.


알고리즘에 대해 여기에서 얻은 정보는 꽤 좋지만 질문이 "깨졌다"고 생각하며 왜 이렇게 생각하는지 설명하겠습니다.

질문은 int-> std::string변환 의 성능을 요구하며 , 이것은 다른 stringstream 구현이나 boost :: lexical_cast와 같이 일반적으로 사용 가능한 방법을 비교할 때 흥미로울 있습니다. 그러나이 작업을 수행하기 위해 특수 알고리즘 인 새 코드를 요청할 때는 의미가 없습니다 . 그 이유는 int2string은 항상 std :: string의 힙 할당을 포함하기 때문이며 변환 알고리즘에서 마지막을 짜내려고 할 때 이러한 측정 값을 std가 수행 한 힙 할당과 혼합하는 것이 합리적이지 않다고 생각합니다. :끈. 성능 변환을 원하면 항상 고정 크기 버퍼를 사용하고 힙에 아무것도 할당하지 않습니다!

요약하면 타이밍이 나뉘어 져야한다고 생각합니다.

  • 첫째, 가장 빠른 (int-> 고정 버퍼) 변환입니다.
  • 둘째, (고정 버퍼-> std :: string) 복사 타이밍입니다.
  • 셋째, std :: string 할당이 어떻게 버퍼로 직접 사용될 수 있는지 확인하여 복사를 저장합니다.

이러한 측면은 IMHO라는 한 타이밍에 혼합되어서는 안됩니다.

<quote> int2string은 항상 std :: string의 힙 할당을 포함합니다. </ quote> 표준 라이브러리의 대부분의 현재 구현에있는 작은 문자열 최적화에서는 아닙니다.
Ben Voigt

그러나 결국 std::string에는 모든 제출물에 대해 공정하고 일관된 작업을 수행하기 위해 "output as "요구 사항이 배치되었습니다. std::string결과를 더 빠르게 생성하는 알고리즘 은 미리 할당 된 버퍼를 채우는 데 더 빠릅니다.
Ben Voigt

@Ben-좋은 의견. Esp. sm.str.opt. std.string 성능을 판단 할 때 나중에 기억해야 할 것입니다.
Martin Ba


VS에서 테스트 할 수는 없지만 g ++ 코드보다 약 10 % 더 빠른 것 같습니다. 아마도 조정될 수 있고, 선택된 결정 값은 추측입니다. int 만, 죄송합니다.

typedef unsigned buf_t; 

static buf_t * reduce(unsigned val, buf_t * stp) {
   unsigned above = val / 10000; 
   if (above != 0) {
      stp = reduce(above, stp); 
      val -= above * 10000; 

   buf_t digit  = val / 1000; 
   *stp++ = digit + '0'; 
   val -= digit * 1000; 

   digit  = val / 100; 
   *stp++ = digit + '0'; 
   val -= digit * 100; 

   digit  = val / 10; 
   *stp++ = digit + '0'; 
   val -= digit * 10; 
   *stp++ = val + '0'; 
   return stp; 

std::string itostr(int input) {

   buf_t buf[16]; 

   if(input == INT_MIN) {  
      char buf2[16]; 
      std::sprintf(buf2, "%d", input); 
      return std::string(buf2); 

   // handle negative
   unsigned val = input;
   if(input < 0) 
      val = -input;

   buf[0] = '0'; 
   buf_t* endp = reduce(val, buf+1); 
   *endp = 127; 

   buf_t * stp = buf+1; 
   while (*stp == '0') 
   if (stp == endp)

   if (input < 0) { 
      *stp = '-'; 
   return std::string(stp, endp); 

서명되지 않은 변형 : ideone.com/pswq9 . 버퍼 유형을에서 char로 변경하면 unsigned적어도 gcc / ideone ideone.com/uthKK 에서 내 코드에서 비슷한 속도 향상 이 생성되는 것 같습니다 . 내일 VS에서 테스트하겠습니다.
Ben Voigt


user2985907의 답변 업데이트 ... modp_ufast ...

Integer To String Test (Type 1)
[modp_ufast]Numbers: 240000000  Total:   657777786      Time:  1.1633sec        Rate:206308473.0686nums/sec
[sprintf] Numbers: 240000000    Total:   657777786      Time: 24.3629sec        Rate:  9851045.8556nums/sec
[karma]   Numbers: 240000000    Total:   657777786      Time:  5.2389sec        Rate: 45810870.7171nums/sec
[strtk]   Numbers: 240000000    Total:   657777786      Time:  3.3126sec        Rate: 72450283.7492nums/sec
[so   ]   Numbers: 240000000    Total:   657777786      Time:  3.0828sec        Rate: 77852152.8820nums/sec
[timo ]   Numbers: 240000000    Total:   657777786      Time:  4.7349sec        Rate: 50687912.9889nums/sec
[voigt]   Numbers: 240000000    Total:   657777786      Time:  5.1689sec        Rate: 46431985.1142nums/sec
[hopman]  Numbers: 240000000    Total:   657777786      Time:  4.6169sec        Rate: 51982554.6497nums/sec
Press any key to continue . . .

Integer To String Test(Type 2)
[modp_ufast]Numbers: 240000000  Total:   660000000      Time:  0.5072sec        Rate:473162716.4618nums/sec
[sprintf] Numbers: 240000000    Total:   660000000      Time: 22.3483sec        Rate: 10739062.9383nums/sec
[karma]   Numbers: 240000000    Total:   660000000      Time:  4.2471sec        Rate: 56509024.3035nums/sec
[strtk]   Numbers: 240000000    Total:   660000000      Time:  2.1683sec        Rate:110683636.7123nums/sec
[so   ]   Numbers: 240000000    Total:   660000000      Time:  2.7133sec        Rate: 88454602.1423nums/sec
[timo ]   Numbers: 240000000    Total:   660000000      Time:  2.8030sec        Rate: 85623453.3872nums/sec
[voigt]   Numbers: 240000000    Total:   660000000      Time:  3.4019sec        Rate: 70549286.7776nums/sec
[hopman]  Numbers: 240000000    Total:   660000000      Time:  2.7849sec        Rate: 86178023.8743nums/sec
Press any key to continue . . .

Integer To String Test (type 3)
[modp_ufast]Numbers: 240000000  Total:   505625000      Time:  1.6482sec        Rate:145610315.7819nums/sec
[sprintf] Numbers: 240000000    Total:   505625000      Time: 20.7064sec        Rate: 11590618.6109nums/sec
[karma]   Numbers: 240000000    Total:   505625000      Time:  4.3036sec        Rate: 55767734.3570nums/sec
[strtk]   Numbers: 240000000    Total:   505625000      Time:  2.9297sec        Rate: 81919227.9275nums/sec
[so   ]   Numbers: 240000000    Total:   505625000      Time:  3.0278sec        Rate: 79266003.8158nums/sec
[timo ]   Numbers: 240000000    Total:   505625000      Time:  4.0631sec        Rate: 59068204.3266nums/sec
[voigt]   Numbers: 240000000    Total:   505625000      Time:  4.5616sec        Rate: 52613393.0285nums/sec
[hopman]  Numbers: 240000000    Total:   505625000      Time:  4.1248sec        Rate: 58184194.4569nums/sec
Press any key to continue . . .

int ufast_utoa10(unsigned int value, char* str)
#define JOIN(N) N "0", N "1", N "2", N "3", N "4", N "5", N "6", N "7", N "8", N "9"
#define JOIN2(N) JOIN(N "0"), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN3(N) JOIN2(N "0"), JOIN2(N "1"), JOIN2(N "2"), JOIN2(N "3"), JOIN2(N "4"), \
                 JOIN2(N "5"), JOIN2(N "6"), JOIN2(N "7"), JOIN2(N "8"), JOIN2(N "9")
#define JOIN4    JOIN3("0"), JOIN3("1"), JOIN3("2"), JOIN3("3"), JOIN3("4"), \
                 JOIN3("5"), JOIN3("6"), JOIN3("7"), JOIN3("8"), JOIN3("9")
#define JOIN5(N) JOIN(N), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN6    JOIN5(), JOIN5("1"), JOIN5("2"), JOIN5("3"), JOIN5("4"), \
                 JOIN5("5"), JOIN5("6"), JOIN5("7"), JOIN5("8"), JOIN5("9")
#define F(N)     ((N) >= 100 ? 3 : (N) >= 10 ? 2 : 1)
#define F10(N)   F(N),F(N+1),F(N+2),F(N+3),F(N+4),F(N+5),F(N+6),F(N+7),F(N+8),F(N+9)
#define F100(N)  F10(N),F10(N+10),F10(N+20),F10(N+30),F10(N+40),\
  static const short offsets[] = { F100(0), F100(100), F100(200), F100(300), F100(400),
                                  F100(500), F100(600), F100(700), F100(800), F100(900)};
  static const char table1[][4] = { JOIN("") }; 
  static const char table2[][4] = { JOIN2("") }; 
  static const char table3[][4] = { JOIN3("") };
  static const char table4[][5] = { JOIN4 }; 
  static const char table5[][4] = { JOIN6 };
#undef JOIN
#undef JOIN2
#undef JOIN3
#undef JOIN4
  char *wstr;
  int remains[2];
  unsigned int v2;
  if (value >= 100000000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    v2 = value / 10000;
    remains[1] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
    *(__int32 *) wstr = *(__int32 *) table4[remains[1]];
    wstr += 4;
    *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
    wstr += 4;
    *wstr = 0;
    return (wstr - str);
  else if (value >= 10000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return 8;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return (wstr - str);
  else {
    if (value >= 1000) {
      *(__int32 *) str = *(__int32 *) table4[value];
      str += 4;
      *str = 0;
      return 4;
    } else if (value >= 100) {
      *(__int32 *) str = *(__int32 *) table3[value];
      return 3;
    } else if (value >= 10) {
      *(__int16 *) str = *(__int16 *) table2[value];
      str += 2;
      *str = 0;
      return 2;
    } else {
      *(__int16 *) str = *(__int16 *) table1[value];
      return 1;

int ufast_itoa10(int value, char* str) {
  if (value < 0) { *(str++) = '-'; 
    return ufast_utoa10(-value, str) + 1; 
  else return ufast_utoa10(value, str);

    void ufast_test() {


   std::string s;
   std::size_t total_length = 0;
   strtk::util::timer t;

   char buf[128];
   int len;
   for (int i = (-max_i2s / 2); i < (max_i2s / 2); ++i)
      #ifdef enable_test_type01
      s.resize(ufast_itoa10(((i & 1) ? i : -i), const_cast<char*>(s.c_str())));
      total_length += s.size();

      #ifdef enable_test_type02
      s.resize(ufast_itoa10(max_i2s + i, const_cast<char*>(s.c_str())));
      total_length += s.size();

      #ifdef enable_test_type03
      s.resize(ufast_itoa10(randval[(max_i2s + i) & 1023], const_cast<char*>(s.c_str())));
      total_length += s.size();
          static_cast<unsigned long>(3 * max_i2s),
          static_cast<unsigned long>(total_length),
          (3.0 * max_i2s) / t.time());

당신은 그것을 문자열에 넣지 않습니다. 또한 다른 사람의 코드에 대한 결과가 왜 그렇게 낮고 CPU가 느리지 않은지 모르겠습니다.
Ben Voigt 2013

modp_ufast에 오류가 있습니다. 11000000까지 1000000 대신 10, 1090000 대신 19를 반환합니다.
Denis Zaikin 2014 년

수정 된 ufast가 잘못된 값을 반환합니다 (몇 가지 오류 후에 중지됨). Mismatch found: Generated: -99 Reference: -9099999 Mismatch found: Generated: -99 Reference: -9099998 Mismatch found: Generated: -99 Reference: -9099997

벤치 마크가있는 더 이식 가능한 버전이 여기에 있습니다. github.com/fmtlib/format-benchmark/blob/master/src/u2985907.h


이 재미있는 퍼즐에 대한 나의 작은 시도가 있습니다.

조회 테이블을 사용하는 대신 컴파일러가 모든 것을 파악하기를 원했습니다. 이 경우 특히-Hackers 'Delight를 읽으면 분할 및 모듈로 작동 방식을 볼 수 있습니다. 따라서 SSE / AVX 명령어를 사용하여이를 최적화 할 수 있습니다.

성능 벤치 마크

속도에 관해서 내 벤치 마크에 따르면 Timo의 작업보다 1.5 배 더 빠릅니다 (내 Intel Haswell에서는 약 1GB / s로 실행됩니다).

치트라고 생각할 수있는 것들

내가 사용하는 표준 문자열이 아닌 속임수에 관해서는 물론 Timo의 방법에 대한 벤치 마크도 고려했습니다.

나는 내장 BSR을 사용합니다. 원한다면 DeBruijn 테이블을 대신 사용할 수도 있습니다. 이것은 제가 '가장 빠른 2log'게시물에 꽤 많이 쓴 것 중 하나입니다. 물론 이것은 성능 저하가 있습니다 (* 음 ... 많은 itoa 작업을 수행한다면 실제로 더 빠른 BSR을 만들 수 있지만 불공평하다고 생각합니다 ...).

작동 방식

가장 먼저해야 할 일은 필요한 메모리 양을 파악하는 것입니다. 이것은 기본적으로 10log이며 여러 가지 현명한 방법으로 구현할 수 있습니다. 자세한 내용은 자주 인용되는 " Bit Twiddling Hacks "를 참조하십시오.

다음으로 할 일은 숫자 출력을 실행하는 것입니다. 이를 위해 템플릿 재귀를 사용하므로 컴파일러가 알아낼 것입니다.

나는 '모듈로'와 'div'를 나란히 사용합니다. Hacker 's Delight를 읽으면 두 가지가 밀접하게 관련되어 있음을 알 수 있으므로 하나의 답변이 있으면 다른 답변도있을 것입니다. 컴파일러가 세부 사항을 알아낼 수 있다고 생각했습니다 ... :-)


(수정 된) 로그를 사용하여 자릿수 얻기 10 :

struct logarithm
    static inline int log2(unsigned int value)
        unsigned long index;
        if (!_BitScanReverse(&index, value))
            return 0;

        // add 1 if x is NOT a power of 2 (to do the ceil)
        return index + (value&(value - 1) ? 1 : 0);

    static inline int numberDigits(unsigned int v)
        static unsigned int const PowersOf10[] =
        { 0, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000, 1000000000 };

        int t = (logarithm::log2(v) + 1) * 1233 >> 12; // (use a lg2 method from above)
        return 1 + t - (v < PowersOf10[t]);

문자열 얻기 :

template <int count>
struct WriteHelper
    inline static void WriteChar(char* buf, unsigned int value)
        unsigned int div = value / 10;
        unsigned int rem = value % 10;
        buf[count - 1] = rem + '0';

        WriteHelper<count - 1>::WriteChar(buf, div);

template <>
struct WriteHelper<1>
    inline static void WriteChar(char* buf, unsigned int value) 
        buf[0] = '0' + value;

// Boring code that converts a length into a switch.
// TODO: Test if recursion with an 'if' is faster.
static inline void WriteNumber(char* data, int len, unsigned int val) 
    switch (len) {
    case 1:
        WriteHelper<1>::WriteChar(data, static_cast<unsigned int>(val));
    case 2:
        WriteHelper<2>::WriteChar(data, static_cast<unsigned int>(val));
    case 3:
        WriteHelper<3>::WriteChar(data, static_cast<unsigned int>(val));
    case 4:
        WriteHelper<4>::WriteChar(data, static_cast<unsigned int>(val));
    case 5:
        WriteHelper<5>::WriteChar(data, static_cast<unsigned int>(val));
    case 6:
        WriteHelper<6>::WriteChar(data, static_cast<unsigned int>(val));
    case 7:
        WriteHelper<7>::WriteChar(data, static_cast<unsigned int>(val));
    case 8:
        WriteHelper<8>::WriteChar(data, static_cast<unsigned int>(val));
    case 9:
        WriteHelper<9>::WriteChar(data, static_cast<unsigned int>(val));
    case 10:
        WriteHelper<10>::WriteChar(data, static_cast<unsigned int>(val));

// The main method you want to call...
static int Write(char* data, int val) 
    int len;
    if (val >= 0) 
        len = logarithm::numberDigits(val);
        WriteNumber(data, len, unsigned int(val));
        return len;
        unsigned int v(-val);
        len = logarithm::numberDigits(v);
        WriteNumber(data+1, len, v);
        data[0] = '-';
        return len + 1;

흥미롭게도 저는 최근에 동료에게 Hacker 's Delight 사본을주었습니다. 특정 섹션이 있습니까? 물론, 모듈로와 div는 둘 다 단일 나누기 명령어에서 반환되었지만 그런 식으로 얻지 못할 것입니다. 상수로 나누기는 나누기보다 하드웨어 곱하기를 사용하여 훨씬 빠르게 구현되기 때문입니다.
Ben Voigt 2015 년

@BenVoigt 실제로 VS2013에서 '분해'를 실행하면 H의 기쁨을 읽은 후 예상 할 수있는 코드를 정확히 얻을 수 있습니다. 찾고있는 장은 10 장입니다.

예, 이것이 제가 언급 한 하드웨어 곱셈을 사용한 구현입니다.
Ben Voigt 2015 년

@BenVoigt 예, 그게 제가 의미하는 바입니다. 모듈로와 곱하기 (상수로)는 모두 동일한 매직 넘버, 시프트 (산수 및 법선)를 사용합니다. 여기서 내 가정은 컴파일러가 동일한 명령어를 여러 번 내보내고이를 최적화 할 수 있다는 것을 알아 내고이를 최적화 할 수 있다는 것입니다. 모든 작업을 벡터화 할 수 있기 때문에이를 알아낼 수도 있습니다 (보너스라고합시다 :-). H의 기쁨에 대한 나의 요점은 이러한 연산이 어떻게 컴파일되는지 (정수 곱하기, 시프트) 알고 있다면 이러한 가정을 할 수 있다는 것입니다.
atlaste 2015 년


나는 이것을 잠시 동안 앉아 있었고 마침내 그것을 게시했습니다.

한 번에 두 단어에 비해 몇 가지 방법이 더 있습니다 . hopman_fast . 결과는 GCC의 짧은 문자열 최적화 std :: string에 대한 것입니다. 그렇지 않으면 쓰기 중 복사 문자열 관리 코드의 오버 헤드로 인해 성능 차이가 가려집니다. 처리량은이 항목의 다른 부분과 동일한 방식으로 측정되며,주기 수는 출력 버퍼를 문자열로 복사하기 전에 코드의 원시 직렬화 부분에 대한 것입니다.

HOPMAN_FAST - performance reference  
TM_CPP, TM_VEC - scalar and vector versions of Terje Mathisen algorithm  
WM_VEC - intrinsics implementation of Wojciech Mula's vector algorithm  
AK_BW - word-at-a-time routine with a jump table that fills a buffer in reverse  
AK_FW - forward-stepping word-at-a-time routine with a jump table in assembly  
AK_UNROLLED - generic word-at-a-time routine that uses an unrolled loop  



컴파일 타임 스위치 :

-DVSTRING-이전 GCC 설정에 대해 SSO 문자열을 활성화합니다. -DBSR1-
빠른 log10
활성화 -DRDTSC-주기 카운터를 활성화합니다.

#include <cstdio>
#include <iostream>
#include <climits>
#include <sstream>
#include <algorithm>
#include <cstring>
#include <limits>
#include <ctime>
#include <stdint.h>
#include <x86intrin.h>

/* Uncomment to run */
// #define HOPMAN_FAST
// #define TM_CPP
// #define TM_VEC
// #define WM_VEC
// #define AK_UNROLLED
// #define AK_BW
// #define AK_FW

using namespace std;
#ifdef VSTRING
#include <ext/vstring.h>
typedef __gnu_cxx::__vstring string_type;
typedef string string_type;

namespace detail {

#ifdef __GNUC__
#define ALIGN(N) __attribute__ ((aligned(N)))
#define PACK __attribute__ ((packed))
  inline size_t num_digits(unsigned u) {
    struct {
      uint32_t count;
      uint32_t max;
    } static digits[32] ALIGN(64) = {
    { 1, 9 }, { 1, 9 }, { 1, 9 }, { 1, 9 },
    { 2, 99 }, { 2, 99 }, { 2, 99 },
    { 3, 999 }, { 3, 999 }, { 3, 999 },
    { 4, 9999 }, { 4, 9999 }, { 4, 9999 }, { 4, 9999 },
    { 5, 99999 }, { 5, 99999 }, { 5, 99999 },
    { 6, 999999 }, { 6, 999999 }, { 6, 999999 },
    { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 },
    { 8, 99999999 }, { 8, 99999999 }, { 8, 99999999 },
    { 9, 999999999 }, { 9, 999999999 }, { 9, 999999999 },
    { 10, UINT_MAX }, { 10, UINT_MAX }
#if (defined(i386) || defined(__x86_64__)) && (defined(BSR1) || defined(BSR2))
    size_t l = u;
#if defined(BSR1)
    __asm__ __volatile__ (
      "bsrl %k0, %k0    \n\t"
      "shlq $32, %q1    \n\t" 
      "movq %c2(,%0,8), %0\n\t" 
      "cmpq %0, %q1     \n\t"
      "seta %b1         \n\t"
      "addl %1, %k0     \n\t"
      : "+r" (l), "+r"(u)
      : "i"(digits)
      : "cc"
    return l;
    __asm__ __volatile__ ( "bsr %0, %0;"  : "+r" (l) );
    return digits[l].count + ( u > digits[l].max );
    size_t l = (u != 0) ? 31 - __builtin_clz(u) : 0;
    return digits[l].count + ( u > digits[l].max );
  inline unsigned msb_u32(unsigned x) {
    static const unsigned bval[] = { 0,1,2,2,3,3,3,3,4,4,4,4,4,4,4,4 };
    unsigned base = 0;
    if (x & (unsigned) 0xFFFF0000) { base += 32/2; x >>= 32/2; }
    if (x & (unsigned) 0x0000FF00) { base += 32/4; x >>= 32/4; }
    if (x & (unsigned) 0x000000F0) { base += 32/8; x >>= 32/8; }
    return base + bval[x];

  inline size_t num_digits(unsigned x) {
    static const unsigned powertable[] = {
  0,10,100,1000,10000,100000,1000000,10000000,100000000, 1000000000 };
    size_t lg_ten = msb_u32(x) * 1233 >> 12;
    size_t adjust = (x >= powertable[lg_ten]);
    return lg_ten + adjust;
#endif /* __GNUC__ */

  struct CharBuffer {
    class reverse_iterator : public iterator<random_access_iterator_tag, char> {
        char* m_p;
        reverse_iterator(char* p) : m_p(p - 1) {}
        reverse_iterator operator++() { return --m_p; }
        reverse_iterator operator++(int) { return m_p--; }
        char operator*() const { return *m_p; }
        bool operator==( reverse_iterator it) const { return m_p == it.m_p; }
        bool operator!=( reverse_iterator it) const { return m_p != it.m_p; }
        difference_type operator-( reverse_iterator it) const { return it.m_p - m_p; }

  union PairTable {
    char c[2];
    unsigned short u;
  } PACK table[100] ALIGN(1024) = {
} // namespace detail

struct progress_timer {
    clock_t c;
    progress_timer() : c(clock()) {}
    int elapsed() { return clock() - c; }
    ~progress_timer() {
        clock_t d = clock() - c;
        cout << d / CLOCKS_PER_SEC << "."
            << (((d * 1000) / CLOCKS_PER_SEC) % 1000 / 100)
            << (((d * 1000) / CLOCKS_PER_SEC) % 100 / 10)
            << (((d * 1000) / CLOCKS_PER_SEC) % 10)
            << " s" << endl;

namespace hopman_fast {

    static unsigned long cpu_cycles = 0;

    struct itostr_helper {
        static ALIGN(1024) unsigned out[10000];

        itostr_helper() {
            for (int i = 0; i < 10000; i++) {
                unsigned v = i;
                char * o = (char*)(out + i);
                o[3] = v % 10 + '0';
                o[2] = (v % 100) / 10 + '0';
                o[1] = (v % 1000) / 100 + '0';
                o[0] = (v % 10000) / 1000;
                if (o[0]) o[0] |= 0x30;
                else if (o[1] != '0') o[0] |= 0x20;
                else if (o[2] != '0') o[0] |= 0x10;
                else o[0] |= 0x00;
    unsigned itostr_helper::out[10000];

    itostr_helper hlp_init;

    template <typename T>
    string_type itostr(T o) {
        typedef itostr_helper hlp;
#ifdef RDTSC
        long first_clock = __rdtsc();
        unsigned blocks[3], *b = blocks + 2;
        blocks[0] = o < 0 ? ~o + 1 : o;
        blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[2] = hlp::out[blocks[2]];

        if (blocks[0]) {
            blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
            blocks[1] = hlp::out[blocks[1]];
            blocks[2] |= 0x30303030;

        if (blocks[0]) {
            blocks[0] = hlp::out[blocks[0] % 10000];
            blocks[1] |= 0x30303030;

        char* f = ((char*)b);
        f += 3 - (*f >> 4);

        char* str = (char*)blocks;
        if (o < 0) *--f = '-';

        str += 12;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(f, str);
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

namespace ak {
  namespace unrolled {
    static unsigned long cpu_cycles = 0;

    template <typename value_type> class Proxy {
      static const size_t MaxValueSize = 16;

      static inline char* generate(int value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value < 0 ? unsigned(~value) + 1 : value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        *(b.pc -= (u >= 10)) = '-';
        return b.pc + (value >= 0);
      static inline char* generate(unsigned value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        return b.pc + (u < 10);
      static inline string_type convert(value_type v) {
        char buf[MaxValueSize];
#ifdef RDTSC
        long first_clock = __rdtsc();
        char* p = generate(v, buf);
        char* e = buf + MaxValueSize;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(p, e);
    string_type itostr(int i) { return Proxy<int>::convert(i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }

#if defined(AK_BW)
  namespace bw {
    static unsigned long cpu_cycles = 0;
    typedef uint64_t u_type;

    template <typename value_type> class Proxy {

      static inline void generate(unsigned v, size_t len, char* buffer) {
        u_type u = v;
        switch(len) {
        default: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 8) = detail::table[v -= 100 * u].u; 
        case  8: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 6) = detail::table[u -= 100 * v].u; 
        case  6: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 4) = detail::table[v -= 100 * u].u;
        case  4: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 2) = detail::table[u -= 100 * v].u;
        case  2: *(uint16_t*)buffer = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 7) = detail::table[v -= 100 * u].u;
        case  7: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 5) = detail::table[u -= 100 * v].u;
        case  5: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 3) = detail::table[v -= 100 * u].u;
        case  3: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 1) = detail::table[u -= 100 * v].u;
        case  1: *buffer = v + 0x30;
      static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        size_t len = detail::num_digits(val);
        buf[0] = '-';

        char* e = buf + neg;
        generate(val, len, e);
        e += len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
    string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }

#if defined(AK_FW)
  namespace fw {
        static unsigned long cpu_cycles = 0;
        typedef uint32_t u_type;
        template <typename value_type> class Proxy {

        static inline void generate(unsigned v, size_t len, char* buffer) {
#if defined(__GNUC__) && defined(__x86_64__)
          uint16_t w;
          uint32_t u;
          __asm__ __volatile__ (
        "jmp %*T%=(,%3,8)       \n\t"
        "T%=: .quad L0%=        \n\t"
        "     .quad L1%=        \n\t"
        "     .quad L2%=        \n\t"
        "     .quad L3%=        \n\t"
        "     .quad L4%=        \n\t"
        "     .quad L5%=        \n\t"
        "     .quad L6%=        \n\t"
        "     .quad L7%=        \n\t"
        "     .quad L8%=        \n\t"
        "     .quad L9%=        \n\t"
        "     .quad L10%=       \n\t"
        "L10%=:         \n\t"
        " imulq $1441151881, %q0, %q1\n\t"
        " shrq $57, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L8%=:          \n\t"
        " imulq $1125899907, %q0, %q1\n\t"
        " shrq $50, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000000, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -8(%4,%3)   \n\t"
        "L6%=:          \n\t"
        " imulq $429497, %q0, %q1   \n\t"
        " shrq $32, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -6(%4,%3)   \n\t"
        "L4%=:          \n\t"
        " imull $167773, %0, %1 \n\t"
        " shrl $24, %1      \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -4(%4,%3)   \n\t"
        "L2%=:          \n\t"
        " movw %c5(,%q0,2), %w2 \n\t"
        " movw %w2, -2(%4,%3)   \n\t"
        "L0%=: jmp 1f       \n\t"
        "L9%=:          \n\t"
        " imulq $1801439851, %q0, %q1\n\t"
        " shrq $54, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L7%=:          \n\t"
        " imulq $43980466, %q0, %q1 \n\t"
        " shrq $42, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000, %1, %1 \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -7(%4,%3)   \n\t"
        "L5%=:          \n\t"
        " imulq $268436, %q0, %q1   \n\t"
        " shrq $28, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -5(%4,%3)   \n\t"
        "L3%=:          \n\t"
        " imull $6554, %0, %1   \n\t"
        " shrl $15, %1      \n\t"
        " andb $254, %b1        \n\t"
        " movw %c5(,%q1), %w2   \n\t"
        " leal (%1,%1,4), %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -3(%4,%3)   \n\t"
        "L1%=:          \n\t"
        " addl $48, %0      \n\t"
        " movb %b0, -1(%4,%3)   \n\t"
        "1:             \n\t"
        : "+r"(v), "=&q"(u), "=&r"(w)
        : "r"(len), "r"(buffer), "i"(detail::table)
        : "memory", "cc"
          u_type u;
          switch(len) {
        default: u = (v * 1441151881ULL) >> 57; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 100000000;
        case  8: u = (v * 1125899907ULL) >> 50; *(uint16_t*)(buffer + len - 8) = detail::table[u].u; v -= u * 1000000;
        case  6: u = (v * 429497ULL) >> 32; *(uint16_t*)(buffer + len - 6) = detail::table[u].u; v -= u * 10000;
        case  4: u = (v * 167773) >> 24; *(uint16_t*)(buffer + len - 4) = detail::table[u].u; v -= u * 100;
        case  2: *(uint16_t*)(buffer + len - 2) = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1801439851ULL) >> 54; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 10000000; 
        case  7: u = (v * 43980466ULL) >> 42; *(uint16_t*)(buffer + len - 7) = detail::table[u].u; v -= u * 100000; 
        case  5: u = (v * 268436ULL) >> 28;  *(uint16_t*)(buffer + len - 5) = detail::table[u].u; v -= u * 1000;
        case  3: u = (v * 6554) >> 16; *(uint16_t*)(buffer + len - 3) = detail::table[u].u; v -= u * 10;
        case  1: *(buffer + len - 1) = v + 0x30;
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        size_t len = detail::num_digits(val);
        if (neg) buf[0] = '-';
        char* e = buf + len + neg;
        generate(val, len, buf + neg);
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
} // ak

namespace wm {
#ifdef WM_VEC
#if defined(__GNUC__) && defined(__x86_64__)
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

      static inline unsigned generate(unsigned v, char* buf) {
        static struct {
          unsigned short mul_10[8];
          unsigned short div_const[8];
          unsigned short shl_const[8];
          unsigned char  to_ascii[16];
        } ALIGN(64) bits = 
          { // mul_10
           10, 10, 10, 10, 10, 10, 10, 10
          { // div_const
            8389, 5243, 13108, 0x8000, 8389, 5243, 13108, 0x8000
          { // shl_const
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15),
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15)
          { // to_ascii 
            '0', '0', '0', '0', '0', '0', '0', '0',
            '0', '0', '0', '0', '0', '0', '0', '0'
        unsigned x, y, l;
        x = (v * 1374389535ULL) >> 37;
        y = v;
        l = 0;
        if (x) {
          unsigned div = 0xd1b71759;
          unsigned mul = 55536;
          __m128i z, m, a, o;
          y -= 100 * x;
          z = _mm_cvtsi32_si128(x);
          m = _mm_load_si128((__m128i*)bits.mul_10);
          o = _mm_mul_epu32( z, _mm_cvtsi32_si128(div));
          z = _mm_add_epi32( z, _mm_mul_epu32( _mm_cvtsi32_si128(mul), _mm_srli_epi64( o, 45) ) );
          z = _mm_slli_epi64( _mm_shuffle_epi32( _mm_unpacklo_epi16(z, z), 5 ), 2 );
          a = _mm_load_si128((__m128i*)bits.to_ascii);
          z = _mm_mulhi_epu16( _mm_mulhi_epu16( z, *(__m128i*)bits.div_const ), *(__m128i*)bits.shl_const );
          z = _mm_sub_epi16( z, _mm_slli_epi64( _mm_mullo_epi16( m, z ), 16 ) );
          z = _mm_add_epi8( _mm_packus_epi16( z, _mm_xor_si128(o, o) ), a );
          x = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( a, z ) ) );
          l = 8 - x;
          uint64_t q = _mm_cvtsi128_si64(z) >> (x * 8);
          *(uint64_t*)buf = q;
          buf += l;
          x = 1;
        v = (y * 6554) >> 16;
        l += 1 + (x | (v != 0));
            *(unsigned short*)buf = 0x30 + ((l > 1) ? ((0x30 + y - v * 10) << 8) + v : y);
            return l;
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        buf[0] = '-';
        unsigned len = generate(val, buf + neg);
        char* e = buf + len + neg;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
      inline string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      inline string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
} // wm

namespace tmn {

#ifdef TM_CPP
  namespace cpp {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline void generate(unsigned v, char* buffer) {
          unsigned const f1_10000 = (1 << 28) / 10000;
          unsigned tmplo, tmphi;

          unsigned lo = v % 100000;
          unsigned hi = v / 100000;

          tmplo = lo * (f1_10000 + 1) - (lo >> 2);
          tmphi = hi * (f1_10000 + 1) - (hi >> 2);

          unsigned mask = 0x0fffffff;
          unsigned shift = 28;

          for(size_t i = 0; i < 5; i++)
            buffer[i + 0] = '0' + (char)(tmphi >> shift);
            buffer[i + 5] = '0' + (char)(tmplo >> shift);
            tmphi = (tmphi & mask) * 5;
            tmplo = (tmplo & mask) * 5;
            mask >>= 1;
        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
        char buf[16];
        size_t len = detail::num_digits(val);
        char* e = buf + 11;
        generate(val, buf + 1);
        buf[10 - len] = '-';
        len += neg;
        char* b = e - len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(b, e);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

#ifdef TM_VEC
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline unsigned generate(unsigned val, char* buffer) {
        static struct {
            unsigned char mul_10[16];
            unsigned char to_ascii[16];
            unsigned char gather[16];
            unsigned char shift[16];
        } ALIGN(64) bits = {
            { 10,0,0,0,10,0,0,0,10,0,0,0,10,0,0,0 },
            { '0','0','0','0','0','0','0','0','0','0','0','0','0','0','0','0' },
            { 3,5,6,7,9,10,11,13,14,15,0,0,0,0,0,0 },
            { 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15 }

        unsigned u = val / 1000000;
        unsigned l = val - u * 1000000;

        __m128i x, h, f, m, n;

        n = _mm_load_si128((__m128i*)bits.mul_10);
        x = _mm_set_epi64x( l, u );
        h = _mm_mul_epu32( x, _mm_set1_epi32(4294968) );
        x = _mm_sub_epi64( x, _mm_srli_epi64( _mm_mullo_epi32( h, _mm_set1_epi32(1000) ), 32 ) );
        f = _mm_set1_epi32((1 << 28) / 1000 + 1);
        m = _mm_srli_epi32( _mm_cmpeq_epi32(m, m), 4 );
        x = _mm_shuffle_epi32( _mm_blend_epi16( x, h, 204 ), 177 );
        f = _mm_sub_epi32( _mm_mullo_epi32(f, x), _mm_srli_epi32(x, 2) );

        h = _mm_load_si128((__m128i*)bits.to_ascii);

        x = _mm_srli_epi32(f, 28);
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 8) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 16) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 24) );

        x = _mm_add_epi8( _mm_shuffle_epi8(x, *(__m128i*)bits.gather), h );
        l = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( h, x ) ) | (1 << 9) );

        x = _mm_shuffle_epi8( x, _mm_add_epi8(*(__m128i*)bits.shift, _mm_set1_epi8(l) ) );

        _mm_store_si128( (__m128i*)buffer, x );
        return 10 - l;

        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
        char arena[32];
        char* buf = (char*)((uintptr_t)(arena + 16) & ~(uintptr_t)0xf);
        *(buf - 1)= '-';
        unsigned len = generate(val, buf) + neg;
        buf -= neg;
        char* end = buf + len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, end);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

bool fail(string in, string_type out) {
    cout << "failure: " << in << " => " << out << endl;
    return false;

#define TEST(x, n) \
    stringstream ss; \
    string_type s = n::itostr(x); \
    ss << (long long)x; \
    if (::strcmp(ss.str().c_str(), s.c_str())) { \
        passed = fail(ss.str(), s); \
        break; \

#define test(x) { \
    passed = true; \
    if (0 && passed) { \
        char c = CHAR_MIN; \
        do { \
            TEST(c, x); \
        } while (c++ != CHAR_MAX); \
        if (!passed) cout << #x << " failed char!!!" << endl; \
    } \
    if (0 && passed) { \
        short c = numeric_limits<short>::min(); \
        do { \
            TEST(c, x); \
        } while (c++ != numeric_limits<short>::max()); \
        if (!passed) cout << #x << " failed short!!!" << endl; \
    } \
    if (passed) { \
        int c = numeric_limits<int>::min(); \
        do { \
            TEST(c, x); \
        } while ((c += 100000) < numeric_limits<int>::max() - 100000); \
        if (!passed) cout << #x << " failed int!!!" << endl; \
    } \
    if (passed) { \
        unsigned c = numeric_limits<unsigned>::max(); \
        do { \
            TEST(c, x); \
        } while ((c -= 100000) > 100000); \
        if (!passed) cout << #x << " failed unsigned int!!!" << endl; \
    } \

#define time(x, N) \
if (passed) { \
    static const int64_t limits[] = \
        {0, 10, 100, 1000, 10000, 100000, \
         1000000, 10000000, 100000000, 1000000000, 10000000000ULL }; \
    long passes = 0; \
    cout << #x << ": "; \
    progress_timer t; \
    uint64_t s = 0; \
    if (do_time) { \
        for (int n = 0; n < N1; n++) { \
            int i = 0; \
            while (i < N2) { \
                int v = ((NM - i) % limits[N]) | (limits[N] / 10); \
                int w = x::itostr(v).size() + \
                    x::itostr(-v).size(); \
                i += w * mult; \
                                passes++; \
            } \
            s += i / mult; \
        } \
    } \
    k += s; \
    cout << N << " digits: " \
          << s / double(t.elapsed()) * CLOCKS_PER_SEC/1000000 << " MB/sec, " << (x::cycles() / passes >> 1) << " clocks per pass "; \
    x::reset(); \

#define series(n) \
    { if (do_test) test(n);    if (do_time) time(n, 1); if (do_time) time(n, 2); \
      if (do_time) time(n, 3); if (do_time) time(n, 4); if (do_time) time(n, 5); \
      if (do_time) time(n, 6); if (do_time) time(n, 7); if (do_time) time(n, 8); \
      if (do_time) time(n, 9); if (do_time) time(n, 10); }

int N1 = 1, N2 = 500000000, NM = INT_MAX;
int mult = 1; //  used to stay under timelimit on ideone
unsigned long long k = 0;

int main(int argc, char** argv) {
    bool do_time = 1, do_test = 1;
    bool passed = true;
#ifdef WM_VEC
#ifdef TM_CPP
#ifdef TM_VEC
#if defined(AK_BW)
#if defined(AK_FW)
    return k;


가장 빠른 정수-문자열 알고리즘을 만들었다 고 생각합니다. 약 33 % 더 빠른 Modulo 100 알고리즘의 변형이며, 가장 중요한 것은 작은 숫자와 큰 숫자 모두에서 더 빠릅니다. 이를 스크립트 ItoS 알고리즘이라고합니다. 알고리즘을 어떻게 엔지니어링했는지 설명하는 문서를 읽으려면 @see https://github.com/kabuki-starship/kabuki-toolkit/wiki/Engineering-a-Faster-Integer-to-String-Algorithm을 참조하십시오 . 알고리즘을 사용할 수 있지만 Kabuki VM 에 다시 기여하는 것에 대해 생각 하고 Script를 확인하십시오 . 특히 AMIL-NLP 및 / 또는 소프트웨어 정의 네트워킹 프로토콜에 관심이있는 경우.

여기에 이미지 설명 입력

/** Kabuki Toolkit
    @version 0.x
    @file    ~/source/crabs/print_itos.cc
    @author  Cale McCollough <cale.mccollough@gmail.com>
    @license Copyright (C) 2017-2018 Cale McCollough <calemccollough@gmail.com>;
             All right reserved (R). Licensed under the Apache License, Version 
             2.0 (the "License"); you may not use this file except in 
             compliance with the License. You may obtain a copy of the License 
             [here](http://www.apache.org/licenses/LICENSE-2.0). Unless 
             required by applicable law or agreed to in writing, software 
             distributed under the License is distributed on an "AS IS" BASIS, 
             WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
             implied. See the License for the specific language governing 
             permissions and limitations under the License.

#include <stdafx.h>
#include "print_itos.h"

#if MAJOR_SEAM >= 1 && MINOR_SEAM >= 1

#if MAJOR_SEAM == 1 && MINOR_SEAM == 1
#define DEBUG 1

#define PRINTF(format, ...) printf(format, __VA_ARGS__);
#define PUTCHAR(c) putchar(c);
    sprintf_s (buffer, 24, "%u", value); *text_end = 0;\
    printf ("\n    Printed \"%s\" leaving value:\"%s\":%u",\
            begin, buffer, (uint)strlen (buffer));
#define PRINT_BINARY PrintBinary (value);
#define PRINT_BINARY_TABLE PrintBinaryTable (value);
#define PRINTF(x, ...)
#define PUTCHAR(c)

namespace _ {

void PrintLine (char c) {
    std::cout << '\n';
    for (int i = 80; i > 0; --i) 
        std::cout << c;

char* Print (uint32_t value, char* text, char* text_end) {

    // Lookup table for powers of 10.
    static const uint32_t k10ToThe[]{
        1, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000,
        1000000000, ~(uint32_t)0 };

    /** Lookup table of ASCII char pairs for 00, 01, ..., 99.
        To convert this algorithm to big-endian, flip the digit pair bytes. */
    static const uint16_t kDigits00To99[100] = {
        0x3030, 0x3130, 0x3230, 0x3330, 0x3430, 0x3530, 0x3630, 0x3730, 0x3830,
        0x3930, 0x3031, 0x3131, 0x3231, 0x3331, 0x3431, 0x3531, 0x3631, 0x3731,
        0x3831, 0x3931, 0x3032, 0x3132, 0x3232, 0x3332, 0x3432, 0x3532, 0x3632,
        0x3732, 0x3832, 0x3932, 0x3033, 0x3133, 0x3233, 0x3333, 0x3433, 0x3533,
        0x3633, 0x3733, 0x3833, 0x3933, 0x3034, 0x3134, 0x3234, 0x3334, 0x3434,
        0x3534, 0x3634, 0x3734, 0x3834, 0x3934, 0x3035, 0x3135, 0x3235, 0x3335,
        0x3435, 0x3535, 0x3635, 0x3735, 0x3835, 0x3935, 0x3036, 0x3136, 0x3236,
        0x3336, 0x3436, 0x3536, 0x3636, 0x3736, 0x3836, 0x3936, 0x3037, 0x3137,
        0x3237, 0x3337, 0x3437, 0x3537, 0x3637, 0x3737, 0x3837, 0x3937, 0x3038,
        0x3138, 0x3238, 0x3338, 0x3438, 0x3538, 0x3638, 0x3738, 0x3838, 0x3938,
        0x3039, 0x3139, 0x3239, 0x3339, 0x3439, 0x3539, 0x3639, 0x3739, 0x3839,
        0x3939, };

    static const char kMsbShift[] = { 4, 7, 11, 14, 17, 21, 24, 27, 30, };

    if (!text) {
        return nullptr;
    if (text >= text_end) {
        return nullptr;

    uint16_t* text16;
    char      digit;
    uint32_t  scalar;
    uint16_t  digits1and2,
    uint32_t  comparator;

    #if MAJOR_SEAM == 1 && MINOR_SEAM == 1
    // Write a bunches of xxxxxx to the buffer for debug purposes.
    for (int i = 0; i <= 21; ++i) {
        *(text + i) = 'x';
    *(text + 21) = 0;
    char* begin = text;
    char buffer[256];

    if (value < 10) {
        PRINTF ("\n    Range:[0, 9] length:1 ")
        if (text + 1 >= text_end) {
            return nullptr;
        *text++ = '0' + (char)value;
        return text;
    if (value < 100) {
        PRINTF ("\n    Range:[10, 99] length:2 ")
        if (text + 2 >= text_end) {
            return nullptr;
        *reinterpret_cast<uint16_t*> (text) = kDigits00To99[value];
        return text + 2;
    if (value >> 14) {
        if (value >> 27) {
            if (value >> 30) {
                PRINTF ("\n    Range:[1073741824, 4294967295] length:10")
                if (text + 10 >= text_end) {
                    return nullptr;
                comparator = 100000000;
                digits1and2 = (uint16_t)(value / comparator);
                PRINTF ("\n    digits1and2:%u", digits1and2)
                value -= digits1and2 * comparator;
                *reinterpret_cast<uint16_t*> (text) = kDigits00To99[digits1and2];
                text += 2;
                goto Print8;
            else {
                comparator = 1000000000;
                if (value >= comparator) {
                    PRINTF ("\n    Range:[100000000, 1073741823] length:10")
                    goto Print10;
                PRINTF ("\n    Range:[134217727, 999999999] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                comparator = 100000000;
                digit = (char)(value / comparator);
                *text++ = digit + '0';
                value -= comparator * digit;
                goto Print8;
        else if (value >> 24) {
            comparator = k10ToThe[8];
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000000, 134217728] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            PRINTF ("\n    Range:[16777216, 9999999] length:8")
            if (text + 8 >= text_end) {
                return nullptr;
            PRINTF ("\n    Print8:")
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            *reinterpret_cast<uint16_t*> (text + 6) = 
            *reinterpret_cast<uint16_t*> (text + 4) = 
            *reinterpret_cast<uint16_t*> (text + 2) = 
            *reinterpret_cast<uint16_t*> (text) = 
            return text + 8;
        else if (value >> 20) {
            comparator = 10000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[10000000, 16777215] length:8")
                if (text + 8 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            else {
                PRINTF ("\n    Range:[1048576, 9999999] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;;
            *reinterpret_cast<uint16_t*> (text + 5) = 
            *reinterpret_cast<uint16_t*> (text + 3) = 
            *reinterpret_cast<uint16_t*> (text + 1) = 
            *text = (char)digits7and8 + '0';
            return text + 7;
        else if (value >> 17) {
            comparator = 1000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000, 1048575] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            else {
                PRINTF ("\n    Range:[131072, 999999] length:6")
                if (text + 6 >= text_end) {
                    return nullptr;
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 6);
            *reinterpret_cast<uint16_t*> (text + 4) = kDigits00To99[digits1and2];
            *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits3and4];
            *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits5and6];
            return text + 6;
        else { // (value >> 14)
            if (value >= 100000) {
                PRINTF ("\n    Range:[65536, 131071] length:6")
                goto Print6;
            PRINTF ("\n    Range:[10000, 65535] length:5")
            if (text + 5 >= text_end) {
                return nullptr;
            digits5and6 = 10000;
            digit = (uint8_t)(value / digits5and6);
            value -= digits5and6 * digit;
            *text = digit + '0';
            digits1and2 = (uint16_t)value;
            digits5and6 = 100;
            digits3and4 = digits1and2 / digits5and6;
            digits1and2 -= digits3and4 * digits5and6;
            *reinterpret_cast<uint16_t*> (text + 1) = 
                PRINTF ("\n    digits1and2:%u", digits1and2)
            *reinterpret_cast<uint16_t*> (text + 3) = 
            return text + 5;
    digits1and2 = (uint16_t)value;
    if (value >> 10) {
        digits5and6 = 10000;
        if (digits1and2 >= digits5and6) {
            if (text + 5 >= text_end) {
                return nullptr;
            PRINTF ("\n    Range:[10000, 16383] length:5")
            *text++ = '1';
            digits1and2 -= digits5and6;

        else {
            PRINTF ("\n    Range:[1024, 9999] length:4")
            if (text + 4 >= text_end) {
                return nullptr;
        digits5and6 = 100;
        digits3and4 = digits1and2 / digits5and6;
        digits1and2 -= digits3and4 * digits5and6;
        *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits3and4];
        *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits1and2];
        return text + 4;
    else {
        if (text + 4 >= text_end) {
            return nullptr;
        digits3and4 = 1000;
        if (digits1and2 >= digits3and4) {
            PRINTF ("\n    Range:[1000, 1023] length:4")
            digits1and2 -= digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 2);
            *text16-- = kDigits00To99[digits1and2];
            *text16 = (((uint16_t)'1') | (((uint16_t)'0') << 8));
            return text + 4;
        PRINTF ("\n    Range:[100, 999] length:3")
        digits1and2 = (uint16_t)value;
        digits3and4 = 100;
        digit = (char)(digits1and2 / digits3and4);
        digits1and2 -= digit * digits3and4;
        *text = digit + '0';
        *reinterpret_cast<uint16_t*> (text + 1) = kDigits00To99[digits1and2];
        return text + 3;

}       //< namespace _
#undef  PRINTF
#endif  //< MAJOR_SEAM >= 1 && MINOR_SEAM >= 1


참고 :이를 Stack Overflow에 게시함으로써 CC BY-SA 3.0 (Stack Exchange 사용 약관에 따라)에 따라 취소 할 수 없게 게시했습니다 . GPL 3에 따라 게시된다는 귀하의 진술 은 사용자가 CC BY-SA 3.0의 대안으로 선택적으로 사용할 수 있는 추가 라이선스를 구성합니다 . 사용할 라이선스는 코드를 복사하는 사용자의 재량입니다. 이것이 당신에게 문제가된다면 유능한 법률 자문을받을 것을 권합니다. (IANAL) 본질적으로 이것에 잘못된 것은 없지만주의를 기울여야한다고 생각했습니다.

아주 좋아. 그러나 std::string여기에 나열된 다른 메서드와의 비교가 유효하려면 a를 반환해야 합니다. 처음에는 비교가 이미 예외적으로 빠르기 때문에 이진 검색 트리에 대한 시프트 연산자의 사용을 알아낼 수 없었지만 이제 필요한 경우 시프트 된 값을 미리 계산하는 데 유용 할 것임을 깨달았습니다. 그래도 사용하지 않습니다. 반면에 명령어 내부에 인코딩 된 큰 리터럴로 끝나지 않으므로 그 자체만으로도 충분한 이유 일 수 있습니다.
Ben Voigt

나는 그것을 잊었다. 또 다른 래퍼 함수입니다. 내 모든 물건은 Apache 라이센스가 부여되었지만 GNU를 사용해 볼 것이라고 생각했지만 네 ... 말이 안 돼요.

좋아, 라이센스를 다시 변경하고 문자열 기능을 추가했습니다. Script는 Chinese Room이있는 슈퍼 컴퓨터에서 IGEEK를 수행하기 위해 분산 컴퓨팅을위한 소켓 기반 언어 제품군입니다. 내 문자열 클래스는 링 버퍼입니다. {:-)-+ = <JSON보다 훨씬 빠른 매우 빠른 연속 데이터 구조도 있습니다. 사전, 순서없는 맵, 튜플 목록, 맵, 스택, 데이터 마샬링 및 바이트 인코딩 된 스크립트를 허용하는 배열, JIT 컴파일 된 텍스트 및 모든 종류의 VM 장점이 있습니다. 아직 준비되지 않았습니다.

방금 알고리즘을 업데이트하고 많은 수의 성능을 크게 향상 시켰습니다.


user434507의 솔루션에 대한 수정. C ++ 문자열 대신 문자 배열을 사용하도록 수정되었습니다. 조금 더 빠르게 실행됩니다. 또한 내 특정 경우에는 발생하지 않기 때문에 코드에서 0에 대한 검사를 더 낮게 이동했습니다. 귀하의 경우에 더 일반적인 경우 다시 이동하십시오.

// Int2Str.cpp : Defines the entry point for the console application.
#include <stdio.h>
#include <iostream>
#include "StopWatch.h"

using namespace std;

const char digit_pairs[201] = {

void itostr(int n, char* c) {
    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
    if(val>=10000) {
        if(val>=10000000) {
            if(val>=1000000000) {
            else if(val>=100000000) {
            else size=8;
        else {
            if(val>=1000000) {
            else if(val>=100000) {
            else size=5;
    else {
        if(val>=100) {
            if(val>=1000) {
            else size=3;
        else {
            if(val>=10) {
            else if(n==0) {
                c[1] = '\0';
            else size=1;
    size -= sign;

    c += size-1;
    while(val>=100) {
        int pos = val % 100;
        val /= 100;
    while(val>0) {
        *c--='0' + (val % 10);
        val /= 10;
    c[size+1] = '\0';

void itostr(unsigned val, char* c)
    int size;
            else if(val>=100000000)
            else if(val>=100000)
            else if (val==0) {
                c[1] = '\0';

    c += size-1;
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    c[size+1] = '\0';

void test() {
    bool foundmismatch = false;
    char str[16];
    char compare[16];
    for(int i = -1000000; i < 1000000; i++) {
        int random = rand();
        itostr(random, str);
        itoa(random, compare, 10);
        if(strcmp(str, compare) != 0) {
            cout << "Mismatch found: " << endl;
            cout << "Generated: " << str << endl;
            cout << "Reference: " << compare << endl;
            foundmismatch = true;
    if(!foundmismatch) {
        cout << "No mismatch found!" << endl;

void benchmark() {
    StopWatch stopwatch;
    char str[16];
    for(unsigned int i = 0; i < 2000000; i++) {
        itostr(i, str);

int main( int argc, const char* argv[]) {

0x80000000에서 0x7FFFFFFF까지 테스트했으며 이미 -999999999에서 잘못된 값을 얻습니다 (몇 가지 불일치 후에 중지했습니다). Mismatch found: Generated: -9999999990 Reference: -999999999 Mismatch found: Generated: -9999999980 Reference: -999999998 Mismatch found: Generated: -9999999970 Reference: -999999997
Waldemar 2015


다음 코드 (MSVC 용)를 사용합니다.

템플릿 기반 tBitScanReverse :

#include <intrin.h>

namespace intrin {

#pragma intrinsic(_BitScanReverse)
#pragma intrinsic(_BitScanReverse64)

template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 4), unsigned char>
    return _BitScanReverse(out_index, mask);
template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 8), unsigned char>
#if !(_M_IA64 || _M_AMD64)
    auto res = _BitScanReverse(out_index, (unsigned long)(mask >> 32));
    if (res) {
        out_index += 32;
        return res;
    return _BitScanReverse(out_index, (unsigned long)mask);
    return _BitScanReverse64(out_index, mask);


char / wchar_t 도우미 :

template<typename TChar> inline constexpr TChar   ascii_0();
template<>               inline constexpr char    ascii_0() { return  '0'; }
template<>               inline constexpr wchar_t ascii_0() { return L'0'; }

template<typename TChar, typename TInt> inline constexpr TChar ascii_DEC(TInt d) { return (TChar)(ascii_0<TChar>() + d); }

10 개 테이블의 거듭 제곱 :

static uint32 uint32_powers10[] = {
//   123456789
static uint64 uint64_powers10[] = {
//   1234567890123456789

template<typename TUint> inline constexpr const TUint  * powers10();
template<>               inline constexpr const uint32 * powers10() { return uint32_powers10; }
template<>               inline constexpr const uint64 * powers10() { return uint64_powers10; }

실제 인쇄 :

template<typename TChar, typename TUInt>
__forceinline auto
    TUInt u,
    TChar * & buffer) -> typename std::enable_if_t<std::is_unsigned<TUInt>::value>
    if (u < 10) {                                                   // 1-digit, including 0  
        *buffer++ = ascii_DEC<TChar>(u);
    else {
        DWORD log2u;
        intrin::tBitScanReverse(&log2u, u);                         //  log2u [3,31]  (u >= 10)
        DWORD log10u = ((log2u + 1) * 77) >> 8;                     //  log10u [1,9]   77/256 = ln(2) / ln(10)
        DWORD digits = log10u + (u >= powers10<TUInt>()[log10u]);   //  digits [2,10]

        buffer += digits;
        auto p = buffer;

        for (--digits; digits; --digits) {
            auto x = u / 10, d = u - x * 10;
            *--p = ascii_DEC<TChar>(d);
            u = x;
        *--p = ascii_DEC<TChar>(u);

마지막 루프를 펼칠 수 있습니다.

switch (digits) {
case 10: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  9: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  8: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  7: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  6: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  5: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  4: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  3: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  2: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; *--p = ascii_DEC<TChar>(u); break; }
default: __assume(0);

주요 아이디어는 이전에 제안한 @atlaste와 동일합니다. https://stackoverflow.com/a/29039967/2204001


최근 활동 때문에 이것을 발견했습니다. 벤치 마크를 추가 할 시간은 없지만 빠른 정수에서 문자열로의 변환이 필요할 때 과거에 작성한 내용을 추가하고 싶었습니다.


여기에 사용 된 트릭은 사용자가 충분히 큰 std :: array (스택에 있음)를 제공해야하며이 코드는 문자열을 단위에서 시작하여 역방향으로 쓴 다음 오프셋을 사용하여 배열에 포인터를 반환해야한다는 것입니다. 결과가 실제로 시작되는 곳으로.

따라서 이것은 메모리를 할당하거나 이동하지 않지만 여전히 결과 숫자 당 분할 및 모듈로가 필요합니다 (단순히 CPU에서 내부적으로 실행되는 코드이기 때문에 충분히 빠르다고 생각합니다. 메모리 액세스는 일반적으로 문제입니다).


몫과 나머지가 모두 필요할 때 stdlib의 div 함수를 사용하는 사람이없는 이유는 무엇입니까?
Timo의 소스 코드를 사용하여 다음과 같은 결과를 얻었습니다.

if(val >= 0)
    div_t   d2 = div(val,100);
        COPYPAIR(it,2 * d2.rem);
        d2 = div(d2.quot,100);
    div_t   d2 = div(val,100);
        COPYPAIR(it,-2 * d2.rem);
        d2 = div(d2.quot,100);
    *it = '-';

좋아, unsigned int의 경우 div 함수를 사용할 수 없지만 unsigned는 별도로 처리 할 수 ​​있습니다.
digit_pairs에서 2 개의 문자를 복사하는 방법을 테스트하기 위해 COPYPAIR 매크로를 다음과 같이 정의했습니다.

#define COPYPAIR0(_p,_i) { memcpy((_p), &digit_pairs[(_i)], 2); }
#define COPYPAIR1(_p,_i) { (_p)[0] = digit_pairs[(_i)]; (_p)[1] = digit_pairs[(_i)+1]; }
#define COPYPAIR2(_p,_i) { unsigned short * d = (unsigned short *)(_p); unsigned short * s = (unsigned short *)&digit_pairs[(_i)]; *d = *s; }


이 문제는 가장 적은 코드 라인이 아니라 속도에 관한 것이기 때문입니다.
Ben Voigt 2013 년

추신 : 그리고 이것을 내 솔루션에서 사용하려는 사람들을 위해 : (1) 훨씬 느리고 (2) div가 부호있는 정수에서 작동하기 때문에 abs (INT32_MIN)를 깨뜨립니다.
atlaste 2015 년
