C의 정규 표현식 : 예제?


171

ANSI C에서 정규 표현식을 사용하는 방법에 대한 간단한 예제와 모범 사례를 따르고 있습니다. man regex.h많은 도움이되지 않습니다.


6
ANSI C에서는 정규식을 기본적으로 지원하지 않습니다. 어떤 정규식 라이브러리를 사용하고 있습니까?
Joe

7
Rob Pike 는 자신과 Brian Kernighan이 공동 저술 한 The Practice of Programming이라는 저서에 대해 매우 유용한 정규 표현식 하위 집합을 허용하는 작은 정규 표현식 문자열 검색 기능을 작성했습니다. 박사 커니 핸에 의해이 토론, 정규 표현식 Matcher를 참조 cs.princeton.edu/courses/archive/spr09/cos333/beautiful.html
리차드 챔버

답변:


233

정규 표현식은 실제로 ANSI C의 일부가 아닙니다. POSIX 정규 표현식 라이브러리에 대해 이야기하는 것처럼 들립니다. 여기서 (C를 기반으로 POSIX 정규 표현식에의 사용 예이다 이것은 )

#include <regex.h>        
regex_t regex;
int reti;
char msgbuf[100];

/* Compile regular expression */
reti = regcomp(&regex, "^a[[:alnum:]]", 0);
if (reti) {
    fprintf(stderr, "Could not compile regex\n");
    exit(1);
}

/* Execute regular expression */
reti = regexec(&regex, "abc", 0, NULL, 0);
if (!reti) {
    puts("Match");
}
else if (reti == REG_NOMATCH) {
    puts("No match");
}
else {
    regerror(reti, &regex, msgbuf, sizeof(msgbuf));
    fprintf(stderr, "Regex match failed: %s\n", msgbuf);
    exit(1);
}

/* Free memory allocated to the pattern buffer by regcomp() */
regfree(&regex);

또는 C에서 Perl 호환 정규 표현식 라이브러리 인 PCRE 를 확인하고 싶을 수도 있다. Perl 구문은 Java, Python 및 기타 여러 언어에서 사용되는 구문과 거의 동일하다. POSIX의 구문 문법에 의해 사용되는 grep, sed, vi


7
두 번째 PCRE와의 종속성을 피할 필요가없는 한, 구문이 향상되어 매우 안정적입니다. 리눅스의 일부 이전 버전 이상에서,이 정규 표현식 라이브러리에 특수 문자가 많이 주어진 특정 입력 문자열 특정 정규 표현식이 "거의"일치 충돌하거나 포함 너무 어려운 일이 아니다 "내장"
BDK

@Laurence regcomp에 0을 전달하는 의미는 무엇입니까? regcomp는 4 개의 서로 다른 모드를 나타 내기 위해 1, 2, 4 및 8의 정수 값만 취합니다.
lixiang

2
@lixiang 마지막 파라미터는 regcomp, cflags, 비트 마스크입니다. 에서 pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html :는 "CFLAGS 인수는 비트 단위 포함 또는 다음 플래그 0 개 이상은 ...입니다". 만약 당신이 0이 아니면 0을 얻게 될 것입니다. 나는 regcomp"cflags가 비트 단위이거나 다음 중 하나 이상일 수 있습니다"라는 Linux 맨 페이지를 보았습니다. 오해의 소지가 있습니다.
Laurence Gonsalves

2
일치하는 그룹에서 다음과 같은 텍스트를 추출 할 수 있습니다. regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }그룹 일치는 1에서 시작하고 그룹 0은 전체 문자열입니다. 범위를 벗어나는 등의 오류 검사 추가
BurnsBA

2
regfree실패한 후 필요한지 여부 에 대해서는 regcomp실제로 지정되어 있지 않지만 redhat.com/archives/libvir-list/2013-September/msg00276.html
Daniel Jour

12

아마도 원하는 것은 아니지만 re2c 와 같은 도구는 POSIX (-ish) 정규 표현식을 ANSI C로 컴파일 할 수 있습니다. 대신이 형식으로 대체로 작성 lex되었지만이 방법을 사용하면 마지막 속도의 유연성과 가독성을 희생 할 수 있습니다. 정말로 필요합니다.


9

man regex.hregex.h에 대한 수동 항목은 없지만 man 3 regex 패턴 일치를위한 POSIX 기능을 설명하는 페이지를 제공합니다. GNU C 라이브러리 : 정규 표현식 일치
에 동일한 기능이 설명되어 있습니다. 여기 에서는 GNU C 라이브러리가 POSIX.2 인터페이스와 GNU C 라이브러리가 수년간 가지고 있었던 인터페이스를 모두 지원한다고 설명합니다.

예를 들어, 인수로 전달 된 문자열 중 첫 번째 인수로 전달 된 패턴과 일치하는 문자열을 인쇄하는 가상의 프로그램의 경우 다음과 유사한 코드를 사용할 수 있습니다.

#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void print_regerror (int errcode, size_t length, regex_t *compiled);

int
main (int argc, char *argv[])
{
  regex_t regex;
  int result;

  if (argc < 3)
    {
      // The number of passed arguments is lower than the number of
      // expected arguments.
      fputs ("Missing command line arguments\n", stderr);
      return EXIT_FAILURE;
    }

  result = regcomp (&regex, argv[1], REG_EXTENDED);
  if (result)
    {
      // Any value different from 0 means it was not possible to 
      // compile the regular expression, either for memory problems
      // or problems with the regular expression syntax.
      if (result == REG_ESPACE)
        fprintf (stderr, "%s\n", strerror(ENOMEM));
      else
        fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
      return EXIT_FAILURE;               
    }
  for (int i = 2; i < argc; i++)
    {
      result = regexec (&regex, argv[i], 0, NULL, 0);
      if (!result)
        {
          printf ("'%s' matches the regular expression\n", argv[i]);
        }
      else if (result == REG_NOMATCH)
        {
          printf ("'%s' doesn't the regular expression\n", argv[i]);
        }
      else
        {
          // The function returned an error; print the string 
          // describing it.
          // Get the size of the buffer required for the error message.
          size_t length = regerror (result, &regex, NULL, 0);
          print_regerror (result, length, &regex);       
          return EXIT_FAILURE;
        }
    }

  /* Free the memory allocated from regcomp(). */
  regfree (&regex);
  return EXIT_SUCCESS;
}

void
print_regerror (int errcode, size_t length, regex_t *compiled)
{
  char buffer[length];
  (void) regerror (errcode, compiled, buffer, length);
  fprintf(stderr, "Regex match failed: %s\n", buffer);
}

의 마지막 인수 regcomp()요구는 적어도이 될 수 있습니다 REG_EXTENDED, 또는 기능을 사용하는 기본적인 정규 표현식 (예를 들면) 사용해야하는 것, 수단 a\{3\}대신 a{3}에서 사용되는 확장 정규 표현식을 사용하는 기대 아마 인을.

POSIX.2에는 와일드 카드 일치를위한 또 다른 기능이 있습니다 fnmatch(). 정규 표현식을 컴파일하거나 하위 표현식과 일치하는 하위 문자열을 가져올 수는 없지만 파일 이름이 와일드 카드와 일치하는시기를 확인하는 데 매우 구체적입니다 (예 : FNM_PATHNAME플래그 사용).


6

REG_EXTENDED를 사용하는 예입니다. 이 정규식

"^(-)?([0-9]+)((,|.)([0-9]+))?\n$"

스페인어 시스템 및 국제에서 소수를 잡을 수 있습니다. :)

#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];

int main(int argc, char const *argv[])
{
    while(1){
        fgets( msgbuf, 100, stdin );
        reti = regcomp(&regex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
        if (reti) {
            fprintf(stderr, "Could not compile regex\n");
            exit(1);
        }

        /* Execute regular expression */
        printf("%s\n", msgbuf);
        reti = regexec(&regex, msgbuf, 0, NULL, 0);
        if (!reti) {
            puts("Match");
        }
        else if (reti == REG_NOMATCH) {
            puts("No match");
        }
        else {
            regerror(reti, &regex, msgbuf, sizeof(msgbuf));
            fprintf(stderr, "Regex match failed: %s\n", msgbuf);
            exit(1);
        }

        /* Free memory allocated to the pattern buffer by regcomp() */
        regfree(&regex);
    }

}

5

위의 답변은 좋지만 PCRE2를 사용하는 것이 좋습니다 . 즉, 문자 그대로 모든 정규식 예제를 그대로 사용할 수 있으며 일부 고대 정규식에서 번역 할 필요가 없습니다.

나는 이것에 대해 이미 대답했지만 여기에서도 도움이 될 수 있다고 생각합니다.

신용 카드 번호를 검색하는 C의 정규식

// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h

#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>

int main(){

bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;


char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";

pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX 
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. 
subject_length = strlen((char *)subject);




  re = pcre2_compile(
  pattern,               /* the pattern */
  PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
  0,                     /* default options */
  &errornumber,          /* for error number */
  &erroroffset,          /* for error offset */
  NULL);                 /* use default compile context */

/* Compilation failed: print the error message and exit. */
if (re == NULL)
  {
  PCRE2_UCHAR buffer[256];
  pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
  printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
  return 1;
  }


match_data = pcre2_match_data_create_from_pattern(re, NULL);

rc = pcre2_match(
  re,
  subject,              /* the subject string */
  subject_length,       /* the length of the subject */
  0,                    /* start at offset 0 in the subject */
  0,                    /* default options */
  match_data,           /* block for storing the result */
  NULL);

if (rc < 0)
  {
  switch(rc)
    {
    case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
    pcre2_match_data_free(match_data);
    pcre2_code_free(re);
    Found = 0;
    return Found;
    //  break;
    /*
    Handle other special cases if you like
    */
    default: printf("Matching error %d\n", rc); //break;
    }
  pcre2_match_data_free(match_data);   /* Release memory used for the match */
  pcre2_code_free(re);
  Found = 0;                /* data and the compiled pattern. */
  return Found;
  }


if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);

if (rc == 0)
  printf("ovector was not big enough for all the captured substrings\n");


if (ovector[0] > ovector[1])
  {
  printf("\\K was used in an assertion to set the match start after its end.\n"
    "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
      (char *)(subject + ovector[1]));
  printf("Run abandoned\n");
  pcre2_match_data_free(match_data);
  pcre2_code_free(re);
  return 0;
}

for (i = 0; i < rc; i++)
  {
  PCRE2_SPTR substring_start = subject + ovector[2*i];
  size_t substring_length = ovector[2*i+1] - ovector[2*i];
  printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
  }
}

else{
  if(rc > 0){
    Found = true;

    } 
} 
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;

}

다음을 사용하여 PCRE를 설치하십시오.

wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make 
sudo make install 
sudo ldconfig

다음을 사용하여 컴파일하십시오.

gcc foo.c -lpcre2-8 -o foo

자세한 내용은 답변을 확인하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.