자바 정규식 캡처 그룹


170

이 코드 블록을 이해하려고합니다. 첫 번째로, 표현에서 무엇을 찾고 있습니까?

내 이해는 그것이 어떤 문자 (0 이상 *) 뒤에 0에서 9 사이의 숫자 (한 번 이상 +) 뒤에 어떤 문자 (0 이상 *)라는 것입니다.

이것이 실행되면 결과는 다음과 같습니다.

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

누군가 나와 함께이 일을 할 수 있습니까?

캡처 그룹을 사용하면 어떤 이점이 있습니까?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}

1
새 줄을 삽입하려면 줄 끝에 2 칸을 배치하십시오. 마크 다운 구문에 대한 자세한 내용 : en.wikipedia.org/wiki/Markdown- 참조 : stackoverflow.com/editing-help
assylias

답변:


248

문제는 수량 화기 유형과 관련이 있습니다. 당신은 사용하고있는 욕심 (인덱스 첫 번째 그룹에 정량을 1 - 인덱스 0 전체 대표 Pattern는 이후이 (수대로 많이 일치하는 것입니다있는 수단) 어떤 문자, 그것은 일치하는 것이다 많은 문자로 있기 때문에 다음 그룹의 조건을 충족시키기 위해).

간단히 말해서, 첫 번째 그룹 .*은 다음 그룹 \\d+이 무언가 (이 경우 마지막 숫자)와 일치 할 수 있는 한 무엇이든 일치합니다.

세 번째 그룹에 따르면 마지막 자릿수 이후의 항목과 일치합니다.

첫 번째 그룹에서 꺼리는 수량 화기로 변경하면 예상 한 결과, 즉 3000 부분을 ​​얻을 수 있습니다.

첫 번째 그룹의 물음표 에 유의하십시오 .

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}

산출:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

Java에 대한 자세한 정보는 Pattern 여기를 참조하십시오 .

마지막으로, 캡처 그룹은 둥근 괄호로 구분되며 Pattern입력과 일치 하면 역 참조를 사용하는 매우 유용한 방법을 제공합니다 .

Java 6에서 그룹은 순서 대로만 참조 할 수 있습니다 (중첩 된 그룹 및 순서의 미묘함에주의하십시오).

Java 7에서는 이름이 지정된 그룹을 사용할 수 있으므로 훨씬 쉽습니다.


감사! 탐욕스러운 수량 자에 의해 전체 라인이 소비 된 후 하나 이상의 숫자와 접촉 할 때까지 후퇴하기 때문에 그룹 2가 0을 저장 한 이유입니다. 0은 이것을 만족 시켜서 표현은 성공했다. 세 번째 그룹이 혼란스러워 욕심 많은 수량자가 전체 라인을 소비하지만 그 앞에 오는 하나 이상의 숫자 (\\ d +)를 찾을 때까지 뒤로 물러납니다?
Xivilai

@Xivilai 내 답변에 대한 설명을 몇 초 만에 미세 조정할 수 있습니다.
Mena

좋은 설명입니다. 따라서 꺼리는 것은 왼쪽에서 시작하여 최소를 취하는 반면 욕심이 많으면 가능한 한 많이 (오른쪽에서 시작), 그 조건을 만족시키기 위해 마지막 자릿수 앞에 멈추기 만하면됩니다. 세 번째 그룹은 나머지를 가져갑니다.
Xivilai

@Xivilai 더 많거나 적은. 이 경우 항상 왼쪽에서 시작합니다. 여기에 한정 기호에 대한 몇 가지 추가 정보를 원하시면입니다.
Mena

2
로 Java 5/6에서 명명 된 캡처 그룹을 사용할 수 있습니다 named-regexp.

16

이것은 괜찮습니다.

  1. 첫 번째 그룹 ( m.group(0))은 항상 정규 표현식이 적용되는 전체 영역을 캡처 합니다 . 이 경우 전체 문자열입니다.
  2. 정규식은 기본적으로 욕심이다. 즉, 첫 번째 그룹은 정규식을 위반하지 않고 가능한 한 많이 캡처합니다. (.*)(\\d+)(정규식의 첫 번째 부분)는 커버 ...QT300INT에게 첫 번째 그룹과 0두 번째에 있습니다.
  3. 변경 : 빠르게 첫 번째 그룹이 아닌 욕심함으로써이 문제를 해결할 수 있습니다 (.*)(.*?).

욕심 많은 대 게으른에 대한 자세한 내용은 이 사이트를 확인 하십시오.


4

문서에서 :

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().

따라서 캡처 그룹 0은 전체 라인을 보냅니다.


3

이해가 정확합니다. 그러나 다음을 살펴보면 :

  • (.*) 줄 전체를 삼킬 것입니다.
  • (\\d+)풍자화 되도록 문자 를 돌려줘야합니다 (그래서 0캡처되지 않은 이유 입니다 3000).
  • 마지막 (.*)은 나머지를 캡처합니다.

그러나 저자의 원래 의도가 무엇인지 확실하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.