정규식 일치 배열 만들기


160

Java에서는 모든 정규식 일치를 배열로 반환하려고하지만 패턴이 일치하는지 (부울) 여부 만 확인할 수있는 것 같습니다.

정규식 일치를 사용하여 주어진 문자열에서 정규식과 일치하는 모든 문자열의 배열을 구성하려면 어떻게해야합니까?


2
좋은 질문. 원하는 정보는 Regex 및 Matcher에 대한 Java 문서의 일부 여야합니다. 슬프게도 그렇지 않습니다.
Cheeso

3
진짜 수치심. 이 기능은 거의 모든 다른 언어 (정규 표현식 지원)에서 즉시 사용 가능한 것으로 보입니다.
Ray Toal

답변:


278

( Java> = 9라고 가정하면 4castle의 대답 이 아래보다 낫습니다.)

매처를 작성하고이를 사용하여 반복적으로 일치하는 항목을 찾아야합니다.

 import java.util.regex.Matcher;
 import java.util.regex.Pattern;

 ...

 List<String> allMatches = new ArrayList<String>();
 Matcher m = Pattern.compile("your regular expression here")
     .matcher(yourStringHere);
 while (m.find()) {
   allMatches.add(m.group());
 }

이 후에 allMatches는 일치 항목 이 포함되며 allMatches.toArray(new String[0])실제로 필요한 경우 배열을 얻는 데 사용할 수 있습니다 .


현재 그룹 상태의 스냅 샷을 반환하므로 MatchResult일치하는 함수를 반복하는 도우미 함수를 작성 하는 데 사용할 수도 있습니다 Matcher.toMatchResult().

예를 들어 지연 반복기를 작성하여 할 수 있습니다.

for (MatchResult match : allMatches(pattern, input)) {
  // Use match, and maybe break without doing the work to find all possible matches.
}

이런 식으로

public static Iterable<MatchResult> allMatches(
      final Pattern p, final CharSequence input) {
  return new Iterable<MatchResult>() {
    public Iterator<MatchResult> iterator() {
      return new Iterator<MatchResult>() {
        // Use a matcher internally.
        final Matcher matcher = p.matcher(input);
        // Keep a match around that supports any interleaving of hasNext/next calls.
        MatchResult pending;

        public boolean hasNext() {
          // Lazily fill pending, and avoid calling find() multiple times if the
          // clients call hasNext() repeatedly before sampling via next().
          if (pending == null && matcher.find()) {
            pending = matcher.toMatchResult();
          }
          return pending != null;
        }

        public MatchResult next() {
          // Fill pending if necessary (as when clients call next() without
          // checking hasNext()), throw if not possible.
          if (!hasNext()) { throw new NoSuchElementException(); }
          // Consume pending so next call to hasNext() does a find().
          MatchResult next = pending;
          pending = null;
          return next;
        }

        /** Required to satisfy the interface, but unsupported. */
        public void remove() { throw new UnsupportedOperationException(); }
      };
    }
  };
}

이것으로

for (MatchResult match : allMatches(Pattern.compile("[abc]"), "abracadabra")) {
  System.out.println(match.group() + " at " + match.start());
}

수확량

a at 0
b at 1
a at 3
c at 4
a at 5
a at 7
b at 8
a at 10

4
크기를 미리 알지 못하고 버퍼 크기 조정을 피할 수 있기 때문에 여기서 ArrayList를 사용하지 않는 것이 좋습니다. 대신, 나는 LinkedList를 선호합니다-그것은 단지 제안 일 뿐이며 귀하의 답변이 덜 유효하지는 않습니다.
Liv

13
@Liv는 벤치 마크 모두에 시간이 걸릴 ArrayList하고 LinkedList결과는 놀라운 일이 될 수있다.
Anthony Accioly

나는 당신이 말하는 것을 듣고 두 경우 모두 실행 속도와 메모리 풋 프린트를 알고 있습니다. ArrayList의 문제는 기본 생성자가 10의 용량을 생성한다는 것입니다-add ( ) 메모리 할당 및 배열 복사를 견뎌야하며 몇 번 발생할 수 있습니다. 물론, 몇 개의 일치 항목 만 예상하면 접근 방식이 더 효율적입니다. 그러나 배열 "크기 조정"이 두 번 이상 발생하면 LinkedList를 제안합니다. 낮은 대기 시간 앱을 처리하는 경우 훨씬 더 좋습니다.
Liv

12
@Liv, 패턴이 상당히 예측 가능한 크기의 일치 항목을 생성하는 경향이 있고 패턴이 드물게 일치하는지 또는 밀도가 일치하는지 ( allMatchesvs 의 길이의 합에 따라 yourStringHere.length())에 따라 적절한 크기를 미리 계산할 수 있습니다 allMatches. 내 경험상 LinkedList메모리 비용 과 반복 효율면에서 일반적으로 가치 LinkedList가 없으므로 기본 자세는 아닙니다. 그러나 핫스팟을 최적화 할 때 개선 사항이 있는지 확인하기 위해 목록 구현을 교체 할 가치가 있습니다.
Mike Samuel

1
자바 9에서, 당신은 지금 사용할 수 있습니다 Matcher#results얻을 Stream당신이 배열을 생성하는 데 사용할 수있는가 (참조 내 대답을 ).
4castle

56

자바 9에서, 당신은 지금 사용할 수 있습니다 Matcher#results()얻을 Stream<MatchResult>당신이 일치 목록 / 배열을 얻기 위해 사용할 수있는합니다.

import java.util.regex.Pattern;
import java.util.regex.MatchResult;
String[] matches = Pattern.compile("your regex here")
                          .matcher("string to search from here")
                          .results()
                          .map(MatchResult::group)
                          .toArray(String[]::new);
                    // or .collect(Collectors.toList())

1
그것들은 results () 메소드가 아닙니다. 이것을 먼저 실행하십시오
Bravo

14
@Bravo Java 9를 사용하고 있습니까? 존재합니다. 설명서에 연결했습니다.
4castle

: ((java 8에 대한 대안이
있습니까?

25

Java는 정규식을 너무 복잡하게 만들고 perl 스타일을 따르지 않습니다. 한 번 봐 가지고 MentaRegex를 자바 코드 한 줄에 그것을 달성 할 수있는 방법을 보려면 :

String[] matches = match("aa11bb22", "/(\\d+)/g" ); // => ["11", "22"]

6
멋지다. 이중 슬래시는 여전히 추한 것처럼 보이지만 그로부터 탈출구는 없다고 생각합니다.
JohnPristine

mentaregex-0.9.5.jar, 6Kb, 하루를 구한 Obrigado Sérgio!
CONvid19

2
주의! 최고의 솔루션. 그걸 써!
Vlad Holubiev

14
MentaRegex 사이트가 다운 되었습니까? mentaregex.soliveirajr.com 을 방문하면 "hi"만 표시됩니다
user64141

1
@ user64141은 다음과 같습니다
Amit Gold

11

다음은 간단한 예입니다.

Pattern pattern = Pattern.compile(regexPattern);
List<String> list = new ArrayList<String>();
Matcher m = pattern.matcher(input);
while (m.find()) {
    list.add(m.group());
}

(더 많은 캡처 그룹이있는 경우 그룹 메소드의 인수로 색인으로 그룹을 참조 할 수 있습니다. 배열이 필요한 경우을 사용하십시오 list.toArray())


pattern.matches (input)가 작동하지 않습니다. 정규식 패턴을 다시 전달해야합니다 (다시!)-> WTF Java ?! pattern.matches (문자열 정규식, 문자열 입력); pattern.matcher (input)을 의미합니까?
El Mac

@ElMac Pattern.matches()은 정적 메서드이므로 Pattern인스턴스 에서 호출하면 안됩니다 . Pattern.matches(regex, input)단순히 속기입니다 Pattern.compile(regex).matcher(input).matches().
dimo414

5

로부터 공식 정규식 자바 트레일 :

        Pattern pattern = 
        Pattern.compile(console.readLine("%nEnter your regex: "));

        Matcher matcher = 
        pattern.matcher(console.readLine("Enter input string to search: "));

        boolean found = false;
        while (matcher.find()) {
            console.format("I found the text \"%s\" starting at " +
               "index %d and ending at index %d.%n",
                matcher.group(), matcher.start(), matcher.end());
            found = true;
        }

find결과 group를 배열 / 목록 / 무엇이든 사용 하고 삽입하십시오 .


0
        Set<String> keyList = new HashSet();
        Pattern regex = Pattern.compile("#\\{(.*?)\\}");
        Matcher matcher = regex.matcher("Content goes here");
        while(matcher.find()) {
            keyList.add(matcher.group(1)); 
        }
        return keyList;
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.