두 개의 괄호 사이의 모든 텍스트를 선택하려면 정규식이 필요합니다.
예: some text(text here(possible text)text(possible text(more text)))end text
결과: (text here(possible text)text(possible text(more text)))
두 개의 괄호 사이의 모든 텍스트를 선택하려면 정규식이 필요합니다.
예: some text(text here(possible text)text(possible text(more text)))end text
결과: (text here(possible text)text(possible text(more text)))
답변:
정규식은 중첩 구조, 즉 재귀를 처리하므로 작업에 잘못된 도구입니다.
그러나이 작업을 수행하는 간단한 알고리즘 이 있습니다.이 질문 에서 이전 질문에 대한 답변 을 설명 했습니다 .
빠른 참조를 위해이 답변을 추가하고 싶습니다. 자유롭게 업데이트하십시오.
밸런싱 그룹을 사용하는 .NET 정규식 .
\((?>\((?<c>)|[^()]+|\)(?<-c>))*(?(c)(?!))\)
c
깊이 카운터로 사용되는 곳 .
재귀 패턴을 사용하는 PCRE .
\((?:[^)(]+|(?R))*+\)
regex101의 데모 ; 또는 교대없이 :
\((?:[^)(]*(?R)?)*+\)
regex101의 데모 ; 또는 성능을 위해 풀었다 :
\([^)(]*+(?:(?R)[^)(]*)*+\)
regex101의 데모 ; (?R)
를 나타내는 패턴이 붙여 넣어 (?0)
집니다.
Perl, PHP, Notepad ++, R : perl = TRUE , Python : Perl 동작 을 위한 정규식 패키지(?V1)
.
하위 표현식 호출을 사용하는 루비 .
Ruby 2.0 \g<0>
을 사용하면 전체 패턴을 호출 할 수 있습니다.
\((?>[^)(]+|\g<0>)*\)
Rubular에서 데모 ; Ruby 1.9는 그룹 재귀 캡처 만 지원합니다 .
(\((?>[^)(]+|\g<1>)*\))
Rubular 데모 ( Ruby 1.9.3 이후 원자 그룹화 )
JavaScript API :: XRegExp.matchRecursive
XRegExp.matchRecursive(str, '\\(', '\\)', 'g');
최대 2 단계의 중첩을 재귀하지 않는 JS, Java 및 기타 정규 표현식 :
\((?:[^)(]+|\((?:[^)(]+|\([^)(]*\))*\))*\)
regex101의 데모 . 패턴에 더 깊은 중첩이 추가 되어야합니다.
불균형 괄호에서 더 빨리 실패하려면 수량 자를 삭제하십시오 +
.
자바 : @jaytea의 참조를 사용 하는 흥미로운 아이디어 .
(?>[^)(]+|(?R))*+
는 글쓰기 와 동일 (?:[^)(]+|(?R))*+
합니다. 다음 패턴도 마찬가지입니다. 롤링되지 않은 버전에 대해서는 [^)(]*+
역 추적을 방지하기 위해 소유주 수량 자를 여기에 넣을 수 있습니다 (닫는 괄호가없는 경우).
(...(..)..(..)..(..)..(..)..)
주제 문자열을)), 당신은 간단한 비 캡처 그룹을 사용할 수 있으며 원자 그룹의 모든 묶어야 : (?>(?:[^)(]+|\g<1>)*)
( 이것은 소유 적 정량 자처럼 작동합니다). Ruby 2.x에서는 소유 수량화 도구를 사용할 수 있습니다.
정규식 재귀 를 사용할 수 있습니다 .
\(([^()]|(?R))*\)
Unrecognized grouping construct
.
[^\(]*(\(.*\))[^\)]*
[^\(]*
문자열의 시작 부분에 여는 괄호가 아닌 모든 항목을 일치 (\(.*\))
시키고 괄호로 묶인 필수 하위 문자열을 캡처하고 문자열 [^\)]*
의 끝에서 닫는 괄호가 아닌 모든 항목을 일치시킵니다. 이 표현식은 대괄호와 일치하지 않습니다. 간단한 파서 ( dehmann의 답변 참조 )가 더 적합 할 것입니다.
(?<=\().*(?=\))
일치하는 두 괄호 사이에서 텍스트를 선택하려면 정규식이 적합하지 않습니다. 불가능합니다 (*) .
이 정규식은 문자열의 첫 번째 여는 마지막 괄호 사이의 텍스트를 반환합니다.
(*) 정규식 엔진에 그룹 또는 재귀 균형 조정 과 같은 기능이없는 한 . 이러한 기능을 지원하는 엔진의 수가 점차 증가하고 있지만 여전히 일반적으로 사용 가능한 것은 아닙니다.
이 답변은 왜 정규 표현식이이 작업에 적합한 도구가 아닌지에 대한 이론적 한계를 설명합니다.
정규식은 이것을 할 수 없습니다.
정규식은로 알려진 컴퓨팅 모델을 기반으로합니다 Finite State Automata (FSA)
. 이름에서 알 수 있듯이 FSA
현재 상태 만 기억할 수 있으며 이전 상태에 대한 정보는 없습니다.
위의 다이어그램에서 S1과 S2는 S1이 시작 및 최종 단계 인 두 가지 상태입니다. 따라서 string 0110
을 사용하면 전환이 다음과 같이 진행됩니다.
0 1 1 0
-> S1 -> S2 -> S2 -> S2 ->S1
우리가 두 번째에있을 때 위의 단계에서, S2
구문 분석 후 즉, 01
의 0110
는 FSA는 이전에 대한 정보가 없습니다 0
에서 01
그것은 단지 현재 상태 및 다음 입력 기호를 기억할 수 있습니다.
위의 문제에서 우리는 여는 괄호가 없다는 것을 알아야합니다. 즉 , 어떤 곳에 보관 해야합니다 . 그러나 FSAs
그렇게 할 수 없기 때문에 정규 표현식을 작성할 수 없습니다.
그러나이 작업을 수행하기 위해 알고리즘을 작성할 수 있습니다. 알고리즘은 일반적으로 아래에 해당됩니다 Pushdown Automata (PDA)
. PDA
의 한 수준 위에 FSA
있습니다. PDA에는 추가 정보를 저장하기위한 추가 스택이 있습니다. PDA는 ' push
'스택의 여는 괄호와 pop
닫는 괄호를 만나면 ' ' 할 수 있기 때문에 위의 문제를 해결하는 데 사용할 수 있습니다 . 마지막에 스택이 비어 있으면 여는 괄호와 닫는 괄호가 일치합니다. 그렇지 않으면 아닙니다.
이것은 확실한 정규식입니다.
\(
(?<arguments>
(
([^\(\)']*) |
(\([^\(\)']*\)) |
'(.*?)'
)*
)
\)
예:
input: ( arg1, arg2, arg3, (arg4), '(pip' )
output: arg1, arg2, arg3, (arg4), '(pip'
(가) 있습니다 '(pip'
제대로 문자열로 관리됩니다. (레귤레이터에서 시도 : http://sourceforge.net/projects/regulator/ )
이 작업을 돕기 위해 balance 라는 작은 JavaScript 라이브러리를 작성했습니다 . 당신은 이것을함으로써 이것을 달성 할 수 있습니다
balanced.matches({
source: source,
open: '(',
close: ')'
});
교체도 가능합니다.
balanced.replacements({
source: source,
open: '(',
close: ')',
replace: function (source, head, tail) {
return head + source + tail;
}
});
더 복잡한 대화식 예제 JSFiddle이 있습니다.
버블 버블의 대답에 덧붙여 재귀 구조가 지원되는 다른 정규 표현식이 있습니다.
루아
사용 %b()
( %b{}
/ %b[]
중괄호에 대한 / 대괄호) :
for s in string.gmatch("Extract (a(b)c) and ((d)f(g))", "%b()") do print(s) end
( 데모 참조 )Perl6 :
겹치지 않는 여러 균형 괄호가 일치합니다.
my regex paren_any { '(' ~ ')' [ <-[()]>+ || <&paren_any> ]* }
say "Extract (a(b)c) and ((d)f(g))" ~~ m:g/<&paren_any>/;
# => (「(a(b)c)」 「((d)f(g))」)
여러 개의 괄호로 묶은 겹침 :
say "Extract (a(b)c) and ((d)f(g))" ~~ m:ov:g/<&paren_any>/;
# => (「(a(b)c)」 「(b)」 「((d)f(g))」 「(d)」 「(g)」)
데모를 참조하십시오 .
파이썬 re
비정규 솔루션
균형 괄호 사이에서 표현을 얻는 방법에 대한 poke의 답변 을 참조하십시오 .
Java 사용자 정의 가능 비정규 솔루션
다음은 Java에서 단일 문자 리터럴 분리 문자를 허용하는 사용자 정의 가능한 솔루션입니다.
public static List<String> getBalancedSubstrings(String s, Character markStart,
Character markEnd, Boolean includeMarkers)
{
List<String> subTreeList = new ArrayList<String>();
int level = 0;
int lastOpenDelimiter = -1;
for (int i = 0; i < s.length(); i++) {
char c = s.charAt(i);
if (c == markStart) {
level++;
if (level == 1) {
lastOpenDelimiter = (includeMarkers ? i : i + 1);
}
}
else if (c == markEnd) {
if (level == 1) {
subTreeList.add(s.substring(lastOpenDelimiter, (includeMarkers ? i + 1 : i)));
}
if (level > 0) level--;
}
}
return subTreeList;
}
}
샘플 사용법 :
String s = "some text(text here(possible text)text(possible text(more text)))end text";
List<String> balanced = getBalancedSubstrings(s, '(', ')', true);
System.out.println("Balanced substrings:\n" + balanced);
// => [(text here(possible text)text(possible text(more text)))]
"""
Here is a simple python program showing how to use regular
expressions to write a paren-matching recursive parser.
This parser recognises items enclosed by parens, brackets,
braces and <> symbols, but is adaptable to any set of
open/close patterns. This is where the re package greatly
assists in parsing.
"""
import re
# The pattern below recognises a sequence consisting of:
# 1. Any characters not in the set of open/close strings.
# 2. One of the open/close strings.
# 3. The remainder of the string.
#
# There is no reason the opening pattern can't be the
# same as the closing pattern, so quoted strings can
# be included. However quotes are not ignored inside
# quotes. More logic is needed for that....
pat = re.compile("""
( .*? )
( \( | \) | \[ | \] | \{ | \} | \< | \> |
\' | \" | BEGIN | END | $ )
( .* )
""", re.X)
# The keys to the dictionary below are the opening strings,
# and the values are the corresponding closing strings.
# For example "(" is an opening string and ")" is its
# closing string.
matching = { "(" : ")",
"[" : "]",
"{" : "}",
"<" : ">",
'"' : '"',
"'" : "'",
"BEGIN" : "END" }
# The procedure below matches string s and returns a
# recursive list matching the nesting of the open/close
# patterns in s.
def matchnested(s, term=""):
lst = []
while True:
m = pat.match(s)
if m.group(1) != "":
lst.append(m.group(1))
if m.group(2) == term:
return lst, m.group(3)
if m.group(2) in matching:
item, s = matchnested(m.group(3), matching[m.group(2)])
lst.append(m.group(2))
lst.append(item)
lst.append(matching[m.group(2)])
else:
raise ValueError("After <<%s %s>> expected %s not %s" %
(lst, s, term, m.group(2)))
# Unit test.
if __name__ == "__main__":
for s in ("simple string",
""" "double quote" """,
""" 'single quote' """,
"one'two'three'four'five'six'seven",
"one(two(three(four)five)six)seven",
"one(two(three)four)five(six(seven)eight)nine",
"one(two)three[four]five{six}seven<eight>nine",
"one(two[three{four<five>six}seven]eight)nine",
"oneBEGINtwo(threeBEGINfourENDfive)sixENDseven",
"ERROR testing ((( mismatched ))] parens"):
print "\ninput", s
try:
lst, s = matchnested(s)
print "output", lst
except ValueError as e:
print str(e)
print "done"
대답은 일치하는 대괄호 세트를 일치시켜야하는지 또는 입력 텍스트에서 첫 번째 열림과 마지막 열림 중 일치해야하는지 여부에 따라 다릅니다.
일치하는 중첩 대괄호를 일치시켜야하는 경우 정규식 이상의 것이 필요합니다. - @dehmann 참조
처음에 마지막으로 열었다면 @Zach를 .
당신이하고 싶은 일을 결정 :
abc ( 123 ( foobar ) def ) xyz ) ghij
이 경우 코드가 일치해야하는 것을 결정해야합니다.
JS 정규식은 재귀 일치를 지원하지 않기 때문에 균형 괄호 일치 작업을 수행 할 수 없습니다.
그래서 이것은 "method (arg)"문자열을 배열로 만드는 루프 버전을위한 간단한 자바 스크립트입니다.
push(number) map(test(a(a()))) bass(wow, abc)
$$(groups) filter({ type: 'ORGANIZATION', isDisabled: { $ne: true } }) pickBy(_id, type) map(test()) as(groups)
const parser = str => {
let ops = []
let method, arg
let isMethod = true
let open = []
for (const char of str) {
// skip whitespace
if (char === ' ') continue
// append method or arg string
if (char !== '(' && char !== ')') {
if (isMethod) {
(method ? (method += char) : (method = char))
} else {
(arg ? (arg += char) : (arg = char))
}
}
if (char === '(') {
// nested parenthesis should be a part of arg
if (!isMethod) arg += char
isMethod = false
open.push(char)
} else if (char === ')') {
open.pop()
// check end of arg
if (open.length < 1) {
isMethod = true
ops.push({ method, arg })
method = arg = undefined
} else {
arg += char
}
}
}
return ops
}
// const test = parser(`$$(groups) filter({ type: 'ORGANIZATION', isDisabled: { $ne: true } }) pickBy(_id, type) map(test()) as(groups)`)
const test = parser(`push(number) map(test(a(a()))) bass(wow, abc)`)
console.log(test)
결과는 같다
[ { method: 'push', arg: 'number' },
{ method: 'map', arg: 'test(a(a()))' },
{ method: 'bass', arg: 'wow,abc' } ]
[ { method: '$$', arg: 'groups' },
{ method: 'filter',
arg: '{type:\'ORGANIZATION\',isDisabled:{$ne:true}}' },
{ method: 'pickBy', arg: '_id,type' },
{ method: 'map', arg: 'test()' },
{ method: 'as', arg: 'groups' } ]
많은 답변이 정규식이 재귀 일치 등을 지원하지 않는다고 말함으로써 어떤 형태로 이것을 언급하지만, 그 주된 이유는 계산 이론의 근본에 있습니다.
양식의 언어 {a^nb^n | n>=0} is not regular
. 정규식은 정규 언어 세트의 일부를 구성하는 것만 일치시킬 수 있습니다.
자세히보기 @ 여기
중첩 코드를 다루기가 어렵 기 때문에 정규 표현식을 사용하지 않았습니다. 따라서이 스 니펫을 사용하면 대괄호를 사용하여 코드 섹션을 가져올 수 있습니다.
def extract_code(data):
""" returns an array of code snippets from a string (data)"""
start_pos = None
end_pos = None
count_open = 0
count_close = 0
code_snippets = []
for i,v in enumerate(data):
if v =='{':
count_open+=1
if not start_pos:
start_pos= i
if v=='}':
count_close +=1
if count_open == count_close and not end_pos:
end_pos = i+1
if start_pos and end_pos:
code_snippets.append((start_pos,end_pos))
start_pos = None
end_pos = None
return code_snippets
이것을 사용하여 텍스트 파일에서 코드 스 니펫을 추출했습니다.
이것은 또한 일했다
re.findall(r'\(.+\)', s)
이것은 일부에게 유용 할 수 있습니다.
/**
* get param content of function string.
* only params string should be provided without parentheses
* WORK even if some/all params are not set
* @return [param1, param2, param3]
*/
exports.getParamsSAFE = (str, nbParams = 3) => {
const nextParamReg = /^\s*((?:(?:['"([{](?:[^'"()[\]{}]*?|['"([{](?:[^'"()[\]{}]*?|['"([{][^'"()[\]{}]*?['")}\]])*?['")}\]])*?['")}\]])|[^,])*?)\s*(?:,|$)/;
const params = [];
while (str.length) { // this is to avoid a BIG performance issue in javascript regexp engine
str = str.replace(nextParamReg, (full, p1) => {
params.push(p1);
return '';
});
}
return params;
};
이것은 OP 질문을 완전히 다루지는 않지만 중첩 구조 정규 표현식을 검색하는 데 도움이 될 수는 있지만 유용합니다.