SLR, LALR 및 LR 파서는 모두 정확히 동일한 테이블 기반 기계를 사용하여 구현할 수 있습니다.
기본적으로 구문 분석 알고리즘은 다음 입력 토큰 T를 수집하고 현재 상태 S (및 관련 예견, GOTO 및 축소 테이블)를 참조하여 수행 할 작업을 결정합니다.
- SHIFT : 현재 테이블이 토큰 T에서 SHIFT라고 말하면 쌍 (S, T)이 구문 분석 스택으로 푸시되고 현재 토큰에 대해 GOTO 테이블이 말하는 내용에 따라 상태가 변경됩니다 (예 : GOTO (T) ), 또 다른 입력 토큰 T '를 가져오고 프로세스를 반복합니다.
- REDUCE : 모든 상태에는 0, 1 또는 해당 상태에서 발생할 수있는 많은 감소가 있습니다. 구문 분석기가 LR 또는 LALR 인 경우 토큰은 상태에 대한 모든 유효한 감소에 대해 미리보기 세트에 대해 확인됩니다. 토큰이 문법 규칙 G = R1 R2 .. Rn에 대한 감소에 대한 미리보기 세트와 일치하면 스택 감소 및 시프트가 발생합니다. G에 대한 시맨틱 조치가 호출되고 스택이 n (Rn에서) 번 팝되고 쌍 ( S, G)가 스택으로 푸시되고 새 상태 S '가 GOTO (G)로 설정되고주기가 동일한 토큰 T로 반복됩니다. 파서가 SLR 파서 인 경우에는 최대 하나의 감소 규칙이 있습니다. 어떤 축소가 적용되는지 검색하지 않고도 축소 조치를 맹목적으로 수행 할 수 있습니다. SLR 파서 가감소 여부; 이것은 각 주가 그와 관련된 감소의 수를 명시 적으로 기록하는지, 그리고 그 수는 어쨌든 실제로 L (AL) R 버전에 필요합니다.
- 오류 : SHIFT 또는 REDUCE가 모두 불가능하면 구문 오류가 선언됩니다.
그래서 그들이 모두 같은 기계를 사용한다면, 요점은 무엇일까요?
SLR의 가치는 구현의 단순성입니다. 최대 하나가 있기 때문에 가능한 감소 검사를 통해 미리보기 세트를 스캔 할 필요가 없으며, 상태에서 SHIFT 종료가없는 경우 유일한 실행 가능한 조치입니다. 어떤 감소가 적용되는지 구체적으로 상태에 첨부 할 수 있으므로 SLR 구문 분석 기계가이를 찾을 필요가 없습니다. 실제로 L (AL) R 파서는 유용하게 더 큰 언어 집합을 처리하며, 구현할 추가 작업이 너무 적기 때문에 학문적 연습을 제외하고는 아무도 SLR을 구현하지 않습니다.
LALR과 LR의 차이점은 테이블 생성기 와 관련이 있습니다.. LR 파서 생성기는 특정 상태 및 정확한 예측 세트에서 가능한 모든 감소를 추적합니다. 모든 감소가 왼쪽 컨텍스트의 정확한 예측 세트와 연관되는 상태로 끝납니다. 이것은 다소 큰 상태 세트를 작성하는 경향이 있습니다. LALR 파서 생성기는 GOTO 테이블과 축소를위한 룩 헤드 세트가 호환되고 충돌하지 않는 경우 상태를 결합합니다. 이것은 LR이 구별 할 수있는 특정 심볼 시퀀스를 구별 할 수 없다는 대가로 상당히 적은 수의 상태를 생성합니다. 따라서 LR 파서는 LALR 파서보다 더 많은 언어 집합을 파싱 할 수 있지만 훨씬 더 큰 파서 테이블을 가지고 있습니다. 실제로, 상태 머신의 크기를 최적화 할 가치가있는 대상 언어에 충분히 가까운 LALR 문법을 찾을 수 있습니다.
따라서 세 가지 모두 동일한 기계를 사용합니다. SLR은 기계의 작은 부분을 무시할 수 있다는 점에서 "쉬운"것이지만 문제의 가치는 없습니다. LR은 광범위한 언어 집합을 구문 분석하지만 상태 테이블은 상당히 큰 경향이 있습니다. 따라서 LALR이 실용적인 선택이됩니다.
이 모든 것을 말했듯이, GLR 파서 는 더 복잡한 기계를 사용 하지만 정확히 동일한 테이블 (LALR에서 사용하는 더 작은 버전 포함)을 사용하여 컨텍스트없는 언어를 구문 분석 할 수 있다는 것을 아는 것이 좋습니다. 이것은 GLR이 LR, LALR 및 SLR보다 훨씬 강력하다는 것을 의미합니다. 표준 BNF 문법을 작성할 수 있다면 GLR은 이에 따라 구문 분석합니다. 기계의 차이점은 GLR이 GOTO 테이블 및 / 또는 미리보기 세트간에 충돌이있을 때 여러 구문 분석을 시도한다는 것입니다. (GLR이이 작업을 효율적으로 수행하는 방법은 순전히 천재적이지만이 게시물에는 적합하지 않습니다.)
저에게는 매우 유용한 사실입니다. 나는 프로그램 분석기를 구축하고 코드 변환기와 파서는 필요하지만 "흥미롭지 않다"; 흥미로운 작업은 파싱 된 결과로 수행하는 작업이므로 파싱 후 작업을 수행하는 데 중점을 둡니다. GLR을 사용하면 LALR 사용 가능한 형식으로 들어가기 위해 문법을 해킹하는 것에 비해 상대적으로 쉽게 작동하는 문법을 구축 할 수 있습니다. 이것은 C ++ 또는 Fortran과 같은 비 학문적 인 언어를 처리하려고 할 때 매우 중요합니다. 여기서는 전체 언어를 잘 처리하기 위해 문자 그대로 수천 개의 규칙이 필요하고 문법 규칙을 해킹하는 데 평생을 소비하고 싶지 않습니다. LALR (또는 LR)의 한계를 충족합니다.
유명한 예로, C ++는 LALR 파싱을하는 사람들에 의해 파싱하기 매우 어려운 것으로 간주됩니다. C ++는 C ++ 참조 설명서 뒷면에 제공된 거의 모든 규칙을 사용하여 GLR 기계를 사용하여 구문 분석하는 것이 간단합니다. (정확히 그런 파서를 가지고 있으며 바닐라 C ++뿐만 아니라 다양한 벤더 방언도 처리합니다. 이는 실제로 GLR 파서 인 IMHO를 사용하기 때문에 가능합니다.)
[2011 년 11 월 편집 : 모든 C ++ 11을 처리하도록 파서를 확장했습니다. GLR을 사용하면 훨씬 쉽게 할 수 있습니다. 2014 년 8 월 편집 : 이제 모든 C ++ 17을 처리합니다. 고장이 나거나 악화 된 것은 없지만 GLR은 여전히 고양이의 야옹입니다.]