Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]


Приведенная форма КС-грамматики

Приведенная форма КС-грамматики


При изучении свойств КС-грамматик и КС-языков иногда бывает целесообразно преобразовать КС-грамматику к эквивалентной КС-грамматике, правила вывода которой удовлетворяют определенным дополнительным ограничениям. В этом разделе мы рассмотрим алгоритмы некоторых таких преобразований.


Определение 8.2. Правило вывода КС-грамматики G=(V,N,S,P) называют:


1) λ-правилом, если его правая часть — пустая цепочка;
2) цепным, если оно имеет вид A\to B, где A и B — нетерминалы грамматики.

Теорема 8.2. Любая КС-грамматика G=(V,N,S,P) может быть преобразована к эквивалентной КС-грамматике, множество правил вывода которой не содержит λ-правил, кроме, может быть, правила S\to\lambda, и не содержит цепных правил.


Мы опишем алгоритмы удаления λ-правил и цепных правил из множества правил КС-грамматики, опуская строгое обоснование этих алгоритмов.




Алгоритм удаления λ-правил


Предположим, что нам известно множество N_e всех нетерминалов грамматики G, из которых выводится пустая цепочка, т.е.


N_e=\{A\colon\,A\vdash^{\ast}\lambda\}.

Тогда в правой части каждого правила A\to\xi выделяются все вхождения нетерминалов из множества N_e (если таких вхождений нет, то правило пропускается) так, что цепочка \xi представляется в виде


\xi=\alpha_1B_1\alpha_2B_2\ldots\alpha_mB_m\alpha_{m+1},

где B_1,B_2,\ldots,B_m — все нетерминалы из N_e, входящие в \xi. Заметим, что они не обязаны быть различными, так как мы выделяем все вхождения таких нетерминалов в правую часть правила.


После этого к рассматриваемому правилу добавляются все правила вида


A\to\alpha_1X_1\alpha_2X_2\ldots\alpha_mX_m\alpha_{m+1},

где для каждого X_i~i=\overline{1,m} есть или символ B_i, или пустая цепочка.


Иначе говоря, к любому правилу исходной грамматики, правая часть которого содержит нетерминалы из множества N_e добавляются все правила, которые могут быть получены из исходного путем замены (в его правой части) любого числа вхождений нетерминалов из N_e пустой цепочкой. При этом сохраняется и само исходное правило и появляется, в частности, правило


A\to\alpha_1\alpha_2\ldots\alpha_m\alpha_{m+1},

вовсе не содержащее вхождений указанных нетерминалов в правой части. Подчеркнем еще раз, что каждое правило исходной грамматики, правая часть которого не содержит вхождений нетерминалов из N_e, без всяких изменений переносится в систему правил новой грамматики.


Если в процессе описанного выше преобразования системы правил исходной грамматики получаются правила вида A\to A или A\to\lambda (при A\ne S), то они игнорируются.


Остается обсудить метод вычисления множества N_e. Это множество вычисляется рекуррентно, а именно на первом шаге вычисляют множество N_0 таких нетерминалов A грамматики G, что существует в P есть λ-правило A\to\lambda. Таким образом, множество N_0 — это множество всех нетерминалов грамматики, из которых пустая цепочка выводится за один шаг.


Дерево вывода пустой цепочки

На следующем шаге вычисляем множество N_1, включая в него, во-первых, все нетерминалы множества N_0 и, во-вторых, все такие нетерминалы B, что в P имеется правило вывода B\to\gamma, где \gamma — непустая цепочка нетерминалов из множества N_0, то есть \gamma\in N_{0}^{+}. Это означает, что N_1 состоит из всех таких нетерминалов A грамматики G, что дерево вывода пустой цепочки из A, имеет высоту, не большую 2 (рис. 8.19).


В общем случае множество N_i\subseteq N вычисляют по формуле


\begin{aligned}N_0&= \{A\colon\,\text{in}~P~\text{is a rule}~A\to\lambda\},\\[2pt] N_i&= N_{i-1}\cup\{B\colon\,\text{in}~P~\text{is a rule}~B\to\xi,~\text{where}~\xi\in N_{i-1}^{+}\}. \end{aligned}


Множество N_i — это множество всех таких нетерминалов A грамматики G, что дерево вывода пустой цепочки \lambda из A имеет высоту, не большую i+1.


Так как множество N всех нетерминалов грамматики G конечно, то описанный выше рекуррентный процесс оборвется на некотором шаге, т.е. для некоторого j\geqslant0 получим N_j=N_{j+1}. Тогда полагаем


\mathbb{N}_e=N_j для наименьшего j, такого, что N_j=N_{j+1}.

Далее, если аксиома S принадлежит множеству N_e, то в системе правил P оставляют правило S\to\lambda, остальные λ-правила удаляют*, а множество правил вывода исходной грамматики преобразуют согласно описанному выше алгоритму.


*Исключение для λ-правила, левой частью которого служит аксиома грамматики, связано с тем, чтобы при переходе к новой грамматике не "потерять" пустую цепочку, которую порождает исходная грамматика.


Можно доказать, что полученная таким образом КС-грамматика без λ-правил эквивалентна исходной грамматике G. Это объясняется тем, что "потерю" вывода пустой цепочки из нетерминала A\in N_e (посредством применения λ-правил) мы "компенсируем" добавлением к множеству правил вывода всех таких правил, что замена A на \lambda уже произведена прямо в их правых частях.


Пример 8.4. Рассмотрим грамматику с множеством правил


S\to aSbT\mid bTaT\mid ab,\qquad T\to baaST\mid TT\mid\lambda.

В данном случае N_0=\{T\}. Так как единственное правило вывода этой грамматики, правая часть которого — непустая цепочка нетерминалов из N_0, есть правило T\to TT, то N_1=N_0\cup\{T\}=\{T\}=N_0, то есть N_e=\{T\}, и наша грамматика принимает вид


S\to aSbT\mid aSb\mid bTaT\mid bTa\mid baT\mid ba\mid ab,\qquad T\to baaST\mid baaST\mid TT.



Алгоритм удаления цепных правил


Алгоритм удаления цепных правил во многом аналогичен алгоритму удаления λ-правил.


Пусть существует вывод нетерминала U из нетерминала T, в котором применяются только цепные правила. Тогда такой вывод назовем цепным выводом.


Предположим теперь, что для каждого нетерминала A грамматики G известно множество N_A всех таких нетерминалов B, что существует цепной вывод A из B. Тогда, удалив все цепные правила, мы должны предусмотреть непосредственную замену всех нетерминалов из N_A любой цепочкой \alpha, которая служит правой частью некоторого правила A\to\alpha (рис. 8.20).


Алгоритм удаления цепных правил

Это соображение лежит в основе алгоритма преобразования множества правил КС-грамматики с целью удаления цепных правил.


Вычислив множество N_A для каждого A\in N, удалить все цепные правила, добавив при этом для каждой цепочки а, такой, что в P есть правило A\to\alpha, и для каждого B\in N_A правило B\to\alpha. После этого вместо каждого вывода вида B\vdash\ldots\vdash A\vdash\alpha (при B\in N_A) в исходной грамматике в новой грамматике получим вывод B\vdash\alpha.


Множества нетерминалов N_A для каждого A\in N вычисляются рекуррентно (как и в рассмотренном выше алгоритме удаления λ-правил вычислялось множество N_e):


\begin{aligned}N_{A}^{0}&= \{B\colon\,\text{in}~P~\text{is a rule}~B\to A\};\\[2pt] N_{A}^{i}&= N_{A}^{i-1}\cup \{C\colon\, \text{in}~P~\text{is a rule}~C\to D,~\text{where}~D\in N_{A}^{i-1}|\}.\end{aligned}


Таким образом, множество N_{A}^{i} — это множество всех таких нетерминалов B, что существует цепной вывод длины не больше i+1 нетерминала A из B. "Насыщение" этой рекуррентной процедуры происходит для первого номера j, такого, что N_A^j=N_{A}^{j+1}, и тогда принимают N_A=N_A^j.




Пример 8.5. Дана грамматика с множеством правил


E\to E+T\mid T,\qquad T\to T\ast F\mid F,\qquad F\to (E)\mid a,

аксиомой E и терминальным алфавитом \{a,(,),+,\ast\}. Имеем N_{E}^{0}=\varnothing, следовательно, и N_e=\varnothing (множество нетерминалов данной грамматики, из которых применением одних цепных правил выводится нетерминал E, пусто). Далее, N_T^0=\{E\}, а так как нет ни одного цепного правила с правой частью E, то


N_T^1=N_T^0=N_T;\qquad N_F^0=\{T\};\qquad N_F^1=\{T,E\}=N_F.

Удаляя цепные правила, необходимо, согласно описанному выше алгоритму, ко всем правилам с левой частью E добавить правило E\to T\ast F, чтобы, сокращая вывод E\vdash T\vdash T\ast F и убирая из него применение цепного правила E\to T, сразу вывести из аксиомы E цепочку T\ast F.


Аналогично к правилам с левой частью F надо добавить правила T\to(E),~T\to a,!E\to(E) и E\to a. В итоге получим грамматику


E\to E+T\mid T\ast F\mid (E)\mid a,\qquad T\to T\ast F\mid a\mid(E),\qquad F\to(E)\mid a.

Можно доказать, что описанный алгоритм удаления цепных правил дает грамматику, эквивалентную исходной.


Замечание 8.4. К цепным правилам относится и правило A\to A. Если такое правило находится в множестве правил грамматики или появляется при удалении λ-правил (см. пример 8.4), то оно должно быть просто удалено из множества правил.


Обратимся к примеру, из которого станет ясно, что удаление λ-правил может привести к появлению в множестве правил заданной КС-грамматики цепных правил.




Пример 8.6. Рассмотрим грамматику G_0 из примера 8.1. Для удобства перепишем ее определение:


G_0=\bigl(\{a,b\},\{S,A,B,C\},S,P_0\bigr),

где множество правил вывода P_0 имеет вид

\begin{array}{lrlr}S\to ABC,&\quad (1)&\qquad B\to a,&\quad (5)\\ A\to BB,&\quad (2)&\qquad C\to AA,&\quad (6)\\ A\to\lambda,&\quad (3)&\qquad C\to b.&\quad (7)\\ B\to CC,&\quad (4)&\qquad &\quad \end{array}

Удаляем λ-правила. Множество N_0=\{A\} (правило (3)). Далее, N_1=\{A,C\}, поскольку в правиле (6) правая часть есть непустая цепочка нетерминалов из N_0; N_2=\{A,C,B\} (правило (4)), N_3=\{A,C,B,S\}. Так как N_3 совпало с множеством всех нетерминалов грамматики, то N_3=N_e.


Согласно описанному выше алгоритму удаления λ-правил, получим следующую грамматику:


\begin{aligned}&S\to ABC\mid AB\mid AC\mid BC\mid A\mid B\mid C\mid\lambda,\\ &A\to BB\mid B,~~ B\to CC\mid C\mid a,~~ C\to AA\mid A\mid b.\end{aligned}

Мы видим, что в результате удаления λ-правил получилось много цепных правил (которых не было в исходной грамматике). Применение алгоритма удаления цепных правил даст следующие множества N_A^i\colon


\begin{aligned}&N_S^0= N_S^e=\varnothing;\\ &\begin{array}{lll}N_A^0=\{S,C\},&\quad N_A^1=\{S,C,B\},&\quad N_A^2=\{S,C,B,A\};\\ N_B^0=\{S,A\},&\quad N_B^1=\{S,A,C\},&\quad N_B^2=\{S,A,C,B\};\\ N_C^0=\{S,A\},&\quad N_C^1=\{S,A,B\},&\quad N_C^2=\{S,A,B,C\}.\end{array}\end{aligned}

Таким образом, N_A^e=N_B^e=N_C^e=\{S,A,B,C\} (множество всех нетерминалов грамматики).


Новое множество правил, не содержащее цепных правил, будет иметь следующий вид:


\begin{aligned}&S\to ABC\mid AB\mid AC\mid BC\mid\lambda\mid BB\mid CC\mid AA\mid a\mid b;\\ &A\to BB\mid CC\mid AA\mid a\mid b;\\ &B\to CC\mid BB\mid AA\mid a\mid b;\\ &C\to AA\mid BB\mid CC\mid a\mid b.\end{aligned}

Замечание 8.5. Теорема 8.2 позволяет утверждать, что любую КС-грамматику можно преобразовать к эквивалентной КС-грамматике, множество правил вывода которой содержит только КЗ-правила, т.е. правила вида \alpha A\beta\to\alpha\gamma\beta при \alpha=\beta=\lambda и \gamma\ne\lambda. Единственным исключением может быть правило S\to\lambda для аксиомы S. Можно показать, что добавление к множеству правил КЗ-грамматики правила, предусматривающего замену аксиомы пустой цепочкой, не приводит к существенному изменению класса языков, порождаемых КЗ-грамматиками. Единственное отличие языка, порождаемого такой грамматикой, от КЗ-языка состоит в том, что он может содержать пустую цепочку, тогда как ни один КЗ-язык, будучи неукорачивающим языком, пустой цепочки не содержит.


Следовательно, если в множестве правил КЗ-грамматики разрешить кроме КЗ-правил также и правило S\to\lambda (где S — аксиома грамматики), то любую КС-грамматику можно преобразовать к эквивалентной КС-грамматике, являющейся частным случаем КЗ-грамматики (с правилом S\to\lambda).




Бесполезные нетерминальные символы КС-грамматики


Определение 8.3. Нетерминальный символ A КС-грамматики G=(V,N,S,P) называют бесполезным, если из него не выводится ни одна терминальная цепочка, т.е. не существует такого x\in V^{\ast}, что A\vdash_{G}^{\ast}x.


Бесполезный нетерминал КС-грамматики может быть удален (вместе со всеми правилами, в которые он входит) без изменения языка, порождаемого данной грамматикой. Следующая теорема утверждает существование алгоритма удаления бесполезных нетерминальных символов.


Теорема 8.3. Для каждой КС-грамматики G=(V,N,S,P) может быть построена эквивалентная ей КС-грамматика, не содержащая бесполезных нетерминальных символов.


Алгоритм удаления бесполезных нетерминалов состоит в рекуррентном вычислении множества N_u\subseteq N всех нетерминалов грамматики G, из которых выводится какая-либо терминальная цепочка.


Сначала вычисляем множество N_0 всех нетерминалов, из которых терминальная цепочка выводится за один шаг. Для этого просматриваем множество правил P, отмечая в нем все правила вида A\to x, где x\in V^{\ast}. Другими словами,


N_0=\{A\colon\,\text{in}~P~\text{is a rule}~A\to x,~x\in V^{\ast}\}.

Затем вычисляем множество N_1, добавляя к N_0 множество всех таких нетерминалов B, что существует правило вывода в P вида B\to\beta, где \beta — цепочка, содержащая как терминалы, так и нетерминалы из множества N_0. Таким образом, в N_1 попадут все нетерминалы B, такие, что существует вывод терминальной цепочки из B, и высота дерева этого вывода не больше 2 (рис. 8.21).


Дерево вывода терминальной цепочки

В общем случае для множества N_i\,(i\geqslant1) получаем формулу


N_i=N_{i-1}\cup \bigl\{A\colon\, \text{in}~P~\text{is a rule}~A\to\alpha,~ \text{where}~a\in(N_{i-1}\cup V)^{\ast}\bigr\}.

Это множество содержит все такие нетерминалы B, что высота дерева вывода любой терминальной цепочки из B не превышает i+1.


Для наименьшего j, такого, что N_j=N_{j+1}, полагаем N_u=N_j. Из построения множества N_u следует, что это множество всех таких нетерминалов A грамматики G, что существует вывод (ненулевой длины) A\vdash^{+}x для некоторого x\in V^{\ast}, что и требовалось доказать. Тогда все нетерминалы из N\setminus N_u бесполезны.


В частности, если S\notin N_u, то L(G)=\varnothing, и наоборот. Таким образом решается проблема пустоты для КС-грамматик, которая формулируется следующим образом: для данной КС-грамматики выяснить, пуст ли язык, ею порождаемый. Из предыдущих рассмотрений ясно, что для ответа на этот вопрос достаточно вычислить множество бесполезных нетерминалов грамматики и проверить, находится ли среди них аксиома грамматики. Язык, порождаемый КС-грамматикой, пуст тогда и только тогда, когда ее аксиома бесполезна.


Пример 8.7. Пусть множество P правил вывода КС-грамматики G=(\{a,b\},\{S,A,B,C\},S,P) имеет вид


S\to aA\mid bB,\qquad A\to bAa,\qquad B\to aB\mid bS\mid a\mid b,\qquad C\to BaA.

Применяя алгоритм из доказательства теоремы 8.3, получаем N_0=\{B\}, так как в P имеются только два правила, правые части которых — терминальные цепочки B\to a и B\to b. С целью вычисления множества N_1 найдем те правила, правые части которых кроме терминалов содержат только нетерминальный символ B: это будут правила S\to bB и B\to aB, то есть N_1=\{B,S\}. Так как есть только одно правило, правая часть которого содержит вхождение символа S, а именно правило B\to bS, то N_2=N_1=N_u=\{S,B\}. Символы A и C бесполезны. Все правила, содержащие вхождения этих символов, можно удалить. В итоге получим грамматику с таким множеством правил:


S\to bB,\qquad B\to aB\mid bS\mid a\mid b.

Недостижимый символ КС-грамматики


Определение 8.4. Символ X объединенного алфавита V\cup N КС-грамматики G=(V,N,S,P) называют недостижимым, если из аксиомы грамматики не выводится ни одна цепочка, содержащая вхождение символа X, т.е. не существует таких цепочек \alpha,\beta\in(V\cup N)^{\ast}, что S\vdash_{G}^{\ast}\alpha X\beta.


Из самого понятия недостижимого символа ясно, что такие символы можно удалить из грамматики (удалив все правила, которые их содержат) без изменения порождаемого ею языка. Займемся разработкой алгоритма удаления недостижимых символов.




Граф КС-грамматики


Введем в рассмотрение понятие графа КС-грамматики.


Определение 8.5. Назовем графом КС-грамматики G=(V,N,S,P) ориентированный граф, множество вершин которого равно V\cup N\cup\{\lambda\}, а множество дуг определяется следующим образом. Дуга из вершины с меткой A ведет в вершину B тогда и только тогда, когда правило A\to\alpha B\beta (\alpha,\beta\in(V\cup N)^{\ast}) принадлежит множеству P правил вывода грамматики G.


Понятие графа КС-грамматики ни в коем случае нельзя путать с понятием дерева вывода в КС-грамматике, так как дерево вывода строится по конкретному выводу, а граф КС-грамматики строится по множеству правил вывода и характеризует саму грамматику в целом.


Пример 8.8. Граф грамматики из примера 8.7 представлен на рис. 8.22.


Граф грамматики

Опираясь на определение 8.4, можно показать, что символ X КС-грамматики G=(V,N,S,P) достижим тогда и только тогда, когда в графе грамматики существует путь из вершины S грамматики G в вершину X, и задача распознавания достижимости символов в КС-грамматиках сводится тем самым к задаче распознавания достижимости в ориентированных графах из заданной вершины. Для ее решения достаточно воспользоваться, например, алгоритмом поиска в ширину. В примере 8.8 (см. рис. 8.22) символ C не достижим.


Удаление бесполезных нетерминалов может привести к появлению недостижимых символов.


Пример 8.9. Модифицируем грамматику из примера 8.7, добавив к множеству ее терминалов новый символ d и к множеству ее правил вывода правило A\to Cd.


Граф модифицированной грамматики приведен на рис. 8.23. Нетерминалы A и C бесполезны, хотя и достижимы. Удаляя их вместе со всеми правилами, в которые они входят, получим КС-грамматику, граф которой изображен на рис. 8.24. Терминал d стал недостижимым.


Граф модифицированной грамматики



Задание КС-грамматика в приведенной форме


Определение 8.6. КС-грамматика считается заданной в приведенной форме, если множество ее правил вывода не содержит λ-правил и цепных правил, множество ее нетерминалов не содержит бесполезных нетерминалов, а объединенный алфавит не содержит недостижимых символов.


Рассмотренные выше алгоритмы любую КС-грамматику позволяют преобразовать к эквивалентной КС-грамматике, заданной в приведенной форме. Заметим, что поскольку удаление λ-правил может привести к появлению цепных правил (см. пример 8.6), а удаление бесполезных нетерминалов — к появлению недостижимых символов, то построение приведенной формы КС-грамматики нужно проводить в такой последовательности:


1) удалить λ-правила;

2) удалить цепные правила;

3) удалить бесполезные нетерминалы;

4) удалить недостижимые символы.


Замечание 8.6. К числу важных преобразований КС-грамматики относят также преобразование, состоящее в удалении аксиомы из правых частей правил вывода. Можно доказать, что любая КС-грамматика преобразуется к эквивалентной КС-грамматике, не содержащей вхождений аксиомы в правые части правил вывода. Действительно, для этого достаточно ввести новый нетерминал S_1 (отличный от всех нетерминалов исходной грамматики), объявить его аксиомой и добавить правило S_1\to S, после чего появившееся цепное правило и недопустимые λ-правила, которые могут при этом возникнуть, удаляются согласно приведенным выше алгоритмам.


Пример 8.10. Грамматика с множеством правил S\to aSa\mid bSb\mid a\mid b\mid \lambda, порождающая множество всех палиндромов в алфавите \{a,b\} (см. пример 7.5.в), преобразуется после удаления аксиомы из правых частей правил вывода в грамматику с аксиомой S_1 и следующим множеством правил:


S_1\to S,\qquad S\to aSa\mid bSb\mid a\mid b\mid \lambda.

Появились, как мы видим, цепное правило и, поскольку символ S в новой грамматике уже не является аксиомой, λ-правило S\to\lambda, которое следует удалить. Выполняя это, получим окончательно следующее множество правил:


S_1\to aSa\mid bSb\mid aa\mid bb\mid a\mid b\mid\lambda,\qquad S\to aSa\mid bSb\mid aa\mid bb\mid a\mid b.

Заметим, что если КС-грамматика задана в приведенной форме и правые части правил не содержат вхождений аксиомы, то единственное допустимое правило с пустой правой частью (левой частью его является аксиома), если оно существует, используется только для порождения пустой цепочки. Исходная грамматика из примера 8.10 этим свойством не обладает, так как правило S\to\lambda используется всякий раз при выводе слова четной длины.


Кроме того, КС-грамматика, заданная в приведенной форме и не содержащая вхождений аксиомы в правых частях правил вывода, обладает еще одним интересным свойством: дерево вывода любой непустой цепочки является λсвободным. Таким образом, без ограничения общности можно считать деревья выводов непустых цепочек в КС-грамматиках λ-свободными.

Математический форум (помощь с решением задач, обсуждение вопросов по математике).
Кнопка "Поделиться"
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.

Часовой пояс: UTC + 3 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved