Приведенная форма КС-грамматики
При изучении свойств КС-грамматик и КС-языков иногда бывает целесообразно преобразовать КС-грамматику к эквивалентной КС-грамматике, правила вывода которой удовлетворяют определенным дополнительным ограничениям. В этом разделе мы рассмотрим алгоритмы некоторых таких преобразований.
Определение 8.2. Правило вывода КС-грамматики называют:
1) λ-правилом, если его правая часть — пустая цепочка;2) цепным, если оно имеет вид , где и — нетерминалы грамматики.
Теорема 8.2. Любая КС-грамматика может быть преобразована к эквивалентной КС-грамматике, множество правил вывода которой не содержит λ-правил, кроме, может быть, правила , и не содержит цепных правил.
Мы опишем алгоритмы удаления λ-правил и цепных правил из множества правил КС-грамматики, опуская строгое обоснование этих алгоритмов.
Алгоритм удаления λ-правил
Предположим, что нам известно множество всех нетерминалов грамматики , из которых выводится пустая цепочка, т.е.
Тогда в правой части каждого правила выделяются все вхождения нетерминалов из множества (если таких вхождений нет, то правило пропускается) так, что цепочка представляется в виде
где — все нетерминалы из , входящие в . Заметим, что они не обязаны быть различными, так как мы выделяем все вхождения таких нетерминалов в правую часть правила.
После этого к рассматриваемому правилу добавляются все правила вида
где для каждого есть или символ , или пустая цепочка.
Иначе говоря, к любому правилу исходной грамматики, правая часть которого содержит нетерминалы из множества добавляются все правила, которые могут быть получены из исходного путем замены (в его правой части) любого числа вхождений нетерминалов из пустой цепочкой. При этом сохраняется и само исходное правило и появляется, в частности, правило
вовсе не содержащее вхождений указанных нетерминалов в правой части. Подчеркнем еще раз, что каждое правило исходной грамматики, правая часть которого не содержит вхождений нетерминалов из , без всяких изменений переносится в систему правил новой грамматики.
Если в процессе описанного выше преобразования системы правил исходной грамматики получаются правила вида или (при ), то они игнорируются.
Остается обсудить метод вычисления множества . Это множество вычисляется рекуррентно, а именно на первом шаге вычисляют множество таких нетерминалов грамматики , что существует в есть λ-правило . Таким образом, множество — это множество всех нетерминалов грамматики, из которых пустая цепочка выводится за один шаг.
 На следующем шаге вычисляем множество , включая в него, во-первых, все нетерминалы множества и, во-вторых, все такие нетерминалы , что в имеется правило вывода , где — непустая цепочка нетерминалов из множества , то есть . Это означает, что состоит из всех таких нетерминалов грамматики , что дерево вывода пустой цепочки из , имеет высоту, не большую 2 (рис. 8.19).
В общем случае множество вычисляют по формуле
![\begin{aligned}N_0&= \{A\colon\,\text{in}~P~\text{is a rule}~A\to\lambda\},\\[2pt] N_i&= N_{i-1}\cup\{B\colon\,\text{in}~P~\text{is a rule}~B\to\xi,~\text{where}~\xi\in N_{i-1}^{+}\}. \end{aligned}]()
Множество — это множество всех таких нетерминалов грамматики , что дерево вывода пустой цепочки из имеет высоту, не большую .
Так как множество всех нетерминалов грамматики конечно, то описанный выше рекуррентный процесс оборвется на некотором шаге, т.е. для некоторого получим . Тогда полагаем
 для наименьшего  , такого, что  .
Далее, если аксиома принадлежит множеству , то в системе правил оставляют правило , остальные λ-правила удаляют*, а множество правил вывода исходной грамматики преобразуют согласно описанному выше алгоритму.
*Исключение для λ-правила, левой частью которого служит аксиома грамматики, связано с тем, чтобы при переходе к новой грамматике не "потерять" пустую цепочку, которую порождает исходная грамматика.
Можно доказать, что полученная таким образом КС-грамматика без λ-правил эквивалентна исходной грамматике . Это объясняется тем, что "потерю" вывода пустой цепочки из нетерминала (посредством применения λ-правил) мы "компенсируем" добавлением к множеству правил вывода всех таких правил, что замена на уже произведена прямо в их правых частях.
Пример 8.4. Рассмотрим грамматику с множеством правил
В данном случае . Так как единственное правило вывода этой грамматики, правая часть которого — непустая цепочка нетерминалов из , есть правило , то , то есть , и наша грамматика принимает вид
Алгоритм удаления цепных правил
Алгоритм удаления цепных правил во многом аналогичен алгоритму удаления λ-правил.
Пусть существует вывод нетерминала из нетерминала , в котором применяются только цепные правила. Тогда такой вывод назовем цепным выводом.
Предположим теперь, что для каждого нетерминала грамматики известно множество всех таких нетерминалов , что существует цепной вывод из . Тогда, удалив все цепные правила, мы должны предусмотреть непосредственную замену всех нетерминалов из любой цепочкой , которая служит правой частью некоторого правила (рис. 8.20).
 Это соображение лежит в основе алгоритма преобразования множества правил КС-грамматики с целью удаления цепных правил.
Вычислив множество для каждого , удалить все цепные правила, добавив при этом для каждой цепочки а, такой, что в есть правило , и для каждого правило . После этого вместо каждого вывода вида (при ) в исходной грамматике в новой грамматике получим вывод .
Множества нетерминалов для каждого вычисляются рекуррентно (как и в рассмотренном выше алгоритме удаления λ-правил вычислялось множество ):
![\begin{aligned}N_{A}^{0}&= \{B\colon\,\text{in}~P~\text{is a rule}~B\to A\};\\[2pt] N_{A}^{i}&= N_{A}^{i-1}\cup \{C\colon\, \text{in}~P~\text{is a rule}~C\to D,~\text{where}~D\in N_{A}^{i-1}|\}.\end{aligned}]()
Таким образом, множество — это множество всех таких нетерминалов , что существует цепной вывод длины не больше нетерминала из . "Насыщение" этой рекуррентной процедуры происходит для первого номера , такого, что , и тогда принимают .
Пример 8.5. Дана грамматика с множеством правил
аксиомой и терминальным алфавитом . Имеем , следовательно, и (множество нетерминалов данной грамматики, из которых применением одних цепных правил выводится нетерминал , пусто). Далее, , а так как нет ни одного цепного правила с правой частью , то
Удаляя цепные правила, необходимо, согласно описанному выше алгоритму, ко всем правилам с левой частью добавить правило , чтобы, сокращая вывод и убирая из него применение цепного правила , сразу вывести из аксиомы цепочку .
Аналогично к правилам с левой частью надо добавить правила и . В итоге получим грамматику
Можно доказать, что описанный алгоритм удаления цепных правил дает грамматику, эквивалентную исходной.
Замечание 8.4. К цепным правилам относится и правило . Если такое правило находится в множестве правил грамматики или появляется при удалении λ-правил (см. пример 8.4), то оно должно быть просто удалено из множества правил.
Обратимся к примеру, из которого станет ясно, что удаление λ-правил может привести к появлению в множестве правил заданной КС-грамматики цепных правил.
Пример 8.6. Рассмотрим грамматику из примера 8.1. Для удобства перепишем ее определение:
где множество правил вывода имеет вид
Удаляем λ-правила. Множество (правило (3)). Далее, , поскольку в правиле (6) правая часть есть непустая цепочка нетерминалов из ; (правило (4)), . Так как совпало с множеством всех нетерминалов грамматики, то .
Согласно описанному выше алгоритму удаления λ-правил, получим следующую грамматику:
Мы видим, что в результате удаления λ-правил получилось много цепных правил (которых не было в исходной грамматике). Применение алгоритма удаления цепных правил даст следующие множества 
Таким образом, (множество всех нетерминалов грамматики).
Новое множество правил, не содержащее цепных правил, будет иметь следующий вид:
Замечание 8.5. Теорема 8.2 позволяет утверждать, что любую КС-грамматику можно преобразовать к эквивалентной КС-грамматике, множество правил вывода которой содержит только КЗ-правила, т.е. правила вида при и . Единственным исключением может быть правило для аксиомы . Можно показать, что добавление к множеству правил КЗ-грамматики правила, предусматривающего замену аксиомы пустой цепочкой, не приводит к существенному изменению класса языков, порождаемых КЗ-грамматиками. Единственное отличие языка, порождаемого такой грамматикой, от КЗ-языка состоит в том, что он может содержать пустую цепочку, тогда как ни один КЗ-язык, будучи неукорачивающим языком, пустой цепочки не содержит.
Следовательно, если в множестве правил КЗ-грамматики разрешить кроме КЗ-правил также и правило (где — аксиома грамматики), то любую КС-грамматику можно преобразовать к эквивалентной КС-грамматике, являющейся частным случаем КЗ-грамматики (с правилом ).
Бесполезные нетерминальные символы КС-грамматики
Определение 8.3. Нетерминальный символ КС-грамматики называют бесполезным, если из него не выводится ни одна терминальная цепочка, т.е. не существует такого , что .
Бесполезный нетерминал КС-грамматики может быть удален (вместе со всеми правилами, в которые он входит) без изменения языка, порождаемого данной грамматикой. Следующая теорема утверждает существование алгоритма удаления бесполезных нетерминальных символов.
Теорема 8.3. Для каждой КС-грамматики может быть построена эквивалентная ей КС-грамматика, не содержащая бесполезных нетерминальных символов.
Алгоритм удаления бесполезных нетерминалов состоит в рекуррентном вычислении множества всех нетерминалов грамматики , из которых выводится какая-либо терминальная цепочка.
Сначала вычисляем множество всех нетерминалов, из которых терминальная цепочка выводится за один шаг. Для этого просматриваем множество правил , отмечая в нем все правила вида , где . Другими словами,
Затем вычисляем множество , добавляя к множество всех таких нетерминалов , что существует правило вывода в вида , где — цепочка, содержащая как терминалы, так и нетерминалы из множества . Таким образом, в попадут все нетерминалы , такие, что существует вывод терминальной цепочки из , и высота дерева этого вывода не больше 2 (рис. 8.21).
В общем случае для множества получаем формулу
Это множество содержит все такие нетерминалы , что высота дерева вывода любой терминальной цепочки из не превышает .
Для наименьшего , такого, что , полагаем . Из построения множества следует, что это множество всех таких нетерминалов грамматики , что существует вывод (ненулевой длины) для некоторого , что и требовалось доказать. Тогда все нетерминалы из бесполезны.
В частности, если , то , и наоборот. Таким образом решается проблема пустоты для КС-грамматик, которая формулируется следующим образом: для данной КС-грамматики выяснить, пуст ли язык, ею порождаемый. Из предыдущих рассмотрений ясно, что для ответа на этот вопрос достаточно вычислить множество бесполезных нетерминалов грамматики и проверить, находится ли среди них аксиома грамматики. Язык, порождаемый КС-грамматикой, пуст тогда и только тогда, когда ее аксиома бесполезна.
Пример 8.7. Пусть множество правил вывода КС-грамматики имеет вид
Применяя алгоритм из доказательства теоремы 8.3, получаем , так как в имеются только два правила, правые части которых — терминальные цепочки и . С целью вычисления множества найдем те правила, правые части которых кроме терминалов содержат только нетерминальный символ : это будут правила и , то есть . Так как есть только одно правило, правая часть которого содержит вхождение символа , а именно правило , то . Символы и бесполезны. Все правила, содержащие вхождения этих символов, можно удалить. В итоге получим грамматику с таким множеством правил:
Недостижимый символ КС-грамматики
Определение 8.4. Символ объединенного алфавита КС-грамматики называют недостижимым, если из аксиомы грамматики не выводится ни одна цепочка, содержащая вхождение символа , т.е. не существует таких цепочек , что .
Из самого понятия недостижимого символа ясно, что такие символы можно удалить из грамматики (удалив все правила, которые их содержат) без изменения порождаемого ею языка. Займемся разработкой алгоритма удаления недостижимых символов.
Граф КС-грамматики
Введем в рассмотрение понятие графа КС-грамматики.
Определение 8.5. Назовем графом КС-грамматики ориентированный граф, множество вершин которого равно , а множество дуг определяется следующим образом. Дуга из вершины с меткой ведет в вершину тогда и только тогда, когда правило принадлежит множеству правил вывода грамматики .
Понятие графа КС-грамматики ни в коем случае нельзя путать с понятием дерева вывода в КС-грамматике, так как дерево вывода строится по конкретному выводу, а граф КС-грамматики строится по множеству правил вывода и характеризует саму грамматику в целом.
Пример 8.8. Граф грамматики из примера 8.7 представлен на рис. 8.22.
 Опираясь на определение 8.4, можно показать, что символ КС-грамматики достижим тогда и только тогда, когда в графе грамматики существует путь из вершины грамматики в вершину , и задача распознавания достижимости символов в КС-грамматиках сводится тем самым к задаче распознавания достижимости в ориентированных графах из заданной вершины. Для ее решения достаточно воспользоваться, например, алгоритмом поиска в ширину. В примере 8.8 (см. рис. 8.22) символ не достижим.
Удаление бесполезных нетерминалов может привести к появлению недостижимых символов.
Пример 8.9. Модифицируем грамматику из примера 8.7, добавив к множеству ее терминалов новый символ и к множеству ее правил вывода правило .
Граф модифицированной грамматики приведен на рис. 8.23. Нетерминалы и бесполезны, хотя и достижимы. Удаляя их вместе со всеми правилами, в которые они входят, получим КС-грамматику, граф которой изображен на рис. 8.24. Терминал стал недостижимым.
Задание КС-грамматика в приведенной форме
Определение 8.6. КС-грамматика считается заданной в приведенной форме, если множество ее правил вывода не содержит λ-правил и цепных правил, множество ее нетерминалов не содержит бесполезных нетерминалов, а объединенный алфавит не содержит недостижимых символов.
Рассмотренные выше алгоритмы любую КС-грамматику позволяют преобразовать к эквивалентной КС-грамматике, заданной в приведенной форме. Заметим, что поскольку удаление λ-правил может привести к появлению цепных правил (см. пример 8.6), а удаление бесполезных нетерминалов — к появлению недостижимых символов, то построение приведенной формы КС-грамматики нужно проводить в такой последовательности:
1) удалить λ-правила; 2) удалить цепные правила; 3) удалить бесполезные нетерминалы; 4) удалить недостижимые символы.
Замечание 8.6. К числу важных преобразований КС-грамматики относят также преобразование, состоящее в удалении аксиомы из правых частей правил вывода. Можно доказать, что любая КС-грамматика преобразуется к эквивалентной КС-грамматике, не содержащей вхождений аксиомы в правые части правил вывода. Действительно, для этого достаточно ввести новый нетерминал (отличный от всех нетерминалов исходной грамматики), объявить его аксиомой и добавить правило , после чего появившееся цепное правило и недопустимые λ-правила, которые могут при этом возникнуть, удаляются согласно приведенным выше алгоритмам.
Пример 8.10. Грамматика с множеством правил , порождающая множество всех палиндромов в алфавите (см. пример 7.5.в), преобразуется после удаления аксиомы из правых частей правил вывода в грамматику с аксиомой и следующим множеством правил:
Появились, как мы видим, цепное правило и, поскольку символ в новой грамматике уже не является аксиомой, λ-правило , которое следует удалить. Выполняя это, получим окончательно следующее множество правил:
Заметим, что если КС-грамматика задана в приведенной форме и правые части правил не содержат вхождений аксиомы, то единственное допустимое правило с пустой правой частью (левой частью его является аксиома), если оно существует, используется только для порождения пустой цепочки. Исходная грамматика из примера 8.10 этим свойством не обладает, так как правило используется всякий раз при выводе слова четной длины.
Кроме того, КС-грамматика, заданная в приведенной форме и не содержащая вхождений аксиомы в правых частях правил вывода, обладает еще одним интересным свойством: дерево вывода любой непустой цепочки является λсвободным. Таким образом, без ограничения общности можно считать деревья выводов непустых цепочек в КС-грамматиках λ-свободными.
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.
|