Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]


Алфавит, слово, язык в программировании

Алфавит, слово, язык в программировании


Рассмотрим самое простое понятие теории языков — понятие алфавита.


Алфавит — это произвольное непустое конечное множество V=\{a_1,\ldots,a_n\}, элементы которого называют буквами или символами.


Обычно задают определенную нумерацию алфавита (как, скажем, для русского алфавита: "а" — первая буква, "б" — вторая и т.д. до 33-й — "я"). Впредь договоримся, фиксируя алфавит, записывать его буквы в порядке их номеров.


Определение 7.1. Словом или цепочкой в алфавите V называют произвольный кортеж из множества V^k (k-й декартовой степени алфавита V) для различных k=0,1,2,\ldots


Например, если V=\{a,b,c\}, то (a),(b),(c),(a,b),(a,b,c),(c,b,a,a,c) и т.д. есть слова в V.


При k=0 получаем пустой кортеж, называемый в данном контексте пустым словом или пустой цепочкой и обозначаемый \lambda. Множество всех слов в алфавите V обозначают V^{\ast}, а множество всех непустых слов в V — как V^{+}. Слова, ради удобства чтения и простоты записи, будем записывать без скобок и запятых. Так, для записанных выше слов получим:


a,\quad b,\quad c,\quad ab,\quad abc,\quad cbaac\,.

Такая запись слова согласуется с его интуитивным пониманием как цепочки следующих друг за другом символов. Тогда пустое слово — это слово, не имеющее символов, "пустой лист бумаги", на котором еще ничего не написано.


По определению, длина слова w — число компонент кортежа, т.е. если w\in V^{\tau}, то длина слова w равна \tau. Длину слова w договоримся обозначать |w|. Ясно, что для пустого слова |\lambda|=0. Длину слова тем самым можно понимать как число составляющих это слово букв.


Докажем, что множество V^{\ast} счетно. Для этого достаточно построить какую-либо нумерацию этого множества. Рассмотрим здесь нумерацию, называемую лексикографической.


В данной нумерации пустому слову присваивается номер 0, а буквам a_1,\ldots,a_n алфавита V — номера 1,\ldots,n соответственно. Если слово x имеет лексикографический номер l_x, то слову xa_i присваивается номер nl_x+i. Отсюда следует, что лексикографический номер слова a_{i_1},a_{i_2},\ldots,a_{i_k} будет равен


n^{k-1}i_1+n^{k-2}i_2+\ldots+i_k\,.

Заметим, что последняя сумма напоминает запись числа в системе счисления по модулю n (мощности алфавита) с тем лишь различием, что используется цифра n, но не допускается цифра 0. Итак, по любому слову в алфавите V однозначно вычисляется его лексикографический номер. Обратно, любое натуральное число однозначно раскладывается по степеням n указанным выше образом.


Действительно, если дано число N, то при 0\leqslant N\leqslant n оно служит номером пустого слова (N=0) или некоторой буквы алфавита. Иначе представим N в виде N=k_1n+r_0, где 1\leqslant r_0\leqslant n.


Если k_1\leqslant n, то N есть номер слова a_{k_1}a_{r_0}. Иначе раскладываем k_1 в виде


k_1=k_2n+r_1, где 1\leqslant r_1\leqslant n. Тогда N=k_2n^2+r_1n+r_0.

С числом k_2 поступаем точно так же, как и с k_1. После конечного числа шагов получим разложение числа N в виде


N=n^m\cdot r_m+n^{m-1}\cdot r_{m-1}+\ldots+n\cdot r_1+r_0,

где каждое число r_i~(0\leqslant i\leqslant m) находится в диапазоне от 1 до n. По полученному разложению N однозначно восстанавливается слово в V, имеющее номер N:


a_{r_m}a_{r_{m-1}}\ldots a_{r_1}a_{r_0}.

Пример 7.1. Вычислим номер слова cbaac в алфавите \{a,b,c\}. Имеем


3^4\cdot3+3^3\cdot2+3^2\cdot1+3^1\cdot1+3=279.

Решим обратную задачу, найдя слово в данном трехбуквенном алфавите, имеющее номер 321. Согласно приведенному выше алгоритму, получим


\begin{aligned}\begin{aligned}321&= 106\cdot3+3=(35\cdot3+1)\cdot3+3= (11\cdot3+ 2)\cdot3^2+1\cdot3+3\cdot3^0=\\[2pt] &=(3\cdot3 + 2) \cdot 3^3+ 2\cdot 3^2 + 1\cdot 3 + 3\cdot 3^0 = 3\cdot 3^4 + 2\cdot 3^3 + 2\cdot 3^2 + 1\cdot 3 + 3.\end{aligned}\end{aligned}

Следовательно, искомое слово есть cbbac.




Лексикографическая нумерация напоминает способ упорядочения слов в словарях: однобуквенные слова следуют в порядке номеров букв в алфавите, среди двух двухбуквенных слов меньший номер имеет слово, начинающееся буквой с меньшим номером, и т.д. Но полного совпадения нет, так как в словаре слова группируются по начальной букве, а не по длине.


Нам будет удобно в дальнейшем использовать следующую запись непустого слова x в алфавите V по буквам:


x=x(1)x(2)\ldots x(k), где x(i),~1\leqslant i\leqslant k, — i-я буква слова x.

Определение 7.2. Языком в алфавите V называется произвольное подмножество множества V^{\ast}.


Множество всех языков в алфавите V, т.е. множество 2^{V^{\ast}}, есть булеан счетного множества, и, следовательно, оно в силу теоремы 1.15 Кантора имеет мощность континуума.


Наша следующая задача — определить на множестве 2^{V^{\ast}} всех языков в произвольном (но фиксированном!) алфавите V алгебраическую структуру. На множестве 2^{V^{\ast}} можно определять различные операции. Прежде всего языки — это множества, следовательно, над ними можно производить все те же операции, что и над множествами: объединение, пересечение, разность, дополнение и т.п. Универсальное множество в данном случае есть множество слов V^{\ast}, которое называют универсальным языком.


Кроме перечисленных теоретико-множественных операций можно рассматривать и специальные операции над языками.


Прежде чем обратиться к этим операциям, определим операцию соединения (или конкатенации) слов. Соединением слов x=x(1)x(2)\ldots x(k) и y=y(1)y(2)\ldots y(m) называют слово


xy= x(1)x(2)\ldots x(k) y(1)y(2)\ldots y(m).

По определению, считаем x\lambda=\lambda x=x для любого x. Соединение иногда обозначают точкой (\,\cdot\,).


Неформально соединение xy получается приписыванием слова y справа к слову x. Таким образом, для любых двух слов x\in V^k и y\in V^m конкатенация xy\in V^{k+m}\,(k,m\geqslant0). Следовательно, |xy|=|x|+|y|.


Из определения также следует, что соединение слов ассоциативно, т.е. для произвольных трех слов x,y,z имеет место x(yz)=(xy)z, и поэтому — с учетом написанного выше свойства пустого слова — множество V^{\ast} всех слов в алфавите V с операцией соединения образует моноид (V^{\ast},\cdot,\lambda). Единица моноида — пустое слово. Этот моноид есть не что иное, как свободный моноид, порожденный алфавитом V (см. пример 2.7). Для него используют то же обозначение, что и для самого множества всех слов в алфавите V, то есть V^{\ast}.




Вхождения одного слова в другое


На основе понятия соединения слов определим понятие вхождения одного слова в другое.


Определение 7.3. Вхождение слова x\in V^{\ast} в слово y\in V^{\ast} — это упорядоченная тройка слов (u,x,v), такая, что y=uxv.


При этом слово u называют левым, а слово {v} — правым крылом указанного вхождения. Слово x называют основой вхождения.


Говорят, что слово x входит в слово y, если существует вхождение x в y. При этом также слово (цепочку) x называют подсловом (или подцепочкой) слова (цепочки) y. Подцепочку x цепочки y называют началом (или префиксом) цепочки y, если y=xz для некоторой непустой цепочки z; если же для некоторой непустой цепочки z имеет место y=zx, то цепочку x называют концом (или постфиксом) цепочки y.


Заметим, что каждое слово входит в себя само и пустое слово входит в любое слово.


Например, слова "цикл" и "циклоп" входят в слово "энциклопедия". Соответствующие вхождения записывают следующим образом:


(эн, цикл, опедия), (эн, циклоп, едия)

Может существовать несколько разных вхождений одного и того же слова x в некоторое слово y. Так, слово "абра" дважды входит в слово "абракадабра". Число вхождений пустого слова в данное слово p на единицу больше длины слова p. Среди всех вхождений слова x в слово y вхождение с наименьшей длиной левого крыла называют первым или главным вхождением x в слово y.


Так, вхождение (\lambda, абра, кадабра) есть первое вхождение слова "абра" в слово "абракадабра".


Определение 7.4. Говорят, что вхождения (u,x,v) и (s,z,t) слов x и z в одно и то же слово y не пересекаются, если существуют такие (может быть, и пустые) слова p и q, что y=uxpzt (и тогда v=pzt, а s=uxp) или y=szqxv (и тогда u=szq, а t=qxv) (рис. 7.1). В противном случае говорят, что указанные вхождения пересекаются.


Пересекающиеся и непересекающиеся вхождения слов в одно и то же слово

Так, вхождения слов "цикл" и "циклоп" в слово "энциклопедия" пересекаются, а два разных вхождения слова "абра" в слово "абракадабра" не пересекаются. Мы иногда будем использовать обозначение x\sqsubseteq y для утверждения "слово x входит в слово y". Можно доказать, что \sqsubseteq. — отношение порядка.


Определив таким образом операцию соединения слов, введем теперь операцию с таким же названием, но уже для языков. Перед этим обратим внимание на то, что всякий раз, говоря о языках и операциях над ними, мы полагаем фиксированным какой-то алфавит V. Он не всегда явно упоминается, но нужно четко усвоить, что нельзя говорить просто о слове, просто о языке, но всегда — о слове или языке в том или ином алфавите.


Определение 7.5. Соединением (конкатенацией) языков L_1 и L_2 называют язык L_1L_2, состоящий из всех возможных соединений слов xy, в которых слово x принадлежит первому, а слово y — второму языку, т.е.


L_1L_2=\bigl\{xy\colon\, x\in L_1,~y\in L_2\bigr\}.

Соединение конечных языков легко вычислить.


Пример 7.2. Если V=\{a,b,c\},~L_1=\{ab,bcc,cab\},~ L_2=\{ca,bcc\}, то


L_1L_2=\bigl\{abca,\, abbcc,\, bccca,\, bccbcc,\, cabca,\, cabbcc\bigr\}, а

L_2L_1=\bigl\{caab,\, cabcc,\, cacab,\, bccab,\, bccbcc,\, bcccab\bigr\}.

Вычисление конкатенации языков в конечном случае очень похоже на умножение (раскрытие скобок) в обычной школьной алгебре. Можно былб бы формально написать так:


(ab+bcc+cab)(ca+bcc)= abca+ abbcc+ bccca+ bccbcc+ cabca+ cabbcc\,.

В данном случае плюс (+) — это только соединительный знак, используемый вместо запятой. Позже мы увидим, что подобным чисто формальным записям может быть придан строгий алгебраический смысл.




Итерация языка и возведение его в степень


Соединение языков не коммутативно, и, как показывает только что разобранный пример, пересечение L_1L_2\cap L_2L_1 в общем случае не пусто. В нашем примере оно содержит одну цепочку bccbcc.


Операция соединения языков позволяет определить операцию возведения языка в произвольную натуральную степень. А именно, по определению, L^0=\{\lambda\} для любого L\subseteq V^{\ast}, а L^n=L^{n-1}L при n>0.


Итерацией языка L называют объединение всех его степеней:


L^{\ast}=\bigcup\limits_{n=0}^{\infty}L^n.

Рассматривая объединение всех степеней языка L, начиная с первой, получим позитивную итерацию


L^{+}=\bigcup\limits_{n=1}^{\infty}L^n.



Основное алгебраическое свойство множества всех языков


Сформулируем основное алгебраическое свойство множества всех языков в алфавите V.


Теорема 7.1. Алгебра \mathcal{L}(V)=(2^{V^{\ast}},\cup,\cdot, \varnothing, \{\lambda\}) есть замкнутое полукольцо.


Проверка аксиом полукольца сводится к доказательству:


1) того, что по операции объединения множество всех языков образует коммутативный и идемпотентный моноид (с пустым множеством в качестве нейтрального элемента (нуль полукольца)); это тривиально ввиду известных свойств операции объединения множеств;


2) того, что по операции конкатенации множество языков образует моноид (с языком \{\lambda\}, состоящим из одного пустого слова, в качестве нейтрального элемента (единицы полукольца)); для этого достаточно доказать, что операция соединения языков ассоциативна, а также доказать для любого языка L тождество \{\lambda\}L=L\{\lambda\}=L, что вытекает из ассоциативности операции соединения слов и из тождества \lambda x=x\lambda=x для любого слова x;


3) следующих тождеств:

L_1(L_2\cup L_3)=L_1L_2\cup L_1L_3,\qquad (L_1\cup L_2)L_3=L_1L_3\cup L_2L_3

(эти тождества определяют свойство дистрибутивности операции соединения относительно объединения).


Докажем первое из этих тождеств. Пусть слово x принадлежит его левой части, т.е. языку L_1(L_2\cup L_3). Тогда, согласно определению соединения языков, это слово может быть представлено в виде x=yz, где y\in L_1, а z\in L_2\cup L_3, то есть z\in L_2 или z\in L_3. Если z\in L_2, то yz\in L_1L_2, а если z\in L_3, то yz\in L_1L_3, то есть x=yz\in L_1L_2\cup L_1L_3. Пусть теперь x\in L_1L_2\cup L_1L_3. Тогда x=yz, где y\in L_1, a z\in L_2 или z\in L_3, то есть x\in L_1(L_2\cup L_3), что и завершает доказательство первого тождества. Второе доказывается аналогично.


Напомним, что в полукольце \mathcal{S}=(S,+,\cdot,0,1) отношение порядка вводится следующим образом: для любых x,y\in S по определению полагают x\leqslant y тогда и только тогда, когда x+y=y. Так как в полукольце всех языков в алфавите V операция сложения — это операция объединения множеств, то в данном случае отношение порядка \leqslant есть не что иное, как теоретико-множественное включение \subseteq (действительно, включение L\subseteq K равносильно тому, что L\cup K=K). Тогда замкнутость полукольца \mathcal{L}(V) следует из существования объединения любого семейства множеств (в частности, бесконечной последовательности множеств), служащего точной верхней гранью этого семейства (относительно теоретико-множественного включения), а также из следующих тождеств (для любого языка L и любого семейства языков P_i,~i\in I):


L\Bigl(\,\bigcup\limits_{i\in I}P_i\,\Bigr)= \bigcup\limits_{i\in I}(LP_i),\qquad \Bigl(\,\bigcup\limits_{i\in I}P_i\,\Bigr)L=\bigcup\limits_{i\in I}P_iL\,,
(7.1)

что гарантирует выполнение непрерывности операции умножения данного полукольца, т.е. непрерывности операции соединения. Эти тождества доказываются точно так же, как тождества обычной дистрибутивности.


Рассмотрим, например, доказательство второго тождества из (7.1), используя, как и выше, метод двух включений. Если


x\in \Bigl(\,\bigcup\limits_{i\in I}P_i\,\Bigr)L, то x=yz, где y\in \bigcup\limits_{i\in I}P_i, а z\in L.

Согласно определению объединения семейства множеств, найдется такое i\in I, что y\in P_i, и тогда yz=x\in P_iL, то есть \textstyle{\mathop{x\in \bigcup\limits_{i\in I}P_iL}\limits^{\phantom{A}^{.}}}. Обратное включение доказываем так: из \textstyle{\mathop{x\in \bigcup\limits_{i\in I}P_iL}\limits^{\phantom{A}^{.}}} следует, что для некоторого i\in I имеется x\in P_iL, то есть x=yz, где y\in P_i, a z\in L, откуда \textstyle{\mathop{y\in \bigcup\limits_{i\in I}P_i}\limits^{\phantom{A}^{.}}}, и, следовательно, \textstyle{\mathop{yz=x\in \Bigl(\bigcup\limits_{i\in I}P_i\Bigr)L}\limits^{\phantom{A}^{.}}}.


Следствие 7.1. Для любого языка L верно тождество L^{+}=L^{\ast}L=LL^{\ast}.


Вычислим соединение \textstyle{LL^{\ast}\colon\, LL^{\ast}=L\bigcup\limits_{n=0}^{\infty} L^n}. Применяя первое из тождеств (7.1), получим


L\bigcup\limits_{n=0}^{\infty}L^n=\bigcup\limits_{n=0}^{\infty}LL^n= \bigcup\limits_{n=0}^{\infty}L^n, то есть L^{+}=L^{\ast}L.

Тождество L^{+}=LL^{\ast} доказывается аналогично.


Заметим, что в общем случае нельзя утверждать, что позитивная итерация языка L получается выбрасыванием из обычной итерации пустого слова. Это верно в том и только в том случае, когда язык L не содержит пустого слова. Если же \lambda\in L, то L^{+}=L^{\ast}, так как тогда L^{0}=\{\lambda\}\subseteq L.

Математический форум (помощь с решением задач, обсуждение вопросов по математике).
Кнопка "Поделиться"
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.

Часовой пояс: UTC + 3 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved