NLU/RG: Окрестностная грамматика (начало)

Окрестностная грамматика

Константин Соколов

Mathlingvo, СПбГУ, i-Free

http://nlu-rg.ru

Санкт-Петербург, 2014

http://nlu-rg.ru

План

• окрестностные грамматики• синтаксические диаграммы• теоретико-категорная трактовка композициональности

1

Тексты

• Ю. А. Шрейдер. Топологические модели языка. В сб.:“Проблемы структурной лингвистики. 1971”, М., 1972.

• В. А. Лапшин. Лекции по математической лингвистике.М., 2010.

• В. А. Лапшин. Синтаксические диаграммы как формализмдля представления синтаксических отношенийформальных языков. 2008. arXiv:0802.3974

• В. А. Лапшин. Топологии синтаксических отношенийформальных языков. 2008. arXiv:0802.4181

2

Окрестностные грамматики

3

Окрестностные грамматики (1)

• Пусть A – алфавит. Окрестность – это цепочка над алфавитомA ∪ {#} с отмеченным вхождением некоторого знака из A(центр окрестности)

• aab, ab#, #b#• в цепочке X = abaac элемент b имеет окрестности

U1 = ab, U2 = abaa, U3 = #aba и т.д.

4

Окрестностные грамматики (2)

• Пусть M – множество окрестностей над A ∪ {#}. Цепочка Xнепрерывна относительно M, если любое вхождение в X любогознака из A имеет окрестность из M.

• Множество цепочек, непрерывных относительно M, называетсяпростым окрестностным M-языком

• система U1 = aa, U2 = #a, U3 = ab задаёт язык a+b• система U1 = a, U2 = b задаёт язык (a|b)+

• M-языки являются автоматными языками (Борщев В. Б., 1967)

5

Синтаксические диаграммы (1)

Расширение идеи окрестностных грамматик:

• текст – “нелинейная” последовательность символов

• окрестностная грамматика – система ограничений,определяющая множество корректных текстов

• язык – множество текстов, задаваемых окрестностнойграмматикой

6


Простой окрестностный язык (ab)+a

• алфавит A = {a, b}

• отношение непосредственного предшествования ← ⊆ A× A

• U(a) = {a← b, b ← a, b ← a← b}, U(b) = {a← b ← a}

7


Контекстно-свободный язык:

1) КС-грамматика G = 〈V ,Σ,R, s〉, где V – нетерминалы, Σ –терминалы, R – правила, s ∈ V – начальный символ

2) диаграммы над алфавитом A = V ∪ Σ

3) множество отношений S = {SL, SP}, где• SL – отношение непосредственного предшествования,• SP – отношение “быть непосредственным потомком”

8


4) окрестностная грамматика

• U(a) = {a}, a ∈ Σ• U(A) для каждого A ∈ V , стоящего слева в правиле вида

A→ X1,X2, . . .Xn:

A

X1 �SL

�

SP

X2

SP

?� SL

. . . �SL Xn

SP

-

9


Тройка D = 〈A, Γ,F 〉, где

• алфавит A = {a1, a2, . . . , an}

• размеченный мультиграф Γ = {V ,R,S , f }, где• V – вершины• R – ребра, т.е. пары (u, v), где u, v ∈ V , u 6= v• S – пометки на ребрах (сорта)• f : R → S приписывает ребрам пометки

• F : V → A сопоставляет каждой вершине графа Γ символалфавита A

называется синтаксической диаграммой.

10


Даны две диаграммы D1 = 〈A, Γ1,F1〉, D2 = 〈A, Γ2,F2〉 надалфавитом A. Тройка отображений s = (sV , sR , sS), где sV : V1 → V2,sR : R1 → R2, sS : S1 → S2 таких, что

• F1(v) = F2(sV (v)) для всех v ∈ V1

• sS(f1(u, v)) = f2(sR(u, v)) для всех (u, v) ∈ R1

• sR(u, v) = (sV (u), sV (u)) ∈ R2 для всех (u, v) ∈ R1,

определяет включение диаграммы D1 в диаграмму D2 в качествеподдиаграммы.

11


Окрестность Da символа a ∈ A – это пара (Da, sa), где Da –синтаксическая диаграмма, а sa : a→ Da – включение диаграммы a,состоящей из одной вершины, помеченной символом a, в Da.

Окрестностная грамматика на множестве синтаксических диаграммD – это семейство окрестностей G = {Ga | a ∈ A,Ga ∈ D}

12


Синтаксическое покрытие диаграммы D – это семействоокрестностей GD = {Dv | v ∈ V ,Dv ∈ GF (v)} такое, что

• Dv – поддиаграмма D для всех вершин v диаграммы D

• svR(z(Dv )(v)) = z(D)(v), где z(D)(v) – звезда диаграммы D ввершине v

13

Теоретико-категорная трактовка композициональности

14

Категорное определение пучка (1)

Три варианта определения пучков:

• топологическое пространство (X ,O) и сечения F(U), U ∈ O(X )

• пучок непрерывных сечений накрытия (F̃ , p)

• контравариантный функтор F : Cop → Sets

. . . и соответствующие условия

15

Категорное определение пучка (2)

Категорное определение позволяет обобщить конструкцию:

• базовое пространство заменяется категорией

• понятие окрестности заменяется понятием решета

• топологическая структура заменяется топологией Гротендика

• топологическое пространство заменяется сайтом

16

Про pullback, уравнитель и аксиому пучка (1)

Pp2 - Y Q

q2 - Y

X

p1

?

f- Z

g

?X

q1

?

f- Z

g

?

Универсальное свойство:существует и единственна стрелка u : Q → P, q2 = p2 ◦ u и q1 = p1 ◦ u

17


Q

X ×Z Xp-

u

-

X

q

-

X

p

? f -

q

-Z

g

?

pullback можно охарактеризовать как уравнитель стрелок f и g

18


Pp - X

f -

g- Z

Q

u

6

q

-

• пусть f , g : X → Z , уравнитель Eq(f , g) = {x | f (x) = g(x)}

• пусть F = {fi : X → Z}, Eq(F ) = {x | fi , fj ∈ F , fi (x) = fj(x)}

19


Пусть X ,Y ∈ Ob(C ) и f , g ∈ Hom(X ,Y ).

Pp - X

f -

g- Y

Q

u

6

q

-

• f ◦ p = g ◦ p

• для любого объекта O ∈ Ob(C ) и стрелки q : Q → X ,q ◦ f = q ◦ g существует и единственна стрелка u : Q → P,p ◦ u = q

20


Аксиома пучка как уравнитель:

F(U) -∏i∈I

F(Ui )f -

g-

∏i ,j∈I

F(Ui ×U Uj)

Интуиция: стрелки в категории можно рассматривать не как“функции”, а как “аппроксимацию”; все сечения составлены изодного “материала”.

21


В категории топологических пространств Top:

• Ui ×U Uj – это Ui ∩ Uj ,

•∏

i∈I F(Ui ) = F(U1)×U F(U2)×U . . .×U F(Un), т.е.⋂

i∈I F(Ui ).

Поэтому для пучка F : O(X )op → Sets можно записать так:

F(U) -⋂i∈I

F(Ui )f -

g-

⋂i ,j∈I

F(Ui ∩ Uj)

22


Пучок множеств F над топологическим пространством (X ,O(X )) –это функтор F : O(X )op → Sets, для любого покрытия U =

⋃i∈I Ui

порождающий уравнитель

F(U)e -

∏i∈I

F(Ui )f -

g-

∏i,j∈I

F(Ui ×U Uj)

т. е. для любого t ∈ F(U), e(t) = {t|Ui | i ∈ I} и семейства ti ∈ F(Ui )

f ({ti}) = {ti |Ui∩Uj }, g({ti}) = {tj |Ui∩Uj }

23


F(U)e - F(Ui ) ∩ F(Uj)

f -

g- F(Ui ∩ Uj)

• Ker(F(Ui )∩F(Uj) 7→ F(Ui ∩Uj)) – это множество точек в U, несодержащихся одновременно в Ui и Uj

24

Окончание следует

25

Спасибо!

Education

NLU/RG: Окрестностная грамматика (начало)