81

Компьютерная лингвистика

  • Upload
    -

  • View
    236

  • Download
    1

Embed Size (px)

DESCRIPTION

Шемакин Ю.И.

Citation preview

Page 1: Компьютерная лингвистика
Page 2: Компьютерная лингвистика

Ю.И.Шемакин НАЧАЛА КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ МОСКВА Издательство МГОУ А/О "Росвузнаука" 1992

Page 3: Компьютерная лингвистика

ББК «1.1 Ш 21 '

УДК 519.76:007 Шемякин Ю.И. Начала компьютерной лингвистики: Учеб. пособие. М.: Иэд-

во МГОУ, А/О "Росвузнаука", 1992. ISBN 5-7045-0132-Х В учебном пособии определяется предмет компьютерной лингвистики,

даются его основные понятия. Рассматриваются как традиционные в лингвистике подходы к описанию естественного языка и его моделирования средствами вычислительной техники, так и результаты исследований, проведенных в последнее время.

Пособие предназначено для студентов и слушателей факультетов повышения квалификации, обучающихся по специальности "Информатика и вычислительная техника", не имеющих специальной лингвистической подготовки.

Рекомендовано Редакционным советом издательства • Научный редактор д.т.н..проф.В.И.Дракин Рецензент д.т.н.,проф.А.И.Китов Ш 460201000/096(02)-92 Без объявления ББК 81.1

ISBN 5-7045-0132-Х (с) Ю.И.Шемакин, 1992

Page 4: Компьютерная лингвистика

ВВЕДЕНИЕ Широко распространено мнение, что компьютеры - это математические

машины, предназначенные для выполнения численных расчетов. В действительности компьютеры представляют собой языковые машины. Их

сильной стороной является способность манипулировать лингвистическими знаками, которым приписан некоторый смысл.

Естественный язык занимает центральное место в информатике. Ранние работы в этой области были связаны с автоматизацией раскрытия военных шифров. В 50-е годы усилия были направлены на разработку автоматических переводчиков о одного естественного языка на другой. И хотя первоначальная цель так и не была достигнута, эти работы серьезно продвинули решение проблемы естественно-языкового общения с ЭВМ. В настоящее время разрабатываются грандиозные проекты по использованию естественного языка в качестве средства "общения" с компьютерами.

Некоторые программы ук§ успешно функционируют. Масса компьютеров хотя бы частично используется для текстовой обработки.

В то же время попытки научить компьютер "разговаривать" столкнулись с большими трудностями. Лучшие из систем демонстрируют лишь жалкое подобие лингвистических способностей среднего ребенка.

Новый прилив энтузиазма в применении естественного языка вызвали работы по искусственному интеллекту и ЭВМ пятого поколения. Интеллектные системы оперируют знаниями. Знания образуют когнитивную сторону компьютерных систем.

Существует строгая последовательность зависимостей: компьютер - программа - знания - язык, в которой на одном конце находится компьютер, на другом - язык.

С момента появления ЭВМ между ней и человеком возник семантический барьер, который на воем протяжении развития средств вычислительной техники подвергается атакам специалистов. Уменьшение разрыва идет, с одной стороны, по пути от машино-ориентированных кодов через алгоритмические языки, языки логических преобразований в направлении к логико-семантическим и семантическим языкам. Последние два базируются на идеях искусственного интеллекта и таким образом включаются в модели познавательного процесса. С другой стороны, уменьшение разрыва идет по пути поиска новых методов обработки естественного языка. В настоящем пособии указанная проблема рассматривается с точки зрения второго подхода.

Одной из главных задач, стоящих перед создателями интеллектных систем, является извлечение из естественного языка его концептуального содержания и придания -ему такой формы, которая позволила бы ввести его в компьютер для дальнейшей обработки, следуя заданной цели.

Традиционное филологическое изучение языка мало, что предложило создателям интеллектных систем. Более плодотворным оказалось обратное влияние, открывшее в языке аспекты, которые ранее ускользали от внимания лингвистов и которые потребовали нового подхода к изучению языка.

В последние годы сформировалось новое направление исследований по реализации на ЭВМ теоретических лингвистических моделей, получившее название компьютерной лингвистики (Coling).

Coling, обычно переводится на русский язык как "вычислительная лингвистика". Как отмечает Г.С. Поспелов в работе "Искусственный интеллект - основа новой информационной технологии" (М.,1988),"это неверно по существу, если иметь в виду, что современные ЭВМ все чаще оперируют лингвистическими символьными преобразованиями, когда каждый символ получает внутреннюю

Page 5: Компьютерная лингвистика

интерпретацию". От традиционных методов обработки естественного языка компьютерная

лингвистика отличается тем, что в первом случае внимание сосредоточено на моделировании всего того, что изучает лингвистика в целом, тогда как во втором основное внимание обращается на расчленение процесса понимания языка и на теоретическую лингвистическую корректность и адекватность предложенных моделей.

Компьютерная лингвистика тесно связана с центральной проблемой искусственного интеллекта - электронным представлением знаний.

Основная задача компьютерной лингвистики - построение логико-лингвистических моделей и соответствующих им алгоритмов и программ.

В предлагаемом пособии отражены как традиционные в лингвистике подходы к описанию естественного языка и устоявшиеся взгляды по его моделированию средствами вычислительной техники, так и оригинальные результаты исследований, проведенных в последнее время.

Автор выражает благодарность специалистам по структурной и прикладной лингвистике А.В.Сорокиной и Т.В.Голован, которые выполнили большую работу при подготовке рукописи к изданию, а также О.Л.Васильевой за прочтение рукописи и включение примеров, улучшивших восприятие материала.

Page 6: Компьютерная лингвистика

ГЛАВА 1. ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ЯЗЫКЕ

1.1. Язык и мышление Проблема мышления и языка - классическая проблема философии,

психологии и языкознания. Мышление имеет общечеловеческий характер в настоящем и на протяжении

всей своей истории, иначе был бы невозможен контакт между различными человеческими коллективами, переводы с одного языка на другой, будь то языки современные или мертвые. В то же время основное средство выражения мышления, его содержания чрезвычайно многообразно: только в наше время на земном шаре насчитывается около трех тысяч языков, обладающих своими особыми структурами и системами. Это обстоятельство говорит о сложности и противоречивости связей языка и мышления, закономерности которых далеко не познаны.

Стремление установить изоморфизм между языком и мышлением возникло еще в Древней Греции. Так, в концепции стоиков возникло противопоставление "формы" "значению". Аристотель выделял, с одной стороны, грамматические категории (например, имя, глагол, союз), с другой стороны, их соответствие в мысли (предмет мысли - субъект; логическая связка и т.д.).

Анализ соотношения языка и мышления часто сводится к изучению соотношения олова и понятия, предложения и суждения, сложного предложения и умозаключения, причем основным объектом являлось изучение соотношения предложения в качестве языковой единицы с суждением как формой мышления. При таком подходе мышление (процесс) подменялось анализом свершившейся мысли, ибо суждение и предложение предстают перед нами как свершившиеся акты.

Язык - это система знаков, служащая для хранения, переработки и передачи информации. Язык - это условие для осуществления мышления и средство, позволяющее хранить мысли, уже сформировавшиеся в процессе мышления, и передавать их. Такое понимание языка с одной стороны, избавляет от отождествления языка с мышлением, с другой, - от их разъединения.

Новый подход к решению вопроса о психической деятельности (и как части его - вопроса о соотношении языка и мышления) может дать кибернетическая теория, составными частями которой являются понятия системы, принцип обратной связи и понятие информации. Под системой понимается совокупность некоторого количества одинаковых и различных элементов, объединенных между собою в единое целое посредством связей. Связь - это воздействие элементов системы друг на друга. Воздействие может измеряться изменением структуры во времени и пространстве. Это изменение физического воздействия во времени и пространстве, взятое отдельно от физического носителя, называется информацией. Информация - это сведения, являющиеся объектом хранения, передачи, преобразования. Выделить информацию из воздействия может только сложная система, способная отразить ее в собственной структуре в виде модели. Таким образом, информация о внешнем мире у человека отражается, хранится и преобразуется в коре головного мозга в виде моделей и структур. Физиологической основой этого отражения являются нервные сенсорные клетки»- аксоны. В коре головного мозга образуются словесные структуры или семантические поля. Каким же образом происходит процесс мышления, или, говоря языком кибернетики, процесс переработки информации в человеческом мозгу? При функционировании (передаче сообщения одним индивидуумом и принятие этого сообщения другим)язык представляет собой речь в виде дискретной, протекающей во времени цепочки звуков. Процесс восприятия

Page 7: Компьютерная лингвистика

звуковой речи - это процесс извлечения информации из звуков речи. Орган олуха воспринимает колебания воздуха, кодирует их непрерывными импульсами, которые направляются в кору головного мозга. На первом этапе в коре головного мозга формируется "модель звуков" из запаса звуков, которые Н.И. Жинкин называл "устойчивой решеткой фонем".

Отметим, что звуковая речь дала громадный толчок к развитию мышления. Образы, понятия, возникающие в мозгу человека, получили материальную опору в виде комбинации звуков.

В долговременной памяти человека хранятся модели слов, которым соответствуют определенные комплексы клеток.

В результате сравнения информация кодируется новым кодом - кодом слов и передается на следующий этап коры.

Там формируется новая модель информации, записанная уже более экономным кодом слов, снова производится сравнение с моделями кода, на сей раз - кода фраз, и информация передается на следующий этап. Там произойдет то же самое: выделение и моделирование высшего кода - смысла. На каждом этапе информация становится все более общей, абстрактной, но занимает все меньше места в памяти1.

1.2. Язык как знаковая система Каждый язык рассматривается как система отношений (или, более точно,

как совокупность взаимосвязанных систем), элементы которой (звуки, слова и т.д.) имеют значимость лишь постольку, поскольку они находятся друг с другом в отношениях эквивалентности или противопоставления.

Языковой знак - это двусторонняя психическая сущность, изображенная на рис.1.1.

Рис. 1.1.

Языковой знак связывает понятие и акустический образ. Эти два термина удобно заменить терминами "означаемое" и "означающее". Языковой знак произволен. Это значит, что, например, понятие "стол" не связано никаким внут-ренним соотношением с последовательностью звуков "с-т-о-л", служащей в русском языке его означающим, оно могло бы быть выражено любым другим сочетанием звуков.

Означающее, воспринимаемое на слух, имеет линейный характер и располагает лишь линией времени; его элементы следуют один за другим, образуя цепь.

1.3. Язык и речь Противопоставление язык - речь (langue - parole) позволяет устранить

неоднозначность в употреблении олова "язык". Принято считать, что носители одного и того же языка, например, русского, имеют один общий язык (langue), а

1 Амосов Н.М. Моделирование мышления и психики. Киев, 1965.

Page 8: Компьютерная лингвистика

те высказывания, которые они произносят, когда говорят на своем языке, - это случаи речи (parole).

Высказывания - это случаи речи, а предложения - единицы языка. Язык - социальное явление, а речь - индивидуальное. На первое место в характеристике языка Соссюр ставит его социальный

характер. Соссюр пришел к выводу, что социальное в языке – это, прежде всего,

семиологическое. К речи Соссюр относит три ряда явлений: 1) звуковое пополнение, т.е. реализацию означающего при помощи голоса; 2) способность ассоциации звукового образа с идеей в зависимости от

определенной ситуации; 3) способность сочетания знаков, т.е. конструирование фраз. Взаимозависимость двух сторон речевой деятельности: язык вос-

принимается, анализируется, регистрируется через речь. Существует три разряда определений противопоставления язык - речь. 1.) Гносеологические: общее - частное; абстрактное - конкретное; сущность -

явление; содержание - форма и т.п. 2.) Онтологические (о точки зрения предметных свойств;: 1) психическое -

физическое, виртуальное - активное и т.п. 2) система - текст, парадигматика - синтагматика; система - функция;

3.) однородное - неоднородное; 4.) инвариант - варианты, норма - отклонение и т.п. 5.) целое - часть; 6.) процесс - квант процесса; 7.) сознание - мышление. 3. Прагматические (с точки зрения сферы применения и характера

использования языка и речи): 1.) социальное - индивидуальное, средства общения - процесс общения, 2.) узуальное - окказиональное; 3.) код и сообщение, набор моделей и система сигналов, порождающее

устройство и его функционирование и т.п.

1.4. Языковая структура. Уровни языка Рассмотрение языка как системы предполагает взаимосвязь и

взаимообусловленность ее частей. Многие лингвисты полагают, что части системы соотносятся в виде иерархии уровней. Единицы каждого уровня - фонологического, морфологического, лексического, синтаксического - обладают набором присущих им свойств и качеств, отличающих их от единиц других уровней, с одной стороны, и связывающих их с единицами остальных уровней, с другой.

Page 9: Компьютерная лингвистика

ГЛАВА 2. ФОНЕТИКА

2.1. Звуковой характер языка Важнейшей особенностью языка как средства общения между людьми

является его звуковой характер. Наука, изучающая звуковую сторону языка, называется фонетикой (гр. phone - звук).

2.2. Фонетические единицы Все фонетические единицы делятся на две группы: сегментные и

суперсегментные. Сегмент - долька, кусочек. Так, в слове "дом” звуки "д", "о", "м" - отдельные его доли. Звуки - это сегментные фонетические единицы. Под звуком речи понимается кратчайшая, минимальная, нечленимая звуковая единица,, которая выделяется при последовательном звуковом чтении слова. Звуки языка/, все вместе, составляют систему.

К суперсегментным средствам русского языка относятся такие средства, как, например, словесное ударение, которое разграничивает олова и формы слов, одинаковые по звуковому составу (руки - руки); фразовое ударение, которое различает предложения по значению при одинаковом составе и порядке слов (Снег идет и Снег идет); интонация, различающая предложения с одинаковым составом слов при одинаковом фразовом ударении (Снег тает и Снег тает?).

2.3. Артикуляционная и акустическая классификации звуков. Механизм звукообразования

Звуковые единицы каждого языка могут быть охарактеризованы как о точки зрения образования (артикуляционные свойства), так и о точки зрения звучания (акустические свойства) и восприятия (перцептивные свойства).

Речевой аппарат человека включает в себя дыхательные органы (легкие, бронхи и дыхательное горло), голосовые связки источник звуковых колебаний), ротовую, и носовую полости, являющиеся резонаторами. Все органы речи, находящиеся в ротовой полости, можно разделить на две группы: активные - те, которые двигаются пассивные - те, которые не двигаются при произнесении звуков. К активным органам относятся язык, губы, увула; к пассивным - зубы, альвеолы, твердое небо, мягкое небо. Артикуляционная классификация звуков рассматривает их с точки зрения способа и места образования. Звуки делятся на гласные и согласные. При произнесении гласных воздушная струя не встречает препятствия в ротовой полости, при произнесении согласных в ротовой полости имеется препятствие. Согласные по месту образования делятся на губные (губно-губные и губно-зубные, соответственно п,б,м и в,ф), переднеязычные (зубные - с,з,л,т,д,ц,н и др.; передненебные - ж,ш), среднеязычные и заднеязычные (к, х, г и др.).

По способу образования (по виду препятствия в ротовой полости) согласные делятся на смычные (например т,д) и щелевые (например ш,ж). Подробно об артикуляционной классификации согласных можно прочесть в книге М.В.Панова "Современный русский язык. Фонетика" (М.,1979).

Page 10: Компьютерная лингвистика

Рис.2.1. Гласные звуки русского языка характеризуются о точки зрения их ряда и

подъема. Система гласных приведена в табл.2.1. Таблица 2.1

Артикуляционная классификация описывает движение языка, губ, увулы, голосовых связок. Акустическую сторону звука описывают при помощи акустической классификации. Рассмотрим механизм образования звука (рис.2.1).

Дыхательные органы служат для передачи звуковых колебаний, возникающих в артикуляционном аппарате, во внешнюю среду. Воздушная струя, выходящая из легких, участвует также и в образовании самих звуковых колебаний, имеющих различную природу в зависимости от того, каков источник этих колебаний. Источником колебаний при образовании речи, прежде всего,

Подъем Ряд Верхний Средний Нижний

Передний и э -

Средний ы ъ а

Задний у о -

Page 11: Компьютерная лингвистика

являются голосовые связки: их колебания образуют основной тон голоса. Кроме основного тона, звук, возникающий в результате колебаний голосовых связок, содержит большое количество гармоник. Возможны и другие источники звука - шумовые: турбулентный (образующийся при сужении в каком - либо месте артикуляционного тракта; и импульсные (когда происходит резкое прерывание воздушной струи).

В процессе речеообразования огромную роль играет явление резонанса. Резонаторами являются надгортанные полости: носовая, ротовая, полость глотки. Их собственные частоты могут существенно изменяться в зависимости от конфигурации речевого тракта. Источник звука вызывает в системе резонаторов собственные колебания. Собственные частоты резонаторов особенно усиливаются в акустической картине звука. Эти усиленные частоты называют формантами звука, так как они формируют специфическое звучание каждого гласного и согласного. 12

Современная аппаратура позволяет измерить объективные характеристики звука - частоту и амплитуду колебаний, т.е. получить спектр звука, охарактеризовать звук о точки зрения времени его звучания.

Сравнив спектры звуков, мы легко можем увидеть их отличительные особенности. На рис.2.2 приведены изображения: частота основного тона и первые две форманты спектров гласных.

Page 12: Компьютерная лингвистика

Рис.2.2.

Акустическая классификация позволяет охарактеризовать звуки при помощи

девяти бинарных признаков: 1) вокальность - невокалъность; 2) консонантность - иеконсонантность; 3) диффузность - компактность (определяется близостью формант друг к

другу); 4) бемольность - небемольность (понижение формант; определяет

огубленность звука); .1 5) высокая тональность - низкая тональность; 6) диезность - недиезность; 7) прерванность - непрерывность; 8) резкость. - нерезкость; 9) звонкость - глухость. Значения этих признаков для каждого звука можно определить, пользуясь

спектрограммами звуков. (Подробнее об акустической классификации см. в книге Якобсон P.O., Фант

Г., Халле М. Введение в анализ речи//Новое в зарубежной лингвистике. Вып.2. М.,1962).

2.4. Фонология. Понятие о фонеме Раздел фонетики, изучающий, функционирование звуков в языке,

называется фонологией. Для обозначения звука, когда он рассматривается со стороны фонологической, пользуются термином фонема.

Как правило, звуковые оболочки слов и их форм различны, если исключить омонимы. Слова, имеющие одинаковый звуковой состав, могут различаться местом ударения: муку - муку или порядком следования одинаковых звуков: кот - ток.

Слова могут содержать и такие наименьшие, далее нечленимые единицы речевого звучания, которые самостоятельно разграничивают звуковые оболочки слов и их форм, например: бак, бок, бук; в этих словах звуки а, о, у различают звуковые оболочки этих слов и выступают как фонемы. Следовательно, фонема служит для различения звуковых оболочек слов и их форм. Фонемы дифференцируют не значение слов и форм; а лишь их звуковые оболочки, указывают на различия в значении, но не раскрывают их характера.

2.5. Звуки и буквы. Понятие об алфавите Звуки на письме обозначаются с помощью букв. Совокупность букв,

Page 13: Компьютерная лингвистика

расположенных в традиционно установленном порядке, называется алфавитом (гр. alphabetic) от названия первых двух греческих букв (�. - альфа и � - бета аналогично азбука - от аз и буки. Алфавиты предназначены для записи слов и выражений.

Алфавиты возникли в конце II тысячелетия н.э. в древнейших звуковых системах письма - угаритской и финикийской; предполагают, что еще раньше существовала система перечисления египетских иероглифов.

Большинство современных национальных систем письма основываются на латинской (базовой системе письма народов); славяно-кирилловском (система письма большинства народов России арабском (всех арабских стран); индийских слоговых (применяемых многими народностями Индии).

Кроме алфавитов естественных языков существует большое разнообразие алфавитов искусственных языков, в том числе машинно-ориентированных.

Так, согласно ГОСТ 13052-74 и ГОСТ 19767-74, символы алфавита учитывают возможности технических средств ВС ЭВМ и включают систему графических знаков, обозначающих буквы, цифры, логические операции) операции отношений, символы процедур обработки и т.п.

Page 14: Компьютерная лингвистика

ГЛАВА 3. МОРФОЛОГИЯ

3.1. Основные понятия. Морфема. Виды морфем Единицей морфологического уровня является морфема - минимальная

значащая часть высказывания и одна из основных единиц языковой системы, обладающая свойством значимости.

Например, "друг" = "друг" - "друж" - "друз" в словах "друг", "дружеский", "друзья".

По положению в системе языка морфемы делятся на свободные, способные выступать в виде самостоятельного слова (например, морфема "тих" в русском языке); связанные, встречающиеся только как часть слова (например, морфема "ая"), и относительно связанные, проявляющие себя в одних случаях как первые, в других - как вторые (например морфема "до" в "долететь до реки").

По выполняемым функциям морфемы делятся на служебные (аффик-сальные) и неслужебные (корневые), первые обычно связаны, вторые - свободны. Число первых, как правило, ограничено несколькими десятками, число вторых не ограничено.

По типам определяемых значений аффиксальные морфемы делятся на следующие: деривационные (словообразовательные), например суффикс "ик1';

реляционные (словоизменительные), например окончание "ы"; реляционно-деривационные (формообразующие), например суффиксы

причастий - ащ, ящ, ущ, ющ. Морфология - часть системы естественного языка, обеспечивающая

построение и понимание его словоформ. Основные проблемы, стоящие перед морфологией, можно отнести по

следующим четырем: 1) инвентаризация и исследование некоторых значений, выраженных в

разных языках в пределах словоформ; 2) инвентаризация и исследование способов, применяемых в различных

языках для выражения тех или иных значений в пределах словоформ; 3) инвентаризация и исследование возможных формально-смысловых

отношений между словоформами или частями словоформ; 4) разработка общей теории морфологических моделей, которые создаются

частными моделями, в том числе построение системы понятий, установление правил морфологического членения словоформ, определение типов морфологических правил.

Слово - важнейшая структурно-семантическая единица языка, служащая для обозначения предметов, процессов, свойств. В структурном отношении слово состоит из морфем, от которых оно отличается самостоятельностью и свободным воспроизведением речи и представляет собой строительный материал для предложения, в отличие от которого не выражает сообщения.

Объединяя в себе лексическое и грамматическое значение, слово принадлежит к определенной части речи, выражает в своем составе все предопределяемые системой данного языка грамматические значения, а в языках со словоизменением представляет собой совокупность его грамматических форм

В словах закрепляются результаты познавательной деятельности человека, без слов не возможны не только выражение и передача понятий и представлений, но и самое их оформление.

Значение слова выступает как обобщенное отражение обозначаемого им объекта.

В речи олово может обозначать как весь класс данных объектов, так и отдельного представителя данного класса.

Page 15: Компьютерная лингвистика

Словоформа - термин, обозначающий конкретное олово в конкретной грамматической форме.

.Словоизменение - образование для каждого олова (кроме слов, относящихся к неизменяемым частям речи) его парадигмы, т.е. всех его словоформ и всех его аналитических форм. При словоизменении тождество слова (лексемы) не нарушается (т.е. мы имеем дело с одним и тем же словом в разных грамматических формах).

3.2. Формальные модели морфологии Формальные модели морфологии отражают структуру слова, правила

изменения слов, способы выражения грамматических значений и способы словообразования.

С точки зрения машинной обработки информации наибольший интерес представляют модели морфологии, раскрывающие смысл слов. Смысл слов раскрывается при их употреблении во взаимодействии.

С этих позиций важным понятием является синтагма (гр. syntagma -нечто соединенное).

Это семантико—синтаксическая единица речи, образуемая группой слов в составе предложения, объединенных в смысловом отношении.

Два слова считаются связанными друг с другом, если имеют хотя бы один общий семантический множитель (компонент).

Под семантическим множителем понимаются элементарные единицы содержательного плана, которые, соединяясь друг с другом в различных количествах и комбинациях, задают значения любого олова в языке.

Так, сочетание семантических элементов - "знание (друг друга)" "взаимопонимание", "духовная близость", "взаимная преданность", "готовность к взаимопомощи", "эмоциональная расположенность", "стремление к личным контактам" - определяет смысловое ядро слова "друг", а добавление к ним множителей - "имя существительное", "мужского рода", "одушевленно" - позволяет однозначно идентифицировать это олово русского языка.

Семантические множители (семантические признаки, семантические маркеры и т.п.>.возникают в предположении о дискретности семантического пространства языка. Набор элементов этого пространства конечен и обозрим, а число их комбинаций является бесконечным.

Их общие черты: элементарность; принадлежность к плану содержания; универсальность. Установление связанности двух входных слов по наличию общего

семантического множителя на выходе лежит в основе автоматического анализа содержания текста и построения тезауруса, когда связь между предположениями устанавливается при нахождении в них хотя бы одного общего или нескольких слов, связанных друг с другом отношением "род - вид" или "часть - целое".

Для построения тезауруса словник "просеивается" через дескрипторы и в соответствии с моделью связанности слова, имеющие общие семантические множители с данным дескриптором, приписываются к этому дискриптору - входят в его семантическое поле, образуя словарную статью тезауруса.

Чтобы установление общности семантических множителей в этом процессе могло осуществляться автоматически, т.е. с помощью ЭВМ, множители должны быть приведены к сравниваемому виду.

Для этого выполняется предварительная лемматизация (приведение формы слова к "каноническому" виду). Затем осуществляется кодирование

Page 16: Компьютерная лингвистика

семантической информации в выделенной дефиниции (определении) с учетом наибольшей информативности согласных букв в русском слове.

Душ нейтрализации словоизменительных и словообразовательных отношений начало олова оставляют без изменений, а сокращению и усечению подвергается правая часть, в результате чего происходит как бы сдвиг смысла влево, концентрация его на начале олова. Такой прием кодирования назван лексикализацией.

Лексикализация позволяет не считать релевантными различия между частями речи, образованными от одного корня, и некоторые другие словообразовательные отношения. Таким образом, получаемый сегмент не является ни корнем слова, ни его основой, которые представляют собой по сути дела прежде всего единицы (и понятия), обусловленные генетически и уж в последнюю очередь - семантически. Сегмент - исключительно семантический идентификатор слова, он выполняет одну-единственную функцию: быть единицей смысла, однозначным средством для опознания семантики слова.

При кодировании необходимо стремиться: к минимизации числа букв в коде; максимальной способности сегмента к дифференциации; максимальной

различительной силе. Требования эти противоречивы, если учесть к тому же необходимость

однозначного декодирования.

3.3. Морфологические словари Словарь - это сборник слов, расположенных в алфавитном порядке, с

пояснениями, толкованиями или переводом на другой язык. Словари бывают различного назначения. Морфологический (лингвистический) словарь - это словарь, в котором дается разъяснение значения и употребления слов и их грамматических категорий.

Грамматическая категория (гр. Kategoria - суждение, определение) - это совокупность однородных грамматических значений: значения падежей объединяются в категорию падежа; значения отдельных форм времени объединяются в категорию времени и т.д.

Грамматическая категория относится к грамматическому значению как общее к частному.

Наиболее крупные лексико-грамматические разряды (классы) слов, объединенных общими семантическими и морфолого-синтаксическими признаками, - категория глагола и категория наречия.

Page 17: Компьютерная лингвистика

ГЛАВА 4. .СИНТАКСИС

4.1. Основные понятия. Синтаксис (гр. syntaxis - составление) - раздел грамматики, изучающий

внутреннюю структуру и общие свойства предложения. Синтаксис включает в себя учение о словосочетании и учение о

предложении. С точки зрения избранного способа исследования различают: динамический

синтаксис, изучающий предложение как коммуникативную единицу, связанную о ситуацией речи, обладающую определенной интонационной характеристикой и порядком слов как средством выражения актуального членения. Коммуникативный синтаксис изучает актуальное и синтаксическое членение предложения, функционирование словосочетаний в предложении, коммуникативную парадигму предложений, а также типологию высказываний;

статистический синтаксис, изучающий структуры, не связанные о контекстом и ситуацией речи, предложение (как предикативную единицу) и словосочетание (как непредикативную единицу).

Синтаксис текста изучает различного рода высказывания, связанные о ситуацией речи, а также строение текста, выходящего за пределы сложного синтаксического целого.

функциональный синтаксис изучает роли (функции) всех синтаксических средств в построении связной речи.

К основным синтаксическим концепциям относятся следующие: синтаксическая конструкция - соединенное по правилам грамматики целое,

состоящее из слов, словосочетаний, предложений; синтаксическая пауза - определенное синтаксическое отношение между

разделяемыми ею частями предложения; синтаксическая связь - связь слов, служащая для выражения

взаимозависимости элементов словосочетания и предложения; синтаксические категории - зависимости одних форм высказывания от

других (падеж у существительного; число, род у прилагательного; синтаксические отношения - отношения между синтаксическими единицами

(словами в словосочетании и предложении). В словосочетании это атрибутивные, объектные обстоятельственные

отношения, а в предложении - еще и предикативные, полупредикативные и аппозитивные отношения;

предикативное отношение - это отношение между подлежащим как носителем признака и сказуемым как выражением признака, Предикативные отношения в предложении отражают отношение между субъектом и предикатом суждения;

полупредикативные отношения - отношения между обособляемым второстепенным членом и тем оловом в основной части предложения, которое поясняется обособленным членом;

аппозитивные отношения - отношения между приложением и определяемым словом, выражающие качество, свойство предмета, родовой признак и т.п.

Таким образом, предметом рассмотрения синтаксической науки являются две структуры: словосочетание и предложение.

4.2. Словосочетание 'Это соединение двух или более знаменательных слов, связанных по смыслу

и грамматически, выражающее единое, нерасчлененное понятие и

Page 18: Компьютерная лингвистика

представляющее собой сложное наименование явлений объективной реальности. Существуют различные классификации словосочетаний. Их тип зависит от

задач исследования и конкретной области его применения. Словосочетания различаются по степени спаянности компонентов и

структуре/ По этому признаку они делятся на два типа: синтаксически свободные. Это словосочетания, которые легко разлагаются на доставляющие их части: писать - письмо, деревья - зеленые; синтаксически несвободные, образующие нерасторжимое синтаксическое

целое: железная дорога, бить баклуши. Более простая база для классификации - деление словосочетаний по их

составу: простые, состоящие, как правило, из двух знаменательных слов; одно из

которых является главным, а другое - зависимым. Простое словосочетание может быть и не двусловным, если распространение главного олова производится с помощью цельного синтаксического или фразеологического согласования, а также посредством аналитической грамматической формы;

сложные представляют собой распространение олова целым сло-восочетанием или распространение словосочетания другим словом. В таких словосочетаниях обычно зависимее члены определяет главное с разных сторон.

Возможна классификация словосочетаний по главному олову. Различают глагольные, именные и наречные словосочетания.

Лексико-семантическая функция словосочетания как номинативная единица - это сложное наименование предметов и явлений.

Словосочетание, как и олово, служит строительным материалом для предложения. Не считаются словосочетаниями пары, образуемые подлежащим и сказуемым, обособленный оборот и определяемое им олово, груша однородных членов.

4.3. Предложение Предложение - минимальная единица человеческой речи, представляющая

собой грамматически организованное соединение слов, обладающее смысловой и интонационной законченностью.

Будучи единицей общения, предложение является единицей формирования и выражения мысли, в чем проявляется единство языка и мышления.

Предложение можно, соотнести с логическим суждением, но нельзя отождествить с ним, так как не всякое предложение выражает суждение, тогда как любое суждение выражено предложением.

Предложение может содержать вопрос, побуждение, соотносительные не с двухкомпонентным суждением, а с другими формами мышления.

Отражая деятельность интеллекта, предложение служит для выражения эмоций и волеизлияний.

Грамматическую основу предложения образует предикативность, складывающаяся из категорий времени, лица, модальности и интонации сообщения.

В.В.Виноградов определяет предложение как грамматически оформленную по законам данного языка целостную единицу речи, являющуюся главным средством формирования, выражения и сообщения мысли.

Различные практические нужды выявляют различные классификации предложений. Наиболее распространенные и традиционные из них следующие:

простое предложение, имеющее в своем составе одну предикативную

Page 19: Компьютерная лингвистика

единицу, т.е. оно не делимо на части, которые в свою очередь могли бы образовать предложение;

сложное предложение, состоящее из двух или нескольких частей, по форме однотипных с простым предложением, но образующие единое смысловое, конструктивное и интонационное целое. Единство и целостность сложного построения создается синтаксическим строением частей, порядком их следования, соотношением форм глаголов-сказуемых.

4.4. Синтаксические отношения Синтаксические отношения в словосочетании и предложении выражаются

различными способами: формой слова. При помощи окончания оформляется связь и выражаются

отношения между компонентами словосочетания и между членами предложения; служебными словами - предлогами и союзами; порядком слов в предложении; интонацией в предложении. Показатели синтаксических связей бывают двух типов: формально-

синтаксические и семантико-синтаксические. Первые лишены семантического содержания. Они указывают лишь на то, с каким элементом предложения следует связать данное слово. Вторые значимы. Они сигнализируют о функциях, выполняемых в данной ситуации объектами, обозначенными соответствующими словами.

Сама по себе связь элементов в предложении и словосочетании делится на подчинительную и сочинительную.

Сочинительная связь возникает между синтаксически равноправными единицами. Эти отношения обратимы, показатели отношений находятся между ними, не сливаясь по значению ни с одним из них. Сочинение предложений осуществляется сочинительными союзами.

Подчинительная связь возникает между двумя синтаксически не-равноправными словами в словосочетании и предложении: одно из них выступает как главное, другое - как зависимое. В сложном предложении подчинительная связь существует между главным и придаточным предложением.

4.5. Управление. Согласование. Примыкание Различают три вида подчинительной связи: согласование, управление и

примыкание. Управление - вид подчинительной связи, при котором зависимое олово

ставится в определенной падежной форме (с предлогом или без него), обусловленной лексико-грамматическим значением главного олова или смыслом высказывания.

Можно выделить следующие виды управления. 1. В зависимости от характера связи между главным и зависимым словами: сильное управление выражается в том, что главное слово для реализации

определенного значения в распространении падежной формой присуще в основном переходным глаголам, например "проверить работу";

при слабом управлении связь между главным и зависимым словом не является обязательной, необходимой для реализации его значения, например, "занятия закончились в два часа" и "занятия закончились". В ряде случаев слабое управление граничит с примыканием, например "повторил два раза" и "повторил двукратно".

2. В зависимости от наличия или отсутствия предлога перед зависимым словом различают управление безпредложное (непосредственное), например

Page 20: Компьютерная лингвистика

"достойный награды", и управление предложное: "вера в победу". 3. В зависимости от морфологической природы господствующего слова

различают: глагольное управление ("учить примером"); приадъективное управление ("довольный ответом"); принаречное управление (“cделать не хуже других"); присуостантивное управление ("составление проекта"). Согласование - вид подчинительной связи, при котором зависимое слово

уподобляется в выражении грамматических значений господствующему олову: "новый район", "в новую квартиру", "к новым домам".

При согласовании неполном используются не вое возможные морфологические средства уподобления форм зависимого слова формам господствующего слова: "вижу мальчика улыбающимся" (согласование оп-ределения "улыбающимся" с определяемым существительным "мальчика" в роде и числе, но не в падеже; сравните устаревшую конструкцию "вижу мальчика улыбающегося" с полным согласованием).

При согласовании полном используются вое возможные морфологические средства уподобления форм зависимого олова формам господствующего слова: "летним вечером" (согласование в роде, падеже и числе); "последние известия'.' (согласование в падеже и числе); результаты известны" (согласование в числе).

Грамматическое согласование предполагает соответствие форм определяющегося слова формам определяемого олова. Например, постановка сказуемого в форме единственного числа при подлежащем, в состав которого входит имя существительное собирательное с количественным значением (большинство, меньшинство, ряд и т.п.): "большинство людей молчало", "ряд проблем решен".

Примыкание - вид подчинительной связи, при котором зависимость подчиненного олова выражается лексически, порядком слов и интонацией. Примыкают неизменяемые знаменательные слова (наречие, инфинитив, деепричастие): "внимательно слушать", "собираться уехать”, "идти не оглядываясь". Примыкание имеет место в глагольных словосочетаниях ("много работать", "попросить подождать", "говорить улыбаясь"), в словосочетаниях с главным словом - именем существительным ("желание учиться"), именем прилагательным ("весьма интересный"), наречием ("очень далеко", "слишком поздно").

4.6. Коммуникативная организация предложения Синтаксис был определен как грамматическое учение о связной речи. Он

начинается там, где есть связная речь с комплектацией лексических единиц в рамках словосочетания и предложения. Комбинация лексических единиц осуществляется по вполне определенным законам и моделям. Синтаксические модели принадлежат языку только как абстрактные модели. Их конкретное наполнение лексикой бесконечно разнообразно и относится к речи.

Интонационно различают следующие типы предложений: вопросительное, побудительное, повествовательное; интонация выражает разные оттенки побуждения: требование, просьбу. С помощью интонации осуществляется актуальное членение предложения, происходит обособление и логическое или эмоциональное выделение тех или иных членов предложения, противопоставление одних элементов высказывания другим или, напротив, осуществляется "интонационное примыкание" олова к другому слову, не находящемуся с ним в непосредственном соседстве.

Предложение - минимальная коммуникативная единица языка и речи. Языку

Page 21: Компьютерная лингвистика

предложение принадлежит как структурный тип, а речи как конкретное сочетание структурной модели и ее лексического наполнения, как "речевое образование", приуроченное к данному акту общения, созданное именно для него.

Специфика предложения по сравнению со всеми "нижележащими" языковыми единицами заключается в том, что предложение есть высказывание, что оно коммуникативно.

Иначе говоря, предложение соотносится с определенной ситуацией и обладает коммуникативной установкой на утверждение (отрицание), на вопрос или побуждение к чему-либо.

Коммуникативность предложения, рассматриваемая в двух указанных аспектах, конкретизируется в синтаксических категориях модальности и времени. Они находят выражение с помощью глагольных форм наклонения и времени, интонации, модальных слов, локализации во времени и т.д.

Рассмотрим пример:

Вместе с тем каждое аз пяти предложений отличается по смыслу от четырех

других. Совпадая по передаваемой или вещественной информации, эти предложения различаются по содержащейся в них актуальной информации, что демонстрируют соответствующие вопросы. Актуальная информация - это как бы тот угол зрения, под которым подается вещественная информация.

Актуальная информация передается линейно-динамической структурой предложения, т.е. порядком (линейной последовательностью его элементов) и местом логического ударения, а также использованием других грамматических и некоторых лексических средств выделения того нового, что. содержится в данном предложении. :

Воли вещественная информация описывается в терминах традиционных членов предложения, то при изучении актуальной информации нужны другие термины - термины так называемого актуального (коммуникативного) членения. Это членение на "исходную точку" ("данное") и "ядро" ("новое").

"Данное" - это вое то в предложении, что уже известно собеседнику или вполне очевидно для него и что служит" лишь своего рода "трамплином" для

Page 22: Компьютерная лингвистика

передачи актуальной информации. Выбор "данного" определяется ситуацией и предшествующим контекстом.

"Новое" - это та часть предложения, в соотнесении которой с данными заключается актуальная информация. В диалоге "новое" предшествующего предложения становится "данным" последующего.

Помимо порядка слов и интонации существуют и другие средства передачи актуальной информации: некоторые лексические элементы (усилительно-выделительные частицы, местоимения), специальные выделительные синтаксические конструкции, артикли, залоговые трансформации и другие средства.

Предложение, рассматриваемое в динамическом аспекте со стороны его коммуникативной функции, принято называть высказыванием.

Для обозначения актуального членения предложения употребляют также термины "тема" (данное) и "рема" (новое).

Тема - исходный пункт высказывания и отправная точка для. передачи актуальной информации, она актуально менее значима', чем рема, и является частью предложения, которая обычно дана, известна, вполне очевидна, предопределена предшествующим контекстом, носительница "данного".

Рему соответственно определяют следующие признаки: содержит то, что сообщается о теме; актуально более значима, чем тема (в соотношении с темой выражается актуальная информация, она - коммуникативный центр высказывания); она обычно носительница "нового".

4.7. Трансформационная (порождающая) грамматика Это система правил, экспериментальным образом приписывающая

предложениям структурные описания. Синтаксический компонент определяет бесконечное множество абстрактных

формальных объектов, каждый из которых включает в себя всю информацию, существенную для одной интерпретации конкретного предложения.

Фонологический компонент определяет фонетическую форму предложения, порождаемого синтаксическими правилами.

Он соотносит структуру, порождаемую синтаксическим компонентом, о фонетически репрезентированным сигналом.

Семантический компонент определяет семантическую интерпретацию предложения. Он соотносит структуру, порождаемую синтаксическим компонентом, с определенной семантической репрезентацией.

Следовательно, синтаксический компонент грамматики должен указывать для каждого предложения глубинную структуру, обусловливающую его семантическую интерпретацию и поверхностную структуру, которая определяет его фонетическую интерпретацию.

Основополагающей идеей трансформационной грамматики является идея о том, что поверхностная структура задается неоднократным применением определенных формальных операций, называемых "грамматическими трансформациями", к объектам более элементарного вида.

База синтаксического компонента - система правил, порождающая весьма ограниченное (возможно, конечное) множество базовых цепочек, каждое из которых имеет связанное о ней структурное описание, называемое базовым показателем структуры составляющего. Эти базовые показатели являются элементарными единицами, составляющими глубинные структуры. В основе предложения лежит последовательность базовых показателей, каждый из которых порождается базой синтаксического компонента.

Синтаксический компонент содержит трансформационный субкомпонент,

Page 23: Компьютерная лингвистика

занимающийся порождением предложения с его поверхностной структурой из его базиса.

Главная задача в изучении естественного языка - описать форму языковых выражений, т.е. построение, и охарактеризовать их смысл.

Форма языкового выражения - это то, что передается отправителем сообщения и воспринимается адресатом, т.е. последовательность букв, звуков и т.д. Смысл - это то, что имеется в виду отправителем и понимается адресатом.

Соответствие между формой и смыслом в языке не является ни простым, ни однозначным. Возможные разные по форме предложения, которые имеют один и тот же смысл (синонимы). В то же время может быть, что одно и то же предложение допускает разные понимания, т.е. имеет более чем один смысл.

Общий смысл предложения зависит не только от смысла его слов, но и от синтаксической структуры предложения.

Синтаксическая структура предложения - это совокупность сведений о связях между его словами и словосочетаниями.

Слова в предложении связаны друг с другом по смыслу и форме, т.е. находятся в определенном отношении друг к другу; причем это отношение, вообще говоря, несимметричное: одни олова как бы подчиняют себе другие. Формальное подчинение состоит в том, что одно слово определяет грамматическую форму другого.

Смысловое подчинение состоит в том, что слову, как правило, соответствует некоторая ситуация с определенным набором участников, и слово, обозначающее такую ситуацию, подчиняет себе слова, обозначающие участников этой ситуации и ее сопутствующие обстоятельства. Предложение состоит из слов, точнее - из словоформ. Синтаксическая структура предложения может быть представлена деревом синтаксического подчинения или просто деревом подчинения, заданным на множестве словоформ предложения.

Пример. Тамбовские колхозники собрали богатый урожай.

Объект <M,D,Z> , где .D т синтаксическое подчинение на множестве М; Z -

отношение строгого порядка на М, называется расположенным деревом подчинения.

Page 24: Компьютерная лингвистика

Иногда различие пониманий предложения может быть выражено деревом

порождения при условии, что различаются типы подчинения, дерево подчинения с различением типов подчинения называется размеченным деревом подчинения.

На графе тип подчинения указывается пометой при стрелке. Пример. Мать любит дочь

Обозначение: подл, (от слова подлежащее) - подчинение сказуемому

подлежащего; компл. (от слова комплектна) - подчинение глаголу или глагольному имени дополнения. Отношение синтаксического подчинения называется проективным, если

стрелки, выражающие подчинение, не пересекаются и не накрывают вершину:

Пример: а,б - проективные структуры; в,г - непроективные; в - пересечение стрелок; г - стрелки накрывают вершины. Как правило, при наличии разных возможностей разбора человек понимает

предложение таким образом, чтобы отношение подчинения было проективным. Есть предположение, что у строчки из "Евгения Онегина"

проективность дает такое расположение слов, при котором синтаксически

связанные слова находятся (в целом) в максимальной близости друг к другу. Учитывая свойство проективности, следует отдать предпочтение первому варианту.

В общем случае синтаксические (формальные и смысловые) связи в предложении не сводятся естественным образом к связям между отдельными словами. Поэтому возможен другой способ представления синтаксической структуры предложения, при котором выделяются группировки слов, связанных друг с другом. Определенным образом устроенное множество отрезков

Page 25: Компьютерная лингвистика

предложения называется его системой составляющих, а каждый отрезок в этой системе - составляющей предложения.

[[Тамбовские колхозники] [собрали [ богатый урожай]]] Система составляющих предложения может быть представлена графой. Этот

граф называется деревом составляющих.

Дерево составляющих, как правило, изображается сокращено:

выписываются полностью только те отрезки предложения, которые соответствуют концевым узлам дерева, а неконцевым узлам ооответствует тот отрезок предложения, который получается, если прочесть подряд все слова, до которых можно "дойти" по стрелкам от данного узла:

Система составляющих называется размеченной, если каждой

составляющей сопоставлен ее грамматический тип. Размеченная система составляющих представлена с помощью дерева.

Page 26: Компьютерная лингвистика

Размеченная система составляющих может быть задана также с помощью размеченных скобок:

Система составляющих называется иерархической, если в каждом наборе

непосредственных составляющих выделена главная. Иерархическая система составляющих однозначно определяет для предложения его дерево подчинения. Таким образом, между двумя способами представления структуры предложения имеется естественная связь.

Порождающая грамматика позволяет решать задачу исчерпывающего описания множества правильных предложений языка, одновременно эксплицитно указав действующие в нем синтаксические закономерности.

В основе порождающей грамматики лежит идея структурного сходства между лексически различными предложениями и идея структурной близости более сложных предложений к более простым,

Формально порождающая грамматика - это объект вида <W,V,J,R>

здесь W - словарь терминальных символов (т.е. cлов языка); V - словарь вспомогательных символов (т.е. грамматических типов

составляющих); J - начальный символ; R - множество правил подстановки вида V→J где V∈V, а J - цепочка элементов из W∪V.

Ввод в порождающей грамматике - это последовательность таких строк, как первая - 3 (начальный символ), последняя состоит из одних только терминальных символов, и каждая последующая получается из предыдущей применением какого-нибудь правила подстановки.

Цепочка порождается данной грамматикой, воли она последняя отрока некоторого вывода (т.е. если она может быть выведена правилами

подстановки из начального символа и не содержит вспомогательных символов).

{[(Тамбовские) (колхозники) ] определение подлежащее

[(собрали) [(богатый) (урожай) ] сказуемое определение дополнение

дополнение] главное сказуемое} предложение .

Page 27: Компьютерная лингвистика

ГЛАВА 5. СЕМАНТИКА

5.1. Основные понятия. Значение. Виды значений Термин "семантика"(гр. semantics - обозначающий; введен в научный

обиход в конце XIX в. Основным объектом исследования семантики является значение (слова). Для многих современных лингвистических школ характерно понимание

семантики как особого компонента полного описания языка, которое (описание; в свою очередь мыслится как формальное устройство, моделирующее языковое поведение человека,

На сегодняшний день не существует еще единой теории семантики. Многообразие подходов к определению значения можно проиллюстрировать тем фактом, что в литературе проводятся разграничения между "эмоциональным" и "понятийным" значениями, между "значением" (significance; и "обозначением" (signification, между "перформативным" и "описательным" значениями, между "смыслом" и, "референцией", между "денотацией" и "коннотацией", между "знаками" и "символами", между "экстенсионалом" и "интенсионалом", между "импликацией", "обязательным следствием" (entaiement и пресуппозицией, между "аналитическим" и "синтетическим" и т.д."

В традиционной семантике принято делать разграничение между значением слова и вещью, которая именуется данным словом, т.е. референтом данного слова.

Слово - это знак, состоящий из двух частей; формы и значения. Таким образом, взаимоотношения между формой, значением и референтом

можно представить в виде треугольника (рис.5.1). Отношение между словами и вещами - это отношение референции

(соотнесенности): слова соотносятся с вещами. В более общем смысле предметом семантики является план содержания

языка (другими словами, глубинная структура). Значение слова - сложное семантическое целое, состоящее из частных типов

значения семантических составляющих, которые и выступают как факторы, формирующие лексическое значение.

Это такие типы значения: денотативное, отражающее связь значения слова с предметом, явлением объективной действительности;

Рис.5.1

сигнификативное, отражающее связь лексического значения слова о поня-тием. Именно через компонент значение • слова связывается с конкретными пре-дметами реальной действительности; синтагматическое значение отражает синтаксические и смысловые связи слова с другими словами данном контексте;

Категориальное значение отражает связь лексического значения слов с их лексико-грамматическим классом. Грамматическое значение выражается при

Page 28: Компьютерная лингвистика

помощи аффиксации, ударения, интонации, порядка слов и других средств. Понимание объекта исследования семантики менялось. В настоящее время принято определять следующие этапы развития

семантики: I этап. Конец XIX в. М.Бреалем разработаны принципы диахронической

семантики, основная задача видится в изучении изменения значений слов. II этап. I половина XX в. На передний план выдвигается задача выявления и

анализа семантических полей. Это направление получило название лексикологии. III этап. 60 гг. 'XX в. Появление структурной семантики. Считалось, что ПВ

(план, выражения) языка образует дифференциальные различия и что этим различиям должны соответствовать различия означаемого (трактуемого как различительные признак и значение),

Представители этого направления нашли способ изучения означаемых манифестированных лексических единиц (морфем и им подобных), основанный на расчленении их на более мелкие единицы, которые являются семантическими признаками, или семами.

IV этап. Настоящее время. На смену этим идеям пришла идея о том, что лингвистика - это лишь теоретический конструкт, построение, стремящееся объяснить явления, иначе (и непосредственно) непостижимое. Лишь после этого семантика может быть признана как искусственно построенный язык, способный говорить о языке-объекте.

5.2. Семантические отношения. Парадигматические и синтагматические отношения

Между словами естественных языков существует два вида отношений. Парадигматические - отношения, обусловленные наличием логических

связей между предметами и явлениями, обозначаемыми словами. Такие отношения носят внеязыковой характер и не зависят от ситуации, для

описания которой используются олова. Например: стол и стул - мебель (координация);

стол и мебель - вид - род; переплет и книга - часть - целое; лампа и свет - причина - следствие; лопата и экскаватор - функциональное сходство.

Парадигматические отношения - это отношения синонимии, антонимии, лексические замены (в терминах модели "смысл - текст").

Синонимия - (гр. syndnymia - одноименность; бинарное отношение, в котором находятся два любых равнозначных, но не тождественных выражения; под равнозначностью понимается соотнесенность либо с одним и тем же денотатом (фактом, объектом и т.п.), либо с одним и тем же сигнификатом (языковым означаемым). В первом случае говорят об экстенсиональной синонимии (например, А.С. Пушкин автор "Евгения Онегина", « 7 + 1» = « 28» ) во втором – об экстенсиональной синонимии (например, огромный = громадный, «А В» = «AUB» в исчислении высказываний).

Синонимия представляет собой одно из фундаментальных понятий лингвистики, а также логики, логической семантики и семиотики.

В лингвистике исследуется в основном интенсиональная синонимия; выражения А в В называют синонимичными (между А и В имеет место синонимия}, если их означающие не равны, т.е. ∅(А) ≠ ∅(B).

Частным случаем синонимичных выражений являются синонимы. В лингвистике различаются морфологическая синонимия (т.е. синонимия

аффиксов: «-тель» и «-льщик» .(спасатель" и "ныряльщик"), лексическая

Page 29: Компьютерная лингвистика

синонимия (т.е. синонимия лексем: "геликоптер" и "вертолет"; и синтаксическая синонимия (т.е. синонимия синтаксических конструкций: « красивее Маши» и

« красивее, чем Маша»). В современной лингвистике привлекает внимание синонимия целых высказываний (фраз и больших отрезков текстов. Именно синонимия высказываний является базой теоретических исследований семантики в естественных языках. Например, перевод рассматривается как синонимичное преобразование.

Синонимическое преобразование понимается как переход от высказывания А к синонимичному высказыванию В.

Синонимия есть отношение эквивалентности на множестве высказываний. Синонимия обычно рассматривается в связи с понятием неоднозначности, а

именно омонимией и полисемией: [∅(A) = ∅(B), ∅(A) ≠ ∅(B)]. Синонимия, с одной стороны, и омонимия, с другой, - существенно не симметричны. Омонимия характерна для мелких единиц языка; синонимия, напротив, типична для больших отрезков текста.

Синонимия характерна и для полуформальных и формальных языков. В частности, любое (явное; определение устанавливает синонимию

(экстенсиональную, интенсиональную или и ту и другую; между определяемым и определяющим выражениями. Что касается формализованных языков, используемых для описания формальных дедуктивных теорий (исчислений, то интенсиональная синонимия в них возможна, но не обязательна. Экстенсиональная же синонимия имеет место во всех формализованных языках, для выражений которых определено хотя бы одно нетривиальное отношение эквивалентности или равенства (т.е. в языках, допускающих в качестве истинных или доказуемых не только выражения вида А ~ аА или А = А, но и вида А ~В или А = В о несовпадающими графически А и В). Типичные примеры такого рода: алгебраическое равенство ( а+6 ) (а-6 ) =а2-б2 или эквивалентность исчисления предикатов 7∀XА(х)~3х 7А(х) , т.е. равносильность утверждений о существовании объектов, не обладающих некоторым свойством, и о том, что не все объекты обладают этим свойством. Аналогично квазисиноминия с сужением или расширением по смыслу есть отношение порядка на множестве слов или выражений.

Синонимы - слова, относящиеся к одной части речи, значения которых содержат тождественные элементы; различающиеся элементы этих позиций устойчиво нейтрализуются в определенных позициях (“путь" и "дорога", "бросать" и "кидать", "жаркий" и "знойный" и т.п.).

Антонимия - или "противоположность по значению". Дополнительность - это отношение, наблюдаемое в таких парах слов, как

"холостой - женатый", "мужчина - женщина". Характерная черта таких пар то, что отрицание одного члена пары имплицирует утверждение другого, и наоборот.

Антонимия в обычном понимании этого термина. Конверсивность - отношение между парами типа "покупать - продавать",

"муж - жена". Гипонимия, или отношение "включения", - имеет место, когда некий класс

сущностей (например, обозначаемых словом f'lower -цветок} включает в себя другой класс сущностей (например, обозначаемых словом tulip - тюльпан).

Это отношение является одним из конструирующих принципов организации словарного состава всех языков.

Различие существующих подходов к трактовке термина "включение "соответствует различию в традиционной логике и в некоторых теориях семантики между экстенсионален и интенсионалом словесного знака. Экстенсионал словесного знака - это класс сущностей, к которым применимо

Page 30: Компьютерная лингвистика

данное олово или к которым оно соотносится; интенсионал словесного знака - это набор атрибутов, характеризующих любую сущность, к которой применимо данное олово.

Синтагматические (текстуальные, ситуативные) - линейные отношения, которые устанавливаются непосредственно при соединении слов в словосочетания и фразы. В синтагматические отношения единица может вступать о единицами того же уровня, вместе о которыми .она встречается и которые образуют ее контекст.

Например, отношения между словами в парах "белый - снег" и "собака - лаять" синтагматические.

5.3. Формальные модели семантики Теории компонентного подхода к семантике исходят из допущения о том,

что словарный запас языка можно описать в терминах конечного множества семантических компонентов (семантических множителей, маркеров). Что подразумевается под термином "семантический компонент", проиллюстрируем на примере.

Рассмотрим пропорции: Мужчина | женщина | ребенок Бык | корова | теленок Очевидно, что пары "ребенок" и "теленок", "женщина" и "корова" с

семантической точки зрения имеют нечто общее. Именно это общее и называют семантическим компонентом.

Так, из этой пропорции можно извлечь следующие компоненты смысла: женский пол; мужской пол; взрослый - человеческий; взрослый - коровий.

Существенным недостатком компонентной теории является произвольность выделения семантических маркеров. Кроме того, будучи замкнутым в узких лексических пределах, компонентный анализ оказывается неспособным решить свою главную задачу - создать конечный и ограниченный универсальный алфавит для описания семантических структур языков в целом.

Представляет интерес грамматика И.Филлмора, в основе которой лежит идея Л.Теньера об актантах - зависимых от глагола "сопроводителей действия".

Согласно концепции И.Филлмора, глаголу и его "сопровождениям" присвоен статус глубинных категорий, устанавливается набор глубинных падежей. Глубинные сопроводители, или актанты, интерпретируются как "роли" в отношениях действия или состояния, выражаемых глаголом в предикативной функции. Падежи традиционной грамматики в рамках падежной грамматики рассматриваются как морфологическая реализация падежной грамматики. Обычно выделяются следующие глубинные падежи: агентив, объектив, датив, инструменталис, фактитив, локатив.

Фреймом, или падежной рамкой, называется группа глаголов с характеристичными сопроводительными именами в конкретных ролях.

Следующий шаг в концепции Филлмора - тезис о том, что "значения обусловливаются ситуациями". При этом под ситуацией (scene) понимается любое обособленное восприятие, память, опыт, действие или объект.

5.4. Основы лексикографии Наиболее прочную лингвистическую информацию дают словари,

различающиеся по уровню информации фонетические, морфологические, синтаксические, семантические и т.д.

Наиболее ценны, но и трудоемки словари, включающие информацию обо всех уровнях. Один из вариантов словарной статьи - олово-формы

Page 31: Компьютерная лингвистика

ВЫПОЛНЕННЫЕ в шаговом словаре приведены в табл. 5.1. Словарная система существительного состоит из зоны, содержащей

семантический признак существительного (установленный интуитивно), морфологической зоны, зоны особых характеристик, в которой указываются возможные коммуникативные, прагматические свойства существительного, а также из двух зон: синтагматической и парадигматической.

В синтагматической зоне содержится следующая информация: 1) название семантической реляции; 2) обязательность (результативность; соответствующей связи; 3) главное (зависимое) слово в соответствующей синтагме (описываемое

существительное; 4) формальные признаки второго компонента реляции; 5) семантические признаки второго компонента; 6) примеры. Парадигматические зоны содержат: 1} синонимические корреляции; 2) иерархические корреляции; 3) прочие парадигматические отношения. Раздел языкознания, занимающийся вопросами составления словарей и их

изучением, называется лексикографией (гр. lexicos - словарный и grapho - пишу).

Page 32: Компьютерная лингвистика

Таблица 5.1. Синтагматическая зона Парадигматическая зона Семанти-

ческий признак

Морфологи-ческая зона

Особые характеристики

Название реляции

Оф

Гз

Морфоло-гическая характе-ристика

Семанти-ческий признак

Примеры Синонимы Иерархи-ческие отношения

Прочие парадигма-тические отношения

Хозяйство

Средний род неодушевлен-ный, абстрактный

Относится к действиям, операциям

Первая – объект

О Г словоформа

Общее понятие

Примеры правил

Исполнение

Род = осуществле-ние

Акт = нарушение, невыполне-ние

Вторая – характе-ристика

Ф Г Свойство Факти-ческое

- Вид = перевыпол-нение, соблюдение

Средство = забота, труд, деятель-ность, помощь

Третья – время

Ф Г Время На… января

- - -

Четвертая – субъект

Ф Г Деятель-ность

Предприя-тиями

- - -

Пятая - количество

Ф Г Количество

На … процентов

- - -

Page 33: Компьютерная лингвистика

Различаются словари двух типов: энциклопедические (например, ЕСЭ, МСЭ, Советский энциклопедический словарь, философский словарь и т.п.) и филологические (лингвистические). В словарях первого типа описываются предметы, явления, сообщаются сведения о различных событиях, словари второго типа толкуют значения слов.

Лингвистические словари бывают двух типов: многоязычные (чаще всего двуязычные, которыми пользуются при изучении иностранного языка) и одноязычные, в которых значения слов объясняются посредством того же языка.

Наконец, среди последних словарей выделяются: 1) словари, включающие все слова данного языка, так называемые тезаурусы (гр. thesaurus - сокровищница, хранилище); 2) словари современного литературного языка (наиболее распространенный тип толкового словаря); 3) словари отдельных диалектов или групп; 4) словари языка того или иного писателя; 5) словари языка отдельного произведения; 6) словари исторические, включающие слова определенного исторического периода; 7) этимологические словари, объясняющие происхождение отдельных слов; 8) словари синонимов; 9) фразеологические словари; 10) словари неправильностей, включающие слова, в употреблении, произношении или написании которых часто наблюдаются отклонения от литературной нормы; 11) словари иностранных слов; 12) словари орфографические; 13) орфоэпические словари; 14) словообразовательные словари; 15) обратные словари; 16) частотные словари; 17) словари сокращений; 18) жаргонные и т.п.

5.5. Семантические сети Исследования в области семантики применяются и для разработки такой

основополагающей проблемы практического значения, как представление знаний. Разработаны различные модели представления знаний. Широко используются, например, так называемые семантические сети. Они предназначены для моделирования реальной действительности. Сеть можно представить в виде маркированного ориентированного графа с помеченными узлами и дугами. Узлам соответствуют некоторые объекты, а дугам - семантические отношения между ними. Сеть может состоять из двух частей: абстрактной и конкретной. Абстрактная сеть хранит информацию о "модели мира", т.е. описывает множество возможных и доступных состояний предметной области, выраженных через общие понятия. Конкретная сеть описывает объекты, являющиеся реальным наполнением понятий, встречающихся в абстрактной сети.

1. Вершины абстрактной сети можно подразделить на понятия (объекты абстракции) и события (предикаты). Например:

Здесь изображено событие "дети учатся языку". Каждый падеж связывает

предикат с понятиями. Набор основных падежей можно варьировать в зависимости от нужд конкретной предметной области и задачи. В качестве примера можно предложить глубинные падежи Филлмора:

агент (А) - исполнитель действия; тема (Т) - предмет, над которым совершается действие; источник (S) - начальное состояние объекта действия; цель (g) - конечное состояние после действия; инструмент (I) - инструмент действия; способ (W) - способ действия. Описанные единицы семантической сети не отражают такой реалии языка,

как определение. Аля этого вводятся характеристики. Например, длина, время,

Page 34: Компьютерная лингвистика

место, продолжительность, назначение. Различают двухместные и одноместные характеристики. Например:

Если в абстрактной сети падежами события были абстрактные понятия, то в

конкретной сети - это конкретные объекты. Объем этой сети значительно больше.

5.6. Фреймы Другим способом представления знаний являются фреймы. Фреймы

содержат пустые ролевые порции (слоты;, которые после заполнения конкретными данными превращают его. в носитель знания о действительности. ' '

Верхние уровни фрейма - истинные по отношению к предполагаемой ситуации, а нижние - слоты.

Семантически близкие друг к другу фреймы связываются в систему, содержащую описание причинных, временных и других зависимостей.

Фрейм - представления могут включать, ожидания и другие виды предположений. Система фреймов организована в информационно-поисковую сеть.

5.7.- Лексико-семантические комплексы Лексико-семантическая информация о единицах языка может быть собрана

в виде семантико-реляционных структур лексико-семантических комплексов. Они могут использоваться в процессе анализа и синтеза текстов естественного языка. ЛСК - граф, узлам которого соответствуют заглавная лексема словарной статьи и операнды этой лексемы, а ребрам - реляции, связывающие лексему с ее операндами.

Например:

5.8. Представление о модели "смысл «* текст" Эта модель возникла в связи с разработкой алгоритмов машинного перевода.

Исследования были ориентированы на автоматическое моделирование двух операций, являющихся существенными составляющими речевой способности человека: моделирование понимания текстов (переход от заданного текста к содержащемуся в нем значению; и моделирование производства текстов (переход от заданного значения к выражающим его текстам).

Основная идея в том, что синонимия языковых выражений возникает не только за счет лексических синонимов в собственном смысле олова, но и за счет многих других средств языка.

Следующим этапом развития в данном направлении было введение понятия лексической функции.

Под лексической функцией понимается функция, ставящая в соответствие данному слову или словосочетанию X другое слово или словосочетание Y , определенным образом связанное с X по смыслу. Лексические функции могут быть двух типов: лексические замены и лексические параметры.

Лексические замены - это функции, ставящие в соответствие данному олову X такое олово Y , лексическое значение которого совпадает, целиком или

Page 35: Компьютерная лингвистика

частично, с лексическим значением X (семантическая связь на парадигматической оси языка).

К числу лексических замен относятся синонимы, конверсивы (например "покупать" - "продавать") и чисто синтаксические дериваты, т.е. производные другой части речи, полностью сохраняющие лексическое значение исходного олова, например "двигаться" - "движение", "белый - белизна", "большой" - "очень".

Лексические параметры ставят в соответствие данному слову, X такое слово Y, которое семантически связано о X на синтагматической оси языка.

Например, лексический параметр Magn "со значением "очень", "высокая степень" для олова "здоровый" - "абсолютно", для олова "ошибка" - "грубая" и т.п. (Подробнее о лексических функциях см. в книге: Апресян Ю.Д. Лексическая семантика. М.,1974).

В конце 60 г.г. А.К.Жолковским и И.А.Мельчуком была предложена модель семантического синтеза.

Существенными ее компонентами являются: 1) искусственный язык Вasic, предназначенный для записи данного высказывания на глубинно-синтаксическом уровне; 2) правила перефразирования; 3) толково-комбинаторный словарь.

Page 36: Компьютерная лингвистика

ГЛАВА 6. ПРАГМАТИКА

6.1.Основные понятия. Виды прагматических знаний Термин "прагматика" (гр. pragma - дело действие) появился в научном

обиходе благодаря работам таких известных философов, как Ч.Пирс, У.Джемс, Д. Дыои, И.Моррис. Уже в конце XIX - начале XX вв. Они разграничили три раздела семиотики: синтактику - учение об отношениях между знаками; семантику - учение об отношении знаков к объектам действительности и прагматику - учение об отношение знаков к их интерпретаторам.

Предметом изучения прагматики, таким образом, является поведение знаков в реальных процессах коммуникации.

В 60-70 гг. нашего столетия, благодаря работам философа Л.Витгенштейна, произошло выделение прагматики в отдельную самостоятельную область исследований.

Интерес к исследованиям в области прагматики возник в настоящее время неслучайно.

Трудности в реализации программы машинного перевода и построении систем искусственного интеллекта, во многом связанные с не всегда удачными попытками формализации сферы употребления языка, привели исследователей к осознанию необходимости более углубленных исследований в этой области. Существенным представляется и то, что сегодня мы имеем дело с коммуникативными актами между человеком и компьютером, а не только с коммуникативными актами между людьми. Произошло, таким образом, изменение состава субъектов коммуникативного акта.

В статье Р.М.Вейжедл "Представление знаний и обработка естественных языков" (VI., 1966 г.) убедительно показано, что для успешного понимания и порождения естественного языка не обойтись без прагматических знаний. Так, знания из области прагматики необходимы для понимания и объяснения таких языковых явлений, как анафора, эллипсис, лексическая неоднозначность, намерение, некорректный вход, фигуре речи, нечеткость, структура дискурса.

При анализе предложения "Приговоренные подвергались обстрелу солдатами, и они упали" предпочтение отдается варианту, в котором местоимение "они" относится к приговоренным. В данном случае для достижения правильности понимания необходимо знание правдоподобных обстоятельств.

Другой тип прагматических знаний, необходимый для адекватного описания явления анафоры, связан с иерархией классов знаний и типичными связями между этими классами. Так, для понимания текста "Вчера я прочел роман. Раньше автор совсем не писал художественных произведений" необходима информация о том, что книги имеют авторов, роман - это книга; следовательно, "автор" - относится к слову "роман".

Для понимания других лингвистических явлений, таких, как, например, лексическая неоднозначность, эллипсис, понимание намерения, необходимы другие виды прагматических знаний.

Например: знание фактов, имеющих смысл в контексте; знание некоего множества планов достижения целей; правильное представление целей и знаний о планах. В упомянутой статье Ю.Д.Апресян предлагает включать в толковые словари

такую прагматическую информацию: 1) оценка по параметрам количества, желательная, общая оценка, что

отражает закрепленное в знаке отношение говорящего к действительности; 2) оценка по параметру истинности (достоверности, вероятности; и по

Page 37: Компьютерная лингвистика

параметру иллокутивной функции (здесь фиксируется отношение к содержанию сообщения);

3) указание на статусы собеседников в социальной, возрастной или иной иерархии, на существующую степень близости, на разделяющую дистанцию (что отражает отношение к адресату;

4) информацию об отношении автора к самому себе. Прагматический анализ не ограничен значением слова и высказывания.

Большую область его применения составляет дискурс (фр. dlscours - речь), отражающий субъективную психологию человека. В последних исследованиях было убедительно показано, что структура дискурса состоит из трех взаимосвязанных структур:

фокуса, т.е. множества вещей, объединенных контекстом, на которое можно сослаться;

намерения, т.е. конкретной цели (целей) говорящего или автора; дискурса, т.е. способа с помощью которого сам дискурс делится на

логические когерентные единицы. Остановимся подробнее на механизме целеполагания.

6.2. Проблема понимания текстов Проблема машинного понимания текстов является междисциплинарной.

Над ней работают помимо специалистов в области информатики и вычислительной техники лингвисты, психологи, физики и учёные других специальностей. Принципы анализа понимания, разработанные в этих науках, находят конкретное воплощение в создаваемых компьютерных понимающих системах (ПС). Соответственно эволюция ПС отражает последовательную смену тех моделей, которые разработчики использовали в качестве интеллектуального ядра систем. Если первые ПС включали только знания о языке, на котором написаны подлежащие пониманию тексты, то современные ПС включают еще и знания о предметной области', о которой идет речь в тексте, а также модели знаний и целей пользователя.

Первые ПС создавались на принципах лингвистического анализа. Пример - ПС дескрипторного типа, узнающие во входном тексте только ключевые слова - дескрипторы. В этих системах осуществляется формальный перевод текста с естественного языка на язык дескрипторного типа. Таким образом, в них реализовалась функция автоматического индексирования ^текстов запросов и документов.

Созданные в I960 - 1970 гг. системы дескрипторного типа были способны обрабатывать запросы, не только точно совпадающие с поисковыми образами хранящихся в базе данных документов, но и попадающие в условную "зону допустимых ответов" (система ДЖИН) или в "интервал вероятностного понимания" (например система ДЕСТА).

Использование в таких системах исключительно лингвистических принципов анализа знаний, содержащихся в текстах запросов и документов, позволяло сравнивать запросы и документы и выявлять среди них те, которые приблизительно совпадают по языковому составу. Однако эти системы не имели знаний о предметных областях, описываемых в текстах. Между тем, как известно, один и тот же текст может описывать несколько различных ситуаций из конкретной предметной области. Поэтому ПС дескрипторного типа, не имеющие предметных знаний, часто ошибаются в определении того, о какой ситуации идет речь в тексте.

Следующим шагом в создании систем, значительно улучшившим их понимающие возможности, было введение разработчиками в конструкцию ПС

Page 38: Компьютерная лингвистика

модели (знания) предметной области. Понимание стало после этого трактоваться как процесс соотнесения языкового описания с внеязыковой действительностью. В качестве отображения действительности использовался некоторый записанный на магнитную ленту образец (копия фрагмента предметной области), с которым соотносились входные тексты. По такому принципу построены системы вывода по образцу. В их основе лежат данные и образец, описывающий, что именно требуется найти. Такой метод используется для обнаружения фактов и ситуаций, а также набора соответствующих правил - продукций, конкретизирующих действия, выполняющиеся в данных ситуациях.

Основная научная проблема, с которой сталкиваются разработчики при создании блока знаний о предметной области - это проблема характера представления (репрезентации) знаний о понимаемом мире в памяти ПС. Поскольку многие специалисты по искусственному интеллекту (Р.Шенк, Г.Саймон и др.) считают ПС аналогом психики человека (разумеется, не по структуре, а по выполняемым функциям), то естественно, что при анализе репрезентации знаний они обращаются к психологической литературе. В ней проблема репрезентации представлена в двух основных направлениях.

Первое направление (стимулом к его развитию послужили работы в области искусственного интеллекта) состоит в изучении того, в каком виде знания о мире хранятся в памяти субъекта (или ПС). В рамках этого направления наиболее распространенная точка зрения заключается в том, что знания хранятся в виде некоторых типовых иерархически организованных структур (их называют макроструктурами, фреймами, сценариями и т.д.). Процесс понимания субъектом входных знаний, согласно данной точке зрения, это процесс поиска соответствия знаний одной или нескольким структурам, "подгонки" входной информации под хранящийся в памяти прототип.

Второе направление исследования репрезентации заключается в акценте на анализе самого объекта понимания (т.е. понимаемой действительности) - как его целостной структуры, так и отдельных элементов и взаимосвязей, детерминирующих процесс понимания.

При формировании блока знаний ПС о предметной области исследователей в первую очередь интересует то, на какие подобласти, ситуации следует аналитически расчленить предметную область, отображаемую в текстах (знаниях). Например, П.У.Торндайк полагает, что когда нужно понять текст, описывающий какой-то эпизод из жизни человека, то для уяснения сути предметных связей эпизода (понимания текста) необходимо представить его в виде последовательности событий: ЭПИЗОД = ЦЕЛЬ (действующего лица) + ПОПЫТКА (достижения цели) + РЕЗУЛЬТАТ (успех или неудача). С.Р.Гогдмен и другие исследователи указывают на то, что для понимания юридического существа ситуаций заключения контракта необходимо уметь применять к ситуации базовые правовые категории: ОБЯЗАННОСТЬ, ПРАВО, ПРБДЛОЖЕНИЕ, ПРИНЯТИЕ, НАРУШЕНИЕ. Иначе говоря, знание о предметной области представляется в виде перечисленных категорий, а понимание того, можно ли говорить о юридически корректном заключении контракта в той или иной жизненной ситуации, зависит от результата сопостав-ления ситуации с категориями, от попыток определить, не противоречит ли ситуация взаимосвязанной системе категорий. Модель понимания контрактных ситуаций С.Р.Гогдмена с соавторами встроена в компьютерную программу STARE

Серьезное внимание проблеме представления знаний о предметной области при создании ПС уделяет группа американских исследователей под руководством Р.Шенка. Их основная цель - выявить и представить в системе структуры и

Page 39: Компьютерная лингвистика

механизмы, лежащие в основе понимания текста. Анализируя объект понимания - текст, они разработали теорию концептуальной зависимости. В ее основе лежит представление текста в виде концептуальных зависимостей. Процедура понимания, о точки зрения авторов этой теории, заключается в сопоставлении ка-ждому предложению из текста некоторой концептуальной "смысловой" структуры. На основе этой теоретической модели разработано несколько компьютерных вариантов понимающих систем - SAM , FRUMP и др.

Основная сложность при понимании текста для систем о встроенной моделью предметной области заключается в том, чтобы соотнести входное сообщение (запрос) именно о той, отображенной в памяти ПС ситуацией предметной области, которую имел в виду пользователь, обращаясь с запросом к системе. Определить же при чтении текста, какую именно ситуацию предметной области имел в виду автор (пользователь) в момент написания текста можно только в том случае, если понимающей системе помимо знаний автора о предметной области известны и его текущие задачи, цели, определившие направление его внимания на ту или иную конкретную ситуацию. В противном случае точное понимание прочитанного оказывается невозможным.

В связи с этим для адекватного понимания ПС должна иметь представление о том, какую именно ситуацию предметной области имел в виду автор при написании понимаемого в данный момент системой текста. Описание этой ситуации и является задачей, целью его деятельное и в момент написания текста. Иначе говоря, можно утверждать, что именно предвосхищаемая, представляемая пишущим ситуация является целью его деятельности по написанию текста. Указанное определение цели соответствует данным современной психологии. В частности, согласно точке зрения А.Н.Леонтьева, цель - это осознанный, представляемый человеком результат его деятельности. Это точка зрения получила дальнейшее развитие и теоретико-экспериментальное обоснование в цикле работ, проводившихся под руководством O.K. Тихомирова.

Таким путем, т.е. анализируя данные психологии понимания, специалисты, проектирующие ПС, пришли к выводу о необходимости введения в модель, составляющую ядро машинного понимания, еще 6д-ного компонента - знаний о целях автора понимаемого текста. Это сразу же сказалось на интерпретации самого термина "понимание". Г.Саймон указал на то, что значение этого понятия непосредственно зависит от задач, решаемых ПС. Но особенно конкретное и определенное значение "понимание" приобрело в работе Э.В.Попова "Общение с ЭВМ на естественном языке" (М.,1989), связавшего понимание с целью. Согласно точке зрения этого исследователя, ЭВМ понимает смысл текста, если устанавливает его взаимосвязь с замыслом, целью автора данного текста. Понимание считается достигнутым, если каждое предложение текста идентифицируется с целью. В противном случае, если ЭВМ не установила связи читаемого с целью, понимания не наступает. Используя понятие "понимание" применительно к машине, мы будем считать; что последняя "поняла" образующие входной текст словарные выражения, если соотнесла каждое выражение о конкретным элементом предметной действительности, причем о элементом, входящим в фрагмент предметной области, выбор которого обусловлен целью понимания. Только соотнесенные с целью и фрагментом предметной области словарные выражения текста будем называть понятыми.

Эволюция развития ПС отражает стремление воссоздать средствами информатики и вычислительной техники функциональные особенности процессов понимания человека. В человеческой коммуникации понимание диалогично по своей природе, оно формируется в процессе общения, по крайней мере, двух субъектов - автора и адресата. Причем характер понимания сообщения адресатом

Page 40: Компьютерная лингвистика

(пользователем) в значительной мере определяется его целями и знаниями о предмете темой общения. Неудивительно поэтому, что сегодня при создании ПС значительное внимание уделяется представлению в них моделей Пользователя.

Модели пользователя необходимы для идентификации объектов, обсуждаемых партнерами по диалогу (системой и пользователем), для выявления подразумеваемых в запросе планов действий пользователя, а также скрытых препятствий к осуществлению этих планов. Именно так действует, например, вопросно-ответная система, описанная в работе Дж.Ф.Аллена и Р.Перро. Система моделирует работу служащего справочного бюро железнодорожного вокзала. Задача системы - выявить план поведения пассажира и выдать ему информацию, не только явно запрашиваемую, но и ту, которая может понадобиться для осуществления поездки на поезде (в частности, при запросе о времени отправления поезда система указывает и то, с какого пути он отправляется}.

Как показала практика машинного перевода и создания понимающих систем, знаний о языке недостаточно для адекватного понимания: системы, основанные только на лингвистических моделях, не способны выявить денотаты языковых выражений. Система, адекватно понимающая текст, должна быть построена на кибернетическом принципе обратной связи: она может установить денотат текста, если сумеет "увязать" в единый замкнутый цикл цели автора и текста, предметную область, описываемую в тексте, и цели читателя (пользователя).

Задача понимания текста относится к классу неформализованных задач. Объектом понимания являются тексты организационно-распорядительных документов, используемые в управлении народным хозяйством. Существует два подхода к решению задачи понимания:

моделирование человеческих механизмов понимания естественно-языковых текстов;

создание технических систем, реализующих функцию понимания отличным от человека способом при сравнимости результатов понимания системы и человека для заданной цели понимания.

В качестве рабочего выбран второй подход. В этом случае решение задачи сводится к построению такой процедуры, которая при поступлении на ее вход текста документа выдала бы на выходе соответствующий результат понимания, сравнимый с результатом понимания, полученным человеком.

Последовательно рассмотрим объект понимания, процедуру понимания и результат понимания. Начнем с анализа объекта понимания и основных характеристик. Функциональное назначение текста деловой прозы состоит в передаче информации от одного лица к другому, находящемуся с первым в определенных деловых (производственных) отношениях. Текст здесь рассматривается с позиций деятельностного подхода, разработанного отечественным психологом А.Н.Леонтьевым, представляющим речь как один из видов деятельности, направленной на достижение определенного результата и вместе с тем стимулирующей данный вид деятельности. Таким образом, у каждого текста есть конкретный автор, цель передачи информации и адресат, которому эта информация предназначена и который должен выполнить действия, предписанные автором. Цель понимания у адресата - правильно понять пред-писание и выполнить соответствующее действие.

В текстах организационно-распорядительных документов реализованы производственные отношения типа "руководитель – исполнитель”. Задача порождения текста автором - достижение им основной цели. Это может быть выполнение как физических действий (строительство объекта и т.п.), так и нефизических (информирование, выдача данных для последующего

Page 41: Компьютерная лингвистика

использования их адресатом и т.п.). Цель «порождения текста является в этом смысле подцелью основной цели автора.

Высокая исполнительская дисциплина выполнения заданий требует точного понимания текста адресатом. Отсюда следует, что для достижения основной цели автор при порождении текста ориентируется на конкретного адресата, его знания о предметной области и знание языка. Цель порождения текста может разлагаться автором в упорядоченную последовательность более простых целей. Наличие этой последовательности определяет целевую структуру текста, расчленяя текст на сообщения и организуя предложения в связный текст.

Итак, объект понимания - текст, предназначенный для передачи информации от автора к адресату.

Соответственно задача понимания текста состоит в определении цели порождения текста и идентификации ситуации проблемной области, которая была выбрана в качестве предмета описания автором. Взаимосвязь механизмов порождения текста и понимания его читателями нашла отражение в рассматриваемой ниже модели порождения - понимания текста при обмене информацией между автором и адресатом (рис.6.1.). Модель состоит из двух взаимосвязанных частей: модели порождения текста и модели понимания текста.

Рис. 6.1.

Последовательно рассмотрим модели и их взаимосвязи. Порождая текст, автор ориентирован на конкретного адресата и учитывает

Page 42: Компьютерная лингвистика

его профессиональные и общие знания. Цель автора актуализирует конкретную ситуацию проблемной области, и автор описывает ее (с учетом языковой практики адресата) в словесных знаках естественного языка. Процедура понимания текста адресатом предполагает наличие у него знаний о той же проблемной области и идентичных знаний о языке. Адресат должен знать цель автора, чтобы правильно идентифицировать ситуацию, которую автор описал. Понимание текста, по сути, является обратной задачей по отношению к порождению текста.

Знания о проблемной области - единый базис и для порождения текста автором, и для понимания текста адресатом. Цель понимания текста либо совпадает о целью порождения (адресатом понимается весь текст документа), либо является ее составной частью (понимается фрагмент текста, соответствующий цели понимания). Вне цели понимания не происходит, (текст для адресата остается непонятным).

Декодированная адресатом информация стимулирует выполнение им предписанных автором текста действий.

Результатом понимания текста адресатом является действие. Что касается технической системы как посредника в интеллектуальной деятельности человека, то результатом понимания текста будет не предписанное действие, а информация, представленная в форме текста на естественном языке. Этот текст соответствует запросу (цели конечного пользователя).

6.3. Условия целевого понимания текстов Рассмотренная выше концептуальная модель порождения-понимания текста

при речевом общении субъектов позволяет определить основные условия целевого понимания текстов документов технической системы.

Техническая система, выполняющая функцию целевого понимания текста, должна быть по существу моделью интеллектуального посредника между автором текста и его адресатами. Она должна понимать как цель автора документа, так и цель адресата. В качестве базиса понимания выступают знания о предметной области.

Рис. 6.2.

Состав и Структура этих знаний должны выбираться, исходя из целевого

Page 43: Компьютерная лингвистика

назначения текстов, которые подлежат понимании проектируемой технической системой.

Вне знаний о предметной области тексты не понимаются. Состав и структура знаний о предметной области определяются составом

ситуаций, которые являются целями порождения текста, и степенью детализации их описания. Последнее определяется членением цели порождения текста на подцели.

Второе условие связано с языковой формой представления текстов. Как уже отмечалось, языковая практика человека позволяет ему при описании ситуации предметной действительности выбрать нужные языковые единицы и оформить их грамматически.

В технической системе должна быть модель языковой практики авторов и адресатов текста для конкретной предметной области.

В большинстве разработок, занимающихся анализом текстов, не вводятся ограничения на форму и содержание текстов. В предлагаемом подходе этот момент чрезвычайно важен.

.Техническая система должна быть настроена на понимание текстов из определенной предметной области, для чего она должна иметь модель языковой практики автора текстов и адресатов. Более конкретно речь идет о конвенциальности языковых соглашений авторов и адресатов текстов. Эти условия послужили основой для реализации концептуальной модели машинного понимания текста (рио.6.2).

Определим процедуру машинного понимания текста. Техническая система является интеллектуальным посредником, поэтому правильность понимания текста технической системой определим по результату понимания и его сравнению с результатом понимания того же текста человеком. Критерий правильности понимания является вариантом критерия Тьюринга для определения качества мышления. Текст документа считается понятым правильно, если ответ системы на запрос соответствует цели понимания конечного пользователя и идентичен ответу, полученному конечным пользователем при самостоятельном чтении текста.

Цель понимания текста конечным пользователем формируется в виде текста на естественном языке и, по существу, представляет задание технической системе на поиск информации.

Модель машинного понимания текста основана на реализации следующих процедур:

формирование базиса понимания (образца) путем вычленения из знаний о предметной области фрагмента с учетом текущей цели понимания;

выделение словарных выражений (слов, словосочетаний, предложений ), обозначающих выделенные элементы предметной области;

соотнесение выделенных словарных выражений с именами элементов предметной области.

Результат понимания может быть представлен или в виде фрагмента текста, содержащего информацию, соответствующую цели конечного пользователя, или в виде пар: имя элемента предметной области - словарное выражение.

Page 44: Компьютерная лингвистика

ГЛАВА 7. АВТОМАТИЗИРОВАННАЯ ПЕРЕРАБОТКА ТЕКСТОВ

7.1. Представление знаний В процессе работы над созданием современных компьютерных систем,

решающих интеллектуальные задачи (в частности, понимания текстов на естественном языке), на первый план выдвигается проблема представления знаний.

Знание - это результат адекватного отражения действительности человеком в виде представлений, понятий, теорий, суждений. Применительно к компьютерной системе знание - это адекватное описание действительности, конкретной предметной области на естественном или искусственном языке.

На уровне представления знаний в компьютерной системе отражены как отдельные элементы знания, так и связи между ними. Уровень представления знаний отличается следующими особенностями: интерпретируемостью, наличием классифицирующих связей, наличием ситуативных отношений (например, одновременности хранения, совместимости знаний в машинной памяти). Кроме того, для уровня знаний характерны такие признаки, как наличие специальных процедур: обобщения, наполнения имеющихся в системе знаний и т.д.

Рассмотрение эволюции проблемы машинного понимания в искусственном интеллекте обнаруживает, что именно разные типы знаний становились краеугольным камнем, методологическим фундаментом компьютерных понимающих систем нескольких поколений. Если первые понимающие системы включали только знания о языке, на котором написаны подлежащие пониманию тексты, то современные понимающие системы включают еще и знания о предметной области, о которой идет речь в тексте, а также модели знаний и целей пользователя.

В зависимости от их вида знания представляются в словаре, семантической сети и базе данных, а также при помощи фреймов, продукций и т.п.

Словарь системы содержит морфологическую, синтаксическую и семантическую информацию, приписанную каждому слову русского языка.

Семантическая сеть представляет собой модель внешнего мира (предметной области, в которой работает система) и изображается в виде помеченного ориентированного графа.

База данных представляет собой массивы числовых данных или тексты, интересующие пользователей.

7.2. Автоматический анализ и синтез речи Модели анализатора и синтезатора речи. Расширение применения ЭЕМ для

обработки информации вызывает растущую потребность взаимодействия человека с машиной в виде устной речи. Необходимым становится решение проблемы автоматической обработки речи, что включает в себя решение задач: синтеза речи, распознавания речи и верификации (распознавания) говорящего.

Перспективы практического использования человеко-машинной речевой связи весьма широки. Достаточно отметить, например, такой факт, что в среднем человек произносит и воспринимает десять звуков в секунду из фонетического алфавита емкостью около 60 звуков, в то время как при наборе данных на клавишном управляющем устройстве делается около пяти ударов в секунду, т.е. в два раза меньше, чем при произнесении. Естественно, эргономические показатели такой работы не идут ни в какое сравнение с речевой связью.

Кроме этого, речевой способ общения в человеко-машинных системах имеет

Page 45: Компьютерная лингвистика

следующие преимущества: превращает ЭВМ из "великого немого" в говорящую и воспринимающую

речь систему; обеспечивает естественность общения и разгрузку зрительного канала; устраняет ручные манипуляции 'при вводе информации и увеличивает

скорость ввода; открывает возможность свободного перемещения в пространстве при

общении о системой и т.д. Успешное решение задач по созданию систем речевого общения человека и

машины требует наличия определенного уровня развития таких научных дисциплин, как теория информации, системное моделирование, обработка сигналов, теория вычислительных систем, вычислительная техника, лингвистика и, в частности, фонетика.

Классификация систем речевого общения. Непосредственное оперативное человеко-машинное взаимодействие в определяющей степени связано в перспективе с внедрением средств ввода в ЭВМ и вывода речевых сигналов, так называемых речевых дисплеев. Речевой дисплей - это тип внешнего устройства ЭВМ, дающий возможность речевого взаимодействия человека и машины на естественном языке.

К настоящему времени достаточно четко обозначились четыре поколения систем речевого общения:

система ввода в ЭВМ и вывода фраз, составленных из раздельно произносимых слов при объемах словаря, содержащего десятки и сотни слов;

системы ввода фраз, составленных из слитно произносимых слов при большом или неограниченном словаре;

системы ввода слитно произносимых простых фраз при словаре, содержащем тысячи слов;

системы, понимающие слитную речь произвольного содержания. По системам первого поколения основные научно-технические проблемы

уже решены. Начался этап серийного производства, внедрения и эксплуатации аппаратно-программных средств различного класса.

По системам второго поколения центральной проблемой является проблема хорошей разборчивости и естественности речи.

По системам третьего поколения ведутся интенсивные поиски. Нерасчлененность акустического сигнала на слова заставляет вести

многовариантный анализ отрезков речи на всех уровнях - от параметрического до семантического. По системам четвертого поколения пока что ведутся теоретические исследования.

Построение систем распознавания речи базируется на моделировании работы органов речи и слуха человека. Речевой дисплей включает анализатор речи, синтезатор речи и устройства сопряжения.

Анализатор речи представляет собой устройство автоматического распознавания речевых сигналов и их кодирования для ввода в ЭВМ. По функциональному назначению устройство делится на два блока - анализатор и классификатор.

Анализатор предназначен для введения фонетических признаков речевых сигналов, описывающих произнесенную команду.

В классификаторе осуществляется сравнение эталонов, записанных в процессе обучения, с распознаваемой командой. Упрощенная модель анализатора речи показана на рис. 7.1. Задачей анализатора речи является воссоздание совокупности функционалов (Fri) по принимаемому акустическому сигналу. Практически во всех системах имеются выделители (фильтры) основного тона

Page 46: Компьютерная лингвистика

(F1) , селекторы шумовых (F2) и тональных (F3) участков речи, анализаторы спектра (Fri - Frn).

Синтезатор речи представляет собой устройство автоматического синтеза устной речи непосредственно по тексту, чем достигается возможность речевого вывода информации из ЭВМ. Синтез речи осуществляется на основе моделирования процессов речеобразования. По функциональному назначению устройство делится на четыре блока: блок преобразования текста и блоки моделирования интонационных, артикуляторных и акустических процессов речеобразования.

На рис. 7.2 представлена схема модели синтезатора речи. Текстовая информация от источника (ЭВМ, фотоввода) вводится

определенными предложениями (фразами) в буферное запоминающее устройство. На основе анализа поступающего пакета автоматически генерируются электрические сигналы интонации и сигналы, имитирующие артикуляционные речедвижения.

По полученным сигналам рассчитываются акустические характеристики речевого тракта и в конечном итоге на выходе вырабатывается синтезированный речевой сигнал.

Page 47: Компьютерная лингвистика

Рис.7.1

Источник потока воздуха, создает несущее колебание через генератор шумовых звуков, имитирующий пропускание потока воздуха через артикуляционные щели при заторможенных голосовых связках. При пропускании потока воздуха через генератор тональных колебаний имитируется работа голосовых связок в расторможенном состоянии. Совокупность резонансных цепей представляет собой эквивалент резонансных полостей носоглотки. В пятом блоке формируется суммарный акустический сигнал, а шестой элемент осуществляет переключение тональных и шумовых звуков. Функционалы (Put ) представляют собой управляющие сигналы, поступающие из генератора текстов (например из системы анализа и синтеза текстов).

Рис. 7.2.

Система речевого общения. На рис.7.3 приведена общая структура предполагаемой системы речевого общения, состоящей из следующих основных блоков:

Page 48: Компьютерная лингвистика

выделения из исходного сообщения признаков, используемых для распознавания речи;

преобразования (на основе выделенных признаков) исходного сообщение в последовательность фонем;

сегментации последовательности фонем (выделение слов); анализа и синтеза текста; преобразования (текста) ответа в последовательность фонем; звукового воспроизведения синтезированного ответа. Исходное сообщение в виде непрерывного звукового сигнала поступает в

анализатор. Этот сигнал преобразуется в последовательность дискретных сигналов и в последовательность фонем.

Рис.7.3

Из последовательности фонем сегментацией выделяются слова. Эта задача решается путем сравнения текущей последовательности фонем со словарем, где записаны эталоны слов в фонетической транскрипции.

Последовательность выделенных слов поступает в систему анализа и синтеза текста, из которой ответ в виде текста предложения преобразуется и последовательность фонем. Задача синтезатора - формирование искусственной речи на основе последовательности фонем.

Построение любой системы, включающей в качестве обоих задач анализ и синтез текстов определенной тематики, требует адекватного лингвистического обеспечения, или, другими словами, создание модели конкретного подъязыка.

Процедуры анализа и синтеза текста (рис.7.4), реализованные в обрабатывающих алгоритмах и программах, представляют собой следующее: морфологический, синтаксический и семантический анализ; семантическую интерпретацию и формирование ответа; семантический, синтаксический и морфологический синтез; доступ к словарю, семантической сети и базе данных.

В достаточно сложных системах анализ и синтез текста предполагают выявление его содержательно-смысловой структуры, что обусловливает преимущественное внимание к семантике подъязыка и, соответственно, к семантическим процедурам анализа и синтеза текста.

Морфологический анализ (МА) выполняет распознающую роль на входе системы. Функцией морфологического анализа являются выделение основы слова

Page 49: Компьютерная лингвистика

и определение морфологической информации, приписываемой этой основе по таблицам аффиксов и словарю.

Рассмотрим алгоритм морфологического анализа (а также другие обрабатывающие алгоритмы) на следующем примере. Сколько каменн(ого) угл(я) перевез(ено) железнодорожн(ым) транспорт(ом) в 1975-м год(у)?

Морфологический анализ, отсекая аффиксы (заключенные в скобки), приписывает полученным основам морфологическую информацию, со-ответствующую этому аффиксу. Далее производится обращение с полученной основой к словарю для определения, существует ли такая основа:

Page 50: Компьютерная лингвистика

СКОЛЬКО числительное количественное КАМЕННОГО падеж: родительный/винительный

число: единственное род: мужской/средний одушевленность: любая / одушевленное прилагательное

УГЛЯ падеж: родительный число: единственное род: мужской одушевленность: неодушевленное существительное

ПЕРЕВЕЗЕНО время: любое число: единственное род: средний залог: пассивный глагол

ЖЕЛЕЗНОДОРОЖНЫМ падеж: творительный / дательный число: единственное / множественное род: мужской/ средний / любой прилагательное

ТРАНСПОРТОМ падеж: творительный число: единственное род: мужской одушевленность: неодушевленное существительное

В падеж: винительный / предложный число: любое род: любой одушевленность: любая предлог

1975 падеж: предложный число: единственное род: мужской / средний одушевленность: неодушевленный / любая числительное порядковое

ГОДУ падеж: дательный / предложный число: единственное род: мужской одушевленность: неодушевленное существительное

Page 51: Компьютерная лингвистика

Рис. 7.4.

В результате работы МА получается информация, поступающая на вход алгоритма синтаксического анализа (СиА), который осуществляет перебор возможных о точки зрения синтаксиса омонимичных способов разбиения всех вариантов разбора синтаксических отношений. СиА служит для установления синтаксической взаимосвязи между словами входного предложения (запроса).

Алгоритм синтаксического анализа использует модели управления. В рассмотренном примере у основы ПЕРЕВЕЗ присутствует модель управления, поэтому она выбирается в качестве головной (вершина дерева). По морфологической информации подбираются слова, имеющие такую же морфологическую информацию в словах предложения, строятся синтаксические отношения (рис..7.5). По правилам русского языка реализуются синтаксические отношения.

Полученная синтаксическая структура обрабатывается алгоритмом семантического анализа.

Page 52: Компьютерная лингвистика

Рис.7.5

Семантический анализ (СеА) осуществляет построение интенсионального выражения смысла обрабатываемого предложения в виде семантического графа. Здесь же осуществляется разрешение неявных языковых ссылок (эллипсис). Семантический анализ служит для построения семантического графа запроса, т.е. установления смысловой связи между основами слов синтаксической структуры.

Замена синтаксических отношений семантическими осуществляется по модели управления (МУ) и по абстрактной семантической сети. В примере каждому синтаксическому отношению из МУ ставится в соответствие конкретный семантический падеж.

Определенные синтаксические отношения (ОПРВД) заменяются по сети посредством нахождения пути между парами слов: ТРАНСПОРТ -ЖЕЛЕЗНОДОРОЖЫЙ и УГОЛЬ - КАМЕННЫЙ. В результате работы СеА по-лучается семантический граф (рис.7.6).

Рис.7.6

Завершается процесс анализа сопоставлением семантического графа о моделью предметной области. При такой семантической интерпретации происходят сопоставление семантического графа о конкретной семантической сетью, получение содержательной информации на конкретной сети, выбор числовой информации из базы данных и обработка этой информации (суммирование, сравнение, вычисление процента и т.д.).

В примере будет выбрана числовая информация по параметру • ОБЪЕМ (рис.7.7), представляющему собой фактическое значение (14,4 млн т).

.

Рис.7.7 Алгоритм синтеза текста. Задача алгоритма синтеза состоит в переводе

смысла некоторого высказывания в предложение ограниченного русского языка.

Page 53: Компьютерная лингвистика

Синтез осуществляется несколькими этапами. Семантический синтез служит для построения семантического графа ответа,

получающегося из семантического графа запроса введением в него информации из базы данных.

В рассматриваемом примере вопросительное слово заменяется фактическим значением, приписываемым через характеристику КОЛИЧЕСТВО объекту события (т.е. понятию, стоящему по семантическому падежу Т).

В результате получается семантический граф ответа, представленный на рис.7.7.

Синтаксический синтез (СиС) служит для перевода смысла некоторого высказывания, эксплицитно выраженного семантическим графом ответа, в предложение ограниченного русского языка. СиС необходим для сообщения смысла ответа пользователю. По полученному выходному предложению пользователь сможет определить правильность ответа.

В СиС для работы используются модель управления и грамматика русского языка (подобно СиА). В рассматриваемом примере семантический граф ответа преобразуется в синтаксическую структуру (рис. 7.6), в вершинах которой стоят основы слов c приписанной им морфологической информацией. Полученная структура линеаризуется по правилам русского языка в последовательность основ с приписанной морфологической информацией.

Задача этапа морфологического синтеза (МC) - построение фраз естественного языка по полученному упорядоченному набору основ слов c приписанной им информацией.

Алгоритм МС по морфологической информации находит конкретный аффикс и приписывает его основе. В результате работы МС получается ответ: в 1975 г. железнодорожный транспорт перевез 14,4 млн. т. каменного угля. Процедуры анализа и синтеза текста являются основными процедурами в вопросно-ответных системах.

Рис. 7.8.

7.3. Визуальное общение. Восприятие изображений. Несмотря на широкие возможности восприятия

машиной окружающей действительности в форме текста и речи, стремление представить сведения об окружении в компактной и удобной форме приводит к необходимости разработки средств машинного восприятия визуальной информации.

Общение с ЭВМ по зрительному каналу в форме изображений позволяет существенно увеличить скорость ввода - вывода информации, хранить

Page 54: Компьютерная лингвистика

информацию не только в бинарной, но и в аналоговой форме (на микрофишах, в топографических запоминающих средах и т.п.), дает возможность решать на ЭВМ принципиально новый класс задач (автоматическое чтение текста, чертежей, схем, карт; решение экономических задач с привязкой и отображением информации по регионам, отраслям; автоматическое введение видеоинформации со спутников и т.д.).

Работа систем восприятия изображения зависит от большого числа параметров:

двух- или трехмерности объектов; освещенности; количества и формы объектов на изображении; затененности и скрытности объектов; цвета (двух-, многоцветные); разрешающей способности оборудования и т.д. Следует указать, что в настоящее время наметился единый подход к

решению проблемы общения в форме текста, речи и изображения. Это единство основано на необходимости решения для всех, способов общения двух задач: машинного восприятия и машинного понимания. При восприятии человек преобразует свои ощущения физического мира в образы и формирует свое внутреннее представление внешнего мира, которое описывает наиболее важные отношения этими образами. При понимании имеющееся внутреннее представление преобразуется в выходное сообщение. Необходимые при этом действия включают сравнение внутреннего представления окружающего мира с реальными или воображаемыми мирами.

Машинное восприятие пока даже отдаленно не приближается к человеческому. До недавнего времени машинный анализ изображений ог-раничивался либо классификацией фотографий, что фактически представляет собой задачу распознавания образов, либо анализом простых сцен. Суть же восприятия визуальной информации состоит в том, что входные сигналы должны интерпретироваться в терминах того, что мы уже знаем о мире.

Главной чертой восприятия является способность находить определенные внутренние модели, позволяющие реконструировать полученный сигнал. Процесс восприятия изображения можно условно разделить на следующие этапы:

предварительную обработку изображения с целью повышения его качества; разработку языка изображений с допустимыми ограничениями; анализ изображения с выделением линий, областей, контуров, объектов; определение трехмерной структуры сцены; семантическую интерпретацию выделенных в изображении элементов c их

пространственными отношениями и описание сцены в терминах знаний системы. Предположим, что определенная информация уже извлечена из изображения

и представлена в символическом виде, а не в виде яркостных точек изображения. Задача состоит в отображении символической информации о представленной сцене на накопленные знания системы. При этом будем исходить из того, что изображение сложное и не может быть полностью обработано методами распознавания образов.

Для разработки систем восприятия изображения с большим успехом применяются лингвистические методы. При анализе изображения могут быть использованы синтаксические и семантические методы. На основе лингвистических объектов и понятий, с которыми читатель познакомился выше (грамматика, синтаксис, дерево разбора, сцена, семантические отношения, семантическая сеть и т.п.), строится описание структуры изображения.

Формальное описание сцен. Рассмотрим простейшую сцену, изображенную

Page 55: Компьютерная лингвистика

на рис.7.9. При кратком описании сцена может быть охарактеризована как "параллелепипед и цилиндр". Более детально данная сцена может быть описана как "параллелепипед, расположенный слева от цилиндра". Можно продолжить детализацию описания, охарактеризовав, например, параллелепипед как совокупность трех граней, и так до любого желаемого уровня конкретности. Указанный способ последовательного уточнения описания изображения называется лингвистическим, так как он подобен процессу анализа текста. Для анализа изображения в этом подходе, как в случае анализа текста, вводится понятие грамматики. Однако в отличие от грамматик, используемых при анализе текста, грамматики для изображений не одномерные, а двухмерные. В одномерных строках естественной операцией соединения символов является операция конкатенации - размещения символов друг за другом, в двухмерных строках такой естественной операции не существует.

Поясним эту мысль на примере (см.рис.7.9). Одно из возможных деревьев разбора для данной сцены приведено на рис.7.10. Даже если мы точно определим терминальные вершины, дерево разбора будет только приблизительно описывать сцену, поскольку три грани, например, могут быть соединены множеством способов, из которых только некоторые дадут параллелепипед. Существуют различные подходы к определению способа соединения символов в двухмерной строке (плоскости).

Рис. 7.9.

Рис. 7.10.

Наиболее прямолинейным является способ, полагающийся исключительно на описание границ некоторой фигуры, что дает возможность воспользоваться преимуществами естественного упорядочения точек в одномерном множестве. В качестве простейшего примера этого подхода приведем описание четырехугольника (грани):

Page 56: Компьютерная лингвистика

ЧЕТЫРЕХУГОЛЬНИК :: = ОТРЕЗОК + ОТРЕЗОК + ОТРЕЗОК + ОТРЕЗОК, где•"+" означает конкатенацию.

Предполагается, что результирующая отрока должна замыкаться на себя. Выбор терминального символа (отрезка) в этом простом примере очевиден. Однако для фигур, состоящих из плавных кривых, этот выбор является менее очевидным и, кроме того, часто трудно определить, где заканчивается один терминальный символ и начинается другой. На этом решение проблемы не заканчивается. Действительно, для описания параллелепипеда (см.рис.7.9) в терминах, определенных выше четырехугольников, необходимо конкретизировать операцию соединения четырехугольников.

Наиболее часто используется определение точек, в которых происходит соединение четырехугольников (рис.7.11). В этом случае синтаксическое описание параллелепипеда может иметь вид: "соединить точку 1 четырехугольника А с точкой 4 четырехугольника С, точку 2 с точкой 4" и т.д. Аналогичный подход к определению отношений между символами основывается на стандартизации точек соединения.

Рис.7.11.

Условимся, что каждый терминальный символ имеет две точки, называемые

"головой" и "хвостом". Будем считать, что операция конкатенации состоит в при-соединении "головы" первого символа к "хвосту" второго путем их перемещения (без вращения) в плоскости изображения. "Хвостом" получившегося нетерминального символа называют "хвост" первого терминального символа, а головой - "голову" второго терминального символа. Например, если b , с , d - терминальные символы, то нетерминальный символ А = b + с + d будет иметь в качестве "хвоста" "хвост" b , а в качестве "головы" - "голову" d .

Примером такого способа может служить цилиндр, изображенный на рис.7.9. При этом используем терминальные символы, представленные на рис;?.12. Операцию конкатенации обозначим символом «+», а операцию переобозначения "головы" (г) и "хвоста"(x) терминального символа - символом "~".

Page 57: Компьютерная лингвистика

Рис.7.12

Отделим дополнительно операцию "*", состоящую в присоединении "головы" символа р к "голове" символа g и "хвоста" р к "хвосту" q. "Головой" образованного символа будем считать точку соединения "голов" р и q, а "хвостом" - точку соединения "хвостов" р и q. В принятых обозначениях цилиндр можно записать по следующим правилам:

ЦИЛИНДР :: = СТОРОНА * КРУГ СТОРОНА :: = U + b + U КРУГ:: = t * b Рассмотрим на этом примере, как осуществляется синтаксический анализ

изображения. При этом нас будет интересовать процесс распознавания изображения, а не порождения. Любая распознающая грамматика предполагает умение распознавать терминальные символы.

В приводимом примере необходимо распознать вертикальные линии и два типа кривых линий. Предположим, что нам предъявлено изображение и требуется определить, содержится ли в нем цилиндр. Первые два правила говорят о том, что цилиндр_ должен включать символ СТОРОНА и что этот символ должен содержать терминальный символ вертикального отрезка. Поэтому процедура будет осуществлять просмотр изображения с целью поиска вертикального отрезка. Отметим, что при разборе символов одномерной строки требуется просто выбрать первый элемент строки. Найдя вертикальный отрезок, рассмотрим его нижний конец как "голову", а верхний как "хвост", так как в соответствии со вторым правилом мы ищем отрезок U . Из второго правила видно, что терминальный символ b должен быть присоединен к "голове" вертикального отрезка, поэтому необходимо исследовать область изображения в районе нижнего конца отрезка U с целью поиска кривой вида b. Если кривая b не найдена, то необходимо искать другой вертикальный отрезок. Если кривая найдена, то в соответствии со вторым правилом необходимо искать в районе конца кривой b вертикальный отрезок. Если вертикальный отрезок найден, то в изображении опознан нетерминальный символ СТОРОНА. Затем в соответствии с первым правилом осуществляется поиск символа КРУГ. Если символ КРУГ найден и его расположение соответствует операции * , то процесс распознавания заканчивается успешно.

Семантическая сеть сцены. При анализе многих изображений структуру изображения целесообразно описывать словами, т.е. символически. Кроме синтаксических методов, приведенных в предыдущем разделе, для этих целей удобно использовать семантические сети, т.е. представлять структуру сцены в виде графа. При этом узлы графа помечаются наименованиями частей сцены", а дули - наименованиями семантических отношений, в которых находятся связанные ими узлы. В качестве примера опишем в виде семантической сети сцену, показанную на рис. 7.9. Структура графа будет подобна дереву разбора на

Page 58: Компьютерная лингвистика

рио.7.10. Для описания сцены введем, например, следующие отношения: "часть", "тип", "смежный", "слева", "справа", "выше", "ниже". Вид одной из возможных семантических сетей, описывающих указанную оценку, приведен на рис. 7.13. Луги на рисунке направлены таким образом, что при чтении наименования узла у "хвоста".

Рис.7.13

. дуги наименование дуги и наименование узла у "головы" дуги получается выражение естественного языка, например:

ЦИЛИНДР ТИП ОБЪЕКТОВ. В виде семантических сетей удобно представлять не только описание

анализируемой сцены, но и знание системы о понятиях (модели понятий), которые должны быть обнаружены на сцене.

Трехмерные модели объектов. Описание сцены, состоящей из терминальных объектов, возможно двумя способами. Первый состоит в описании трехмерной сцены терминами двухмерных конструкций. В этом случае трехмерная природа объектов игнорируется и описывается их плоское изображение. Второй способ описывает собственно трехмерные объекты, а не их изображение. Проиллюстрируем различие между способами на примере сцены, представленной на рис.7.9.

Двухмерное описание может быть выражено, например, так: "Три смежных четырехугольника, эллипс с примыкающей к нему криволинейной фигурой и три коллинеарных прямых отрезка". Трехмерное описание может быть определено, например, такими словами: "Параллелепипед и цилиндр, стоящие на полу перед стеной".

Трехмерный способ описания сцен является более общим. Трехмерное описание может быть извлечено из двухмерного изображения только на основании дополнительной информации об объектах, присутствующих на сцене. Эта информация задается в виде трехмерных моделей объектов окружения. Так, для сцены, изображенной на рис.7.9, такая модель могла бы быть описана так: "Все ребра параллелепипеда являются прямолинейными отрезками, а у цилиндра некоторые ребра образованы криволинейными отрезками". Даже, такой грубой модели было бы достаточно для интерпретации на рис.7.9 в терминах трехмерных

Page 59: Компьютерная лингвистика

объектов. В общих чертах процесс анализа изображений происходит следующим

образом. Сначала система выявляет из изображения наиболее достоверную информацию и легко извлекаемую, такую, как размер и форма внешнего контура. Затем из множества моделей, имеющихся в системе, отбираются модели-кандидаты, не противоречащие первичной информации. Среди них, выбирается наиболее подходящая модель, которая используется для того, чтобы направлять дальнейший процесс обработки изображения. Анализируя выбранную модель, система предсказывает свойства, которые должны быть исследованы на изо-бражении в первую очередь, и указывает место их расположения.

При «обнаружении предсказанных свойств на изображении процесс предсказания продолжается либо до полного опознания объектов, либо до выявления различия между предсказанием и изображением.

При обнаружении различий система пытается определить, не вызваны ли они поворотом объекта в пространстве или загороженностью одного тела другим и т.п. Если различие относится к такому классу, то оно устраняется. Например, если система может предположить, что эллипс на изображении соответствует окружности в модели. Приняв данное предположение, система определяет угол наклона наблюдаемой поверхности и производит перерасчет остальных видимых точек. Если различие является неустранимым, то это значит, что выбранная модель не соответствует анализируемой сцене. В этом случае система выбирает из списка моделей-кандидатов очередную модель, наиболее соответствующую собранной к данному моменту информации.

Система восприятия изображений. Блок-схема системы восприятия изображений представлена на рис. 7.14. На первом этапе осуществляется распознавание элементов изображения. Для этого изображение фильтруется и корректируется. Некоторые элементы сглаживаются, а другие, наоборот, подчеркиваются. Далее изображение представляется в виде двухмерной матрицы с яркостными точками, контурами и областями. Контуры и области выделяются с целью определения наиболее значимых элементов изображения.

При выделении элементов формализованного описания изображения из предметных областей, яркостных точек выделяются возможные объекты. На этапе семантического анализа эти объекты с помощью семантической модели объединяются в модель изображения.

Полученная модель изображения переводится во внутреннее представление, т.е. каждая точка изображения идентифицируется во внутреннем мире. Другими словами, дается однозначная трактовка изображения в мире системы. Если требуется не только "понять" входное изображение, но и изменить его по некоторому заданному критерию, то внутреннее представление изображения поступает на этап семантического синтеза. Целью семантического синтеза являет-ся формирование модели выходного изображения.

Модель выходного изображения представляется в виде формального описания подобно тому, которое используется при анализе входного изображения, т.е. в виде объектов, связанных друг с другом пространственными отношениями (один объект ближе другого на 5 м, стоит на 3 м левее и т.д.). Все эти объекты представляются в виде последовательности точек однозначно определенной яркости. Полученное множество точек выдается на дисплей, в результате чего на экране формируется выходное изображение.

При понимании информация, содержащаяся в принятом сообщении, отражается на имеющееся знание, из которого извлекается та его часть, которая необходима и доступна для связи входного сообщения с предыдущим и последующим диалогом. При общении имеющееся внутреннее представление

Page 60: Компьютерная лингвистика

преобразуется в выходное сообщение.

Рис.7.14.

Page 61: Компьютерная лингвистика

Рис. 7.15.

В отличие от систем машинного перевода, в которых заранее трудно

определить тему обрабатываемого сообщения, в вопросно-ответных системах предметная область, как правило, четко определена функциональной задачей, поэтому появляется возможность представить знания системы в виде тезауруса или семантической сети.

В этих условиях процедура анализа входного сообщения и синтеза выходного сообщения оказываются замкнутыми алгоритмическими процедурами понимания, в основе которых лежит отображение входных сигналов на модель предметной области и извлечение из знаний системы необходимой информации.

Общая функциональная схема общения в форме текста, речи и изображения может иметь вид, представленный на рис.7.15.

Основа системы общения - семантическая модель предметной области. Фрагмент действительности, выраженный в запросе в форме текста, речевых сигналов или изображения, поступает в систему отображения на модель предметной области. По результатам отображения формируется ответ в виде текста, речевых сигналов или изображения. Отсюда следует несводимость модели

Page 62: Компьютерная лингвистика

общения к модели языка.

7.4. Автоматизированные информационные системы Практическим результатом обработки информации на различных языках

(естественном или созданных человеком) может стать автоматизированная информационная система (АИС), предназначенная для накопления, поиска, обработки и выдачи информации различного рода. По целевому назначению их можно разделить на информационно-справочные (такие системы обеспечивают обор и частичную подготовку информации для ее использования человеком) и информационно-советующие (эти системы подготавливают определенные предложения и рекомендации по управлению тем или иным процессом). Сам же процесс управления осуществляется не системой, а человеком.

Задачи, ставящиеся перед АИС, разнообразны. Они представлены на рис.7.16.

Информационные задачи: задачи ввода обеспечивают ввод форматированной и/или нефор-

матированной информации, оперативно или по регламенту; . задачи корректировки дают возможность вносить изменения в ранее

введенную информацию. Задачи выводам информационно-справочные задачи выдают информацию по запросам

(стандартным и нестандартным). Если запрос стандартный, то он имеет свой идентификатор в библиотеке запросов, что сокращает время решения задачи. Эти задачи решаются, как правило, в диалоговом режиме, но могут решаться и в отсроченном или регламентированном;

учетно-статистические задачи формируют качественно новую информацию; информационно-расчетные задачи служат для автоматизации расчетов и

моделирования процессов и ситуаций в системах управления. Технологические задачи: задачи обеспечения функционирования отвечают за настройку всех

компонент АИС на конкретное применение, контроль правильности функционирования и сопровождения системы;

задачи развития совершенствуют и адаптируют АИС; в задачах обучения содержатся программы и обучающие курсы,

ориентированные на определенные категории пользователей; задачи документирования используются для автоматического изготовления

технической документации. Информационно-поисковые системы (ИПС) являются основным звеном

любой АИС. Они предназначены для поиска текстов в хранилищах по формальным характеристикам.

ИПС работает в два этапа: сбор и хранение информации, поиск и выдача информации потребителям.

Процесс движения информации можно представить схемой, приведенной на рис.7.17.

Пертинентностью в ИПС называется соответствие текста документа фактической информационной потребности, а релевантностью (смысловой или формальной) - соответствие одного текста другому. Смысловая релевантность определяется смысловым соответствием текстов, а формальная - соответствием поисковых признаков.

Page 63: Компьютерная лингвистика

Рис.7.16.

Рио.7.17

Различные ИПС объединяют следующие задачи: анализ важности документов и их отбор; создание поискового образа документов; запись документов и поисковых образов документов на принятые в ИПС

носители; хранение документов и поисковых образов документов (ПОД); выдача документов потребителям. Процесс функционирования Ш

Page 64: Компьютерная лингвистика

изображен на рис.7.18.

Рис.7.18.

Классификация ИПС представлена на рис.7.19 и 7.20. Документальные ИПС выдают адреса хранения поисковых образов, копия

или оригиналы документов, содержащих требуемую информацию, Фактографические ИПС выдают непосредственно требуемые фактически

данные.

Page 65: Компьютерная лингвистика

Рис.7.19.

Page 66: Компьютерная лингвистика

Рис.7.20.

Page 67: Компьютерная лингвистика

Логические ИПС (или информационно-логические системы) выполняют при необходимости логическую переработку информации.

Комплексные ИПС содержат отдельные элементы трех предыдущих типов. Избирательное распределение информации производится по постоянным

информационным запросам. Поиск осуществляется в массиве вновь поступающих документов.

Ретроспективный информационный поиск выполняется по разовым запросам и состоит в отыскании документов, в которых содержатся сведения по определенному вопросу.

Примером ИПЯзыка предкоординатного типа могут служить различные классификационные системы (алфавитно-предметные, фасетные, иерархические ).

Наиболее распространены ИПЯ посткоординатного типа, использующие дескрипторный язык.

Критерием соответствия называется совокупность правил, по которым определяется степень формального соответствия между ПОД и ПП.

Критерий соответствия (КрС), выраженный через логические схемы, представляет собой любое сочетание логических операций, И, ИЛИ, НЕ.

КрС, выраженные через аналитические функции, могут быть статистические и векторные.

КрС, выраженный через "весовые" функции, определяет релевантность документа по сумме "весовых" коэффициентов совпавших терминов запроса и документа (не менее установленной пороговой величины).

Автоматическое индексирование предусматривает автоматизацию процессов свертывания информации и перевод ее о естественного языка на ИПЯ. Степень автоматизации определяется уровнем автоматизации процесса индексирования в ИПС.

Автоматическая классификация массивов подразумевает формирование массивов по заранее заданным специальным признакам (меткам), содержащимся в ПОД, порождение кланов документов на основе ассоциативных связей между терминами, входящими в ПОД, и т.п.

Автоматический поиск определяется уровнем автоматизации сортировки данных и сравнения ПОД с ПП.

Автоматическая выдача регулирует вид выдаваемой информации -номера документов, библиографии или описания, ПОД и т.п.

Автоматическое управление характеризуется автоматизацией процессов обратной связи и смены режимов поиска в ИПС.

7.5. Машинный перевод Методы подхода к решению этой задачи можно подразделить на два типа:

дедуктивный и индуктивный. Первый основан на формальном описании семантики с использованием модели "текст - смысл - текст", второй - на переводных соответствиях с использованием модели "текст - текст".

При первом подходе стремятся получить полностью автоматизированный высококачественный машинный перевод с максимальным использованием семантики языка. Общую схему можно представить себе как переход от независимого анализа и синтеза морфологического, синтаксического и семантического уровней к смыслу текста.

Основой системы является, таким образом, переход от поверхностной структуры к глубинной, от текста к его смыслу. Этот переход осуществляется с использованием словарей входного и выходного языков, а также грамматических правил. Образец обработки текста представлен на рис.7.21.

На первый блок поступает входная фраза, на вход каждого последующего -

Page 68: Компьютерная лингвистика

результат работы предыдущего, на выходе последнего блока образуется перевод входной фразы. Первая процедура выдает лексемы с приписанными морфологическими и словарными характеристиками, вторая образует поверхностно-синтаксическое дерево, третья формирует глубинно-синтаксическое дерево, четвертая подключается только при наличии "несовместимостей" в предыдущем представлении. В результате на выходе этапа анализа возникает базисная структура, по синтаксическим свойствам более приближенная к выходной. Пятая процедура заменяет входные лексемы соответствующими выходными эквивалентами, шестая формирует глубинно-синтаксическое представление выходной фразы, седьмая образует выходное поверхностно-синтаксическое представление, восьмая устанавливает линейный порядок лексем, девятая формирует выходную фразу.

На схеме просматривается аналогия между преобразованием информации в вопросно-ответных системах и процедурами дедуктивного перевода. Разница заключается в охвате предметной области.

Рис.7.21.

Page 69: Компьютерная лингвистика

Второй подход рассматривает текст как избыточную многоуровневую систему, на верхних ярусах которой находятся наиболее информативные лексические единицы, на нижних - малоинформативные. Речь идет о бинарном переводе, при построении которого структура входного и выходного языков объединяется в суперструктуру. Перевод производится следующим образом: лексический перевод при помощи автоматического словаря, семантический перевод, опирающийся на алгоритмы устранения многозначности, составление грамматических алгоритмов.

Такая модель перевода имеет два состояния. Состояние генерации обеспечивает настройку модели на условия ее работы: накопление словарей, алгоритмов анализа и синтеза с ориентировкой на конкретную предметную область. В состоянии трансляции система собственно работает над осуществлением перевода.

В модели различаются предметный и динамический компоненты. Предметный отвечает на вопрос, что должно быть переведено, динамический - как осуществить перевод. Предметный компонент включает лексику, грамматику и семантику, заданные перечислением (предметный элемент), а также переводные соответствия, заданные также перечислением.

Различают эквивалентные, вариантные и трансформационные (под-ключающие сложные алгоритмы анализа, синтеза и межъязыковых преоб-разований) соответствия (переводной элемент). Предметный элемент образует исходную структуру компонента, на которую накладывается сеть переводного элемента.

Динамический компонент отвечает за конструирование выходного текста. В режиме генерации предметный компонент опережает динамический. Основной единицей перевода является предложение, однако границы

перевода при необходимости могут сужаться или расширяться. Схема этого подхода представлена на рис.7.22. Первая процедура занимается поиском входной цепочки символов в словаре,

приписыванием ей словарной информации, распознаванием оборотов, морфологическим анализом словоформ, вторая на основе данных только входного текста разрешает лексико-грамматическую омонимию, определяет синтаксическую функцию слов предложения, ряд грамматических категорий - число, время и т.п. Третья процедура описывает перевод одно- и многозначных слов, четвертая осуществляет грамматическое и морфологическое оформление различных видов связей, определяет грамматические категории, пятая обеспечивает трансформационные преобразования, шестая синтезирует завершающие сложные грамматические формы.

Page 70: Компьютерная лингвистика

Рис.7.22.

7.6. Интеллектные .робототехнические системы Широков применение находят разработки в области вычислительной

лингвистики и в робототехнических системах К интеллектным робототехничеоким системам относят системы третьего

поколения, распознающие объекты и юс состояния с использованием совокупности анализаторов и определяющие действия, которые им следует выполнять, общаясь с человеком на естественном языке. В таких системах развивается "языковой" подход к описанию моделей проблемной среды. Модель рассматривается как некоторая семантическая система, которая помимо синтаксических отношений между элементами должна включать семантические отношения - смысловые связи, - позволять оперирование ими при поиске пути до-стижения цели. Введение семантических отношений допускает более сжатое представление описания модели и обеспечивает в какой-то степени направленные смысловые преобразования информации.

Создание интеллектного робота предполагает решение следующих задач: восприятие и распознавание окружающей среды; обработка команд и принятие решения; управление исполнительными механизмами; обмен информацией между человеком и роботом. Структуру организации интеллектного робота можно представить

следующим образом (рис.7.23). Система формирования решений является центральной, управляющей. К ее

функциям относится: принятие решения о том, что должна делать каждая система робота на

определенном отрезке времени; проверка результатов этой деятельности; выявление причин отклонений реальных результатов от ожидаемых и их

Page 71: Компьютерная лингвистика

анализ; накопление новой информации об изменениях в среде для принятия новых

решений. Система представлена на рис.7.24. Набор операторов представляет собой формальное описание моделей

действий, которые способен совершать робот. С их помощью одни состояния внешнего мира преобразуются в другие (если выполняются условия применимости операторов).

Система восприятия информации обеспечивает связь робота с внешней средой, представленной для робота в двух вариантах: внешний мир и человек-оператор.

Эффекторная система управляет действиями манипулятора и охвата в реальной среде.

Функциональное устройство системы восприятия информации и эффекторной системы представлено на рис.7.25.

7.7. Экспертные снстемы

Рис. 7.23.

Результаты многолетних исследований в области искусственного интеллекта, включая компьютерную лингвистику, нашли наиболее полное практическое применение в экспертных системах. Под экспертной системой понимают автоматизированную систему, в которой накоплен человеческий опыт в определенной области, например, в политике, медицине, проектных работах, банковском деле и т.п.

Экспертные системы являются человеко-машинными системами, интеллектуальное ядро которых составляют средства машинного восприятия, распознавания и понимания речи из моделей естественного языка с моделями предметной области. Любая экспертная система включает базу знаний, состоящую из правил (продукций), каждая из которых по своей сути есть просто программа из одного оператора вида "если (условие), то (действие)”.

Последовательностью таких элементарных программ определяется набор разрешенных преобразований от начального состояния до окончательного решения поставленной задачи. Правила с помощью специальной программы могут добавляться, изменяться и исключаться. Каждая продукция представлена отдельным модулем, который может аппаратно исполняться отдельным процессором. Все продукции объединены управляющей структурой.

Page 72: Компьютерная лингвистика

Рис.7.24.

Рис. 7.25.

В экспертную систему входят эксперты и ряд программ (рис. 7.26). Знания экспертов вводятся в экспертную систему и используются пользователями для экспертизы в данной предметной области.

Вопросно-ответная программа обеспечивает возможность взаимодействия о пользователем на естественном языке. Программа накопления знаний позволяет пользователю пополнять и модифицировать базу знаний, объясняющая программа

Page 73: Компьютерная лингвистика

- проверять ответ системы. Программа-интерпретатор интерпретирует продукции в терминах предметной области. Исполнительная программа обеспечивает работу всей системы.

Для большинства применений экспертных систем типично следующее: выбор предметной области, где важная роль отводится эвристическим

подходам; выбор трудноформализуемых задач, требующих для своего решения такого

количества информации, что полная ее обработка трудоемка и утомительна для человека.

Одним из самых трудоемких и длительных процессов при создании экспертных систем является процесс представления знаний и построение базы знаний. Эта трудоемкость, в частности, связана с необходимостью структурирования знаний для организации быстрого поиска.

При структурировании знаний отделяют факты из области применения системы (декларативные знания) от методов решения проблемы (процедурные знания).

Декларативные знания поступают в систему от экспертов в данной области в включают в себя аксиомы или правила, относящиеся к этим фактам. Для представления декларативных знаний применяются в качестве языков системы классификаций, семантические сети, фреймы:

Рис.7.26.

и т.д. Объединяет их возможность отражать функциональные, простран-ственные и временные связи между объектами реальной действительности. Терминальными элементами в этих языках выступают такие семантические категории, как "причина - следствие", "правило - исключение", "множество - подмножество", "род - вид", "общее - частное", "часть - целое" и т.д.

Процедурные знания относятся к процедурам обработки информации, к методам логического вывода. Эти знания описывают последовательности действия, которые должны быть совершены, и последовательности целей, которые должны быть достигнуты. .

Процесс решения задачи может развиваться индуктивно от данных в направлении поиска решений и дедуктивно, исходя из гипотез о возможном решении в направлении поиска доказательств истинности принятых гипотез.

Пример. Какие повреждения сокращают выход бензина из бензонасоса в автомобиле?

Декларативное знание, введенное в экспертную систему: засорен клапан;

Page 74: Компьютерная лингвистика

загрязнен фильтр; грязь под клапаном; повреждена мембрана насоса. Если выход бензина из бензонасоса недостаточен, то, возможно, засорен

впускной шланг и т.д. Возникает проблема ведения базы знаний. Необходимость изменения базы

знаний с течением времени очевидна. Она может быть вызвана устареванием существующих знаний, появлением новых или дополнительных сведений. Согласование знаний и отладка базы знаний выполняется на основе объяснительных механизмов экспертных систем в рамках решений общей проблемы, получившей название "инженерии знаний". При этом учитывается возможность 'согласования неточных и противоречащих знаний, способность системы выдавать не единственное решение, а множество решений, отражающее различные возможности при оценивании опорных ситуаций.

Для представления и ведения знаний в экспертных системах используются языки обработки символьной информации ЛИСП, РЕФАЛ, ПРОЛОГ и т.д. Они удобны для представления эвристических знаний и логического вывода. В них используется единый декларативный формалиэм для представления знаний из предметной области и процедурных знаний, включающих знания о самих процедурах.

Успех практической работы экспертных систем определяется их способностью к развитию и обучению. Проблемно-независимую часть экспертных систем ("пустую систему"), применение которой предполагается в любых предметных областях, принято называть "инструментальной экспертной системой".

7.8. Гипертекстовая и гипермедиатехнология • Гипертекстовая технология основана на такой машинной организации

текстового материала, при которой лексические единицы представлены не только линейной последовательностью, но и ассоциативными связями между ними, определенными знаниями о предметной области. Генерируя эти связи, можно в любом порядке формировать другие линейные тексты. Знания о языке и предметной области тесно взаимосвязаны. При достаточно обширном материале с большим количеством связей возникает весьма сложное гипертекстовое пространство в виде своеобразной семантической сети, многомерно отражающей предметную область.

По мере развития технических средств растет интерес к возможности расширения гипертекста до более широкого понятия гипермедиа-информационной суперсферы, в которой взаимосвязаны не только текстовые формы, но и речевые, графические, вкусовые, обонятельные и осязательные ощущения в статике и динамике.

Система гипермедиа интегрирует процессы преобразования человеческих знаний с информационной технологией, полным набором носителей и техническими средствами. Гипертекстовые и гипермедиасистемы существенно уменьшают семантический разрыв между человеком и машиной, повышают когнитивность машин и, увеличивают возможности информатизации. Можно сказать, что гипермедиатехнологии являются предтечей будущих кибернетических систем, обладающих сенсорными • возможностями сравнимыми с человеческими, способных активно и автономно воздействовать на окружающую среду, то есть по сути, открывают путь к машинной цивилизации.

7.9. Проблема системного описания языка Как показывает анализ, разработка лингвистического обеспечения в

значительной мере отстает от имеющейся машинной базы, существующие у нас и

Page 75: Компьютерная лингвистика

за рубежом системы диалогового типа (ПРИЗ, ДИСПУТ, ДИЛОС, СИНОПТИК и др.) обладают незначительным словарем и ограниченными возможностями применения. Подобный дисбаланс технической стороны и лингвистического обеспечения объясняется двумя причинами: недостаточным вниманием к языковой проблематике (малые капитальные вложения, отсутствие кадров лингвистов-прикладников) и отсутствием общей теории языка, без которой все проводимые лингвистические работы носят частный характер и не дают ощутимого практического результата.

Попытка создания такой теории была предпринята В.А. Карповым. Ценность этой работы состоит, прежде всего, в том, что автор использует

вариант общей теории систем Ю.А. Урманцева, что позволяет избежать неполноты описания языковой системы, формализовать основные знания о языке и эксплицировать их в виде системокодов и алгоритмов.

Рассмотрим основные положения этой теории. Под системой S В.А. Карпов вслед за Ю.А.Урманцевым понимает t-e

множество композиций Mi, построенное по отношениям Ri-м множества отношений {Ri), операциям O. V-м множества операций (Oi,), законам композиций μ-м множества законов композиций (Zi) из первичных элементов R l-х множества M(0)

i, выделенного по основанию A(0)i из множества М.

Для доказательства системности русского языка должны быть решены следующие задачи:

1. Определить исходное множество Mi, или лингвистический универсум. 2. Выбрать некоторое единое основание A(0)

i для получения множества первичных элементов.

3. Вывести или наложить на множество первичных элементов некоторое множество отношений единства R(1)

i 4. Вывести или наложить на множество первичных элементов некоторое

множество законов композиций Z(1)i.

5. Описать операции, по которым отроятся композиции первичных элементов.

6. Получить на базе всех описаний на выходе систему Si Лингвистический универсум определен в виде литературы с ограничением

"прозаические тексты". Для более четкого представления о возможностях выбора основания

построена схема, отражающая в наиболее общем виде различные структурные уровни речемыслительной деятельности и связи между ними.

Page 76: Компьютерная лингвистика

Определение языка, выведенное с помощью этой таблицы, имеет вид: "Язык

- это система, состоящая из трех типов систем разных уровней функционирования - орфограмматик и орфосинтактик, словоформ и композиций и множеств словоформ и множеств композиций".

В качестве основания для получения первичных элементов словоформ можно выбрать пробел (пробел + знак препинания). Аналогично словоформа по некоторому основанию членима на морфены, морфены на буквы и т.д.

Код отношений единства R. Под отношением вообще понимается некоторое свойство (признак,

качество, количество; отдельного элемента или группы Элементов, однородных в некотором отношении.

Первое отношение единства - единство класса. это значит, что первичные элементы типа "тихо", "потихоньку", "быстро", "вскачь", "быстрее" принадлежат к одному множеству первичных элементов (наречия), а элементы типа "мать", "сестра", "в Калуге" - к другому подмножеству (существительные).

Второе отношение единства - это единство позиции, подпозиции. Оно означает, что элементы внутри указанных подтипов находятся в одной позиции (или подпозиции), например:

а) сестрой, Наташей, солнцем; б) нашу, новую, родную; в) выше, дальше, сильнее. Существенным фактом является наличие у разных классов общих позиций,

что позволяет при необходимости отступать от традиционного деления, сводя, к примеру, в один класс прилагательные, причастия, притяжательные местоимения на основании одной группы изменений.

Третье отношение единства - единства корня, выражающее некоторую

Page 77: Компьютерная лингвистика

наиболее общую для ряда элементов нерасчлененную идею (например элементы типа "брать", "собрать", "избранник", "выборочно" связаны общей идеей). Всего для трехпризнаковой R -системы, включая случай полного отсутствия всех трех отношений единства, будет существовать восемь комбинаторных вариантов (рис.7.27).

В нишу R1 попадают композиции типа: "поэт, поэт", "нет, нет", Петру Петровичу, "два двадцать" и т.п., обладающие единством всех трех классов.

Рис. 7.27

В нише R2 находятся композиции типа "в лес”; "смелые, решительные", "поэт Блок", "каждый встречный" и т.п., характеризующиеся единством класса и позиции.

В нише R3 (единство класса и корня) находятся композиции типа "честь честью", "учу учить", "три на три" и т.п.

В нише R4 - композиции, характеризующиеся признаками единства позиции и корня: "масло масляное", "Иван Ивановский", "писатель написал" и т.п.

В нише R5 - множества композиций, удовлетворяющих отношению единства класса: "ученик чародея", "начал работать", "для очистки совести" и т.п. ".

В нише R6 (признак единства позиции) находятся следующие композиции: "веселые ребята", "Наташа переехала", "заседание закрыто" и т.п.

Ниша R7 объединяет композиции, отвечающие отношению единства корня: накрыл крышкой, ходить ходуном, объять необъятное и т.п. В нише R8 - находятся следующие типы композиций (характеризующихся

отсутствием отношений единства): проткнул гвоздем, сидел в комнате, говорила громко и т.д.

Все многообразие фактического материала, имевшегося в распоряжении исследователя, "упаковывается" в указанные восемь R-ниш.

Это свидетельствует в пользу того, что выведенные отношения единства русского языка как предполагаемой системы оказываются достаточными для классификации всего многообразия композиций по данным R.

Код законов композиций Z Понятие позиция соответствует любой из форм изменений первичного

элемента любого класса, имеющего группу изменений. В том случае, если класс и элемент класса не имеют изменений, можно говорить о нуль-позиции или исходной форме элемента.

Взаимодействие по крайней мере двух элементов - это разрешение на связь семантик при определенных разрешениях на связь позиций, оно дает в результате композицию первичных элементов. Нуль-композиция - это композиция из одного

Page 78: Компьютерная лингвистика

элемента. Базовыми, ядерными называются двухэлементные композиции. Наглядно законы композиций можно представить в виде матрицы, каждая

клетка которой и будет законом композиции (рис.7.28). Автор приводит данные по вероятностной и реальной встречаемости

элементов одного класса и элементов разных классов в двухэлементных композициях.

На уровне классов можно говорить о 33-х законах композиции, а если не пренебрегать порядком следования элементов в композициях, можно говорить о 66-х законах композиции.

Существ.

Глагол

Прилаг.

Наречие

Предлог

Числит.

Местоим.

Существительн

Глагол

Прилагательн.

Наречие

Предлог

Числительное

Местоимение

Рис. 7.28 Системная лингвистическая модель русского языка (СЛМРЯ) В отличие от многих других существующих модель, разработанная

В.А.Карповым, базируется на результатах системного подхода к изучению русского языка.

Page 79: Компьютерная лингвистика

Лингвистическая часть модели описывается четырьмя блоками. К ним примыкают еще два блока нелингвистического характера (рис. 7.29).

Рис.7.29

Однако приложения модели к задачам автоматизированной обработки текстов остаются нечетко определенными.

Page 80: Компьютерная лингвистика

Библиографический список 1. Бондарко Л.В.Звуковой отрой современного русского языка. М.,

1976.. 2. Вейжедл P.M. Представление знаний и обработка естественных

.языков. М., 1986. Т.74, * 7. 3. Катц Дж. Семантическая теория. Новое в зарубежной лингвистике.

Вып.10. М., 1981. 4. Лайонз Дж. Введение в теоретическую лингвистику. М., 1979. 5. Панов М.В. Современный русский язык. Фонетика. М., 1979. 6. Поспелов Г.С. Искусственный интеллект - основа новой инфор-

мационной технологии. М., 1988. 7. Фант Г. Акустическая теория речеобразования. М., 1964. 8. Филлмор И. Дело о падеже // Новое в зарубежной лингвистике.

Вып.10. М., 1981. 9. Силлмор И. Дело о падеже открывается вновь // Новое в зарубежной

лингвистике. Вып.10 М.,. 1981. 10. .Шемакин Ю.И. Основы информатики и вычислительной лингвисти-

ки. М., 1983. 11. Шемакин Ю.И. Введение в информатику.М., 1985. 12. Якобсон P.O. Фант Г., Халле М. Введение в анализ речи ,// Новое в

зарубежной лингвистике. Вып.2., 1962. 13. Попов Э.В. Общение с ЭВМ на естественном языке. М., 1989. 14. Апресян Ю.Д. Лексическая семантика. М., 1974. 15. Падучева Е.В. Математические методы в теории научно-технической

информации. 4.1. М., 1979.

Page 81: Компьютерная лингвистика

ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ............................................................................................................4 ГЛАВА 1. ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ЯЗЫКЕ ...........................................6

1.1. Язык и мышление .......................................................................................6 1.2. Язык как знаковая система ........................................................................7 1.3. Язык и речь..................................................................................................7 1.4. Языковая структура. Уровни языка ..........................................................8

ГЛАВА 2. ФОНЕТИКА.........................................................................................9 2.1. Звуковой характер языка............................................................................9 2.4. Фонология. Понятие о фонеме ................................................................12 2.5. Звуки и буквы. Понятие об алфавите .....................................................12

ГЛАВА 3. МОРФОЛОГИЯ.................................................................................14 3.1. Основные понятия. Морфема. Виды морфем ........................................14 3.2. Формальные модели морфологии ...........................................................15 3.3. Морфологические словари ......................................................................16

ГЛАВА 4. .СИНТАКСИС ...................................................................................17 4.1. Основные понятия. ...................................................................................17 4.2. Словосочетание.........................................................................................17 4.3. Предложение .............................................................................................18 4.4. Синтаксические отношения.....................................................................19 4.5. Управление. Согласование. Примыкание ..............................................19 4.6. Коммуникативная организация предложения .......................................20 4.7. Трансформационная (порождающая) грамматика ................................22

ГЛАВА 5. СЕМАНТИКА ...................................................................................27 5.1. Основные понятия. Значение. Виды значений .....................................27 5.2. Семантические отношения. Парадигматические и синтагматические

отношения ..................................................................................................................28 5.3. Формальные модели семантики ..............................................................30 5.4. Основы лексикографии ............................................................................30 5.5. Семантические сети..................................................................................33 5.6. Фреймы ......................................................................................................34 5.7.- Лексико-семантические комплексы ......................................................34 5.8. Представление о модели "смысл «* текст" ............................................34

ГЛАВА 6. ПРАГМАТИКА .................................................................................36 6.1.Основные понятия. Виды прагматических знаний ................................36 6.2. Проблема понимания текстов..................................................................37 6.3. Условия целевого понимания текстов ....................................................42

ГЛАВА 7. АВТОМАТИЗИРОВАННАЯ ПЕРЕРАБОТКА ТЕКСТОВ...........44 7.1. Представление знаний..............................................................................44 7.2. Автоматический анализ и синтез речи ...................................................44 7.3. Визуальное общение. ...............................................................................53 7.4. Автоматизированные информационные системы.................................62 7.5. Машинный перевод ..................................................................................67 7.6. Интеллектные .робототехнические системы .........................................70 7.7. Экспертные снстемы ................................................................................71 7.8. Гипертекстовая и гипермедиатехнология ..............................................74 7.9. Проблема системного описания языка ...................................................74

Библиографический список ................................................................................80