36
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «Уральский государственный университет им. А.М. Горького» ИОНЦ «Русский язык» филологический факультет кафедра современного русского языка Компьютерные технологии в филологии Методические указания к изучению дисциплины Подпись руководителя ИОНЦ Дата Екатеринбург 2007

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования «Уральский государственный университет им. А.М. Горького»

ИОНЦ «Русский язык»

филологический факультет

кафедра современного русского языка

Компьютерные технологии в филологии Методические указания к изучению дисциплины

Подпись руководителя ИОНЦ Дата

Екатеринбург 2007

Page 2: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

2

Утверждено учебно-методической комиссией филологического факульте-

та

Методические указания состоят из следующих частей:

1. Введение

2. Программа учебного курса «Компьютерные технологии в филологии»,

включающая содержание лекционного курса и материалы для самостоятельной

работы студента по основным темам, сформулированные в тезисном виде.

3. Списки рекомендуемой учебной и научной литературы (основной и до-

понительной).

4. Темы лабораторных, семинарских занятий и коллоквиумов.

5. Вопросы и задания для самоконтроля.

6. Перечень вопросов к зачету.

ВВЕДЕНИЕ

Цель данной дисциплины — сформировать у студентов и магистрантов

системное представление о приложимости и развитии компьютерных техноло-

гий в филологических исследованиях. Филология объединяет разные по мето-

дологии направления: лингвистику, литературоведение и фольклористику. В то

же время их объединяет общий объект, которым является текст. Формализация

текстовых данных и возможность быстрой обработки больших текстов создают

новые стимулы для развития филологии. Данный курс в целом способствует

интеграции гуманитарного и естественнонаучного знания, расширению фило-

логического кругозора, развитию более серьезного отношения к применению

статистических методов в студенческих научных работах и практической цен-

ности гуманитарных исследований.

Задачи дисциплины: определить наиболее существенные филологические

направления, в которых активно задействуются компьютерные технологии; вы-

явить значимые аспекты автоматической обработки текста в программах ин-

Page 3: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

3

формационного поиска, машинного перевода, атрибуции текста, в лингвистиче-

ских базах данных и т.п.; дать студентам представление о работе с компьютер-

ными программами, задействующими филологическую информацию.

Данный курс, с одной стороны, базируется на филологической информа-

ции, которую студенты получают в рамках лингвистических и историко-

литературных курсов. С другой стороны, синтетический характер курса пред-

полагает привлечение информации естественно-научных дисциплин: информа-

тики, математики, статистики.

Изучение курса предполагает общую ориентацию в привлечении совре-

менных компьютерных технологий в филологических исследованиях, знание

принципов устроуства лингвистических баз данных, существующих корпусов

русских текстов и умение ими пользоваться. Желательно умение грамотно

пользоваться поисковыми системами (в том числе грамотно построить запрос к

ИПС), системами машинного перевода и современными электронными слова-

рями. Студенты должны быть компетентны в плане применения своих знаний в

любой сфере, в которой может быть востребована филологическая информация.

ПРОГРАММА УЧЕБНОГО КУРСА

«КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ФИЛОЛОГИИ»

Содержание лекционного курса

и материалы для самостоятельной работы студента

I. Введение

Содержани е л екций

Филологические направления, в которых активно задействуются компью-

терные технологии. Экскурс в проблемы автоматической обработки текста, не-

обходимой для работы программ, анализирующих и преобразующих текстовые

данные.

Page 4: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

4

II. Компьютерная лексикография

Содержани е л екций

1. Общие сведения. Формализация структуры словаря. Устройство базы

данных словаря. Типы информации в словаре и базе данных (БД).

2. Объекты БД: таблицы и формы, фильтры, запросы, отчеты, макропро-

граммы. Пользовательская работа с объектами базы в лексикографической

практике.

3. Идеографическая лексикография. Словарь-тезаурус. Устройство идео-

графической базы данных, системное представление семантической иерархии.

Руские идеографические словари. Проект WordNet и его развитие в разных

странах.

Материалы для работы студента

Лексикография — практика, а теперь и большая теория разработки слова-

рей разного типа. Заведомо прикладная дисциплина.

Словари и энциклопедии on-line и в полнотекстовом формате можно най-

ти по следующим адресам:

● gramota.ru

● slovari.ru

● cfrl.ru

● lsw.ru

● rusgram.narod.ru (Грамматика-80)

● speakrus.narod.ru/dict-mirror

● ru.wikipedia.org (сайт «Википедии»)

… …

Словари на дисках

Сегодня большой выбор лексикографических источников, но некоторые

важные словари пока не существуют в электронном формате.

Формализация структуры словаря:

Page 5: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

5

● макроструктура — словник и его организация (словник — совокуп-

ность описываемых единиц, не только слов),

● микроструктура – повторяющаяся модель словарной статьи.

Микроструктура обычного толкового словаря:

● заголовочная единица («лексический вход», вокабула, лемма),

● № значения,

●грамматическая информация,

● стилистическая информация,

● толкование,

● иллюстрации,

● производные единицы,

● фразеология,

● этимологическая информация.

Графическая разметка статьи (пример из БТС):

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-

пломатическое письменное обращение правительства одного государства к

другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Микроструктура конкретной статьи может быть неполной.

Словарь – заведомо формализованный источник, однако он делается для

людей, способных элементарно разделить словарные статьи на зоны.

Это приводит к неполной формализации данных.

Этапы создания современного словаря:

● корпус текстов (на его основе формируется словник и иллюстрации),

● словарные статьи,

● ввод информации в базу данных,

● редактирование информации в базе данных,

● компиляция словаря в текст,

● редактирование в тексте и базе данных,

● верстка и оригинал-макет,

● печать.

Page 6: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

6

Пример словаря:

Русские глагольные предложения: экспериментальный синтаксический

словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.

Схема обеспечения словаря:

● структура толкового словаря глаголов,

● иллюстрации из художественных текстов (конкорданс),

● речения авторов,

● массив структурных схем предложений,

● набор компонентов пропозиции,

● СЛОВАРНАЯ СТАТЬЯ,

● макет,

● печать,

Необходимость быстрой индексации, поиска, сплошного редактирования

информации и т.п.

Среды (системы) управления базами данных (СУБД).

MS Access – наиболее доступная рядовому пользователю СУБД, интегри-

рованная в пакет MS Office.

Содержит средства создания объектов базы данных для неопытных поль-

зователей.

Мастер (Wizard) – процедура создания объекта в полуавтоматическом

(диалоговом) режиме.

Архитектура СУБД:

● средства создания таблиц и поддержания связи между ними,

● средства ввода, поиска, редактирования, вывода данных,

● средства программирования.

Элементы СУБД:

● таблицы,

● формы,

● фильтры — запросы — отчеты,

Page 7: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

7

● программные модули.

Элементы таблицы:

● строка = запись (record) БД,

● столбец = поле (field) БД.

Строки содержат одинаковое число столбцов, но столбцы могут содер-

жать разные виды данных.

Типы полей таблицы — типы информации в базе данных и словаре

● счетчик (Autonumber)

● числовой (number)

● текстовый (text)

● догический (boolean)

● мемо, примечание (memory)

● general, OLE (Object Linking and Embedding)

● дата, время (date, time)

● гиперссылка (hyperlink)

● денежный (currency)

Пример словарной статьи (из БТС) — разбить на типы информации:

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-

пломатическое письменное обращение правительства одного государства к

другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Объект «форма» как словарная карточка.

Основные признаки объектов:

● макет (внешний вид),

● данные,

● события.

Создание объектов СУБД:

● в режиме конструктора (обычно),

● в режиме мастера (для начинающих)

Идеографическая лексикография. Словари для изучения:

Page 8: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

8

● Большой толковый словарь русских существительных: Идеографиче-

ское описание. Синонимы. Антонимы. Сер. «Фундаментальные словари». Под

ред. проф. Л. Г. Бабенко. М., 2005. 864 с.

● Большой толковый словарь русских глаголов: Идеографическое описа-

ние. Синонимы. Антонимы. Английские эквиваленты. Сер. «Фундаментальные

словари». Под ред. проф. Л. Г. Бабенко. М., 2007. 576 с.

● Русские глагольные предложения: экспериментальный синтаксический

словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.

● Русский семантический словарь. Толковый словарь, систематизирован-

ный по классам слов и значений / Под общей ред. Н. Ю. Шведовой. М.: "Азбу-

ковник". Издание продолжается.

И другие издания.

WordNet как идеографическая система

Из аннотации: «WordNet was developed by the Cognitive Science Laboratory

at Princeton University (1985) under the direction of Professor George A. Miller».

http://wordnet.princeton.edu/

Визуализация семантических сетей: http://www.visualthesaurus.com/

Проекты EuroWordNet, BalcaNet

http://www.illc.uva.nl/EuroWordNet/

Русский WordNet: RussNet и др. проекты

Идея автоматического поиска семантических связей (Google):

www.labs.google.com/sets)

III. Корпусная лингвистика

Содержани е л екций

Введение в корпусную лингвистику (КЛ). Общие соображения. Понятия

КЛ. Требования к корпусу. Специфика разметки языковых данных. Проблемы

снятия неоднозначностей в корпусах текстов. Достижения КЛ. Современные

Page 9: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

9

проекты. Корпуса текстов on-line. Проблемы современной корпусной лингвис-

тики.

Материалы для работы студента

Корпус — это сформированная по определенным правилам выборка язы-

ковых данных. По сути это лингвистическая база данных.

Чаще всего под корпусом понимают корпус текстов. Корпус не просто

хранилище в электроном. формате (библиотека), он содержит метатекстовую

разметку, т.е. единицам корпуса приписана содержательная лингвистическая

информация.

Плунгян Владимир Александрович, доктор филол. наук, координатор

проекта «Национальный корпус русского языка»: «Теперь ограничений на объ-

ем анализируемого материала и скорость поиска информации в нем по суще-

ству нет, а это означает, что в распоряжении исследователя оказываются

колоссальные массивы текстов самого разного типа. Это не замедлило ска-

заться на развитии наших знаний о языке <…> подлинно научные описания

грамматического строя языков, а также авторитетные академические сло-

вари — практически все без исключений — должны составляться на основе

корпусов этих языков» .

Появление корпусов изменило философию лингвистического исследова-

ния:

● возможность работы с огромными объемами информации,

● наличие корпусов не только подтверждение научных гипотез, но и по-

становка оригинальных проблем перед теоретической лингвистикой.

В итоге не дихотомия, а триада: Язык — Речь — Корпус

Построение словарей на основе корпуса.

Конкорданс — массив употреблений одной единицы.

Все смешалось в доме Облонских.

Дети бегали по дому как потерянные.

Подъехав к дому, Облонский высадил сестру.

… … … и еще множество контекстов.

Page 10: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

10

Залог качественной, «неумозрительной» выборки материала ⇒ качест-

венная дефиниция в словаре.

Раньше конкорданс можно было представить на карточках словарной

коллекции. Он не был репрезентативен. На него уходило большое количество

времени и усилий.

Понятия корпусной лингвистики:

● корпус данных (чаще текстов),

● проблемная область,

● единица хранения и уровень разметки,

● порог отображения данных: пропорциональное сужение.

Вопрос объема корпуса:

● проблема недостаточности данных

● проблема чрезмерности данных.

Вопрос решается опытным путем.

Типология корпусов:

● статические — динамические,

● исследовательские — иллюстративные,

● параллельные (полиязыковые) – моноязыковые,

● структурированные – неструктурированные (последние нормальными

корпусами не являются).

Требования к корпусу:

● репрезентативность,

● полнота,

● разноуровневая разметка (желательно со снятой омонимией),

● прозрачность и логичность разметки,

● легкость ввода, редактирования и вывода данных в нужном формате,

● программное обеспечение.

Достижения корпусной лингвистики.

Page 11: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

11

● Брауновский корпус американского английского (создан в 1962-1963

гг.) — около 1 млн словоупотреблений.

http://www.hd.uib.no/icame/bcm.html

● Британский национальный корпус (создан в 1990 г., published in 1994) –

около 1 млн словоупотреблений.

http://www.natcorp.ox.ac.uk

● Чешский национальный корпус Карлова университета (Прага).

Основан в 1994 г., 20 млн словоупотреблений для пользователей Интер-

нета, 100 млн словоупотреблений в целом.

http://www.ucnk.ff.cuni.cz

● Проект «Персей» (Perseus). Изначально размеченный массив античных

текстов, а теперь — расширенное хранилище:

Renaissance Materials.

Англоязычные тексты – около 10 млн словоупотреблений.

Латинские тексты — около 1 млн словоупотреблений. И прочее.

http://www.perseus.tufts.edu

Русские проекты

Уппсальский корпус (создан в Швеции в 1987 г.)

Единица хранения – текст.

Основа русского корпуса Тюбингенского университета (ФРГ)

http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

Русские проекты

Машинный (компьютерный) фонд Института русского языка РАН.

The Computer Fund of Russian Language (CFRL) is a research and develop-

ment department within the V.V.Vinogradov Institute for Russian Language of the

Russian Academy of Sciences. It was started in 1985.

(www.cfrl.ru )

Page 12: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

12

Русские проекты

● Корпус газетных текстов, созданный под руководством Анатолия Яно-

вича Шайкевича (Машинный фонд Института русского языка РАН).

Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.

Материал взят из публицистики 2-й половины 1990-х гг.

Выставлен на сайте Машинного фонда Русского языка

Пример разметки в корпусе Шайкевича:

[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language

http:// On-line 99-01-27 &parole.tax; 99-01-27 Russian

izi02edu

Жизнь в России все же не темна. Есть 1 сентября — праздник, который

всегда с тобой…]

Кроме газетного корпуса, за время существования Машинного фонда соз-

дано несколько менее объемных собраний:

● корпус языка Ф. М. Достоевского,

● корпус рекламных слоганов,

● корпус метафор,

● корпус дискурсивных слов и ряд других.

● Национальный корпус русского языка (www.ruscorpora.ru). Руководи-

тель работ проф. В. А. Плунгян.

Около 100 млн словоупотреблений.

Метатекстовая, акцентная, морфологическая, синтаксическая и семанти-

ческая разметка.

Зона со снятой грамматической омонимией (около 5 млн словоформ)

Подразделы корпуса:

1) основной корпус (письменные и устные тексты),

2) диалектный корпус,

3) поэтический корпус,

4) параллельный корпус.

Page 13: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

13

Принципы поиска в корпусе (на примере Национального корпуса русско-

го языка):

● создание подкорпуса,

● поиск по метатекстовым признакам,

● поиск по морфологическим, синтаксическим, семантическим призна-

кам,

● возможность задать расстояние между словами

Неровность проекта на сегодняшний день. Несистемные лакуны в зоне со

снятой омонимией. Тем не менее этот проект сегодня стал самым мощным и

перспективным.

● Хельсинкский аннотированный корпус (ХАНКО). Основан на материа-

лах журнала «Итоги».

100.000 словоупотреблений. Морфологическая разметка.

Руководитель проекта — проф. Арто Мустайоки, координатор — Михаил

Копотев.

Корпус небольшой, зато качественно подобранный и размеченный.

(http://www.slav.helsinki.fi/hanco/)

● Корпус газетных текстов, созданный под руководством А. А. Поликар-

пова (МГУ, филологический факультет, лаборатория общей и компьютерной

лексикографии).

Около 205.000 словоупотреблений. Выставлен на сайте лаборатории.

Кроме того, новый проект лаборатории (© МГУ, 2006):

Корпус «Поэзия и драматургия А. С. Пушкина» и «Путеводитель по Пуш-

кину»

Текстовые единицы размечены информацией 15 типов:

● «Дата»,

● «Адресаты»,

Page 14: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

14

● «Варианты слов»,

● «Персонажи и лица»,

● «Цвето- и светообозначения» и т.д.

● Электронные библиотеки

Самое известное русское собрание – библиотека Максима Мошкова.

(www.lib.ru)

Там же можно найти множество ссылок на др. библиотеки.

В первое время самая большая часть русскоязычных собраний — русская

фантастика.

● www.aot.ru: поиск по библиотеке Мошкова: поиск без снятой омони-

мии, но объем корпуса таков, что он может быть полезен для пользователя.

Проблемы КЛ

● плохое качество электронных текстов,

● затратность в плане времени и ресурсов,

● создание корпуса под конкретный проект; проблема универсальности

корпуса.

IV. Статистический анализ текста

1. Проблема атрибуции текста

Содержани е л екций

Введение в проблему. Этапы и методы атрибуции художественного тек-

ста. Примеры квантитативных методов атрибуции текстов.

Литературоведческие и лингвистические методики. Методы буквенного

(А.А.Поликарпов, Д.В.Хмелев), грамматического, лексического, синтаксиче-

ского анализа. Вопросы, методы, решения. Примеры атрибуции текстов Ф.

Достоевского, М. Шолохова, М. Агеева.

Известные случаи атрибуции анонимных и псевдонимных текстов. Атри-

буция текста в криминалистике. Общие проблемы атрибуции текстов.

Page 15: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

15

Материалы для работы студента

Термины-синонимы:

атрибуция = авторизация = установление авторства анонимного текста

(или текста с мистифицированным авторством)

В шир. смысле — приписывание тексту атрибутов (не только авторства,

но и времени и места создания, жанра и проч.).

Формулировки — результаты атрибуции:

● текст принадлежит автору Х,

● текст не принадлежит автору Х,

● текст, вероятней всего, принадлежит автору Х,

● текст может принадлежать автору Х.

→ Проблема оценки вероятности

Аспекты проблемы:

● текстологический,

● криминалистический.

Проблемы авторства:

● древнерусские литературные памятники

● литература XIX в. (например, стихотворения, приписываемые Пушки-

ну, «Гавриилиада»),

● проблемы авторства: ХХ в. («Тихий Дон», «Роман с кокаином» и т.д.).

ХХ в.. Развитие проблемы:

● Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б.

Эйхенбаум),

● «объективно-исторический» подход (В. Виноградов, Д. Лихачев),

● современные направления (широкое использование квантитативных

методов).

Приемы атрибуции

● извлечение смысловой информации из содержания текста, словаря ав-

тора, референциальной среды (1),

● извлечение смысловой информации из «формы» текста (2).

Page 16: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

16

(1):

● документально-фактологический материал,

● сравнение проблематики, сюжета и тематики с текстами-образцами,

● совпадение/несовпадение семантики и формы мелких сегментов (изби-

рательно-стилистический подход).

(2):

● палеографический и графологический анализ,

● квантитативный метод — собственно математико-лингвистический

Примеры квантитативных методик:

● Н. А. Морозов (1915 г.): идея «лингвистических спектров».

Изучение частотности служебных слов в классических текстах.

Частные наблюдения Морозова:

частица “было” (например, чуть было) — только у Пушкина; “близ” —

только у Тургенева (у других “около”); “ведь” — отсутствует у Карамзина и За-

госкина; “вдруг” и “даже” редки у Толстого; “еле” — только у Гоголя; “заме-

сто”— только у Тургенева; “ибо”— еще употребляется часто Карамзиным и Го-

голем, изредка Пушкиным, но уже совсем отсутствует у Толстого, Тургенева и

Загоскина и т.п.

Поиск характеристик текста, которые вряд ли мог учитывать автор.

● А. Л. Гришунин: анализ дублетных языковых средств (Иванович – Ива-

ныч, дверь – двери, много лет (тому) назад, может быть – быть может и

проч.).

● Г. В. Ермоленко (Анонимные произведения и их авторы. Минск, 1988).

4 приема:

анализ высокочастотной лексики,

анализ низкочастотной лексики,

выявление речевых параллелей (дублетов),

анализ покрытия текста нейтральными словами.

Page 17: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

17

● Милов Л. В. и др. ( От Нестора до Фонвизина: Новые методы определе-

ния авторства. М., 1994): атрибуция древнерусских литературных памятников и

анонимных произведений XVII-XVIII вв.

Проведен морфологический и синтаксический анализ, выявлено порядка

150 признаков.

● Методика Дмитрия Хмелева (лингвоанализатор)

Самый любопытный ввиду абсолютной «формальности» метод:

● буквы текста как реализация марковских цепей,

● матрица буквосочетаний,

● оценка вероятности авторства.

Атрибуция «Тихого Дона»

Хьетсо Г. и др. Кто написал «Тихий Дон»? М., 1989.

Использованы традиционные способы; кроме того, проанализированы:

● словарный профиль,

● словарный запас,

● дистрибуция классов слов,

● частотность частей речи в разных позициях в предложении,

● самые частотные сочетания слов.

Атрибуция в криминалистике. Объекты:

● плагиат и авторские права

● дискредитация конкурентов

● разные тексты, связанные с составом преступления (угрозы, шантаж,

взятки, договоренности о сбыте наркотиков и т.п.)

→ Работа как с письменными, так и устными источниками

Методы:

● идентификационные,

● неидентификационные.

Выводы

● количественные методы атрибуции самые надежные;

Page 18: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

18

● слабость методов — в их зависимости от длины анализируемых тек-

стов;

● поиск стилистических характеристик, не подверженных авторской во-

ле;

● важность временн'ых характеристик текстов.

2. Лингвистические принципы автоматического выделения инфор-

мации из текста

Содержани е л екций

Выделение терминов из корпуса текстов: графический уровень, словооб-

разовательный уровень, лексический уровень, синтаксический уровень, тексто-

вый уровень. Проблемы автоматического реферирования документов.

Материалы для работы студента

Основные задачи:

● выделение ключевых слов («терминов»)

● установление семантических связей между ними

● автоматическое реферирование документа (если необходимо)

Приложимость в научно-технической сфере. Экономия времени и денег.

Уровни языка и печатного текста:

● графический,

● словообразовательный,

● лексический,

● морфологический,

● синтаксический,

● текстовый.

Проблемы:

● идиоматичность семантики,

● размытость понятий «словосочетание» и «термин»,

● многофункциональность текстов,

Page 19: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

19

● существование различных форматов (doc, pdf, txt, html и т.п.),

● «незавершенность» интернет-текстов.

Графический уровень: распознавание шрифтовых средств. Разметка в

html-документах.

Словообразовательный уровень: сложные термины (маркер — дефис),

аббревиатуры.

Лексический уровень:

● ключевые термины, keywords (они могут быть указаны — «плюсы» и

«минусы» анализа),

● статистическая идея, удаление «стоп-слов»; проблема ложной стати-

стики, тематическая и стилистическая специфика документа,

● поиск (квази)синонимии,

Лексическая частотность и закон Ципфа:

● закономерность распределения частоты слов естественного языка: если

все слова языка (или просто достаточно длинного текста) упорядочить по убы-

ванию частоты их использования, то частота n-го слова в таком списке окажет-

ся приблизительно обратно пропорциональной его порядковому номеру n (так

называемому рангу этого слова. Закон носит имя своего первооткрывателя —

американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из

Гарвардского университета.

Морфология и синтаксис

● формы слов (использование форм род. п. в терминологии и др. шабло-

ны)

● частотность словосочетаний типа:

Adj + N

Adj + Adj + N

● статистика по типам предложений

«Дефиниционные конструкции». Фактор длины предложения

Текстовый уровень

Page 20: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

20

● Роль тематической рубрикации.

● Авторские аннотации

● Источник информации (например, портал gramota.ru)

● Любые внешние сведения о документе

● Ранжирование слов по встречаемости в разных позициях:

заголовок,

1 абзац,

последний абзац,

2-4 абзацы,

подзаголовки, рубрикации, шрифтовые выделения,

первое и последнее предложение в каждом абзаце.

Задачи автоматического реферирования:

● список ключевых слов (иногда этого вполне достаточно),

● синтез текста из существующих предложений (sentence extraction),

● синтез принципиально нового текста (уровень с опорой на понимание),

● оценка исходного текста (?) – аналитический уровень.

Требования к реферату:

● информативность,

● соответствие содержанию исходного текста,

● хороший процент попадания ключевых слов,

● отсутствие «мусора»,

● небольшой объем,

● соответствие нормам естественного языка (лексические, морфологиче-

ские, синтаксические связи).

Ранжирование предложений: «вес» предложения, вероятно, связан с его

позицией в тексте.

Конечная обработка реферата:

● нормализация длины,

● построение связей между предложениями, вставка анафорических эле-

ментов,

Page 21: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

21

● добавление ссылок на исходные источники и т.д.

3. Формализация филологических моделей художественного текста

Содержани е л екций

Лексическая статистика и идиостиль автора. Количественные методы в

применении к структуре сюжета. Статистические исследования стихотворного

ритма.

V. Автоматическая проверка орфографии и грамматики

Содержани е л екций

Общие проблемы проверки орфографии и грамматики. Спеллеры. Задей-

ствование разных уровней автоматической обработки текста для решения ор-

фографических проблем. Повышение скорости набора при помощи словарей.

Использование систем орфоконтроля в современных сотовых телефонах.

VI. Информационно-поисковые системы

Содержани е л екций

Поиск информации как лингвистическая проблема. Современные ИПС

(Google, Яндекс, Rambler и др.). Возможности расширенного поиска в ИПС.

Синтаксис запросов. Общие принципы индексации и ранжирования докумен-

тов.

Материалы для работы студента

Исходные положения:

● неконтролируемость, быстрота пополнения ресурсов и объем Интерне-

та,

● огромное количество дубликатов,

● представление информации в разных форматах,

● тематическое разнообразие текстов,

● специфика программирования WEB-страниц; спам,

Page 22: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

22

● «коварство» гипертекста, гиперссылки.

Информационный поиск (Information retrieval, IR) — поиск неструктури-

рованной информации, единицей которой является документ произвольных

форматов. Предмет поиска – информационная потребность пользователя, вы-

раженная в поисковом запросе (query).

Синонимы:

● информационно-поисковая система (ИПС),

● поисковая система (ПС),

● поисковая машина (ПМ), машина поиска (МП),

● searching engine (SE),

● поисковик.

Направления передачи информации:

● запрос к ПМ,

● отклик ПМ.

Методология поиска:

● прямой поиск (подстроки в документе без дополнительной обработки),

● индексирование документов (создание «поискового образа» докумен-

та).

Предварительная обработка документа:

● извлечение,

● определение формата, кодировки и языка,

● сегментация (выделение слов и предложений) = «токенизация» (про-

блема многословных токенов и границ предложений),

● удаление стоп-слов,

● морфоанализ (при необходимости).

Предварительная обработка запроса: преобразование языковых выраже-

ний.

Инвертированный файл индекса:

Page 23: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

23

в индексе поисковой системы значатся слова коллекции документов, а

для каждого слова перечислены все места, в которых оно встретилось:

подберезовик: 1→3→7→10→15

подосиновик: 2→3→5→11→15 →23

опенок: 10→15→27→114

Вопросы к индексу

● Сколько единиц должен содержать индекс?

● Какова вероятность отсутствия нужных ссылок в индексе?

● Как должен изменяться индекс в соответствии с изменением источни-

ков информации?

Пополнение баз поисковых систем:

● прямая индексация: разработчик сайта сам посылает информацию в ПС,

● программы-роботы, которые находят ссылки на новые страницы; за-

пускаются разработчиками (основной способ).

«География» поиска:

● в «открытом пространстве» Интернета,

● в закрытой коллекции.

Принцип человеко-машинного взаимодействия. Возможное участие экс-

пертов в индексировании: деньги VS. качество

Базовые установки поисковой системы:

● формат представления данных в ПС,

● формат запросов,

● оценка релевантности документов (степени близости запроса и доку-

мента).

Модели ИП:

● Булевская (булевая, boolean model, двоичная модель): опирается на опе-

рации пересечения, объединения и вычитания множеств.

● Векторная: документы и запросы рассматриваются как векторы в про-

странстве слов, а релевантность как расстояние между ними.

Page 24: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

24

Булевская модель ИП. Работа с логическими операторами (And, Or,

(And)Not)

● Киркоров And Пугачева [++]

● Киркоров Or Пугачева [+/+]

● Киркоров Not Пугачева [+/–]

Простота и удобство для тех, кто умеет пользоваться логическими опера-

торами, но излишняя строгость, отсутствие механизмов оценки релевантности

слова для документа (и, соответственно, запроса), требование вроде простых,

но все же специальных знаний.

Векторная модель ИП

● Оценка значимости термина в документе и запросе.

● Мера близости.

Вес термина: отношение между частотой в тексте и частотой в коллекции

насколько часто встречается в документе?

Частота термина (term frequency, TF) – частота употреблений слова в до-

кументе.

Частота (слова) в документах (document frequency, DF) – число докумен-

тов в коллекции, содержащих данное слово.

Чем чаще термин встречается в коллекции, тем он менее интересен для

ИП.

Сравним термины звук и фонема в лингвистическом тексте.

Какой более значим для автоматической оценки содержания текста и оп-

ределения его тематики?

При использовании векторной модели оценивается важность термина

(есть механизм ранжирования), но модель плохо работает при анализе текстов

небольшого объема.

Общая идея страницы поисковой системы:

● поле для ввода запроса с необязательной кнопкой типа «Найти», «По-

иск», «Find», «Search» и т.п.

Page 25: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

25

● отклик — вывод контекстов в ответ на запрос и ссылки на первоисточ-

ники.

Длительность ожидания зависит от сложности запроса, скорости работы

ПС, качества связи. Последнее обычно наиболее актуально.

Дополнительные возможности ПС:

● возможность указать группу WEB-сайтов (новости, магазины, картин-

ки, блоги и т.п.),

● возможность задать регион(ы) поиска,

● поиск по уже найденным страницам,

● расширенные запросы,

● сортировка результатов по релевантности, дате и др. показателям.

Новые пути развития ПС

В настоящее время порталы современных ПС функционально существен-

но расширяются не только за счет собственно поиска:

● словари,

● новости (автоматически обновляющиеся),

● погода,

● телепрограммы,

● гороскопы.

ПС как большой бизнес:

● реклама (разнообразные формы),

● системы перевода денег,

● интернет-магазины,

● программные продукты (не только поисковые: браузеры, плейеры, иг-

ры, антиспам, лингвистические модули etc.).

Статистика только Яndex’а: 3-5,5 млн посещений в день!

Использование конкретной ПС – это часто дело привычки и вкуса, а так-

же вопрос ареала поиска.

Как оценить работу ПС? Критерии точности (precision, P) и полноты (re-

call, R):

Page 26: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

26

Проекты оценки ИП:

● РОМИП — Российский семинар по оценке методов

информационного поиска (www.romip.ru)

● TREC – Text Retrieval Evaluation Conference (www.trec.nist.gov)

Соревнования по ИП:

В России – кубок Яndex’а (www.kubok.yandex.ru).

Проблема грамотного составления запроса. Средний запрос колеблется

вокруг двух слов. В итоге пользователь расплачивается сотнями (тысячами)

лишних ссылок.

Синтаксис запросов в ПС (Яndex): полезные операторы и язык запросов:

www.yandex.ru/advanced.html

www.help.yandex.ru/search/

VII. Проблемы машинного перевода

Содержани е л екций

Перевод как прикладная лингвистическая дисциплина. Комбинирование

различных методов уровневого лингвистического анализа при переводе. Идея

универсализации перевода: утопия и реальность. Современные проекты (UNL).

Материалы для работы студента

Неоднозначность термина «перевод»:

● деятельность,

● результат деятельности,

● теория осуществления этой деятельности.

Перевод как прикладная лингвистическая дисциплина:

● теория перевода,

● анализ перевода,

● методика обучения переводу.

Page 27: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

27

Междисциплинарность перевода. Перевод как сложный когнитивный фе-

номен

Классификации перевода:

● по типу речи: устный (синхронный / последовательный) / письменный,

● по направлению: односторонний / двусторонний,

● по задачам: пословный → подстрочник / буквальный / филологический

/ адаптивный (реферативный).

Машинный перевод (МП) — интенсивно развивающаяся область иссле-

дований, экспериментальных разработок и работающих систем, в которых к

процессу перевода с одного естественного языка на другой привлекаются ком-

пьютеры.

Междисциплинарность МП.

Привлекательность МП:

● АОТ на всех уровнях языка,

● отработка лингвистических теорий,

● лексико-синтаксическая основа,

● «интеллектуальность».

→ МП называют центральным направлением искусственного интеллекта.

Лингвистические проблемы:

● разрешение неоднозначностей,

● текстовый уровень их появления (ситуативная обусловленность текста,

экстралингвистические знания),

● возможность построения альтернативных структур текста,

● несовершенство формальных методов анализа текста, необходимость

их уточнения,

● обучаемость системы МП.

Альтернативы МП:

● изучение иностранных языков,

● выработка универсального языка,

● распространение одного из языков.

Page 28: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

28

Но рынок перевода увеличивается ≈ на 15 % в год!

Наиболее актуальные сферы МП:

● научно-технический,

● коммерческий / деловой,

● рекламный,

● юридический,

● политический.

Сфера художественного перевода не является самой актуальной.

Отраслевые предпосылки:

● большой поток иноязычной информации в отрасли,

● политематический массив документов в международных организациях,

● техническая документация к экспортируемой продукции,

● поток однотипных сообщений.

Хронология МП

● к. 1940-х. – 1950-е гг. Постановка проблемы, разработка первичных ко-

дов, презентации первых систем;

● 1960-е – время разочарования: МП нерентабелен;

● 1970-е – новые возможности вычислительных систем, подъем работ;

● 1980-е – удешевление ПК, появление экономически оправданных раз-

работок;

● 1990-е – развитие Интернет, новый взгляд на МП как инструмент ком-

муникации;

2 основных направления МП:

● прямой перевод (нет различий между анализом и синтезом естественно-

го языка),

● системы с трансфером (построение промежуточного семантического

представления).

→ стратегия языка-посредника, создание «knowledge-based systems»

Page 29: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

29

Стратегия «универсального семантического языка»

Проект UNL (www.unl.ru). Многоязыковой лингвистический конвертер,

основанный на семантических примитивах.

Разумные решения в практике МП:

● сужение проблемной области,

● тематические сферы текстов,

● следование прагматике перевода.

● стратегия ограниченного МП (пред- и постредактирование, полуавто-

матическое снятие омонимии.

Классификация систем МП (Л. Чайлдс, 1990):

● FAMT – полностью автоматизированный МП

● HAMT – МП при участии человека

● MAHT – перевод, осуществляемый человеком при помощи компьютера

Существующие системы МП и словари.

Выводы:

● МП как технологическая реальность,

● четкая постановка задачи,

● тематическое сужение,

● работа в новых форматах (UNL),

● обучаемость программ,

● отсутствие косности в плане «человеческого» перевода,

● избавление от утопических взглядов.

VIII. Заключение

Содержани е л екций

Перспективы развития компьютерных технологий в филологии. Взаимо-

влияние различных филологических направлений и методов. Вопрос о новом

месте филологии в современном мире.

Page 30: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

30

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ОСНОВНАЯ)

1. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистиче-

ское обеспечение системы ЭТАП-2. М., 1989.

2. Баевский В. С. Лингвистические, математические, семиотические и

компьютерные модели в истории и теории литературы. М., 2001.

3. Богданов В. В. Статистические концепции языка и речи // Статистика

речи и автоматический анализ текста. М., 1973. С. 9–19.

4. Виноградов В.В. Проблема авторства и теория стилей. М., 1961.

5. Ермоленко Г. В. Анонимные произведения и их авторы. Минск, 1988.

[Атрибуция текста: филологические и количественные методы.]

6. Интернет-сайты, связаные с направлениями прикладной филологии:

dialog-21.ru, aot.ru, ruscorpora.ru и др.

7. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литера-

турного языка. М., 1981.

8. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение автор-

ства текста с использованием буквенной и грамматической информа-

ции // Проблемы передачи информации. Т. 37, № 2. М., 2001; http://

lexigraph.nm.ru/library.htm (сайт Лаборатории общей и компьютерной

лексикографии МГУ).

9. Лингвистический энциклопедический словарь. М., 1990. Ст.: "Автома-

тическая обработка текстов", "Количественные методы" и др..

10. Марчук Ю. Н. Методы моделирования перевода. М., 1985.

11. Марчук Ю.Н. Проблема машинного перевода. М., 1983.

12. Машинный перевод и прикладная лингвистика. М., 1986.

13. Машинный фонд русского языка: идеи и суждения. М., 1986.

14. Мельников Г.П. Системология и языковые аспекты кибернетики. М.,

1978.

Page 31: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

31

15. Мельчук И. А. Опыт теории лингвистических моделей «Смысл —

Текст»: семантика, синтаксис. М., 1999. (Или: Мельчук И. А. Опыт тео-

рии лингвистических моделей «Смысл — Текст». М., 1974.)

16. Моделирование языковой деятельности в интеллектуальных системах.

М., 1987.

17. От Нестора до Фонвизина: Новые методы определения авторства / Ми-

лов Л.В. и др. М., 1994.

18. Хьетсо Г., Густавссон С. и др. Кто написал “Тихий Дон”? М., 1989.

19. Эндрю А. Искусственный интеллект. М., 1985.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ДОПОЛНИТЕЛЬНАЯ)

1. Андреев Д. Н. Статистико-комбинаторные методы в теоретическом и

прикладном языковедении. Л., 1967.

2. Богданов В. В. Статистические концепции языка и речи // Статистика

речи и автоматический анализ текста. М., 1973. С. 9–19.

3. Виноград Т. Программа, понимающая естественный язык. М., 1976.

4. Виноград Т. Работа с естественными языками // Современный компью-

тер. М., 1986.

5. Искусственный интеллект. В 3-х кн. М., 1990. — Кн. 1. Системы обще-

ния и экспертные системы. Кн. 2. Модели и методы.

6. Кулагина О.С., Мельчук И.А. Автоматический перевод: краткая исто-

рия, современное состояние, возможные перспективы // Автоматиче-

ский перевод. М., 1971.

7. Лавошникова К. Э. Спеллер, ты не прав! О подводных камнях в систе-

мах проверки правописания // http:// infolex.ru/elword4.html.

8. Лингвистические проблемы автоматизации редакционно-издательских

процессов. Киев, 1986.

9. Лукьянова Е. М. Информационная база автоматических словарей //

Статистика речи и автоматический анализ текста. М., 1980.С. 106–144.

Page 32: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

32

10. Перцова Н. Н. Автоматические системы типа «вопрос — ответ», рабо-

тающие с естественным языком: история, современное состояние, пер-

спективы // Прикладная лингвистика. М., 1976. С. 135–161.

11. Попов Э.В. Общение с ЭВМ на естественном языке. М., 1982.

12. Попов Э.В. Экспертные системы. М., 1987.

13. Поспелов Д.А. Логико-лингвистические модели в системах управления.

М., 1981.

14. Прикладная лингвистика и автоматический анализ текста. Тарту, 1988.

15. Прикладные аспекты лингвистики. М., 1989.

16. Промышленные системы машинного перевода. Вып. 20. М., 1991.

17. Реферирование в общественных науках. Теория и методика. М., 1982.

18. Рождественский, Ю.В., Марчук, Ю.Н., Волков, А.А. Введение в при-

кладную филологию. М., 1998. (Рождественский Ю. В. и др. Введение в

прикладную филологию. М., 1987.)

19. Севбо И. П. Сквозной анализ как шаг к структурированию текстовых

знаний // НТИ. Сер. 2. 1989. № 2.

20. Скороходько Э. Ф. Лингвистические проблемы обработки текстов в ав-

томатизированных ИПС // Вопросы информационной теории и практи-

ки. N 25. М., 1974.

21. Струве Н. Роман-загадка // Агеев М. Роман с кокаином. М., 1990. С.200-

221.

22. Шенк Р. Обработка концептуальной информации. М., 1980.

ТЕМЫ ЛАБОРАТОРНЫХ, СЕМИНАРСКИХ ЗАНЯТИЙ

И КОЛЛОКВИУМОВ

1. Системы русского морфологического анализа (Mystem, Диалинг).

2. Автоматический синтаксический и семантический анализ (Диалинг).

3. Корпусная лингвистика. Русские проекты. Синтакис запросов.

Page 33: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

33

4. Знакомство с работой словарной базы данных.

5. Разработка объектов словарной базы данных.

6. Поисковые системы. Синтакисис запросов.

7. Автоматизация поиска и замены в текстовом процессоре Word.

8. Макропрограммирование в текстовом процессоре Word.

ВОПРОСЫ И ЗАДАНИЯ ДЛЯ САМОКОНТРОЛЯ

I. Контрольные задания для самостоятельной работы:

1) формализация структуры словаря (на выбор). Выделение типов ин-

формации,

2) создание простейшей лексикографической базы данных,

3) проблемы атрибуции художественного текста (реферирование ли-

тературы),

4) атрибуция текста в криминалистике (по материалам Интернета),

5) сопоставление современных ИПС, изучение критериев оценки по-

исковых систем,

6) современные многоязычные словари и программы перевода: общая

характеристика,

7) тестирование системы проверки орфографии MS Office,

Принципы выделения значимой информации из текста:

8) словообразовательный уровень,

9) морфологический уровень,

10) лексический уровень,

11) композиционно-текстовый уровень.

Page 34: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

34

II. Вопросы для самостоятельной подготовки к семинарским и практиче-

ским занятиям

12) системы русского морфологического анализа (Mystem, Диалинг),

13) автоматический синтаксический и семантический анализ (Диа-

линг),

14) корпусная лингвистика (русские проекты, синтаксис запросов в

корпусе),

15) знакомство с работой словарной базы данных,

16) разработка объектов словарной базы данных.

17) поисковые системы, синтаксис запросов,

18) автоматизация поиска и замены в текстовом процессоре Word,

19) макропрограммирование в текстовом процессоре Word.

III. Задания для самостоятельного реферирования источников:

20) современные методы атрибуции текста: постановка проблемы,

21) атрибуция текста: «шведское решение» проблемы «Тихого Дона»,

22) атрибуция текста: графический метод (Д. Хмелев),

23) количественные методы в применении к структуре сюжета,

24) лексикографические базы данных,

25) принципы автоматического выделения терминологии из корпуса

текстов,

26) общие проблемы создания вопросно-ответных систем,

27) общие проблемы статистических подходов к языку,

28) лингвистические модели текстообразования,

29) основы дистрибутивно-статистического метода анализа лексики,

30) проблемы машинного перевода,

31) статистические исследования стихотворного ритма,

32) структура и задачи машинного фонда русского языка,

33) формализация семантики: опыт распознавания смысла текста,

Page 35: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

35

34) формализация семантики: опыт составления толково-комбина-

торного словаря.

ПЕРЕЧЕНЬ ВОПРОСОВ К ЗАЧЕТУ

1. Применимость компьютерных технологий в филологических исследо-

ваниях. Использование прикладных филологических разработок в дру-

гих сферах деятельности.

2. Возможности автоматической обработки печатного текста при верстке

в современных текстовых процессорах и издательских системах.

3. Компьютерная лексикография как современный этап словарного дела.

Компьютерные словари.

4. Формализация структуры словаря. Лингвистическое и компьютерное

обеспечение словарей.

5. Типы информации в словаре и компьютерной базе данных.

6. Элементы систем управления базами данных. Таблицы, формы, фильт-

ры, запросы, отчеты.

7. Идеографическая лексикография. Устройство тематических словарей и

проблемы организации иерархических баз данных.

8. Проблемы и задачи корпусной лингвистики.

9. Понятия корпусной лингвистики: проблемная область, единица хране-

ния, порог отображения данных и др.

10. Основные требования к лингвистическому корпусу данных.

11. Достижения и перспективы развития корпусной лингвистики. Сущест-

вующие национальные корпуса текстов.

12. Проблемы "нормализации" и разметки текста для корпуса. Специфика

текстовых библиотек в Интернете.

13. Атрибуция текста: история разработки и сферы применения.

14. Современные приемы и методы атрибуции художественного текста.

15. Атрибуция текста как элемент судебно-психологической экспертизы.

Page 36: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов

36

16. Квантитативный анализ художественного текста: изучение идиостиля

автора.

17. Количественные методы в применении к структуре сюжета.

18. Статистические исследования стихотворного ритма.

19. Проблемы автоматической проверки орфографии и грамматики

20. Повышение скорости набора при помощи словарей. Современные сис-

темы орфоконтроля.

21. Информационно-поисковые системы. История разработки и современ-

ное состояние. Семинары оценки методов ИП.

22. Принципы поиска в ИПС.

23. Принципы ранжирования документов в ИПС.

24. Машинный перевод как проблема искусственного интеллекта. История

систем МП.

25. Лингвистические проблемы современного машинного перевода.

26. Перспективы развития компьютерных технологий в филологии. Меж-

дисциплинарный характер исследований.