8
Дипломная работа Распознавание сокращений слов и словосочетаний Автор: Иванова Ольга Андреевна Научный руководитель: Ефремова Н.Э.

Распознавание сокращений слов и словосочетаний

  • Upload
    -

  • View
    419

  • Download
    0

Embed Size (px)

DESCRIPTION

Иванова Ольга Андреевна 25 мая 2009

Citation preview

Page 1: Распознавание сокращений слов и словосочетаний

Дипломная работа

Распознавание сокращений слов и

словосочетанийАвтор:

Иванова Ольга Андреевна

Научный руководитель: Ефремова Н.Э.

Page 2: Распознавание сокращений слов и словосочетаний

Расшифровка сокращений

Поисковые системыИзвлечение из текстов

специальных текстовых единицСоздание и обновление машинных

словарей сокращенийАвтоматический перевод текстов

Page 3: Распознавание сокращений слов и словосочетаний

Постановка задачи

□ Исследовать правила образования русскоязычных сокращений

□ Разработать и реализовать алгоритм, позволяющий:□ проверить, является ли одна лексическая единица

сокращением другой□ определить тип сокращения

□ Следует рассмотреть, как минимум, следующие виды сокращений:□ Акронимы (гигабайт - Гб)□ Сложносокращенные слова (модулятор-демодулятор -

модем) □ Графические сокращения (рисунок – рис. библиотека - б-ка

кинотеатр – к/т)□ Смешанные сокращения (мегагерц - МГц)

Page 4: Распознавание сокращений слов и словосочетаний

Примеры рассмотренных сокращений

□ С ТОЧКОЙ ил. – иллюстрация □ С НЕСКОЛЬКИМИ ТОЧКАМИ т.е. – то есть □ С ДЕФИСОМ –ация электрификация з-д завод

авиа- авиаперелет

□ С ДЕФИСОМ И ТОЧКОЙ с.-петерб. - Санкт-Петербург

□ С КОСОЙ ЧЕРТОЙ к./т. – кинотеатр □ БЕЗ СПЕЦИАЛЬНЫХ ЗНАКОВ эсминец –

эскадренный миноносец

□ СМЕШАННЫЕ ТЭЦ – теплоэлектроцентраль Э.Д.С – электродвижущая сила

Page 5: Распознавание сокращений слов и словосочетаний

Общая схема работы алгоритма

Преобразование данных

Перебор по частям сокращения

Динамическое формирование системы проверочных функций для текущей части сокращения

Перебор по проверочным функциям

Перебор по словам расшифровки

Посимвольное сравнение

Учет входных параметров работы алгоритма

Page 6: Распознавание сокращений слов и словосочетаний

Пользовательский интерфейс

Page 7: Распознавание сокращений слов и словосочетаний

РезультатыИзучение русскоязычных сокращений

Разработка обобщенного настраиваемого алгоритма установления соответствия между сокращением и полной формой

Функции:Проверка сокращения и полной формы на соответствиеОпределение типа сокращения

Особенности:

Учет широкого класса графических сокращений

Возможность настройки алгоритма пользователем

Сбор статистики по каждому из типов

Среда: Dev-C++ Языки: С, TCL/TK

Page 8: Распознавание сокращений слов и словосочетаний