71
Въведение в Компютърната лингвистика Проф. дмн Георги Тотков кат. Компютърна информатика Пловдивски

1.1 Основни понятия

  • Upload
    -

  • View
    218

  • Download
    3

Embed Size (px)

Citation preview

Въведениев Компютърната лингвистика

Проф. дмн Георги Тотков кат. Компютърна информатика Пловдивски университет

[email protected]

1

Предмет на курса по КЛ

Intro to NLP – G. Totkov

2

• Основни понятия, модели и методи в лингвистиката(и статистиката)

• Въведение в проблематиката (и отделни решения) наКЛ

• В края на курса ще:– Осъзнаете, че ЕЕ е сложен (интересен) за изучаване

– Познавате някои формални и компютърни модели на КЛ

– Разбирате изследователски статии в областта

Изисквания към студентите

Intro to NLP – G. Totkov

3

• Подбор на тема (в областта на КЛ или лингвистиката)

• Събиране на материали по темата (спец. отИнтернет-източници)

• Систематизирано изложение (курсоваработа) в обем не по-малко от 10 стр.:– увод (постановка на задачата)– изложение (обзор по темата)– заключение– приложения (ев. програмна реализация)– използвани източници (поне 5)

Изпитна процедура

Intro to NLP – G. Totkov

4

• Лабораторните упражнения се използват за работа върху курсовите работи и за консултации

• Оценката зависи от:– качеството на обзора– създадени самостоятелни приложения– проведената защита

• Защитата на курсовите работи може да се проведеи през семестъра

• В последните седмици на курса за консултации изащита се използват и лекционните часове

Що е компютърна лингвистика?

Intro to NLP – G. Totkov

5

• Гледна точка на лингвистаКЛ интерпретира лингвистичните теории в компютърна среда

• Гледна точка на изкуствения интелект (ИИ)КЛ - наука, обясняваща езика чрез някаква теория за представяне на знания. (Мински, Шенк, Абелсон)

Двупосочност на изследванията и резултатите в КЛ:– прилагане на методите на ИИ за изследване на ЕЕ– прилагане на лингвистичните теории за построяване на

програми, които показват „интелигентно“ поведение чрез езиково поведение

Автоматична обработка на ЕЕ

Intro to NLP – G. Totkov

6

• Цел - да се накарат компютрите да ‘разбират’ЕЕ

• Основна задача - моделиране на човешките възможности за разбиране на ЕЕ чрез компютърна програма

Разбиране - да разпознават и използуват информация, изразена чрез ЕЕ (транс- формиране от една структура в друга)

Terminology

Intro to NLP – G. Totkov

7

• Computational Linguistics

• Natural Language Processing

Цели на КЛ

Intro to NLP – G. Totkov

8

Компютрите биха били по-полезни, ако можеха вместо нас:– да управляват потока от електронни съобщения– да извършват библиографски справки– да правят резюмета– да превеждат– да говорят, ...

Но ... това се възпрепятства от естествения език(ЕЕ) и ...

Възможно ли е да ‘разкажем’ за ЕЕ на компютрите?Или да ги ‘научим’ както го правим за децата?

Някои приложения на КЛ

Intro to NLP – G. Totkov

9

• Отстраняване на правописни и граматични грешки

• По-добри търсещи машини• Извличане на информация от данни• Психотерапия, ...

• Нови приложения:– Разпознаване на реч (и текст-към-реч)– Диалогови системи– Машинен превод, ...

A few applications of NLP

Intro to NLP – G. Totkov

10

• Spelling correction, grammar checking …

• Better search engines

• Information extraction

• Psychotherapy; Harlequin romances; etc.

• New interfaces:– Speech recognition (and text-to-speech)

– Dialogue systems

– Machine translation

Практически приложения

Intro to NLP – G. Totkov

11

• ЕЕ като команден език (напр. за достъпдо ОС)

• Help системи, които приемат запитванияна ЕЕ (към компютри и бази данни)

• Автоматичен превод (резюмета) на научни и технически текстове

• Автоматично построяване на бази данниот технически текстове, ...

Обхват на КЛ и АОЕЕ

Intro to NLP – G. Totkov

12

• Обработка на реч (разпознаване, синтез)

Проблеми: интонация, алофеми потъмня- ване на звуци), разпознаване на тембър, отделяне на шум, ...

• Обработка на текст

Сравнително формализиран вход, но наличие на шум – правописни грешки, неправилни изречения

Проблеми на КЛ

Intro to NLP – G. Totkov

13

• От лингвистиката:– какви граматически формализми да се използуват

за описание на ЕЕ– Какви семантични формализми да се използуват– Кои подобласти от лингвистиката да се

разглеждат

• От ИИ:– Какви формализми за представяне на знания да се

използуват– Каква е същността на интелигентността– Какво е естественото в естествените езици

Недостатъчност на средствата

Intro to NLP – G. Totkov

14

Основни трудности:• Лингвистично описание на ЕЕ

• Модели на ЕЕ и неговото използуване

• Механизми, лежащи в основата на човешката езикова възможност

• ЕЕ като средство за представяне на знания

• Средства за представяне и използуване назнания за света

Проблеми в рамките на изречение

Intro to NLP – G. Totkov

15

• Многозначност

• Неграматични изказвания (възклицания, изпуснати определителни и неопределителни членове, неправилно започване, правописни грешки, и др.)

Проблеми при свързан текст

Представяне на структурата на текста

Intro to NLP – G. Totkov

16

Приложения на КЛ и АОЕЕ

• Машинен превод

• Естествено-езикови интерфейси

• Обработка на документи

• Стилови редактори

• Поправяне на грешки и тезауруси

Intro to NLP – G. Totkov

17

Машинен превод

Проблеми:• нееквивалентност на понятията - социални причини

и обкръжение (пример: думата "сняг" на ескимоски)• липсващи понятия (племената край Амазонка нямат

дума за сняг)• несъвместими структури - в руски език няма

определителен член - не може да се говори за съответствие

• многозначност - не може да се разреши при превод на дума по дума (необходим е контекст)

Основни резултати:Средства за подпомагане на хората-преводачи

Intro to NLP – G. Totkov

18

Естествено-езикови интерфейси

Зависят от предметната област

1970 SHRDLU (Виноград) - интерфейс на ЕЕ към робот с ръка, манипулиращ с кубчета върху маса. Основенпринцип: синтаксисът, семантиката и разсъжденията за микросвета трябва да бъдат комбинирани при анализа на входа

По-общи проблеми, характерни за интерфейса:– разпознаване на неграматичен вход– моделиране на кооперативно поведение– обработка на елиптични фрази– перифразиране, ...

Обработка на документи

Intro to NLP – G. Totkov

19

• Автоматично резюмиране

• Автоматично индексиране

Нови направления:

Линеаризиране и делинеаризиране натекст (текст - хипертекст и обратно)

Стилови редактори

Intro to NLP – G. Totkov

20

• Да се осигури приемлив стил надокументите, създадени от човек

• Въпрос за приемливост на стила.

• UNIX - стилов редактор за техническитекстове.

• Няма методика за писане на стилови редактори - използуват се евристики

Intro to NLP – G. Totkov

21

Поправяне на правописни грешкии тезауруси

• Тясно свързани с лексикографията и семантиката

• Поправят правописни грешки, дават алтернативи на думи - синоними

Проблем - компенсиращи грешки

Примери: 1. The men was here.

2. Мъжете беше тук.

Без синтактичен анализ програмата няма даразпознае, че "men" е сбъркано.

Intro to NLP – G. Totkov

22

Що е лингвистика

Лингвистиката е наука, която изучава структурата и механизмите на пораждане на ЕЕ

Цел на изследванията - общите конструктори и елементарни обекти, които образуват ядрото на всеки ЕЕ (има ли такива и кои са те)

Подходи:• дескриптивен (описателен) - наблюдават се

промените в ЕЕ и се отразяват в описанието му• прескриптивен (правила, които дефинират

езика като обект)

Intro to NLP – G. Totkov

23

За предмета на изследване (ЕЕ)

Езикът е форма - дефинира се не като множество изречения, а като множество правила, в съответствие с които се построяват изреченията.

Езикът е случаен - отнася се до множеството от символи, които се използуват.

Езикът е дискретен, а не аналогов.Езикът се развива.

Нива на описание на ЕЕ

Intro to NLP – G. Totkov

24

• Фонология

• Морфология

• Лексикология

• Синтаксис

• Семантика (лексическа семантика)

• Прагматика

Фонология

Intro to NLP – G. Totkov

25

Изучава как звуците се използуват в ЕЕ• Фонеми (звуци)• Алофони - реализация на звуците чрез буквиПримери:

1. top, stop (t - различно в двете думи2. боб (б – различно в началото и края)

Основни трудности от гледна точка на АОЕЕ:– звуковите вълни са непрекъснати, а звуците -

дискретни– тембър– интонация

Морфология

Intro to NLP – G. Totkov

26

Изучава структурата на думите (какви думи или поддуми използва ЕЕ)

Два вида процеси при формирането на думите:– инфлексия (различни форми на една и съща дума)– деривация (създаване на нови думи от съществуващи)

Разлики:• само деривацията може да смени значението• някои деривационни форми могат да не

съществуват, инфлексиите винаги съществуват

Лексикология

Intro to NLP – G. Totkov

27

Изучава речниковия състав на ЕЕ. Предмет -думите (структура и срещане в ЕЕ текстове)

Търсене на връзка между морфологията от еднастрана и граматическия клас и семантиката надумата от друга страна

Приложения:– икономични речници

– поправка на правописни грешки

– стилови корекции

Синтаксис

Intro to NLP – G. Totkov

28

Изучава структурата на изречението, видовете фрази и кои думи и как модифицират (променят характеристиките) на други. Задава се с правила (не с изброяване като при фоно- логията и морфологията)

Разпознаването на синтактичната структура на изречението от компютърна програма се нарича синтактичен анализ (parsing). За да се анализира изречението трябва да се открият правилата за формиране на изреченията.

Проблеми:– неграматични изказвания (възклицания, изпуснати

определителни и неопределителни членове)– неправилно започване– правописни грешки, и др.

Семантика

Intro to NLP – G. Totkov

29

Семантиката е нивото, на което езикът сесвързва с реалния свят (какво езначението на лингвистичния обект?)

Проблеми:

1. Значение и съотнасяне (референт)– може да има различни референти.

– значението указва какви обекти могат дабъдат референти

Значение и съотнасяне

Intro to NLP – G. Totkov

30

Примери:а) Took the cake from the table and ate it.б) Президентът каза, че не обича броколи

("Президент" - значение: държавен пост, референт - Дж. Буш)

в) Лъвът е кралят на животните (вида лъв, а неконкретен лъв)

г) Студентите носят пуловери (всеки поотделно носи пуловер)

д) Студентите са многобройни (отнася се домножеството)

Многозначност

Intro to NLP – G. Totkov

31

2. Многозначност на:• Думите

– лексическа (Банката е боядисана / Банката е с между-народно значение / Банката е пълна с глюкоза)

– категориална (Чука отгоре; ?V ?N)• Изреченията

– структурна (Видя момчето с телескоп; ?Средство ?Опред.)– падежна (Масата е готова за обяда / Пилетата са готови за

обяда; ? служат за храна ? предстои)

3. Семантична композицияДжон обича Мери - loves(john, mary) ≠ Мери обича Джон

Прагматика

Intro to NLP – G. Totkov

32

Прагматиката изучава използуването на езика в контекста на ситуацията. Какво следва от факта, че е изречено (казано) нещо. Как би трябвало да се реагира?

Докато в семантиката значението е свойство на израза, в прагматиката значението се опреде- ля спрямо говорещия, слушателя и ситуацията (контекста)

Пример: „Можете ли да затворите вратата? “ Тук прагматичното значение надхвърлялингвистичното значени

Терминология (изречение)

Intro to NLP – G. Totkov

33

Изречението е основен елемент на ЕЕ. Изречениетоизразява завършена мисъл и се състои от думи, всяка от които индивидуално или в комбинация с други думи изразява някакви концепти.

Различните видове концепти (физически обек-ти, действия, отношения между концепти и т.н.) изискват различни начини за изразяване. Те се наричат части на речта.

Изреченията се характеризират със структура иупотреба.

Части на речта

Intro to NLP – G. Totkov

34

• Съществително (човек, място, нещо)• Глагол (действие, състояние)

– преходни глаголи (обект, върху който се прилага действието - пряко допълнение)

– непреходни глаголи (няма такъв обект - прилага севърху подлога)

• Прилагателно пояснява съществителни или местоимения

• Наречие пояснява глаголи, прилагателни другинаречия

• Местоимение замества съществителното, съгласува се по род и число

• Предлог показва връзка между съществително и някоя друга фраза

• Съюз свързва заедно думи или група от думи• Частица емоционална експресивност ("да", "не")

Подлог и сказуемо

Intro to NLP – G. Totkov

35

За да бъде завършена мисъл, изречението трябва да има подлог и сказуемо. Подлогът е това, за което се отнася изречението, а сказуемото е това, което казваме за подлога.

Пример: Черната котка скочи от покриваЧерната котка - подлогСкочи от покрива - сказуемоДумите, които образуват подлога, сказуемото - фрази.

Просто изречение (клауза)Група от думи, използувани заедно, която съдържа подлог и сказуемо

Глагол

Intro to NLP – G. Totkov

36

Сказуемото се изразява чрез глаголХарактеризира се със залог, време, лице и число.

Съгласува се с подлога по лице и число.Времето показва времевата ориентация на

действието – минало, настояще, бъдеще.Залогът определя кой е извършителят на

действието:– действителен залог – подлогът– страдателен залог – подлогът е обект-рецепиент на

действието

Структура на изречението

Intro to NLP – G. Totkov

37

• Просто – един подлог и едно сказуемо

• Съставно – състои се от няколко прости независимиизречения, свързани със съчинителен съюз

• Сложно – състои се от едно главно и няколко подчи- нени изречения (представлява пояснение – част от главното изречение)

• Сложно-съставно – има няколко независими и някол-ко подчинени изречения

Употреба на изречението

Intro to NLP – G. Totkov

38

• повествователно, декларативно, разказно

• въпросително

• заповедно

• възклицателно

Словоред (наредба на съставните части)

• английски – фиксиран подлог, сказуемо

• български – свободен