54
Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing" Юрась Гецэвіч Лабараторыя распазнавання і сінтэзу маўлення АІПІ НАН Беларусі

Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Embed Size (px)

Citation preview

Page 1: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін

"Natural Language Processing"

Юрась Гецэвіч

Лабараторыя распазнавання і сінтэзу маўленняАІПІ НАН Беларусі

Page 2: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Бібліяграфія• Сэт Граймз / MARCH 4, 2013 All About Natural Language Processing

• Гецэвіч, Ю.С. РАСПРАЦОЎКА КАМПАНЕНТА РАСПАЗНАВАННЯ МАЎЛЕННЯ ДЛЯ НАТУРАЛЬНА МАЎЛЕНЧАГА ІНТЭРФЕЙСУ / Ю.С. Гецэвіч, К.А. Нікалаенка, Л.І. Kайгародава // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2015) : материалы V междунар. науч.-техн. конф. (Минск, 19 – 21 февраля 2015 года) / пад рэд. В. В. Голенков (отв. ред.) [и др.]. Минск : БГУИР, 2015. — C. 507-512.

• Гецэвіч, Ю.С. Фанетычная і алафонная апрацоўка тэксту ў сінтэзатары беларускага і рускага маўлення для мабільных платформаў / Ю.С. Гецэвіч, Б.М. Лабанаў, Д.А. Пакладок // Інфарматыка. — 2014. — №2(42). — C. 25-35

• Taylor, P. Text-to-Speech Synthesis / P. Taylor. New York – Cambridge University Press, 2009. – 642 p.

• NooJ resourses // NooJ [Electronic resourse]. – 2002 . – Mode of access : http://www.nooj4nlp.net/pages/resources.html. – Date of access : 17.03.2012.

• Etc.

2Для суполкі NLProc.by

Page 3: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Што такое Natural Language Processing?

???3Для суполкі NLProc.by

Page 4: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

• Апрацоўка натуральнай мовы, АНМ (па-англійску: Natural Language Processing, NLP) — гэта машыннае пераўтварэнне вуснай і/ці пісьмовай разнавіднасцяў чалавечай камунікацыі.

• Методыка, апорай якой з’яўляюцца лінгвістыка і статыстыка ў спалучэнні з машынным навучаннем, імкнецца мадэляваць мову на службе аўтаматызацыі.

4Для суполкі NLProc.by

Page 5: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Якую карысць можа прынесці Апрацоўка Натуральнай Мовы?• Хуткая апрацоўка выгляду Т-Т, Т-М, М-Т, М-М. (так, як апрацоўвае

машына-камп’ютар)• Т – пісьмовая натуральная мова• М – вусная натуральная мова

• Колькі заўгоднае паўтарэньне апрацовак, дзе чалавеку стала б проста складана ці нецікава працаваць (напрыклад, пастаяннае адсочваньне новых ключавых слоў на новых інтэрнэт-сайтах)

• Эталанізацыю праз фармалізацыю ведаў (напрыклад, сінтэзатар маўленьня, інтэлектуальныя справачныя сістэмы)

• Дапамога трэцім асобам, якія ня ведаюць мовы ці не спецыялісты ў лінгвістыцы, праз пабудову прыкладных лінгвістычных прыстасаваньняў

• ?

5Для суполкі NLProc.by

Page 6: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Агульная схема Апрацоўкі Натуральнай Мовы

Прыклады:TTS : тэкст -> маўленьне / для слабабачачых, для робататэхнікіASR : маўленьне -> тэкст / для журналістаўTranscription : тэкст -> тэкст / для замежнікаўSTS : маўленьне -> маўленьне / для хуткай камунікацыіITS : выява -> маўленьне / для кіроўцаў…

Распазна - ваньне …

Генерава -ньнне …

6Для суполкі NLProc.by

Page 7: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Выманне і пошук інфармацыі• Пошукавыя сістэмы Google, Bing

• выманьне тэрмінаў з тэксту• парсінг пошукавых запытаў

(людзі, назвы кампаній, сімвалы акцый і месцы)• выманьне заканамернасцяў• выманьне атрыбутаў, звязаных з тэрмінамі

(дарагі гадзіннік, чорны аўтамабіль, 4,6 кг рыбы.)• выяўленне адносін між канцэптамі (Apple Siri, Wolfram Alpha і Google

Now)

7Для суполкі NLProc.by

Page 8: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Канцэпцыі, тэмы, танальнасць і падабенства, а таксама заўвагі па метадах • класіфікацыя (групоўка выразаў і дакументаў)• выманне канцэпта (сістэма камп’ютарнай мовы Карпарацыя

Цыцэрон)• вызначэнне тэмы• выяўленьне танальнасці (ажыццяўляецца па звычайных

катэгорыях (станоўчай, адмоўнай ці нейтральнай) ці па больш вытанчаных эмацыйных катэгорыях, або сігналах намераў (CrowdFlower))

• распазнаванне плагіяту (ацэнка параграфаў вынятага тэксту па прынцыпе падабенства)

8Для суполкі NLProc.by

Page 9: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Арфаграфія, Граматыка і Стыль• праверка арфаграфіі (JSpell, SpellCheck.net) • стварэння дыяграмы сказа• разметка па часцінах мовы (дэмаверсія ўніверсітэта Іллінойса)• вывучэнне сінтаксічных адносін (Connexor).

9Для суполкі NLProc.by

Page 10: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Пераклад

• машынны пераклад (Google Translate, Promt, ABBY Lingvo, Multitran, Language Tool)

• аўтаматычная ідэнтыфікацыя мовы

10Для суполкі NLProc.by

Page 11: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Гібрыдны сінтэзатар выразнага маўлення «ЭТАП-МУЛЬТЫФОН» Машынны пераклад і агучка

11Для суполкі NLProc.by

Page 12: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Рэферыраванне тэксту (разуменне і генерацыя натуральнай мовы)

12Для суполкі NLProc.by

Page 13: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Пытальна-адказныя сістэмыАгульная схема :

Прыклады : •IBM Watson•START•www.OSTIS.net

13Для суполкі NLProc.by

Page 14: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Распазнаванне і сінтэз маўлення• распазнаванне маўлення

• генерацыя, або сінтэз маўлення

• транскрыбаванне вуснай мовы : M004,O113,J'013,/,R032,O022,D001,N004,Y322,/,K001,U032,T000,/,#C3, -> [мо̀й] [ро́дны] [ку́т]

• галасавы пошук

• сінтэз маўлення па тэксце.

14Для суполкі NLProc.by

Page 15: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

«Будаўнічыя блокі» ці настройвальныя лінгвістычныя

працэсары• Apache OpenNLP і Mallet - інструментар машыннага навучання

• The Apicultur service і Веб API для Python NLTK Якоба Перкінса

для элементнага аналізу тэкста

15Для суполкі NLProc.by

Page 16: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

NooJ (Нудж)

16Для суполкі NLProc.by

nooj4nlp.net

настройваецца для больш за 20 моў, улічваючы беларускую

Page 17: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка натуральнага маўленьня

сorpus.by

17Для суполкі NLProc.by

Page 18: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Сэрвіс “Інфармацыя аб сімвалах”,

карысны для лінгвістаў

18Для суполкі NLProc.by

Page 19: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Сэрвіс «Частотнасць слоў»

19Для суполкі NLProc.by

Page 20: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Частата «слоў» у любым тэксце

Адвольная настройка слова: пасьлядоўнасьць лікаў, сімвалаў алфавітаў ці інш.

20Для суполкі NLProc.by

Page 21: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Схема сінтэзу маўленьня па тэксце

21Для суполкі NLProc.by

Page 22: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Сінтэзатар беларускага і рускага маўлення па тэксце для стацыянарных, мабільных і інтэрнэт платформ

22Для суполкі NLProc.by

Page 23: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

сorpus.by/tts3 сінтэзатар маўленьня па тэксце on-

line

23Для суполкі NLProc.by

Page 24: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Выкарыстанне алгарытмаў СМТ для вырашэння лінгвістычных задач

24Для суполкі NLProc.by

Page 25: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

25Для суполкі NLProc.by

Page 26: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Запісы словаформаў да і пасля генерацыі транскрыпцый

26Для суполкі NLProc.by

Page 27: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

27Для суполкі NLProc.by

Page 28: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Запісы словаформаў да генерацыі транскрыпцый

28Для суполкі NLProc.by

Page 29: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Запісы словаформаў пасля генерацыі транскрыпцый

29Для суполкі NLProc.by

Page 30: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Плануемы выгляд запісу ў электронным арфаэпічным слоўнікус гмаі ́ [с' γма ] (назва літары)і ́ж. Р с гмы [с' γмы ],і ́ і ́ ДМ с гме [с' γм'эі ́ і ́ ],с гму [с' γму ],і ́ і ́ с гмай [с' γмай ] (-аю)і ́ і ́(сума) ж. Р с гмы [с' γмы ],і ́ і ́ДМ с гме [с' γм'э ], с гму [с' γму ],і ́ і ́ і ́ і ́с гмай [с' γмай ] (-аю)і ́ і ́ мн. НВ с гмы [с' γмы ],і ́ і ́сігм [с' γм ] (-маў), с гмам [і ́ і ́ с' γмамі ́ ],с гмамі [і ́ с' γмам'іі ́ ], с гмах [і ́ с' γмахі ́ ]

30Для суполкі NLProc.by

Page 31: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Праверка “у” і “ў”

31Для суполкі NLProc.by

Page 32: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

32Для суполкі NLProc.by

Page 33: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Генератар спасылкі на публікацыю

33Для суполкі NLProc.by

Page 34: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

34Для суполкі NLProc.by

Page 35: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Спецыялізаваны слоўнік

35Для суполкі NLProc.by

Page 36: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Спецыялізаваны слоўнік

36Для суполкі NLProc.by

Page 37: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

37Для суполкі NLProc.by

Page 38: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка гука on-line

38Для суполкі NLProc.by

Page 39: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка гука on-line

Выбар гука

Выбар тыпу дыяграмы-Асцылаграма-Спектраграма

39Для суполкі NLProc.by

Page 40: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка алафона on-lineасцылаграма спектраграма

40Для суполкі NLProc.by

Page 41: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка алафоннага радка on-line: асцылаграма

41Для суполкі NLProc.by

Page 42: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Апрацоўка алафоннага радка

on-line: спектраграма

42Для суполкі NLProc.by

Page 43: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Генератар тэматычных даменаў

43Для суполкі NLProc.by

Page 44: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Генератар тэматычных даменаў мінімальных набораў слоў,які пакрываюць усе алафоны і дыфоныбеларускай мовыхаця б 1 раз

44Для суполкі NLProc.by

Page 45: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Запіс гуку ў Інтэрнэт

45Для суполкі NLProc.by

Page 46: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Запіс гуку ў Інтэрнэт

46Для суполкі NLProc.by

Page 47: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Робат, які ўмее гаварыць :)

Для суполкі NLProc.by 47

Page 48: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Нашыя распрацоўкі (2)srlab.by

48Для суполкі NLProc.by

Page 49: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Нашыя распрацоўкі (3)

nooj2015.ssrlab.by

49Для суполкі NLProc.by

Page 50: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Узроўні мовы (А)

50Для суполкі NLProc.by

Page 51: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Узроўні мовы (B)

крыніца

51Для суполкі NLProc.by

Page 52: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Узроўні мовы (C,1)

52Для суполкі NLProc.by

Page 53: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Узроўні мовы (C,2)

крыніца

53Для суполкі NLProc.by

Page 54: Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін "Natural Language Processing"

Дзякую за ўвагу!Тэл.:

+375 (17) 284-27-73 (пакой 422)+375 (17) 284-25-22 (пакой 430)

E-mail:[email protected]

[email protected]