47
Открытый корпус: принципы работы и перспективы Открытый корпус: принципы работы и перспективы Д. В. Грановский В. В. Бочаров С. В. Бичинёва Mathlingvo, СПбГУ 21 октября 2010 г.

2010 ims slides

Embed Size (px)

Citation preview

Page 1: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Открытый корпус: принципы работы иперспективы

Д. В. Грановский В. В. Бочаров С. В. БичинёваMathlingvo, СПбГУ

21 октября 2010 г.

Page 2: 2010 ims slides

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языке

полностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом

Page 3: 2010 ims slides

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензией

размечаемый сообществом пользователейс открытым исходным кодом

Page 4: 2010 ims slides

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователей

с открытым исходным кодом

Page 5: 2010 ims slides

Открытый корпус: принципы работы и перспективы

OpenCorpora — это

корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом

Page 6: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступны

разметка недоступнаразметка не единообразна

Page 7: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступныразметка недоступна

разметка не единообразна

Page 8: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Проблемы других корпусов

полные тексты недоступныразметка недоступнаразметка не единообразна

Page 9: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Пример неединообразия

. . . стать причиной появления вирусов, неотличимых по своимсвойствам от диких вирусов, вызывающих заболевания.вызывающий, A, pl, gen ,plen. . . одной из главных причин, вызывающих насторожённое идаже негативное отношение педагогов к компьютерномутестированию. . .вызывать, V, tran, ipf, partcp, act, . . .

Page 10: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Пример неединообразия

. . . В результате стирки <. . . > стали цвета хаки.хаки, S, inan, n, sg, gen, 0Один нёс в руке деревянный ящичек цвета хаки, другой был внаушниках и с антенной.хаки, A, sg, gen, plen, 0

Page 11: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать

. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 12: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!

корпус размечается сообществомединообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 13: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 14: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяется

удобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 15: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузере

устойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 16: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 17: 2010 ims slides

Открытый корпус: принципы работы и перспективы

А у нас?

весь корпус можно скачать. . . и это легально!корпус размечается сообществом

единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»

существуют уровни качества разметки

Page 18: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данных

Интерфейс:для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 19: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 20: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поиск

для редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 21: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование

; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 22: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 23: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Компоненты системы

Хранилище — добавление, хранение и выдача данныхИнтерфейс:

для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс

Система экспорта — выгрузка данных с той или инойстепенью фильтрации

Page 24: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),

2 доступ к добавлению новых текстов в корпус иредактированию имеющихся,

3 автоматический морфологический разбор новых текстовпри помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Page 25: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,

3 автоматический морфологический разбор новых текстовпри помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Page 26: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,3 автоматический морфологический разбор новых текстов

при помощи словаря,

4 поддержка интерфейса для ручного снятияграмматической неоднозначности.

Page 27: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Задачи 1-го этапа

1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и

редактированию имеющихся,3 автоматический морфологический разбор новых текстов

при помощи словаря,4 поддержка интерфейса для ручного снятия

грамматической неоднозначности.

Page 28: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 29: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище

+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 30: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок

+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 31: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки

– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 32: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации

– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 33: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс

– внесение изменений очень трудоемко

Page 34: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Инструменты

MediaWiki

+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко

Page 35: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Структура корпуса

1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.

Единица грамматической разметки — токен.Внутри токена не бывает пробелов.

Page 36: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Структура корпуса

1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.

Единица грамматической разметки — токен.Внутри токена не бывает пробелов.

Page 37: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.

Токены бывают1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Page 38: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.Токены бывают

1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Page 39: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Ещё о токенах

Разметка токена состоит из нескольких интерпретаций.Токены бывают

1 словарные2 несловарные

Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи

грамматических категорий,4 набор меток, обозначающих особенности конкретного

употребления словоформы в тексте.

Page 40: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Page 41: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Page 42: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Page 43: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями

5 Разметка доступна для просмотра и скачивания

Page 44: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Жизненный цикл текста

1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены

2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы

3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности

4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания

Page 45: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Заключение

Мы считаем, что открытость лингвистических базданных является существенным стимулом дляразвития науки о языке и для создания прикладныхсистем обработки текста. Вместе с тем, созданиетаких баз требует больших трудозатрат, чтосущественным образом влияет на рентабельностьразработки ПО и на трудоемкость исследований. Вобъединении усилий сообщества для созданияоткрытого размеченного корпуса мы и видим решениевышеозначенной проблемы.

Page 46: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Спасибо

Спасибо за внимание!

Page 47: 2010 ims slides

Открытый корпус: принципы работы и перспективы

Contacts

http://opencorpora.org

[email protected]@opencorpora.org