11
Проект общедоступного многопользовательского корпуса Проблемы и перспективы Дмитрий Грановский

Free Corpus I M S

Embed Size (px)

Citation preview

Page 1: Free  Corpus  I M S

Проект общедоступногомногопользовательского

корпуса

Проблемы и перспективы

Дмитрий Грановский

Page 2: Free  Corpus  I M S

Зачем ещё один?

У существующих корпусов:

• Авторские права– На текст– На разметку

• Административные ограничения• Недоступна сама разметка

Page 3: Free  Corpus  I M S

Что будет уметь?

• Просмотр и редактирование разметки(многопользовательский)

• Возможность скачивания в разных форматах

• Встроенный поиск по популярным запросам

• Обработка «тяжёлых» запросов

Page 4: Free  Corpus  I M S

Кто будет делать?

• Техническая часть – группа разработчиков

• Наполнение – пользователи

Page 5: Free  Corpus  I M S

Откуда брать тексты?

• Тексты с истекшим авторским правом• Тексты, на которые авторское право не

распространяется• Тексты под свободной лицензией (e.g.

Википедия)

Остальное – по договорённости с правообладателем

Page 6: Free  Corpus  I M S

Задачи инструментария

1. Редактирование2. Хранение3. Поиск

Page 7: Free  Corpus  I M S

Как можно использовать?

• Статистические исследования• Машинное обучение (как обучающий

корпус)• Тестовый корпус для других ресурсов

Page 8: Free  Corpus  I M S

Проблемы

• Почему эта модель доступа должна работать?

• Как обеспечить совместную работу многих людей? (многопользовательский)

• Как обеспечить целостность данных?

Page 9: Free  Corpus  I M S

Проблемы

• Откуда взять столько квалифицированных редакторов?

• Как бороться с ошибками редактирования?

• Как не делать разметку с нуля?• Как унифицировать разметку?

Page 10: Free  Corpus  I M S

Ваши вопросы

Page 11: Free  Corpus  I M S

СПАСИБО!

http://mathlingvo.ru

Дмитрий Грановский

[email protected]