Генератор библиографии. Презентация участников

biblioКузнецова ЯнаЦалапова Анна

Руководитель: Евгений Линский

Что такое biblio?

Надо написать отчет/курсовую/диплом/…

Обязательно будут ссылки на литературу.

Хочется автоматизировать процесс генерации ссылок из имеющегося pdf-файла со статьей.

\begin{document}In paper \cite{hosek2016}...

● Извлечь библиографические данные (название, авторы, журнал, ...)● Проверить/дополнить информацию с помощью электронных

библиотек● Вывести в удобном формате полученную информацию (bib, html)● Сохранить данные в базе для ускорения поиска в будущем

Извлечь данные (Parser)

Дополнить данные (Internet Libraries)

Что такое biblio?

ПарсерПроблема: каждое издательство хочет быть оригинальным

Некоторые издательства хотят быть оооочень оригинальными...

Парсер

Вывод: в ЛУЧШЕМ случае можем ДОСТОВЕРНО получить только название статьи. Об авторах, названии журнала, страницах и пр. можно забыть.

Парсер

КАК ИЗВЛЕЧЬ НАЗВАНИЕ?

Анализ на основе регулярных выражений по ключевым словам и символам (abstract, keywords, introduction, @): не получается разделить название и авторов

=> точность ~ 40%

Парсер

КАК ИЗВЛЕЧЬ НАЗВАНИЕ?

Анализ на основе регулярных выражений по ключевым словам и символам (abstract, keywords, introduction, @): не получается разделить название и авторов

Поиск строки со шрифтом максимального кегля: мешают картинки, нестандартное форматирование, колонтитулы

Парсер

Сегментирование изображения; удаление блоков, однозначно не соответствующих заголовку

Парсер

Сегментирование изображения; удаление блоков, однозначно не соответствующих заголовку

Парсер

+ поиск строки со шрифтом макс. кегля

=> точность ~90%

● удаление областей, непохожих на заголовок

● нахождение строки со шрифтом максимального кегля

● извлечение заголовка (pdf как текст)

● извлечение заголовка (pdf как изображение)

Парсер

tesseract

Добавление данных из библиотекРассматривались только бесплатные электронные библиотеки издательств

Format API-key needed

dblp.org JSON

springer.com JSON +

arXiv.org XML

nature.com JSON

sciencedirect.com JSON +

scopus.com JSON +

● cURL - отправка запросов● jsoncpp - обработка данных в

формате json● tinyXML - обработка данных

в формате xml

Проблемы

● не получается извлечь корректное название● не найдена информация о статье

R ECCURRENT N EURAL N ETWORK R EGULARIZATION

Проблемы

● не получается извлечь корректное название● не найдена информация о статье● openCV + poppler/tesseract + cURL 60 статей ~ 5.5 минут

Решение ?● база данных обработанных файлов● многопоточность

База данных

Проверяем наличие статьи в БД.

Если статьи в БД нет, выделяем заголовок,ищем в Интернете.

Добавляем информацию о статье в БД.

Многопоточность

pdf1 pdf2 pdf3 pdf4 pdf5 pdf6 pdf7 pdf8 pdf9

info1 info2 info3 info4 info5 info6 info7 info8 info9

threads

Input queue

Results

Архитектура приложения

BiblioManager

openCV

popplertesseract

cURLarxiv

springer

Как использоватьПримеры:

$./main -d /home/user/my_articles_dir

$./main my_articles_dir/article_1.pdf my_articles_dir/article_2.pdf

Как использоватьПримеры:

$./main -d /home/user/my_articles_dir

$./main my_articles_dir/article_1.pdf my_articles_dir/article_2.pdf

Оценка результатов

Выборка из 150 статейНазвание: 139 статей 92.6%Библиографические данные: 138 статей 92.0%

correct_names

scores

Выводы

Реализовано:

Получение названия статьи из PDF

Поиск bib info по названию в сети

Поддержка базы данных пользовательских статей

Перспективы проекта:

другие форматы файлов (DjVu, fb2, txt, ... )поддержка каталога файлов с возможностью поиска, сортировки,

https://github.com/acanna/biblio

ts.anna.d@gmail.com kuznetsova.jana@gmail.com

Генератор библиографии. Презентация участников

Documents

Генератор горячего тумана AR 35 E

ГЕНЕРАТОР ФУНКЦИОНАЛЬНЫЙ ДИАТЕСТ-4» · 1.1.5 Генератор удовлетворяет требованиям Р 50.2.049-2005, как средство

Выпуск №4 (2061) октябрь-декабрь 2017 ГЕНЕРАТОР...2017 ГЕНЕРАТОР октябрь-декабрь Выпуск 4 (2061) Газета НПО “ЭЛСИБ”

Регистрация участников

О Программе развития национальной библиографии в Российской Федерации на период до 2020 г

Список участников МАКС-2019 № Зарубежные ......Список участников МАКС-2019 1 Список участников МАКС-2019 Зарубежные

для участников

генератор отчетов Calligraph

Развитие системы национальной библиографии в Республике Саха (Якутия)

ветрянной генератор 75872

РЕЕСТР УЧАСТНИКОВ ИННОВАЦИОННОГО ... · 2019-10-17 · 1 РЕЕСТР УЧАСТНИКОВ ИННОВАЦИОННОГО ТЕРРИТОРИАЛЬНОГО

Синхронный генератор

Генератор экзаменционных билетов

генератор змінного струму

Визитные карточки участников

Курс «Генератор идей»

ПРИВЕТСТВУЕМ УЧАСТНИКОВ СОБРАНИЯ!

ветрянной генератор 93893

ветрянной генератор 80517

Дизельный генератор KIPOR KDE6700TA3 CONNECTOR · Дизельный генератор kipor kde6700ta3 connector Описание kde6700ta3 connector трёхфазный