7
150 Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ ПРОИЗВОЛЬНЫХ ЭЛЕКТРОННЫХ ТАБЛИЦ В РЕЛЯЦИОННУЮ ФОРМУ - Бычков И.В., Михайлов А.А., Парамонов В.В., Ружников Г.М., Шигаров А.О. Институт динамики систем и теории управления имени В.М. Матросова СО РАН, г. Иркутск В работе обсуждаются вопросы основанной на правилах трансформации данных из произвольных электронных таблиц в реляционную форму. Определяется новая объектная модель произвольной таблицы и предметно-ориентированный язык пра- вил анализа и интерпретации табличной структуры. Предлагается оригинальная си- стема извлечения и трансформации данных электронных таблиц (TABBYXL). Экс- периментальная оценка показывает высокую точность (от 93,7% до 100%) и полно- ту (от 93,9% до 99,8%) для восстановления различных функциональных единиц данных и их отношений на известном тестовом наборе 200 произвольных таблиц одного жанра (государственных статистических отчетов). Ключевые слова: трансформация данных, анализ таблиц, интерпретация таблиц, программирование на основе правил. TABBYXL: A SYSTEM FOR DATA TRANSFORMATION FROM ARITRARY SPREADSEETS TO RELATIONAL FORM Bychkov I.V., Mikhailov A.A., Paramonov V.V., Ruzhnikov G.M., Shigarov A.O. Matrosov Institute for System Dynamics and Control Theory of the Siberian Branch of the Russian Academy of Science, Irkutsk, Russian Federation The paper discusses issues of rule-based data transformation from arbitrary spreadsheet tables to a relational form. We propose a novel table object model and domain-specific language of table analysis and interpretation rules. TABBYXL, our tool for transforming spreadsheet data from arbitrary to relational tables, implements the model and language. The performance evaluation shows high precision (from 93.7% to 100%) and recall (from 93.9% to 99.8%) for different recovered functional items and their relations on the exist- ing dataset of 200 arbitrary tables of the same genre (government statistics). Ключевые слова на английском языке: spreadsheet data transformation, table analysis, table interpretation, rule-based programming. Введение. В мире циркулирует большое количество произвольных электронных таблиц в форматах HTML, Excel, CSV. Современные оценки, сделанные на основе изу- чения экспериментальных срезов содержания сети Интернет (Common Crawl), показы- вают, что их количество исчисляется сотнями миллионов [1, 2]. Предположительно они содержат миллиарды фактов [3]. Такие таблицы характеризуются большим разнообра- зием и разнородностью компоновок, стилей и содержания [4]. С учетом постоянного и быстрого роста объёма такой информации её относят к Большим Данным [5]. Большой объём и свойства структуры таких таблиц делают их ценным источни- ком в приложениях науки о данных и бизнес-аналитики. Однако, как правило, они не сопровождаются явной семантикой необходимой для машинной интерпретации своего содержания так, как задумано их автором. Накапливаемая в них информация часто яв-

TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

150 Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года

TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ ПРОИЗВОЛЬНЫХ

ЭЛЕКТРОННЫХ ТАБЛИЦ В РЕЛЯЦИОННУЮ ФОРМУ -

Бычков И.В., Михайлов А.А., Парамонов В.В., Ружников Г.М., Шигаров А.О.

Институт динамики систем и теории управления имени В.М. Матросова СО РАН,

г. Иркутск

В работе обсуждаются вопросы основанной на правилах трансформации данных из

произвольных электронных таблиц в реляционную форму. Определяется новая

объектная модель произвольной таблицы и предметно-ориентированный язык пра-

вил анализа и интерпретации табличной структуры. Предлагается оригинальная си-

стема извлечения и трансформации данных электронных таблиц (TABBYXL). Экс-

периментальная оценка показывает высокую точность (от 93,7% до 100%) и полно-

ту (от 93,9% до 99,8%) для восстановления различных функциональных единиц

данных и их отношений на известном тестовом наборе 200 произвольных таблиц

одного жанра (государственных статистических отчетов).

Ключевые слова: трансформация данных, анализ таблиц, интерпретация таблиц,

программирование на основе правил.

TABBYXL: A SYSTEM FOR DATA TRANSFORMATION

FROM ARITRARY SPREADSEETS TO RELATIONAL FORM

Bychkov I.V., Mikhailov A.A., Paramonov V.V., Ruzhnikov G.M., Shigarov A.O.

Matrosov Institute for System Dynamics and Control Theory of the Siberian Branch of

the Russian Academy of Science, Irkutsk, Russian Federation

The paper discusses issues of rule-based data transformation from arbitrary spreadsheet

tables to a relational form. We propose a novel table object model and domain-specific

language of table analysis and interpretation rules. TABBYXL, our tool for transforming

spreadsheet data from arbitrary to relational tables, implements the model and language.

The performance evaluation shows high precision (from 93.7% to 100%) and recall (from

93.9% to 99.8%) for different recovered functional items and their relations on the exist-

ing dataset of 200 arbitrary tables of the same genre (government statistics).

Ключевые слова на английском языке: spreadsheet data transformation, table analysis,

table interpretation, rule-based programming.

Введение. В мире циркулирует большое количество произвольных электронных

таблиц в форматах HTML, Excel, CSV. Современные оценки, сделанные на основе изу-

чения экспериментальных срезов содержания сети Интернет (Common Crawl), показы-

вают, что их количество исчисляется сотнями миллионов [1, 2]. Предположительно они

содержат миллиарды фактов [3]. Такие таблицы характеризуются большим разнообра-

зием и разнородностью компоновок, стилей и содержания [4]. С учетом постоянного и

быстрого роста объёма такой информации её относят к Большим Данным [5].

Большой объём и свойства структуры таких таблиц делают их ценным источни-

ком в приложениях науки о данных и бизнес-аналитики. Однако, как правило, они не

сопровождаются явной семантикой необходимой для машинной интерпретации своего

содержания так, как задумано их автором. Накапливаемая в них информация часто яв-

Page 2: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года 151

ляется неструктурированной и не стандартизированной. Анализ этих данных нуждается

в их предварительном извлечении и трансформации к структурированному представле-

нию с заданной формальной моделью.

Анализ современного состояния исследований данной области [6] показывает

большой интерес к рассматриваемым вопросам со стороны исследователей и разработ-

чиков систем обработки документов, информационного поиска и управления данными.

Сегодня продолжают активно развиваться специализированные инструменты для из-

влечения и трансформации данных из произвольных электронных таблиц в структури-

рованную форму, в том числе, системы трансформации табличных данных [7-9], систе-

мы извлечения связанных данных [3,10, 11], система извлечения реляционных данных

из таблиц с иерархиями заголовков SENBAZURU [12], система трансформации произ-

вольных таблиц к реляционной форме на основе поиска критических ячеек MIPS [5].

Как правило, существующие методы и инструменты анализа таблиц ограничива-

ются обработкой небольшого количества (1-5) широко распространенных видов таб-

личных компоновок. При этом многие виды таблиц специфичных для некоторых обла-

стей (например, паспорта безопасности продуктов в химии или паспорта электротехни-

ческого оборудования в энергетике) остаются неохваченными. Системы SENBAZURU

[12] и MIPS [5] преследуют цели схожие с нашими ― преобразовать таблицы от произ-

вольной к реляционной форме. Однако, они используют заданные модели исходных

таблиц, при которых смешивается их физическая и логическая компоновка. Это огра-

ничивает возможности их применения сводными таблицами характерными для стати-

стических отчетов.

В настоящей работе предлагается свободная система извлечения и трансформа-

ции данных из произвольных электронных таблиц, называемая TABBYXL. Система

охватывает задачи автоматического восстановления семантической разметки таблиц,

очистки и отслеживания происхождения табличных данных, генерации реляционных

данных. Рассматриваемые процессы трансформации табличных данных служат для

восстановления недостающих метаданных (семантики) о структуре и содержании про-

извольной таблицы, позволяя переходить к более структурированному представлению.

В отличие от перечисленных решений система TABBYXL использует объектную модель

таблицы, не ограничивающую структуру обрабатываемых таблиц функциональными

регионами. Ограничения, которые в существующих решениях встроены в их алгорит-

мы, мы предлагаем представлять в виде наборов правил анализа и интерпретации таб-

лиц. При этом трансформация данных обеспечивается исполнением этих правил [13].

Объектная модель таблицы. Как правило, произвольная электронная таблица не

включает метаданные, описывающие её отношения. Неизвестно то, какие роли играют

её ячейки (например, содержат ли они данные или атрибуты), как они связаны между

собой (например, заголовок и значение данных), какими предметными понятиями (ка-

тегориями) описывается её содержание. Для того чтобы перейти к структурированному

представлению, необходимо, в том числе, выделить внутри содержания произвольной

таблицы функциональные единицы (значения, метки, категории, агрегированные зна-

чения, сноски, название и др.), восстановить не представленные явным образом отно-

шения между значениями данных (вхождениями) и описывающими их ключами (мет-

Page 3: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

152 Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года

ками), соотнести её содержание с понятиями (категориями) внешнего словаря (концеп-

туальной онтологии или тезауруса).

Рис. 1. Двухуровневая объектная модель произвольной таблицы.

В основе представления исходных и восстанавливаемых фактов о таблице в рабо-

чей памяти системы исполнения правил лежит двухуровневая объектная модель (Рис.

1). Её физический (синтаксический) уровень описывает компоновочные (координаты в

пространстве строк и столбцов), стилевые (шрифтовое форматирование, выравнивание,

цветовое выделение и др.) и содержательные (текст, отступы) свойства ячеек. Логиче-

ский (семантический) уровень определяет связанные функциональные единицы дан-

ных: вхождения, метки и категории. Данная модель позволяет представлять таблицы с

произвольным расположением функциональных единиц внутри содержания ячеек. Она

также предусматривает взаимные ссылки между двумя уровнями. С одной стороны, это

обеспечивает отслеживание происхождения данных, с другой позволяет организовать

удобный доступ к её объектам.

Анализ и интерпретации таблиц. В системе TABBYXL процесс трансформации

табличных данных строится как последовательность следующих этапов (шагов) анали-

за и интерпретации таблиц.

1. Реформатирование и очистка табличных данных необходима для изменения син-

таксической структуры и содержания ячеек, в тех случаях, они представлены неак-

куратно, содержат ошибки, несогласованности и неточности. При этом для очистки

данных могут привлекаться различные готовые алгоритмы обработки строк (напри-

мер, [14]).

Page 4: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года 153

2. Ролевой анализ таблицы состоит в том, чтобы восстановить отдельные функцио-

нальные единицы: вхождения (значения данных) и метки (ключи, описывающие

значения данных) из естественно-языкового содержания ячеек.

3. Структурный анализ таблицы позволяет ассоциировать (связать) между собой

вхождения и метки, т.е. восстановить пары «вхождения-метка» и «метка-метка».

4. Интерпретация таблицы служит для того, чтобы определить категории меток, т.е.

восстановить пары «метка-категория».

В системе TABBYXL каждый шаг может быть выражен одним или несколькими

продукционными правилами, отображающими известные факты (объекты) обоих уров-

ней в неизвестные изначально факты. Такие правила могут быть выражены на пред-

метно-ориентированном языке правил CRL (Cells Rule Language), который ограничен

рассматриваемым предметом ― пониманием таблиц.

Один набор CRL правил может охватывать широкий диапазон таблиц, разделяю-

щих общий набор свойств, например, статистических таблиц или паспортов безопасно-

сти продуктов. Предполагается, что такие таблицы имеют различную на просвет струк-

туру ячеек, однако разделяют общие неизменяемые компоновочные, стилевые или со-

держательные свойства, например, наличие критической ячейки, разделяющей таблицу

на функциональные области, постоянное количество отступов, идентифицирующих не-

который уровень в иерархии заголовков, или числовой литеральный тип для всех зна-

чения данных. Синтаксис и семантика CRL языка рассматриваются в работах [6,15,16]

Рис. 2. Архитектура системы трансформации данных произвольных электронных таблиц

TabbyXL.

В процессе исполнения CRL правила отображают имеющиеся изначально факты о

компоновке, стилях и содержании ячеек таблицы в отсутствующие факты о её семанти-

ке (вхождениях, метках, категориях и отношениях между ними). Все факты рабочей

памяти системы исполнения правил представляются с помощью объектной модели

Page 5: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

154 Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года

таблиц. Реализация процессов анализа и интерпретации данных не обеспечивает абсо-

лютной точности и полноты. Трансформация произвольных таблиц может приводить к

накоплению ошибок данных. Поэтому TABBYXL позволяет отслеживать происхождение

данных. Эта информация накапливается в представленной объектной модели таблицы.

Архитектура и программная реализация. Архитектура TABBYXL представлена

на Рис. 2. Трансляция и исполнение CRL правил реализовано в свободной системе

Drools Expert (http://drools.jboss.org/drools-expert). В результате трансформации из вос-

становленной семантической информации генерируются электронные таблицы в реля-

ционной (канонической) форме, которая включает поле DATA ― данные (вхождения) и

поля CAT_1,…, CAT_n меток для каждой восстановленной категории. Исходные коды

проекта разработки системы TABBYXL опубликованы под свободной лицензией по ад-

ресу: https://github.com/cellsrg/tabbyxl.

Экспериментальная оценка. Оценка производительности TABBYXL выполнена

на известном тестовом наборе TROY200 (http://tc11.cvc.uab.es/datasets/Troy_200_1) из

200 произвольных таблиц, собранных с 10 различных сайтов государственной стати-

стики. Нами разработан набор из 16 CRL правил. Для оценки восстановления вхожде-

ний, меток, пар «вхождения-метка» и «метка-метка» использовались стандартные мет-

рики, используемые в информационном поиске: полнота, точность и F-мера. Получен-

ные результаты приводятся в таблице 1. Исходные произвольные и соответствующие

эталонные реляционные таблицы, шаги воспроизведения, CRL правила и результаты

эксперимента опубликованы в виде набора данных

(https://data.mendeley.com/datasets/448jdx7gcr/1).

Таблица 1. Экспериментальные результаты.

Вхождения Метки Пары «вхождения-метка» Пары «метка-метка»

Полнота 0,9813 0,9979 0,9773 0,9389

Точность 0,1000 0,9365 0,9966 0,9784

F-мера 0,9906 0,9662 0,9869 0,9582

Экспериментальные результаты показывают, что TABBYXL может применяться

для массовой обработки произвольных таблиц. При этом один набор правил может раз-

рабатываться для широкого диапазона таблиц, разделяющих общие неизменяемые

компоновочные, стилевые и содержательные свойства.

Заключение. Настоящая работа демонстрирует новые возможности в трансфор-

мации данных из произвольных электронных таблиц в реляционную форму на основе

исполнения правил их анализа и интерпретации. Представленная двухуровневая объ-

ектная модель таблицы описывает, как физическую (синтаксическую), так и логиче-

скую (семантическую) табличную структуру. В отличие от известных подходов она не

опирается на функциональные регионы (например, боковик, шапка и тело), а напротив

предполагает произвольное расположение функциональных единиц содержания внутри

ячеек.

CRL, предметно-ориентированный язык, служит для выражения правил анализа и

интерпретации таблиц. По сравнению с известными языками трансформации данных

Page 6: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года 155

он выстраивает этот процесс как последовательность шагов автоматического понима-

ния таблиц: их ролевого анализа, структурного анализа и интерпретации. В отличие от

языков правил общего назначения CRL позволяет фокусироваться на предмете (пони-

мании таблиц), скрывая не существенные детали.

TabbyXL, система трансформации произвольных электронных таблиц, реализует

предложенную модель и язык правил. В будущем TabbyXL может интегрироваться с

инструментами извлечения таблиц, например, TabbyPDF [17], для выстраивания сквоз-

ного процесса восстановления семантических данных в системах анализа и распознава-

ния документов. Перспективным направление дальнейшего развития является создание

на её базе инструментальной платформы извлечения и трансформации семантических

данных из произвольных таблиц.

Работа выполнена при финансовой поддержке РФФИ (грант № 16-57-44034), РАН

(программа I.33) и Совета по грантам Президента РФ (НШ-8081.2016.9). Разработка и

тестирование представленного программного обеспечения производилась с использо-

ванием ресурсов ЦКП ИИВС ИРНОК (http://net.icc.ru).

ЛИТЕРАТУРА

[1] Eberius J., Braunschweig K., Hentsch M., Thiele M., Ahmadov A., Lehner W. Building the dres-

den web table corpus: A classification approach // Proc. IEEE/ACM 2nd Int. Symposium on Big

Data Computing, 2015, pp. 41-50. DOI:10.1109/BDC.2015.30.

[2] Lehmberg O., Ritze D., Meusel R., Bizer C. A large public corpus of web tables containing time

and context metadata // Proc. 25th Int. Conf. Companion on World Wide Web, 2016, pp. 75-76.

DOI:10.1145/2872518.2889386.

[3] Galkin M., Mouromtsev D., Auer S. Identifying web tables: Supporting a neglected type of con-

tent on the web // Proc. 6th Int. Conf. Knowledge Engineering and Semantic Web, 2015, pp. 48-

62. DOI: 10.1007/978-3-319-24543-0_4.

[4] Braunschweig K. Recovering the Semantics of Tabular Web Data, Ph.D. thesis, Technischen

Universitt Dresden, Dresden, Germany, 2015.

[5] Embley D.W., Krishnamoorthy M.S., Nagy G., Seth S. Converting heterogeneous statistical ta-

bles on the web to searchable databases // Int. J. Document Analysis and Recognition. 2016.

vol. 19, pp. 119-138. DOI: 10.1007/s10032-016-0259-1.

[6] Shigarov A., Mikhailov A. Rule-Based Spreadsheet Data Transformation from Arbitrary to Rela-

tional Tables // Information Systems. Elsevier. 2017. Vol. 71, pp. 123-136. DOI:

10.1016/j.is.2017.08.004.

[7] Barowy D.W., Gulwani S., Hart T., Zorn B. FlashRelate: Extracting relational data from semi-

structured spreadsheets using examples // SIGPLAN Not. 2015. Vol. 50(6), pp. 218-228.

[8] Cunha J., Erwig M., Mendes J., Saraiva J. Model inference for spreadsheets // Autom Softw

Eng. 2016. Vol. 23(3), pp 361–392. DOI: 10.1007/s10515-014-0167-x.

[9] Jin Z., Anderson M.R., Cafarella M., Jagadish H.V. Foofah: Transforming data by example //

Proc. ACM Int. Conf. Management of Data, 2017. pp. 683-698. DOI:

10.1145/3035918.3064034.

[10] Fiorelli M., Lorenzetti T., Pazienza M.T., Stellato A., Turbati A., Sheet2RDF: a flexible and dy-

namic spreadsheet import&lifting framework for RDF // Proc. 28th Int. Conf. Industrial, Engi-

neering and Other Applications of Applied Intelligent Systems, 2015, pp. 131-140. DOI:

10.1007/978-3-319-19066-2_13.

[11] Ermilov I., Ngomo A.-C. N. TAIPAN: Automatic Property Mapping for Tabular Data, 2016, pp.

Page 7: TABBYXL: СИСТЕМА ТРАНСФОРМАЦИИ ДАННЫХ ИЗ …elib.ict.nsc.ru/jspui/bitstream/ICT/1467/21/paper17.pdf · The paper discusses issues of rule-based data transformation

156 Труды XVI Всероссийской конференци DICR-2017, Новосибирск, 4-7 декабря 2017 года

163-179. DOI: 10.1007/978-3-319-49004-5_11.

[12] Chen Z. Information Extraction on Para-Relational Data, Ph.D. thesis, Univ. of Michigan, US,

2016.

[13] Shigarov A. Table understanding using a rule engine // Expert Systems with Applications. Else-

vier. 2015. 42(2), pp. 929-937. DOI: 10.1016/j.eswa.2014.08.045.

[14] Paramonov V., Shigarov A., Ruzhnikov G., Belykh P. Polyphon: An Algorithm for Phonetic

String Matching in Russian Language // Communications in Computer and Information Sci-

ence. Springer. 2016. Vol. 639. pp. 568-579. DOI: 10.1007/978-3-319-46254-7_46.

[15] Shigarov A., Paramonov V., Belykh P., Bondarev A. Rule-Based Canonicalization of Arbitrary

Tables in Spreadsheets // Communications in Computer and Information Science. Springer.

2016. Vol. 639, pp. 78-91. DOI: 10.1007/978-3-319-46254-7_7.

[16] Shigarov A. Rule-Based Table Analysis and Interpretation // Communications in Computer and

Information Science. Springer. 2015. Vol. 538. pp. 175-186. DOI: 10.1007/978-3-319-24770-

0_16.

[17] Shigarov A., Mikhailov A., Altaev A. Configurable Table Structure Recognition in Untagged

PDF documents // Proc. 16th ACM Symposium on Document Engineering. 2016. pp. 119-122.

DOI: 10.1145/2960811.2967152.