17
Інтеграція даних на основі відображень Підготували Олег і Оксана Максимці

Тема 8. Інтеграція даних на основі відображень

Embed Size (px)

Citation preview

Інтеграція даних на основі

відображень

Підготували Олег і Оксана Максимці

Підходи інтеграції даних на основі

відображення

Інтеграція даних – це загальна проблема знаходження та об'єднання

даних з різних джерел. Спростити її дозволяють декларативні мови.

Залежно від типу мови, що використовується для визначення

відображення, системи інтеграції даних на основі відображень

(VDIS) поділяються за такими підходами: Global As View (GAV) і

Local As View (LAV).

Архітектура і опис типової

VDIS

Джерела даних зберігають дані в різних

форматах. Обгортки усувають

неоднорідність у форматах. Обгортки

джерел даних, як правило, називають

локальними базами даних, структура яких

описана у відповідних локальних схемах.

Остаточна схема визначається певною

мовою відображення (зображена у вигляді

ліній між обгортками і посередником), яка

вказує те, як локальні схеми відображаються

у глобальній, а її в свою чергу посередник

вже надає програмам.

VDIS

Мова відображення

Загальна модель даних і

мова запитівСпосіб зберігання

даних

Мова відображення

Загальна модель даних і мова запитів

Модель даних і мова запитів надається обгортками

посередникові, а посередником програмам. Зазвичай

використовуються моделі даних: реляційні, XML і об'єктно-

орієнтовані

Мова відображення

Ця мова визначає як співвідносяться джерела даних з

глобальною моделлю. Мови відображення поділяються на

дві категорії: Global As View (GAV) і Local As View (LAV).

Вони є одним із найважливіших компонентів VDIS.

Спосіб зберігання даних

Існує фізичний і віртуальний підхід. При фізичному способі (підхід

складу) всі дані з джерел копіюються в посередника, а при віртуальному

(ледачий підхід) – дані зберігаються в джерелах і глобальна база даних є

віртуальною, тобто запит до глобальної бази даних не може бути

виконаний безпосередньо, а повинен бути переведений на запит до

фактичних джерел даних. Зрештою деякі системи використовують

гібридні політики, такі як віртуалізація в супроводі з кешуванням.

Таблиці локальних і глобальних схем

Відображення В1 інтуїтивно описує, як

створюються записи в глобальній таблиці Book.

Це робиться шляхом вилучення необхідних

полів з таблиць PHBook та PHAuthor і вказанні

в якості видавця – "PH" (витягнуті книги,

видані PH). Відповідно відображення В2 описує

побудову глоба льної

таблиці Book_Price. Це включає об'єднання

інформації з кількох джерел: інформації про

рекомендовану ціну для роздрібного продажу з

бази даних PH і підсумкову інформації з

продаж від B&N, так як адміністратор B&N

знає, що B&N продає свої книги за

рекомендованою роздрібною ціною.

Переваги GAV

Простота GAV разом з прямим здійсненням

запитів до відповідних джерел даних призвели до

широкого впровадження GAV промисловими

системами. Найпопулярніші VDIS на основі GAV:

MULTIBASE, TSIMMIS і Garlic.

Недоліки GAV

По-перше, оскільки глобальна схема виражена в термінах

джерел, глобальні таблиці не можуть мати будь-яку інформацію,

що не присутня в, щонайменше, одному джерелі. Іншими словами,

значення кожного глобального атрибута повинно бути вказано

явно.

По-друге, відображення має явно вказати, як дані з декількох

джерел об'єднуються, щоб сформувати запис глобальної таблиці.

В'1 вказує, що PHBook містить інформацію

про книги, видані PH. Крім того, В'2 вказує,

що BNNewDeliveries містить ISBN, назву

книги, що продається В&N за

рекомендованою роздрібною ціною і чи

B&N має її у наявності.

В'1 : I(PHBook) → U1

В'2 : I(BNNewDeliveries) → U2

where U1(ISBN, title, author, sug_retail) :−

Book(ISBN, title, sug_retail, author,

“PH”)

and U2(ISBN, title, instock) :−

Book(ISBN, title, sug_retail, author,

publisher),

Book_Price(ISBN, “B&N”,

sug_retail, instock).

Переваги LAV

LAV вирішує багато проблем GAV, найбільш

важливою з яких є проблема незалежного додавання

джерел даних, оскільки відображення джерела не

належить від інших джерел системи.

Недоліки LAV

Тим не менш, LAV має деякі недоліки. Зокрема, немає

змоги тримати джерела, що містять інформацію, якої

немає в глобальній схемі. Крім того, через

декларативний характер LAV відповідь на запит вже не

є такою простою як у GAV.

Можливі світи

Нескінченно багато глобальних баз даних, які могли б бути виражені з локальних джерел за

допомогою відображень. Ці бази даних називаються можливими світами. Їх існування має

два важливих наслідки: тому LAV краще підходить для віртуального способу зберігання

даних. Тим не менш, все ще існує спосіб реплікації інформацією джерела в

централізованому місці. Це включає в себе створення «особливої» бази даних, яка

інтуїтивно зберігає загальну форму з усіх можливих світів. Ця "спеціальна" база даних

називається канонічним універсальним рішення і може бути побудована за допомогою

процедур, що застосовуються в обміні даними. По-друге, так як існує багато глобальних баз

даних, семантика відповідей на запити має бути переглянута

Достовірна відповідь

Це відповідь на запит, яка буде завжди з'являтися незалежно від

можливого світу, в якому цей запит виконується (тобто рядки,

які з'являються в перетині множини відповідей на запити щодо

кожного можливого світу). Тобто достовірні відповіді

повертають інформацію, яка гарантовано існує в будь-якому

можливому світі.

Дякую за увагу