13
Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1

Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Tudásalapúinformáció integráció

(A Szemantikus Web megközelítés és a másik irány)

Tanszéki értekezlet, 2008. május 14.

1

Page 2: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Miért van szükségünk ilyesmire? (Alkalmazások)

• WWW:– Keresés a weben (pl. összehasonlítás alapú vásárlás)– Portál építések több adatforrás felhasználásával– B2B, elektronikus piacterek

• Tudomány és kultúra:– Asztrofizika: égi jelenségek gyűjtése.– Kultúra: kulturális információs adatbázisok egységes

elérése országhatárokon túl– Genetika: gén információk integrálása

• Vállalati adatintegráció– Egy átlagos KNV 49 adatbázist alkalmaz és IT

költségvetésének 30%-át az adatintegrációra költi (US, 2002) 2

Page 3: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Információ integrációAz információ integráció célja strukturált és félig-strukturált

információforrások együttes kezelése, információigények egységes felületen történő kiszolgálása

Területek:– Intézmények (közép- és nagyvállalatok,

államigazgatás)– Web

Megközelítési módok: – Források kiegészítése (szemantikus web koncepció)– Lekérdező eszközök fejlesztése (mediátor és

információintegrációs rendszerek)3

Page 4: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Miért nem elég:• Keresőgépek szövegalapú keresést

végeznek– Jól működik egyedi dokumentumokon

• Nem tudnak integrálni több dokumentumból származóinformációkat

• Nem képesek hatékony általánosításra• Nem tudnak dokumentumokat és adatbázisokat

összekapcsolni

4

Szkeptikusoknak

Page 5: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

5

Netbot

Junglee

DealPilot.Com

Összehasonlítás alapú vásárlás?

• Hasonló források• De:

• Eltérő fókusz• Eltérő a spektrumuk az

adatbázisoknak• Szolgáltatások

• Új kihívás• Az “adattár” megközelítés

nem működik• Kézi forrásleírás, kezelés

korlátai

Szkeptikusoknak

Page 6: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Miért nem csak• Közös séma hiánya

– Források heterogén sémákkal (és fogalmakkal, ontológiákkal) rendelkeznek

– Félig-strukturált források• Régi források

– Nem relációs sémák– Eltérő elérési módok

• Független források– Nincs közös adminisztráció– Nem kezelt forrás tartalmi átfedések

• Nehezen előre jelezhető viselkedés– Lekérdezés végrehajtás bonyolult

• Általában csak olvashatóak– Ez lehet szerencsés is– Terjednek a tranzakció kezelési megoldások a

weben6

adatbázisokelosztott adatbázisokSzkeptikusoknak

Adatbázis(relációs)

Adatbázis kezelés(DBMS)

-Tároló kezelés-Lekérdezés végrehajtás-Nézetek kezelése-(Tranzakció kezelés)

Lekérdezés(SQL)

Válasz(adat rekordok)

Page 7: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

A szemantikus web koncepció

7

„A szemantikus web egy kiterjesztése a jelenlegi web-nek, amelyben az információknak jól definiált jelentést adhatunk, lehetővé téve a gépek és felhasználók közti jobb együttműködést.„

„A szemantikus webelérhetővé teszi a tudást, mint a web a hypertextet.”

Tim Berners-Lee

Az egyik irá

ny

Page 8: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

8

Szolgáltatások

Web lapok

Strukturált adatok

Szenzorok(soros adatok)

A másik irá

ny

Lekérde

zés

Végrehajtás

Forrás fúzionálás/Lekérdezés

tervezés

Forrás leírás

Válasz

Monitor

Mediátor

Page 9: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

9

Lekérde

zés

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálás Lekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsi m

odell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

• Felhasználói lekérdezések megfogalmazása a mediáltsémán.

• Adatok tárolása lokális sémában.

• A tárolt információ(tartalom) ismerete alapján megfogalmazható a leképezés a sémák között.

• A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás elérésekhez.

Információmenedzser

Page 10: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Kis forrás szám melletti integráció

• Általában ad-hoc programozás:speciális eset megvalósítása minden esetre, sok konzultáció.

• Adattárházak: minden adat periódikus feltöltése az adattárházba.– 6-18 hónap bevezetési idő– Operációs és

döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás).

– Teljesítmény jó, – adat lehet, hogy nem friss;.– Rendszeres adattisztítás

szükséges. Adat-forrás

Adat-forrás

Adat-forrás

Relációs adatbázis (tárház)

Felhsználóilekérdezések

Adat kinyerőprogramok

Adat tisztítás

OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat

Adat-forrás

Adat-forrás

Adat-forrás

Relációs adatbázis (tárház)

Felhsználóilekérdezések

Adat kinyerőprogramok

Adat tisztítás

OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat

10

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Lekérdezé

s

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Page 11: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

Virtuális integrációs séma• Adatok a forrásokban

maradnak• Lekérdezés végrehajtásakor:

– Releváns források meghatározása

– Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre.

– Válaszok begyűjtése a forrásokból, és megfelelőkombinálása a válasz előállításához.

• Friss adatok• A megoldás skálázható

11

Adatforrás

wrapper

Adatforrás

wrapper

Adatforrás

wrapper

Mediátor:

Felhasználói lekérdezésMediált (globális)séma

Adatforráskatalógus

Fordító motor

Optimalizáló

Végrehajtó gép

Adatforrás

wrapper

Adatforrás

wrapper

Adatforrás

wrapper

Mediátor:

Felhasználói lekérdezésMediált (globális)séma

Adatforráskatalógus

Fordító motor

Optimalizáló

Végrehajtó gép

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Lekérdezé

s

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Page 12: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

12

Lekérdezé

s

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálás Lekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsi m

odell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítéseTudásreprezentáció

- Ontológiák- Metaadatok- Következtetés- Lekérdező nyelvekAutomata tervezés

-Nyelvek tervezése-Szolgáltatások kompozíciója-Reaktív tervezés/

terv monitorozás

Tanulás/bányászás-Forrás felkutatás-Forrás statisztikák-Wrapper tanulás

Hol az MI szerepe?

Page 13: Tudásalapú információ integráció · megfogalmazása a mediált sémán. • Adatok tárolása lokális sémában. • A tárolt információ (tartalom) ismerete alapján megfogalmazható

13

Köszönöm a figyelmet!