ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Semantische Heterogenitätbei
datenbankübergreifendenRecherchen
Klaus HahnKlaus HahnZentrum für Psychologische Information
und Dokumentation (ZPIDZPID) der Universität TrierTrier
Probleme der Integration digitaler
Bibliothekssysteme:
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Information Retrieval = TextText Retrieval Retrieval
Internet:Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLEGOOGLE = ca. 2.ooo.ooo.ooo web pages
pro Tag ca. 1oo.ooo.ooo Anfragen
Standard: Volltext-Suche (+Boole)
optimiert durch individuelle HeuristikenHeuristiken
OutputOutput:: unpräzise + umfangreich
TexteTexte ohne Struktur OutputOutput ohne Struktur
keine semantischesemantische Aufbereitung
W3C: Ontology Inference LayerOntology Inference Layer (OIL)
Szenario:Szenario: Information Retrieval Information Retrieval
attention & attention & performance...performance...
GO!
2.620.000
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Information Retrieval:Information Retrieval: Meta-Daten Meta-Daten
NormalNormal-User kann (will?) explorieren
Professioneller Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision
SemantikSemantik effizienteeffiziente Suche FachFach-Datenbanken als Spezialisierung
mit MetaMeta-Daten-Daten Minimum: Titel, Autor, Quelle, etc.
Standards entwickeln sich: DCI, RDF ... Vorteil: ThesaurusThesaurus
erschlosseneerschlossene Datenbasis indiziert über kontrollierteskontrolliertes
Fachvokabular Klassifikation undund Relationen
Fach-Datenbank(Meta-DatenMeta-Daten)
12
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Nachteil: Kenntnis der jeweiligen ErschließungErschließung / Indizierung unumgänglich akzeptabel für eineneinen Thesaurus inakzeptabel für mehreremehrere Datenbanken zur Zeit (traditionell) getrennte DB
nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip
InternetInternet fördert / provoziert aber unifiziertenunifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert
User sollte nicht erst DatenbankenDatenbanken aufspüren müssen, sondern schnell hochwertige
InformationenInformationen finden können.finden können.
Fach-Datenbank A(Meta-Daten AMeta-Daten A)
Information Retrieval:Information Retrieval: Thesauri Thesauri
Fach-Datenbank B(Meta-Daten BMeta-Daten B)
Fach-Datenbank C(Meta-Daten CMeta-Daten C)
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Fach-Datenbank C(Meta-Daten CMeta-Daten C)
Thesauri im Thesauri im InternetInternet
Fach-Datenbank B(Meta-Daten BMeta-Daten B)
unser Ansatzunser Ansatz: KommunikationKommunikation aller relevanten (oder selegierten) Datenbanken im HintergrundHintergrund AufbereitungAufbereitung der User-Query für
die verschiedenen DBMS (zB. via XML)
dabei dabei semantischer Transfersemantischer Transfer zwischen den verschiedenen Thesauri
Brave New WorldBrave New World: einein Such-Portal und eineeine Anfrage gegen jedejede gewünschte Datenbasis
62
Fach-Datenbank A(Meta-Daten AMeta-Daten A)
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Informations-Verbund Informations-Verbund BSPBSP
Fach-Datenbanken1..n
(Meta-DatenMeta-Daten)
Zentrum für Psychologische Information Zentrum für Psychologische Information und Dokumentation und Dokumentation (ZPID) ca. 170 000 Literaturnachweise ab 1977 ThesaurusThesaurus mit ca. 7.ooo Termen
Universitätsbibliothek Erlangen-NürnbergUniversitätsbibliothek Erlangen-Nürnberg (UB Erlangen)
Universitäts- und Stadtbibliothek KölnUniversitäts- und Stadtbibliothek Köln (USB Köln)
Saarländische Universitäts- und Saarländische Universitäts- und LandesbibliothekLandesbibliothek (SULB)
Deutsches Institut für Internationale Pädagogische ForschungDeutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus''Thesaurus' mit ca. 6o.ooo Termen
Informationszentrum SozialwissenschaftenInformationszentrum Sozialwissenschaften (IZ) ca. 250 000 Literaturnachweise ab 1945 ThesaurusThesaurus mit ca. 11.ooo Termen
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
BSP: Heterogene Systeme
Mimik
Angst
Frustration
Psyche
ProblemeProbleme Ähnliche Semantik,
unterschiedliche Benennung Aufgeschlossenheit /
Offenheit Klinikum / Krankenhaus ...
Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank ...
interne Differenzierungen Prä- / Postkoordination
Jugend - Arbeitslosigkeit
Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation
Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht
Frustration Leistungsmotivation Misserfolg
...?
TB
TATC
??
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
BSP: Heterogene Systeme
bloße Term-WeitergabeTerm-Weitergabe an andere Datenbanken wäre inadäquat VerfehlungVerfehlung des wirklichen
Suchziels nutzlose VergrößerungVergrößerung der
Treffermenge analog bei MehrsprachigkeitMehrsprachigkeit
bloßes Übersetzen reicht nicht aus
Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden
Child discipline Cognition Double bind
interaction Mind Perception Sensation
TB
TATC
??
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Heterogenität: Lösungsansätze
IntellektuelleIntellektuelle Verfahren Verfahren Von Fachleuten erstellte Module
("KonkordanzenKonkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden
kostenintensiv in Aufbau und Wartung
Quantitativ-Quantitativ-StatistischeStatistische Verfahren Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks
umfangreiche Datenbasis notwendig prinzipiell prinzipiell wartungsarm, aber
Datenbasis-abhängig Scheinkorrelationen
intellektuelle Überarbeitung unverzichtbar: semi-automatischesemi-automatische Verfahren
Thesaurus A
Term a1Term a2Term a3.........
Thes. B
Term b1 Term b2 Term b3 ... ...
Konk. ABKonk. AB
RelationRelationRelation...
HiddenLayer
OutputTerm B
InputLayer
Thesa
uru
s A
Thesa
uru
s A
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Heterogenität: Intellektuelle Zuordnung
Broader Term
mensch > menschliche natur
Narrower Term
lernerfolg < lernen
jeweils auch AND / OR - verknüpft
jeweils dreistufige Relevanz
hoch, mittel, gering
SWD relation relevance ZPIDlernen > h wiederlernen lernen > h zustandsabhängiges lernen lernen = h lernenlernfähigkeit = h lernfähigkeit lernprozess ^ h lernenlernschwierigkeit ^ h lernenlernvoraussetzung ^ m lernenmännlichkeit ^ m männliche homosexualität männlichkeit = h männlichkeit meinung > m öffentliche meinung meinungsbildung ^ m öffentliche meinung mensch ^ m menschenrechte mensch > h menschliche naturmotivation >o h extrinsische motivation motivation >o h intrinsische motivation motivation >o h leistungsmotivation
Equivalent ( männlichkeit = männlichkeit )
Related ( lernprozess ^ lernen )
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Heterogenität: Statistik
Thes. A
Term a1Term a2Term a3.........
Thes. B
Term b1Term b2Term b3.........
DokumenteDokumente
Doc 1Doc 2Doc 3......Doc n
ConditionalProbability
NeuralNetworks
VoraussetzungVoraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000)
ParallelParallel-Korpora / Parallel--Korpora / Parallel-VerschlagwortungVerschlagwortung
Ergebnis: KorrelationsmatrixKorrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B
eingesetzt ebenfalls als Gewichts-Gewichts-VektorenVektoren für die automatische Interpretation als Konkordanz-Tabelle
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Probleme automatischer Verfahren
keine Spezifizierung der RelationsartRelationsart
nicht geeignet zur 1:1 - Abbildung1:1 - Abbildung, Ergebnisse sind von der Art n:mn:m (Zuordnung 'Semantischer Räume')
abhängig vom InputInput-Material
Parallel-Korpus ist meist nicht repräsentativrepräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete
führt zu ScheinkorrelationenScheinkorrelationen
Testkonstruktion – AusländerTestkonstruktion – Ausländer
Gesundheit - AlternGesundheit - Altern
Berufliche Reintegration – RückenschmerzenBerufliche Reintegration – Rückenschmerzen
Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren
kein Problem für P(P(w|xw|x)) Neural NetworksNeural Networks lernen hier kaum
aƒ
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Ansatz: Konkordanzen
ZPID relation relevance SWD
Thes. A
Term a1Term a2Term a3.........
Thes. B
Term b1Term b2Term b3.........
DokumenteDokumente
Doc 1Doc 2Doc 3......Doc n
Antivirale Medikamente < g ArzneimittelAntonyme = h AntonymAnwälte = h RechtsanwaltAnxiolytika ^ h AntidepressivumAorta = h AortaApathie = h ApathieAphagie ^ m EssstörungAphasie = h AphasieAphrodisiaka = h AphrodisiakumApnoe = h ApnoeApomorphin = h ApomorphinApotheker = h ApothekerApparate = h ApparatApperzeption = h ApperzeptionAppetit = h AppetitAppetitzügler = h AppetitzüglerApraxie = h ApraxieAraber ^ m AraberbildAraber ^ h AraberinArbeiter = h ArbeiterArbeitgeber-Arbeitnehmer-Beziehungen ^+ m Arbeitgeber + ArbeitnehmerArbeitgebereinstellungen ^+ m Arbeitgeber + EinstellungArbeitnehmereinstellungen ^+ m Arbeitnehmer + EinstellungArbeitnehmerfachkenntnisse ^ g ArbeitnehmerArbeitnehmermerkmale ^ m ArbeitnehmerArbeitnehmermotivation ^+ m Arbeitnehmer + MotivationArbeitnehmerproduktivität ^+ m Arbeitnehmer + ProduktivitätArbeit-Ruhe-Rhythmen ^ m Arbeitspause
BidirektionaleKonkordanzenzwischen allenbeteiligten Thesauri
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Thesaurus A
Term a1Term a2Term a3.........
Thes. B
Term b1 Term b2 Term b3 ... ...
Konk. ABKonk. AB
RelationRelationRelation...
Probleme bei Konkordanzen
Verschlagwortung ist permanente
intellektuelle Arbeit
Thesauri werden permanent verändert /
erweitert / umstrukturiert
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3
Thesaurus A
Term a1Term a2Term a3.........
Thes. B
Term b1 Term b2 Term b3 ... ...
Konk. ABKonk. AB
RelationRelationRelation...
Semantische Heterogenitätbei datenbankübergreifenden
Recherchen
Semantische Heterogenitätbei datenbankübergreifenden
Recherchen
Vielen D
ank
für Ihre
Aufmerks
amkeit!
Vielen D
ank
für Ihre
Aufmerks
amkeit!