22
MALIS - Modul 2.4 - Metadaten Aufgabe 2.4.1 Übertext: Blog Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten Gruppe E: Irene Barbers Tobias Beinert Katrin Kabitzke Adrian Pohl November 2009

Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

Embed Size (px)

DESCRIPTION

Eine Gruppen-Hausarbeit im MALIS 2009 an der FH Köln zur Katalogisierung eines Weblogs (http://www.uebertext.org) mittels Dublin Core. Dargestellt wird auch auch die tatsächlich erfolgte RDFa-Anreicherung des Blogs mit Dublin-Core-Metadaten darstellt. Außerdem werden Überlegungen zur Konzeption eines Blogsuchportals auf der Basis der vergebenen Metadaten und unter Berücksichtigung bestehender Blogsuchseiten skizziert.

Citation preview

Page 1: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

MALIS - Modul 2.4 - Metadaten

Aufgabe 2.4.1

Übertext: Blog

Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

Gruppe E:

Irene Barbers Tobias Beinert Katrin Kabitzke Adrian Pohl

November 2009

Page 2: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

1

Inhaltsverzeichnis

1 Ausgangssituation 3

1.1 Katalogisierung im MALIS 3

1.1.1 Metadatenelemente für die formale Erschließung 4

1.1.2 Metadatenelemente für die inhaltliche Erschließung 6

2 DC-Element-Vergabe für Übertext 7

2.1 Tatsächliche Vergabe von DC-Metadaten 7

2.1.1 Existierende Metadaten bei blogger.com 7

2.1.2 Ergänzungen von Metadaten in der Vorlage 7

2.1.3 Extrahierte Metadaten auf Blogebene 8

2.1.4 Extrahierte Metadaten für einen Beispielartikel 9

2.2 Überblick: Katalogisierungsvorschläge und die Umsetzung auf Blog- wie Artikelebene 9

3 Recherchefunktionen und Trefferanzeige 11

3.1 Blog- oder Artikelsuchmaschine? 11

3.2 Existierende Blogsuchmaschinen 13

3.2.1 IceRocket 13

3.2.2 BlogPulse 14

3.2.3 Twingly Blog Search 14

3.2.4 Technorati 15

3.2.5 Google blogs 16

3.3 Zusammenfassung 17

Page 3: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

2

4 Entwurf einer Suchfunktion für eine Blog-Suche 17

4.1 Einfache Suche 18

4.2 Erweiterte Suche 18

4.3 Trefferanzeige und Bearbeitungsoptionen 19

4.3.1 Kurzanzeige 19

4.3.2 Vollanzeige 19

4.3.3 Filter- und Sortieroptionen 19

5 Quellen 21

Page 4: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

3

1 Ausgangssituation Wir in Gruppe E hatten uns entschieden, das Blog eines Gruppenmitglieds (Adrian Pohl) zu katalogisieren. Es handelt sich bei der katalogisierten Inter-netressource um Übertext: Blog, das unter der URL http://www.uebertext.org zu finden ist. Im Folgenden stellen wir zunächst die im MALIS-Studiengang vorgeschlagene Katalogisierung vor, die allein eine Katalogisierung des Blogs als Ganzem, ohne zusätzliche Katalogisierung auf der Blogartikelebene, zum Ziel hatte. Im zweiten Schritt sollen die tatsächlich vorhandenen Dublin-Core-Metadaten des Blogs aufgeführt werden, denn: auf der Basis der Katalogisierungs-Überlegungen im MALIS wurde eine tatsächliche Anreicherung der Blogvor-lage mit Metadaten vollzogen, indem Dublin Core in RDFa an die ohnehin strukturierten Daten angefügt wurde. Diese Metadatenanreicherung geht häufig über die ersten Überlegungen hinaus, weil etwa auch einzelne Blog-artikel mit Metadaten versehen wurden. Teilweise werden Vorschläge aber auch nicht umgesetzt. Deshalb soll diese tatsächliche Metadatenanreicherung wie auch der Ver-gleich mit anderen Blogsuchmaschinen uns als Ausgangslage dienen, wenn es am Ende dieses Textes darum geht, wünschenswerte Retrievaloptionen für Blogportale zu nennen. 1.1 Katalogisierung im MALIS Wie erwähnt war die zu katalogisierende Ressource hier zunächst das Blog als Gesamtheit. Dabei haben wir uns in erster Linie auf die fünfzehn Kern-elemente von Dublin Core1 bezogen und nur vereinzelt die DC-Terms heran-gezogen.2 Es folgt ein kurzer Überblick über die Katalogisierungsvorschläge und die aufgetretenen Probleme.

1 siehe DCMI (2008a), http://dublincore.org/documents/dces/ 2 siehe DCMI (2008b), http://dublincore.org/documents/dcmi-terms/

Page 5: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

4

1.1.1 Metadatenelemente für die formale Erschließung DC-Element DC-Element-Vergabe

bei Übertext Kommentar / Problematik

DC Identifier (Identifikator)

http://www.uebertext.org Da es sich hierbei nicht um eine permanente URL handelt, ist die Eindeutig-keit nicht unbedingt gewährleistet. Falls die Domain einmal in andere Hände gerät und andere Inhalte darunter erschei-nen, würde die URI dop-peldeutig werden.

DC Creator Pohl, Adrian Zum Zeitpunkt der Kata-logisierung war Adrian Pohl der alleinige Urheber des Blogs, d. h., es war kein Gemeinschaftsblog.

DC Publisher Google Inc. Laut Definition eine Entität, die für die Ver-fügbarkeit der Ressource verantwortlich ist. Dies ist in unserem Fall entweder die Publikationsplattform (http://www.blogger.com) oder dessen Besitzer (Google).

DC Title Übertext: Blog DC Date 2009 - • Angabe ist nicht

standardkonform gemäß W3CDTF / ISO 8601.

• Auf der Beitragsebene sollte das Datum des einzelnen Posts vergeben werden

Page 6: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

5

DC Contributor Pohl, Adrian In diesem Fall identisch mit DC Creator. Vielleicht problematisch, sollten aber irgendwann Dritt-Beiträge im Blog veröf-fentlicht werden, ist der Doppeleintrag aber durch-aus sinnvoll (Adrian Pohl als Urheber des Blogs und gleichzeitig auch als Mitwirkender). DC Contributor sollte auch bei regelmäßig kommentie-renden Personen (sofern diese zu ermitteln sind) oder Gastbeiträgern ver-geben werden.

DC Language de-DE (Encoding Scheme RFC3066) oder ger (Encoding Scheme ISO639-2)

DC Format text/html (Encoding Scheme MIME)

DC Rights Creative Commons Namensnennung 3.0 Deutschland

DC Source - DC Source ist aus unserer Sicht schwierig zu ver-geben. Nur in den selten-sten Fällen wird sich ermitteln lassen, aus welcher Ressource die beschriebene Ressource abgeleitet ist. Unser Vor-schlag: nur anzuwenden bei Digitalisaten, Über-setzungen, Zitaten, oder bei "Spezial"-Wikis, bei denen ersichtlich ist, dass der Inhalt aus der Wiki-pedia übernommen wurde.

Page 7: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

6

DC Relation Refinement dcterms:haspart => Relation zu den einzelnen Beiträgen

Verwandte Ressourcen sind zeitintensiv und nur schwierig zu ermitteln. Unser Vorschlag ist es daher, eine "Has Part"-Relation zu den einzelnen Beiträgen zu vergeben.

DC Type Text (Encoding Scheme: DCMI Type)

Übersicht 1: Vorschlag für die Vergabe formaler DC-Metadatenelemente

1.1.2 Metadatenelemente für die inhaltliche Erschließung DC Element DC-Element-Vergabe bei

Übertext Kommentar / Problematik

DC Coverage - Nur wenige Blogs konzentrieren sich auf räumlich oder zeitlich begrenzte Gegenstände. Unser Vorschlag ist es daher, dieses Element wenn überhaupt nur auf der Beitragsebene zu vergeben.

DC Description Übertext ist ein Blog, das die Themen Internet, Bibliotheken, Open Access, Open Data und wissenschaftliche Kommunikations- und Erkenntnissprozesse behandelt. Es wird von Adrian Pohl betrieben.

DC Subject Internet, Bibliothekswesen, Open Access, Open Data, Kommunikation

Vorschlag: als Subject eines Blogs sollten die fünf bis zehn am häu-figsten benutzten Tags vergeben werden

Übersicht 2: Vorschlag für die Vergabe inhaltlicher DC-Metadatenelemente

Page 8: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

7

2 DC-Element-Vergabe bei Übertext 2.1 Tatsächliche Vergabe von DC-Metadaten Bei der Vergabe der Metadaten kam schnell die Idee auf, einmal zu schauen, welche Metadaten beim Erstellen eines Blogs und beim Veröffentlichen von Artikeln automatisch anfallen. Die dahinterliegende Motivation war, dass man diese existierenden Metadaten im HTML-Quelltext nur mit Dublin Core in RDFa anreichern müsse, um problemlos harvestbare Dublin-Core-Metadaten zu gewinnen. Passiert diese Anreicherung in der Vorlage des Blogs, so führt eine Anreicherungshandlung schließlich automatisch zu einer automatischen Anreicherung jedes Blogbeitrags. Denn: so sinnvoll die Aufgabe, eine Webseite zu katalogisieren sein mag, um Vertrautheit mit den Dublin-Core-Elementen zu fördern –ist es klar, dass das Web jetzt und in Zukunft nicht von BibliothekarInnen katalogisiert werden wird. Dieses Unterfangen wäre auch gänzlich unsinnig, weil eben viele Meta-daten, auf die sich die Dublin-Core-Elemente beziehen, bereits in struktu-rierter Form vorliegen und nur noch entsprechend markiert werden müssen. 2.1.1 Existierende Metadaten bei blogger.com Welche strukturierten Metadaten liegen nun bei einem Blogger-Blog bereits vor? Auf Blogebene ist es nur eine Metadatenangabe, nämlich

• der Titel des Blogs (= dc:title). Auf Artikelebene finden sich die folgenden wichtigen Metadaten:

• Autor (= dc:creator), • Titel (= dc:title), • Veröffentlichungsdatum (= dc:date), • Tags (= dc:subject).

Die entsprechende Auszeichnung dieser Metadaten mit Dublin-Core-Properties wurde in der Blog-Vorlage als erstes vorgenommen. 2.1.2 Ergänzungen von Metadaten in der Vorlage Es lassen sich nun beliebig viele Metadatenangaben in der Vorlage ergänzen. Folgende Metadatenangaben wurden ergänzt:

Page 9: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

8

Auf Blogebene: • dc:contributor • dc:date • dc:language • dc:format • dc:rights (Refinement: dcterms:license) • dc:type • dc:description • dc:subject

Der Vorschlag, die fünf bis zehn am häufigsten benutzten Tags als dc:subject des Blogs zu vergeben, lässt sich technisch nicht ohne Weiteres realisieren und wurde somit vorerst nicht umgesetzt. Stattdessen wurden von Adrian Pohl als Autor fünf freie Schlagwörter vergeben ('internet', 'libraries', 'linked data', 'open data', 'epistemology'). Statt die Metadatenangabe dc:creator auf Blogebene zu vergeben, hat sich Adrian Pohl mittlerweile für ein dc:contributor entschieden, vor allem, weil in Zukunft wahrscheinlich noch eine weitere Person zu dem Blog beitragen wird und dadurch die Sache nicht stimmig ist. Auf Artikelebene:

• dc:relation und zwar wurde das refinement dcterms:ispartof verwendet, um die Relation eines Artikels zum Gesamtblog (http://www.uebertext.org) auszuweisen.

2.1.3 Extrahierte Metadaten auf Blogebene Hier eine Wiedergabe der für die URL http://www.uebertext.org extrahierten Dublin-Core-Metadaten in RDF/XML.3 Die Metadaten auf der Blog-Homepage http://www.uebertext.org umfassen zusätzlich auch immer die Angaben zu den aktuellsten sieben Artikeln, die hier aber nicht wiedergegeben werden. <rdf:RDF> <rdf:Description rdf:about="http://www.uebertext.org/"> <dc:title>Übertext: Blog</dc:title> <dc:date>2009 - </dc:date> <dc:contributor>Adrian Pohl</dc:contributor> <dcterms:license>http://creativecommons.org/licenses/by/3.0/de/</dcterms:license> <dc:subject>epistemology</dc:subject>

3 Das Extrahieren von RDFa aus einem HTML-Dokument kann beispielsweise mit dem RDFa-Distiller vom W3C erfolgen, siehe http://www.w3.org/2007/08/pyRdfa/.

Page 10: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

9

<dc:subject>open data</dc:subject> <dc:subject>libraries</dc:subject> <dc:subject>internet</dc:subject> <dc:subject>linked data</dc:subject> <dc:description> Übertext: Blog befasst sich mit Themen aus den Bereichen Internet, Bibliotheken, Open Access, Open Data und wissenschaftliche Kommunikations- und Erkenntnisprozesse im Allgemeinen.</dc:description> <dc:language>ger</dc:language> <dc:type>http://purl.org/dc/dcmitype/Text</dc:type> <dc:format>http://www.iana.org/assignments/media-types/text/html</dc:format> </rdf:Description> </rdf:RDF> 2.1.4 Extrahierte Metadaten für einen Beispielartikel Hier die extrahierten Dublin-Core-Metadaten für einen Beispielartikel in RDF/XML. Jede HTML-Seite eines Blogartikels enthält zusätzlich immer auch die oben angegebenen Metadaten über das Blog als Gesamtheit. <rdf:RDF> <rdf:Description rdf:about="http://www.uebertext.org/2009/10/turboubertext-mit-dublin-core.html"> <dc:date>2009-10-23</dc:date> <dc:subject>Dublin Core</dc:subject> <dc:subject>metadaten</dc:subject> <dc:subject>RDFa</dc:subject> <dc:subject>Übertext: Blog</dc:subject> <dcterms:ispartof>http://www.uebertext.org/</dcterms:ispartof> <dc:creator>Adrian Pohl</dc:creator> <dc:title>Turboübertext mit Dublin-Core-Anreicherung in RDFa</dc:title> </rdf:Description> </rdf:RDF> 2.2 Überblick: Katalogisierungsvorschläge und die Umset-

zung auf Blog- wie Artikelebene Hier nun eine tabellarische Übersicht über die Katalogisierungsvorschläge im MALIS-Studiengang im Vergleich zu der tatsächlichen Umsetzung auf Blog- wie Artikelebene. Ein grünes Feld besagt hier, dass zum jeweiligen

Page 11: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

10

Metadatenelement eine Angabe vorhanden ist, während rot besagt, dass zum jeweiligen Element keine Metadaten angegeben werden. DC-Ele-ment

Vorschlag für Ge-samtblog

Umsetzung für Gesamtblog Umsetzung auf Artikel-ebene

Identi-fier

ja: URL nein, die URL wird als Identifier ge-nutzt aber nicht deklariert

nein, die URL eines Beitra-ges wird als Identifier ge-nutzt aber nicht dekla-riert

Creator ja: Adrian Pohl

nein ja, Adrian Pohl & Co-Autoren, wenn vorhan-den (manuell angegeben)

Publis-her

ja: Goog-le.Inc

nein nein

Title ja: Über-text: Blog

ja: Übertext: Blog ja: Titel des jeweiligen Beitrags

Date ja: 2009 - ja: 2009 - ja: jeweiliges Publikations-datum eines Artikels

Contri-butor

ja: Adrian Pohl

ja: Adrian Pohl nein

Langua-ge

ja: de-DE ja: ger nein

Format ja: text/html

ja: http://www.iana.org/assignments/media-types/text/html

nein

Rights ja: Creative Commons Name-nsnennung Deutschland 3.0

ja (dcterms: license): http:creativecommons.org/licenses/by/3.0/de/

nein (implizit über die Rela-tion zum Blog und dessen Lizensierung)

Source nein nein nein

Page 12: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

11

Relation nein nein ja: dcterm:ispartof-Relation zu http://www.uebertext.org

Type ja: Text (gemäß DCMI)

ja: http://purl.org/dc/dcmitype/Text nein

Covera-ge

nein nein nein

Descrip-tion

ja: Über-text ist …

ja: Übertext ist … nein

Subject ja ja ja: jeweils die vom Autor vergebenen Tags

Übersicht 3: Welche DC-Metadaten werden angegeben und wie?

3 Recherchefunktionen und Trefferanzeige Im Folgenden sollen die Retrievalfunktionen, die Trefferdarstellung und Drill-Down-Möglichkeiten in einem Blog-Recherche-Portal modelliert werden. 3.1 Blog- oder Artikelsuchmaschine? Zu überlegen ist bei den Recherchefunktionen über Blogs, ob nur Blogs an sich oder auch einzelne Posts oder beides gefunden werden sollen. Wird das Ganze weitergedacht, kommen wir zu grundlegenden Fragen wie: Was ist ein Blog? Und in welchem Verhältnis steht es zu seinen Bestandteilen, den einzelnen Beiträgen? Diese Fragen lassen sich in diesem Rahmen nicht abschließend beantworten, Lösungen werden aber vorgeschlagen. Zunächst sollen hier (ohne Anspruch auf Vollständigkeit) einige Fakten genannt werden, die auf jedes Blog bzw. auf Blog-Beiträge zutreffen, um die Vielfalt in der "Blogosphäre" zu verdeut-lichen.

Page 13: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

12

Zunächst die Fakten zu Blogs:

• Jedes Blog hat einen Titel. • Jedes Blog hat eine URL (die sich aber durchaus ändern kann). • Jedes Blog hat ein "Erscheinungsdatum", es ist das Datum des ersten

Blogbeitrags. • Jedes Blog hat mindestens eine Person, die Beiträge produziert. • Blogs werden in einer (oder seltener auch mehreren) bestimmten

Sprache(n) veröffentlicht. • Blogs und ihre Inhalte können mit einer Lizenz versehen sein. • Blogs können Werbung beinhalten. • Blogs enthalten meist ausgehende Links und können eingehende

Verweise beinhalten. • Es gibt Blogs, deren Beiträge von nur einer Person verfasst werden. • Es gibt Gemeinschaftsblogs, deren Beiträge von einer beliebig großen

Menge von Personen verfasst werden. • Es gibt Blogs von Körperschaften, wie Unternehmen oder Bibliotheken. • Jeder Ein-Personen-Blog kann sich zu einem Gemeinschaftsblog

entwickeln und umgekehrt. • Blogs erlauben in der Regel Kommentare. Dies kann dazu führen, dass

sich auf einem Blog mehr Kommentar-Text befindet als kommentierter Text. Kommentatoren tragen also unter Umständen einen großen Teil der Inhalte zu einem Blog bei.

• Es gibt Blogs mit sämtlichen medialen Inhalten: Text, Bild, Bewegtbild, Ton (Podcast, Musik) und allen Mischformen.

Fakten zu Blogbeiträgen:

• Jeder Beitrag hat einen Titel. • Jeder Beitrag hat mindestens einen Urheber. • Jeder Beitrag hat ein Veröffentlichungsdatum. • Ein Beitrag kann Tags (freie Schlagwörter) haben. • Ein Beitrag kann Kommentare haben. • Blogbeiträge können mit einer Lizenz versehen sein.

Wir werden später auf einzelne Punkte zurückkommen, zunächst lassen wir die Aussagen einmal für sich stehen. Da Blogs aus ihren Beiträgen bestehen, kommt eine Blog-Rechercheplattform nicht umhin, die Metadaten zu den Beiträgen einzusammeln. Und da die ein-zelnen Beiträge eines Blogs ja durchaus sehr unterschiedliche Themen bein-halten können, ist es sicherlich sinnvoll, die Recherchefunktion auch auf die Beiträge zu beziehen. Es bleibt die Frage, ob man getrennte Recherchefunktionen für Blogs und Blogartikel anbieten sollte. Suchen Menschen wirklich nach Blogs oder nur

Page 14: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

13

nach konkreten Inhalten, das heißt, nach einzelnen Artikeln? Wie gehen an-dere Blogsuchmaschinen damit um? 3.2 Existierende Blogsuchmaschinen Beim Modellieren einer Blog-Suchmaschine ist die Kenntnis bestehender Angebote sicher von Nutzen, so dass hier die fünf "besten" Blogsuchma-schinen kurz betrachtet werden.4 3.2.1 IceRocket5 Diese Suchmaschine findet derzeit weder Beiträge aus Übertext: Blog noch das Blog selbst. Dies liegt daran, das Blogs (am besten regelmäßig) mittels Pingen gemeldet werden müssen. Die Suchfunktionen von IceRocket sind sehr umfangreich und benutzerfreundlich. IceRocket unterstützt auch rudi-mentär ein facettiertes Browsing über die Suchergebnisse mit einer Ein-grenzung auf bestimmte Zeiträume und einer Sortierung nach Sprache. Suchfunktionen Basiert auf Volltextindizierung. Keine Blogsuche, nur Blogbeitragssuche möglich. Einfache Suche Einfacher Suchschlitz. Durchsucht wird der gesamte Index nach dem Vorkommen der Eingabe-Zeichenketten. Erweiterte Suche

• Wort- und Phrasensuche mit Booleschen Operatoren (einfach präsentiert)

• Titelsuche • Tagsuche • Möglichkeit der Eingrenzung auf eine Domain • Möglichkeit der Eingrenzung auf Autoren • Suche nach Beiträgen, die auf eine bestimmte Seite verlinken • Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, heute, letzte

Woche, letzter Monat, benutzerdefiniert

4 Wir orientieren uns bei dieser Rangliste an den Aussagen Jens Schröders, siehe Schröder (2009), http://www.popkulturjunkie.de/wp/?p=4460. 5 URL: http://www.icerocket.com/

Page 15: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

14

3.2.2 BlogPulse6 In der Blog-Suchmaschine BlogPulse ist Übertext: Blog indexiert. Eine Erfas-sung erfolgt ohne regelmäßiges Pingen und ohne Anmeldung. Suchfunktionen Die Suche basiert auf einer Volltextindizierung. Es ist keine Blogsuche, son-dern nur die Suche nach einzelnen Beiträgen möglich. Einfache Suche Eine Eingabe in den einfachen Suchschlitz löst eine Suche nach Thema / Schlagwort, Stichwort oder URL aus. Erweiterte Suche Die Möglichkeiten der erweiterten Suche sind nicht so umfangreich wie bei IceRocket. Sie bietet:

• Boolesche Operatoren • Möglichkeiten der Eingrenzung auf einen Zeitraum: letzter Tag, letzte

30, 60, 90 oder 180 Tage, keine benutzerdefinierte Einstellung • Sortierung nach Datum oder Relevanz

3.2.3 Twingly Blog Search7 Auch in Twingly ist Übertext derzeit nicht erfasst. Die Meldung von Blogs geschieht – wie bei IceRocket – über (regelmäßiges) Pingen. Bemerkenswert ist die – noch in der Beta-Phase befindliche – Möglichkeit der Eingrenzung einer Suche auf Spam-freie Blogs. Suchfunktionen Die Suche basiert auf einer Volltextindizierung. Auch hier ist keine Blog-suche, sondern nur eine Blogbeitragssuche möglich. Twingly bietet zahlreiche Möglichkeiten zum facettierten Browsen, die den Kategorien der erweiterten Suche (s. u.) entsprechen. Einfache Suche Die einfache Suche sucht offensichtlich im gesamten Index. Erweiterte Suche

• Wort- und Phrasensuche mit Booleschen Operatoren (einfach präsentiert)

• Titelsuche

6 URL: http://www.blogpulse.com/ 7 URL: http://www.twingly.com/search

Page 16: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

15

• Tagsuche • Möglichkeit der Eingrenzung auf eine Domain • Möglichkeit der Eingrenzung auf ein bestimmtes Blog • Möglichkeit der Eingrenzung auf Autoren • Suche nach Beiträgen, die auf eine bestimmte Seite verlinken • Möglichkeit der Eingrenzung auf eine bestimmte Sprache • Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, letzte

Stunde, letzte 12 Stunden, letzte 24 Stunden, letzte Woche, letzter Monat, keine benutzerdefinierte Zeiteinschränkung möglich.

• Sortierungsmöglichkeiten (jeweils aufsteigend oder absteigend): TwinglyRank (?), Datum, eingehende Links (Beitrag), eingehende Links (Webseite), Empfehlungen (Beitrag) (?), Empfehlungen (Webseite) (?)

3.2.4 Technorati 8 Da Blogs bei Technorati angemeldet werden müssen, um gefunden zu wer-den (s. u.) findet sich Übertext: Blog derzeit (noch) nicht in dieser Blogsuch-maschine. Technorati, das älteste der hier genannten Angebote, das lange ohne Kon-kurrenz das Tor zur Blogosphäre war, verfolgt einen ganz anderen Ansatz als die bisher genannten Blog-Suchdienste. Technorati ist ein Blog-Verzeichnis, das auf die Meldung von Blogs und ihrer Inhalte an Technorati durch die Autoren angewiesen ist. Dieser Meldeprozess ('Blog-Claim' genannt) ist recht langwierig. Voraussetzung einer Erfassung sind die Angabe von URL, Feed-URL, verlinkenden Blogs, Kategorien und Tags sowie die Veröffentlichung eines Codes auf dem Blog, um die Angaben zu autorisieren. Viele Blogsuchmaschinen bieten in der einfachen Suche nur die Recherche nach einzelnen Beiträgen an. Technorati ist in erster Linie ein Blog-Verzeich-nis, das aber auch die Suche in einzelnen Beiträgen ermöglicht. In der Technorati-Klassifikation lässt sich nach Themen stöbern, zu denen dann eine Liste von Blogs (die mit der größten "Autorität" stehen oben) angezeigt wird. Die Suche kann – je nach Interesse – über Blogs oder Blogbeiträge ausgeführt werden.

Abbildung 1: Der Technorati-Suchschlitz

8 URL: http://technorati.com/

Page 17: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

16

Suchfunktionen Die Suche basiert auf einer Volltextindizierung von Blogbeiträgen und ihrer Tags sowie den Angaben der Blog-Besitzer.

Einfache Suche Eine Eingabe in den einfachen Suchschlitz ist eine Suche über den Volltext-index (Post-Suche) oder eine Blogsuche über die Angaben der Blogbesitzer und eine Liste der meistbenutzten Tags in einem Blog. Erweiterte Suche Es gibt keine erweiterte Suche. Allerdings gibt es die Möglichkeit, erhaltene Suchergebnisse zu filtern:

• Nach Blogs oder Blogbeiträgen. • Nach Thema (Grundlage ist die krude und nicht gepflegte Technorati-

Klassifikation) • Nach Autorität: hoch, mittel, niedrig

Darüber hinaus können die Suchergebnisse entweder nach Relevanz oder nach Datum sortiert werden.

3.2.5 Google blogs9 Übertext: Blog ist bei der Google-Blogsuche erfasst, weil das Blog auf einer Google-eigenen Blogging-Plattform läuft. Die Google-Blogsuche hat wiederum ein ganz eigenes Indexierungsverfah-ren. Es werden nur Blogs erfasst, die über einen RSS-Feed verfügen, so dass die einzelnen Beiträge über diesen Feed abgerufen und indexiert werden können. Auf den FAQ-Seiten heißt es: "Die Blogsuche versucht, jedes Blog zu finden, das einen Website-Feed (RSS oder Atom) veröffentlicht."10 Einige Blogs (vor allem die der eigenen Blogging-Plattform blogger.com) werden automatisch indexiert. Andere müssen ihre Feed-Adresse an Google weitergeben, um indexiert zu werden. Momentan geschieht dann noch keine Indexierung der zurückliegenden Beiträge. Suchfunktionen Die Suche basiert auf einer Indexierung der durch RSS-Feeds erhaltenen Daten. 9 URL: http://blogsearch.google.de/blogsearch 10 Quelle: Google (2009), http://www.google.de/support/faqs/bin/static.py?page=faq_blog_search.html&hl=de

Page 18: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

17

Einfache Suche Eine Eingabe in den einfachen Suchschlitz löst eine Suche über den Volltext-index aus. Es kann zwischen einer Suche in allen Blogs bzw. nur in deut-schen Blogs vorausgewählt werden. Erweiterte Suche Die Möglichkeiten der erweiterten Suche:

• Boolesche Operatoren (nutzerfreundlich umgesetzt) • Suche in Beitragstiteln • Suche nach Blogtiteln • Eingrenzung auf eine Domain • Eingrenzung auf einen bestimmten Autor • Möglichkeiten der Eingrenzung auf einen Zeitraum: jederzeit, letzte

zwölf Stunden, letzter Tag, letzte Woche, letzter Monat sowie benutzer-definierte Einstellung

• Eingrenzung nach Sprache • SafeSearch: Eingrenzung auf jugendfreie Inhalte

3.3 Zusammenfassung Alle Blogsuchmaschinen bieten eine Suche auf Beitragsebene an, die meisten ausschließlich. Unser Auffassung nach wichtige und interessante Suchfunk-tionen und Filtermöglichkeiten sind:

• Suche in Beitrags- und Blogtiteln • Suche nach Artikeln von bestimmten Autoren • Eingrenzung der Suche auf einen bestimmten Zeitraum • Suche / Filtern nach Beiträgen in einer bestimmten Sprache • Nicht jugendfreie Inhalte herausfiltern • Spam-Blogs herausfiltern • Eingrenzung der Suche auf eine bestimmte Domain • Suche nach Beiträgen, die auf eine bestimmte Seite verlinken.

Dies soll uns als Hilfestellung bei der Entwicklung "unseres" Portals dienen.

4 Entwurf der Suchfunktionen für eine Blog-Suche

Wir haben uns entschieden, die Rechercheplattform auf der Basis von Blog-artikeln zu modellieren, denn schließlich suchen Recherchierende in erster Linie Inhalte, das sind konkrete Artikel und gelangen über diesen Weg auch zu den übergeordneten Einheiten, den Blogs. Außerdem scheint sich diese

Page 19: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

18

Praxis auch bei den meisten bestehenden Blog-Suchangeboten bewährt zu haben. Selbstverständlich sollte eine Rechercheoberfläche für Blogs und Blogartikel die tatsächlichen Metadatenvergabepraktiken der Blogger berücksichtigen, um die optimalen Suchfunktionen aufzubauen. Da derzeit der Anteil der mit Dublin-Core-Metadaten versehenen Blogs noch sehr gering ist, kann eine solche Praxis hier keine Berücksichtigung finden. Wir orientieren uns also an den oben aufgeführten Katalogisierungsvorschlägen sowie der konkreten praktischen Umsetzung im Übertext-Blog. Orientierung geben außerdem noch die oben genannten Suchmöglichkeiten bestehender Suchangebote. 4.1 Einfache Suche Die einfache Suchindex sollte unserer Meinung nach die Inhalte folgender Felder (auf Blog- wie Beitragsebene) beinhalten:

• dc:creator, • dc:contributor, • dc:title, • dc:description, • dc:subject. • Eine Möglichkeit der vorgängigen Eingrenzung auf eine bestimmte

Sprache (wie bei Google blogs) halten wir für sehr sinnvoll. Grundlage dessen wäre natürlich die Angabe zu dc:language.

Es handelt sich hierbei um Feldinhalte und Filtermöglichkeiten, die für Nutzer am häufigsten unmittelbare Relevanz haben. 4.2 Erweiterte Suche Wir schlagen folgende Felder für die erweiterte Suche (mit der Angabe des jeweiligen Index-Inhalts) vor:

• Person: dc:creator, dc:contributor • Titel: dc:title • Thema: dc:subject, dc:description, dc:title • Medientyp: dc:type, dc:format • Datum/Zeitraum mit "von ... bis"-Möglichkeit: Inhalt: dc:date • Sprache: dc:language • Lizenz: nachnutzbar oder nicht? dc:rights

Page 20: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

19

4.3 Trefferanzeige und Bearbeitungsoptionen 4.3.1 Kurzanzeige In der Kurzanzeige sollten unserer Meinung nach alle Elemente angezeigt werden, die für Zitierungen notwendig sind sowie kurze Ergänzungen zum Inhalt in Form von Tags / Schlagwörtern. Außerdem wäre ein Piktogramm sinnvoll, das Information über den vorherrschenden Medientyp (Text, Bild, Audio, Film) des jeweiligen Treffers gibt. Im Ergebnis würde dies so aussehen:

• Titel: dc:title, • Verfasser: dc:creator & dc:contributor, • Erscheinungsdatum: dc:date, • Tags/Schlagwörter: dc:subject, • Medientyp (als Piktogramm): dc:type & dc:format.

4.3.2 Vollanzeige In der Vollanzeige sollten alle verfügbaren Metadatenelemente angezeigt werden können. Am besten wäre es, wenn durch Klick auf einen Kurztreffer dieser aufblättert und sämtliche verfügbaren Angaben gezeigt würden. Zu den in der Kurzanzeige genannten kommen hinzu:

• Beschreibung: dc:description, • Sprache: dc:language • Geographische/Zeitliche Abdeckung: dc:coverage • Lizenz: dc:rights • Veröffentlicht von...: dc:publisher • Verknüpft mit...: dc:relation

4.3.3 Filter- und Sortieroptionen Folgende Möglichkeiten zum facettierten Browsen sollte es geben:

• Sprachauswahl (dc:language) • Lizenz (dc:rights) • eine Tag-Wolke der Beitragstags • nach Autor (dc:creator) • nach Medientyp (dc:format & dc:type)

Folgende Sortiermöglichkeiten sollte es geben:

• nach Aktualität (dc:date) • nach Beliebtheit (dies ist auf der Basis von DC-Daten allerdings

schwierig. Wenn alle Links als dc:relation gekennzeichnet würden,

Page 21: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

20

könnte man evtl. die Zahl der eingehenden Links nehmen und daraus auf Beliebtheit schließen.)

Auf der Basis von dc:relation ließe sich auch an eine Suchfunktion denken, die alle Blogartikel anzeigt, die auf eine bestimmte Seite oder Domain Bezug nehmen. Dies könnte eine sehr nützliche Suchfunktion sein.

Page 22: Übertext: Blog - Katalogisierung einer beliebigen Webseite basierend auf Dublin-Core-Metadaten

21

5 Quellen Für alle Webquellen und -anwendungen gilt: letzter Zugriff am 27.11.2009.

Webquellen Dublin Core Metadata Initiative (DCMI) (2008a): Dublin Core Metadata Element Set, Version 1.1. Einsehbar unter http://dublincore.org/documents/dces/. Dublin Core Metadata Initiative (DCMI) (2008b): DCMI Metadata Terms. Einsehbar unter http://dublincore.org/documents/dcmi-terms/. Schröder, Jens (2009): Technorati ist tot, die Blogcharts leben. Einsehbar unter http://www.popkulturjunkie.de/wp/?p=4460. Google (2009): Über die Google Blogsuche. Einsehbar unterhttp://www.google.de/support/faqs/bin/static.py?page=faq_blog_search.html&hl=de. Webanwendungen RDFa-Distiller des W3: http://www.w3.org/2007/08/pyRdfa/ Blog-Suche IceRocket: http://www.icerocket.com/ Blog-Suche BlogPulse: http://www.blogpulse.com/ Blogsuche Twingly Blog Search: http://www.twingly.com/search Blogsuche Technorati: http://technorati.com/ Blogsuche Google blogs (deutsche Ansicht): http://blogsearch.google.de/blogsearch