Upload
dophuc
View
221
Download
0
Embed Size (px)
Citation preview
1
Semantische Technologien & Social Media Alexandria – Kollaborative Wissensmaschine
Florian Kuhlmann [email protected]
2
• Hauptsitz in Berlin Mitte, Zweigstelle in Hamburg
• 160 Mitarbeiter
• Full Service Provider (Creative, ASP, Development, Clients, F&E)
• Positionierung: Lösungen für Verlage und Marktplätze
• Kunden: Deutsche Post, Gruner + Jahr, Axel Springer Verlag, Burda / Tomorrow Focus, ebay, stern.de, ...
Über
3
• Seit 2008 erste Projekte auf Amazon EC2 / S3
• Inzwischen ca. 25% aller Projekte auf EC2
• Forschungsprojekte
• Dicode (EU; Thema: „Large Scale“ - Marktforschung)
• MIA (Trusted Cloud / BMWi; Thema: Web-Korpus als Marktplatz)
Cloud @
4
• Derzeit ca. 20% Personal in Forschung und Entwicklung
• Fokus:
• Informationsextraktion aus Textdokumenten
• Sprachtechnologien
• (Auto-)Scalability
• Kooperation mit Forschungseinrichtungen in Förderprojekten
• Z.B. DFKI, TU-Berlin, Fraunhofer...
Research @
5
• THESEUS Use Case Alexandria: Größtes F&E-Projekt der Neofonie
• THESEUS: Größtes deutsches IKT-Leuchtturmprojekt
• Schwerpunkt: Semantische Technologien
• Alexandria: Semantische Technologien + Social Media
• Primäres Ziel: B2C-Portal „kollaborative Wissensmaschine“
• Gefördert durch BMWi
• Seit März 2009 von Neofonie übernommen (zuvor Lycos)
6
Core Technology Cluster (Basistechnologien)
THESEUS
Programm-‐
büro
Use Case
Texo Use Case
Contentus Use Case
Medico Use Case
Ordo Use Case
Processus
Use Case Alexandria
7
Wissen Kollaborative s-Maschine
8
Grundlage: Die Wissensbasis (Ontologie)
2 Mio. Personen
1 Mio. Orte
60.000 Ereignisse
730.000 Organi-
sationen
3.5 Mio. Werke
10 Mio. Beziehungen + Eigenschaften
9
Wissensbasis – Datenquellen (I): Linked Data
Perso-nen Orte Ereig-
nisse
Organi-satio-nen
Werke
Web 2.0 + Linked Data
• ~ 4,8 Millionen Entititäten
• ~ 100 Million Fakten
10
Wissensbasis – Datenquellen (II): Community
11
Wissensbasis – Datenquellen (III): Roboter
Erfassung und Analyse von unstrukturierten Daten
| 11
InformaFonsextrakFon
Nachrichten, Blogs, Wikipedia
Wissensbasis
12
Informationsextraktion im Detail
| 12
• Tokenizer • POS-‐Tagger • Chunk Parser
• NER (CRF) • NER (GazeNer) • NED
• Dependency Parser
• Morphology
Deep
Lane
Fast Lane
• PaNern Learning • Jape PaNerns • Data Mining (#Vorkommen EnFtät / Tag)
Ontologie • SemanFc Role Labeling
• Opinion Mining (DFKI)
• ...
13
Verschlagwortung + Identifizierung von Entitäten Dokumenten
| 13
14
Analyse deutscher Nachrichten-Portale
15
Suche und Navigation
16
Suche „Question Answering“
• Konkrete Fragen, konkrete Antworten
• Natürliche Sprache
• Semantic Type Ahead
• Anzeige, was Alexandria versteht
• Gemeinsamens Verständnis aufbauen
• Nutzer kann disambiguieren
17
Semantic Type Ahead
People Places Events Organi-sations Works
18
Navigation + Visualisierung
Perso-nen Orte Ereig-
nisse
Organi-satio-nen
Werke
19
Navigation + Visualisierung
Perso-nen Orte Ereig-
nisse
Organi-satio-nen
Werke
20
Verfügbarkeit / Verwertung
• Alexandria Technologien in B2B-Lösungen • Wissensbasis über 7 Mio. Entitäten • Informationsextraktion (auch als SaaS)
• Auto-Verschlagwortung • Identifikation von Entitäten • Extraktion von Beziehungen • Extraktion von Meinungen • Statistiken über Entitäten
• Semantische Suche / Question Answering • Empfehlungssysteme
• B2C Portal Alexandria • Juli 2011: Closed Beta (mit Einladung) • Januar 2012: Open Beta • Übertragbarkeit auf andere Domänen gewährleistet
21
Partner
22
Weitere Features: Demo in der Pause
http://alexandria.wefind.de
23
Vielen Dank für Ihre Aufmerksamkeit. .
Neofonie GmbH Robert-Koch-Platz 4 10115 Berlin Germany
Fon: +49.30 24627 100 Fax: +49.30 24627 120 www.neofonie.de