9
Extrakcia udalostí Robert Švajdlenka

Extrakcia udalost í

  • Upload
    clarke

  • View
    52

  • Download
    2

Embed Size (px)

DESCRIPTION

Extrakcia udalost í. Robert Švajdlenka. Zadanie. Extrakcia udalostí z e-mailov – pomocou regulárnych výrazov Názov udalosti Čas konania udalosti Miesto konania udalosti (nepovinné) Podudalosti (nepovinné) – názov a čas konania udalosti Export do Google kalendára - PowerPoint PPT Presentation

Citation preview

Page 1: Extrakcia udalost í

Extrakcia udalostíRobert Švajdlenka

Page 2: Extrakcia udalost í

Zadanie• Extrakcia udalostí z e-mailov – pomocou regulárnych

výrazov• Názov udalosti• Čas konania udalosti• Miesto konania udalosti (nepovinné)• Podudalosti (nepovinné) – názov a čas konania udalosti

• Export do Google kalendára

• Vstupné dáta – Dbworld e-maily v samostatných súboroch• MIME formát• Extrakcia udalostí z textu e-mailu• Výpočet presnosti a pokrytia na základe Dbworld

hlavičiek

Page 3: Extrakcia udalost í

Vstupné dáta - hlavičky• na porovnanie s údajmi extrahovanými z textu• Predmet (Subject) e-mailu – názov udalosti• "Subject: [Dbworld] názov udalosti"• "Subject: názov udalosti„• Príklad:

Subject: [Dbworld] BIBM Final Call for Posters

• Dbworld hlavičky – dátum a miesto konania udalosti• "x-dbworld-start-date: dátum udalosti"• "x-dbworld-location: miesto konania udalosti„• Príklad:

X-DBWorld-Start-Date: 18-Dec-2010X-DBWorld-Location: Hong Kong; China; Asia

Page 4: Extrakcia udalost í

Vstupné dáta – text e-mailuCall for PostersIEEE International Conference on Bioinformatics & Biomedicine (BIBM'10) Hong Kong, China. December 18-21, 2010http://www.math.hkbu.edu.hk/BIBM2010/

Poster submissions are welcome in all areas of bioinformatics and biomedicine relevant to the scope of BIBM (for a detailed list of topics see the call for papers). Poster presentations offer the opportunity to present late-breaking results, work in progress, or other significant research that is best communicated in a graphical or interactive format. We expect the poster session to be the focus of interactions between authors and other conference participants, leading to discussions about the work presented, fostering possible collaborations, and providing the authors with valuable feedback about their work.

Poster co-chairsFrancisco M Couto, University of LisbonJun (Luke) Huan, University of KansasSiu Ming Yiu, The University of Hong KongThe poster co-chairs can be reached at [email protected] for additional information, questions, or clarifications.

Important dates* October 20, 2010 - Poster submission deadline* October 28, 2010 - Notification of poster acceptance* November 7, 2010 - Camera-ready submission of poster 

Page 5: Extrakcia udalost í

Riešenie• Visual Studio 2010, .NET Framework 3.5, jazyk C#

• Parsovanie e-mailov v MIME formáte pomocou SharpMimeTools• Odstránenie HTML značiek pomocou regulárneho

výrazu<((/)|(!--))?[^>]+>

• Extrakcia informácií o udalostiach pomocou regulárnych výrazov (sú uvedené v textovej časti projektu)

• Export do Google kalendára pomocou webových služieb prostredníctvom Google Calendar Data API

Page 6: Extrakcia udalost í

Riešenie - algoritmus• vyhľadajú sa všetky dátumy a rozsahy dátumov (od-do)

• pre prvý dátum sa nájde prvý názov udalosti do 200 znakov pred prvým znakom dátumu alebo max. 100 znakov za dátumom - ak sa nepodarí nájsť, tak sa nepokračuje a v e-maile sa nenájdu žiadne udalosti

• do 100 znakov za posledným znakom dátumu sa hľadá lokalita udalosti

• pre zostávajúce dátumy sa hľadajú pod-udalosti pred/za dátumami v rámci rovnakého riadku, pričom sa už nehľadá lokalita

Page 7: Extrakcia udalost í

Riešenie - GUI - hlavné okno

Page 8: Extrakcia udalost í

Riešenie - GUI – export

Page 9: Extrakcia udalost í

Vyhodnotenie• Vzorka 122 Dbworld e-mailov• Vyhodnocuje sa na základe porovnávania extrahovaných

udalostí z textu e-mailu s hlavičkami (niektoré hlavičky sú nepresné, čo zhoršuje presnosť a pokrytie približne o 10%)• Dátum je označený za správny, ak dátum/rozsah dátumov pre hlavnú udalosť v e-

maily je zhodný/obsahuje dátum z Dbworld hlavičky • Názov udalosti je správny, ak je zhodný aspoň s 50% slov predmetu e-mailu alebo

musia byť zhodné aspoň 3 slová• Rovnako sa overuje miesto konania udalosti voči príslušnej hlavičke• Názov udalosti je správny, aj v prípade zhody prvých veľkých písmen za sebou

nasledujúcich 3 a viacerých slov začínajúcich na veľké písmeno (skratka názvu udalosti)