13
Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Embed Size (px)

Citation preview

Page 1: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Sommarizzazionee

GenerazioneFiori Alessandro12 Ottobre 2013 - Pisa

Page 2: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Cos’è un riassunto

Riassunto (summary)

• (Oxford Dictionary Online 2013): “a brief statement or account of the main points of something”

• (Garzanti Linguistica 2013): “esposizione in forma sintetica di uno scritto, di un discorso, di un fatto e simili”

• (Radev et.al. 2002): “a text that is produced from one or more texts, that conveys important information in the original text(s), and that is no longer than half of the original text(s) and usually significantly less than that. Text here is used rather loosely and can refer to speech, multimedia documents, hypertext, etc.”

Page 3: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Cos’è un sommarizzatore

Sommarizzazione (Automatic Summarization)

• (Mani & Maybury, 1999): "to take an information source, extract content from it, and present the most important content to the user in a condensed form and in a manner sensitive to the user's or application's needs”

• (Mani, 2001): “a process to produce a condensed representation of the content of its input for human consumption”

• (Sparck-Jones, 1999): “a reductive transformation of source text to summary text through content condensation by selection and/or generalization on what is important in the source”

• (Rehm & Uszkoreit, 2012): “tenta di presentare gli elementi essenziali di un testo lungo in forma abbreviata

Page 4: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Scenario

Generazione sommari

Riassunto

Page 5: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Perché i riassunti?

• Motivazioni• grandi volumi di documenti• informazioni ridondanti• tempi di consultazione e ricerca elevati

• Obiettivi• riduzione del volume di dati• estrazione delle informazioni rilevanti• riduzione dei tempi di consultazione

Page 6: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Tipologie

• Estrattivi• estratti di frasi dei testi originali• poco fluidi nella presentazione

• Astrattivi• rifrasatura del testo• simile al riassunto generato

dall’uomo

• Documento singolo• struttura e presentazione coerenti

• Multi-documento• punti di vista e forma eterogenei

• Generici• indipendenti dal contesto applicativo

• Focalizzati• orientati al dominio e/o interessi del

fruitore

• Monolingua• analisi grammaticale (POS tagging)

• Multilingua• analisi semantica

Page 7: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Metodi

• Clustering• i gruppi rappresentano frasi con significati

simili• utilizzo di misure di similarità • selezione rappresentante per ogni gruppo

• Grafi• i nodi identificano una frase e/o

concetto• similarità misurata sugli archi• individuazione nodi rilevanti

(PageRank)

• Classificatori• definizione di classi di concetti• apprendimento di un modello da esempi• assegnazione di etichette alle frasi

15

25

30

40

20termatermb

termc termd

terma

termb

terma termc

termd

gruppi di frasi

Page 8: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Prospettive future

• Social• interessi degli utenti (opinion mining)• sicurezza (sentiment analysis)• servizi personalizzati (social reading)

• Aggiornamento dinamico• incremento continuo delle collezioni• flusso storico delle informazioni• cambiamenti dei gruppi di utenti

• Nuovi domini applicativi• contextual advertising• medicina e biologia• e-learning

Page 9: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

In Italia

Ricerca di base

• Definizione di nuove rappresentazioni delle informazioni (itemsets)• Nuove metodologie:

• multilingua• aggiornamento dinamico• dipendenti dal dominio di interesse

• Integrazione sorgenti di informazioni esterne:• social media • ontologie e vocabolari controllati

Ricerca industriale

• Social reading• E-learning• Opinion mining

Page 10: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Nel mondo

Chi sarà il prossimo?

Page 11: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Bibliografia

• Garzanti Linguistica: http://www.garzantilinguistica.it/

• Mani I. (2001). Automatc summarization, Book, Volume 3 of Natural language processing, Amsterdam/Philadelphia, John Benjamins Publishing Company.

• Mani, I., & Maybury, M. (ED.). (1999). Advances in Automatic Text Summarization, MIT Press.

• Oxford Dictionary Online: http://oxforddictionaries.com/

• Radev D., Hovy E., & McKeown K. (2002). Introduction to the special issue on text summarization. Computational Linguistics, 28(4).

• Rehm, G. & Uszkoreit, H. (2012). The Italian Language in the Digital Age.

• Sparck-Jones, K. (1999). Automatic summarizing: factors and directions. In I. Mani and M. Maybury(Eds.), Advances in Automatic Text Summarization, MIT Press.

Page 12: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Libro

Innovative Document Summarization Techniques: Revolutionizing Knowledge UnderstandingAlessandro Fiori (IRCC, Institute for Cancer Research and Treatment, Italy)

The prevalence of digital documentation presents some pressing concerns for efficient information retrieval in the modern age. Readers want to be able to access the information they desire without having to search through a mountain of unrelated data, so algorithms and methods for effectively seeking out pertinent information are of critical importance.

Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding evaluates some of the existing approaches to information retrieval and summarization of digital documents, as well as current research and future developments. This book serves as a sounding board for students, educators, researchers, and practitioners of information technology, advancing the ongoing discussion of communication in the digital age.

Gennaio 2014

Page 13: Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa

Contatti

Alessandro Fiori

Project Manager @ IRCC di CandioloDocente a contratto presso Politecnico di Torino

Web: http://dbdmg.polito.it/wordpress/people/alessandro-fiori/Email: [email protected]

[email protected]