19
UNIVERSITÀ DEGLI STUDI DI TRIESTE DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA Corso di Laurea Magistrale in Ingegneria Informatica Progetto e realizzazione di un sistema per la generazione automatica di revisioni per articoli scientifici Anno Accademico 2014/2015 Laureando Matteo Figelj Relatore prof. Eric Medvet

2015 figelj presentazione

Embed Size (px)

Citation preview

Page 1: 2015 figelj presentazione

UNIVERSITÀ DEGLI STUDI DI TRIESTEDIPARTIMENTO DI INGEGNERIA E ARCHITETTURA

Corso di Laurea Magistrale in Ingegneria Informatica

Progetto e realizzazione di un sistema per la generazione automatica di revisioni per articoli

scientifici

Anno Accademico 2014/2015

LaureandoMatteo Figelj

Relatoreprof. Eric Medvet

Page 2: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(1) Il problema

➔ Dato un articolo scientifico, generare una revisione che:

◆ sembri scritta da un revisore per quell’articolo

◆ esprima un tipo di opinione/valutazione scelto in input tra:● positiva● neutra● negativa

2

Page 3: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(2) Il problema

➔ Lavoro suddiviso in:◆ Definizione del problem statement◆ Raccolta dei dati◆ Definizione di una baseline◆ Progettazione e sviluppo di quattro metodi per

generare revisioni◆ Valutazione sperimentale con due metodologie

diverse

3

Page 4: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(1) Perché è importante

➔ Stimolare la comunità scientifica nell’individuazione di revisioni generate automaticamente◆ limitare diffusione di revisioni illecite

➔ Indagare su potenzialità di Natural Language Generation (NLG)◆ fornire strumenti utili in altri contesti

4

Page 5: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(2) Perché è importante

➔ SCIgen: generatore di articoli scientifici

Articoli generati da SCIgen accettati da riviste e conferenze scientifiche!

Cosa potrebbe scatenare l’analogo di SCIgen nell’ambito delle revisioni nel peer review?

5

Page 6: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Preparazione dataset

➔ Sono stati raccolti:◆ 48 articoli scientifici◆ 165 revisioni

➔ Pre-elaborazione del dataset:◆ Segmentazione di tutte le revisioni in singoli periodi

grammaticali e per ognuno di questi:● Applicazione di Named-Entity Recognition● Applicazione di Part Of Speech Tagging

6

}Fonti:● Open access journals

○ F1000Research○ Elifescience○ Openreview○ PeerJ

● Machine learning lab

Page 7: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Baseline

➔ Si basa su catene di Markov di ordine 2◆ L’estrazione di una parola dipende dalle ultime 2

➔ Input◆ k: numero parole che si vogliono generare

➔ Output◆ Concatenazione delle k parole estratte,

separate da uno spazio

7

Page 8: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Approccio proposto

➔ Idea di base:◆ utilizzare periodi grammaticali del dataset di altre

revisioni◆ sostituire termini specifici di tali periodi con

termini specifici estratti dall’articolo da revisionare

◆ selezionare solo i periodi coerenti col tipo di opinione/valutazione desiderata

8

Page 9: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Sostituzione termini

➔ Sostituzione termini specifici◆ Scopo: adattare revisioni scritte per altri articoli all’

articolo da revisionare

➔ Termine specifico◆ Ruolo nella frase (POS, NER)◆ Frequenza

9

Page 10: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Sostituzione termini: esempio

10

ArticoloAutomatic Synthesis of Regular Expressions from Examples

Revisone ...the problem has a multiobjective nature, we want a regular expression able to…

ArticoloPre-hospital delay in Vietnamese patients hospitalized with a first acute myocardial infarction: A short report

Revisone ...the problem has a myocardial nature, we want a middle cause able to…

Page 11: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Sentiment analysis

➔ Come selezionare solo i periodi coerenti col tipo di opinione/valutazione desiderata?◆ Controllo di sentiment analysis con tool già pronto, pre-tarato

➔ Esempi di periodi◆ positivo:

Your new approach is valid and well compared with existing ones.

◆ neutro:What other data do we want to collect?

◆ negativo:The paper fails to meet standards of scientific dissemination.

11

Page 12: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Ottimizzazione 1: composizione

➔ Costruzione di nuovi periodi a partire da porzioni di testo estratte da più periodi◆ Parti del discorso coinvolte: sintagmi nominali, verbi,

proposizioni subordinate

◆ Method section - Sample - more detail is needed about...

◆ This is a very important piece of...

◆ ...the relationship the results with...

Method section is the results.

12

SimpleNLG

S V C

Page 13: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Ottimizzazione 2: ordinamento

➔ Ordinare i periodi di una revisione secondo l’ordinamento tipico delle revisioni scritte da esseri umani

➔ Effettuato mediante classificatore Stanford NLP➔ Tre classi di periodi: iniziale, centrale e finale

➔ Esempio:The reporting has been done clearly and meets the standards of the journal. Topic has been introduced sufficiently and can guide readers on what to expect from the rest of the work. Validity of the findings: The Result & Discussion sections are acceptable.

Periodi: iniziale, centrale, finale.

13

Page 14: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Valutazione sperimentale

➔ Scopo◆ Valutare l’efficacia delle soluzioni proposte

➔ Effettuata in due diversi modi◆ Intrinseca◆ EstrinsecaEntrambe con impiego di soggetti umani

➔ Valutatori suddivisi in tre classi◆ “esperti”◆ “medi”◆ “inesperti”

14

Page 15: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(1) Valutazione sperimentale intrinseca

➔ Schede contenenti un articolo e dieci revisioni sottoposte ai valutatori◆ Ogni articolo

● Titolo e abstract◆ Per ogni revisione

● Domanda 1: “è scritta da un essere umano per questo articolo?” Sì/No

● Domanda 2: “che tipo di opinione esprime?” Positiva/Neutra/Negativa

➔ Revisioni generate e scritte da esseri umani con ordine random

15

Page 16: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(2) Valutazione sperimentale intrinseca

16

C1 metodo 1

C2 metodo 2

C3 metodo 3

C4 metodo 4

C5 baseline

C6 scritta da revisore umano per quell’articolo

C7 scritta da revisore umano per altro articolo

Numero valutatori per classe: “esperti”: 8 “medi”: 3 “inesperti”: 5

Totale revisioni valutate: 495

Page 17: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(1) Valutazione sperimentale estrinseca

➔ Schede contenenti un articolo e tre revisioni sottoposte ai valutatori◆ Ogni articolo

● Titolo◆ Per ogni articolo

● Domanda 1: “che decisione prendi per questo articolo?” Accept/Reject

● Domanda 2: “ordina le revisioni da 1 a 3 secondo quanto ti hanno influenzato nella scelta”

➔ Revisioni generate dal metodo 2 e scritte da esseri umani con ordine random

17

Page 18: 2015 figelj presentazione

F > O & G F è più influente di O e di G

F > G F è più influente di G

RF & !RGraccomandazione dell’utente concorde con F e discorde da almeno una G

F >> F è la più influente

O >> O è la più influente

G >> G è la più influente

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

(2) Valutazione sperimentale estrinseca

18

Numero valutatori per classe: “esperti”: 6 “medi”: 3 “inesperti”: 3

Totale schede valutate: 98 (294 revisioni)

Notazione: F: generata dal metodo 2 O: scritta da revisore umano per altro articolo G: scritta da revisore umano per quell’articolo

Page 19: 2015 figelj presentazione

Matteo Figelj (DIA - UniTs)

Generazione automatica di revisioni per articoli scientifici

Conclusioni

➔ Valutazione intrinseca◆ opinione è trasmessa meglio dal metodo 1 che dalle

revisioni scritte da esseri umani

➔ Valutazione estrinseca◆ nel 15% dei casi si riesce a sovvertire l’opinione di un

esperto con una revisione generata

➔ Limitazione: ci si auspica un miglioramento con un dataset di dimensioni maggiori

19