66
Sistema de clasificación automática de la polaridad de notas clínicas de evolución Departamento : Tecnologías de la Información Directores de los trabajos : Manuel J. Maña López , Manuel de la Villa Cordero Autores de los trabajos : Samuel Díaz Millán, Eduardo Acuña Coronado 1/66 Sistema para la elaboración automática de informes de alta hospitalaria

Presentación TFG Informes de Alta Automáticos

Embed Size (px)

Citation preview

Page 1: Presentación TFG Informes de Alta Automáticos

Sistema de clasificación automática de la polaridadde notas clínicas de evolución

•Departamento: Tecnologías de la Información

•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero

•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado

1/66

Sistema para la elaboración automática de informes de alta hospitalaria

Page 2: Presentación TFG Informes de Alta Automáticos

PRESENTACIÓN DEL PROBLEMA

2/66

Page 3: Presentación TFG Informes de Alta Automáticos

PRESENTACIÓN DEL PROBLEMA

3/66

A B

C

Informede alta

Page 4: Presentación TFG Informes de Alta Automáticos

PRESENTACIÓN DEL PROBLEMA

4/66

Aprox. 30 – 50 minutos

C

Informede alta

Page 5: Presentación TFG Informes de Alta Automáticos

PRESENTACIÓN DEL PROBLEMA

5/66

Page 6: Presentación TFG Informes de Alta Automáticos

PRESENTACIÓN DEL PROBLEMA

Solución

Clasificador de polaridad

Generador de informes de alta

6/66

Page 7: Presentación TFG Informes de Alta Automáticos

Sistema de clasificación automática de la polaridadde notas clínicas de evolución

•Departamento: Tecnologías de la Información

•Director del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero

•Autor del trabajo: Samuel Díaz Millán

7/66

Page 8: Presentación TFG Informes de Alta Automáticos

ÍNDICE

1. OBJETIVOS

2. EL CORPUS Y SU PROCESAMIENTO

3. CLASIFICACIÓN AUTOMÁTICA

4. ANÁLISIS DE RESULTADOS

5. CONCLUSIONES Y TRABAJO FUTURO

6. DEMOSTRACIÓN DEL SISTEMA

Dirigido por: Manuel J. Maña López

Autor: Samuel Díaz Millán

Departamento: Tecnologías de la Información

8/66Manuel de la Villa Cordero

Page 9: Presentación TFG Informes de Alta Automáticos

1. OBJETIVOS

• Creación de sistema de predicción de polaridad.

• Predicciones resultantes como entrada para el elaborador de informes de alta.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 9/66

Page 10: Presentación TFG Informes de Alta Automáticos

2. EL CORPUS Y SU PROCESAMIENTO

2.1. Elaboración del corpus

2.2. Procesamiento con FreelingMed

2.3. Etiquetado con KAF

2.4. Sistema Gestor de Base de Datos

2.5. Modelo entidad-relación

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 10/66

Page 11: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

• Disponemos de 929 notas clínicas de evoluciónde 161 pacientes anónimos durante 2015.

• Provienen del Hospital Virgen del Rocío de Sevilla.

• Pacientes con al menos 2 evoluciones.

• Casos de insuficiencia cardíaca, síndrome coronario o EPOC.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 11/66

Page 12: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

Anonimización del personal sanitario:

//ESPAÑA ESPAÑA, MANUEL/ DR GARCÍA.

Subjetivamente mejor. Respiración nasal, sin utilización de prensa abdominal, habla

fluida, no disnea. Tolera el decúbito. No fiebre, no otra sintomatología.

GUARDIA RESPIRAOTRIO (GARCÍA)

En la tarde de ayer repitió nuevo episodio de disnea intensa con trabajo respiratorio y

uso de musculatura abdominal, evidenciándose en la exploración crpitantes en ambos

hemitórax hasta tercio medio. Por lo que se reinicia nuevamente VMNI con parámetros

IPAP 15/EPAP 5.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 12/66

Page 13: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

• Para etiquetar, 3 anotadores:Anotador 1, Anotador 2 y Juez.

• Anotadores 1 y 2 siguen:

1. Lectura comprensiva de una nota.

2. Buscar cambio o mantenimiento en el estado.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 13/66

Page 14: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

3. Etiquetar la nota con uno de estos valores.

Signo Significado Ejemplo

+ Evolución favorable, mejoría “Continúa con evolución favorable, eupneica en reposo

tolerando la deambulación y el habla sin O2

suplementario. No refiere más episodios de disnea y pasa

mejor las noches, aunque refiere que se encuentra muy

nerviosa. No deposiciones desde el ingreso.”

0 Estabilidad, sin signos palpables

de mejoría ni de empeoramiento

“Aceptablemente estabilizada. Asintomática. Mantiene

buenas diuresis. En control analítico previo al alta:

creatinina de 1,21.Hb. de 9.2.“

- Evolución negativa,

empeoramiento

“Durante el día con glucemias de 400-247-339-375 mg/dl y

actualmente con 470 mg/dl. Mal control con pauta

subcutánea por lo que iniciamos perfusión iv de insulina a 6

UI/h.”

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 14/66

Page 15: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

4. Copiar las expresiones que sustentan el juicio de la polaridad.

Ejemplo Motivación

“Continúa con evolución favorable, eupneica en reposo

tolerando la deambulación y el habla sin O2 suplementario. No

refiere más episodios de disnea y pasa mejor las noches,

aunque refiere que se encuentra muy nerviosa. No deposiciones

desde el ingreso.”

evolución favorable; eupneica;

tolerando la deambulación; pasa

mejor las noches

“Aceptablemente estabilizada. Asintomática. Mantiene buenas

diuresis. En control analítico previo al alta: creatinina de

1,21.Hb. de 9.2. “

Aceptablemente estabilizada

“Durante el día con glucemias de 400-247-339-375 mg/dl y

actualmente con 470 mg/dl. Mal control con pauta subcutánea

por lo que iniciamos perfusión iv de insulina a 6 UI/h.”

Mal control

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 15/66

Page 16: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

• El juez sigue el siguiente procedimiento:

+ +

- 0 ++0–

+

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 16/66

Page 17: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

Coincidencias y discrepancias en el juicio de la polaridad:

Notas + 0 -

Coincidencias 729 (78,47%) 424 (45,64%) 151 (16,25%) 154 (16,58%)

+ 0 ó 0 + 0 - ó - 0 + - ó - +

Discrepancias 200 (21,53%) 84 (9,04%) 64 (6,89%) 52 (5,60%)

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 17/66

Page 18: Presentación TFG Informes de Alta Automáticos

2.1. ELABORACIÓN DEL CORPUS

Distribución de polaridades:

455

288

186

Polaridades

+ (49%)

0 (31%)

– (20%)

Total: 929 notas

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 18/66

Page 19: Presentación TFG Informes de Alta Automáticos

2.2. PROCESAMIENTO CON FREELINGMED

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 19/66

Freeling

Diccionarios

médicos

FreelingMed KAF

Page 20: Presentación TFG Informes de Alta Automáticos

2.3. ETIQUETADO CON KAF

• Text

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 20/66

Page 21: Presentación TFG Informes de Alta Automáticos

2.3. ETIQUETADO CON KAF

• Term y References

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 21/66

Page 22: Presentación TFG Informes de Alta Automáticos

2.3. ETIQUETADO CON KAF

• Term y References

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 22/66

Page 23: Presentación TFG Informes de Alta Automáticos

2.3. ETIQUETADO CON KAF

• Chunks

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 23/66

Page 24: Presentación TFG Informes de Alta Automáticos

2.3. ETIQUETADO CON KAF

• Dependences

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 24/66

Page 25: Presentación TFG Informes de Alta Automáticos

2.4. SISTEMA GESTOR DE BASE DE DATOS

• Para almacenar la información de KAF necesitamos una base de datos.

• Apache Derby.

• Basado en estándares SQL, Java y JDBC Permite una buena integración en Java.

• Permite incrustarse en la aplicación.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 25/66

Page 26: Presentación TFG Informes de Alta Automáticos

2.5. MODELO ENTIDAD-RELACIÓN

Page 27: Presentación TFG Informes de Alta Automáticos

3. CLASIFICACIÓN AUTOMÁTICA

3.1. Escenario de experimentación

3.2. Preproceso de datos y atributos

3.3. Representación de los datos

3.4. Selección de atributos

3.5. Desequilibrio de clases

3.6. Selección de clasificadores

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 27/66

Page 28: Presentación TFG Informes de Alta Automáticos

3.1. ESCENARIO DE EXPERIMENTACIÓN

• División del corpus: 2/3 – 1/3

• Mantenemos la proporción de clases: Estratificación

COLECCIÓN COMPLETA (929)

TRAINING (620) TEST (309)

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 28/66

Page 29: Presentación TFG Informes de Alta Automáticos

3.2. PREPROCESO DE DATOS Y ATRIBUTOS

• Eliminación de símbolos aislados.

• Pasar a minúscula todas la palabras.

... .. . , ; : < > [ ]( ) + - / * ¡ ! ¿ ?| @ “ · # % € $ & =‘ ‘’ ` { } \

Diuresis diuresis

Historial historial

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 29/66

Page 30: Presentación TFG Informes de Alta Automáticos

3.2. PREPROCESO DE DATOS Y ATRIBUTOS

• Eliminación de palabras vacías.

Posición Palabra Ocurrencias

1 de 3190

2 en 1558

3 con 1545

4 la 1326

5 y 1272

6 a 1031

7 se 834

8 el 821

9 que 721

10 por 597

11 ha 341

12 al 311

13 para 264

Posición Palabra Ocurrencias

14 desde 217

15 los 187

16 su 168

17 las 156

18 lo 148

19 esta 129

20 mi 114

21 aunque 109

22 hasta 105

23 un 103

24 durante 96

25 una 95

26 es 92

Posición Palabra Ocurrencias

27 si 91

28 tras 89

29 está 85

30 más 85

31 pero 82

32 muy 82

33 le 82

34 hace 72

35 e 72

36 como 67

37 tiene 66

38 o 53

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 30/66

Page 31: Presentación TFG Informes de Alta Automáticos

3.3. REPRESENTACIÓN DE DATOS

• Herramienta de minería de datos Weka

• Para experimentar con Weka ARFF

KAF Sistema ARFF WEKA Modelo

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 31/66

Page 32: Presentación TFG Informes de Alta Automáticos

3.3. REPRESENTACIÓN DE DATOS

Pesos

Binario Frecuencia TF TF-IDF

0 / 1 n ocurrencias

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 32/66

Page 33: Presentación TFG Informes de Alta Automáticos

3.4. SELECCIÓN DE ATRIBUTOS

• Existen miles de atributos por cada ARFF, por tanto, posibilidad de ruido en los datos.

• Solución Selector de atributos Infogain

• Empleamos 3 porcentajes de Infogain:– 10%

– 5%

– 1%

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 33/66

Page 34: Presentación TFG Informes de Alta Automáticos

3.5. DESEQUILIBRIO DE CLASES

• Corpus no equilibrado.

• Algunos clasificadores pueden verse afectados.

+ 0 –304 192 124

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 34/66

Page 35: Presentación TFG Informes de Alta Automáticos

3.5. DESEQUILIBRIO DE CLASES

• SpreadSubsampling:– 1

– 1.5

– 2

124 124 124

186 186 124

248 192 124

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 35/66

304 192 124

Conjunto original:

Page 36: Presentación TFG Informes de Alta Automáticos

3.5. DESEQUILIBRIO DE CLASES

• Resample:– 1

– 0.75

– 0.5

206 206 206

231 203 186

255 199 165

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 36/66

304 192 124

Conjunto original:

Page 37: Presentación TFG Informes de Alta Automáticos

3.5. DESEQUILIBRIO DE CLASES

• SMOTE:– 25%

– 50%

304 192 155

304 192 186

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 37/66

304 192 124

Conjunto original:

Page 38: Presentación TFG Informes de Alta Automáticos

3.6. SELECCIÓN DE CLASIFICADORES

• J48 – Árbol de decisión

• NaiveBayes – Teorema de Bayes

• SMO – Máquina de Vector Soporte

• IBk – Aprendizaje perezoso

• JRip – Reglas de decisión

• RandomForest – Bagging

• AdaBoost – Boosting

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 38/66

Page 39: Presentación TFG Informes de Alta Automáticos

4. ANÁLISIS DE RESULTADOS

4.1. Introducción

4.2. Discusión de resultados

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 39/66

Page 40: Presentación TFG Informes de Alta Automáticos

4.1. INTRODUCCIÓN

40/66

Page 41: Presentación TFG Informes de Alta Automáticos

4.1. INTRODUCCIÓN

Realizamos un total de 308 pruebas:

1. Motivaciones: 84 pruebas.1.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.1.2. Colección completa y sampling:7 parejas algoritmo-peso x 8 combinaciones de sampling = 56 pruebas.

2. Palabras: 112 pruebas.2.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.2.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.

3. Términos: 112 pruebas.3.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.3.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 41/66

Page 42: Presentación TFG Informes de Alta Automáticos

4.2. DISCUSIÓN DE RESULTADOS

Comparamos los mejores resultados de las pruebas con los de los anotadores.

Resultados + 0 -

Anotador 1

+ 0,922 436 8 11

0 0,813 45 211 32

- 0,835 10 12 164

Anotador 2

+ 0,928 440 9 6

0 0,801 44 203 41

- 0,844 9 7 170

Resultados + 0 -

Motivaciones

SMO Binario ó

AdaBoost (SMO Binario)

+ 0,8 128 16 7

0 0,576 29 49 18

- 0,641 12 9 41

Palabras

AdaBoost

(SMO tf-idf) 100%

+ 0,822 132 14 5

0 0,639 31 61 4

- 0,66 7 20 35

Términos

NaiveBayes tf-idf ó

AdaBoost

(NaiveBayes tf-idf) 5%

+ 0,774 113 33 5

0 0,604 21 64 11

- 0,632 7 19 36

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 42/66

Page 43: Presentación TFG Informes de Alta Automáticos

4.2. DISCUSIÓN DE RESULTADOS

• Valores de Medida-F alejados de los expertos sin embargo, marcan un buen punto de partida.

• Peores clasificadores: IBk, JRip, RandomForest.

• Mejores clasificadores: J48, NaiveBayes, SMO y AdaBoost.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 43/66

Page 44: Presentación TFG Informes de Alta Automáticos

4.2. DISCUSIÓN DE RESULTADOS

• Mejores pesos: Binario y tf-idf.

• Mejor atributo: palabras.

• Infogain positivo para los términos y negativo para las palabras.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 44/66

Page 45: Presentación TFG Informes de Alta Automáticos

4.2. DISCUSIÓN DE RESULTADOS

• Sampling mejora algunos resultados de las motivaciones.

• SpreadSubsampling, mejor valor: 2.

• Resample, resultados similares.

• SMOTE, mejor valor: 25%.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 45/66

Page 46: Presentación TFG Informes de Alta Automáticos

5. CONCLUSIONES Y TRABAJO FUTURO

Como conclusiones:

• Los resultados son un buen punto de partida.

• Técnicas de Infogain y sampling no son críticas.

• Objetivos cumplidos.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 46/66

Page 47: Presentación TFG Informes de Alta Automáticos

5. CONCLUSIONES Y TRABAJO FUTURO

Como trabajo futuro:

• Ajustar parámetros de los clasificadores.

• Emplear otros clasificadores.

• Análisis de texto más complejo.

• Trabajar con un corpus mayor.

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 47/66

Page 48: Presentación TFG Informes de Alta Automáticos

6. DEMOSTRACIÓN DEL SISTEMA

SistemaARFF

Modelo

Notaclínica

Polaridad

1: OBJETIVOS

2: EL CORPUS Y SU PROCESAMIENTO

3: CLASIFICACIÓN AUTOMÁTICA

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 48/66

Page 49: Presentación TFG Informes de Alta Automáticos

Sistema para la elaboración automática de informes de alta hospitalaria

49/66

•Departamento: Tecnologías de la Información

•Directores del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero

•Autor del trabajo: Eduardo Acuña Coronado

Page 50: Presentación TFG Informes de Alta Automáticos

50/66

ÍNDICE

Dirigido por: Manuel J. Maña López

Autor: Eduardo Acuña Coronado

Departamento: Tecnologías de la Información

1. OBJETIVOS

2. ENTRADA DEL SISTEMA

3. ELABORACIÓN DEL RESUMEN

4. ANÁLISIS DE RESULTADOS

5. CONCLUSIONES Y TRABAJO FUTURO

6. DEMOSTRACIÓN DEL SISTEMA

Manuel de la Villa Cordero

Page 51: Presentación TFG Informes de Alta Automáticos

1. OBJETIVOS

• Recoger los documentos polarizados.

• Generar un resumen automático.

• Crear un resumen manual.

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 51/66

Page 52: Presentación TFG Informes de Alta Automáticos

2. ENTRADA DEL SISTEMA

• 929 notas clínicas con su polaridad de 161 pacientes.

• 84 resúmenes cortos:42 resúmenes x 2 anotadores.

• 84 resúmenes largos:42 resúmenes x 2 anotadores.

• Resúmenes generados con una aplicación.

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 52/66

Page 53: Presentación TFG Informes de Alta Automáticos

2. ENTRADA DEL SISTEMA

Page 54: Presentación TFG Informes de Alta Automáticos

3. ELABORACIÓN DEL RESUMEN

3.1. Determinación de plantilla

3.2. Selección de sentencias

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 54/66

Page 55: Presentación TFG Informes de Alta Automáticos

3.1. DETERMINACIÓN DE PLANTILLA

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 55/66

Page 56: Presentación TFG Informes de Alta Automáticos

3.2. SELECCIÓN DE SENTENCIAS

Selección de sentencias

Manual Automática

TextRank*

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 56/66

Page 57: Presentación TFG Informes de Alta Automáticos

3.2. SELECCIÓN DE SENTENCIAS

O3

O1

O4

O2

O5

disnea

Algoritmo TextRank*

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 57/66

Page 58: Presentación TFG Informes de Alta Automáticos

3.2. SELECCIÓN DE SENTENCIAS

O3

O1

O4

O2

O5

Algoritmo TextRank*

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 58/66

Page 59: Presentación TFG Informes de Alta Automáticos

4. ANÁLISIS DE RESULTADOS

4.1. ROUGE

4.2. Discusión de resultados

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 59/66

Page 60: Presentación TFG Informes de Alta Automáticos

4.1. ROUGE

• Usamos ROUGE para analizar los resúmenes.

• Usa n-gramas para indicar el solapamiento entre términos.

• Nos devuelve valores de precisión, cobertura y medida-F.

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 60/66

Page 61: Presentación TFG Informes de Alta Automáticos

4.1. ROUGE

ROUGE

Resúmenes del sistema

Resúmenes de los expertos

Resultados

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 61/66

Page 62: Presentación TFG Informes de Alta Automáticos

4.2. DISCUSIÓN DE RESULTADOS

Realizamos un total de 336 pruebas:

1. Resúmenes cortos: 168 pruebas 42 resúmenes cortos x 4 tipos de n-grama.2. Resúmenes largos: 168 pruebas 42 resúmenes largos x 4 tipos de n-grama.

Resumen del

pacienteCobertura media Precisión media Medida F media

Corto 1-Grama 0,197 0,252 0,195

Corto 2-Grama 0,138 0,145 0,127

Corto 3-Grama 0,117 0,129 0,111

Corto 4-Grama 0,097 0,102 0,090

Largo 1-Grama 0,246 0,340 0,252

Largo 2-Grama 0,178 0,222 0,176

Largo 3-Grama 0,172 0,208 0,166

Largo 4-Grama 0,169 0,186 0,156

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 62/66

Page 63: Presentación TFG Informes de Alta Automáticos

5. CONCLUSIONES Y TRABAJO FUTURO

Como conclusiones:

• Ahorro en tiempo.

• Resultados prometedores.

• Discrepancia de criterios.

• Pérdida de información.

• Oraciones inconexas.

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 63/66

Page 64: Presentación TFG Informes de Alta Automáticos

5. CONCLUSIONES Y TRABAJO FUTURO

Posibles trabajos futuros:

• Resumen abstractivo.

• Usar técnicas de aprendizaje automático.

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 64/66

Page 65: Presentación TFG Informes de Alta Automáticos

6. DEMOSTRACIÓN DEL SISTEMA

1: OBJETIVOS

2: ENTRADA DEL SISTEMA

3: ELABORACIÓN DEL RESUMEN

4: ANÁLISIS DE RESULTADOS

5: CONCLUSIONES Y TRABAJO FUTURO

6: DEMOSTRACIÓN DEL SISTEMA 65/66

SistemaNotas del paciente

polarizadasResumen

Page 66: Presentación TFG Informes de Alta Automáticos

Sistema de clasificación automática de la polaridadde notas clínicas de evolución

•Departamento: Tecnologías de la Información

•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero

•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado

66/66

Sistema para la elaboración automática de informes de alta hospitalaria