Upload
manuel-de-la-villa
View
78
Download
0
Embed Size (px)
Citation preview
Sistema de clasificación automática de la polaridadde notas clínicas de evolución
•Departamento: Tecnologías de la Información
•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero
•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado
1/66
Sistema para la elaboración automática de informes de alta hospitalaria
PRESENTACIÓN DEL PROBLEMA
2/66
PRESENTACIÓN DEL PROBLEMA
3/66
A B
C
Informede alta
PRESENTACIÓN DEL PROBLEMA
4/66
Aprox. 30 – 50 minutos
C
Informede alta
PRESENTACIÓN DEL PROBLEMA
5/66
PRESENTACIÓN DEL PROBLEMA
Solución
Clasificador de polaridad
Generador de informes de alta
6/66
Sistema de clasificación automática de la polaridadde notas clínicas de evolución
•Departamento: Tecnologías de la Información
•Director del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero
•Autor del trabajo: Samuel Díaz Millán
7/66
ÍNDICE
1. OBJETIVOS
2. EL CORPUS Y SU PROCESAMIENTO
3. CLASIFICACIÓN AUTOMÁTICA
4. ANÁLISIS DE RESULTADOS
5. CONCLUSIONES Y TRABAJO FUTURO
6. DEMOSTRACIÓN DEL SISTEMA
Dirigido por: Manuel J. Maña López
Autor: Samuel Díaz Millán
Departamento: Tecnologías de la Información
8/66Manuel de la Villa Cordero
1. OBJETIVOS
• Creación de sistema de predicción de polaridad.
• Predicciones resultantes como entrada para el elaborador de informes de alta.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 9/66
2. EL CORPUS Y SU PROCESAMIENTO
2.1. Elaboración del corpus
2.2. Procesamiento con FreelingMed
2.3. Etiquetado con KAF
2.4. Sistema Gestor de Base de Datos
2.5. Modelo entidad-relación
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 10/66
2.1. ELABORACIÓN DEL CORPUS
• Disponemos de 929 notas clínicas de evoluciónde 161 pacientes anónimos durante 2015.
• Provienen del Hospital Virgen del Rocío de Sevilla.
• Pacientes con al menos 2 evoluciones.
• Casos de insuficiencia cardíaca, síndrome coronario o EPOC.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 11/66
2.1. ELABORACIÓN DEL CORPUS
Anonimización del personal sanitario:
//ESPAÑA ESPAÑA, MANUEL/ DR GARCÍA.
Subjetivamente mejor. Respiración nasal, sin utilización de prensa abdominal, habla
fluida, no disnea. Tolera el decúbito. No fiebre, no otra sintomatología.
GUARDIA RESPIRAOTRIO (GARCÍA)
En la tarde de ayer repitió nuevo episodio de disnea intensa con trabajo respiratorio y
uso de musculatura abdominal, evidenciándose en la exploración crpitantes en ambos
hemitórax hasta tercio medio. Por lo que se reinicia nuevamente VMNI con parámetros
IPAP 15/EPAP 5.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 12/66
2.1. ELABORACIÓN DEL CORPUS
• Para etiquetar, 3 anotadores:Anotador 1, Anotador 2 y Juez.
• Anotadores 1 y 2 siguen:
1. Lectura comprensiva de una nota.
2. Buscar cambio o mantenimiento en el estado.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 13/66
2.1. ELABORACIÓN DEL CORPUS
3. Etiquetar la nota con uno de estos valores.
Signo Significado Ejemplo
+ Evolución favorable, mejoría “Continúa con evolución favorable, eupneica en reposo
tolerando la deambulación y el habla sin O2
suplementario. No refiere más episodios de disnea y pasa
mejor las noches, aunque refiere que se encuentra muy
nerviosa. No deposiciones desde el ingreso.”
0 Estabilidad, sin signos palpables
de mejoría ni de empeoramiento
“Aceptablemente estabilizada. Asintomática. Mantiene
buenas diuresis. En control analítico previo al alta:
creatinina de 1,21.Hb. de 9.2.“
- Evolución negativa,
empeoramiento
“Durante el día con glucemias de 400-247-339-375 mg/dl y
actualmente con 470 mg/dl. Mal control con pauta
subcutánea por lo que iniciamos perfusión iv de insulina a 6
UI/h.”
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 14/66
2.1. ELABORACIÓN DEL CORPUS
4. Copiar las expresiones que sustentan el juicio de la polaridad.
Ejemplo Motivación
“Continúa con evolución favorable, eupneica en reposo
tolerando la deambulación y el habla sin O2 suplementario. No
refiere más episodios de disnea y pasa mejor las noches,
aunque refiere que se encuentra muy nerviosa. No deposiciones
desde el ingreso.”
evolución favorable; eupneica;
tolerando la deambulación; pasa
mejor las noches
“Aceptablemente estabilizada. Asintomática. Mantiene buenas
diuresis. En control analítico previo al alta: creatinina de
1,21.Hb. de 9.2. “
Aceptablemente estabilizada
“Durante el día con glucemias de 400-247-339-375 mg/dl y
actualmente con 470 mg/dl. Mal control con pauta subcutánea
por lo que iniciamos perfusión iv de insulina a 6 UI/h.”
Mal control
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 15/66
2.1. ELABORACIÓN DEL CORPUS
• El juez sigue el siguiente procedimiento:
+ +
- 0 ++0–
+
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 16/66
2.1. ELABORACIÓN DEL CORPUS
Coincidencias y discrepancias en el juicio de la polaridad:
Notas + 0 -
Coincidencias 729 (78,47%) 424 (45,64%) 151 (16,25%) 154 (16,58%)
+ 0 ó 0 + 0 - ó - 0 + - ó - +
Discrepancias 200 (21,53%) 84 (9,04%) 64 (6,89%) 52 (5,60%)
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 17/66
2.1. ELABORACIÓN DEL CORPUS
Distribución de polaridades:
455
288
186
Polaridades
+ (49%)
0 (31%)
– (20%)
Total: 929 notas
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 18/66
2.2. PROCESAMIENTO CON FREELINGMED
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 19/66
Freeling
Diccionarios
médicos
FreelingMed KAF
2.3. ETIQUETADO CON KAF
• Text
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 20/66
2.3. ETIQUETADO CON KAF
• Term y References
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 21/66
2.3. ETIQUETADO CON KAF
• Term y References
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 22/66
2.3. ETIQUETADO CON KAF
• Chunks
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 23/66
2.3. ETIQUETADO CON KAF
• Dependences
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 24/66
2.4. SISTEMA GESTOR DE BASE DE DATOS
• Para almacenar la información de KAF necesitamos una base de datos.
• Apache Derby.
• Basado en estándares SQL, Java y JDBC Permite una buena integración en Java.
• Permite incrustarse en la aplicación.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 25/66
2.5. MODELO ENTIDAD-RELACIÓN
3. CLASIFICACIÓN AUTOMÁTICA
3.1. Escenario de experimentación
3.2. Preproceso de datos y atributos
3.3. Representación de los datos
3.4. Selección de atributos
3.5. Desequilibrio de clases
3.6. Selección de clasificadores
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 27/66
3.1. ESCENARIO DE EXPERIMENTACIÓN
• División del corpus: 2/3 – 1/3
• Mantenemos la proporción de clases: Estratificación
COLECCIÓN COMPLETA (929)
TRAINING (620) TEST (309)
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 28/66
3.2. PREPROCESO DE DATOS Y ATRIBUTOS
• Eliminación de símbolos aislados.
• Pasar a minúscula todas la palabras.
... .. . , ; : < > [ ]( ) + - / * ¡ ! ¿ ?| @ “ · # % € $ & =‘ ‘’ ` { } \
Diuresis diuresis
Historial historial
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 29/66
3.2. PREPROCESO DE DATOS Y ATRIBUTOS
• Eliminación de palabras vacías.
Posición Palabra Ocurrencias
1 de 3190
2 en 1558
3 con 1545
4 la 1326
5 y 1272
6 a 1031
7 se 834
8 el 821
9 que 721
10 por 597
11 ha 341
12 al 311
13 para 264
Posición Palabra Ocurrencias
14 desde 217
15 los 187
16 su 168
17 las 156
18 lo 148
19 esta 129
20 mi 114
21 aunque 109
22 hasta 105
23 un 103
24 durante 96
25 una 95
26 es 92
Posición Palabra Ocurrencias
27 si 91
28 tras 89
29 está 85
30 más 85
31 pero 82
32 muy 82
33 le 82
34 hace 72
35 e 72
36 como 67
37 tiene 66
38 o 53
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 30/66
3.3. REPRESENTACIÓN DE DATOS
• Herramienta de minería de datos Weka
• Para experimentar con Weka ARFF
KAF Sistema ARFF WEKA Modelo
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 31/66
3.3. REPRESENTACIÓN DE DATOS
Pesos
Binario Frecuencia TF TF-IDF
0 / 1 n ocurrencias
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 32/66
3.4. SELECCIÓN DE ATRIBUTOS
• Existen miles de atributos por cada ARFF, por tanto, posibilidad de ruido en los datos.
• Solución Selector de atributos Infogain
• Empleamos 3 porcentajes de Infogain:– 10%
– 5%
– 1%
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 33/66
3.5. DESEQUILIBRIO DE CLASES
• Corpus no equilibrado.
• Algunos clasificadores pueden verse afectados.
+ 0 –304 192 124
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 34/66
3.5. DESEQUILIBRIO DE CLASES
• SpreadSubsampling:– 1
– 1.5
– 2
124 124 124
186 186 124
248 192 124
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 35/66
304 192 124
Conjunto original:
3.5. DESEQUILIBRIO DE CLASES
• Resample:– 1
– 0.75
– 0.5
206 206 206
231 203 186
255 199 165
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 36/66
304 192 124
Conjunto original:
3.5. DESEQUILIBRIO DE CLASES
• SMOTE:– 25%
– 50%
304 192 155
304 192 186
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 37/66
304 192 124
Conjunto original:
3.6. SELECCIÓN DE CLASIFICADORES
• J48 – Árbol de decisión
• NaiveBayes – Teorema de Bayes
• SMO – Máquina de Vector Soporte
• IBk – Aprendizaje perezoso
• JRip – Reglas de decisión
• RandomForest – Bagging
• AdaBoost – Boosting
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 38/66
4. ANÁLISIS DE RESULTADOS
4.1. Introducción
4.2. Discusión de resultados
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 39/66
4.1. INTRODUCCIÓN
40/66
4.1. INTRODUCCIÓN
Realizamos un total de 308 pruebas:
1. Motivaciones: 84 pruebas.1.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.1.2. Colección completa y sampling:7 parejas algoritmo-peso x 8 combinaciones de sampling = 56 pruebas.
2. Palabras: 112 pruebas.2.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.2.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.
3. Términos: 112 pruebas.3.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.3.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 41/66
4.2. DISCUSIÓN DE RESULTADOS
Comparamos los mejores resultados de las pruebas con los de los anotadores.
Resultados + 0 -
Anotador 1
+ 0,922 436 8 11
0 0,813 45 211 32
- 0,835 10 12 164
Anotador 2
+ 0,928 440 9 6
0 0,801 44 203 41
- 0,844 9 7 170
Resultados + 0 -
Motivaciones
SMO Binario ó
AdaBoost (SMO Binario)
+ 0,8 128 16 7
0 0,576 29 49 18
- 0,641 12 9 41
Palabras
AdaBoost
(SMO tf-idf) 100%
+ 0,822 132 14 5
0 0,639 31 61 4
- 0,66 7 20 35
Términos
NaiveBayes tf-idf ó
AdaBoost
(NaiveBayes tf-idf) 5%
+ 0,774 113 33 5
0 0,604 21 64 11
- 0,632 7 19 36
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 42/66
4.2. DISCUSIÓN DE RESULTADOS
• Valores de Medida-F alejados de los expertos sin embargo, marcan un buen punto de partida.
• Peores clasificadores: IBk, JRip, RandomForest.
• Mejores clasificadores: J48, NaiveBayes, SMO y AdaBoost.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 43/66
4.2. DISCUSIÓN DE RESULTADOS
• Mejores pesos: Binario y tf-idf.
• Mejor atributo: palabras.
• Infogain positivo para los términos y negativo para las palabras.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 44/66
4.2. DISCUSIÓN DE RESULTADOS
• Sampling mejora algunos resultados de las motivaciones.
• SpreadSubsampling, mejor valor: 2.
• Resample, resultados similares.
• SMOTE, mejor valor: 25%.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 45/66
5. CONCLUSIONES Y TRABAJO FUTURO
Como conclusiones:
• Los resultados son un buen punto de partida.
• Técnicas de Infogain y sampling no son críticas.
• Objetivos cumplidos.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 46/66
5. CONCLUSIONES Y TRABAJO FUTURO
Como trabajo futuro:
• Ajustar parámetros de los clasificadores.
• Emplear otros clasificadores.
• Análisis de texto más complejo.
• Trabajar con un corpus mayor.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 47/66
6. DEMOSTRACIÓN DEL SISTEMA
SistemaARFF
Modelo
Notaclínica
Polaridad
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 48/66
Sistema para la elaboración automática de informes de alta hospitalaria
49/66
•Departamento: Tecnologías de la Información
•Directores del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero
•Autor del trabajo: Eduardo Acuña Coronado
50/66
ÍNDICE
Dirigido por: Manuel J. Maña López
Autor: Eduardo Acuña Coronado
Departamento: Tecnologías de la Información
1. OBJETIVOS
2. ENTRADA DEL SISTEMA
3. ELABORACIÓN DEL RESUMEN
4. ANÁLISIS DE RESULTADOS
5. CONCLUSIONES Y TRABAJO FUTURO
6. DEMOSTRACIÓN DEL SISTEMA
Manuel de la Villa Cordero
1. OBJETIVOS
• Recoger los documentos polarizados.
• Generar un resumen automático.
• Crear un resumen manual.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 51/66
2. ENTRADA DEL SISTEMA
• 929 notas clínicas con su polaridad de 161 pacientes.
• 84 resúmenes cortos:42 resúmenes x 2 anotadores.
• 84 resúmenes largos:42 resúmenes x 2 anotadores.
• Resúmenes generados con una aplicación.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 52/66
2. ENTRADA DEL SISTEMA
3. ELABORACIÓN DEL RESUMEN
3.1. Determinación de plantilla
3.2. Selección de sentencias
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 54/66
3.1. DETERMINACIÓN DE PLANTILLA
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 55/66
3.2. SELECCIÓN DE SENTENCIAS
Selección de sentencias
Manual Automática
TextRank*
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 56/66
3.2. SELECCIÓN DE SENTENCIAS
O3
O1
O4
O2
O5
disnea
Algoritmo TextRank*
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 57/66
3.2. SELECCIÓN DE SENTENCIAS
O3
O1
O4
O2
O5
1º
2º
3º
4º
5º
Algoritmo TextRank*
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 58/66
4. ANÁLISIS DE RESULTADOS
4.1. ROUGE
4.2. Discusión de resultados
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 59/66
4.1. ROUGE
• Usamos ROUGE para analizar los resúmenes.
• Usa n-gramas para indicar el solapamiento entre términos.
• Nos devuelve valores de precisión, cobertura y medida-F.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 60/66
4.1. ROUGE
ROUGE
Resúmenes del sistema
Resúmenes de los expertos
Resultados
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 61/66
4.2. DISCUSIÓN DE RESULTADOS
Realizamos un total de 336 pruebas:
1. Resúmenes cortos: 168 pruebas 42 resúmenes cortos x 4 tipos de n-grama.2. Resúmenes largos: 168 pruebas 42 resúmenes largos x 4 tipos de n-grama.
Resumen del
pacienteCobertura media Precisión media Medida F media
Corto 1-Grama 0,197 0,252 0,195
Corto 2-Grama 0,138 0,145 0,127
Corto 3-Grama 0,117 0,129 0,111
Corto 4-Grama 0,097 0,102 0,090
Largo 1-Grama 0,246 0,340 0,252
Largo 2-Grama 0,178 0,222 0,176
Largo 3-Grama 0,172 0,208 0,166
Largo 4-Grama 0,169 0,186 0,156
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 62/66
5. CONCLUSIONES Y TRABAJO FUTURO
Como conclusiones:
• Ahorro en tiempo.
• Resultados prometedores.
• Discrepancia de criterios.
• Pérdida de información.
• Oraciones inconexas.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 63/66
5. CONCLUSIONES Y TRABAJO FUTURO
Posibles trabajos futuros:
• Resumen abstractivo.
• Usar técnicas de aprendizaje automático.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 64/66
6. DEMOSTRACIÓN DEL SISTEMA
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 65/66
SistemaNotas del paciente
polarizadasResumen
Sistema de clasificación automática de la polaridadde notas clínicas de evolución
•Departamento: Tecnologías de la Información
•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero
•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado
66/66
Sistema para la elaboración automática de informes de alta hospitalaria