Upload
jose-luis-martinez-fernandez
View
227
Download
0
Embed Size (px)
Citation preview
IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
José Luis Martínez Fernández Socio Director de DAEDALUS S.A. Profesor Asociado de la Universidad Carlos III de Madrid
@jlmartinez_es http://es.linkedin.com/in/jlmartinezfernandez
1 de Julio de 2015, Santander
Universidad Internacional Menéndez Pelayo
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Contenido
§ ¿Qué es Big Data? § Big Data en el dominio de salud § Arquitectura típica de un proceso de Big Data § Datos
• Análisis de datos estructurados en Big Data • Aprendizaje automático
• Análisis de datos no estructurados en Big Data • Técnicas de Análisis de Texto
• Evaluando técnicas de análisis de texto § Recursos § Aplicaciones
• La experiencia de TrendMiner § Retos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
¿QUÉ ES BIG DATA?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en tiempos aceptables
§ Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y oportunidades del crecimiento de los datos:
• Volumen: aumento de datos • Velocidad: de entrada/salida de datos • Variedad: rango de tipos y fuentes de datos
§ Gartner: modelo de las 3Vs (2012): • “Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight discovery and process optimization.”
Big Data: ¿qué es?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
5
¿Qué es Big Data?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Data Never Sleep 2.0 https://www.domo.com/learn/data-never-sleeps-2
¿Qué es Big Data?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Big Data en el dominio de salud
VOLUMEN VELOCIDAD
VARIEDAD
§ Millones de historias clínicas
§ Miles de publicaciones científicas
§ Dispositivos § Internet …
§ Informes diarios … § Nuevas publicaciones
científicas § Internet …
§ ECGS § Diagnósticos § Resultados de pruebas § …
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
“En los últimos 5 años se ha generado más información científica que en toda la historia …”
Winston Hide, Escuela Pública de Harvard
“Solo en MedLine se publican 20.000 artículos a la semana”
María Herrero, Tesis Doctoral
“Los profesionales de salud dedican el 20% de su tiempo a buscar y procesar información necesaria para la práctica sanitaria ”
Clinical Solutions, Elsevier
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
#cardiotuitero
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
La información no estructurada es cada vez más importante en Salud
Documentación médica Medios sociales
Redes, foros, comunidades de salud
Extraer información estructurada “accionable” de contenido no estructurado
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ ¿Cuántos datos se procesan de la Historia Clínica Electrónica?
§ Aplicaciones:
• Soporte a la codificación ICD9/10, SNOMED CT, CIMA, …
• Sistemas de ayuda a operadores humanos: procesos de codificación (p. ej.: diagnósticos en partes de alta en urgencias)
No Estructurados Estructurados
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
ARQUITECTURA TÍPICA DE UN PROCESO DE BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Arquitectura típica de un proceso de análisis de sentimiento
Adquisición/Grabación
Extracción/Limpieza
Interpretación/Agregación
Análisis/Modelado
Interpretación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Arquitectura típica de un proceso de análisis de sentimiento
Big Interactions Big Transactions
Big Processing
Big Analytics
• Sociales: Twitter….. • Generadas por máquinas:
sensores, escáneres de seguridad, ...
• Datos históricos: que crecen exponencialmente
• Web: clicks, logs, …
• No SQL: Hadoop (distribución) • Evolución SGBD: Oracle Exadata • Aumento RAM • Visualización: nubes, árboles, …
• Análisis de opinión • Segmentación de clientes • Detección de fraude
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Datos no estructurados Datos estructurados
19
Datos
20% de los datos frente al … ¡¡80%!!
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ De bases de datos relacionales
§ A bases de datos NoSQL
Datos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
ANÁLISIS DE DATOS ESTRUCTURADOS EN BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Machine Learning/ Pattern
Recognition
Statistics/ AI
Data Mining
Database systems
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Modelo
Valida (estadística)
Genera (aprendizaje)
DATOS RESULTADOS
Datos estructurados
Proceso de Análisis
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Modelos
Predictivos
responden preguntas sobre datos futuros
Ej.: • ¿Cuáles serán las ventas el año próximo?
• ¿Es esta transacción fraudulenta?
• ¿Qué tipo de seguro es más probable que contrate el cliente X?
Descriptivos
Proporcionan información sobre las relaciones entre los datos y sus características
Ej.: • Los clientes que compran pañales suelen
comprar cerveza.
• El tabaco y el alcohol son los factores más importantes en la enfermedad Y.
• Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Técnica
Supervisada
No-supervisada
Predicción Clasificación
Descripción Clustering Asociación
• Bayesiana • Redes de neuronas • Regresión • Árboles de decisión • Support Vector Machines • …
• K-Medias • Conceptual • Probabilístico • A priori • …
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
TÉCNICAS DE ANÁLISIS DE TEXTO EN BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Pipeline para análisis de texto
ACL2014 proceedings, CoreNLP description
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ División de un texto de entrada en oraciones y palabras.
§ ¡Fácil!, ¿verdad? Ejemplos:
Técnicas de Análisis de Texto
Segmentación (tokenization)
Ø ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120 msec.
Ø SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Este proceso asigna a cada palabra la categoría gramatical que le corresponde.
§ Ej.: Acude por angina progresiva desde hace 10 días
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
{ "form": "angina", "id": "3", "inip": "10", "endp": "15", "bold": "no", "italic": "no", "underscore": "no", "separation": "1”, "analysis_list": [ { "tag": "NCFS-NYN3", "lemma": "angina", "original_form": "angina”}]}
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Dos tipos de implementaciones: • Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines,
basado en reglas • Basada en conocimiento: Introduce un paso previo al análisis estadístico en el
que las etiquetas posibles para una palabra forman parte de una base léxica. § Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium,
LDC)
§ Problemas • Ambigüedad
• Casa: Juan se casa el viernes, Juan se ha ido de casa • Puede incluir o no lematización
§ Precisión del 97% (teóricamente): dependiente del contexto de aplicación
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Identificación de nombres propios.
§ Ej.: “En el Día Internacional de la Enfermería, entrevistamos a ROSA PÉREZ, enfermera, autora de El blog de Rosa”
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
"entity_list": [ { "form": "Día Internacional de la Enfermería", "sementity": { "class": "instance", "type": "Top", "confidence": "unknown" }}]
"variant_list": [ { "form": "ROSA PÉREZ", "sementity": { "class": "instance", "type": "Top>Person>FullName", "confidence": "unknown" }, "variant_list": [ { "form": "ROSA PÉREZ", "inip": "58", "endp": "67" } ], "relevance": "100" }]
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ El proceso de extracción de entidades, en ocasiones, va más allá: categorización (persona, lugar, …)
§ ¿Estándar para la categorización?
§ Linked Open Data
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ El análisis sintáctico consiste en obtener la estructura sintagmática de una frase.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Implementación: • Se implementa como parte del proceso de etiquetado POS:
§ los corpus de entrenamiento incluyen etiquetas para identificar sintagmas
• Técnicas basadas en análisis de dependencias: • La estructura sintáctica consiste en entradas léxicas enlazadas mediante
relaciones binarias asimétricas, denominadas dependencias.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Asignar un texto a un conjunto de clases predeterminado.
§ Tipos de algoritmos: • Estadísticos:
• Aprendizaje automático: árboles de decisión, SVM, Redes neuronales, clasificadores bayesianos
• Representación vectorial • Basados en reglas:
Clasificación de textos
Técnicas de Análisis de Texto
C
B
A
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Selección de características:
• Índice Gini: basado en la probabilidad condicional de que un documento pertenezca a una clase dado que contiene una palabra determinada.
• Ganancia de información: no solo tiene en cuenta la aparición de una palabra en el documento si no que también contempla el número de documentos que contienen esa palabra.
• Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada
y una clase concreta.
Clasificación de textos
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Creación de clases/grupos a partir del conjunto de elementos.
§ Número desconocido de clases. § Técnicas:
• Algoritmos basados en distancias: cercanía entre dos documentos
• Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una jerarquía.
• Algoritmos basados en particiones: • K-means: utiliza k representantes alrededor de los cuales se forman los
grupos
• Topic modeling: crear un modelo probabilístico generativo a partir de los textos del corpus. El corpus se representa en función de variables aleatorias, cuyos parámetros se estiman a partir de una colección concreta.
Agrupación de textos (clustering)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Determinar el parecer de un hablante respecto a un tema determinado
§ Determinar la polaridad (positiva, negativa o neutra) expresada en un texto. § Implementación:
• Listas de palabras positivas/negativas à Cuenta • Aprendizaje automático • Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Estoy encantado con el servicio de urgencias del hospital
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
"polarity_term_list": [{ "text": "estar encantado”, "score_tag": "P+", "sentimented_concept_list": [ { "form": "servicio de urgencias”,
"type": "Top>Product>ProfessionalService", "score_tag": "P+" }]
"sentimented_concept_list": [{ "form": "hospital", "type": "Top>Location>Facility", }]
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Herramienta para organizar grandes cantidades de información. § ¿Sobre qué temas o topics trata el contenido de un documento? § Modelo bayesiano:
§ Asumimos que un topic queda definido por una distribución probabilística de términos.
§ Asumimos que cada documento se genera a partir de una distribución de topics (ocultos).
§ Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia variacional y muestreo de Gibbs.
§ Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs).
Latent Dirichlet Allocation
Técnicas de Análisis de Texto
Análisis de tendencias
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Análisis de tendencias. LDA
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Precisión: Proporción de sentimientos etiquetados correctamente de entre los encontrados por el sistema
§ Recall(cobertura): Proporción de sentimientos encontrados respecto al total de expresiones de sentimiento existentes en la colección
S
S
S
S S
S
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Los requisitos dependen de la aplicación • Monitorización de marca en medios sociales: alta precisión, baja cobertura • Lucha antiterrorista: alta cobertura, baja precisión
§ Precisión y cobertura están inversamente relacionadas
• Buscar compromiso
§ Las personas NO tenemos una precisión del 100%
• Tests con analistas humanos: acuerdo 85-95%
(91% en dominio médico, [Krallinger, 2015]))
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Evaluación
Estado del arte en cuanto a medidas de precisión
§ Extracción de entidades: 70-85%
§ Clasificación: 70-80%
§ Análisis de sentimiento: 60-70%
La mejora de calidad depende de la adaptación de las herramientas y recursos a la aplicación/tarea
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Anatomical Therapeutic Chemical (ATC) Classification
System
Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor|brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol|espidifen|….
nauseas estomago revuelto|sentirse mareado|nauseas|nauseas solas|nauseoso|nauseoso|ansia nauseosa|…… 35.259 términos
16.418 fármacos y 2.228 principios activos
2.566 códigos ATC
42.548 principales
enfermedades
Cáncer|neoplasia maligna|….
Recursos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
TRENDMINER
Aplicaciones
Monitorización de información sobre salud en medios sociales
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ Detectar menciones de fármacos y eventos médicos (enfermedades, síntomas, efectos adversos, etc.) en medios sociales.
§ Los medios sociales pueden ser fuentes valiosas en la monitorización de eventos médicos.
§ Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de medicamentos y compañías farmacéuticas.
Objetivos
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Patients on Twitter
Spanish patient Forums
Aplicaciones. TrendMiner
Fuentes analizadas
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Aplicaciones. TrendMiner
§ Ejemplo de comentario en Forumclinic
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Spanish DrugEffect DB containing relations among drugs and effects
63.000 relations
Aplicaciones. TrendMiner
Recursos integrados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Collecting texts from Twitter & Blogs
Datawarehouse
Health monitoring Dashboard
GATE Annotation Pipeline
Analytics Processing
Gatherer processes
Real-time visualization
Inquirer processes Spanish
Drug Effect
Database
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Datos agregados de los efectos del fármaco lorazepam
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Línea temporal con la evolución de los fármacos y eventos mencionados con el lorazempan
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
§ ¡¡Datos!! • Acceso a los datos para los no médicos • Anonimización (Proyecto Visc+) • Estandarización • Propiedad de la información • Compartición de conjuntos de datos
§ Veracidad/confiabilidad de los datos
§ Aplicaciones dirigidas por los usuarios (médicos y pacientes)
§ Integración de sistemas aislados • Dispersión en diferentes hospitales, centros de salud, …
Retos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
¡Gracias por vuestra atención! José Luis Martínez Fernández Socio Director de Daedalus S.A. Profesor Asociado Universidad Carlos III de Madrid [email protected] Daedalus, S.A. Tel: +34 913324301 [email protected] http://www.daedalus.es @daedalus_sa
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Bibliografía
§ Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification algorithms. In Mining text data (pp. 163–222).
§ El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015
§ Europeans becoming enthusiastic users of online health information, EU report, 2014
§ María Herrero Zazo, Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de Madrid, Departamento de Informática, 2015
§ Martínez,P., Nuevo sistema para detectar efectos adversos de los medicamentos usando redes sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid
§ Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge. Journal of Cheminformatics, 7(Suppl 1):S1 (2015)
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
Bibliografía
§ Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population, Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, Pages 107-127
§ Monitorización de la alergia en Twitter, Fundación Telefónica, 2015 § Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider,
(2015). Exploring Spanish Health Social Media for detecting drug effects, BMC Medical Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement S2, Páginas: doi:10.1186/1472-6947-15-S2-S
§ Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez Fernández, (2014).TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53, Páginas: 163-166