10
La potencia de las estrategias de Machine Learning en la lucha contra el fraude Madrid, 12 de Abril, 2016

La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Embed Size (px)

Citation preview

Page 1: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

La potencia de las estrategias de Machine Learning en la lucha contra el fraude Madrid, 12 de Abril, 2016

Page 2: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Organización e Infraestructuras para el fraude

• Triangulación nociva• Phishing• Pharming• Botnets• Brechas de seguridad• Reshipping• Robo de identidad• Account takeover• …..

Los procesos que soportan un intercambio de valor conllevan inevitablemente riesgo. La actuación ha de ser activa, reactiva y soportada por estudios posteriores de los diferentes casos. Los modelos predictivos permiten hacer uso de información relevante para discriminar conductas legales de ilegales.

Page 3: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

¿Cómo se genera una predicción?

Limpieza/Adecuación de datos

Recogida de datos en “crudo” (RAW)

Transformación y Feature Engineering

Modelización

Aprendizaje y entrenamiento del modelo

Evaluación de la calidad de las predicciones

20%

80%

Esfuerzo Valor

Page 4: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Analytics

Insigth

Decision-making

Hay que “balancear” adecuadamente los datos y los algoritmosLa calidad y cantidad de los datos es más importante que los algoritmos:

• Un buen algoritmo con unos datos de poca calidad ofrecerá un rendimiento bajo.

• Por el contrario, unos buenos datos, con el volumen suficiente y organizados eficientemente, pueden generar un rendimiento razonablemente bueno aunque el algoritmo no sea óptimo.

El proceso de ingeniería de factores (feature engineering) es clave

Eliminar el ruido y fortalecer la señal:• Seleccionar los elementos estrella en la predicción y eliminar

los que no sirven• Organizar adecuadamente cada elemento para que el modelo

no reciba información que no le es útil provocando predicciones de poca calidad o confianza.

Todo el proceso debe ser sistematizado y automatizadoLa sistematización y automatización del proceso de decisión permite maximizar su calidad en el corto plazo y garantizar su sostenibilidad en el medio/largo plazo.

El proceso sistemático de decisión

Page 5: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Generar conocimiento de toda la información contenida en las transacciones de intercambio de valor.

Hacer utilizable la información aflorada de cada elemento de la transacción.

Formalizar el problema

Preparación de variables

Estudio de variables

Creación de variables

Ranking / Filtrado

variables

Modelización

Test / Validación

Mejora continua

Permiten determinar la capacidad “discriminante” de cada uno de los elementos de las transacción de intercambio de valor.

Discriminante

No discriminante

Machine Learning. Sistemática en el caso Fraude.

Page 6: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Formalizar el problema

Preparación de variables

Estudio de variables

Creación de variables

Ranking / Filtrado

variables Modelización Test /

ValidaciónMejora

continua

Machine Learning. Sistemática en el caso Fraude.

Procedimiento que permite conocer el rendimiento teórico de cada elemento de un modelo.

Se valida experimentalmente cada medida de “rendimiento teórico”. Se establece un marco de referencia para comparar elementos y poder identificar

los que arrojan un mejor rendimiento.

Page 7: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Formalizar el problema

Preparación de variables

Estudio de variables

Creación de variables

Ranking / Filtrado

variables Modelización Test /

ValidaciónMejora

continua

Un número alto de variables (primarias o pares) hace inviable el ataque por fuerza bruta

Para optimizar el proceso y dotarlo de viabilidad nos apoyamos en la teoría de la evolución y aplicamos algoritmos genéticos.

Aplicando métodos de pruning sobre los histogramas, que permiten la eliminación de información superflua y dotar de viabilidad computacional a la estimación de distribuciones conjuntas.

Caso real de fraude, utilizando distribuciones conjuntas de tres variables, con resultados que suponen un salto cualitativo en los niveles de detección y precisión.

¿Cómo seleccionamos los mejores modelos?

Page 8: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Machine Learning. Detección de Fraude.

Auth

CA

NA

LES

- AD

QU

IREN

CIA

e-commerce

POS

ATM

OFICINASMismo número de alertas se detecta el triple y se triplica la precisión (Eficiencia).

Profundidad % Recall % Precision %0.7292109 28.65613 4.275566 Mismo número de aciertos se analizan 10 veces menos alertas (Optimización coste).

Profundidad % Recall % Precision %0.07341954 9.378369 13.89776

Tiempo Real

Page 9: La potencia de las estrategias de Machine Learning en la lucha contra el fraude
Page 10: La potencia de las estrategias de Machine Learning en la lucha contra el fraude

Proyectando juntos el futurowww.tecnocom.es

Contacto: José María Alcoleaemail: [email protected]

Insertar Lugar. Fecha (00.00.00)