Upload
julio-cruz
View
216
Download
0
Embed Size (px)
Citation preview
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
1/35
TÉCNICAS DE MINERÍA
DE DATOS PARA LA DETECCIÓN Y PREVENCIÓNDEL LAVADO DE ACTIVOS
Y LA FINANCIACIÓNDEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
2/35
/1
/1
2014
Técnicas de minería de datospara la detección y prevencióndel lavado de activos y la financiacióndel terrorismo (LA/FT)
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
3/35
/2
DIRECTOR GENERAL
EQUIPO DE PRODUCCIÓN
Esta publicación fue realizada por la Unidad deInformación y Análisis Financiero (UIAF), UnidadAdministrativa Especial adscrita al Ministerio de
Hacienda y Crédito Público.
Unidad de Información y Análisis FinancieroLuis Edmundo Suárez Soto
Unidad de Información y Análisis FinancieroEste documento fue desarrollado por servidores
públicos de la UIAF, con el soporte de un equipo in-terno de coordinación editorial y bajo la direccióndel Director General y el Subdirector de Análisis Es-tratégico.
CORRECCIÓN DE ESTILO, DISEÑO,
DIAGRAMACIÓN E IMPRESIÓN
García Solano y Compañía SAS - Caliche ImpresoresImpresores Molher LTDA
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
4/35
/3
ISBN:978-958-58578-5-8
Primera edición© 2014, UIAF
De acuerdo con lo previsto en el Artícu-lo 91 de la Ley 23 de 1982, los derechos
de autor del presente documento per-tenecen a la Unidad de Información yAnálisis Financiero (UIAF).
Queda prohibida cualquier repro-ducción, parcial o total, del con-tenido de este documento sin laautorización previa y escrita de la
UIAF. Los análisis contenidos sonde carácter general y no hacen re-ferencia ni constituyen prueba so-bre vínculos ciertos y permanentesde individuos con actividades aso-ciadas al lavado de activos y finan-ciación del terrorismo.
La UIAF no se responsabiliza por eluso (acción u omisión) que hagacualquier persona o grupo de per-sonas de la información (total oparcial) contenida en el texto.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
5/35
/4
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
6/35
/5
T A B L A
D E C
O N T E N
I D O
CONCLUSIONES
pag 30
3pag 20
APLICACIÓN DE TÉCNICASDE MINERÍA DE DATOS PARA LADETECCIÓN Y PREVENCIÓN DEL LA/FT
2 pag 13PROCESO DE GENERACIÓN DECONOCIMIENTO O KDD
EL MODELO SAB Y LA MINERÍA DEDATOS1
pag 10
INTRODUCCIÓN
pag 8
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
7/35
/6
“Puedes utilizar todos los datos cuantitativos a tu alcance; aun así, debesdesconfiar de ellos y utilizar tu propia inteligencia y juicio” (Alvin Toffler,escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).
TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN
DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN
DEL TERRORISMO (LA/FT)
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
8/35
/7
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
9/35
/8
I N T
R O D U C
C I Ó N
El lavado de activos consiste enocultar, manejar, invertir o apro-vechar, en cualquier forma, dine-
ro u otros bienes provenientes deactividades delictivas, o para darapariencia de legalidad a las tran-sacciones y fondos vinculados conlas mismas, actividad que con eltiempo ha trascendido del sectorfinanciero a diferentes entornosde la economía, donde contami-na y desestabiliza los mercados,poniendo en riesgo los pilares eco-nómicos, políticos y sociales de lademocracia (Blanco, 1997).
La inteligencia financiera y econó-mica juega un papel fundamental
en ese contexto, dado que a travésdel análisis y conocimiento queproduce, busca prevenir y detectarmuchas de las actividades ilícitasantes descritas y, así mismo, con-tener sus impactos. Ante un cre-ciente volumen de información porcentralizar y estudiar, y en aras de
desempeñar una labor más efec-tiva, se hace necesario empleartécnicas de análisis de datos máscomplejas y dinámicas a la esta-dística, para lograr, finalmente, laextracción de conocimiento noimplícito. Concretamente, se trata
de herramientas como la minería
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
10/35
/9
de datos, la cual apoya el procesode Knowledge Discovery in Data Ba-
ses (KDD), que consiste en analizargrandes volúmenes de datos para
generar conocimiento útil a favorde la toma de decisiones.
El objetivo de este documento espresentar las principales técnicasde minería de datos (MD) utilizadaspara describir, clasificar y detectar
irregularidades a partir de la crea-ción de perfiles “normales” tran-saccionales, facilitando el hallaz-go de patrones o reglas generales(incluye métodos de agrupación)en el registro histórico de las tran-sacciones. En contraste, los proce-dimientos de predicción describen
las proyecciones obtenidas a partirde diversas metodologías1 parapronosticar el comportamientofuturo de las transacciones reali-zadas. En la actualidad se utilizanlas siguientes: Redes Neuronales,Árboles de Decisión y Bayes; asímismo, se emplean sistemas deaprendizaje autónomo para reco-nocimiento de patrones que par-ten de eventos históricos.
Este documento consta de cuatrosecciones: primero, una contex-tualización sobre la aplicación de
técnicas de minería de datos2
en el
desarrollo tecnológico de la UIAF,desde la implementación del mo-delo de gestión Sistémico, Amplioy Bidireccional (SAB), en los últi-
mos casi cuatro años; continúa,con una presentación del procesode generación de conocimientoKDD, que abarca desde la obten-ción de información hasta la apli-cación del conocimiento adquiridopara la toma de decisiones, segui-
da por una explicación de la apli-cación de técnicas de minería dedatos para la detección y preven-ción del lavado de activos (LA) y lafinanciación del terrorismo (FT); y,finalmente, ofrece unas conclusio-nes generales.
1 Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,
Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.2 Para conocer el contexto histórico de la minería de datos, consultar, (2014) Aplicabilidad de la Minería de Datos y el Análisis de Redes Sociales en la Inteligencia
Financiera. Bogotá: Unidad de Información y Análisis Financiero.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
11/35
/10
EL MODELO SAB
01Y LA MINERIA DE DATOS
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
12/35
/11
Con el diseño y aplicación en laUIAF del modelo de gestión Sis-témico, Amplio y Bidireccional
(SAB)3, se han potencializado lascapacidades de análisis y respues-ta del Sistema Nacional Antilavadode Activos y Contra la Financiacióndel Terrorismo (ALA/CFT). En parti-cular, su componente “Amplio”, alincorporar nuevas fuentes de infor-
mación, propende por la creaciónde más y mejores sensores queaporten datos sobre la evoluciónde las diferentes actividades eco-nómicas en el país, requiriendo, asímismo, una mayor capacidad deanálisis.
En este contexto, bajo el mode-lo SAB, la UIAF crea la Plataformade Inteligencia Económica (PIE),basada en un conjunto de hard-ware y soware, que se potencia-liza gracias a la integración de unequipo humano con las capacida-
des necesarias para utilizar estasherramientas, implementandometodologías provenientes de lasMatemáticas, Estadística, Econo-mía, Finanzas y otras ciencias, conel fin de mejorar el entendimientode la amenaza y producir mejoresresultados en el Sistema ALA/CFT.
En particular, las herramientas deminería de datos, objeto de estedocumento, facilitan la identifica-
ción de patrones y tendencias. Asímismo, permiten identificar tran-sacciones atípicas, posiblementerelacionadas con los delitos men-cionados.
La aplicación de estas técnicas le
ha permitido a la UIAF optimizartiempo y recursos en el desarrollode la inteligencia financiera y, prin-cipalmente, robustecer la informa-ción y análisis que produce en apo-yo a las autoridades competentes,(como fuerzas del orden, FiscalíaGeneral de la Nación), entre otros
agentes, de acuerdo con las posi-bilidades y restricciones legales decada uno. Lo anterior reafirma elcarácter Amplio y Bidireccional delmodelo SAB, al fortalecer la articu-lación entre los agentes del siste-ma, para mejorar la efectividad de
sus resultados.
La estructura del modelo SAB, des-de la perspectiva de la recoleccióny procesamiento de información,se resume en la Figura 1; tener estecontexto presente, ayudará a ilus-trar la utilidad de las técnicas de
minería de datos abordadas en el
3 Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda
edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
13/35
/12
presente documento, el cual buscaofrecer una perspectiva detalladasobre la aplicación de las mismas yservir como punto de referencia deespecialistas del sistema nacionale internacional ALA/CFT (especial-
mente, pero no exclusivamente,otras Unidades de Inteligencia Fi-nanciera - UIF), para quienes el co-nocimiento aquí desarrollado pue-
de aportar a sus propias labores yefectividad.
Figura 1. Modelo SAB –recolección, manejo y procesamiento de información
*Volumen
*Velocidad
*Variedad*Veracidad
Reportantes
*Entidades del estado
*Gremios*Organismos internacionales
*Centros académicos
Base de Datos
Politemáticas
Más y Mejores
Sensores
Inteligencia
Financiera y
Económica
Plataforma de
Inteligencia
Económica
*Análisis financiero
*Análisis económico
*Análisis matemáticoy Estadístico
*Análisis visual
*Entender el Pasado*Monitorear el Presente
*Anticipar el Futuro
Mejoras en la Calidad de dos Reportes:
Crecimiento Continuo del Sistema ALA/CFT
Más Capacidades
de Detección y
Judicialización:
Mejores
Resultados
Mejor
Entendimiento de
la Amenaza
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
14/35
/13
PROCESO
DE GENERACIÓN
02DE CONOCIMIENTO O KDD
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
15/35
/14
El proceso de Knowledge Disco-very in DataBases (KDD) surte cua-tro pasos para la generación de
conocimiento. Estas etapas pue-den ser recursivas, es decir, que seretorna a ellas una y otra vez (pro-ceso iterativo) a medida que se ob-tienen resultados preliminares querequieren replantear las variablesiniciales.
A continuación se expone una for-ma de representar el proceso quepuede ser empleado por cualquier
unidad de inteligencia financierapara la generación de conocimien-to sobre posibles operaciones deLA/FT (ver Figura 2).
Figura 2. Proceso de KDD
Bases de datos
Nueva
base de datos
Selección deatributos
Datos
Preprocesados
Datos
Transformados
Patrones
Generación
de conocimiento
Limpieza base
de datos
Selección
Procesamiento
Transformación
Minería
de datos
Interpretación y
resultados
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
16/35
/15
En adelante se describen cada unade las etapas del proceso.
Es la etapa más dispendiosa (re-quiere cerca del 90% del tiempo),como se describe en Fayyad et. al.
(1996), ya que consiste en la reco-lección y preparación de los datos.En este proceso se comprende laproblemática asociada a la basede datos y se establecen objetivos.A la vez, se identifican las variablesque serán consideradas para laconstrucción del modelo de mine-
ría de datos (MD).
De acuerdo con el origen de cadatabla(s) de datos, se establece elmecanismo que se utilizará paraextraer la información requeridapor el modelo; también incide laopinión del experto, quien pue-de sugerir las series que explicanparcialmente la variable objetivo(clase).
Integración de datos: Seanaliza si la base de datos requiereincluir o integrar información o va-
riables que reposan en otras basesde datos, y que será relevante parael modelo de minería de datos. Sies necesario, se realiza un modelode entidad-relación entre tablas,el cual permite representar las en-tidades relevantes (representacio-nes gráficas y lingüísticas) de un
sistema, así como sus propiedadese interrelaciones (Ávila, 2005).
Reconocimiento y lim-pieza: Se depura el conjunto dedatos respecto a valores atípicos,faltantes y erróneos (eliminaciónde ruido e inconsistencias).
1. Selección de losdatos
2. Pre procesa-miento de datos
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
17/35
/16
Exploración y limpiezade datos: Aplicando técnicas deanálisis exploratorio de datos (es-tadístico, gráfico, entre otros), sebusca identificar la distribuciónde los datos, simetría, pruebas de
normalidad y correlaciones exis-tentes entre los datos. En estaetapa es útil el análisis descriptivodel conjunto de datos (clustering y segmentación, escalamiento, re-glas de asociación y dependencia,reducción de la dimensión), iden-tificación de datos nulos, ruido y
outliers, así como el uso de matri-ces de correlación (si las variablesson numéricas), diagramas (barras,histogramas, caja y bigotes), entreotras técnicas adecuadas de mues-treo.
Transformación:
Se es-tandariza o normaliza la infor-mación (colocarla en los mismostérminos de formato y forma). Laselección de la técnica a aplicar de-penderá del algoritmo que se utili-zará para la generación de conoci-miento. Las técnicas comúnmente
utilizadas son: discretización, esca-
lado (simple y multidimensional) yestandarización.
Reducción de datos: Se
disminuye el tamaño de los datosmediante la eliminación de carac-terísticas redundantes.
Selección/extracción de atributos:Se realiza un proceso de identi-ficación y selección de variables
relevantes. Entre las técnicas másutilizadas para este proceso se en-cuentran, métodos basados en fil-tros y en wrappers (seleccionan losatributos en función de la calidaddel modelo de MD asociado a losatributos utilizados).
Construcción de atributos:En caso que los datos se encuen-tren asociados a patrones comple-
jos, se construye un atributo sen-cillo que facilite la interpretacióndel algoritmo. Se puede recurrir adiferentes técnicas, como la cons-trucción guiada por los datos, elmodelo o el conocimiento; finalizacuando se han analizado y selec-cionado las técnicas de extracciónde conocimiento que mejor seadapten al lote de datos.
3. Selección decaracterísticas
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
18/35
/17
La minería de datos según Esteban(2008) et. al. (1991 / 1995), se puededefinir como un proceso no trivialde identificación válida, novedosa,potencialmente útil y entendiblede patrones comprensibles que se
encuentran ocultos en los datos,que a su vez, facilita la toma dedecisiones y emplea técnicas deaprendizaje supervisado y no-su-pervisado. En la fase se define eltipo de investigación a realizar deacuerdo con las característicasde los atributos que conforman la
base de datos, que pueden ser detipo descriptivo4 y/o predictivo. Elsiguiente paso es la elección y apli-cación de métodos de extracciónde conocimiento y la selección demedidas de validación para eva-luar el rendimiento y la precisióndel(os) método(s) escogido(s) porel analista de MD.
A continuación se presentan lastécnicas empleadas, las cualespueden ser de tipo supervisado ono supervisado.
• Identificación: Eviden-ciar la existencia de objetos, even-tos y actividades en el conjunto dedatos (análisis factorial, discrimi-
nante, regresivo, de correlaciones).
• Clasificación: Particionarlos datos de acuerdo a las clases oetiquetas asignadas al conjunto dedatos (ej: tablas de decisión, reglasde decisión, clasificadores basados
en casos, redes neuronales, clasifi-cadores bayesianos y clasificado-res basados en acoplamientos).
• Agrupación: Permitir lamaximización de similitudes y mi-nimización de diferencias entreobjetos, mediante la aplicación de
algún criterio de agrupación.
• Asociación: Tener pre-sente que las reglas de asociaciónbuscan descubrir conexiones exis-tentes entre objetos identificados.
• Predicción: Descubrir elcomportamiento de ciertos atribu-tos en el futuro. (Regresión y seriestemporales, análisis discriminante,métodos bayesianos, algoritmosgenéricos, árboles de decisión, re-des neuronales).
4 Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.
4. Mineríade Datos
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
19/35
/18
El proceso más importante en mi-nería de datos es el proceso delimpieza de los datos y definiciónde las variables. Si los datos no son
correctos el modelo creado no ser-virá. Del mismo modo, la validez delos patrones descubiertos depen-de de cómo se apliquen al mundoreal o a las circunstancias. Aunqueintegra el conocimiento de dife-rentes fuentes como la Biología,
Matemáticas, Estadística, CienciasSociales, entre otras, la minería dedatos presenta diferencias impor-tantes, por ejemplo, respecto a laestadística, la cual plantea una hi-pótesis y usa datos para probarlao refutarla. La eficacia de este en-foque se ve limitada por la creati-
vidad del usuario para desarrollarlas diversas hipótesis, así como porla estructura del soware que uti-liza; por el contrario, la minería dedatos emplea una aproximaciónde descubrimiento para examinarsimultáneamente varias relacionesen bases de datos multidimensio-nales, identificando aquellas quese presentan con frecuencia (2008).
Se analizan los resultados de lospatrones obtenidos en la fase deMD, mediante técnicas de visuali-zación y de representación, con elfin de generar conocimiento queaporte mayor valor a los datos. En
esta fase se evalúan los resultadoscon los expertos y, si es necesario,se retorna a las fases anteriorespara una nueva iteración. Las ac-tividades mencionadas anterior-mente se resumen en la Figura 3.
5. Interpretación yResultados
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
20/35
/19
Figura 3. Proceso de generación de conocimiento automático
Selección de
técnicas deMD:
Det. Algoritmica yanálisis de
resultados parciales.
Integración
reconocimiento ylimpieza de datos
(analisis exploratorioy estadístico)
Consolidación de
conocimiento -Patrones de
conocimiento
Despliegue
Resultados deData-set
vs. algoritmos de
validación (crossvalidation, split
validation, otros)
Evaluación
Transformación de
datos (discretizacion,normalización otros
depende del conjuntode datos)
Comprensión yanalisis de
información
Reducción de datosEliminación de datos
redundantes, selección
de atributos, clases yconjuntos.
Construcción deatributos.
Modelación
Preprocesamiento
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
21/35
/20
03PARA LA DETECCIÓN Y PREVENCIÓNDEL LA/FT
APLICACIÓN DE TÉCNICAS
DE MINERÍA DE DATOS
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
22/35
/21
Durante la última década, elcrecimiento de las bases de datos(BD) ha traído consigo la dificul-
tad para analizar la información, loque ha llevado a desarrollar herra-mientas de análisis cada vez mássofisticadas y potentes que per-mitan la exploración y análisis deinformación, generando patronesde conocimiento no trivial válidos,útiles y comprensibles. Uno de es-tos casos es el de la informaciónrespecto a actividades criminalescomo el tráfico de drogas, sobornoy contrabando, delitos que gene-ran cuantiosas ganancias y derivanen un alto volumen de transaccio-nes, realizadas con un creciente
nivel de complejidad para escon-der el origen ilícito de los recursos,dificultando así la detección de losentes de control. En este sentido, diversos países de-sarrollados han avanzado significa-tivamente en emplear sistemas de
monitoreo online para la detecciónde operaciones de lavado de acti-vos y financiación del terrorismo(LA/FT). El Financial Artificial Inte-lligence System (FAIS) del FinancialCrime Enforcement Network (Fin-CEN) de Estados Unidos, integra el
criterio de expertos con herramien-
tas tecnológicas para identificaroperaciones potencialmente rela-cionadas con LA, configurando asíun sistema antilavado automático
(ALM) (Senator et. al., 1995), el cualse entiende como una inversión alargo plazo para prevenir el ingresode dinero de origen ilícito a la eco-nomía legal.
Varias técnicas de aprendizaje au-
tomático han sido implementa-das para la detección de fraude yde lavado de activos, cuya tasa declasificación ha sido alta (verda-deros positivos y falsos positivosbajos), comparados con técni-cas tradicionales (Maimon et.al.,2003/2007/2010).
Tomando el caso de los SistemasAntilavado de Activos y Contra laFinanciación del Terrorismo (ALA/CFT), los procedimientos aplicadosmás conocidos son:
• Algoritmos de agrupa-ción: También denominados pro-cedimientos de clustering, buscangenerar nuevos conjuntos a partirde los datos analizados, tales quelos individuos en un mismo gruposean lo más parecidos posible yque, simultáneamente, cada grupo
sea lo más diferente posible. Estos
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
23/35
/22
métodos trabajan con la distanciaque hay entre cada elemento y elcentro de cada uno de los grupos,asignando el individuo al grupo al
cual se encuentre más cerca.
La complejidad de estos algorit-mos radica en la definición de uncriterio para establecer distanciaso similitudes y el procedimientorecursivo que se sigue para confor-
mar cada uno de los grupos hastasatisfacer los criterios establecidos.Entre estos métodos se encuen-tran los jerárquicos, de partición,basados en densidades, modelos ycuadrículas y los computacionales(Maimon y Rokach, 2010). Ejemplo:para la detección de outliers. Sin
embargo, estos métodos no pue-den identificar tendencias de com-portamiento sospechoso.
• Reglas de asociación: Examinan todas las posibles com-binaciones de características con-tenidas en una base de datos ydeterminan la probabilidad deconfiguración de estos rasgos.Ejemplo: un individuo se puededefinir de acuerdo con el tipo depersona (natural o jurídica), sectoreconómico, grupo de frecuencia detransacciones y relación con una
investigación de inteligencia eco-
nómica. Las reglas de asociaciónevalúan todas las posibles combi-naciones de estas característicasy determinan las configuraciones
más probables (Maimon y Rokach,2010).
Los modelos predictivos de MDbuscan obtener los valores adqui-ridos por una variable de interésen situaciones no observadas (ej:
el futuro), en función de los valoresque toman otras series relaciona-das. En el contexto de la lucha ALA/CFT, este tipo de algoritmos permi-te establecer los comportamientosdel individuo relacionados con su
judicialización por una actividaddelictiva, o su inclusión en un caso
de inteligencia financiera o reportede operación sospechosa (ROS). Acontinuación se describen algunosmétodos principales:
• Árboles de decisión: Unárbol de decisión es un modelo declasificación que divide un conjun-to de análisis, buscando el mayorgrado de pureza entre los gruposresultantes5 . En todo árbol hay unnodo inicial denominado raíz, quecontiene la totalidad de la informa-ción. Este grupo se subdivide endos o más grupos denominados
como internos, si continúan sub-
5 Pureza se entiende como la presencia representativa de una de las características que toma la variable de interés (junto con la participación insignificante
de la otra categoría).
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
24/35
/23
dividiéndose, o terminales u hojas,si no enfrentan más segmentación(Maimon y Rokach, 2010).
En un árbol de clasificación cadanodo interno se parte de acuerdoa una función discreta sobre lasvariables utilizadas para el análisis,hasta llegar a los nodos termina-les donde se tiene la proporciónde individuos ubicados en cada
6 Dependiendo del lenguaje de desarrollo empleado para la construcción del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que
J48 fue desarrollado en Java.
una de las categorías que toma lavariable de interés. Se dispone devarios algoritmos para la genera-ción de árboles de decisión, entre
los cuales se cuentan ID3 (intro-ducido por Quinlan en 1986), C4.5o J486 , CART, CHAID Random Treey QUEST (Safavin y Landgrebe,1991). En la Figura 4 se presenta unejemplo de la aplicación del C4.5.
Figura 4. Ejemplo de aplicación de C4.5
a4
a3
a3
a4
a3
Iris-setosa
Iris Versicolor
Iris Virginica
Iris Virginica
Iris Virginica
> 1.750
< 1.750
> 2.450 < 2.450
> 5.350
< 5.350
> 4.950
> 1.550 < 1.550
< 4.950
Iris Versicolor
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
25/35
/24
• Redes neuronales arti-ficiales (RNA): Son un sistemade aprendizaje y procesamientoautomático inspirado en la forma
como funciona el sistema nervio-so animal, que parte de la interco-nexión de neuronas que colaboranentre sí para generar un resultado.Esta salida o resultado proviene detres funciones (Maimon y Rokach,2010):
1. Propagación (función de excita-ción): Es la sumatoria de cada en-trada multiplicada por el peso desu interconexión (valor neto). Si elpeso es positivo, la conexión se de-nomina excitatoria, y si es negativo,se denomina inhibitoria.
2. Activación (modifica a la fun-ción anterior): su existencia no esobligatoria, siendo en este caso lasalida, la misma función de propa-gación.
3. Transferencia: se aplica al valordevuelto por la función de activa-ción. Se utiliza para acotar la sali-da de la neurona y generalmenteviene dada por la interpretaciónque se desee dar a dichas salidas.Algunas de las más utilizadas sonla función sigmoidea (para obte-
ner valores en el intervalo [0,1]) y la
tangente hiperbólica (para obtenervalores en el intervalo [-1,1]).
Las RNA usualmente implemen-
tadas dependen del patrón de co-nexiones que representan. Existenvarias formas de clasificarlas. Portopología se definen dos tipos bá-sicos:
1. Feed-forward Neural Net (FNN):
Redes de propagación progresivaso acíclicas, en las que las señalesavanzan desde la capa de entradahacia la salida, sin presentar ciclosni conexiones entre neuronas dela misma capa. Pueden ser de dostipos: monocapa (ej. perceptrón,Adaline) y multicapa (ej. Percep-
trón multicapa. Ver Figura 5).
2. Recurrent Neural Network (RNN): Redes neuronales recurrentes, quepresentan al menos un ciclo cerra-do de activación neuronal (ej. El-man, Hopfield, máquina de Boltz-mann).
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
26/35
/25
Figura 5. RNA perceptrón multicapa
Una segunda clasificación es enfunción del tipo de aprendizaje:
1. Supervisado: Requieren un con- junto de datos de entrada previa-mente clasificado. Tal es el casodel perceptrón simple, la red Ada-line, el perceptrón multicapa, redbackpropagation, y la memoriaasociativa bidireccional.
2. No supervisado o autoorganiza-do: No necesitan de un conjuntopreviamente clasificado. Tal es elcaso de las memorias asociativas,las redes de Hopfield, la máqui-na de Boltzmann y la máquina deCauchy, las redes de aprendizajecompetitivo, las redes de Koho-nen o mapas autoorganizados ylas redes de resonancia adaptativa
(ART).
12
m
1
1
3
n
Entrada 1
Capa de
entrada
Capa
oculta
Capa de
salida
Entrada 2
Entrada 3
Salida
Entrada n
2
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
27/35
/26
3. Redes híbridas: Son un enfoquemixto en el que se utiliza una fun-ción de mejora para facilitar la con-vergencia. Ej: redes de base radial.
4. Reforzado: Se sitúa a medio ca-mino entre el supervisado y el au-toorganizado.
Una tercera clasificación está enfunción del tipo de entrada:
1. Redes analógicas: Procesan da-tos de entrada con valores conti-nuos que normalmente son aco-tados. Ej. Hopfield, Kohonen y lasredes de aprendizaje competitivo.
2. Redes discretas: Procesan datos
de entrada de naturaleza discre-ta (habitualmente valores lógicosbooleanos). Ej: máquinas de Boltz-mann y Cauchy, y la red discreta deHopfield.
• Naive Bayes: Este tipo dealgoritmo comparte elementos dela biología, inteligencia artificialy estadística. Están definidos porun grafo donde existen nodos querepresentan variables aleatorias
junto con sus enlaces, los cualeshacen referencia a dependenciasentre las mismas. El éxito de las
redes bayesianas se debe a su ha-
bilidad para manejar modelos pro-babilísticos complejos al descom-ponerlos en componentes máspequeños y digeribles. Se utilizan
para investigar relaciones entrevariables y para predecir y explicarsu comportamiento al calcular ladistribución de probabilidad con-dicional de una variable, dados losvalores de otras series de interés(Maimon y Rokach, 2010).
• Máquinas de soportevectorial (MSV): Son un conjun-to de algoritmos de aprendizajesupervisado, relacionados conproblemas de clasificación y regre-sión. En este contexto, el aprendi-zaje se relaciona con la estimación
de funciones a partir de un conjun-to de entrenamiento, que permi-te etiquetar las clases y entrenaruna MSV para construir un mo-delo que prediga la clase de unanueva muestra. La MSV construyeun hiperplano(s) en un espaciohiperdimensional de máxima dis-tancia respecto a los puntos queestén más cerca del mismo. Estosmodelos están estrechamente re-lacionados con las RNA e incorpo-ra la función de Kernel (ej. radial,polinomial, neural, anova, epach-nenikov, combinación gaussiana y
multicuadrática). Ver Figura 6.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
28/35
/27
Las MSV y las RNA obtienen un me- jor resultado pero su costo com-putacional es muy alto, lo que sesuma a la complejidad asociada a
su interpretación y al entrenamien-to requerido para obtener un buenresultado (LiuXuan, 2007; ShijiaGao, 2007; Shijia Gao y HuaiqingWang, 2006). A continuación, uncomparativo entre las RNA y MSV(ver tabla 1):
Figura 6. MSV
Tabla 1
Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006
H i p e r p l a n o Ó p t i m o
Margen
máximo
x
x
RNA MSV
Las capas ocultas transforman aespacios de cualquier dimensión.
Kernels Transforma a espacios dedimensión muy alta.
El espacio de búsqueda tiene
múltiples mínimos locales.
El espacio de búsqueda tiene
un mínimo global.
El entrenamiento es costoso. El entrenamiento esaltamente eficiente
Se establece el número de nodos
y capas ocultas.
Se diseña la función de kernel y el
parametro de coste C.
Alto funcionamiento enproblemas típicos.
Muy buen funcionamiento en pro-blemas tipicos.
Extremadamente robusto para gene-
ralización.Menos necesidad de emplear heurís-
ticos en el entrenamiento.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
29/35
/28
Yang, 2007), para dar mayor clari-dad al uso de las herramientas deminería de datos en la detecciónde operaciones de LA o FT. Los
autores emplean el método de ár-boles de decisión para obtener re-glas que determinen el riesgo quetienen los diferentes tipos de clien-tes, de un banco comercial en undeterminado país, de estar involu-crados en una operación de lavado
de activos7
. Los datos utilizadoscorresponden a una muestra alea-toria de 28 individuos provenientesde un universo de 160 mil clientes,para los cuales se utilizan cuatro de52 variables disponibles: industria,localización, tamaño del negocio yproductos abiertos con el banco.
Las categorías de cada variable secalifican en tres niveles de acuerdocon el riesgo de LA que percibenlos gerentes de oficina: L (riesgobajo), M (riesgo medio) y H (riesgoalto). Por ejemplo, para la variableindustria:
• Reglas de inducción:Considerando que los patronesocultos en grandes bases de datossuelen expresarse como un conjun-
to de reglas, aquellas de inducciónse adaptan a los objetivos de la MDaun cuando son una de las técni-cas más representativas del apren-dizaje de máquina. Aquí, una reglasuele consistir de instrucciones deltipo Si (característica 1, atributo 1)
y Si (característica 2, atributo 2) y… y Si (característica n, atributo n) en-tonces (decisión, valor), aunque sepueden encontrar reglas más com-plejas. La información utilizada poreste algoritmo es de carácter cate-górico, lo cual facilita en gran me-dida el procesamiento de los datos
y el entendimiento de los resulta-dos. Los algoritmos utilizados porlas reglas de inducción son LEM1,LEM2 y AQ.
A continuación se documentan losresultados presentados en (Wang y
/ Este enfoque difiere de otros más tradicionales donde el análisis se centra en las transacciones.
Tabla 2
Industria Riesgo LA
Manufacturera L
Química L
Comercio doméstico M
Medicina M
Tecnología M
Comercio internacional H
Comercio al por menor H
Publicidad H
Venta de Automóviles H
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
30/35
/29
Los autores utilizan el algoritmoID3 sobre una muestra de entrena-miento de 21 individuos y pruebanla validez de los resultados sobre
los 7 individuos restantes. La repre-sentación gráfica de los resultadosobtenidos es la que se muestra enla Figura 7. En este caso, se eviden-cia que la industria es la variablemás relevante en la determinacióndel riesgo de LA del cliente (se ubi-
ca al principio del árbol de deci-sión), seguida por localización ytamaño del negocio.
Al observar el árbol de decisión seobserva que los clientes que per-
tenecen a una industria con bajoriesgo de LA (rama marcada comoL originada en industria, número 1en la figura) y una localización con
bajo o mediano riesgo (ramas mar-cadas como L y M, números 2 y 3en la figura) tienen un bajo riesgode estar involucradas en LA. Porel contrario, un individuo de unaindustria con alto riesgo (ramamarcada como H originada en in-
dustria, número 1 en la figura) ytamaño de bajo riesgo (rama mar-cada como L originada en tamañodel negocio, número 4 en la figura),en realidad tienen un alto riesgo deLA.
Figura 7. Resultados presentados en Wang y Yang, 2007.
Bank
products
Location
Bank
products
Bussines SizeBussines Size
Industry
Location
1
L M H
L M HL M H
L M H
H
L
L
M
M
H
L M H
2 3 4
High Middle High
High High
Low
LowLow
Middle MiddleMiddle Middle
MiddleMiddleMiddle
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
31/35
/30
C O N C L U S I O
N E S
Dado el incremento del volumende la información reportada a lasUnidades de Inteligencia Finan-ciera (UIF) y la complejidad de su
análisis, son fundamentales lasherramientas computacionalesrobustas, que permitan extraer co-nocimiento no trivial y faciliten laidentificación de señales de alertay construcción y seguimiento deperfiles por sector, respecto a ca-
sos atípicos u outliers.
Específicamente, los resultadosobtenidos mediante la selección yaplicación de técnicas de mineríade datos pueden contribuir al pro-ceso de toma de decisiones en en-tidades especializadas en preven-
ción, detección y/o administracióndel riesgo de LA/FT.
Experiencias nacionales e interna-cionales demuestran que la adop-ción de técnicas de minería de da-tos para la prevención y detecciónde delitos ha arrojado importantesresultados respecto al hallazgo depatrones de comportamiento deanomalías.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
32/35
/31
B I B
L I O
G R A
F Í AÁvila Flores, José Salvador (2005).Sistema de Administración de Red(S.A.R.) Versión 1.0. UniversidadAutónoma del Estado de Hidalgo.Instituto de Ciencias Básicas e In-geniería. México.
Blanco Cordero, Isidoro (1997). Eldelito de blanqueo de capitales.Edit. Aranzadi.
Fayyad, Usama, Piatetsky-Sha-piro, Gregory and Smyth, Pad-hraic (1996). From Data Mining toKnowledge Discovery in Databa-
ses. American Association for Arti-ficial Intelligence.
Esteban Talaya, Águeda (2008). Principios de marketing. ESIC Edi-torial. Tercera edición.
LiuXuan, Zhang Pengzhu (2007).An agent based Anti-Money Laun-dering system architecture for fi-nancial supervision. InternationalConference on Wireless Commu-nications, Networking and MobileComputing, Septiembre, pp: 5472-5475.
FUENTES ACADÉMICAS
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
33/35
/32
Maimon, Oded and Rokach, Lior(2010). Data Mining and Knowled-ge Discovery Handbook. SecondEdition. Springer.
Ramírez Quintana, María José yHernández Orallo, José (2003).“Extracción Automática de Conoci-miento en Bases de Datos e Inge-niería del Soware”. España.
Safavin, S.R., Landgrebe, D (1991). A survey of decision tree classifiermethodology [J]. IEEE Transac-tions on Systems, Man and Cyber-netics, Vol.21, No.3, pp.660-667.
Senator, Ted E., Goldberg, Henry G.y Wooton, Jerry (1995). The finan-
cial crimes enforcement network AIsystem (FAIS) identifying potentialmoney laundering from reports oflarge cash transactions[J], AI Maga-zine, Vol.16, No.4, pp. 21-39.
Shijia Gao, Dongming Xu (2007).Conceptual modeling and develo-pment of an intelligent agent-as-sisted decision support systemfor anti-money laundering. Ex-pert System with Applications,doi:10.1016/j.eswa.
, Huaiqing Wang,
Yingfeng Wang (2006). Intelligent
Anti-money Laundering System.International Conference on Ser-vice Operation and Loqistics, andInformatics, SOLI’06, IEEE. pp: 851-
856.
Sudjianto, A., Nair, S., Yuan, M.,Zhang, A., Kern, D., Cela-Díaz, F.(2010). Statistical Methods for Figh-ting Financial Crimes. Technome-trics 52(1) 5–19.
Virseda Benito, Fernando y RománCarrillo, Javier (sin año). “Mineríade datos y aplicaciones”. Universi-dad Carlos III.
Wang, Su-Nan and Yang, Jian-Gang(2007). A money Laundering Risk
Evaluation Method Based on Deci-sion Tree. Proceedings of the sixthinternational conference on Machi-ne Learning and Cybernetics, HongKong.
Yue, D., Wu, X. y Wang, Y. (2007). AReview of Data Mining-Based Fi-nancial Fraud Detection Research.In: 2007 Wireless Comm., Networ-king and Mobile Computing, IEEE.
Zhang, Z. y Salerno, J. (2003). Appl-ying data mining in investigatingmoney laundering crimes. Disco-
very and data mining (Mlc) 747.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
34/35
/33
FUENTESINSTITUCIONALES
Asobancaria (2011). Banco CentralRumiñahui. Construcción y calibra-ción de un índice multicriterio parala detección de Lavado de Activos.
FUENTESELECTRÓNICAS
Artículos estadísticos. http://www.estadistico.com/arts.html. Consul-tado el 14 de agosto de 2014.
Cárdenas Rojas, Liliam (2010). Aná-lisis Predictivo para la Prevenciónde LA/FT Caso Bancolombia. Ofi-cina de Naciones Unidas contra ladroga y el delito, Cámara de Co-mercio de Bogotá, Embajada Bri-tánica.http://incp.org.co/Site/info/archi-
vos/bancolombia.pdf. Consultadoel 14 de agosto de 2014.
Pérez López, Cesar y Santín Gonzá-lez, Daniel (2007). Minería de datos:conceptos, técnicas y sistemas.https ://www.google.com .co/
search?hl=es&tbo=p&tbm=bks&-
q=isbn:8497324927. Consultado el14 de agosto de 2014.
Cruz Arrela, Liliana (2010). Minería
de datos con aplicaciones. Univer-sidad Nacional Autónoma de Méxi-co.
http://132.248.9.195/ptd2010/abril/0656187/0656187_A1.pdf.Consultado el 14 de agosto de
2014.
8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf
35/35
Bogotá D C