52
Octubre de 2017 Big Data y Big Models en BBVA Research Día de estadísticas del BCE Jorge Sicilia, Álvaro Ortiz y Tomasa Rodrigo

Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Embed Size (px)

Citation preview

Page 1: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Octubre de 2017

Big Data y Big Models en BBVA

Research Día de estadísticas del BCE

Jorge Sicilia, Álvaro Ortiz y Tomasa Rodrigo

Page 2: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

2

Índice

01

02

03

Oportunidades en la era digital. Big Data en BBVA Research

Geopolítica, comercio y efectos colaterales

Indicadores económicos y de riesgo en tiempo real

04 Minería de textos y análisis de opiniones

Page 3: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

01 Oportunidades en la era digital.

Big Data en BBVA Research

Page 4: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Los datos tradicionales no podían dar respuesta a algunas preguntas

relevantes...

4

Conciencia social y la Primavera Árabe

Acontecimientos políticos

y reacción social

Desastres naturales y epidemias

... lo que nos impide medir su impacto económico...

... en un mundo en el que los riesgos y la

incertidumbre no paran de crecer

El uso de las técnicas Big Data y Data Science nos permite

cuantificar estas tendencias

Page 5: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Nuevo marco en la era digital...

5

Se necesitan nuevos enfoques computacionales basados en datos para

permitir que la nueva era digital explote las nuevas oportunidades en las

que los datos se pueden usar para estudiar el mundo en tiempo real desde

el nivel micro hasta el macro.

Nuevas respuestas a viejas

preguntas

Una infraestructura mejor

y más rápida

Nueva disponibilidad de datos

Mayores capacidades

computacionales para hacer

frente a una mayor granularidad

de los datos

Combinación de datos históricos

con datos en tiempo real

Técnicas y algoritmos

avanzados de ciencia de datos

Page 6: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Profundizar en las

habilidades

estadísticas y

econométricas

para analizar y

tratar con datos

de alta dimensión

Interpretación de

los resultados: resumir, describir

y analizar la

información

Desarrollar la

gestión de datos y

las capacidades

de programación

para trabajar con

conjuntos de

datos a gran

escala

Hacer las

preguntas

correctas

...que necesita el desarrollo de nuevas competencias para aprovecharlo

Los nuevos datos pueden terminar cambiando la forma en que los economistas abordan las

preguntas empíricas y las herramientas que utilizan para responderlas 6

Page 7: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Big Data en BBVA Research

Nuestros

resul tados

Nuestros

conjuntos de datos

Nuestro trabajo

• Analizamos cuestiones

geopolíticas, políticas,

sociales y económicas

utilizando bases de datos a

gran escala y métodos

basados en datos

cuantitativos en lugar de

introspección cualitativa.

• Datos de medios para explotar

la intensidad de las noticias, la

densidad geográfica de los

eventos (inteligencia de

ubicación) y las emociones en

todo el mundo (análisis de

sentimientos)

• Datos agregados y

anonimizados de BBVA de la

huella digital de los clientes

• Datos de la web (informes de

bancos centrales, entre otros)

• Estamos en la frontera de

investigación en el área

geopolítica y económica que

contribuye a la innovación y

aumenta nuestro alcance

interno y externo.

7

Page 8: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Difusión interna y externa

Instituciones

externas

BBVA

Research

BBVA

Instituciones externas

8

Page 9: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Nuestro proceso de trabajo

GDELT

Datos de

BBVA

Búsqueda de

Google

Web

Limpiar,

agregar transformar

y modelar

los datos

Fusionar,

visualizar

y analizar

los datos

BigQuery

y

Amazon

Redshift

Bases de datos SaaS Análisis Visualización

9

Page 10: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Nuestros productos

Índices políticos, geopolíticos y

sociales (Índices políticos)

Mapas de color TLCAN Temas (Proyecto TLCAN )

Redes Políticas y financieras (Redes políticas )

Mix de datos duros y de sentimiento y

modelos VAR (Índices de sentimiento de CBSI y Turquía)

Análisis geográfico de los precios de

la vivienda (Sentimiento sobre los precios de la vivienda)

Medición del sentimiento (Análisis de sentimiento sobre economía y

sociedad)

Estabilidad financiera y

macroprudencial (Índice BCE y FED FS por el Consejo de la FED)

Tonos monetarios y de estabilidad de los

bancos centrales

10

Page 11: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

02 Geopolítica, comercio y

efectos colaterales

Page 12: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Bases de datos externas: GDELT

... por georreferencia en

todo el planeta...

... incluye más de 300

eventos en todo el mundo y

más de 30 000 temas...

... y que recopila emociones

usando algunos de los

algoritmos más sofisticados.

Base de datos abierta de la

sociedad humana de todos

los rincones del mundo que

data de 1979...

Global Database on Events Location and Tone

(Base de datos global sobre eventos, ubicación y tono)

(Más información en el anexo) 12

Page 13: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

El seguimiento de la geopolítica en tiempo real es útil para identificar

los principales puntos calientes y los posibles efectos indirectos

Fuente: www.dgelt.org y BBVA Research

Mapa de Intensidad de Conflictos 2017 (Número de conflictos/Total eventos)

13

Page 14: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Desde una perspectiva histórica...

Índice mundial de intensidad de conflictos y protestas de BBVA Research 1979-2017

Mapa mundial de Intensidad de Protestas 1979- 2017

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17

USA

UK

Norway

Sweden

Austria

Germany

France

Netherlands

Italy

Spain

Belgium

Ireland

Portugal

Greece

Poland

Czech Republic

Hungary

Bulgaria

Romania

Croatia

Turkey

Russia

Ukraine

Georgia

Kazakhstan

Moldova

Azerbaijan

Armenia

Morocco

Algeria

Tunisia

Libya

Egypt

Israel

Jordan

Syria

Iraq

Iran

UAE

Bahrain

Qatar

Oman

Saudi Arabia

Mexico

Brazil

Chile

Colombia

Peru

Argentina

Venezuela

China

Hong Kong

Korea

Thailand

Indonesia

Malaysia

Philippines

India

Pakistan

 Afghanistan

EM

Eu

ro

pe &

CIS

Develo

ped

Markets

N.

Afric

a &

Mid

dle

East

LA

TA

MA

sia

Protestas Conflicto

14 Fuente: www.gdelt.org & BBVA Research

Page 15: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

...hasta los principales puntos calientes...

Fuente: www.gdelt.org & BBVA Research 15

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

Jan-0

8M

ay-0

8Se

p-0

8Ja

n-0

9M

ay-0

9Se

p-0

9Ja

n-1

0M

ay-1

0Se

p-1

0Ja

n-1

1M

ay-1

1Se

p-1

1Ja

n-1

2M

ay-1

2Se

p-1

2Ja

n-1

3M

ay-1

3Se

p-1

3Ja

n-1

4M

ay-1

4Se

p-1

4Ja

n-1

5M

ay-1

5Se

p-1

5Ja

n-1

6M

ay-1

6Se

p-1

6Ja

n-1

7M

ay-1

7Se

p-1

7

Alto

Bajo

Rangomedio

mundial

Las tensiones que rodean a Corea del Norte aumentaron bruscamente dadas las pruebas de los programas nucleares

Mapa de flujos de refugiados de BBVA Research en 2015-17 Número de citas de los medios sobre los flujos de entrada y salida de refugiados

Índice de intensidad de conflictos en Asia 2008-17 de BBVA Research

Page 16: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Eventos de disturbios sociales en todo el mundo: casos de El Cairo, Estambul y Hong Kong Eventos de protesta

...en la geolocalización exacta

16 Fuente: www.gdelt.org & BBVA Research

Page 17: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Las nuevas amenazas como los ataques cibernéticos también se

pueden supervisar

Cobertura de medios de guerra cibernética,

ciberataques, violaciones de datos y otros problemas

relacionados con la seguridad informática y en línea en

todo el mundo 2015-2016

Los ciberataques se han convertido en una de las principales amenazas en 2015-2017 (Indicador basado en GDELT de ciberguerra, ciberataques, violaciones de datos u otros problemas de seguridad en línea)

0

100000

200000

300000

400000

500000

600000

700000

800000

900000

feb

-15

abr-

15

jun-1

5

ago-1

5

oct-

15

dic

-15

feb

-16

abr-

16

jun-1

6

ago-1

6

oct-

16

China-EE. UU.

Escandalo de

ciberataques y

hackeo de

Ashley Madison

Sospecha de ciberataques

basados en Rusia contra Ucrania y

el Medio Oriente

Ciberataques

basados en EE.UU

contra ISIS

Ciberataques

procedentes

de China

contra el

ejército de los

EE.UU.

Ciberataques en el

Mar del Sur de China

Cobertura mundial de los ciberataques en 2015-2016

17

Ciberataques de

gran escala

contra EE. UU.

Fuente: www.gdelt.org & BBVA Research

Page 18: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-2

0

2

4

6

8

10

12

19

95

19

96

19

97

19

98

19

99

20

00

20

01

20

02

20

03

20

04

20

05

20

06

20

08

20

09

20

10

20

11

20

12

20

13

20

14

20

15

20

16

Verbal Cooperation (3 months mov.avg)

Material Cooperation (3 months mov.avg)

18

Cooperación verbal (promedio móvil de 3 meses)

Cooperación material (promedio móvil de 3 meses)

Gracias a Big Data podemos verificar en tiempo real cómo es el

soporte material y verbal en el comercio mundial...

Índice de soporte del comercio mundial de BBVA Research (Cobertura verbal de cooperación y tono en la OMC)

Cambios en el índice de soporte del comercio mundial de BBVA Research 2008-17

Fuente: www.gdelt.org & BBVA Research

Page 19: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

4

5

6

7

8

9

10

11

12

19

80

19

82

19

84

19

86

19

88

19

90

19

92

19

94

19

96

19

98

20

00

20

02

20

04

20

06

20

08

20

10

20

12

20

14

20

16

Cooperation Index (North America, trend)

Cooperation Index (World, trend)

5

6

7

8

9

10

11

12

13

14

19

79

19

81

19

83

19

85

19

87

19

89

19

91

19

93

19

95

19

97

19

99

20

01

20

03

20

05

20

07

20

09

20

11

20

13

20

15

20

17

Europe US China

19

Índice de Cooperación (tendencia, Mundo)

Índice de cooperación (tendencia, América del norte)

Europa EE.UU

...así como la evolución del índice de cooperación en el tiempo de las

principales potencias mundiales

El índice se define como la relación del número de eventos de cooperación y demanda.

Tendencias del índice (Filtro HP)

Fuente: www.gdelt.org & BBVA Research

Page 20: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Efectos colaterales de la desaceleración de China

Desaceleración de China: percepción de los medios y red de países

Oman

Qatar

Iran

Kazakhstan

Russia

U.A.E.

Iraq

NicaraguaSaudi ArabiaMexico

Chile

Dominican R.Brazil

Bolivia

Ecuador

Venezuela

Peru

Panama

Argentina

Spain

Austria

Ukraine

Israel

Greece

Poland

Belgium

Czech Republic

ItalyNetherlands

Finland

Ireland

Iceland

Portugal

Hungary

Yemen

Sri Lanka

Macau

Indonesia

Philippines

Taiwan

Cambodia

Pakistan

Turkey

Brunei

N. Zealand

Burkina Faso

Singapore

Thailand

Malaysia

Zimbabwe

UgandaNigeria

Zambia

CongoMozambique

Kenya

Sweden

Angola

E. Guinea

EthiopiaSouth Africa

France

US

UK

Japan

Australia

Canada

S. Korea India

Switzerland

Germany

Hong Kong

China

20 Fuente: www.gdelt.org & BBVA Research

Page 21: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

...o efectos colaterales de las sanciones comerciales impuestas a Rusia

Red de sanciones económicas rusas

Círculo financiero

Algunos países y centros

financieros se verán

afectados por las

sanciones financieras

impuestas a Rusia.

Comercio con

Europa central y del este

Los efectos comerciales de las

sanciones comerciales impuestas a

Rusia se extenderán a otros países.

En particular, a socios comerciales

tradicionales en el este.

La demanda externa de algunos

países de Europa Central (Francia,

Alemania, Italia) también se verá

afectada.

Comercio de Asia Central

Las restricciones al intercambio de

tecnología afectarán a la capacidad

rusa a medio/largo plazo para

extraer nueva energía, lo que podría

afectar a las relaciones de Asia

Central.

Círculo financiero

y comercial

Las inversiones rusas

en algunas regiones

son enormes

(p.e.j. los Balcanes).

21 Fuente: www.gdelt.org & BBVA Research

Page 22: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Los controles de solidez con datos oficiales muestran una gran

similitud entre las series. De los problemas de salud...

Ébola: deudas oficiales por la OMS

(muertes hasta mediados de septiembre)

Ébola: brote según GDELT

(muertes hasta mediados de septiembre)

22 Fuente: OMS y BBC

Muertes por ebola

Fronteras cerradas

Fuente: www.gdelt.org & BBVA Research

Page 23: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

...a los temas relacionados con el comercio.

Cambios en el índice de soporte del comercio

mundial de BBVA Research 2008-17

La incidencia mundial del proteccionismo

2008-2015 (alerta comercial global)

23

Número de veces

perjudicados por medidas

proteccionistas actualmente

vigentes

Fuente: www.gdelt.org & BBVA Research

Page 24: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

03 Indicadores económicos y de riesgo a través de

transacciones, búsquedas de Google y noticias

internacionales

Page 25: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Bases de datos internas: trabajar con datos de BBVA agregados y

anonimizados

710 millones de transacciones con tarjeta

desde 1 millón de puntos de venta, hechas por

53 millones de personas, que representan

43 000 millones de euros

1 500 millones de transacciones con tarjeta

desde 1,1 millones de puntos de venta,

realizadas por 88 millones de personas, que

representan 41 000 millones de euros 25

Page 26: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Un indicador de actividad de "alta definición" para España (y México) (Indicador de consumo de BBVA para la asignación óptima de los recursos y productos de BBVA)

Qué significa "ALTA DEFINICIÓN (*)" aquí:

Utilizando datos de BBVA, replicamos cifras nacionales, mejorando la

frecuencia...

alta granularidad:

dinámica hasta el nivel subnacional

Frecuencia ultra alta:

dinámica hasta frecuencia submensual

Multidimensional: características socioeconómicas más

detalladas

Índice ICM-BBVA, en millones de euros y a diario Comparación de ventas minoristas del INE y BBVA

mensualmente

0

10

20

30

40

50

60

Jan-1

3

Apr-

13

Jul-1

3

Oct-

13

Jan-1

4

Apr-

14

Jul-1

4

Oct-

14

Jan-1

5

Apr-

15

Jul-1

5

Oct-

15

Jan-1

6

Apr-

16

Jul-1

6

-0,3

-0,2

-0,1

0,0

0,1

0,2

0,3

0,4

Jan-1

3

Apr-

13

Jul-1

3

Oct-

13

Jan-1

4

Apr-

14

Jul-1

4

Oct-

14

Jan-1

5

Apr-

15

Jul-1

5

Oct-

15

Jan-1

6

Apr-

16

Jul-1

6

BBVA transactions Retail sales

26

Transacciones BBVA Ventas minoristas

Page 27: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Transacciones de BBVA 1S15 frente a 1S16 (% a/a) País Vasco

...y granularidad, hasta el nivel regional

-0,4

-0,2

0,0

0,2

0,4

Jan-13 Jul-13 Jan-14 Jul-14 Jan-15 Jul-15 Jan-16 Jul-16

BBVA transactions Retail salesTransacciones BBVA Ventas minoristas

Álava Guipúzcoa Vizcaya

-0,4

-0,2

0,0

0,2

0,4

Ja

n-1

3

Ju

l-13

Ja

n-1

4

Ju

l-14

Ja

n-1

5

Ju

l-15

Ja

n-1

6

Ju

l-16

BBVA transactions

-0,4

-0,2

0,0

0,2

0,4

Ja

n-1

3

Ju

l-13

Ja

n-1

4

Ju

l-14

Ja

n-1

5

Ju

l-15

Ja

n-1

6

Ju

l-16

BBVA transactions

-0,4

-0,2

0,0

0,2

0,4

Ja

n-1

3

Ju

l-13

Ja

n-1

4

Ju

l-14

Ja

n-1

5

Ju

l-15

Ja

n-1

6

Ju

l-16

BBVA transactions

27 Fuente: BBVA Research y Datos y análisis de BBVA

crecimiento interanual de transacciones (%, 1S15—1S16)

Transacciones BBVA Transacciones BBVA Transacciones BBVA

Page 28: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Bases de datos externas:

base de datos de búsquedas de Google

Ejemplo: una base de datos con información agregada sobre las

consultas de Google relacionadas con España como destino

turístico desarrollada junto con Google. Las consultas relacionadas con

el turismo en Google siguen el mismo patrón estacional que las

estadísticas de turismo, anticipándose con uno o dos meses.

La medición de las consultas de Google, dado el uso

cada vez mayor de las búsquedas en internet, tiene un

gran potencial para predecir la evolución futura de la

situación.

Las búsquedas de Google (Google Search) ofrecen

varias funciones más allá de la búsqueda de palabras y

están disponibles desde julio de 2007.

El análisis de la frecuencia de los términos de búsqueda

puede indicar la evolución de las tendencias

económicas, sociales y de salud.

28

Page 29: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Pernoctaciones de turistas no residentes en

hoteles y tendencias de búsqueda en Google (Pernoctaciones en miles, índice de búsquedas = 100, julio de 2007)

Pernoctaciones de no residentes en hoteles y

previsiones (% a/a, último pronóstico a 30 de noviembre de 2016)

29

(Más información en el siguiente enlace)

Fuente: BBVA Research, INE y Google

La similitud en la dinámica de las estadísticas oficiales y las consultas

de Google nos permiten hacer pronósticos para el turismo español

0

50

100

150

200

250

300

350

400

450

500

5.000

10.000

15.000

20.000

25.000

30.000

jul-07

en

e-0

8

jul-08

en

e-0

9

jul-09

en

e-1

0

jul-10

en

e-1

1

jul-11

en

e-1

2

jul-12

en

e-1

3

jul-13

en

e-1

4

jul-14

en

e-1

5

jul-15

en

e-1

6

jul-16

Overnight-stays (LHS) Google query (RHS)

0

2

4

6

8

10

12

14

jul-16 ago-16 sep-16 oct-16 nov-16 dic-16

20% 40% 60% Overnight-staysPernoctaciones (izda) Consulta Google (dcha) Pernoctaciones

Page 30: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

El sentimiento de las noticias nos permite elaborar un índice compuesto

Índice de sentimiento macroeconómico para

Turquía (Evolución del "tono" de los principales temas seguidos)

-3

-2

-1

0

1

2

3

ab

r-1

3m

ay-1

3ju

n-1

3ju

l-13

ag

o-1

3sep-1

3oct-

13

no

v-1

3dic

-13

en

e-1

4fe

b-1

4m

ar-

14

ab

r-1

4m

ay-1

4ju

n-1

4ju

l-14

ag

o-1

4sep-1

4oct-

14

no

v-1

4dic

-14

en

e-1

5fe

b-1

5m

ar-

15

ab

r-1

5m

ay-1

5ju

n-1

5ju

l-15

ag

o-1

5sep-1

5oct-

15

no

v-1

5

30 Fuente: www.gdelt.org & BBVA Research

Page 31: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Podemos usarlo para mejorar nuestros modelos mensuales de PBI...

aprovechando las noticias en tiempo real

Mensual Trimestral Año

PIB MFD mensual 0,085 0,256 1,024

PIB MFD mensual + Índice MU 0,046 0,139 0,558

PIB MFD mensual + Ponderado MU 0,063 0,190 0,569

PIB MFD mensual + P. Monetaria MU 0,046 0,139 0,556

PIB MFD mensual + Política MU 0,046 0,139 0,556

PIB MFD mensual + P. Fiscal MU 0,046 0,138 0,550

PIB MFD mensual + I. Global MU 0,063 0,188 0,563

Modelo de factor dinámico para el PBI turco

Pseudo de errores RMS de muestra

Indicador mensual de crecimiento del PIB turco

y previsiones a corto plazo (% de variación interanual)

31 Fuente: BBVA Research

-4%

-3%

-2%

-1%

0%

1%

2%

3%

4%

5%

6%

7%

8%

9%

10%

11%

se

p-1

3

dic

-13

mar-

14

jun

-14

se

p-1

4

dic

-14

mar-

15

jun

-15

se

p-1

5

dic

-15

mar-

16

jun

-16

se

p-1

6

dic

-16

mar-

17

jun

-17

se

p-1

7

Cie

nto

s

Crecimiento del PIB

BBVA-GB Crecimiento del PIB (mensual)

Crecimiento del PIB nowcast Julio: 7.4% (96% de inf.)

Agosto: 7.7% (92% de inf.)

Septiembre: 8.2% (26% de inf.)

Page 32: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-0,002

0

0,002

0,004

0,006

0,008

0,01

1 2 3 4 5 6 7 8 9 101112131415161718192021222324

Uncertainty Index

Uncertainty Index (equally weighted)

Fiscal

Monetary

Global

Politics

Turquía: Impulso respuesta del tipo de cambio

a los shocks en el sentimiento (en desviaciones estándar)

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

2,00

ene

-15

ene

-15

ene

-15

feb-1

5

feb-1

5

ma

r-15

ma

r-15

abr-1

5

abr-1

5

ma

y-1

5

ma

y-1

5

jun

-15

jun

-15

jul-1

5

jul-1

5

jul-1

5

ago

-15

ago

-15

sep

-15

sep

-15

oct-1

5

oct-1

5

nov-1

5Global Policy Uncertainty

Political Uncertainty

Monetary Policy Uncertainty

Fiscal Policy Uncertainty

Turquía: Incertidumbre macroeconómica

en 2015 (en desviaciones estándar)

• La respuesta al impulso corresponde a un modelo VAR bayesiano con PIB global,

inflación, tasa de interés, PIB local mensual, incertidumbre y tipo de cambio. Se estimó

a través del muestreo de Gibbs debido a la restricción de datos.

Fuente: BBVA Research 32 Fuente: www.gdelt.org & BBVA Research

Incertidumbre Política

Incertidumbre sobre la política monetaria

Incertidumbre sobre la política fiscal

Índice de incertidumbre

Índice de incertidumbre (ponderado)

Monetario

Político

Incertidumbre sobre política global

Podemos verificar la evolución a lo largo del tiempo...y cómo los

activos financieros responden a diferentes variables de sentimiento...

Page 33: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

-2,0

-1,0

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

8,0

ma

y-1

5

jul-15

sep-1

5

no

v-1

5

en

e-1

6

ma

r-1

6

ma

y-1

6

jul-16

sep-1

6

no

v-1

6

en

e-1

7

ma

r-1

7

ma

y-1

7

BBVA Monthly GDP Indicator

Economic Sentiment (English Media)

PIB de Turquía y sentimiento económico (%a/a y sentimiento económico escrito en turco)

PIB de Turquía y sentimiento económico (%a/a y sentimiento económico escrito en turco)

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

-2,0

-1,0

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

8,0

ma

y-1

5

jul-15

sep-1

5

no

v-1

5

en

e-1

6

ma

r-1

6

ma

y-1

6

jul-16

sep-1

6

no

v-1

6

en

e-1

7

ma

r-1

7

ma

y-1

7

BBVA Monthly GDP Indicator

Economic Sentiment (Turkish Media)

33 Fuente: www.gdelt.org & BBVA Research

Indicador mensual del PIB hecho por BBVA

Sentimiento económico (medios ingleses) Sentimiento económico (medios turcos)

Indicador mensual del PIB hecho por BBVA

...o para analizar la importancia de las narrativas y el sesgo del

lenguaje: y sí, importan...

Page 34: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

No se trata solo del sentimiento económico... sino también de

complementar los datos oficiales...

Índice de Sentimiento de Vulnerabilidad Chino (CVSI): componentes y evolución

34 Fuente: www.gdelt.org & BBVA Research

Page 35: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Índice de Sentimiento de Vulnerabilidad Chino (CVSI) (Evolución del "tono" de los principales temas seguidos sobre la vulnerabilidad en China. Los valores más bajos indican un deterioro del sentimiento y una mayor vulnerabilidad)

Sentim

iento

en d

ete

rioro

(mayo

r v

uln

era

bilid

ad

)

Sentim

iento

en m

ejo

ra

(men

or

vu

lnera

bilid

ad

)

-3

-2

-1

0

1

2

3

ma

r-1

5

ab

r-1

5

ma

y-1

5

jun-1

5

jul-15

ag

o-1

5

sep-1

5

oct-

15

no

v-1

5

dic

-15

en

e-1

6

feb

-16

ma

r-1

6

ab

r-1

6

ma

y-1

6

jun-1

6

jul-16

ag

o-1

6

sep-1

6

oct-

16

no

v-1

6

dic

-16

en

e-1

7

feb-1

7

ma

r-1

7

ab

r-1

7

ma

y-1

7

jun-1

7

jul-17

ag

o-1

7

sep-1

7

Crash del

mercado de

valores

“Lunes

Negro"

Caída del

PMI a

mínimos de

hace 4 años

RMB entra en la cesta

de DEG del FMI

Asamblea

Popular

Nacional de

China –

Reunión

3%

Devaluación

La Asamblea Popular

Nacional de China acepta

índices de crecimientos mas

bajos que el objetivo

Área neutral+- 1 deviación estándar

Extr

em

ad

am

en

te

po

sitiv

o

Extt

rem

ad

am

en

te n

eg

ativo

Crash del mercado

de valores, ,

transacciones

detenidas durante 3

días

35 Nota: más información y detalles técnicos en el siguiente enlace link. Próxima presentación en la conferencia en Big Data en el Banco de Inglaterra

Fuente: www.gdelt.org & BBVA Research

...para rastrear los riesgos en tiempo real...

Page 36: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-3

-2

-1

0

1

2

3

Ma

r-1

5

Apr-

15

Ma

y-1

5

Jun-1

5

Jul-1

5

Aug-1

5

Sep-1

5

Oct-

15

No

v-1

5

De

c-1

5

Jan-1

6

Feb

-16

Ma

r-1

6

Apr-

16

Ma

y-1

6

Jun-1

6

Jul-1

6

Aug-1

6

Sep-1

6

Oct-

16

No

v-1

6

De

c-1

6

Jan-1

7

Feb

-17

Ma

r-1

7

Apr-

17

Ma

y-1

7

Jun-1

7

Jul-1

7

Aug-1

7

Sep-1

7

Chinese Vulnerability Index (news in Chinese) Chinese Vulnerability Index (all news) Chinese Vulnerability Index (news in English)

36 Fuente: www.gdelt.org & BBVA Research

Índice de vulnerabilidad en China

(noticias en chino)

Índice de vulnerabilidad en china

(todas las noticias) Índice de vulnerabilidad en china

(noticias en ingles)

Índice de Sentimiento de Vulnerabilidad en China por idioma de los medios: total, chino e inglés (Evolución del "tono" de los principales temas seguidos sobre la vulnerabilidad en China. Los valores más bajos indican un deterioro del sentimiento y una mayor vulnerabilidad)

...desenmarañando los efectos del lenguaje de los

medios...

Page 37: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

...y analizado los riesgos en un alto grado de granularidad

Componentes del Índice de Sentimiento de Vulnerabilidad Chino (CVSI)

Mapa de empresas estatales de China (sentimiento sobre empresas estatales)

Análisis geográfico Precios de la vivienda (sentimiento sobre los precios de la vivienda)

37 Fuente: www.gdelt.org & BBVA Research

Page 38: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Las previsiones a corto plazo (nowcast) de los precios de la vivienda

también son un aspecto prometedor del Big Data

Precios de la vivienda y tono de los precios de la vivienda en Turquía (Azul oscuro: tono más negativo)

Distribución geográfica del tono de los precios de la vivienda 2015 (Azul oscuro: tono más negativo)

38

Tono GDELT, precios de las viviendas

Tono GDELT, precios anualizados viviendas

Fuente: www.gdelt.org & BBVA Research

Page 39: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

04 Minería de textos y

análisis de opiniones

Page 40: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Bases de datos externas: técnicas de web scrapping y NPL

Extracción de

información

Preprocesamiento y

análisis de texto Transformación Minería de texto y NPL

Análisis de los

sentimientos

• Documentos

• Páginas web

• Extraer palabras

• Identificar partes del

discurso

• Tokenización y

tokens de varias

palabras

• Eliminación de

palabras vacías

• Stemming

• Case-folding

• Filtrado de texto

• Indexación para

cuantificar texto en

listas de recuentos

de términos

• Crear la matriz de

término de

documento

• Matriz de

ponderación

• Factorización (SVD)

• Análisis y

aprendizaje

automático

• Extracción de

temas (LDA)

• Agrupación

• Modelado (STM y

DTM)

• Aplicar diccionarios

de sentimientos

• Análisis semántico

y clasificación

• Agrupación

(Más información en el anexo 40

Page 41: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Primero, examinamos los temas: las nubes de palabras nos permiten

comprender e identificar temas...

Cada nube de palabras representa la distribución de probabilidad de las palabras dentro de un tema

determinado. El tamaño de la palabra y el color indican la probabilidad de que aparezca dentro de ese tema

Inflación Flujos globales

Política monetaria

41

Page 42: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

0

0,1

0,2

0,3

0,4

0,5

0,6

20

06

20

06

20

07

20

07

20

08

20

08

20

09

20

10

20

10

20

11

20

11

20

12

20

13

20

13

20

14

20

14

20

15

20

15

20

16

20

17

Liquidity & FX Policy Interest Rate Policy Macroprudential PolicyPolítica de liquidez Y cambio

Política de tasa de interés

Política macroprudencial

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

20

06

20

07

20

08

20

09

20

10

20

11

20

12

20

13

20

14

20

15

20

16

20

17

Global Flows Economic Activity

Labor Market Fiscal &Structural Policies

Inflation Monetary Policy

Other

Flujos globales Mercado laboral Inflación

Otros

Actividad económica Política fiscal y estructurales Política monetaria

42

...y podemos verificar "de lo que habla el Banco Central"...

Banco Central de Turquía: Evolución de los temas Distribución de los temas de política monetaria (% del total)

Fuente: BBVA Research

Page 43: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-15

-10

-5

0

5

10

15

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Confidence bands +/-1SD Inflation

Accelerating inflation pressures

-9

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Tightening

Easing

43 Fuente: BBVA Research

Inflación Bandas de confianza

+/-1de

Endurecimiento

Flexibilización

Presiones inflacionarias en aceleración

...así como el sentimiento del tema y la postura de los informes de CB...

Sentimiento del Banco Central sobre la inflación (Técnicas estandarizadas de Big Data LDA aplicadas a las actas y declaraciones)

Sentimiento de la política monetaria (Estandarizado, estimado mediante técnicas de Big Data LDA a partir de actas y declaraciones)

Page 44: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

-3

-2

-1

0

1

2

3

20

06

20

07

20

08

20

09

20

10

20

11

20

12

20

13

20

14

20

15

20

16

20

17

Global Flows Liquidity & FX Policy

-4

-3

-2

-1

0

1

2

3

20

06

20

07

20

08

20

09

20

10

20

11

20

12

20

13

20

14

20

15

20

16

20

17

Economic Activity Labor MarketActividad

económica Mercado laboral

Flujos globales Política de liquidez y cambio

Fuente: BBVA Research

Lo que cambia con el tiempo...según las técnicas de minería de textos

y aprendizaje automático...

Evolución del sentimiento de los temas en los informes de BC en 2006-17.

44

Page 45: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

...así como las relaciones entre los temas y su evolución en el tiempo

mediante el análisis de redes de temas

La red de los temas estimados y correlacionados usando STM. Los nodos en el gráfico representan los temas identificados. El tamaño del nodo es proporcional al número de palabras

en el corpus dedicado a cada tema (peso). El color del nodo indica clústers que usan un algoritmo de detección de comunidad llamado modularidad desarrollado por Blondel et al

(2008). Los temas cuyo etiquetado se desconoce se eliminan del gráfico por razones de claridad visual. Los bordes representan palabras que son comunes a los temas que conectan

(coocurrencia de palabras entre los temas). El ancho del borde es proporcional a la fuerza de esta coocurrencia entre los temas. 45

Red de temas 2006-09: la meta de inflación

Red de temas 2010-15: el período de la crisis financiera mundial

Red de temas 2016-17: en busca de la estabilidad de precios

Page 46: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

ANEXO

Page 47: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Tono medio: GDELT utiliza más de 40 diccionarios tonales para generar una puntuación que va de -100

(extremadamente negativo) a +100 (extremadamente positivo) para cada noticia, con valores comunes que

oscilan entre -10 (negativo) y +10 (positivo), donde 0 indica un tono neutral. Un sentimiento neutral puede ser

el resultado de un lenguaje neutral o un equilibrio de algunos sentimientos positivos extremos

compensados por los negativos. La variable de sentimiento se basa en el equilibrio entre el porcentaje de

todas las palabras en el artículo que tiene una connotación emocional positiva y negativa dentro de un artículo

dividido por el número total de palabras incluidas en el artículo.

Ejemplo del sistema de codificación PETRARCH:

Sistema de codificación e indicador emocional en GDELT

47

Page 48: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Minería de texto y NPL: preprocesamiento y transformación

Los documentos se definen como párrafos.

Se excluyen los documentos con menos de 200 caracteres (títulos, secciones de contenido...)

A continuación, se derivan las palabras (reducir una palabra a su raíz semántica) para generar tokens.

La selección de características se realiza en los tokens: las palabras vacías comunes y las palabras con

una longitud de 3 o menos caracteres se eliminan y las palabras restantes se derivan. Los tokens se filtran

en función de un índice de frecuencia de término – frecuencia inversa de documento (tf.idf) (Manning y

Schutze 1999); se eliminan las palabras del cuantil más bajo. Este esquema de indexación es una

combinación de un índice de frecuencia de término (tf) y un índice de frecuencia de documento (df). tf es

solo el recuento de una palabra dada en un documento, la media tf se usa para construir el índice final. df

es la cantidad de documentos que contienen una palabra dada. Entonces, el tf.idf usado para filtrar

palabras es:

𝑡𝑓. 𝑖𝑑𝑓𝑖 = 𝑚𝑒𝑎𝑛 𝑡𝑓𝑖𝑗 ∗ 𝑙𝑜𝑔2𝑁

𝑑𝑓𝑖

donde i indexa términos y j documentos. Este índice otorga un gran peso a las palabras frecuentes a través

del componente tf, pero si una palabra es muy frecuente a través del corpus; su peso se reduce a través del

componente idf. El objetivo de este procedimiento de filtrado es eliminar palabras muy poco frecuentes y

muy frecuentes para eliminar palabras con bajo contenido semántico.

48

Page 49: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Algoritmos de aprendizaje automático en texto: LDA, STM y DTM

La asignación latente de Dirichlet (LDA) (Blei, Ng y Jordan 2003) es un modelo bayesiano con una

distribución previa con respecto a las probabilidades de mezcla específicas del documento, donde el

recuento de términos dentro de los documentos se distribuye de manera independiente e idéntica dada

una distribución previa de Dirichlet.

Para introducir dependencias temporales en el proceso de generación de datos, utilizamos el modelo de

tema dinámico (DTM), una particularización de los Modelos de tema estructural (STM) donde cada

período de tiempo tiene un modelo de tema separado y los períodos de tiempo están vinculados a través

de parámetros que evolucionan con fluidez.

STM (Roberts et al. 2016) introduce de manera explícita covariables en un modelo de temas que nos

permite valorar el impacto de las covariantes a nivel de documento sobre el contenido del tema y la

prevalencia como parte del modelo del tema en sí mismo.

El proceso para generar palabras individuales es el mismo que para el LDA simple. Sin embargo, ambos

objetos pueden depender de conjuntos potencialmente diferentes de covariables a nivel de documento:

prevalencia de temas (cada documento tiene atributos P que pueden afectar a la probabilidad de discutir el

tema k) y el contenido temático (cada documento tiene un atributo categórico de nivel A que afecta a la

probabilidad de discutir el término v en general y de analizarlo dentro del tema k. La generación de los

términos k y d se realiza mediante regresión logística multinomial

49

Page 50: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Análisis del sentimiento en el texto: enfoque léxico

Empleamos los métodos Lexicon utilizando el diccionario Loughran-McDonald (Loughran McDonald

2009), un diccionario creado específicamente para analizar textos financieros y el diccionario de la FED

para la estabilidad financiera (Correa et al, 2017)

Usando las palabras negativas y positivas de este diccionario, el "tono" promedio de un documento dado

se calcula del siguiente modo:

Tono medio = 100 ∗ 𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎𝑠 − 𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎𝑠

𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠

la puntuación oscila entre -100 (extremadamente negativo) y +100 (extremadamente positivo), pero los

valores comunes oscilan entre -10 y +10, donde 0 indica neutral.

Para crear los índices de sentimiento finales, usamos la mezcla de temas que combina los métodos de

diccionario con el resultado de LDA para recuentos de palabras de peso por tema, siguiendo el enfoque

propuesto por Hansen y McMahon (2015). Esto permite generar diferentes medidas de sentimiento a partir

de un conjunto de texto, y enfocar ese sentimiento en los temas de interés.

50

Page 51: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Big Data y Big Models en BBVA Research

Metodología de impacto causal

Para medir el impacto de los ataques sobre el rendimiento del comercio en la ciudad de Barcelona se ha

utilizado un modelo bayesiano de series temporales (aquí el documento de referencia). Este modelo se

basa en la comparación del comportamiento observado en una serie temporal objetivo, a partir de la fecha

del evento analizado, con una predicción de los valores esperados de que no se haya producido. Para

crear esta serie contrafáctica, usamos un conjunto de series de control no afectadas por el evento

En este caso particular, la serie temporal utilizada corresponde al gasto diario con tarjeta de crédito en el

comercio físico. El período cubierto por la serie va desde el 1 de enero de 2015 hasta el 24 de septiembre

de 2017, fijando la fecha del evento el 17 de agosto de 2017. La serie objetivo es el gasto registrado en la

ciudad de Barcelona y la serie de control corresponde al resto de municipios españoles con mayor

correlación con Barcelona en el período anterior

Por lo tanto, la predicción contrafáctica se obtiene mediante un proceso de inferencia bayesiana en el cual

cada uno de los componentes de las series temporales objetivas (tendencias, estacionalidad, ciclos...) se

aproxima utilizando el conjunto de series de control. Una vez hecho esto, se combinan para obtener las

probabilidades a priori de la serie objetivo

La metodología utiliza el método de la cadena Monte Carlo Markov para simular distribuciones posteriores.

Esto permite no solo generar un valor esperado para cada uno de los días posteriores al evento, sino

también permitir intervalos de confianza para determinar si las diferencias entre las series observadas y

pronosticadas (crecimiento y decremento) podrían haber ocurrido incluso si el evento no se produce o si

estadísticamente no se justifican sin el evento. En este análisis, se ha considerado estadísticamente

demostrado que una diferencia se debe al ataque cuando su valor se encuentra en el 1 % final de la

distribución de probabilidad calculada 51

Page 52: Big Data y Big Models en BBVA Research · las capacidades de programación para trabajar con conjuntos de datos a gran escala Hacer las preguntas ... (Indicador basado en GDELT de

Octubre de 2017

Big Data y Big Models en BBVA

Research Día de estadísticas del BCE

Jorge Sicilia, Álvaro Ortiz y Tomasa Rodrigo