48
Regresi´ on con proyecciones aleatorias para datos funcionales Paula Rodr´ ıguez D´ ıaz Asesor: Adolfo J. Quiroz Departamento de Matem´ aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr´ ıguez D´ ıaz (U. de Los Andes) 1 / 41

Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Regresion con proyecciones aleatorias para datos funcionales

Paula Rodrıguez Dıaz

Asesor: Adolfo J. Quiroz

Departamento de MatematicasUniversidad de Los Andes

15 de noviembre de 2018

Paula Rodrıguez Dıaz (U. de Los Andes) 1 / 41

Page 2: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Overview

1 Marco teorico: Analisis de datos funcionales

2 Metodo propuesto

3 Ejemplo 1: Altura instantanea de olas

4 Ejemplo 2: Temperatura anual en Canada

5 Conclusiones

Paula Rodrıguez Dıaz (U. de Los Andes) 2 / 41

Page 3: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Motivacion

La mayorıa de metodos en FDA se relacionan con metodos deestadıstica multivariada equivalentes

La regresion funcional por componentes principales utiliza lasproyecciones sobre los componentes principales funcionales para llevara cabo una regresion multivariada

Se quiere encontrar las funciones de proyeccion que lleven a un mejordesempeno de la regresion multivariada

Paula Rodrıguez Dıaz (U. de Los Andes) 3 / 41

Page 4: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Datos de alta dimension como funciones

Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que

Xi (tj) = xitj + εij , j = 1, ..., d

Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales

Definicion (Base Funcional)

Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion

X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)

Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41

Page 5: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Datos de alta dimension como funciones

Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que

Xi (tj) = xitj + εij , j = 1, ..., d

Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales

Definicion (Base Funcional)

Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion

X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)

Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41

Page 6: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Datos de alta dimension como funciones

Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que

Xi (tj) = xitj + εij , j = 1, ..., d

Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales

Definicion (Base Funcional)

Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion

X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)

Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41

Page 7: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Datos de alta dimension como funciones

Dado un sistema de funciones base {φ1, ..., φK} se quiere tener los datosfuncionales

Xi (t) =K∑

k=1

cikφk(t) (2)

tales que

xij =K∑

k=1

cikφk(tj) + εij (3)

para cada i = 1, ..., n y j = 1, .., d .

El suavizamiento de cada dato Xi corresponde a resolver d regresioneslineales.

Paula Rodrıguez Dıaz (U. de Los Andes) 5 / 41

Page 8: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion lineal funcional

Dados los datos funcionales X1, ...,Xn y las respuestas escalares Y1, ...,Yn

se considera el modelo de regresion

Yi = α0 +

∫τ

β(t)Xi (t)dt + ε(t) (4)

donde α0 ∈ R y β ∈ L2(T ).

Paula Rodrıguez Dıaz (U. de Los Andes) 6 / 41

Page 9: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion funcional por bases funcionales y penalizacion

La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada

n∑i=1

[Yi − α−

∫Xi (t)β(t)dt

]2+ λ

∫ [ d2

dt2β(t)

]2dt. (5)

Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que

β(t) =B∑

k=1

bkψk(t) (6)

Paula Rodrıguez Dıaz (U. de Los Andes) 7 / 41

Page 10: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion funcional por bases funcionales y penalizacion

La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada

n∑i=1

[Yi − α−

∫Xi (t)β(t)dt

]2+ λ

∫ [ d2

dt2β(t)

]2dt. (5)

Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que

β(t) =B∑

k=1

bkψk(t) (6)

Paula Rodrıguez Dıaz (U. de Los Andes) 7 / 41

Page 11: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion funcional por componentes principales

Cada dato funcional Xi se puede expresar como

Xi (t) = X (t) +

p∑j=1

fijξj(t) (7)

donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .

Se considera el modelo de regresion

Yi = b0 +

p∑j=1

fijbj + εi (8)

para i = 1, ..., n. Un modelo de regresion multiple estandar.

Paula Rodrıguez Dıaz (U. de Los Andes) 8 / 41

Page 12: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion funcional por componentes principales

Cada dato funcional Xi se puede expresar como

Xi (t) = X (t) +

p∑j=1

fijξj(t) (7)

donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .

Se considera el modelo de regresion

Yi = b0 +

p∑j=1

fijbj + εi (8)

para i = 1, ..., n. Un modelo de regresion multiple estandar.

Paula Rodrıguez Dıaz (U. de Los Andes) 8 / 41

Page 13: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Marco teorico: Analisis de datos funcionales

Regresion funcional por componentes principales

Como {ξ1, ..., ξp} es un sistema ortogonal de funciones entoncesfij = 〈ξj ,Xi − X 〉.

Con esto se puede recuperar la funcion de regresion estimada

β(t) =

p∑j=1

bjξj(t)

considerando el modelo de regresion funcional

Yi = α0 +

∫τ

β(t)Xi (t)dt + ε(t)

Paula Rodrıguez Dıaz (U. de Los Andes) 9 / 41

Page 14: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Metodo Propuesto

Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1

...Yn

= b0 +m∑j=1

bj

〈X1, ρ?j 〉

...〈Xn, ρ

?j 〉

+ ε (9)

tenga un R2ajustado a lo mas cercano posible a 1.

Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).

Paula Rodrıguez Dıaz (U. de Los Andes) 10 / 41

Page 15: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Metodo Propuesto

Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1

...Yn

= b0 +m∑j=1

bj

〈X1, ρ?j 〉

...〈Xn, ρ

?j 〉

+ ε (9)

tenga un R2ajustado a lo mas cercano posible a 1.

Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).

Paula Rodrıguez Dıaz (U. de Los Andes) 10 / 41

Page 16: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Metodo Propuesto

Generar funciones aleatorias en un espacio de funciones determinado yseleccionar adecuadamente aquellas funciones que conllevan a un mejorajuste del modelo de regresion.

Paula Rodrıguez Dıaz (U. de Los Andes) 11 / 41

Page 17: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Se generan funciones aleatorias en el espacio generado por las funcionesbase {φ1, ..., φd}.

Una funcion en este espacio es de la forma

g =d∑

i=1

ciφi = c′φ.

Por lo tanto, basta con generar coeficientes aleatorios c ∈ Sd−1.

Paula Rodrıguez Dıaz (U. de Los Andes) 12 / 41

Page 18: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Si f ∗ es la ’mejor’ funcion de proyeccion en el espacio de funcionesgenerado por {φ1, ..., φd}, con

f ∗ =d∑

i=1

aiφi = a′φ,

se quiere generar N coeficientes aleatorios en Sd−1 tal que al menos deellos este a distancia angular menor o igual θ de a.

Paula Rodrıguez Dıaz (U. de Los Andes) 13 / 41

Page 19: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).

Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)

Tomando N = 1δ log( 1

δ2 ) se tiene que (1− δ)N = (1− δ)1δ

log( 1δ2 ) ≈ δ2

cuando δ � 1.

Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41

Page 20: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).

Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)

Tomando N = 1δ log( 1

δ2 ) se tiene que (1− δ)N = (1− δ)1δ

log( 1δ2 ) ≈ δ2

cuando δ � 1.

Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41

Page 21: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).

Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)

Tomando N = 1δ log( 1

δ2 ) se tiene que (1− δ)N = (1− δ)1δ

log( 1δ2 ) ≈ δ2

cuando δ � 1.

Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41

Page 22: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

La razon de area de la hipercapa ∆(Sd−1, θ) y Sd−1 se puede calcularcomo

δd−1,θ =1

2Isin2 θ

(d − 1

2,

1

2

). (11)

donde Ix(a, b) es la funcion beta incompleta regularizada.

Dimension d − 1 Razon de area δd−1,θ

1 θ/π2 1

2 (1− cos θ)3 1

2π (2θ − sin 2θ)4 1

4 (2− 3 cos θ + cos3θ)

Paula Rodrıguez Dıaz (U. de Los Andes) 15 / 41

Page 23: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Tomando N = 1δ log( 1

δ2 ) se tiene que para θ ≤ π8 y d ≥ 2,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))< 2,5× 10−3

Paula Rodrıguez Dıaz (U. de Los Andes) 16 / 41

Page 24: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Ejemplo 1 Ejemplo 2

Paula Rodrıguez Dıaz (U. de Los Andes) 17 / 41

Page 25: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Generacion de funciones aleatorias

Paula Rodrıguez Dıaz (U. de Los Andes) 18 / 41

Page 26: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Distancia entre funciones aleatorias y mejor funcion de proyeccion

Proposicion

Sea φ = (φ1, ..., φd) un sistema ortogonal de funciones. Si a, c ∈ Sd−1 sontales que cos−1(a, c) ≤ θ con θ ∈ [0, π/2] entonces

‖f ∗ − g‖22 ≤ 2(1− cos(θ))

con f ∗ = a′φ y g = c′φ. Donde ‖·‖2 es la norma en L2

Paula Rodrıguez Dıaz (U. de Los Andes) 19 / 41

Page 27: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Seleccion de mejores funciones de proyeccion

Algoritmo 1: Seleccion de mejores funciones de proyeccion

1. Teniendo el conjunto de funciones aleatorias P, crear P1, ...,PM

subconjuntos de K funciones escogidas uniformemente de P.Pi = {ρi1 , ..., ρiK }

2. Para i = 1, 2, ...,M

(a) Para k = 1, ...,K : Zi,k ←(〈X1, ρik 〉, ..., 〈Xn, ρik 〉

)(b) Hacer seleccion de predictores sobre Zi,1, ...,Zi,K y llamar Mi el

conjunto de predictores seleccionados

3. Para i = 1, 2, ...,M: Llevar a cabo regresion multivariada con variablesindependientes Mi y variables dependientes Y1, ...,Yn. AlmacenarR2ajustado en Ri

Paula Rodrıguez Dıaz (U. de Los Andes) 20 / 41

Page 28: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Seleccion de mejores funciones de proyeccion

Algoritmo 2: Seleccion de mejores funciones de proyeccion

4. Puntaje por subconjunto: Asignar un puntaje en funcion de Ri acada subconjunto de variables Mi .

5. Puntaje por predictor (funcion): Dar puntaje a cada funcion de Psegun puntaje de los Mi en los que estan sus predictorescorespondientes.

6. Seleccionar los K predictores con mejor puntaje y hacer la mismaseleccion de predictores hecha en el punto 2 (b). Las funcionescorrespondientes a los predictores obtenidos son consideradas lasmejores funciones de proyeccon.

Paula Rodrıguez Dıaz (U. de Los Andes) 21 / 41

Page 29: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Seleccion de predictores (funciones)

Algoritmo 3: Seleccion paso a paso hacia atras por R2ajustado

1 Sea Mp el modelo completo que contiene los p predictores2 Para k = p, p − 1, ..., 1:

(a) Considerar los k modelos que contienen todos menos uno de lospredictores en Mk , para un total de k − 1 predictores

(b) Escoger el mejor de los k modelos segun R2 y llamarlo Mk−1

3 Escoger el mejor modelo entre M0, ...,Mp segun R2ajustado.

Paula Rodrıguez Dıaz (U. de Los Andes) 22 / 41

Page 30: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Metodo propuesto

Seleccion de predictores (funciones)

Algoritmo 4: Seleccion de predictores por significancia en regresion

1 Sea Mp el modelo completo que contiene los p predictores y pvmax elmaximo valor de los p-valores.

2 Mientras que pvmax > 0,05:

(a) Sea Mp−1 el modelo con los predictores de Mp menos el predictor quetiene p-valor pvmax

(b) Llevar a cabo una regresion en el modelo Mp−1 y llamar pvmax almaximo p-valor obtenido entre los p − 1 predictores.

(c) p ← p − 1

3 Cuando pvmax ≤ 0,5 se escoge el modelo Mp

Paula Rodrıguez Dıaz (U. de Los Andes) 23 / 41

Page 31: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Altura instantanea de olas

Altura instantanea de 865 olas del mar durante 101 momentos

Predecir la energıa total de cada ola

Suavizamiento utilizando una base de Fourier de tamano 21

Paula Rodrıguez Dıaz (U. de Los Andes) 24 / 41

Page 32: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Metodo Propuesto

Se generan funciones aleatorias como combinacion lineal de distintossistemas de funcionesSe consideraron 3 casos con sistemas de funciones distintosPara cada sistema se generan funciones aleatorias como combinacionlineal de 2 funcionesEn cada caso se hizo seleccion de predictores paso a paso hacia atraspor R2ajustado y por significancia

tamano muestra (N)

Base Inicial # combinaciones N por combinacion

Caso 1 Fourier 11 100 300

Caso 2 Indicadora 10 45 500

Caso 3 Indicadora 25 6 1.000

Cuadro: Parametros del modelo para cada caso considerado

Paula Rodrıguez Dıaz (U. de Los Andes) 25 / 41

Page 33: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Predictores por significancia

Figura: Predictores Significativos Caso 1.

Figura: Predictores Significativos Caso 2.

Paula Rodrıguez Dıaz (U. de Los Andes) 26 / 41

Page 34: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Mejores funciones de proyeccion por significancia

Figura: Mejores funciones de proyeccion Caso 1

Paula Rodrıguez Dıaz (U. de Los Andes) 27 / 41

Page 35: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Mejores funciones de proyeccion por significancia

Figura: Mejores funciones de proyeccion Caso 2Paula Rodrıguez Dıaz (U. de Los Andes) 28 / 41

Page 36: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Predictores por paso a paso hacia atras

Figura: Predictores Backward Caso 1.

Figura: Predictores Backward Caso 2.

Paula Rodrıguez Dıaz (U. de Los Andes) 29 / 41

Page 37: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Mejores funciones de proyeccion por significancia

Figura: Mejores funciones de proyeccion Caso 1

Paula Rodrıguez Dıaz (U. de Los Andes) 30 / 41

Page 38: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Mejores funciones de proyeccion por significancia

Figura: Mejores funciones de proyeccion Caso 2

Paula Rodrıguez Dıaz (U. de Los Andes) 31 / 41

Page 39: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Resultados metodo propuesto

Metodo Propuesto # de funciones R2ajustado

Caso 1.1 5 0,8912Caso 1.2 7 0,8919Caso 2.1 5 0,8896Caso 2.2 6 0,8876Caso 3.1 4 0,8864Caso 3.2 4 0,8864

El ajuste de los modelos de regresion disminuye al utilizar funciones massencillas. Sin embargo, la diferencia es considerablemente pequena.

Paula Rodrıguez Dıaz (U. de Los Andes) 32 / 41

Page 40: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Comparacion con regresion por componentes principales

Figura: Componentes principales funcionales

Paula Rodrıguez Dıaz (U. de Los Andes) 33 / 41

Page 41: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 1: Altura instantanea de olas

Ejemplo 1: Comparacion con regresion por componentes principales

# de componentes R2ajustado

1 0,8892 0,8893 0,8894 0,8905 0,8916 0,8917 0,891

Las funciones indicadoras encontradas en el Caso 2 y 3 tienen undesempeno similar al de las componentes principales funcionales

La cantidad de funciones encontradas por el metodo propuesto essimilar a la cantidad de CP que explican el 95 % de la varianza.

Paula Rodrıguez Dıaz (U. de Los Andes) 34 / 41

Page 42: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 2: Temperatura anual en Canada

Ejemplo 2: Temperatura anual en Canada

Temperatura diaria de 35 regiones en Canada durante un anoPredecir el logaritmo de la precipitacion promedio anual en cadaregionSuavizamiento utilizando una base de Fourier de tamano 5

Paula Rodrıguez Dıaz (U. de Los Andes) 35 / 41

Page 43: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 2: Temperatura anual en Canada

Ejemplo 2: Metodo Propuesto

Se generaron funciones aleatorias como combinacion lineal de 3funciones del sistema {1, sin(x), cos(x), sin(2x), cos(2x)}.

Para cada combinacion posible se generaron N = 1,000 funcionesaleatorias.

Se llevo cabo el metodo propuesto seleccionando predictores con pasoa paso hacia atras por R2ajustado y por significancia.

tamano muestra (N)

Paula Rodrıguez Dıaz (U. de Los Andes) 36 / 41

Page 44: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 2: Temperatura anual en Canada

Ejemplo 2: Seleccion de predictores

Paula Rodrıguez Dıaz (U. de Los Andes) 37 / 41

Page 45: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 2: Temperatura anual en Canada

Ejemplo 2: Mejores funciones de proyeccion

Seleccion de predictores por significancia, R2adj = 0,769:

Seleccion de predictores paso a paso hacıa atras por R2ajustado,R2adj = 0,769:

Paula Rodrıguez Dıaz (U. de Los Andes) 38 / 41

Page 46: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Ejemplo 2: Temperatura anual en Canada

Ejemplo 2: Comparacion con regresion funcional por componentes

principales

Se lleva a cabo una regresion funcional por componentes principales con lamisma cantidad de funciones que se encontraron en el metodo propuesto.

Componentes principales funcionales (R2adj = 0,691)

Paula Rodrıguez Dıaz (U. de Los Andes) 39 / 41

Page 47: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Conclusiones

Conclusiones

El metodo propuesto brinda un acercamiento a la dimension delproblema de regresion

La cantidad de mejores funciones de proyeccion encontradas es similara la cantidad de CPF necesarios para explicar el 98 % de la varianzaaproximadamente.

En el Ejemplo 1 se encontraron funciones que se expresan en basesfuncionales mas sencillas que los CPF y sin embargo alcanzan undesempeno similar.

En el Ejmplo 2 se encontraron funciones de de proyeccion queconllevan a un R2ajustado mayor que el de regresion por CPF. Ladiferencia fue de 0,07.

Paula Rodrıguez Dıaz (U. de Los Andes) 40 / 41

Page 48: Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Conclusiones

References

J. O. Ramsay and C. J. Dalzell (1991)

Some Tools for Functional Data AnalysisJournal of the Royal Statistical Society. Series B (Methodological) 53(3), 39–572.

J. O. Ramsay and W. Silverman (2005)Functional Data Analysis

Ramsay, J. and Hooker, G. and Graves, S. (2009)Functional Data Analysis with R and MATLAB

James, Gareth and Witten, Daniela and Hastie, Trevor and Tibshirani, Robert (2014)An Introduction to Statistical Learning: With Applications in R

Kokoszka, P. and Reimherr, M. (2017)Introduction to Functional Data Analysis

Paula Rodrıguez Dıaz (U. de Los Andes) 41 / 41