Catedra Metodos Numericos 2015 - UNSCH (11) [Modo de ... · • Sin restricciones • Con restricciones Tamaño de los Problemas ... • No existe un método general de optimización

METODOS NUMERICOS

Ingeniería Civil

ING.�CRISTIAN�CASTRO�P.

Facultad de Ingeniería de Minas, Geología y Civil

Departamento académico de ingeniería de minas y civil

CATEDRA 11

Capitulo XI

OPTIMIZACIÓN EN INGENIERÍA

ING.�CRISTIAN�CASTRO�P.

INVESTIGACIÓN OPERATIVA MODO DE PROCEDIMIENTO

Sistema Real

Identificación del problema Formulación del problema

Modelo (Sistema artificial aproximativo)

Disponibilidad de datos Obtención de datos

Organización de datos

Selección de métodos

Solución

Interpretación

Realización

Condición organizativa Criterios de decisión Proyecciones Restricciones Ponderación de riesgo Alternativas de decisión

Cálculos en Investigación Operativaa) Modelos matemáticos- cálculos de naturaleza iterativa.- la solución óptima no puede estar disponible en forma cerrada.- se llega a la respuesta final en pasos o iteraciones, donde

cada nueva iteración acerca la solución al nivel óptimo.- el número de iteraciones es función de la eficiencia del

algoritmo de solución y la estructura específica del modelo.

b) Modelos de simulación- con cálculos voluminosos, que consumen mucho tiempo, perose tiene la seguridad de que los resultados buscados seobtendrán en definitiva.- control sobre el tiempo de cálculo de la computadora,reduciendo el periodo de observación del modelo.

TECNICAS DE IODETERMINÍSTICOS ESTOCÁSTICOS

•Programación lineal •Cadenas de Markov•Programación dinámica •Método de Montecarlo•Transportación - Teoría de colas•Asignación •Teoría de inventarios•Modelo de redes •Simulación•Programación no lineal

Por ejemplo, supongamos que para un millón de operaciones un sistema de procesamiento dedatos necesitara de 1 seg. , resultaría, dependiente de “n” para la solución del algoritmo lostiempos siguientes:

FUNCIÓN POLINOMIO f(n) = n5 EXPONENCIAL f(n) = 2n

Tiempo de cálculo

n = 10 0,1 seg. 0,001 seg.

n = 20 3,0 seg. 1,00 seg.

n = 60 13,0 min. 366 siglos

Problemas estratégicos

INVESTIGACION OPERATIVA

INGENIERIA DE SISTEMAS

• Conjunto de técnicas matemáticas que seutilizan para la toma de decisiones óptimas y elanálisis del comportamiento de sistemas, através de la representación abstracta de losmismos por medio de modelos matemáticos.• La IO está más orientada hacia laadministración u operación de los sistemas.• La IO trata con problemas ”tácticos” (alcance oduración limitados)

- Es una disciplina muy similar a la IO- Se aboca a la toma de decisiones con relacióna aquellos aspectos del sistema que estánsujetos a cierto grado de control para alcanzarobjetivos dados- La Ingeniería de Sistemas esta orientadohacia el diseño de los sistemas.- La Ingeniería de Sistemas trata conproblemas estratégicos.

- Trabajan con sistemas.- Utilizan grupos interdisciplinarios.- Utilizan el método científico de análisis en problemas de diseño y otros.- Utilizan las técnicas matemáticas modernas.

Problemas tácticos

TEORÍA DE OPTIMIZACIÓNSíntesis: Diseño óptimo y decisiónMuchas decisiones importantes se toman mediante la elección deuna medida cuantitativa de la eficiencia seguida de su optimización.El decidir cómo diseñar, construir, regular o dirigir un sistema físicoo económico, idealmente comprende:

• Se debe conocer, exacta y cuantitativamente, cómo actúan entre sílas variables del sistema.

• Se necesita una medida sencilla de la efectividad del sistemaexpresable en forma de variables del mismo.

• Deben escogerse aquellos valores de las variables del sistema queden la efectividad óptima.

• La mayor parte del esfuerzo empleado en un estudio de optimización estáen la práctica en la comprensión del sistema y su descripción cuantitativaen forma de tablas, gráficos, programas de cálculo o ecuacionesmatemáticas.La optimización es decisiva porque disminuye el número de eleccionesposibles hasta reducirlas a una sola, la mejor. Además proporcionainformación sobre la sensibilidad de las condiciones óptimas. Comúnmentese emplean el costo mínimo o beneficio máximo como criterios para tomardecisiones.

Análisis: Principios del óptimoAl utilizar la teoría de optimización para analizar elcomportamiento natural, se invierte el orden de lastres etapas señaladas para la toma de decisiones.El comportamiento del sistema se deduce suponiendoque se comporta de un modo como para optimizaralguna medida dada de efectividad.El comportamiento del sistema queda completamenteespecificado al identificar el criterio de efectividad yaplicarle la teoría de optimización.

Teoría de Optimización

Síntesis Construcción de diseñosToma de decisiones

Análisis Compresión del comportamiento

OPTIMIZACIÓN

Programación matemática Objetivo: encontrar el mejor punto que optimice el modelo económico.

Métodos variacionales Objetivo: encontrar la mejor función que optimice el modelo.

Formulación matemática

Optimizar y(x), x = (x1,x2,...,xn) Sujeta a : fj(x) 0 j = 1,2,...,m

Formulación matemática Optimizar J[y(x)] = F[y(x),y’(x)]dx Sujeta a : restricciones algebraicas, Integrales o diferenciales

Métodos Analíticos Programación geométrica Programación lineal Programación dinámica (discreta) Programación no lineal Técnicas de búsqueda Principio del máximo (discreto) Programación cuadrática Programación separable Programación convexa Programación entera Programación combinacional Programación heurística

Métodos Cálculo de variaciones Programación dinámica (continua) Principio del máximo (continua)

COMIENZO PROGRAMACIÓN MATEMÁTICA

Punto Función o punto óptimo

Función

Métodos Variacionales

Hay restricciones en el problema Sí

No

Es posible usar multiplicadores de Lagrange No

Sí Forma función de Lagrange

Derive y resuelva ecuaciones diferenciales

Funciones objetivo y restricciones lineales No

Sí Resuelva usando Programación Lineal

Funciones objetivo y restricciones polinomios No

Sí Resuelva usando Programación Geométrica

Es posible formular el problema en etapas No

Sí Resuelva usando Programación Dinámica

Resuelva usando técnicas de búsqueda

La respuesta es satisfactoria?

SI PARE

REGRESA A LA PARTIDA

Representación gráfica de un problema de optimización

Figura (3.1a)

Mínimo local

Mínimo global

X2

X1

X2

Mínimo global

X1

Mínimo local

Figura (3.1b)

Mínimo

Figura (3.1c)

X2

Mínimo local

X1

Mínimo global

Figura (3.1d)

X2

X1

Figura (3.1e)

Óptimo

X1

X2

PROGRAMACIÓN NO LINEAL

TÉCNICASCONVENCIONALES(métodos analíticos)

Cálculo Diferencial Multiplicadores de Lagrange Teoría de Kuhn – Tucker Programación geométrica Programación cuadrática Programación convexa

TÉCNICAS DEBÚSQUEDA Y ESCRUTINIO

(métodos numéricos)

Técnicas de búsqueda unidimensional Técnicas de búsqueda multidimensional- Método de Newton-Raphson- Método ascenso acelerado- Métodos de búsqueda directa (Powell)- Métodos de gradiente (Fletcher, Davidon,

Powell)- Método de Broyden-Fletcher- Método de Fletcher-Reeves- Método de Smith- Métodos de función penalti- Método de las direcciones eficientes- Métodos de secuencias de problemas lineales- Método de secuencias de problemas

cuadráticos

TÉCNICAS DELINEALIZACIÓNTÉCNICAS DE

OPTIMIZACIÓN GRÁFICA

CLASIFICACIÓN DE TÉCNICAS DE PROGRAMACIÓN NO LINEAL

OPTIMIZAR TECNICA APLICACIÓN),,( 21 nxxxfF

No hay restricciones ni condiciones de no negatividad

CÁLCULO DIFERENCIAL 0

jxf ; (j = 1,2,...,n)

Esta condición da un sistemas de ecuaciones cuya solución permite obtener todos los puntos estacionarios o críticos. Por comparación se obtiene el óptimo global.

),,( 21 nxxxfF Sujeta a:

0),,( 21 ni xxxg (i = 1,2,...,m)

CÁLCULO DIFERENCIAL 0

jxf ; (j = 1,2,...,k)

Se despejan las variables en las restricciones y se sustituyen el al función objetivo. Se obtiene un sistemas de ecuaciones cuya solución permite obtener todos los puntos estacionarios o críticos. Por comparación se obtiene el óptimo global.


0),,( 21 ni xxxg (i = 1,2,...,m)

nm

MULTIPLICADORES DE LAGRANGE n

m

iiin xxxgxxxfLo ,,,,,, 21

121

Las variables no se pueden despejar en las restricciones


0),,( 21 ni xxxg (i = 1,2,...,m)

njx j ,...,2,1;0

CONDICIONES DE KUHN TUCKER

mnj xxxx ,,,;,,, 21**

2*

1*

Es el caso más general

Programación Nolineal (Non Linear Programming NLP)

• NLP: Conjunto de técnicas para optimizar funciones no-lineales sujetas a restricciones de igualdad o desigualdad. Tanto las funciones como las restricciones pueden ser de una o más variables

Formulación general de un problema de optimización• Encontrar x tal que

se minimice una función objetivo f(x)sujeto a restricciones: gi(x) = bi (i=1,…, m)

gj(x) bj (j=m,…, k)

Dondex es un vector de n variables independientes

Características de los problemas que trataremos mayormente en el curso

• Funciones objetivo y restricciones continuas con sus primeras derivadas parciales también continuas (suaves)

– Esto garantiza que pequeños cambios en x conlleve a pequeños cambios en valores asociados

• Inecuaciones estrictas no son permitidas (< ó >) solo se permiten restricciones de , e

• El problema debe ser determinístico

• Todas las variables deben ser reales, ninguna puede tomar únicamente valores enteros. (Continuous Programming)

• S dominio de f y gi sea una región conectada

Tipos de Problemas No-lineales

• Sin restricciones • Con restricciones

Tamaño de los Problemas• Una forma de medir la complejidad de los problemas es en función del

número de variables o del número de restricciones

• Pequeña Escala: hasta 5 variables y restricciones puede ser resuelto amano

• Escala intermedia: de 5 a 100 variables y restricciones ComputadorPersonal o Servidor de Propósito General

• Gran Escala: más de 100 y quizás 1000 variables y restricciones Mainframe para cálculo científico (cray), explotando la estructura delproblema con algoritmos paralelos

Tipos de Problemas No-lineales

• En el curso se estudiarán la teoría y los métodos que permiten efectivamente la solución de la más amplia variedad de problemas (pequeña y mediana escala principalmente)

• A pesar de que un gran número de algoritmos han sido propuestos para la solución del problema general de optimización no lineal, sólo unos pocos han demostrado ser efectivos cuando se aplican a problemas de “gran – escala”

• No existe un método general de optimización no lineal en el sentido como es SIMPLEX para problemas lineales

• Ninguno es tan superior para ser clasificado como la “panacea” universal de la NLP

Criterios de Comparación de Algoritmos

1. Número de evaluaciones de la función objetivo

2. Confiabilidad (Éxito en alcanzar la solución)

3. Rapidez

4. Tiempo de Preparación del usuario (sobre parametrización)

5. Precisión de la solución

6. Grado de satisfacción de las restricciones

7. Dificultad

Algoritmos Iterativos y Convergencia

• La mayoría de los algoritmos de NLP son iterativos

• En programación lineal existe una secuencia de longitud finita para alcanzar la solución

• En NLP la secuencia generalmente no alcanza la solución óptima sino que converge hacia ella

• En problemas no lineales se determina una solución lo suficientemente cercana a la óptima

xn xxxx 21

Solución Óptima

Algoritmos Iterativos y Convergencia

• La teoría de algoritmos iterativos se divide en:

1. Diseño del Algoritmo

2. Convergencia Global: Análisis de convergencia global (si eventualmente converge)

3. Convergencia Local: Análisis de convergencia local (la razón a la cual el algoritmo converge en la Solución óptima)

“Una buena teoría es mejor que miles de corridas”

• Esto da una idea de la manejabilidad de los problemas mediante un análisis simple lo cual es muy importante

Funciones de una variable

Continuidad de una función en un número• Se dice que f es continua en el número a si y solo si las siguientes

3 condiciones se satisfacen:

1. existe

2. existe

3.

af

xfax

lim

afxfax

lim

xsi

xsix

xxxf

1 ; 2

1 ;1

;132

Discontinuidad removible

2

1

x

xf

Discontinuidad Esencial

3 23 3

si xsi x x

xf

Teoremas sobre Continuidad

Teorema: Si f y g son continuas en a entonces:

• f + g es continua en a• f – g es continua en a• f x g es continua en a• f ÷ g es continua en a suponiendo que g(a) ≠ 0

Teorema: Una función polominal es continua en cualquier valor de las variables independientes

Continuidad en un Intervalo

Definición: Continuidad por la derecha

• Se dice que f es continua por la derecha del número a si y solo si satisface las siguientes condiciones:

Continuidad por la izquierda• Se dice que f es continua por la

izquierda del número a si y solo si,

existeafi )

ax

existe xf ii

lim)

ax

afxf iii

lim)

existeafi )

ax

existexfii

lim )

ax

afxfiii

lim )

Continuidad en un Intervalo

Definición: Una función cuyo dominio incluye el intervalo cerrado [a,b] se dice que es continua en [a,b] si y solo si es continua en el intervalo abierto (a,b), así como es continua por la derecha de a y continua por la izquierda de b

a b

• Definición: f es continua en [a,b) si y solo si es continua en (a,b) y continua por la derecha de a

• Definición: f es continua en (a,b] si y solo si es continua en (a,b) y continua por la izquierda de b

Diferenciabilidad y Continuidad

• La continuidad de una función no implica la diferenciabilidad de dicha función en ese número

• Sin embargo, la diferenciabilidad si implica la continuidad

Teorema: Si una función es diferenciable en x1, entonces f es continua en x1

xxf

Derivada de una Función

• La pendiente de la recta tangente a f(x) en el punto (x, f(x))

x

xfxxfx

xf

0lim

'

x

f(x)

Valores Máximos y Mínimos de una Función de una Variable

• La derivada puede utilizarse para determinar los puntos donde la tangente es horizontal (derivada = 0)

Extremos Relativos Definición: La función f se dice que tiene un valor máximo relativo en “c”, si existe un intervalo abierto que contenga a “c” sobre el cual está definida la función f tal que f(c) ≥ f(x) para toda x en este intervalo

C = C =

Valores Máximos y Mínimos de una Función de una Variable

Extremos Relativos Definición: La función f se dice que tiene un valor mínimo relativo en “c”, si existe un intervalo abierto que contenga a “c” sobre el cual f está definido tal que f(c) ≤ f(x) para toda x en este intervalo

cc

¿Dónde Localizar los Posibles Valores Extremos?

Teorema: Si f(x) existe para todos los valores de x en el intervalo abierto (a,b) y si f tiene un extremo relativo en “c”, donde a < c < b, entonces f ´(c) existe y f ´(c) = 0

C =C =

Si f es una función diferenciable, los únicos lugares posibles para puntos extremos es donde f ´(x) = 0


• Sin embargo, f ´(x) puede ser cero y no obstante en ese valor f no tiene un valor extremo (Punto de Silla)

• Más aún f puede tener un extremo relativo en un número y f’ puede no existir allí

31 xxf

213' xxf 01' f

1 xxf


En Resumen• Si una función está definida en un número “c” es una condición

necesaria, pero no suficiente, para que f tenga un extremo relativo en “c” que f ´(c) = 0 ó que f ´(c) no exista

Definición: Si c es un número en el

dominio de la función f y si f ´(c) = 0 ó

f ´(c) no existe, entonces “c” se llama

punto crítico de f

Extremos Absolutos

• Frecuentemente estamos en una función definida en un intervalo dado, y deseamos encontrar el valor mayor o menor de la función en el intervalo

• Estos intervalos pueden ser cerrados, abiertos o cerrados a un extremo y abierto en otro.

• El valor máximo absoluto es el mayor valor dentro del intervalo, y el valor mínimo absoluto es el mínimo valor de la función dentro del intervalo

Extremos Absolutos en un Intervalo

• Definición: La función f se dice que tiene un valor máximo absoluto en un intervalo, si existe algún número “c” en el intervalo tal que f(c) ≥ f(x) para toda x en el intervalo. En tal caso f(c) es el valor máximo absoluto de f en el intervalo

• Definición: La función f se dice que tiene un valor mínimo absoluto en un intervalo si existe algún número “c” en el intervalo tal que f(c) ≤ f(x) para toda x en el intervalo. En tal caso f(c) es el valor mínimo absoluto de f en el intervalo

• Valor extremo absoluto es un mínimo o máximo absoluto de la función en el intervalo

• También se puede hablar de extremo absoluto de una función cuando no se especifica ningún intervalo, en este caso se dice que es un extremo globalde la función

Teorema del Valor Extremo

• Si una función f es continua en el intervalo cerrado [a,b], entonces ftiene un valor máximo absoluto y un valor mínimo absoluto en [a,b]

• Un extremo absoluto de una función en un intervalo cerrado debe ser un extremo relativo o ser un valor de la función en un extremo del intervalo

C =C =

Procedimientos para la determinación de extremos absolutos en intervalo cerrado

1. Identificar valores de la función en los números críticos de f en [a,b]

2. Encontrar f(a) y f(b)

3. El mayor de estos es el máximo absoluto y el menor es el mínimo absoluto

Teorema de Rolle (Michel Rolle 1652-1719)

• Sea f una función continua en un intervalo cerrado, diferenciable en el intervalo abierto (a,b) y sean f(a) = 0 y f(b) = 0, existe al menos un número “c” entre a y b donde f ´(c) = 0

ca bca b

•Debe notarse que puede haber más de un número en el intervalo abierto para el cual la derivada es cero

a bc1

c2a bc1

c2

Teorema del Valor Medio

• Sea f una función continua tal que:i. es continua en el intervalo cerrado [a,b] ii. es diferenciable en el intervalo abierto (a,b)

• entonces existe un número “c” en el intervalo abierto (a,b) tal que:

ab

afbfcf

'f(c)

a bc

RT

RS

f(c)

a bc

RT

RS La tangente RT es paralela a la secante RS

Funciones Crecientes y Decrecientes y Criterio de la Primera Derivada

• Definición: Una función definida en un intervalo se dice que es creciente en ese intervalo si y solo si: – f(x1) < f(x2) siempre que x1 < x2 donde x1 y x2 son números del

intervalo

• Definición: Una función definida en un intervalo se dice que es decreciente en ese intervalo si y solo si: – f(x1) > f(x2) siempre que x1 < x2 donde x1 y x2 son números del

intervalo

• Si una función es creciente o decreciente en un intervalo, entonces se dice que f es monótona

Funciones Crecientes y Decrecientes y Criterio de la Primera Derivada

• Teorema: Si una función continua en el intervalo cerrado [a,b] y diferenciable en el intervalo abierto (a,b)

i. Si f ´(x) > 0 para toda x es creciente en el intervalo

ii. Si f ´(x) < 0 para toda x es decreciente en el intervalo

Criterio de la Primera derivada para Extremos Relativos

• Si una función continua en el intervalo abierto (a,b) que contiene un número crítico “c” y f es diferenciable, excepto, posiblemente en “c” .

Si c es un extremo entonces:

– f ´(x1) > 0 donde x1 < c

– f ´(x2) > 0 donde c < x2

• en este caso c es un máximo relativo

f’ = 0

f’ < 0f’ > 0

f’ = 0

f’ < 0f’ > 0

Máximo Relativo

f’ = 0

f’ < 0 f’ > 0

f’ = 0

f’ < 0 f’ > 0Lo contrario aplica para Mínimo Relativo

Criterio de la Segunda Derivada

• Sea “c” un número crítico de una función en la cual f ´(c) = 0 y fexiste para todos los valores de x en algún intervalo abierto que contenga a “c”. Entonces si f ´´(c) existe y,

– Si f ´´(c) < 0, f tiene un valor máximo relativo en “c”

– Si f ´´(c) > 0, f tiene un valor mínimo relativo en “c”

• Nótese que si f ´´(c) = 0 nada puede concluirse

• Teorema: Sea f una función continua en el intervalo I que contiene al número crítico c. Si f(c) es un extremo relativo de f en Iy es el único, entonces f(c) es un extremo absoluto de f en I. Además,

– Si f(c) es un máximo relativo es un máximo absoluto

– Si f(c) es un mínimo relativo es un mínimo absoluto

Formula de Taylor (Brook Taylor 1685 – 1731)

• Ciertas funciones pueden ser aproximadas por polinomios y el polinomio puede ser usado cuando la diferencia es pequeña

• Teorema: Sea f una función tal que f y sus n primeras derivadas son continuas en el intervalo cerrado [a,b]. Además, fn+1(x) existe para toda x en el intervalo abierto (a,b). Entonces hay un número en el intervalo abierto (a,b) tal que,

Si n = 0 f(b) = f(a) + f ´()(b – a) Teorema del valor medio

1

12

!1!!2!1'

nn

nn

abn

fabn

afabafabafafbf

Polinomio de Taylor

nn

axn

afaxafaxafafxn

!!2!1

2

Residuo axentreestádondeaxn

fxRn nn

y !1

11

Funciones de Varias Variables (Campos Escalares)

Continuidad de Campos Escalares• Sea f una función de varias variables y a un vector de variables, se

dice que f es continua en a si

definida está y existe afi)

existe xfiiax

lim)

afxfiiiax

lim)

si esta falla entonces existe una discontinuidad esencial

si esta falla entonces existe una discontinuidad evitable

Funciones de Varias Variables (Campos Escalares)

Operaciones sobre funciones continuas

• Si f y g son continuas en a entonces:

– f + g– f – g– f x g

– f ÷ g es continua, si g(a) ≠ 0

Son continuas

Derivada direccional• La derivada direccional permite tener información del

comportamiento de la función si sus variables se modifican siguiendo el sentido indicado por el vector gradiente

• La Derivada direccional de f en p según el vector unitario [ D f(p) ] es el producto escalar del gradiente en p, por :

D f(p) = f(p)T

¿En qué sentido deberían desplazarse las variables de f, partiendo del punto p, para que los valores de f crezcan más rápidamente?

Derivada direccional• Como la rapidez está dada por : f(p)T

• En esta expresión se suponen ya conocidos f y p; faltando conocer “” que haga máximo el producto escalar

• Siendo f(p)T = f(p). Cos = f(p).(1). Cos

• Donde : , es el ángulo formado por los vectores f(p) y

f(p)T , será máximo si y sólo si Cos es máximo, ósea cuando = 0 y f(p) con son colineales. Lo cual significa que el vector unitario debe tener el mismo sentido que el vector gradiente de fen p

pfpf

significa que el vector gradiente de una función f en un punto p, f(p), de su dominio se orienta en el sentido en el cual f crece mas rápidamente

Derivada direccionalf(x,y) = -20 + 3x2 +y2

f = [6x2y]

x

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-18

-16

-14

-12

-10

-8

-6

-2-1

01

2

-2-1

0

12

-20

-15

-10

-5

0

Gradiente

• Derivadas Parciales: Son derivadas direccionales especiales, las direcciones son las de los ejes coordenados

• Definición: Si f:u R, u Rn, la derivada de f en un punto x0 u es el vector cuyos componentes son las derivadas parciales de f en x0. A esto se le llama Gradiente

,,yf

xf

nxxf

xxf

xxf

xf 0

2

0

1

00 ,,,

Gradiente

• El gradiente de una función escalar de n variables f(x1, x2,…, xn,), denotado por f, es el vector n-dimensional

nxxf

xxf

xxfxf ,,,

21

•El gradiente de una función en un punto indica la dirección, a partir de ese punto, en la que dicha función crece más rápidamente y, además, la dirección ortogonal a las curvas de nivel de f (curvas en las que la función tiene un valor constante)

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

0

2-20

-15

-10

-5

0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Diferenciabilidad de funciones de varias variables

• Teorema: Si f : u R, u Rn, es diferenciable en x entonces es continua en x

– El reciproco es falso: Una función puede ser continua sin ser diferenciable

• Teorema: (Condición de suficiencia de diferenciabilidad)Si f : u R, u Rn, posee derivadas parciales continuas en x0 uentonces f es diferenciable en x0

– Sin embargo, una función puede ser diferenciable en un punto sin que sus derivadas parciales sean continuas, en dicho punto

• Definición: Decimos que una función es de clase Ck en u Rn, y escribimos f Ck(u), si todas sus derivadas parciales de orden kexisten y son continuas en u

Formula de Taylor en Varias Variables

• En una notación mas convencional y compacta

donde,

jjji

ii

n

j

n

iojjj

n

jxx

xxxf

xxxxxxf

xfxf 00

2

011

0

10 !21

00000 !21 xxxxxxxfxfxf TT

nx

fxff ,,1

2

2

2

2

1

22

2

22

2

12

21

2

21

2

21

2

nnn

n

n

xf

xxf

xxf

xxf

xf

xxf

xxf

xxf

xf

Gradiente

Hessiano

Extensión de los Criterios de Existencia de Máximo y Mínimos

• Los puntos críticos son aquellos donde f = 0 o no existe

• Alguna medida de “positividad” del Hessiano nos dirá si es un máximo o un mínimo

• Teorema de Weierstrass (Extensión del teorema de Valor Extremo):

Una función continua f, definida en un conjunto compacto S cerrado y acotado (definido y no se va a infinito) tiene al menos un mínimo y un máximo en S

Formas cuadráticas

• Definición: Una forma cuadrática es cualquier campo escalar (Rn R), definido para todo x en Rn que sigue la siguiente forma:

donde aij R puede ser cero• Una forma cuadrática no incluye ningún término lineal

• Cualquier forma cuadrática puede ser expresada en notación matricial como

donde aij son elementos de la matriz A

jiij

h

j

h

ixxaxq

11

2221

2121 847, xxxxxxq

Axxxq t

Formas cuadráticas

• Es claro que

para todo i j

• Por lo tanto una forma cuadrática puede ser representada equivalentemente por muchas matrices A o conjuntos de coeficientes aij

• Sin embargo, para una forma cuadrática q(x) dada existe sólo una matriz simétrica (cuadrada tal que D = DT) que satisface q(x) = xTDxcuyos elementos están definidos por:

para todo i j

jijiijijjijiij xxaaxxaxxa

2

jiijjiij

aadd

2

2212121 , cxxbxaxxxq

2

12121

2/2/

,xx

cb

ba

xxDxxxxq t

Formas cuadráticas

• Ejemplo 2

2212121 , cxxbxaxxxq

2

12121

2/2/

,xx

cb

ba

xxDxxxxq t

12

82

A

2

12121

2221

21

221221

2121

1332

,

62822,

xx

xxxxq

xxxxxxxxxxxxq

Propiedades de las formas cuadráticas

• Definición: la forma cuadrática q(x) = xTDx es definida positiva si q(x) > 0 para todo x ≠ 0 en En

• Definición: la forma cuadrática q(x) = xTDx es semidefinida positiva si q(x) ≥ 0 para todo x En, pero q(x) no es definida positiva

• Definición: la forma cuadrática q(x) = xTDx es definida negativa si q(x) < 0 para todo x ≠ 0 en En

• Definición: la forma cuadrática q(x) = xTDx es semidefinida negativa si q(x) 0 para todo x En, pero q(x) no es definida negativa

La matriz D (única y simétrica) de una forma cuadrática definida positiva es definida positiva


• Si no satisface ninguna de las cuatro definiciones anteriores se dice que la forma cuadrática es indefinida. Esto es si q(x1) > 0 y q(x2) < 0 es indefinida, donde x1 y x2 Rn

22

2121 10, xxxxq

Es definida positiva

22

2121 10, xxxxq

Es definida negativa


• Sea D una matriz simétrica de n x n definida positiva, entonces:

a) D-1 existe

b) D-1 es definida positiva

c) ADAT es semidefinida positiva para cualquier matriz A mxn

Clasificación de formas cuadráticas

Método de los autovalores

• Sea q(x) = xTDx una forma cuadrática, con D matriz simétrica. Sean 1, 2,… n los n autovalores de la matriz D. Entonces:

a) q(x) es definida positiva si y sólo si i > 0 i

b) q(x) es definida negativa si y sólo si i < 0 i

c) q(x) es semidefinida positiva si y sólo i 0 i, siendo al menos un j = 0

d) q(x) es semidefinida negativa si y sólo i 0 i, siendo al menos un j = 0

e) q(x) es indefinida si y sólo si algún i > 0 y algún j < 0

Funciones Convexas

• Estamos particularmente interesados en la optimización de este tipo de funciones sobre los llamados conjuntos convexos

• Definición: Un conjunto X en En(Rn) es convexo si y sólo si para dos puntos cualquiera x1 y x2 en X y cualquier valor escalar 0 1, el punto x = x1 + (1 - ) x2 también está dentro de X

x1

x2

x2

x1

Convexo No Convexo

x1

x2

x1

x2

x2

x1

x2

x1

Convexo No Convexo

Una esfera, un triángulo, el espacio Rn, una línea recta y un punto son conjuntos convexos. Un hiperplano también es un conjunto convexo

Funciones Convexas

• Definición: Una función escalar f(x) es una función convexa definida sobre un conjunto convexo X en En si para dos puntos cualquiera x1 y x2 en X

donde 0 1

2121 11 xfxfxxf

a c b

A

B

a c b

A

B

bafBC

bfafAC

1

1

Funciones Convexas

• Las funciones convexas tienen una caracterización geométrica simple e informativa

• Teorema: Cualquier función lineal f(x) = cTx es tanto cóncava como convexa

• Teorema: Si f(x) es convexa -f(x) es cóncava (y viceversa)

• Teorema: La suma de 2 o más funciones convexas es convexa

• Teorema: Cualquier forma cuadrática semidefinida positiva q(x) = xTDx donde D es simétrica, es una función convexa en todo En, y si D es definida positiva es estrictamente convexa

• Teorema: Cualquier forma cuadrática semidefinida negativa q(x) = xTDx donde D es simétrica, es una función cóncava en todo En, y si D es definida negativa es estrictamente cóncava

Funciones Convexas

• Dada una función cuadrática representada como

es convexa o cóncava si q(x) es convexa o cóncava

• Podemos notar la similitud con el polinomio de Taylor

0cxcxqxf t

000000 21 xxxxxxxxfxfxf tt

Funciones Convexas

• Teorema: Si la función f(x) está definida y es convexa sobre un conjunto convexo X en En, luego cualquier mínimo local (con restricción) de f(x) en X es un mínimo global en X

• Teorema: Si la función f(x) está definida y es cóncava sobre un conjunto convexo X en En, luego cualquier máximo local (con restricción) de f(x) en X es un máximo global en X

• Teorema: Si una función f(x) es convexa sobre un conjunto Xcompacto y convexo (cerrado y limitado) en En entonces al menos un máximo global se encuentra sobre el borde de X

Criterios de la primera y segunda derivada

• Teorema: Supongamos que f(x) tiene primeras derivadas parciales continuas. Luego f(x) es cóncava sobre alguna región R en En si y sólo si

similarmente, f(x) es convexa sobre alguna región R en En si y sólo si

xxxfxfxf t

xxxfxfxf t

Convexa

x*x

Cóncavax* x

Plano tangente

Plano tangente

Convexa

x*x

Cóncavax* x

Plano tangente

Cóncavax* x

Plano tangente

Plano tangente


• Teorema: Sea f(x) una función C2 (segundas derivadas parciales existen y son continuas). Entonces f(x) es convexa sobre una región R en En si y sólo si su Hessiano es definido o semidefinido positivo para toda x de la región R


• Teorema de Schwartz: Si f(x,y) es tal que

son continuas en un entorno de un punto (x0,y0), entonces

existe y se cumple que

• Como la matriz Hessiano es simétrica la definición definida y semidefinida positiva para formas cuadráticas es aplicable directamente

• Una función puede ser convexa o concava y su Hessiano puede “desaparecer” en algunos puntos (matriz de ceros)

yxfy

yf

xf

2

,

00

2

yxxy

f

00

2

00

2

,, yxyxfyx

xyf

Optimización Sin Restricciones

Formulación del problema de optimización• Cualquier problema de optimización, por complejo que sea, puede

expresarse en los siguientes términos

Encontrar un vector x tal que se minimice una función objetivo f(x)Sujeto a restricciones de la forma:

donde x es un vector de variables independientes

• La función objetivo puede tener un solo mínimo, en cuyo caso se denomina unimodal, o varios mínimos locales o globales, en cuyo caso se denomina multimodal

m1,...,k0gk

x

Clasificación de problemas de optimización

• De acuerdo a la forma de f(x) y las restricciones:– Programación Lineal: f(x) y las restricciones son lineales– Programación No-lineal: f(x) es no-lineal y las restricciones pueden ser

no-lineales• De acuerdo a la presencia o no de restricciones:

– Optimización no restringida: El problema de optimización no tiene restricciones

– Optimización restringida: El problema de optimización tiene restricciones

• Según su dimensionalidad: – Optimización unidimensional: función objetivo de una variable– Optimización multidimensional: función objetivo de varias variables

• Según el número de funciones objetivo:– Optimización con un objetivo: Una sola función objetivo– Optimización con múltiples objetivos: varias funciones objetivo

Clasificación de problemas de optimización

• Existen varios métodos para resolver un problema de optimización

• Estos métodos pueden agruparse en dos grandes clases:

– Métodos de optimización basados en derivadas

– Métodos de optimización no basados en derivadas

Métodos de optimización basados en derivadas

Métodos básicos de descenso• Son técnicas básicas utilizadas en la solución iterativa de

problemas de minimización sin restricciones

• Ofrecen la forma más simple y directa de resolver estos problemas

• Ofrecen en términos prácticos una referencia con relación a la dificultad de implementación y velocidad de convergencia

• En general, las técnicas avanzadas se comparan con estas técnicas básicas

Estructura básica de los métodos básicos de descenso

1. Se inicia en un punto, x0

2. Se determina la dirección de descenso mediante una regla fija (Primera diferencia entre algoritmos)

3. Luego, se busca el mínimo en esa dirección (Búsqueda lineal)

• La forma general de los métodos básicos de descenso se puede expresar como,

dxx 01

Búsqueda Lineal

• Las técnicas de búsqueda lineal son realmente procedimientos de optimización para una sola variable, los cuales son realizados repetidamente en problemas de varias variables

• La elección de una dirección de búsqueda tiene un alto costo computacional, es por ello que los métodos de descenso basados en gradiente sufren modificaciones con el objeto de minimizar o reducir el número de cálculos de gradiente, Hessiano, e inversión de matrices

• La modificación fundamental consiste en reducir el problema a uno de optimización a lo largo de la dirección de descenso

Búsqueda Lineal

• Específicamente se debe resolver el sub-problema de optimización:

– Encontrar , tal que

donde d es la dirección de descenso

• Hallado el óptimo se inicia una nueva iteración de descenso

)(min df

1ix

Búsqueda Lineal

• Este sub-problema es sensiblemente más sencillo que la optimización general ya que es un problema de una dimensión con una única variable,

• La elección de un método adecuado de búsqueda lineal es de gran importancia en un algoritmo de optimización

• La búsqueda lineal es responsable de un alto porcentaje del costo de la evaluación de la función objetivo

Tipos de Métodos de Búsqueda Lineal

• Directos– Gradiente– Newton– Quasi-Newton– Secante

• Interpolación Polinómica– Cuadrática– Cúbica– DSC (Davies, Swann y

Campey)

• Basados en intervalos– Bisección– Búsqueda de Fibonacci– Búsqueda Dorada

• Métodos Inexactos– Armijo– Goldstein

Búsqueda de Fibonacci

• Este método determina el mínimo valor de una función f sobre un intervalo cerrado [c1, c2]

• Esta función puede estar definida en un dominio más amplio, pero el método requiere que dicho intervalo de búsqueda sea definido

• Se asume que f es unimodal

• El mínimo es determinado (al menos aproximadamente) mediante la evaluación en un cierto número de puntos

• Se pretende definir una estrategia de búsqueda que seleccione la observación siguiente basada en los valores funcionales de las observaciones anteriores


• Esto se define según el siguiente problema:

– Encontrar como seleccionar sucesivamente N observaciones, sin contar con un conocimiento explícito de la función, de forma tal que podamos encontrar la más pequeña región de incertidumbre posible en donde se encuentre el mínimo

• Esta región de incertidumbre es determinada en cualquier caso por: las observaciones (sus valores funcionales) y la suposición de que fes unimodal.

• Luego que encontremos los valores funcionales en N puntos dentro del intervalo cerrado [c1, c2]

c1 x1 … xN-1 xN c2

• La región de incertidumbre es el intervalo [xk-1, xk+1] donde xk es el mínimo de los N puntos evaluados. En ese intervalo se encuentra el mínimo


• La estrategia para seleccionar sucesivamente observaciones para obtener la región de incertidumbre más pequeña se describe a continuación:

• d1 = c2 – c1; es la amplitud inicial de la incertidumbre

• dk es la amplitud de la región de incertidumbre luego de kobservaciones

• Si son realizadas N observaciones se tiene que

• Donde Fk son los números de la secuencia Fibonacci generados por la relación:

• FN = FN -1 + FN -2 donde F0 = F1 = 1

• Donde cada número después de los dos primeros representa la suma de los dos precedentes

11 d

FF

dN

kNk


Procedimiento para la reducción de la sección de incertidumbre:

1. Especificar N, y calcular los números de la serie Fibonacci {F0, F1,…, FN}

2. Calcular

3. Colocar simétricamente desde los extremos del intervalo inicial a distanciados observaciones

4. De acuerdo a donde se encuentre la muestra con menor valor funcional se determina la región de incertidumbre,

1. La tercera muestra es colocada simétricamente dentro de este nuevo intervalo con respecto a la observación ya incluida en el intervalo, de forma tal que la amplitud de la región de incertidumbre sea

N

N

FF 1

11 d

FF

N

N

11

2 dF

Fd

N

N

12 d

FF

N

N

Búsqueda de la Sección Dorada

• La primera condición específica que la suma de las dos sublongitudes l1 y l2 debe ser igual a la longitud original del intervalo

• La segunda indica que el cociente o razón de las longitudes debe ser igual

210 l l l

1

2

0

1

ll

ll

xl xu

l0

l1 l2

Primera Iteración

xl xu

l0

l1 l2

Primera Iteración

1

2

21

1

ll

lll

1

2

llR

RR 11 012 RR

61803.0

215

21411

R

La Razón Dorada

Búsqueda de la Sección Dorada1. Se comienza con los valores

extremos del intervalo xl, xu que contienen el extremo local de f(x)

2. Dos puntos interiores de escogen de acuerdo a

• x1 = xl + d

• x2 = xu - d

1. Se evalúa la función en los dos puntos interiores

• Si f(x1) < f(x2) xl = x2; x2 = x1;

• Si f(x2) < f(x1) xu = x1; x1 = x2;

xl xu

l0l1 l2

Primera Iteración

l2Segunda Iteración

xl xu

l0l1 l2

Primera Iteración

l2Segunda Iteración

lul xxxx

2

151

luu xxxx

2

152

lu xxd

2

15

x1x2

xux1xl

Ajuste Cuadrático (Método DSC, Davies, Swann y Campey)

• El método DSC es un método de búsqueda lineal por ajuste de curvas (interpolación polinómica), es recomendado para determinar la región donde se encuentra el mínimo en funciones de una sola variable

• En la búsqueda unidimensional DSC, se toman pasos cuya dimensión se va incrementando sucesivamente hasta que el mínimo es sobrepasado y luego se realiza una interpolación cuadrática

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)


1. Se evalúa f(x) en el punto inicial x(0)

- Si f(x(0) + x) f(x(0)), pase al paso 2- Si f(x(0) + x) > f(x(0)), haga x = x/2 y repita el paso 1

2. Calcule x(k+1) = x(k) + x

3. Calcule f(x(k+1))

4. Si f(x(k+1)) f(x(k)), duplique x(x = 2x) y regrese al paso 2 con k = k+1Si f(x(k+1)) > f(x(k)), denote x(k+1) como x(m), x(k) como x(m-1), etc., se reduce x a la mitad y se regresa al paso 2 y 3 para un solo cálculo adicional

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)


1. De los 4 valores igualmente espaciados de x en el conjunto {x(m+1), x(m), x(m-1), x(m-2)}, descarte x(m) o x(m-2), el que esté más lejano de la x de menor valor funcional. Los tres valores restantes del conjunto pueden ser denotados como x(a), x(b), x(c), donde x(b) es el punto central y x(a) = x(b) - x y x(c) = x(b) + x

2. Se realiza una interpolación cuadrática para estimar x* (el valor de la variable independiente correspondiente al mínimo de f(x))

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)

x(m-3)

1

x 2x 4x 8x

x(m-2) x(m-1) x(m+1) x(m)

2

3

46

5

f(x)

cba

cab

xfxfxfxfxfxxxx

22*ˆ*

donde x = x(a) - x(b)

Ajuste Cúbico

• Dados xk-1 y xk junto a f(xk-1), f ’(xk-1), f(xk), y f ’(xk) es posible ajustar una ecuación cúbica en los puntos

• El punto xk+1 (mínimo) puede ser determinado como el punto mínimo relativo de esta ecuación cúbica

21

1211 2''

'uxfxf

uuxfxxxx

kk

kkkkk

21

12

12

1

111

''

3''

kk

kk

kkkk

xfxfuu

xxxfxf

xfxfu

donde,

Método del Gradiente

• Supongamos que f(x) es una función de una variable a ser minimizada y que f(x) y f ’(x) existen

xk+1 = xk – f ’(xk)

• Un factor de escalamiento es empleado para escalar el gradiente

xk+1 = xk – f ’(xk) Método del gradiente modificado

•El valor de (0,1], es decir, es un parámetro ajustable seleccionado por el usuario

•Es deseable que decrezca a medida que progresa la búsqueda, lo que hace que tengamos dos parámetros por ajustar: 0 y la tasa de disminución de

•Con el método de Newton tales parámetros son calculados directamente en cada iteración

xk

f’(x)

xk+1

f(x)

xk

f’(x)

xk+1

f(x)

Método de Newton

• Supongamos una función f de una variable a ser minimizada y supongamos que en xk es posible evaluar f(xk), f ’(xk) y f ”(xk)

• Entonces es posible construir una función cuadrática a partir del desarrollo de Taylor:

• Se puede estimar xk+1 determinando el punto donde la derivada de qse hace cero

2''21' kkkkk xxxfxxxfxfxq

0'''' 11 kkkkk xxxfxfxq

k

kkk xf

xfxx

'''

1

xk xk+1

f(x)

xk xk+1

f(x)

Método de Newton

Implementación• Para la implementación de este método en una función de varias

variables es necesario calcular la primera y segunda derivada de la función como derivadas direccionales, obteniendo un valor escalar, de la siguiente manera,

donde d es el vector unitario de la dirección de descenso

dxfxf kk

'

dxHdxf kT

k

''

Método Quasi-Newton

• Cuando no es posible evaluar analíticamente las primeras y segundas derivadas, se pueden emplear métodos de diferencias finitas para calcularlas:

2

2''2

'x

xxfxfxxfxfx

xxfxxfxf

Búsqueda Lineal Inexacta

• En la práctica no se determina el mínimo de la búsqueda lineal en forma exacta

• En este sentido, es deseable sacrificar precisión en la búsqueda lineal con el propósito de favorecer el tiempo de computo general

• Recordemos que el mínimo en una búsqueda local no tiene porque ser el mínimo de la función

• La imprecisión es generalmente introducida simplemente terminando la búsqueda lineal antes de que converja

• La naturaleza exacta de la imprecisión depende de:

– La técnica de búsqueda empleada

– El criterio de parada


Criterios de terminación de la búsqueda lineal

• Prueba de porcentaje: Sea xk+1 = xk + d; este criterio determina para estar dentro de un porcentaje del verdadero valor

• Específicamente, se selecciona una constante c tal que 0 < c < 1 (típicamente c = 0.1) y el parámetro en la búsqueda lineal es determinado de forma tal que satisfaga | - *| ≤ c* donde * es el verdadero valor de minimización


Regla de Armijo

• Primero garantiza que no sea muy grande y luego que no sea muy pequeño

• La regla de Armijo es implementada al considerar la función

(0) + ’(0) para 0 < < 1

• Esta función está representada por la línea segmentada en la figura

kk dxf

Intervalo aceptable

Intervalo aceptable


Regla de Armijo

• Un valor de se considera que no es muy grande si el valor de lafunción cae debajo de la línea punteada; es decir, si

() (0) + ’(0)

• Para asegurar que no sea muy pequeño, se selecciona un valorde > 1, y se considera que no es muy pequeño si

() > (0) + ’(0) ,

Intervalo aceptable

Intervalo aceptable

•Esto quiere decir que si es aumentado por unfactor , falla el criterio anterior que requeríaque el valor de la función estuviera por debajode la línea punteada

•La región aceptable definida por la regla de Armijo en la figura corresponde a un valor de igual a 2


Regla de Armijo

• En la práctica, la regla de Armijo es utilizada para definir una técnicade búsqueda lineal simplificada que no utiliza el ajuste de curvas

1. Se define un arbitrario

2. Si se satisface () (0) + ’(0) ; el valor de es aumentadorepetidas veces por hasta que ya no se satisface esta desigualdady se selecciona el penúltimo

3. Si () > (0) + ’(0) ; el inicial se considera muy grande y sedivide repetidas veces por hasta que se consiga un apropiado

• Valores típicos: = 2, y = 0.2

Método del Descenso más Rápido

• Este método, denominado también método del gradiente, es una de las técnicas más antiguas para minimizar una función definida en un espacio multidimensional

• Su filosofía es muy sencilla: la dirección contraria a la del vector gradiente en un punto es la dirección de más rápido decrecimiento de la función en ese punto

• El procedimiento a seguir es el siguiente:1. Se selecciona un punto inicial sobre la superficie y se determina el

gradiente en ese punto2. Se determina un nuevo punto según la fórmula:

donde es un número positivo, dado por algún método de búsqueda lineal

1. Se repite el paso 2 hasta que se encuentre un punto xi+1 tal que

ii1i xfxx

0 1ixf


• Ejemplo 1:

Evolución del método para un = 0.25

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Evolución del método para un = 0.9

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


• Ejemplo 2: Se desea minimizar la función 22 yx320)y,x(f

Esta función es unimodal

El mínimo está ubicado en el punto (0,0)

Supongamos que se asume como punto inicial, el punto (-1.7, 1.7)

El gradiente en un punto cualquiera es,f = {6x, 2y}


• Ejemplo 2: Se desea minimizar la función 22 yx320)y,x(f

Las curvas de nivel de esta función son de

forma elíptica, y el cambio de la dirección

de búsqueda de una iteración a otra, se

observa en la trayectoria en forma de

zigzag

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Método de Newton

• En este caso, la dirección de búsqueda se determina utilizando la segunda derivada de la función objetivo

• El método aproxima la función objetivo f en la vecindad de un mínimo con una serie de Taylor truncada hasta el término de segundo orden,

• Dado que la aproximación fa es una función de segundo orden, ésta es unimodal, y su mínimo es una buena aproximación del mínimo de la función objetivo

• El mínimo de la función fa se determina haciendo fa´= 0 y calculando el valor de xi que satisface la ecuación

1ifT

1i1i1ia xxHxxxxfxfxf 21

0 1iif xxHf

Método de Newton

• Si la inversa de Hf existe, se tiene que:

• Que es el denominado método de Newton o de Newton-Raphson

fHxx 1f1ii

Direcciones de búsqueda calculada por los métodos de descenso más rápido y de Newton

Método de Newton

• Ejemplo 3: Se desea minimizar la función

utilizando el método de Newton

22 yx320)y,x(f

El gradiente en un punto cualquiera es,f = {6x, 2y}

mientras que el Hessiano es la matriz

21 0

0 61

2 00 6 1

fHH f

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

La aproximación de esta función utilizando la serie de Taylor es exacta, debido a que es una función cuadrática

Método de Newton

• En los casos en los que la función no es cuadrática, se hacen aproximaciones sucesivas del mínimo utilizando la ecuación

• donde es positivo, hasta que se encuentra un valor cercano al extremo mínimo relativo, según una tolerancia especificada

• En cada punto en los que se evalúe la ecuación anterior, debe ocurrir que el Hessiano sea una matriz positiva definida, para que la dirección de búsqueda sea una dirección descendente

• En general, la condición de matriz positiva definida se cumple en la vecindad del mínimo, pero no existe garantía que ocurra en puntos lejanos al mismo

fHxx 1f1ii

Método de Levenberg-Marquardt

• Está dado por la ecuación

• donde y son positivos e I es la matriz identidad• La idea es seleccionar de manera que la matriz I - Hf sea positiva

definida• La ecuación anterior se aproxima al método del descenso más

rápido si , y al método de Newton 0

fHIxx 1ii

1f

Estrategia de descenso

• En la práctica se utilizan estrategias de descenso que utilizan varios métodos, de la siguiente manera:

1. Se inicia con el método de Newton, si no hay descenso (la matriz Hessiano NO es definida positiva)

2. Se emplea el método de Levenberg-Marquardt con un inicial, por ejemplo k = 0.001, se realiza la factorización de Cholesky a la matriz para verificar si es definida positiva. Si la factorización de Cholesky falla (i.e. la matriz no es definida positiva) se incrementa en una razón, k = k

3. Si no hay descenso después de varios intentos (por ejemplo 10), se emplea el método del descenso más rápido

Descomposición de Cholesky

• La descomposición o factorización de Cholesky expresa una matriz simétrica como el producto de una matriz triangular y su transpuesta

A = L·LT L: matriz triangular inferior

• No todas las matrices simétricas se pueden factorizar de esta forma

• Las matrices que tienen este tipo de factorización son las matrices simétricas definidas positivas. Esto implica que todos los elementos de la diagonal sean positivos y que los elementos fuera de la diagonal no sean muy grandes

Seudo código para la descomposición de Cholesky

for k = 1:nfor i = 1:k-1

sum = 0;for j = 1:i-1

sum = sum + A(i,j)*A(k,j);endA(k,i) = (A(k,i) - sum)/A(i,i);

endsum = 0;for j = 1:k-1

sum = sum + A(k,j)^2;endA(k,k) = sqrt(A(k,k) - sum);

end

Sabemos reconocerlas, ycalcularlas como soluciones de sistemas de ecuaciones, o de desigualdades

Buscamos métodos de cálculo generales y eficientes

Problemas de optimizaciónSoluciones

Métodos iterativos: No existen métodos directos generales Se parte de un valor x0, y se genera una

sucesión { xk }k=0 con la propiedad de quelimk xk x*

y x* cumpla algunas condiciones de extremo

Soluciones de problemas de optimización

Consideremos el problema minx f (x )Buscaremos un punto que cumpla

f (x* ) = 0Si xk no cumple la condición, se genera otro punto a partir de

f (xk+p ) = 0

Problema sin restricciones


Problema tan difícil como el originalPuede aproximarse: Encontrar la solución de

f (xk ) + 2f (xk )p = 0 o resolver

minp f (xk )Tp + ½pT 2f (xk )p


Interpretación gráfica del problema de optimización aproximado

Problemas sin restricciones

Método de Newton básico:1) Partir de un valor inicial x0

2) Comprobar si f (xk ) < 3) Si no lo es, calcular un vector p a partir de

2f (xk )p = - f (xk ) 4) Obtener el siguiente punto como xk+1=xk +pk


Ejemplo:x1min f (x )

(1+x12) (1+x2

2)Punto inicial:

x0 = [ -0.4 0.3 ]T

Solución:x * = [ -1 0 ]T


Método de Newton:2.1) Gradiente:

f (x0 ) = [0.573 0.174]T, f (x0 ) = 0.599

3.1) Dirección de movimiento:1.335 -0.315 0.573

H0p0 = -g0 , p0 = --0.315 0.485 0.174

-0.607p0 = -0.754


4.1) Nuevo punto: x1 = x0 + p0 = [-1.007 -0.454]T

2.2) Gradiente:f (x1) = [-0.003 -0.312]T, f (x1) = 0.312

3.2) Dirección de movimiento:0.406 -0.002 -0.003 0.011

p1 = - , p1= -0.002 0.452 -0.312 0.690

4.2) Nuevo punto: x2 = x1 + p1 = [-0.996 0.236]T


2.3) Gradiente:f (x2) = [0.002 0.212]T, f (x2) = 0.212

3.3) Dirección de movimiento:0.479 -0.001 -0.002 -0.004

p2 = - , p2 = -0.001 0.802 -0.212 -0.264

4.3) N. punto: x3 = x2 + p2 = [-1.000 -0.028]T

2.4) Gradiente:f (x3) = [-0.000 -0.028]T, f (x3) = 0.028


Dificultades del método de Newton:

No convergencia:

porque tiende a infinito, o

porque no existe solución del sistema de

ecuaciones

Convergencia a máximos o puntos de silla


Procedimiento para converger a mínimos:

emplear segundas derivadas

direcciones de curvatura negativa

forzar el decrecimiento de la función objetivo

cerca de puntos de silla o máximos

modelos cuadráticos convexos relacionados


Procedimiento usual: descenso obligado

En cada iteración se definexk+1 = xk + k pk

y se fuerza a que se cumpla:f (xk )Tpk < 0

f (xk + k pk ) - f (xk ) kf (xk )Tpk

[ 10-4 , 0.1 ]


Cambios en el cálculo de p. Hace falta: Asegurar que existe solución del sistema, y garantizar que es dirección de descenso,

f (xk )Tpk < 0

Para ello bastaría con que2f (xk ) d.p.


Método de Newton modificado. Se resuelve el sistema de ecuaciones

Mk pk = - f (xk )donde Mk cumple que Es definida positiva, y

se parece todo lo posible a 2f (xk )


Construcción de la matriz Mk

Añadir un múltiplo de la identidad:

Mk = 2f (xk ) + I - min(0 , min (2f (xk )) - )

Todos los autovalores se modifican en la cantidad


Construcción de la matriz Mk

Cambiar los autovalores de la matriz:

2f (xk ) = UUT,Mk = UUT, i = max( , i )

se conservan los autovectores

Otros métodos: Choleski modificado, etc.


x1Ejemplo: f (x ) (1+x1)2 (1+x2)2

-1.29 0.24x0 = [ 0.5 -0.3 ]T, 2f (x0 ) = 0.24 -0.56

(2f (x0 )) = [ -1.36 -0.49 ]

Matriz definida negativa


Ejemplo:0.08 0.24

Mk = Hk + I = Hk + 1.37I =0.24 0.81

0.96 0.29 -1.36 0.96 -0.29Hk =

-0.29 0.96 -0.49 0.29 0.96

0.96 0.29 -1.36 0.96 -0.29 1.29 -0.24Mk = =

-0.29 0.96 -0.49 0.29 0.96 -0.24 0.56


Estos cambios no son suficientes Posibilidad de diverger (converger a

infinito) Posibilidad de ciclos

Asegurar descenso en cada iteración Búsqueda lineal:

xk+1 = xk + k pk , k (0,1]


Cálculo de k

Objetivo: en cada iteración el valor de f (xk) debe decrecer suficientemente.

Condición:

f (xk + k pk ) f (xk ) + kf (xk )Tpk

Parámetro k (0,1) . En la práctica

[ 10-4 , 0.1 ]


Procedimiento de cálculo de k

Búsqueda hacia atrás: Se prueba con k = 1 Si se cumple la condición, se acepta el valor Si no, se prueba con k /2

Otros métodos: ajuste polinómico, etc.


Ejemplo de cálculo de k Tenemos los datos siguientes:

x1f (x ) = , x0 = [-0.5 -0.3]T, p0 = [-2 1]T

(1+x12) (1+x2

2)

Información necesaria:f (x0 ) = -0.37 , f (x0 ) = [ 0.44 -0.20 ]T

f (x0 )Tp0 = -1.08 , = 0.1


Iteración 1. = 1f (x0 + p0) = -0.231 , f (x0 ) + f (x0 )Tp0 = -0.48

Iteración 2. = 0.5f (x0 + p0) = -0.444 , f (x0 ) + f (x0 )Tp0 = -0.43

Aceptamos = 0.5x1 = x0 + 0.5p0 = [ -1.5 0.2 ]T


x1Ejemplo: f (x ) (1+x1

2) (1+x22)

x0 = [ 0.5 -0.3 ]T

Iteración 1.1 ¿Es el punto actual solución?

f (x0 ) = [0.440 0.202]T, f (x0 ) = 0.4845

Problemas sin restricciones

Iteración 1.2. Dirección de movimiento

-1.29 0.24 1.29 -0.24H0 = , M0 =

0.24 -0.56 -0.24 0.56

M0 p0 = - g0 p0 = [ -0.444 -0.551 ]T

Iteración 1.3. Cálculo de la longitud de paso

f (x0 ) = 0.367, f (x0 )Tp0 = -0.307, f (x0 + p0 ) = 0.032f (x0 ) + f (x0 )Tp0 = 0.336 > f (x0 + p0 ) 0 = 1


Iteración 1.4. Nuevo puntox1 = x0 + 0 p0 ,

x1 = [0.5 -0.3]T + [-0.444 -0.551]T = [0.056 -0.851]T

Iteración 2.1 ¿Es solución el último punto?f (x1 ) = [0.575 0.032]T, f (x1 ) = 0.576

Iteración 2.2. Dirección de movimiento-0.19 0.57 0.59 -0.10

H1 = , M1 = 0.57 -0.06 -0.10 0.56

M1p1 = - g1 p1 = [ -1.011 -0.234 ]T


Iteración 2.3. Longitud de paso

f (x1 ) = 0.032, f (x1 )Tp1 = -0.589, f (x1 + p1 ) = -0.230f (x1 ) + f (x1 )Tp1 = -0.027 > f (x1 + p1 ) 1 = 1

Iteración 2.4. Nuevo punto

x2 = x1 + 1 p1 ,x2 = [0.06 -0.85]T + [-1.01 -0.23]T = [-0.95 -1.08]T


Método de Newton modificado. Maximización Paso 0. Determinar un punto inicial, x0

Paso 1. Comprobar si xk es solución

f (xk ) < Paso 2. Calcular la dirección de movimiento

Paso 2.1. Calcular los valores propios de

Hk = 2f (xk ) Paso 2.2. Si Hk es definida negativa, Mk = Hk

si no, Mk = Hk - , por ejemplo


Paso 2.3. Resolver el sistema de ecuaciones

Mk pk = - f (xk ) Paso 3. Calcular la longitud de paso

Paso 3.1. Para = 1 comprobar si se cumple

f (xk + k pk ) f (xk) + kf (xk )Tpk

Paso 3.2. Si no se cumple, probar con hasta que se cumpla.

Paso 4. Calcular el nuevo punto

xk+1 = xk + k pk


Convergencia del método de Newton ¿Converge la sucesión { xk } ? ¿Qué propiedades tienen sus límites?

limkxk

La sucesión puede divergir si: Función objetivo no acotada inferiormente Función objetivo decrece monótonamente


Condición habitual de acotación El conjunto S0 es compacto

S0 = { y : f (y ) f (x0 ) } Todos los puntos xk pertenecen a S0

Existen subsucesiones convergentes

Propiedades de los puntos límite No podemos asegurar que sean mínimos


Propiedades de puntos límite Al menos, debiéramos esperar que cumplan

f (x* ) = 0 Demostración de convergencia

De la condición sobre

f (xk + k pk ) f (xk ) + kf (xk )Tpk

en el límite kf (xk )Tpk 0


Demostración de convergencia (ii) Definición de pk y propiedades de Mk

Mk pk = - f (xk ) f (xk )Tpk = - f (xk )TMk-1f

(xk )

f (xk )Tpk - f (xk ) 2

De la condición anterior tenemosk f (xk ) 2 0


Demostración de convergencia (iii) La longitud de paso k no puede ir a cero Desarrollo en serie de Taylor

0 (k ) - (0) - k ’ (0) =(1-)k ’ (0) + ½k

2’” (0) + o(k2)

k - ((1-)k ’ (0) + o(k ))/(½’” (0)) Por tanto, f (xk ) 0

Restricciones de igualdad

Problema con restricciones de igualdad:minx f (x )s.a c (x ) = 0

Condiciones necesarias:

c (x ) = 0

f (x ) - c (x )T = 0


Problema similar al caso sin restricciones Resolución de un sistema de ecuaciones no

lineales Sistema en x y

Aproximación del sistema mediante sistemas de ecuaciones lineales

O bien, aproximación mediante soluciones de problemas de optimización cuadráticos


Dado un punto (xk ,k ) aproximación a las condiciones necesarias:

c (xk ) + c (xk )pk = 0f (xk ) + 2L (xk ,k )pk - c (xk )Tk - c (xk )Tk = 0

o bien (sistema KKT ),2L (xk ,k ) c (xk )T pk L (xk ,k )= -c (xk ) 0 - k c (xk )


Método de Newton básico: Paso 0. Se parte de un punto (x0 , 0 ) Paso 1. Se comprueba si es solución,

c (xk ) + f (xk ) - c (xk )Tk < Paso 2. Se resuelve el sistema lineal (KKT )

para calcular (pk , k ) Paso 3. Se actualizan las variables

xk+1 = xk + pk , k+1 = k + k


El sistema (KKT ) se puede reescribir comoAk Ak

TpY = - ck

ZkTHk ZkpZ = - Zk

T gk - ZkTHk Ak

TpY

pk = ZkpZ + AkTpY

AkTk = gk + Hkpk - Ak

Tk

dondeHk 2L (xk ,k ), Ak c (xk ), gk f (xk ), ck c (xk )


Modificación de dirección de movimiento Mejorar la función objetivo, y Cumplimiento de las restricciones

No es posible siempre mejorar ambas Por ejemplo:

Punto inicial: mínimo sin restricciones

Siempre es posible cumplir las restricciones Prioridades:

1. Cumplir las restricciones2. Mejorar la función objetivo


Comportamiento respecto a restricciones Definimos una medida de mejora (x ) :

(x ) c (x ) 2 , (x ) = 2 c (x )Tc (x )Ak pk = - ck k

Tpk = - 2 ck 2

p siempre dirección de descenso de restricciones

Comportamiento respecto a función objetivo Modificar p en lo que respecta a mejorar f Sin afectar a la mejora de (x )


Separar las componentes de p : Componentes mejora de las restricciones:

Movimiento normal a restricciones: c (xk)TpY

Componentes mejora de la función objetivo: Movimiento tangente a las restricciones: Zk

pZ

Método de Newton modificado: Matriz Zk

THkZk debiera ser definida positiva Objetivo: descenso en el valor de la función

objetivo


Efecto de la modificación de ZkTHkZk :

Sistema a resolver:Ak Ak

TpY = - ck

Mk pZ = - ZkT gk - Zk

THk AkTpY

pk = ZkpZ + AkTpY

Descenso en la función objetivo:gk

Tpk = gkTZkpZ + gk

TAkTpY = -pZ

TMk pZ -pZTZk

THk AkTpY +

gkTAk

TpY

Descenso si ck = 0


Búsqueda lineal: punto siguiente dado por

xk+1 = xk + k pk

k+1 = k + k k

Para calcular k hace falta una medida de progreso a la solución

Progreso a la solución: Reducción en el valor de f, ymejora en cumplimiento de restricciones


Medida de cumplimiento de restricciones: c (x )

Idealmente, descenso en f y mejora en c

Si no se dan ambas condiciones, por ejemplo

c (xk +1) > c (xk ) , f (xk +1 ) < f (xk ) Se busca un compromiso entre ambas


Compromiso más simple: sumar valores Inconveniente: cambios de escala

Se añade un parámetro para corregir escala

Función de penalización exacta:

mE (x ) = f (x ) + c (x ) Propiedad importante:

Mínimo de mE debe ser mínimo del problema


Propiedad teórica (penalización exacta): Existe un valor tal que para todo la

función mE tiene un mínimo en el mínimo del problema de optimización

Valor de , para * multiplicador en la solución = *

Inconveniente: la función mE no es diferenciable en todos los puntos


Funciones diferenciables Alternativa: la función lagrangiana tiene primera

derivada igual a cero en la solución La condición de segundo orden no se cumple Se añade término de penalización cuadrático

mA (x,) = f (x ) - Tc (x ) + ½ c (x ) 2

Propiedad: existe tal que los mínimos de mA y el problema coinciden


Función de mérito: Medida de compromiso entre f y c cuyo

mínimo sea solución del problema Combinación de valores de f y c o sus

derivadas Ejemplos: mE , mA , otras


Utilización de la función de mérito Se selecciona una al inicio del problema

Se determina el valor de k para asegurar descenso suficiente en la función de mérito

Ejemplos:mE (xk + k pk ) mE (xk ) + kmE (xk )Tpk

mA (xk+k pk ,k+k k ) mA (xk ,k )+ kx mA (xk ,k )Tpk + kmA (xk ,k )T k


x1Ejemplo: min f (x ) (1+x1)2 (1+x2)2

s.a x12 + x2

2 = 0.8

Punto inicial:x0 = [ -0.6 -0.3 ]T , 0 = 0

Paso 1.1. ¿Es solución?c (x0) = -0.35, f (x0) - c (x0)T0 = [0.317 -0.223]T


Paso 1.2. Cálculo de la dirección de movimiento2L0 A0

T p0 L0= -

A0 0 -0 c0

1.115 0.175 -1.2 0.317p0 -0.471

0.175 0.620 -0.6 = - -0.223 , p0 =-0 0.360-1.2 -0.6 0 -0.350

0 = 0.137


Paso 1.3. Cálculo de la longitud de paso Función de mérito: penalización exacta

mE (x0 + p0) = f (x0 + p0) + c (x0 + p0) = ( )

Búsqueda lineal: encontrar tal que ( ) (0) + ’(0), = 0.1 ( = 10)

Valores previos: (0) = 3.005, ’(0) = g0

Tp0 + c0TA0 p0 /c0 = -3.730

Búsqueda: = 1, ( ) = 3.019, (0) + ’(0) = 2.632 = 0.5, ( ) = 0.386, (0) + ’(0) = 2.909


Paso 1.4. Cálculo del nuevo puntox1 = x0 + 0.5p0 = [-0.836 -0.120]T, 1 = 0 + 0.50 = 0.069

Paso 2.1. ¿Es solución?c (x1) = -0.087, f (x1) - c (x1)T1 = [0.218 -0.099]T

Paso 2.2. Dirección de movimiento0.637 0.024 -1.672 0.218

p1 -0.0750.024 0.792 -0.240 = - -0.099 , p1 =

-1 0.158-1.672 -0.240 0 -0.087

1 = - 0.104


Paso 2.3. Longitud de paso ( ) = f (x0 + p0) + c (x0 + p0)

( ) (0) + ’(0), = 0.1 ( = 10) (0) = 0.386, ’(0) = g1

Tp1 + c1TA1p1/c1 = -0.113

Búsqueda: = 1, ( ) = -0.497, (0) + ’(0) = 0.375

Paso 2.4. Nuevo puntox2 = x1 + p1 = [-0.911 -0.038]T, 2 = 1 + 1 = -0.035

Restricciones de desigualdad

Prob. con restricciones de desigualdad:minx f (x )s.a c (x ) 0

Condiciones necesarias:c (x ) = 0

f (x ) - c (x )T = 0 0

Tc (x ) =0


Dificultad: algunas condiciones son desigualdades no podemos reducir el problema a un

sistema de ecuaciones

Solución: construir problemas aproximados con

restricciones de igualdad


Construcción de problemas aproximados: Funciones de mérito: no son eficientes

Necesidad de ajustar parámetros funciones de barrera: términos en la función

objetivo que se comportan como restricción impiden tomar valores fuera de la región factible,

y no afectan a los valores en la región factible


Ejemplo:minx x 2

s.a x 1

0 0.5 1 1.5 2 2.5 3 3.5 40

2

4

6

8

10

12

14

16

f (x ) = x 2

x 2 - log(x - 1)

x 1


Paso 1. Convertir restricciones:minx f (x ) minx,s f (x )s.a c (x ) 0 s.a c (x ) - s = 0

s 0 Paso 2. Llevar restricciones a la función

objetivo

minx f (x ) - i log si

s.a c (x ) - s = 0


Resultado teórico: Sea x* ( ) la solución del problema

minx f (x ) - i log si

s.a c (x ) - s = 0 ,se cumple que lim0 x* ( ) = x*, donde x* es la solución de

minx f (x )s.a c (x ) 0


Solución del problema modificado: Paso 1. Seleccionar un valor inicial para ,

por ejemplo, 1 = 1 Paso 2. Tomando como valor inicial

x0 = x* (s-1) ,resolver el problema

minx f (x ) - s i log si

s.a c (x ) - s = 0


Paso 3. Reducir el valor de , por ejemplo,

s+1 = 0.1s

y volver al paso 2.

El proceso se repite hasta que es del orden del error deseado en la solución Por ejemplo, = 10-5


Precauciones con la función objetivo La función objetivo solo está definida para

valores positivos de las variables El punto inicial ha de ser estrictamente

positivo La longitud de paso debe asegurar que todos

los puntos sean positivos


Cálculo de la longitud de paso Queremos que el nuevo punto siga siendo positivo

xk+1 = xk + k pk > 0 mini {(xk)i + k (pk)i} > 0 Condición equivalente:

k < min{ xi /(-pi ) pi < 0 }

k = min{ 1 , 0.99 }


Ejemplo: optimización de carteraminx xTRxs.a mTx 3.5

eTx = 1x 0

Datos:1 1.64 25.9 55.6

e = , m = , R =1 4.60 55.6 248


Problema modificado: Problema en forma estándar

minx,s xTR xs.a mTx - s = 3.5

eTx = 1x , s 0

Problema con restricciones de desigualdadminx,s xTR x - (i log xi + log s )s.a mTx - s = 3.5

eTx = 1


Paso 0. Sean x0 = [0.5 0.5]T , 0 = [0 0]T

Tomamos 0 = 0.1 ¿Valor de s0? Positivo

Por ejemplo, s0 = 0.5 > 0

Paso 1.1. ¿Es solución?c (x0) = [-0.88 0]T

f (x0) - c (x0)T0 = [81.3 303.4 -0.2]T


Paso 1.2. Dirección de movimiento2L (x0,0) c (x0)T p0 f (x0) - c (x0)T0= -c (x0) 0 -0 c (x0)

52 111.2 0 1.46 1 81.3111.2 496.2 0 4.6 1 p0 303.4

0 0 0.2 -1 0 = -0.21.46 4.6 -1 0 0 -0 -0.88

1 1 0 0 0 0

p0 = [0.675 -0.675 -2.877]T , 0 = [0.775 40.088]T


Paso 1.3. Cálculo de la longitud de pasom (x ) = f (x ) + c (x ) , m (x0) = 105.283

m (x0) = f (x0) + c (x0)Tc (x0) / c (x0)

= [64.9 257.4 9.8]T

’(0) = m (x0)Tp0 = -158.1 < 0 Si probamos con = 1,

x0 + p0 = [1.175 -0.175 -2.377]T

La función objetivo no está definida


Paso 1.3. Cálculo de la longitud de paso Mayor paso admisible: = min{xi /(-pi )| pi < 0}

= min{0.5/0.675 , 0.5/2.877} = 0.174 = min{1 , 0.995} 0.173 Comprobación de la condición:

m (x0 ) = 105.283 , m (x0 + p0) = 73.32m (x0 ) + m (x0 )Tp0 = 102.55 > m (x0 + p0) Aceptamos el paso


Paso 1.4. Nuevo punto:x1 = x0 + p0 = [0.617 0.383 0.002]T

1 = 0 + 0 = [0.134 6.935]T

Paso 2.1. ¿Es solución?c (x1) = [-0.73 0]T

f (x1) - c (x1)T1 = [67.3 251.1 0.134]T


Programación lineal: minx cTxs.a Ax = b

x 0 Transformar el problema:

minx cTx - s i log si

s.a Ax = b Aplicar el método de Newton

Actualizar s

Sección de Preguntas

Muchas Gracias

Documents

Catedra Metodos Numericos 2015 - UNSCH (11) [Modo de ... · • Sin restricciones • Con restricciones Tamaño de los Problemas ... • No existe un método general de optimización