75
An´ alisis Num´ erico y Optimizaci´ on 1

Análisis Numérico y Optimización

  • Upload
    ngonga

  • View
    240

  • Download
    6

Embed Size (px)

Citation preview

Analisis Numerico y Optimizacion

1

2

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Indice general

1. Repaso de Conceptos Conocidos 51.1. Introduccion. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . 51.2. Convergencia debil y debil-∗. Espacios reflexivos . . . . . . . . . . . . . . . . . . . . 61.3. Semicontinuidad y semicontinuidad secuencial debil . . . . . . . . . . . . . . . . . . . 91.4. Minimizacion de funcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.5. Calculo diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.6. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.6.1. Primera Aplicacion: Minimizacion de un funcional cuadratico . . . . . . . . . 231.6.2. Segunda Aplicacion: Teorema de la Proyeccion . . . . . . . . . . . . . . . . . 24

2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 272.1. Funcionales elıpticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2. Metodos del gradiente para problemas de mınimo sin restricciones . . . . . . . . . . 31

2.2.1. Algoritmo del Gradiente con Paso Optimo (AGPO) . . . . . . . . . . . . . . 322.2.2. Algoritmos del Gradiente con Paso Fijo (AGPF) y Variable (AGPV) . . . . . 34

2.3. Metodos del gradiente conjugado para problemas sin restricciones . . . . . . . . . . . 372.3.1. El algoritmo del gradiente conjugado para un funcional cuadratico elıptico

en RN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3.2. Algoritmo del Gradiente Conjugado Generico (AGCG) . . . . . . . . . . . . . 41

3. Metodos Para Problemas de Optimizacion con Restricciones 473.1. Metodo del Gradiente con Proyeccion . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2. Metodos de Penalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.3. Metodos de dualidad. Metodo de Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.3.1. Relaciones de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.2. Lagrangianos y puntos de silla. Introduccion a la dualidad . . . . . . . . . . . 563.3.3. Metodo de Uzawa para un funcional elıptico . . . . . . . . . . . . . . . . . . . 58

4. Control optimo de sistemas lineales 634.1. Planteamiento de un problema de control optimo . . . . . . . . . . . . . . . . . . . . 634.2. Control optimo de e.d.o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.3. Control optimo de EDP elıpticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3

4 INDICE GENERAL

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Capıtulo 1

Introduccion. Repaso de ConceptosConocidos

1.1. Introduccion. Planteamiento del problema

En esta asignatura trataremos dos aspectos importantes dentro de la Matematica Aplicada:el Analisis Numerico y su relacion con la Optimizacion. En concreto trataremos problemas deOptimizacion desde el punto de vista del Analisis Numerico. De manera general un problemade optimizacion puede ser descrito de la siguiente forma: Supongamos que tenemos un sistemasobre el que podemos actuar mediante una variable v (el control) que vive en un cierto conjuntoU (el conjunto de controles admisibles). Supongamos tambien que tenemos a nuestra disposicionuna funcion J (funcional coste) que depende de v y, posiblemente, de la solucion del sistema.Pretendemos calcular un control u ∈ U tal que J(u) ≤ J(v) para cualquier v ∈ U.

En terminos matematicos el problema puede ser escrito del siguiente modo: Supongamos que Ves un espacio normado (en general de dimension infinita). Dados U ⊂ V un conjunto y J : U 7→ Run funcional, planteamos el problema

(P )

Hallar u ∈ U tal que

J(u) ≤ J(v) ∀v ∈ U.

El objetivo de de la Optimizacion es tanto el estudio teorico del problema (P ) como proporcionaralgoritmos que permitan aproximar la o las soluciones del problema.

Diremos que (P ) es un problema de optimizacion sin restricciones si U ≡ V . Si U 6= V ,entonces hablaremos de un problema de mınimos con restricciones.

En este curso, estamos interesados por la optimizacion continua en dimension finita o infinita.Abordaremos fundamentalmente, y en este orden, las siguientes cuestiones:

Resultados de existencia y unicidad de solucion del problema (P ).

Caracterizacion de la(s) solucion(es), es decir, condiciones necesarias, y en algunos casos,suficientes de solucion del problema (P ). Las condiciones necesarias hacen intervenir, gene-ralmente, la derivada primera (en cierto sentido) del funcional J , mientras que las condicionessuficientes hacen intervenir las derivadas segundas (en cierto sentido) de J .

Construccion efectiva de algoritmos que permitan aproximar la o las soluciones de (P ). Esdecir, construccion de una sucesion ukk≥0 de elementos de U que converja (en un sentidoadecuado) hacia la o una solucion del problema (P ).

5

6 1.2. Convergencia debil y debil-∗. Espacios reflexivos

Para los problemas sin restricciones (Tema 2), estudiaremos los algoritmos de tipo gradien-te (paso optimo, paso fijo, paso variable) y gradiente conjugado (generico, Fletcher-Reeves,Polak-Riviere). Para los problemas con restricciones (Tema 3), estudiaremos el algoritmo delgradiente con proyeccion, cuya aplicacion se restringe a conjuntos U muy particulares. Losproblemas con restricciones generales son mas difıciles de tratar y se intenta su resolucionreemplazandolos por otros problemas sin restricciones, esta es la idea para los metodos dedualidad (Uzawa).

El Tema 4 se dedica al Control Optimo que consiste en un problema de minimizacion dondeademas, la solucion buscada depende de otra variable dada a traves de una ecuacion diferencialordinaria o en derivadas parciales.

Dedicaremos este primer Tema a repasar ciertos conceptos que apareceran a lo largo del cursoy que han sido vistos anteriormente en las asignaturas en “Ecuaciones en Derivadas Parciales yAnalisis Funcional” y “Analisis Funcional y Optimizacion” del cuarto curso de la Licenciatura enMatematicas.

1.2. Convergencia debil y debil-∗. Espacios reflexivos

A lo largo de esta seccion X representa un espacio normado con norma que sera denotada por‖ · ‖. Recordemos que, dados una sucesion xnn≥1 ⊂ X y un elemento x ∈ X, se tiene que xnconverge hacia x en X (que denotaremos xn → x en X) si la sucesion real ‖xn− x‖ converge haciacero. En algunas ocasiones diremos que xn converge en norma o fuertemente hacia x. Ademasde este concepto de convergencia tambien introduciremos los siguientes:

Definicion 1.1. 1. Sean xnn≥1 ⊂ X una sucesion y x ∈ X un elemento de X. Diremos quexn converge debilmente hacia x (y escribiremos xn x) si para cualquier x′ ∈ X ′ se tiene

〈x′, xn〉X′,X → 〈x′, x〉X′,X .

En esta definicion 〈·, ·〉X′,X representa el producto de dualidad entre el espacio normado X ysu dual X ′.

2. Sean x′nn≥1 ⊂ X ′ una sucesion y x′ ∈ X ′ un elemento de X ′. Diremos que x′n converge

∗-debilmente hacia x′ (y escribiremos xn∗ x) si

〈x′n, x〉X′,X → 〈x′, x〉X′,X ∀x ∈ X.

Observacion 1.1. Los conceptos de convergencia debil y ∗-debil son lineales. Por ejemplo, sixnn≥1 e ynn≥1 son dos sucesiones en X y x e y son dos elementos de X tales que xn x eyn y, entonces se tiene

αxn + βyn αx+ βy, ∀α, β ∈ R.

Es facil comprobar la relacion que existe entre los anteriores conceptos de convergencia debil y∗-debil y el concepto de convergencia fuerte. En concreto, se tiene:

Proposicion 1.2. Sean xnn≥1 ⊂ X una sucesion y x ∈ X un elemento de X (resp., x′nn≥1 ⊂X ′ una sucesion y x′ ∈ X ′) tales que xn → x en X (resp., x′n → x′ en X ′). Entonces, xn x

(resp., x′n∗ x′).

Pasemos a continuacion a analizar estos conceptos en algunos ejemplos interesantes:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 7

Ejemplo 1.1. Consideremos el caso de un espacio de Hilbert H, con producto escalar que denota-remos por (·, ·). Recordemos que, gracias al Teorema de Riesz, el espacio H puede ser identificadocon su dual H ′ mediante el producto escalar (·, ·). Efectivamente, introduzcamos la aplicacionR : H → H ′ definida por

〈Rx, y〉H′,H = (x, y), ∀x, y ∈ H.Entonces, R esta bien definida y es un isomorfismo isometrico entre H y H ′, es decir es lineal,biyectiva y verifica

‖Rx‖H′ = ‖x‖H , ∀x ∈ H.En particular, tanto R como R−1 son continuas. Este resultado permite identificar H con H ′.

Esta identificacion tambien nos permite reescribir de manera equivalente el concepto de conver-gencia debil en el espacio de Hilbert H. Efectivamente, dados xnn≥1 ⊂ H y x ∈ H, se tiene quexn x si y solo si

(xn, y)→ (x, y), ∀y ∈ H.

Ejemplo 1.2. Sea Ω un abierto no vacıo de RN . Recordemos que f : RN −→ RN es una funcionmedible si el conjunto

x ∈ RN : f(x) < aes medible (respecto de la medida de Lebesgue en RN ) para cualquier valor a de R. Como eshabitual, identificaremos funciones que son iguales salvo un conjunto de medida (Lebesgue) nula(iguales casi por doquier). Para la integral de Lebesgue usaremos la notacion∫

Ωf =

∫Ωf(x) dx.

Recordemos tambien que, para p ∈ [1,∞), Lp(Ω) (abreviatura de Lp(Ω, µ), cuando µ es lamedida de Lebesgue en RN ) es el espacio de (clases de) funciones u, medibles en Ω y que sonp-integrables en Ω, es decir, ∫

Ω|u|p <∞.

En el caso p = ∞, se tiene que L∞(Ω) es el espacio de (clases de) funciones u, medibles en Ω queestan esencialmente acotadas en Ω, es decir, tales que existe M > 0 y N ⊂ Ω con medida nulaverificando |u(x)| ≤M para cada x ∈ Ω \N.

Los espacios vectoriales anteriores son normados para las normas:

||u||p;Ω = ||u||Lp(Ω) =

(∫Ω|u|p)1/p

para p ∈ [1,∞),

||u||∞;Ω = ||u||L∞(Ω) = supΩ

es |u| = ınf M > 0 : |u(x)| ≤M p.c.t. x ∈ Ω para p =∞.

Es conocido que (Lp(Ω), || · ||p;Ω) es un espacio de Banach para cualquier valor de p ∈ [1,∞]. En elcaso particular de p = 2, es decir, (L2(Ω), || · ||2;Ω) es un espacio de Hilbert.

Al igual que en el caso de los espacios de Hilbert, es posible identificar el dual de los espaciosLp(Ω). Efectivamente, si p ∈ [1,∞), Ω ⊂ RN es un abierto y p′ ∈ (1,∞] es el exponente conjugadode p,

1

p+

1

p′= 1,

podemos introducir el operador Rp : Lp′(Ω)→ [Lp(Ω)]′ definido por

〈Rpf, g〉[Lp(Ω)]′,Lp(Ω) =

∫Ωf(x)g(x) dx, ∀g ∈ Lp(Ω).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

8 1.2. Convergencia debil y debil-∗. Espacios reflexivos

De nuevo, Rp esta bien definido, es un isomorfismo isometrico entre Lp′(Ω) y [Lp(Ω)]′ y permite

identificar Lp′(Ω) con [Lp(Ω)]′.

En el caso p =∞, tambien podemos introducir el operador R∞ : L1(Ω)→ [L∞(Ω)]′ y se tienetambien que R∞ es lineal e isometrico (y por tanto inyectivo) pero no es sobreyectivo. Deducimosque L1(Ω) no se puede identificar con [L∞(Ω)]′.

En el caso p ∈ [1,∞) y usando la anterior identificacion, es posible reescribir el concepto deconvergencia debil en Lp(Ω). Dados fnn≥1 ⊂ Lp(Ω) y f ∈ Lp(Ω), es facil comprobar que fn fen Lp(Ω) si y solo si ∫

Ωfn(x)g(x) dx→

∫Ωf(x)g(x) dx, ∀g ∈ Lp′(Ω).

Por ultimo, teniendo en cuenta que L∞(Ω) ≡ [L1(Ω)]′, tambien podemos identificar la conver-

gencia debil-* en L∞(Ω): Dados fnn≥1 ⊂ L∞(Ω) y f ∈ L∞(Ω), es facil comprobar que fn∗ f

en L∞(Ω) si y solo si ∫Ωfn(x)g(x) dx→

∫Ωf(x)g(x) dx, ∀g ∈ L1(Ω).

Veamos algunas propiedades sobre la convergencia debil:

Proposicion 1.3. Sean X e Y dos espacios normados. Se tiene:

1. Sean A ∈ L(X,Y ), xnn≥1 ⊂ X y x ∈ X tales que xn x en X. Entonces, Axn Ax enY .

2. Si xn x debil en X, entonces xnn≥1 es una sucesion acotada en X y ‖x‖X ≤ lım inf ‖xn‖X .

3. Si x′n∗ x′ debil-∗ en X ′, entonces x′nn≥1 es una sucesion acotada en X ′ y ‖x′‖X′ ≤

lım inf ‖xn‖X′.

Observacion 1.2. Si A no es lineal, aunque sea continua, el primer punto de la Proposicion 1.3es, en general falso. Un ejemplo viene dado por la aplicacion norma en un espacio de Banach X (lacual es, evidentemente, una aplicacion continua pero no lineal). Es posible construir ejemplos desucesiones xnn≥1 ⊂ X tales que ‖xn‖ = 1 y satisfacen xn 0. Evidentemente, xn 6→ 0 en X.

Pasemos a continuacion a recordar el concepto de reflexividad. Dado X un espacio normado, sedefine la aplicacion J : X −→ X ′′ por

〈J(x), x′〉X′′,X′ = 〈x′, x〉X′,X , ∀x ∈ X, x′ ∈ X ′

llamada inyeccion canonica de X en X ′′. Se tiene:

Proposicion 1.4. La aplicacion J esta bien definida, es lineal, isometrica e inyectiva. Por tantopermite identificar X con el subespacio J(X) de X ′′.

Gracias a este resultado podemos definir:

Definicion 1.5. Sea X un espacio normado. Se dice que X es un espacio reflexivo si la aplicacionJ es sobreyectiva.

Observese que, en particular, si X es reflexivo entonces X se identifica con X ′′ (que es un espaciode Banach al ser el dual de X ′). Deducimos que tambien X es un espacio de Banach.

Veamos algunas propiedades de los espacios reflexivos. Se tiene:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 9

Proposicion 1.6. Sea X un espacio normado. Entonces,

1. X es un espacio reflexivo si y solo si X ′ es un espacio reflexivo.

2. Si X es un espacio reflexivo y C ⊆ X es un subespacio vectorial cerrado, entonces (C, ‖ · ‖)es tambien un espacio reflexivo.

Pasemos a continuacion a analizar otros conceptos relacionados con la convergencia debil enespacios normados:

Definicion 1.7. Sean X un espacio normado y C ⊆ X un subconjunto. Se dice que C es secuen-cialmente debilmente cerrado si para cualesquiera sucesion xnn≥1 ⊂ X y x ∈ X tales que xn xse tiene que x ∈ C.

A diferencia de lo que podrıa pensarse, observese que si C ⊆ X es un conjunto secuencialmentedebilmente cerrado, entonces C es cerrado. La implicacion contraria es, en general, falsa. Si embargo,como consecuencia del Teorema de Hanh-Banach o, mas concretamente, como consecuencia de losTeoremas de separacion de conjuntos convexos, se tiene:

Teorema 1.8. Sea X un espacio normado y C ⊆ X un subconjunto convexo. Entonces, C escerrado si y solo si C es secuencialmente debilmente cerrado.

Pasemos a continuacion a recordar el concepto de conjunto compacto en un espacio normado.Es bien conocido que si X es un espacio normado, el concepto de compacidad puede ser reescritoen terminos de convergencia. En concreto, dado K ⊂ X, K es compacto si y solo K satisface lasiguiente propiedad:

“Fijada xnn≥1 ⊂ K, existe una subsucesion xnkk≥1 de xnn≥1 y x ∈ K tal que xnk

→ x.”

La propiedad anterior en particular implica la propiedad bien conocida: “Sea K ⊂ X un compac-to (con X un espacio normado), entonces K es cerrado y acotado”. Recuerdese que la implicacioncontraria solo es valida si X es un espacio de dimension finita. Sin embargo en los espacios nor-mados de dimension infinita tambien es posible obtener informacion de las sucesiones acotadas. Setiene:

Teorema 1.9. 1. Sea X un e.n. separable y x′nn≥1 ⊂ X ′ una sucesion acotada. Entonces

existe una subsucesion x′nkk≥1 de x′nn≥1 y x′ ∈ X ′ tal que x′nk

∗ x′.

2. Sea X un espacio de Banach reflexivo y xnn≥1 ⊂ X una sucesion acotada. Entonces existeuna subsucesion xnk

k≥1 de xnn≥1 y x ∈ X tal que xnk x.

1.3. Semicontinuidad y semicontinuidad secuencial debil

Pasemos seguidamente a recordar los conceptos de semicontinuidad inferior y semicontinuidadinferior debil de funcionales definidos en espacios normados. Ası, definimos:

Definicion 1.10. Sea X un espacio normado y f : U→ R un funcional, con U ⊂ X. Diremos quef es semicontinuo inferiormente, y se escribira f es s.c.i., en un punto x ∈ U si para toda sucesionxnn≥1 ⊂ U con xn → x, se tiene

f(x) ≤ lım inf f(xn).

Diremos que f es semicontinua inferiormente en U si lo es en todo punto x de U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

10 1.3. Semicontinuidad y semicontinuidad secuencial debil

Analogamente, podemos definir:

Definicion 1.11. Sea X un espacio normado y f : U→ R un funcional, con U ⊂ X. Diremos quef es secuencialmente debilmente semicontinuo inferiormente, y se escribira f es s.d.s.c.i., en unpunto x ∈ U si para toda sucesion xnn≥1 ⊂ U tal que xn x, se tiene

f(x) ≤ lım inf f(xn).

Diremos que f es secuencialmente debilmente semicontinua inferiormente en U si lo es en todopunto x de U.

De nuevo y a diferencia de lo que podrıa suponerse, el concepto de semicontinuidad inferiorsecuencial debil es mas fuerte que el concepto de semicontinuidad inferior: Es facil comprobar quesi f : U→ R un funcional, con U ⊂ X, es s.d.s.c.i. en el punto x ∈ U, entonces f es s.c.i. en x.

Es posible caracterizar ambos conceptos del siguiente modo:

Proposicion 1.12. Sean X un espacio normado, U ⊂ X un subconjunto y f : U −→ R unfuncional. Se tiene:

1. Supongamos que U es cerrado. Entonces, f es s.c.i. en U si y solo si el conjunto

Eλ = x ∈ U : f(x) ≤ λ

es un conjunto cerrado de X para todo λ ∈ R.

2. Supongamos que U es secuencialmente debilmente cerrado. Entonces, f es s.d.s.c.i. en U siy solo si el conjunto Eλ es un conjunto debilmente cerrado de X para todo λ ∈ R.

Dado un espacio vectorial X y un subconjunto U ⊆ X, recordemos que U es convexo si paracualesquiera x, y ∈ U se tiene [x, y] ⊆ U, donde

[x, y] = θx+ (1− θ)y : θ ∈ [0, 1].

Ası:

Definicion 1.13. Sean X un espacio vectorial, U ⊆ X un subconjunto convexo y f : U → X unafuncion. Se dice que f es convexa en U si

f (θx+ (1− θ)y) ≤ θf(x) + (1− θ)f(y), ∀x, y ∈ U, ∀θ ∈ [0, 1].

Se dice que f es estrictamente convexa en U si

f (θx+ (1− θ)y) < θf(x) + (1− θ)f(y), ∀x, y ∈ U con x 6= y, ∀θ ∈ (0, 1).

Gracias a la caracterizacion de la s.c.i. y de la s.c.i. secuencial debil, no es difıcil comprobar lasiguiente propiedad:

Proposicion 1.14. Dados X un espacio normado, U ⊆ X un subconjunto convexo cerrado novacıo y f : U → R un funcional convexo. Entonces, se tiene que f es s.c.i. en U si y solo si f ess.d.s.c.i. en U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 11

Prueba. La demostracion del resultado es una facil consecuencia de la Proposicion 1.12. Observeseen primer lugar que esta puede ser aplicada pues U es un convexo cerrado no vacıo y, por tanto, Ues secuencialmente debilmente cerrado.

Aplicando la Proposicion 1.12, f es s.c.i. en U si y solo si el conjunto Eλ es un cerrado de Xpara cualquier λ de R. Como el funcional f y el conjunto U son convexos, es facil comprobar queEλ es tambien un conjunto convexo para todo λ ∈ R. Por tanto, Eλ es cerrado si y solo si Eλes secuencialmente debilmente cerrado, es decir, si y solo si f es s.d.s.c.i. en el conjunto U. Estofinaliza la prueba.

Ejemplo 1.3. Dado (X, ‖ · ‖) un espacio normado, es posible aplicar este resultado a la funcionnorma obteniendo de nuevo la propiedad 2 de la Proposicion 1.3. Efectivamente, considerandoU ≡ X y f(x) = ‖x‖, se tiene que f es un funcional convexo definido en el convexo cerrado X.Como f es continuo en X, en particular es s.c.i. en X. Aplicando directamente la propiedad anteriordeducimos que f ≡ ‖ · ‖ es s.d.s.c.i. en X y, por tanto, la propiedad 2 de la Proposicion 1.3.

1.4. Minimizacion de funcionales

En esta seccion recordaremos algunos resultados conocidos sobre minimizacion de funcionales.Recordemos que estamos interesados en el estudio de la existencia de solucion de problemas deOptimizacion que pueden ser escritos de la forma

ınfv∈U

J(v)

con U un subconjunto de un espacio X (en general un espacio normado) y J : U→ R un funcional.Como sabemos, U es el conjunto de las restricciones o conjunto admisible y J es el funcional costeo funcional objetivo. Recordemos tambien los siguientes conceptos:

Definicion 1.15. Dados X un espacio normado, U ⊆ X un subconjunto y J : U −→ R unfuncional. Se dice que u es un mınimo local (o mınimo relativo) de J en el conjunto U si u ∈ U yexiste ε > 0 tal que

J(u) ≤ J(v) ∀v ∈ U ∩B(u; ε).

Se dice que u es un mınimo global (o mınimo absoluto) de J en el conjunto U si u ∈ U y se satisface

J(u) ≤ J(v), ∀v ∈ U.

De forma analoga se pueden definir los conceptos de maximo local (o relativo) y maximo global(o absoluto) de un funcional J en un conjunto U. En general, utilizaremos la palabra extremo paradesignar indistintamente un maximo o mınimo de J .

El primer resultado de existencia de mınimos que veremos es debido a Weierstrass:

Teorema 1.16. (Teorema de Weierstrass) Supongamos que U es un espacio metrico no vacıoy compacto y J : U→ R es un funcional s.c.i. en U. Entonces, J admite un mınimo global en U.

Prueba: Aplicaremos el llamado metodo directo del Calculo de Variaciones: Tomaremos una su-cesion minimizante unn≥1 y probaremos que admite una subsucesion convergente a un mınimoglobal de f en U. Usaremos la compacidad de U para poder extraer una subsucesion convergente yla s.c.i. de J en U para probar que el lımite es un mınimo global de J en U.

Si llamamos α = ınfv∈U J(v) ∈ [−∞,∞), entonces, existe una sucesion unn≥1 ⊂ U (sucesionminimizante) tal que

lım J(un) = α.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

12 1.4. Minimizacion de funcionales

Como U es compacto, existen u ∈ U y una subsucesion unkk≥1 de unn≥1 tales que unk

→ u enU. Al ser J un funcional s.c.i. en U, se tiene

J(u) ≤ lım inf J(unk) = lım J(un) = α.

Deducimos de este modo que α ∈ R y J(u) = α = ınfu∈U J(u). Esto finaliza la demostracion.

Recordemos tambien

Definicion 1.17. Sea X un espacio normado, U ⊆ X un subconjunto no acotado y J : U→ R unfuncional. Se dice que J es coercitivo en U si

lım‖u‖→+∞

J(u) = +∞.

Es posible la generalizacion del resultado anterior a un marco mas abstracto. Ası, usaremos elproximo resultado para deducir la existencia de solucion de problemas de minimizacion planteadosen un espacio normado:

Teorema 1.18. Sean X un espacio de Banach reflexivo, U ⊆ X un subconjunto secuencialmentedebilmente cerrado no vacıo y J : U → R un funcional s.d.s.c.i. Ademas, si U es no acotado,supongamos que J es coercitiva en U. Entonces, J admite, al menos, un mınimo global en U.

Prueba: Seguimos el mismo razonamiento del Teorema 1.16 y seleccionamos una sucesion mini-mizante unn≥1 ⊂ U tal que

lım J(un) = α = ınfu∈U

J(u)(∈ [−∞,∞)).

Si U es un subconjunto acotado, esta claro que la sucesion unn≥1 esta acotada. Si U es un noacotado, no es difıcil comprobar (gracias a la hipotesis de coercitividad de J) que tambien unn≥1

esta acotada. Efectivamente, basta razonar por reduccion al absurdo para deducir la acotacion deunn≥1.

Al ser X un espacio reflexivo, U un subconjunto s.d. cerrado y unn≥1 una sucesion acota-da, deducimos que existe una subsucesion de unn≥1 (que seguiremos denotando unn≥1) y unelemento u ∈ U tal que

un u debil en X.

Como J es s.d.s.c.i., entonces

J(u) ≤ lım inf J(un) = lım J(un) = α.

Esta ultima desigualdad prueba el resultado.

Como una consecuencia inmediata del Teorema 1.18, tenemos:

Corolario 1.19. Sean X un espacio de Banach reflexivo, U ⊆ X un subconjunto convexo cerradono vacıo y J : U → R un funcional convexo y s.c.i. Ademas, si U es no acotado, supongamos queJ es coercitiva en U. Entonces, J admite, al menos, un mınimo global en U.

Respecto a la unicidad de solucion para el problema de minimizacion planteado, se tiene:

Proposicion 1.20. Sea X un espacio vectorial sobre R, U ⊆ X un subconjunto convexo y J : U→R un funcional estrictamente convexo. Entonces, J admite a lo mas un mınimo global en U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 13

Prueba: Supongamos que u1, u2 ∈ U satisfacen u1 6= u2 y

J(u1) = J(u2) = ınfu∈U

J(u).

Al ser U convexo, u = 12 (u1 + u2) ∈ U y

J(u) <1

2(J(u1) + J(u2)) = ınf

u∈UJ(u).

Evidentemente, esta ultima desigualdad es absurda.

La convexidad de J permite liberarnos del caracter local de los mınimos relativos. Se tiene:

Proposicion 1.21. Sea X un espacio normado, U ⊆ X un subconjunto convexo de X y J : U→ Run funcional convexo. Si J admite un mınimo relativo u en U, entonces ese mınimo es un mınimoglobal en U, es decir,

J(u) = ınfu∈U

J(u).

Prueba: Al ser u ∈ U un mınimo relativo de J en U deducimos la existencia de ε > 0 tal que

J(u) ≤ J(u), ∀u ∈ U ∩B(u; ε).

Sea ahora v ∈ U arbitrario y veamos que J(u) ≤ J(v). Esta desigualdad es evidente si v ∈ B(u; ε).Supongamos entonces que ‖v − u‖ > ε y consideremos

u = u+ε

2‖v − u‖(v − u)

que, evidentemente, satisface u ∈ U ∩ B(u; ε) (el conjunto U es convexo). De este modo, al ser Jconvexa,

J(u) ≤ J(u) ≤ J(u) +ε

2‖v − u‖(J(v)− J(u)) ,

de donde se deduce que J(u) ≤ J(v). Esto finaliza la prueba.

1.5. Calculo diferencial

En esta seccion vamos a hacer un breve recordatorio de la teorıa de derivacion en espaciosnormados.

Definicion 1.22. Sean X e Y dos espacios normados, U ⊆ X un subconjunto abierto, F : U→ Yun operador, x0 ∈ U y h ∈ X. Se dice que F es diferenciable en el sentido de Gateaux (o G-diferenciable) en x0 y en la direccion h si existe el lımite en Y

lımε→0

F (x0 + εh)− F (x0)

ε= δF (x0;h) ∈ Y.

Al elemento δF (x0;h) ∈ Y definido por el anterior lımite se le denomina G-diferencial de F en elpunto x0 y en la direccion h.

Si existe δF (x0;h) para toda h ∈ X, diremos que F es G-diferenciable en x0, y a la aplicacionδF (x0) definida por

δF (x0) : h ∈ X 7−→ δF (x0;h) ∈ Y

la denominaremos la G-diferencial (o diferencial Gateaux) de F en el punto x0.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

14 1.5. Calculo diferencial

Observacion 1.3. No es difıcil demostrar que si F es G-diferenciable en x0 y en la direccion h ∈ X,entonces tambien lo es en la direccion αh, con α ∈ R, y

δF (x0;αh) = αδF (x0;h), ∀α ∈ R, ∀h ∈ X.

Por otro lado, si introducimos la funcion de variable real g(t) = F (x0 + th) (definida en un entornode t = 0), entonces, se tiene que F es G-diferenciable en el punto x0 y en la direccion h si y solo sig es derivable en 0. En este caso, g′(0) = δF (x0;h).

Siguiendo con las definiciones, pasemos a la siguiente:

Definicion 1.23. Sean X e Y dos espacios normados, U ⊆ X un subconjunto abierto, x0 ∈ U

y F : U → Y un operador G-diferenciable en x0. Si la aplicacion δF (x0) es un operador lineal ycontinuo de X en Y , es decir, si δF (x0) ∈ L(X,Y ), entonces se dice que F es G-derivable en x0

y a la aplicacion δF (x0) se la denomina la derivada Gateaux (G-derivada) de F en x0.

Ejemplo 1.4. 1. Sean X e Y dos espacios normados, y0 ∈ Y y A ∈ L(X,Y ) un operadorlineal y continuo. Consideremos F : x ∈ X 7→ F (x) = Ax + y0 ∈ Y . Entonces, no es difıcilcomprobar que F es G-derivable en X y δF (x) = A, para cualquier x ∈ X. Si A fuera solo unoperador lineal, entonces F es G-diferenciable en x0 y δF (x0) = A, para cualquier x0 ∈ X.

2. Consideremos ahora B ∈ L2(X,Y ), es decir, B : X×X → Y , un operador bilineal y continuo.Definamos la aplicacion F : x ∈ X 7→ F (x) = B(x, x) ∈ Y . Entonces, se tiene que F es G-derivable en X y δF (x) = B(x, ·)+B(·, x), para cualquier x ∈ X. Si B es simetrico, entonces,δF (x) = 2B(x, ·). En el caso en el que B solo es bilineal, se tiene que F es G-diferenciable enx0 con δF (x0) = B(x0, ·) +B(·, x0), para cualquier x ∈ X0.

3. Como aplicacion del punto anterior podemos obtener lo siguiente: Sea H en espacio de Hilbert(con producto escalar (·, ·)) e introduzcamos el funcional

F : x ∈ H 7−→ F (x) = ‖x‖2 ∈ R, ∀x ∈ H.

Este funcional puede ser escrito F (x) = (x, x) y ası, aplicando el punto anterior, deducimosque F es G-derivable en todos los puntos de H y

δF (x0;h) = 2(x0, h), ∀x0 ∈ H, ∀h ∈ H.

Las definiciones precedentes generalizan el concepto de derivada direccional para aplicacionesde RN en R. Un concepto mas restrictivo lo constituye la nocion de derivada en el sentido de M.Frechet.

Definicion 1.24. Sean X, Y dos espacios normados, U ⊆ X un subconjunto abierto, F : U → Yun operador y x0 ∈ U . Diremos que F es derivable en x0 en el sentido de Frechet (o F-derivableen x0), si existe ε0 > 0 y A(x0) ∈ L(X,Y ) tal que

(1.1) F (x0 + h) = F (x0) +A(x0)h+ o(h), ∀h ∈ X con ‖h‖X ≤ ε0,

con o(h) ∈ Y satisfaciendo

(1.2) lım‖h‖→0

‖o(h)‖Y‖h‖X

= 0.

En tal caso el operador A(x0) es unico (ver la Proposicion 1.25), lo denotaremos por F ′(x0) y lodenominaremos la derivada Frechet (o F-derivada) de F en x0.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 15

La anterior definicion nos proporciona un nuevo concepto de derivada en los espacios de Banachque, evidentemente esta relacionado con la derivada en el sentido de Gateaux. Se tiene:

Proposicion 1.25. Sean X e Y dos espacios normados y F : U ⊆ X → Y un operador definidoen U ⊆ X un abierto. Si F es F-derivable en x0 ∈ U, entonces F es continua y G-derivable en x0.Ademas, δF (x0) ∈ L(X,Y ) y F ′(x0) = δF (x0).

Prueba: Sea h ∈ X \0 y consideremos ε0 > 0 y A(x0) ∈ L(X,Y ) satisfaciendo la condicion (1.1).Entonces, para ε 6= 0 y ε ≤ ε0/‖h‖X se tiene

F (x0 + εh)− F (x0)

ε= A(x0)h+

o(εh)

ε.

Usando la propiedad (1.2), podemos pasar al lımite cuando ε → 0 en la desigualdad precedentepara probar

lımε→0

F (x0 + εh)− F (x0)

ε= A(x0)h+ lım

ε→0

o(εh)

ε= A(x0)h+ lım

ε→0‖h‖X

‖o(εh)‖Y‖εh‖X

= A(x0)h,

de donde se deduce que F es derivable Gateaux en x0 y δF (x0) = A(x0). En particular, esto pruebala unicidad de A(x0) mencionada anteriormente.

La continuidad de F en x0 es una simple consecuencia de la formulas (1.1) y (1.2). Esto acabala prueba.

Ejemplo 1.5. En los tres ejemplos anteriores es facil comprobar que las aplicaciones son F-derivables en cada punto x0 ∈ X y, evidentemente, la F-derivada coincide con la G-derivada.Efectivamente,

1. En este primer caso, F puede ser escrita

F (x0 + h) = F (x0) +Ah, ∀x0, h ∈ X.

Al ser A ∈ L(X,Y ), deducimos que F satisface (1.1) para A(x0) ≡ A y o(h) ≡ 0. Ası, F esF-derivable en X y F ′(x0) = A, para todo x0 ∈ X.

2. En este caso, F puede ser escrita de la forma

F (x0 + h) = F (x0) +A(x0)h+B(h, h), ∀x0, h ∈ X

con A(x0)h = B(x0, h) + B(h, x0). Si hacemos o(h) ≡ B(h, h) entonces, utilizando que B ∈L2(X,Y ), deducimos que F satisface (1.1) y (1.2), es decir, F es F-derivable en cualquierpunto x0 ∈ X y F ′(x0) ≡ B(x0, ·) +B(·, x0).

3. Este ejemplo es un caso particular del anterior para X = H un espacio de Hilbert, Y = R yB(·, ·) = (·, ·).

Observacion 1.4. Todas las nociones de diferencial y derivada que se han introducido poseencaracter lineal en F .

Por otro lado, el concepto de derivada Gateaux de un operador F definido entre los espaciosnormados X e Y es realmente mas debil que el concepto de derivada en el sentido Frechet. Esto escierto incluso en el caso de espacios de dimension finita. Veamos un ejemplo: Consideremos X = R2,Y = R y F el funcional dado por

F (x, y) =x6

(y − x2)2 + x8si (x, y) 6= (0, 0), F (0, 0) = 0.

Es facil comprobar que F es G-diferenciable en el punto (0, 0), con G-derivada dada por δF (0, 0) =(0, 0), pero no es continua en (0, 0). Por tanto, F no es derivable en el sentido de Frechet.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

16 1.5. Calculo diferencial

Pasemos seguidamente a recordar (sin demostracion) un resultado clasico de derivabilidad defunciones compuestas. Se tiene:

Teorema 1.26. (Regla de la cadena) Sean X, Y , Z tres espacios normados, U ⊆ X y V ⊆ Ydos abiertos y x0 ∈ U. Consideremos dos aplicaciones ϕ : U → V y ψ : V → Z, y denotemosy0 = ϕ(x0) y F = ψ ϕ. Ası, si ψ es F-derivable en y0 y ϕ es F-derivable (respectivamente, G-derivable, G-diferenciable, G-diferenciable en la direccion h de X) en x0, entonces F es F-derivable(respectivamente, G-derivable, G-diferenciable o G-diferenciable en la direccion h de X) en x0, yse satisface

F ′(x0) = ψ′(y0) ϕ′(x0),

(respectivamente, δF (x0) = ψ′(y0) δϕ(x0), δF (x0, h) = ψ′(y0) (δϕ(x0, h))).

Para una prueba del anterior resultado, consultense los apuntes de la asignatura Analisis Fun-cional y Optimizacion.

Es posible generalizar el Teorema del valor medio en el marco de los operadores que son G-diferenciables en un espacio de Banach. Se tiene:

Teorema 1.27. (Valor medio) Sean X un espacio normado, U ⊆ X un abierto y x1, x2 dospuntos de U tales que [x1, x2] ⊂ U. Se tiene

1. Si F : U → R es G-diferenciable en todos los puntos de [x1, x2] en la direccion x2 − x1,entonces existe ξ ∈ (x1, x2) tal que

F (x2)− F (x1) = δF (ξ, x2 − x1).

2. Si Y es un e.n. y F : U→ Y es G-diferenciable en todos los puntos de [x1, x2] en la direccionx2 − x1, entonces existe ξ ∈ (x1, x2) tal que

‖F (x2)− F (x1)‖Y ≤ ‖δF (ξ, x2 − x1)‖Y .

Prueba: 1. Consideramos la funcion real de variable real

ϕ : t ∈ [0, 1] 7→ ϕ(t) = F (x1 + t(x2 − x1)) ∈ R.

Es facil comprobar directamente que ϕ ∈ C1([0, 1]) y, ası, el resultado se obtiene como consecuenciadel teorema del valor medio de funciones reales de variable real.

2. Como consecuencia del Teorema de Hahn-Banach, dado F (x2)− F (x1) ∈ Y , existe y∗ ∈ Y ′,con ‖y∗‖Y ′ = 1, tal que

〈y∗, F (x2)− F (x1)〉Y ′,Y = ‖F (x2)− F (x1)‖Y .

El resultado se obtiene sin mas que aplicar el teorema del valor medio a la funcion real de variablereal ϕ(t) = 〈y∗, F (x1 + t(x2 − x1)〉Y ′,Y definida en [0, 1].

Como consecuencia de este resultado podemos obtener un criterio de derivabilidad en el sentidode Frechet:

Proposicion 1.28. Sean X e Y dos espacios normados, U ⊆ X un abierto y F : U → Y unoperador. Supongamos que F es G-derivable en U y la aplicacion x ∈ U → δF (x) ∈ L(X,Y ) escontinua en U. Entonces, F es derivable Frechet en U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 17

Prueba: Fijemos x0 ∈ U y probemos que F es F-derivable en x0. Para ello, consideremos ε0 > 0tal que B(x0, ε0) ⊂ U .

En primer lugar, observese que el operador F puede ser escrito:

F (x0 + h) = F (x0) + δF (x0)h+ o(h), ∀h ∈ B0 ≡ B(0, ε0)

cono(h) = F (x0 + h)− F (x0)− δF (x0)h.

Veamos que o(h) satisface (1.2). Como δF (x) es continua en U, fijado ε > 0, existe δ ∈ (0, ε0) talque

‖δF (x0 + h)− δF (x0)‖L(X,Y ) ≤ ε ∀h ∈ X con ‖h‖ ≤ δ.

Si h ∈ X y ‖h‖ ≤ δ, entonces el segmento [x0, x0 + h] ⊂ B(x0, ε0) ⊂ U y podemos aplicar elTeorema 1.27 a la aplicacion F (·)− δF (x0)(·), deduciendo la existencia de ξ ∈ (x0, x0 + h) tal que

‖F (x0 + h)− F (x0)− δF (x0)(h)‖Y ≡ ‖o(h)‖Y ≤ ‖δF (ξ)− δF (x0)‖‖h‖ ≤ ε‖h‖.

De esta desigualdad obtenemos que F es derivable Frechet en x0. Esto prueba el resultado.

Pasemos a definir el concepto de derivada segunda de una aplicacion:

Definicion 1.29. Sean X e Y dos espacios normados, U ⊆ X un abierto y F : U→ Y un operador.Dados x0 ∈ U y h ∈ X, se dice que F es dos veces G-diferenciable en x0 en la direccion h, si existeε0 > 0 tal que F es G-diferenciable en el intervalo abierto (x0−ε0h, x0 +ε0h) ⊂ U y en la direccionh, y existe el lımite

δ2F (x0, h, h) = lımε→0

δF (x0 + εh, h)− δF (x0, h)

ε.

Al elemento δF 2(x0, h, h) ∈ Y ası definido lo denominaremos la G-diferencial segunda de F en elpunto x0 en la direccion h.

Ejemplo 1.6. Sean X e Y dos espacios normados y B : X × X → Y una aplicacion bilineal ycontinua. Consideremos F (x) = B(x, x); entonces, se tiene que F es dos veces G-diferenciable enX en cualquier direccion h ∈ X y se tiene:

δ2F (x0;h, h) = 2B(h, h).

Observacion 1.5. No es difıcil comprobar que si F : U→ Y , con U ⊂ X un abierto y X e Y dosespacios normados, es dos veces G-diferenciable en x0 ∈ U en la direccion h ∈ X, entonces, tambienes dos veces G-diferenciable en x0 y en la direccion αh ∈ X para cualquier α ∈ R. Ademas

δ2F (x0;αh, αh) = α2δ2F (x0;h, h).

Es posible dar un resultado mas general que el Teorema 1.27. Con ayuda del concepto deG-diferencial segunda de un operador F , se tiene:

Teorema 1.30. Sean X e Y dos espacios normados, U ⊆ X un abierto y F : U→ Y un operador.Dados x1, x2 ∈ U tales que [x1, x2] ⊂ U, supongamos que F es dos veces G-diferenciable en todopunto de [x1, x2] en la direccion x2 − x1. Entonces,

1. Si Y = R, existe ξ ∈ (x1, x2) tal que

F (x2) = F (x1) + δF (x1, x2 − x1) +1

2δ2F (ξ, x2 − x1, x2 − x1).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

18 1.5. Calculo diferencial

2. En el caso general (Y un e.n. cualquiera), existe ξ ∈ (x1, x2) tal que

‖F (x2)− F (x1)− δF (x1, x2 − x1)‖Y ≤1

2‖δ2F (ξ, x2 − x1, x2 − x1)‖Y .

Ejercicio 1.1. Prueba el Teorema 1.30.

Vamos a continuacion a caracterizar el caracter convexo de un funcional J definido en unabierto de un espacio de Banach. En esa caracterizacion vamos a utilizar los conceptos de G-diferenciabilidad del funcional J . En este sentido, generalizaremos resultados bien conocidos en elcaso en el que X = RN . Se tiene:

Proposicion 1.31. Sean X un espacio normado, Ω ⊆ X un abierto, U ⊆ Ω un subconjuntoconvexo no vacıo y J : Ω→ R un funcional. Supongamos que J es G-diferenciable en Ω. Entonces,

1. J es convexo en U si y solo si se verifica

(1.3) J(x2)− J(x1) ≥ δJ(x1, x2 − x1) ∀x1, x2 ∈ U.

2. Del mismo modo, J es estrictamente convexo en U si y solo si

(1.4) J(x2)− J(x1) > δJ(x1, x2 − x1) ∀x1, x2 ∈ U, x1 6= x2.

Prueba: 1. Fijemos x1, x2 ∈ U. Si J es convexo en U, entonces, dado ε ∈ (0, 1), se tiene

J(x1 + ε(x2 − x1))− J(x1)

ε≤ εJ(x2) + (1− ε)J(x1)− J(x1)

ε= J(x2)− J(x1).

Tomando lımite cuando ε→ 0+ obtenemos la desigualdad (1.3)Recıprocamente, supongamos que (1.3) es cierta. Veamos que J es convexo en U. Sean x1, x2 ∈ U

y α ∈ [0, 1], entonces, se tiene:J(x1) ≥ J(x2 + α(x1 − x2)) + δJ(x2 + α(x1 − x2), (1− α)(x1 − x2)) y

J(x2) ≥ J(x2 + α(x1 − x2)) + δJ(x2 + α(x1 − x2),−α(x2 − x1)).

Multiplicando las desigualdades anteriores respectivamente por α y 1 − α y utilizando las propie-dades de la G-diferencial (caracter homogeneo respecto de la direccion h), se prueba

J(αx1 + (1− α)x2) ≤ αJ(x1) + (1− α)J(x2)

y por tanto F es convexa en U.

2. El razonamiento anterior sirve para probar que (1.4) implica la convexidad estricta del fun-cional J en U.

Veamos el recıproco. Supongamos J es estrictamente convexa en U. En particular, J satisfa-ce (1.3). Ası, si x1, x2 ∈ U con x1 6= x2 y α ∈ (0, 1), entonces, se tiene

J(x2)− J(x1) >J(x1 + α(x2 − x1))− J(x1)

α

(1.3)≥ δJ(x1, α(x2 − x1))

α= δJ(x1, x2 − x1).

Tenemos ası la prueba del resultado.

Hay otra manera de caracterizar los funcionales convexos en un convexo mediante la G-diferencial.En concreto, se tiene:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 19

Proposicion 1.32. En las hipotesis de la Proposicion 1.31, J es convexa en U si y solo si

(1.5) δJ(x2, x2 − x1)− δJ(x1, x2 − x1) ≥ 0, ∀x1, x2 ∈ U.

Prueba: Supongamos que J es convexa en U y sean x1, x2 ∈ U. Aplicando (1.3) sucesivamente a(x1, x2) y a (x2, x1), se tiene

J(x2)− J(x1) ≥ δJ(x1, x2 − x1) y

J(x1)− J(x2) ≥ δJ(x2, x1 − x2).

Sumando estas desigualdades y teniendo en cuenta la homogeneidad de la G-diferencial respectode la direccion, se obtiene (1.5).

Supongamos ahora que se tiene (1.5) y sean x1, x2 ∈ U y α ∈ [0, 1]. Consideremos la funcion realde variable real ϕ : t ∈ [0, 1] 7→ ϕ(t) = J(x1 + t(x2−x1)). No es difıcil comprobar que ϕ ∈ C1([0, 1])y ϕ′(t) = δJ(x1 + t(x2 − x1), x2 − x1), para cada t ∈ [0, 1]. Usando (1.5) es tambien sencillodeducir que la funcion ϕ′ es creciente en [0, 1] (es decir, si 0 ≤ s < t ≤ 1, entonces ϕ′(s) ≤ ϕ′(t)).Deducimos por tanto que ϕ es convexa en el intervalo [0, 1] y ası, ϕ(α) ≤ αϕ(1) + (1− α)ϕ(0) i.e.,J((1− α)x1 + αx2) ≤ (1− α)J(x1) + αJ(x2). Tenemos ası acabada la prueba.

Veamos por ultimo que podemos caracterizar la convexidad de un funcional utilizando la G-diferencial segunda del funcional. Se tiene:

Proposicion 1.33. Sean X un espacio normado, Ω ⊆ X un abierto, U ⊆ Ω un subconjuntoconvexo y J : Ω→ R un funcional. Supongamos que J es dos veces G-diferenciable en Ω. Entonces,

1. J es convexa en U si y solo si se satisface

(1.6) δ2J(x1, x2 − x1, x2 − x1) ≥ 0, ∀x1, x2 ∈ U.

2. Si se tiene

(1.7) δ2J(x1, x2 − x1, x2 − x1) > 0, ∀x1, x2 ∈ U con x1 6= x2,

entonces F es estrictamente convexa en U.

Prueba: Supongamos que J satisface (1.6) (resp., J satisface (1.7)) y veamos que J es convexa(resp., estrictamente convexa en U). Sean x1, x2 ∈ U (resp., x1, x2 ∈ U, con x1 6= x2). Si aplicamosel Teorema 1.30 obtenemos la existencia de ξ ∈ (x1, x2) tal que se tiene

J(x2)− J(x1)− δJ(x1, x2 − x1) =1

2δ2J(ξ, x2 − x1, x2 − x1).

Observese que ξ = x1 + β(x2 − x1), con β ∈ (0, 1). Ası,

δ2J(ξ, x2 − x1, x2 − x1) = δ2J(ξ,− 1

β(x1 − ξ),−

1

β(x1 − ξ)) =

1

β2δ2J(ξ, x1 − ξ, x1 − ξ),

que junto a la Proposicion 1.31 demuestra que J es convexa (resp., estrictamente convexa) en U.Veamos ahora que si J es convexa en U, entonces se tiene (1.6). Sean x1, x2 ∈ U y ası,

δ2J(x1, x2 − x1, x2 − x1) = lımε→0+

δJ(x1 + ε(x2 − x1), x2 − x1)− δJ(x1, x2 − x1)

ε

= lımε→0+

δJ(x1 + ε(x2 − x1), ε(x2 − x1))− δJ(x1, ε(x2 − x1))

ε2≥ 0.

Esta ultima desigualdad prueba el resultado.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

20 1.5. Calculo diferencial

Observacion 1.6. Observese que la condicion (1.7) no es una condicion necesaria para que J seaestrictamente convexa en U. Basta considerar el funcional (funcion) definida en X = R dada porJ(t) = t4 que es, evidentemente, estrictamente convexa en R y no satisface (1.7).

Ejemplo 1.7. Consideremos X un espacio normado y una forma bilineal a : X × X → R. Sidefinimos el funcional J : X → R dado por J(x) = a(x, x), podemos utilizar el resultado anterior(pues J es dos veces G-diferenciable en X) y deducir que J es convexa en X si y solo si la formabilineal es semidefinida positiva en X, es decir, si y solo si

a(x, x) ≥ 0, ∀x ∈ X.

Si a es definida positiva en X, es decir, a(x, x) > 0, para cualquier x 6= 0, entonces J es estrictamenteconvexa en X.

De hecho en este caso, se tiene que J es estrictamente convexa si y solo si a es definida positivaen X. Efectivamente, la equivalencia es facil de establecer si se tiene en cuenta la Proposicion 1.31y la igualdad

J(x2)− J(x1)− δJ(x1, x2 − x1) = a(x2 − x1, x2 − x1),

valida para cualesquiera x1, x2 ∈ X.

Pasamos a continuacion a dar un bloque de resultados que relacionan la diferenciabilidad de unfuncional con la existencia de mınimos de ese funcional. Vamos a cambiar ligeramente la notaciony vamos a utilizar V en lugar de X para designar un espacio normado con norma ‖ · ‖. El primerode los resultados da una condicion necesaria de mınimo relativo de un funcional:

Teorema 1.34 (Condicion necesaria de extremo relativo). Sea V un espacio normado, Ω ⊆ Vun subconjunto y J : Ω → R un funcional. Supongamos que J alcanza un mınimo relativo enu ∈ int Ω y que J es G-diferenciable en u. Entonces

(1.8) δJ(u, h) = 0, ∀h ∈ V (Ecuacion de Euler).

Prueba: Como u ∈ int Ω y J alcanza en u un mınimo relativo, deducimos que existe ε0 > 0 tal queB(u; ε0) ⊂ Ω y J(u) ≤ J(v), para cualquier v ∈ B(u; ε0). Sea h ∈ V con h 6= 0 y supongamos queε ∈ (0, ε0). Entonces,

δJ(u, h/‖h‖) = lımε→0+

J(u+ εh/‖h‖)− J(u)

ε≥ 0

δJ(u, h/‖h‖) = lımε→0+

J(u− εh/‖h‖)− J(u)

−ε≤ 0.

En consecuencia, δJ(u;h/‖h‖) = 0 para cualquier h ∈ V con h 6= 0. Utilizando una vez mas que laG-diferencial es homogenea respecto de h deducimos el resultado.

Observacion 1.7. El resultado anterior deja de ser cierto si no imponemos la hipotesis u ∈ int Ω.Efectivamente, basta considerar el funcional J(x) = x definido en Ω = [0, 1] ⊂ V ≡ R.

En el caso de tener un conjunto convexo, la condicion necesaria de extremo relativo cambialigeramente:

Teorema 1.35 (Condicion necesaria y suficiente de mınimo relativo en convexos). SeaV un espacio normado, Ω ⊆ V un abierto, U ⊆ Ω un subconjunto convexo no vacıo y J : Ω → Run funcional. Supongamos que J es G-diferenciable en u ∈ U. Se tiene:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 21

1. Si u es un mınimo relativo de J en U entonces,

(1.9) δJ(u, v − u) ≥ 0 ∀v ∈ U.

2. Supongamos que J es convexo en U y que u ∈ U satisface (1.9). Entonces, u es un mınimoglobal de J en U.

Prueba:1. Como u es un mınimo relativo de J en U, existe ε0 > 0 tal que

J(u) ≤ J(v), ∀v ∈ U ∩B(u; ε0).

Por otro lado, fijado v ∈ U, existe ε1 ∈ (0, 1) tal que u + ε(v − u) ∈ B(u; ε0), para ε ∈ (0, ε1).Evidentemente, al ser U un conjunto convexo, u+ ε(v − u) ∈ U y podemos escribir

δJ(u, v − u) = lımε→0+

J(u+ ε(v − u))− J(u)

ε≥ 0.

2. Supongamos ahora que J es convexo en U y que se tiene (1.9) para u ∈ U. Veamos que u es unmınimo global de J en U. Efectivamente, sea v ∈ U; como J es convexo en U se tiene (ver (1.3))

J(v) ≥ J(u) + δJ(u, v − u)

que junto a (1.9) proporciona que u es un mınimo global de J en U.

Es posible generalizar el resultado anterior al caso en el que J no es G-diferenciable en U, peroJ es la suma de un funcional G-diferenciable y de otro que no lo es:

Ejercicio 1.2. Sean V un espacio normado, Ω ⊂ V un abierto, U ⊂ Ω un convexo no vacıoy J1, J2 : Ω → R dos funcionales convexos en U. Supongamos que J1 es G-diferenciable en Ω.Pruebese que u ∈ U es un mınimo de J1 + J2 en U si y solo si

δJ1(u, v − u) + J2(v)− J2(u) ≥ 0, ∀v ∈ U.

Observacion 1.8. La condicion (1.9) puede ser reescrita de forma equivalente en determinadoscasos particulares. Ası,

1. Si u ∈ intU, entonces la condicion (1.9) equivale a la ecuacion de Euler (1.8).

2. Si U ⊆ V es una variedad afın, es decir, si U = u0 +W con u0 ∈ V y W ⊆ V un subespaciovectorial, entonces (1.9) equivale a la condicion

δJ(u,w) = 0, ∀w ∈W.

3. En el caso particular en el que U ≡ W es un subespacio vectorial, no es difıcil comprobarque (1.9) equivale a

δJ(u, v) = 0, ∀v ∈W.

Si W = V volvemos a obtener la ecuacion de Euler (1.8).

4. Supongamos que U es un cono convexo de V , es decir, U es un convexo que satisface lapropiedad: si v ∈ U y λ ∈ [0,∞), entonces λv ∈ U. Supongamos tambien que J es G-derivable en u ∈ U. En este caso tambien es facil comprobar que la condicion (1.9) equivalea:

δJ(u, u) = 0 y δJ(u,w) ≥ 0, ∀w ∈ U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

22 1.6. Aplicaciones

5. Veamos que igualdad obtenemos en los casos 2 y 3 cuando J es G-derivable en u y el subespacioW viene dado como la interseccion de hiperplanos, es decir,

W = v ∈ V : 〈ai, v〉V ′,V = 0, ∀i : 1 ≤ i ≤M ≡ ⊥Z,

donde ai ∈ V ′ (1 ≤ i ≤M) y Z = span ai : 1 ≤ i ≤M ⊂ V ′.Supongamos por comodidad que V es un espacio de Banach reflexivo. Observese que tantoen los casos 2 y 3, podemos escribir

u ∈ U y δJ(u) ∈W⊥ ≡(⊥Z)⊥≡ Z ≡ Z.

que, teniendo en cuenta la expresion de W , se traduce en:

u ∈ U y δJ(u) +

M∑i=1

λiai = 0,

con λi ∈ R, con 1 ≤ i ≤ M . Los numeros reales λi son los denominados multiplicadores deLagrange.

Estudiaremos mas adelante problemas de mınimos con restricciones, donde la restriccion vienedada por condiciones de igualdad y desigualdad. En estos casos obtendremos condicionesnecesarias de mınimo del mismo tipo de las obtenidas anteriormente.

Como resumen de todos los conceptos anteriores, se tiene:

OPTIMIZACION CONVEXA: Supongamos que V es un espacio normado, U ⊆ V es unsubconjunto convexo no vacıo y J : U → R es un funcional convexo. Planteemos el problema demınimos:

(1.10)

Minimizar J(v),

Sujeto a v ∈ U.

Entonces,

1. Existencia: Supongamos ademas que V es un espacio de Banach reflexivo, U es cerrado, Jes s.c.i. en U y que J es coercitivo cuando U es no acotado. Entonces, existe u ∈ U soluciondel problema de mınimos (1.10), es decir, J tiene un mınimo global u en U.

2. Unicidad: Si J es estrictamente convexo en U, el problema de mınimos (1.10) a lo mas tieneuna solucion.

3. Caracterizacion: Supongamos ademas que J es G-diferenciable en Ω ⊂ V , con Ω un abiertotal que U ⊂ Ω. Entonces, u ∈ U es solucion del problema de mınimos (1.10) si y solo si

δJ(u, v − u) ≥ 0, ∀v ∈ U.

En este caso, J es convexo en U si y solo si

J(v) ≥ J(w) + δJ(w, v − w), ∀w, v ∈ U.

1.6. Aplicaciones

Analicemos en esta seccion dos sencillas aplicaciones de los anteriores conceptos. En ellas ob-tendremos resultados sobre problemas de mınimo ya conocidos.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 23

1.6.1. Primera Aplicacion: Minimizacion de un funcional cuadratico

En primer lugar estudiaremos el problema de mınimo asociado a un funcional cuadratico. Paraello consideremos un espacio de Hilbert V e introduzcamos el funcional (funcional cuadratico)J : V → R dado por

(1.11) J(v) =1

2a(v, v)− 〈L, v〉, ∀v ∈ V,

donde a(·, ·) : V × V → R es una forma bilineal, continua y simetrica y L : V → R es una formalineal y continua en V , es decir, L ∈ V ′. Evidentemente, existen constantes C1, C2 > 0 (de hechoC2 = ‖L‖V ′) tales que

|a(v, w)| ≤ C1‖v‖‖w‖, ∀v, w ∈ V,

|〈L, v〉| ≤ C2‖v‖, ∀v ∈ V.

Supongamos que la forma bilineal a(·, ·) es coercitiva en V , i.e., existe α > 0 tal que

(1.12) a(v, v) ≥ α‖v‖2, ∀v ∈ V.

Aplicando los resultados anteriores, obtenemos

El funcional J es F-derivable en V (ver Ejemplos 1.4 y 1.5) y en este caso J ′(v) ∈ L(V,R) = V ′

esta dada por

〈J ′(v), w〉V ′,V = a(v, w)− 〈L,w〉, ∀u,w ∈ V,

(〈J ′(v), w〉V ′,V =1

2(a(v, w) + a(w, v))− 〈L,w〉, ∀u,w ∈ V

si a(·, ·) no es simetrica). Del Ejemplo 1.6 deducimos tambien que J es dos veces G-diferenciableen V en cualquier direccion h (de hecho, J es dos veces F-derivable en V ) y

δ2J(v;h, h) = a(h, h), ∀v, h ∈ V.

De la Proposicion 1.33 (ver tambien el Ejemplo 1.7) y de la condicion (1.12) obtenemos queJ es estrictamente convexo en V . Efectivamente, se tiene a(v, v) > 0 para cualquier v ∈ Vcon v 6= 0.

Ademas el funcional J es coercitivo en V . Efectivamente, podemos acotarJ(v) =

1

2a(v, v)− 〈L, v〉 ≥ α

2‖v‖2 − ‖L‖V ′‖v‖ ≥ α

2‖v‖2 − 1

α‖L‖2V ′ −

α

4‖v‖2

4‖v‖2 − 1

α‖L‖2V ′ .

De aquı obtenemos la propiedad.

Fijemos ahora U ⊆ V un subconjunto cerrado convexo no vacıo y consideremos el problema demınimos

(1.13)

Minimizar J(v) =1

2a(v, v)− 〈L, v〉

Sujeto a v ∈ U.

Del Corolario 1.19, la Proposicion 1.20 y el Teorema 1.35, deducimos el resultado

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

24 1.6. Aplicaciones

Teorema 1.36. En las condiciones anteriores, existe un unico u ∈ U solucion del problema (1.13).Ademas u ∈ U es solucion de (1.13) si y solo si

a(u, v − u)− 〈L, v − u〉V ′,V ≥ 0, ∀v ∈ U.

Observacion 1.9. En el caso en el que U ≡ V , la condicion necesaria y suficiente de mınimo parael problema (1.13) es

a(u, v) = 〈L, v〉, ∀v ∈ V.

Observese que en este caso, el Teorema 1.36 es el Teorema de Lax-Milgram.

Ejemplo 1.8. Consideremos el caso finito-dimensional. Sea V ≡ RN , con N ≥ 1, y denotemos (·, ·)el producto escalar euclıdeo en RN . Consideremos tambien A ∈ L(RN ), una matriz simetrica ydefinida positiva, y b ∈ RN . Con estos datos, hagamos

a(v, w) = (Av,w) = vTAw y 〈L, v〉 = (b, v), ∀v, w ∈ RN .

En este caso es facil comprobar que la forma bilineal a(·, ·) y la forma lineal L son continuas y,ademas, a satisface (1.12). Aplicando el Teorema 1.36 deducimos que el problema de mınimos (1.13)(planteado en un conjunto cerrado, convexo no vacıo U ⊆ RN ) admite una unica solucion u ∈ RNy esta esta caracterizada por

(Au− b, v − u) ≥ 0, ∀v ∈ U.

Cuando U ≡ RN , la caracterizacion de u se reescribe (ver Observacion 1.9)

Au = b,

es decir, el problema de mınimos (1.13) equivale a la resolucion de un sistema lineal con matriz decoeficientes A y segundo miembro b.

1.6.2. Segunda Aplicacion: Teorema de la Proyeccion

Como segunda aplicacion de los conceptos recordados en este capıtulo, consideremos el problemade la proyeccion de un elemento u0 de un espacio de Hilbert V (con producto escalar denotado por(·, ·)) sobre un conjunto U ⊆ V cerrado, convexo y no vacıo. Para ello, consideremos el problema

(1.14)

Hallar u ∈ U tal que

‖u− u0‖ = ınfv∈U‖v − u0‖.

Observese que este problema puede ser reescrito como Minimizar J(v) =1

2‖v − u0‖2

Sujeto a v ∈ U.

El funcional J puede tambien escribirse como J(v) = J(v) + 12‖u0‖2, donde el nuevo funcional

J esta dado por (1.11) con

a(v, w) = (v, w) y 〈L, v〉 = (u0, v), ∀v ∈ V.

Es facil comprobar que a y L satisfacen las condiciones de la Seccion 1.6.1. En particular, a(·, ·)es una forma bilineal, continua y coercitiva en U (satisface (1.12) para α = 1). Podemos aplicarpor tanto el Teorema 1.36 y deducir:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 1. Repaso de Conceptos Conocidos 25

Teorema 1.37 (Teorema de la Proyeccion). Sean V un espacio de Hilbert, U ⊆ V un sub-conjunto convexo, cerrado y no vacıo y u0 ∈ V . Entonces, existe un unico u ∈ U solucion delproblema (1.14). Ademas, u esta caracterizado por ser la solucion de

Hallar u ∈ U tal que

(u− u0, v − u) ≥ 0, ∀v ∈ U.

Observacion 1.10. La solucion u ∈ U del problema (1.14) se denomina la proyeccion de u0

sobre U. La condicion necesaria y suficiente proporcionada por el Teorema 1.37 tiene una clarainterpretacion geometrica cuando V = RN .

Cuando el conjunto U es una variedad afın cerrada, es decir, cuando U = U0 +W con U0 ∈ V yW ⊆ V un subespacio vectorial cerrado, la condicion necesaria y suficiente se escribe: u ∈ U0 +Wy

(u− u0, w) = 0, ∀w ∈W,

es decir, u− u0 ∈W⊥ = v ∈ V : (v, w) = 0 ∀w ∈W.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

26 1.6. Aplicaciones

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Capıtulo 2

Metodos de Tipo Gradiente ParaProblemas sin Restricciones

En lo que sigue supondremos que V es un espacio de Hilbert equipado con un producto escalardenotado (·, ·) y con norma asociada ‖ · ‖. Utilizaremos el Teorema de Riesz para identificar V consu dual V ′. Recordemos que esa identificacion viene dada mediante el producto escalar de V: Dadof ∈ V ′, existe un unico elemento uf ∈ V tal que ‖uf‖ = ‖f‖V ′ y

〈f, v〉 = (uf , v), ∀v ∈ V.

2.1. Funcionales elıpticos

Comenzamos generalizando el concepto de funcional cuadratico en un espacio de Hilbert. Ve-remos que esta generalizacion esta bien adaptada al estudio de metodos de aproximacion para losmınimos de funcionales. Ası,

Definicion 2.1. Sea V un espacio de Hilbert y U ⊆ V un subconjunto convexo no vacıo. Diremosque J : U ⊆ V −→ R es un funcional elıptico (o tambien fuertemente convexo o α-convexo) en U

si J es continuo en U y existe α > 0 tal que, para cualesquiera u, v ∈ U y θ ∈ [0, 1], se tiene

(2.1) J((1− θ)u+ θv) ≤ (1− θ)J(u) + θJ(v)− αθ(1− θ)2

‖u− v‖2.

La constante positiva α es denominada constante de elipticidad de J asociada a U.

Ejercicio 2.1. Sean V un espacio de Hilbert, Ω ⊆ V un abierto, U ⊆ Ω un subconjunto convexono vacıo y J1, J2 : Ω→ R dos funcionales continuos en Ω. Supongamos que J1 es elıptico en U, conconstante de elipticidad α > 0, y J2 es convexo en U. Pruebese que J = J1 + J2 es tambien unfuncional elıptico en U y que α es una constante de elipticidad de J en U.

Es evidente que si J es un funcional elıptico en U, entonces J es estrictamente convexo en U.Tambien se tiene que J es coercitivo en U. Efectivamente,

Proposicion 2.2. Supongamos que J es un funcional elıptico en U con constante de elipticidad α.Entonces, existen γ > 0 y δ ∈ R, dos constantes, tales que

J(v) ≥ γ‖v‖2 − δ, ∀v ∈ U.

27

28 2.1. Funcionales elıpticos

Prueba: Como J es un funcional continuo y convexo en U, se tiene que el conjunto

Epi (J) = (λ, v) ∈ R× U : λ ≥ J(v)

es un subconjunto cerrado (pues J es continuo en U), convexo (pues J es convexo en U) y novacıo del espacio de Hilbert R × V . Tomemos v0 ∈ U y λ0 ∈ R tales que λ0 < J(v0). Como(λ0, v0) 6∈ Epi (J), podemos aplicar el teorema de separacion de un punto y un convexo, deduciendola existencia de una constante β ∈ R y de una forma lineal L ∈ V ′ tal que

βλ+ 〈L, v〉 > βλ0 + 〈L, v0〉, ∀(λ, v) ∈ Epi (J).

No es difıcil comprobar que β > 0 (puesto que podemos tomar λ arbitrariamente grande). Sin masque considerar (J(v), v) ∈ Epi (J) y dividir por β, la desigualdad anterior se transforma en

(2.2) J(v) ≥ 〈L, v〉+ C,

para una cierta constante C y con L = −L/β ∈ V ′.Probemos ya el resultado. Para v ∈ U, (2.1) y (2.2) implican

1

2(J(v) + J(v0)) ≥ J

(1

2(v + v0)

)+α

8‖v − v0‖2 ≥

1

2〈L, v + v0〉+

α

8‖v − v0‖2 + C,

y de aquı,

J(v) ≥ α

4‖v‖2 − α

2(v, v0) + 〈L, v〉+ C1,

con C1 = (α/4)‖v0‖2+〈L, v0〉−J(v0)+2C. Aplicando la desigualdad de Cauchy-Schwarz, deducimos

J(v) ≥ α

4‖v‖2 − (‖L‖V ′ + α‖v0‖/2) ‖v‖+ C1 ≥

α

8‖v‖2 − δ,

para cierta constante δ.

Podemos ahora establecer un resultado de existencia y unicidad de mınimo para funcionaleselıpticos sobre un convexo cerrado no vacıo. Se tiene:

Teorema 2.3. Sean V un espacio de Hilbert, U ⊆ V un subconjunto cerrado convexo no vacıo yJ : U → R un funcional elıptico en U (de constante α > 0). Entonces, existe un unico u ∈ U talque

J(u) = ınfv∈U

J(v).

Ademas, se tiene

(2.3) ‖v − u‖2 ≤ 4

α(J(v)− J(u)) , ∀v ∈ U,

de donde se deduce que cualquier sucesion minimizante de J en U converge hacia u.

Prueba: La existencia y unicidad de mınimo de J en U se deduce del Corolario 1.19 y de lasProposiciones 1.20 y 2.2. Por otro lado, si v ∈ U, aplicando (2.1) para θ = 1/2 obtenemos,

α

8‖u− v‖2 ≤ 1

2(J(u) + J(v))− J

(1

2(u+ v)

)≤ 1

2(J(v)− J(u)) ,

pues J((u+ v)/2) ≥ J(u). Tenemos ası la prueba del resultado.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 29

Observacion 2.1. El Teorema 2.3 establece un resultado de existencia y unicidad de mınimo deun funcional elıptico J en un convexo cerrado U. Si ademas el funcional es G-diferenciable en U,podemos aplicar el Teorema 1.35 y deducir que u es el mınimo de J en U si y solo si u ∈ U y

δJ(u, v − u) ≥ 0, ∀v ∈ U.

Pasemos a continuacion a caracterizar los funcionales elıpticos en un convexo utilizando laG-diferencial. Se tiene:

Teorema 2.4. Sean V un espacio de Hilbert, Ω ⊆ V un abierto, U ⊆ Ω un subconjunto convexo novacıo y J : Ω → R un funcional continuo. Supongamos que J es G-diferenciable en Ω. Entonces,son equivalentes

J es elıptico en U (con constante α > 0 asociada).

(2.4) J(v) ≥ J(u) + δJ(u, v − u) +α

2‖v − u‖2, ∀u, v ∈ U.

(2.5) δJ(v, v − u)− δJ(u, v − u) ≥ α‖v − u‖2, ∀u, v ∈ U.

Prueba: Supongamos que J es un funcional elıptico en U y sean u, v ∈ U. Aplicando (2.1) conθ ∈ (0, 1), obtenemos

J(u+ θ(v − u))− J(u)

θ≤ J(v)− J(u)− α

2(1− θ)‖v − u‖2.

Tomando lımite cuando θ → 0+, deducimos (2.4).Supongamos ahora que se tiene (2.4) y sean u, v ∈ U. Deducimos (2.5) escribiendo (2.4) alter-

nativamente para (u, v) y (v, u), sumando las desigualdades obtenidas y teniendo en cuenta que laG-diferencial es homogenea respecto a la direccion.

Por ultimo, supongamos que se tiene (2.5) y consideremos u, v ∈ U y θ ∈ (0, 1). Para t ∈ [0, 1],introducimos la funcion ϕ(t) = J(u+ t(v−u)). Es facil comprobar que ϕ es derivable en el intervalo[0, 1] y ϕ′(t) = δJ(u+ t(v − u), v − u). De (2.5),

ϕ′(t)− ϕ′(s) ≥ α(t− s)‖v − u‖2 para t, s ∈ [0, 1] con t ≥ s.

Integrando esta desigualdad respecto de t en el intervalo [θ, 1] y respecto a s en el intervalo [0, θ],obtenemos

θϕ(1) + (1− θ)ϕ(0)− ϕ(θ) ≥ α

2θ(1− θ)‖v − u‖2,

es decir, J es elıptico en U.

Ejemplo 2.1. Supongamos que V es un espacio normado, a : V × V → R una forma bilinealcontinua y L ∈ V ′. Consideramos el funcional cuadratico

J(v) =1

2a(v, v)− 〈L, v〉, ∀v ∈ V.

Podemos utilizar la caracterizacion (2.5) para dar una condicion sobre a(·, ·) para que el funcionalJ sea elıptico en V . Es facil comprobar la igualdad

δJ(v, v − u)− δJ(u, v − u) = a(v − u, v − u), ∀u, v ∈ V,

de donde deducimos que J es elıptico en V (con constante de elipticidad α) si y solo si la formabilineal a(·, ·) es coercitiva en V (con constante de coercitividad α).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

30 2.1. Funcionales elıpticos

Ejemplo 2.2. Veamos el caso particular en el que V tiene dimension finita. Para ello, consideramosV = RN , con N ≥ 1, A ∈ L(RN ) una matriz de orden N y b ∈ RN . Introduzcamos el funcionalcuadratico en RN dado por:

J(x) =1

2(Ax, x)− (b, x) ∀x ∈ RN ,

donde mediante (·, ·) estamos denotando el producto euclıdeo en RN . Entonces, J es elıptico enRN si y solo si A es definida positiva y la constante de elipticidad α del funcional coincide con laconstante α que da el caracter definido positivo de la matriz A.

Ejemplo 2.3. Veamos otro caso particular del Ejemplo 2.1. Consideremos Ω ⊂ RN un abiertoacotado y recordemos que1

H1(Ω) = v ∈ L2(Ω) : ∃∂iv ∈ L2(Ω) para todo i : 1 ≤ i ≤ N,

donde mediante ∂iv estamos denotando la derivada generalizada de v respecto de xi. Sabemos queH1(Ω) es un espacio de Hilbert para el producto escalar

(v, w)H1 =

∫Ωv(x)w(x) dx+

N∑i=1

∫Ω∂iv(x)∂iw(x) dx, ∀v, w ∈ H1(Ω).

Denotaremos mediante ‖ · ‖H1 la norma de H1(Ω) asociada al producto (·, ·)H1

Por otro lado, recordemos que H10 (Ω) es la adherencia de D(Ω) en H1(Ω). Por tanto, H1

0 (Ω) esun subespacio vectorial cerrado de H1(Ω) y, con el producto escalar de H1(Ω), es un espacio deHilbert.

En general, H10 (Ω) es un subespacio propio de H1(Ω) (es decir, H1

0 (Ω) ( H1(Ω)) y, en particularsi Ω es un abierto acotado se tiene H1

0 (Ω) 6≡ H1(Ω). Evidentemente, D(Ω) es un subespaciovectorial denso en H1

0 (Ω). Recordemos tambien que si Ω ⊂ RN es un abierto acotado en algunadireccion, entonces, la seminorma de H1(Ω) dada por

‖v‖2H10

=N∑i=1

‖∂iv‖2L2 .

es de hecho una norma en H10 (Ω) equivalente a la usual de H1(Ω) (desigualdad de Poincare).

Finalmente, recordemos que H−1(Ω) es el espacio dual topologico de H10 (Ω).

En H10 (Ω) consideramos las formas bilineal y lineal en H1

0 (Ω)a(v, w) =

N∑i=1

∫Ω∂iv(x)∂iw(x) dx ∀v, w ∈ H1

0 (Ω),

〈L, v〉 =

∫Ωf(x)v(x) dx ∀v ∈ H1

0 (Ω),

con f ∈ L2(Ω) dada. Entonces es facil comprobar que podemos aplicar el ejemplo (2.1) al funcional

J(v) =1

2a(v, v)− 〈L, v〉, ∀v ∈ H1

0 (Ω),

pues, de la desigualdad de Poincare, deducimos que la forma bilineal es coercitiva en H10 (Ω) y el

funcional J es elıptico en H10 (Ω).

1Para una definicion mas precisa, vease la asignatura Ecuaciones en Derivadas Parciales y Analisis Funcional.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 31

En el caso en el que J sea dos veces G-diferenciable, podemos caracterizar la elipticidad de Jen U usando esa G-diferencial segunda:

Proposicion 2.5. Sean V un espacio de Hilbert, Ω ⊆ V un abierto, U ⊆ Ω un subconjunto convexono vacıo y J : Ω→ R un funcional continuo. Supongamos que J es dos veces G-diferenciable en Ω.Entonces, J es elıptico en U (con constante α > 0 asociada) si y solo si

δ2J(u, v − u, v − u) ≥ α‖v − u‖2, ∀u, v ∈ U.

Ejercicio 2.2. Pruebese la Proposicion 2.5

2.2. Metodos del gradiente para problemas de mınimo sin restric-ciones

En esta seccion comenzaremos a presentar y a analizar algunos algoritmos que permitiran apro-ximar la solucion del problema de mınimos

(2.6)

Minimizar J(v),

Sujeto a v ∈ V,

donde V es un espacio de Hilbert y J : V → R es un funcional convexo. Observese que estamostomando U ≡ V , por tanto, se trata de un problema sin restricciones.

Presentaremos metodos o algoritmos de tipo iterativo: partiendo de un vector inicial u0 ∈ V ,construiremos una sucesion unn≥0 ⊂ V que, bajo ciertas condiciones, convergera hacia la solucionde nuestro problema de mınimos. Para construir el vector un+1 a partir del vector un utilizaremosuna idea muy sencilla mediante la cual transformaremos el problema de mınimos original en unproblema de mınimos unidimensional:

1. dado n ≥ 0, daremos una direccion dn ∈ V , con dn 6= 0 (direccion de descenso) en el puntoun,

2. buscaremos el mınimo del funcional J sobre la recta que pasa por un con direccion dn, esdecir, calcularemos ρn ∈ R tal que

J(un + ρndn) = ınfρ∈R

J(un + ρdn).

3. haremos un+1 = un + ρndn.

Esta es la estructura general de un llamado metodo de descenso. El problema surge en comoelegir la “mejor” direccion de descenso, es decir, la direccion dn ∈ V que haga que la diferenciaJ(un)−J(un+1) sea lo mayor posible. Veamos como podemos elegir esa direccion optima (al menoslocalmente optima):

Supongamos que J ∈ C1(V ), es decir, supongamos que J es F-diferenciable en V con F-derivadacontinua. Si hacemos wn = ρndn, entonces un+1 = un + wn y

J(un+1) = J(un) + (J ′(un), wn) + ‖wn‖o(wn) con lım‖w‖→0

o(w) = 0,

donde mediante J ′(v) estamos denotando la F-derivada de J en v. Recordemos que, con la identi-ficacion V ≡ V ′, J ′(un) ∈ V . De aquı deducimos

J(un)− J(un+1) = −(J ′(un), wn)− ‖wn‖o(wn),

Gracias a la desigualdad de Cauchy-Schwarz, se deduce |(J ′(un), wn)| ≤ ‖J ′(un)‖‖wn‖ y la igualdadse alcanza cuando J ′(un) y wn son proporcionales. Esto nos conduce a tomar wn = −βJ ′(un), esdecir, tomaremos como direccion de descenso en la etapa n+ 1 la del gradiente de J en un.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

32 2.2. Metodos del gradiente para problemas de mınimo sin restricciones

2.2.1. Algoritmo del Gradiente con Paso Optimo (AGPO)

Supongamos que J ∈ C1(V ). Con las consideraciones anteriores planteamos el Metodo delGradiente con Paso Optimo:

1. Elegir u0 ∈ V .

Dados n ≥ 0 y un ∈ V :

2. Calcular J ′(un) ∈ V .

3. Calcular ρn ∈ R tal que J(un − ρnJ ′(un)) = ınfρ∈R

J(un − ρJ ′(un)).

4. Tomar un+1 = un − ρnJ ′(un), hacer n = n+ 1 y volver a 2.

Observacion 2.2. De manera general, un metodo iterativo en el que el punto un+1 venga dado porla igualdad un+1 = un − ρnJ ′(un), con ρn ∈ R, es denominado metodo del gradiente. El algoritmoanterior es denominado metodo del gradiente con paso optimo por razones evidentes. Veremos otrosmetodos del gradiente que simplifican el anteriormente propuesto.

Respecto a la convergencia de este metodo, se tiene:

Teorema 2.6. Supongamos que J : V → R es un funcional elıptico en V , con constante α > 0,y F-derivable en V con derivada continua. Supongamos ademas que J ′ : V → V es globalmenteLipschitziana en los acotados de V , es decir, para cualquier M > 0 existe LM ≥ 0 tal que

(2.7) ‖J ′(v)− J ′(w)‖ ≤ LM‖v − w‖, ∀v, w ∈ B(0;M).

Entonces, el algoritmo (AGPO) es globalmente convergente: para cualquier u0 ∈ V , la sucesionunn≥0 dada por el (AGPO) esta bien definida y un → u en V , siendo u ∈ V la unica soluciondel problema de mınimos (2.6).

Prueba: Bajo las hipotesis del enunciado podemos aplicar el Teorema 2.3 (con U = V ) y deducirque (2.6) tiene una unica solucion u ∈ V que esta caracterizada por

J ′(u) = 0.

Esta igualdad nos permite suponer que J ′(un) 6= 0 para todo n ≥ 0, pues en caso contrariotendrıamos que un ≡ u y el metodo serıa convergente en un numero finito de etapas. Veamos ya laprueba del resultado:

Etapa 1. En esta primera etapa comprobaremos que el algoritmo esta bien definido. Supongamosdado n ≥ 0 y un ∈ V , con J ′(un) 6= 0, y calculemos un+1. Consideremos la funcion fn : R → Rdada por

fn(ρ) = J(un − ρJ ′(un)).

Claramente, fn ∈ C1(R) y f ′n(ρ) = −(J ′(un − ρJ ′(un)), J ′(un)). Veamos que fn es elıptica en R.Efectivamente, si ρ, η ∈ R y θ ∈ [0, 1], tenemos

fn ((1− θ)ρ+ θη) = J((1− θ)

(un − ρJ ′(un)

)+ θ

(un − ηJ ′(un)

))≤ (1− θ)J

(un − ρJ ′(un)

)+ θJ

(un − ηJ ′(un)

)− αθ(1− θ)

2‖(ρ− η)J ′(un)‖2

= (1− θ)fn(ρ) + θfn(η)− αθ(1− θ)2

‖J ′(un)‖2|ρ− η|2,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 33

de donde colegimos que fn es elıptica en R con constante de elipticidad α‖J ′(un)‖2. Aplicando elTeorema 2.3 obtenemos que fn tiene un unico mınimo en R que esta caracterizado por f ′n(ρn) = 0.Tenemos asegurado que el algoritmo esta bien definido.

Puesto que f ′n(ρn) = 0, deducimos,

(2.8)(J ′(un+1), J ′(un)

)= 0, ∀n ≥ 0,

(dos direcciones de descenso consecutivas son ortogonales).

Etapa 2. En esta etapa y como consecuencia de la igualdad (2.8) deduciremos algunas propiedadesde la sucesion. Estas propiedades son comunes a todos los algoritmos de descenso y explota el hechode que J ′(un+1) es ortogonal a la direccion de descenso. En primer lugar, como consecuencia de laigualdad (2.8), se tiene

J(un)− J(un+1) ≥(J ′(un+1), un − un+1

)+α

2‖un − un+1‖2

= ρn(J ′(un+1), J ′(un)

)+α

2‖un − un+1‖2 =

α

2‖un − un+1‖2.

Tenemos de este modo que la sucesion J(un)n≥0 es una sucesion decreciente que, evidente-mente, esta acotada inferiormente por J(u). Por tanto, J(un)n≥0 es convergente. Esta propiedadjunto a la ultima desigualdad muestra la segunda propiedad de la sucesion:

(2.9) lım ‖un+1 − un‖2 = 0.

Veamos ya la ultima propiedad de la sucesion unn≥0. Gracias a la Proposicion 2.2, sabemosque el funcional J es coercitivo en V . Como J(un)n≥0 es convergente, necesariamente unn≥1

esta acotada. Ası, existe M > 0 tal que

(2.10) ‖un‖ ≤M, ∀n ≥ 0

Etapa 3. Probemos la convergencia de la sucesion. Esta se va a deducir de la combinacion de laspropiedades anteriores (validas en cualquier algoritmo de descenso) y de una propiedad particulardel (AGPO). Es la siguiente:

‖J ′(un)‖2 = (J ′(un), J ′(un)) = (J ′(un), J ′(un)− J ′(un+1)) ≤ ‖J ′(un)‖‖J ′(un)− J ′(un+1)‖,

es decir,‖J ′(un)‖ ≤ ‖J ′(un)− J ′(un+1)‖.

Utilizamos ahora (2.7) y (2.10) para obtener

‖J ′(un)‖ ≤ ‖J ′(un)− J ′(un+1)‖ ≤ LM‖un − un+1‖,

con LM ≥ 0 la constante de Lipschitz asociada. De (2.9) obtenemos que lım ‖J ′(un)‖ = 0. Utilizandode nuevo la hipotesis de elipticidad del funcional J y, en concreto, (2.5),

α‖un − u‖2 ≤ (J ′(un)− J ′(u), un − u) = (J ′(un), un − u) ≤ ‖J ′(un)‖‖un − u‖,

es decir,

(2.11) ‖un − u‖ ≤1

α‖J ′(un)‖ → 0.

Tenemos de este modo la prueba del resultado.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

34 2.2. Metodos del gradiente para problemas de mınimo sin restricciones

Observacion 2.3. En el caso finito-dimensional V ≡ RN , con N ≥ 1, es posible demostrar elTeorema 2.6 sin imponer la condicion (2.7). Efectivamente, razonando como antes, se tiene (2.10)y (2.9). Por otro lado, tambien se tiene que la sucesion unn≥1 ⊂ RN esta acotada, es decir, existeM > 0 tal que unn≥1 ⊂ B(0;M). Como J ′(v) es continua en RN , tenemos que es uniformementecontinua sobre el compacto B(0;M). Utilizando esta ultima propiedad junto a (2.10) y (2.9)deducimos que lım ‖J ′(un)‖ = 0. Basta ahora razonar como en la prueba del Teorema 2.6 paraconcluir la convergencia de un hacia u y la desigualdad (2.11).

Observacion 2.4. 1. Es interesante resaltar que la desigualdad (2.11) tiene un gran interesdesde el punto de vista practico: proporciona una estimacion del error cometido en la etapa ndel algoritmo. Sin embargo, no nos proporciona una estimacion de la velocidad de convergenciadel algoritmo.

2. En el caso finito-dimensional es posible probar un resultado analogo al Teorema 2.6 bajohipotesis mas generales: J ∈ C1(RN ), estrictamente convexo y coercitivo en V (ver [Cea]p. 91).

Ejemplo. Veamos en que consiste el (AGPO) en el caso de un funcional cuadratico en RN . Paraello consideramos A ∈ L(RN ), una matriz cuadrada de orden N simetrica y definida positiva,y b ∈ RN . Definimos,

J(x) =1

2(Ax, x)− (b, x), ∀x ∈ RN .

Es facil comprobar que J satisface las condiciones del Teorema 2.6. Ası, el (AGPO) proporcionauna sucesion xnn≥0 ⊂ RN que converge hacia el mınimo global de J en RN , es decir, hacia launica solucion x ∈ RN del sistema lineal Ax = b.

Calculemos la sucesion xnn≥0: La derivada de J viene dada por J ′(x) = Ax−b. Calcularemosel paso optimo ρn utilizando (2.8), es decir,

0 =(J ′(xn+1), J ′(xn)

)=(A(xn − ρnJ ′(xn)

)− b, J ′(xn)

).

De aquı obtenemos

ρn =‖gn‖2

(Agn, gn), con gn = J ′(xn) = Axn − b.

De esta manera, el metodo queda del siguiente modo:

1. Elegir x0 ∈ RN y ε > 0.

Dados n ≥ 0 y xn ∈ RN :

2. Calcular gn = Axn − b.

3. Si ‖gn‖ < ε parar el algoritmo y tomar x ' xn. Si ‖gn‖ ≥ ε pasar al punto siguiente.

4. Calcular ρn =‖gn‖2

(Agn, gn)y xn+1 = xn − ρngn. Hacer n = n+ 1 y volver a 2.

2.2.2. Algoritmos del Gradiente con Paso Fijo (AGPF) y Variable (AGPV)

Se puede simplificar el (AGPO) dando a priori el valor del paso en cada etapa n en lugar decalcularlo resolviendo un problema de mınimos unidimensional. Ası, supongamos dada una sucesionρnn≥0 ⊂ R y planteemos el llamado Algoritmo del Gradiente con Paso Variable (AGPV):

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 35

1. Elegir u0 ∈ V .

Dados n ≥ 0 y un ∈ V :

2. Calcular J ′(un) ∈ V .

3. Tomar un+1 = un − ρnJ ′(un), hacer n = n+ 1 y volver a 2.

Como paso particular del metodo anterior esta el Algoritmo del Gradiente con Paso Fijo queconsiste en tomar una sucesion constante ρn ≡ ρ ∈ R, para todo n ≥ 0:

1. Elegir ρ > 0 y u0 ∈ V .

Dados n ≥ 0 y un ∈ V :

2. Calcular J ′(un) ∈ V .

3. Tomar un+1 = un − ρJ ′(un), hacer n = n+ 1 y volver a 2.

Respecto a la convergencia de estos metodos, se tiene:

Teorema 2.7. Supongamos que J : V → R es un funcional elıptico en V , con constante α > 0,y F-derivable en V con derivada continua. Supongamos ademas que J ′ : V → V es globalmenteLipschitziana en V , es decir, existe L ≥ 0 tal que

‖J ′(v)− J ′(w)‖ ≤ L‖v − w‖, ∀v, w ∈ V.

Supongamos ademas que existen a, b > 0 tales que

0 < a ≤ ρn ≤ b <2α

L2, ∀n ≥ 0.

Entonces, el algoritmo (AGPV) es convergente con convergencia geometrica, es decir, existe β =β(α,L, a, b) ∈ [0, 1) tal que, para cualquier u0 ∈ V , se tiene:

‖un − u‖ ≤ βn‖u0 − u‖, ∀n ≥ 0,

siendo u ∈ V la unica solucion del problema de mınimos (2.6).

Prueba: Bajo las condiciones del enunciado se tiene que el funcional J admite un unico mınimou ∈ V que satisface la ecuacion de Euler J ′(u) = 0 en V . Por tanto, podemos escribir

un+1 − u = un − u− ρn(J ′(un)− J ′(u)

),

de donde, teniendo en cuenta la hipotesis sobre J ′ y (2.5), deducimos‖un+1 − u‖2 = ‖un − u‖2 + ρ2

n‖J ′(un)− J ′(u)‖2 − 2ρn(J ′(un)− J ′(u), un − u

)≤ ‖un − u‖2 + L2ρ2

n‖un − u‖2 − 2αρn‖un − u‖2 ≡ P (ρn)‖un − u‖2,

siendo P el polinomio dado por P (ρ) = L2ρ2−2αρ+1. Es facil comprobar que P (0) = P (2α/L2) = 1y que mınρ∈[0,2α/L2] P (ρ) = P (α/L2) = 1 − α2/L2 ∈ [0, 1) (pues, como se comprueba facilmente,α ≤ L).

Por otro lado, si hacemos β =√

maxρ∈[a,b] P (ρ) ∈ [0, 1), entonces ‖un+1 − u‖2 ≤ β2‖un − u‖2.

De aquı se concluye el resultado.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

36 2.2. Metodos del gradiente para problemas de mınimo sin restricciones

Observacion 2.5. El Teorema 2.3 da, en particular, un resultado de convergencia para el (AGPF).Para ello basta elegir ρ ∈ (0, 2α/L2). Teniendo en cuenta la expresion del polinomio P deducimosque la eleccion optima del paso ρ es ρ ≡ α/L2.

Es posible aplicar el Teorema 2.7 cuando J es un funcional cuadratico elıptico en RN . Consi-deremos

J(x) =1

2(Ax, x)− (b, x) ∀x ∈ RN ,

donde A ∈ L(RN ) es una matriz simetrica definida positiva y b ∈ RN . Es facil comprobar quelas mejores constantes α y L asociadas a J son, respectivamente, λ1 y λN (el primer y el ultimoautovalor de A). Ası, el (AGPV) es convergente si

0 < a ≤ ρn ≤ b <2λ1

λ2N

, ∀n ≥ 0.

Analizando la prueba del teorema anterior, veamos que es posible mejorar la acotacion anterior.En efecto, sea x ∈ RN el mınimo de J en RN . Sabemos que Ax = b y, ası,

xn+1 − x = xn − x− ρnA(xn − x) = (I − ρnA) (xn − x) ,

de donde,

‖xn+1 − x‖ ≤ ‖I − ρnA‖2‖xn − x‖, ∀n ≥ 0,

donde ‖ · ‖2 representa la norma espectral. Si hacemos f(ρ) = ‖I−ρA‖2, como I−ρA es simetrica,entonces,

f(ρ) = max|1− ρλ1|, |1− ρλN |.

Viendo la grafica de la funcion f es facil comprobar que si

0 < a ≤ ρn ≤ b <2

λN,

entonces f(ρn) ≤ maxf(a), f(b) ≡ β ∈ (0, 1). Finalmente,

‖xn+1 − x‖ ≤ β‖xn − x‖ ≤ βn+1‖x0 − x‖, ∀n ≥ 0.

Obtenemos de este modo la convergencia del (AGPV) con una cota superior para ρn (2/λN ) quees mejor que la que proporciona el Teorema 2.7 (2λ1/λ

2N ). Tambien analizando la grafica de f ,

obtenemos que el valor optimo de ρ en el (AGPF) es ρ ≡ 2/(λ1 + λN ) que proporciona el siguientevalor para β:

β ≡ f(

2

λ1 + λN

)=λN − λ1

λ1 + λN∈ (0, 1).

Es posible probar un resultado de convergencia local del (AGPV) bajo hipotesis mas generalesque las exigidas en el Teorema 2.7. En concreto, se tiene:

Teorema 2.8. Supongamos que J : V → R es un funcional elıptico en V , con constante α > 0,y F-derivable en V con derivada continua. Supongamos ademas que J ′ : V → V es globalmenteLipschitziana en los acotados de V , es decir, para todo R > 0, existe LR ≥ 0 tal que

‖J ′(v)− J ′(w)‖ ≤ LR‖v − w‖, ∀v, w ∈ B(0;R).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 37

Entonces, dado R > 0 y a, b ∈ (0, 2α/L2R), existe βR = βR(α,R, a, b) ∈ [0, 1) tal que si u0 ∈ B(u;R)

y

0 < a ≤ ρn ≤ b <2α

L2R

, ∀n ≥ 0,

se tiene unn≥0 ⊂ B(u;R) y

‖un − u‖ ≤ βnR‖u0 − u‖, ∀n ≥ 0,

(u ∈ V la unica solucion del problema de mınimos (2.6)).

Prueba: La prueba es muy parecida a la del Teorema 2.7. En las hipotesis del enunciado, si fijamosR > 0 y consideramos el polinomio

PR(ρ) = L2Rρ

2 − 2αρ+ 1

y βR =√

maxρ∈[a,b] PR(ρ), entonces, es facil comprobar que βR ∈ [0, 1). La prueba se obtiene

facilmente si aplicamos un razonamiento de induccion.

2.3. Metodos del gradiente conjugado para problemas sin restric-ciones

En la seccion anterior hemos estudiados distintos algoritmos de gradiente. Estos utlizan comodireccion de descenso la direccion del gradiente que, como vimos, proporciona localmente la mejordireccion de descenso. Sin embargo, globalmente esta no tiene porque ser la mejor. Veamos unejemplo sencillo que muestra este hecho:

Ejemplo. Consideremos el funcional cuadratico elıptico en R2:

J(x1, x2) =1

2

(α1x

21 + α2x

22

), con 0 < α1 < α2,

que, evidentemente, corresponde a la matriz definida positiva A = diag (α1, α2) ∈ L(R2) y a b ≡ 0.Tambien esta claro que J alcanza su mınimo global en el punto x ≡ 0. Supongamos que aplicamosel (AGPO) a este funcional partiendo de un punto x0 ∈ R2. Entonces,

Si alguna componente de x0 es nula, el (AGPO) converge en una unica iteracion.

Si las dos componentes de x0 son no nulas, entonces el metodo nunca converge en un numerofinito de estapas.

Veamos este ultimo punto. Para ello, veremos (por induccion) que si xn = (x1,n, x2,n) satisfacex1,n 6= 0 y x2,n 6= 0, entonces, si xn+1 = (x1,n+1, x2,n+1), tambien se tiene x1,n+1 6= 0 y x2,n+1 6= 0.Efectivamente, si hacemos gn = J ′(xn) = (α1x1,n, α2x2,n), entonces vimos que xn+1 = xn − ρngn

con ρn =‖gn‖2

(Agn, gn). Obtenemos por tanto,

x1,n+1 =α2

2(α2 − α1)x1,nx22,n

α31x

21,n + α3

2x22,n

6= 0 y x2,n+1 =α2

1(α1 − α2)x2,nx21,n

α31x

21,n + α3

2x22,n

6= 0.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

38 2.3. Metodos del gradiente conjugado para problemas sin restricciones

2.3.1. El algoritmo del gradiente conjugado para un funcional cuadratico elıpti-

co en RN

El objetivo de esta seccion es proporcionar un algoritmo de descenso que, en el caso de un funcio-nal cuadratico elıptico en RN , alcance el mınimo en un numero finito de iteraciones. Consideremosel funcional

J(x) =1

2(Ax, x)− (b, x),

con A ∈ L(RN ), una matriz simetrica definida positiva, y b ∈ RN . Supongamos que hemos calculadolos vectores x0, x1, ..., xn ∈ RN y que no hemos obtenido el mınimo x de J , es decir, supongamosque J ′(xl) 6= 0, para 0 ≤ l ≤ n. Introduzcamos el espacio vectorial

Gn = 〈J ′(x0), J ′(x1), · · · , J ′(xn)〉.

Ası, buscamos xn+1 ∈ xn +Gn tal que

J(xn+1) = mınx∈xn+Gn

J(x).

Esta claro que el anterior problema de mınimos esta bien planteado (es decir, tiene una unicasolucion) pues xn +Gn es un convexo cerrado no vacıo y J es elıptico en RN (y, en particular, enxn +Gn).

El algoritmo que se propone calcula los puntos xl+1, con 0 ≤ l ≤ n, resolviendo los problemasde minimizacion

xl+1 ∈ xl +Gl, J(xl+1) = mınx∈xl+Gl

J(x), 0 ≤ l ≤ n.

No es difıcil comprobar que xl+1 esta caracterizado por

(2.12) xl+1 ∈ xl +Gl y(J ′(xl+1), J ′(xi)

)= 0, 0 ≤ i ≤ l ≤ n,

de donde deducimos que los gradientes J ′(xl) con 1 ≤ l ≤ k+ 1 son dos a dos ortogonales (notesela diferencia con el (AGPO) donde solo los gradientes consecutivos eran ortogonales; ver (2.8)).

A la vista de lo expuesto previamente deducimos:

El conjunto J ′(xl) : 0 ≤ l ≤ n es linealmente independiente. Efectivamente, (2.12) junto ala hipotesis J ′(xl) 6= 0 para 0 ≤ l ≤ n hecha al inicio demuestran lo anterior.

El algoritmo converge, a lo sumo, en N iteraciones.

Vamos seguidamente a transformar el anterior algoritmo en un algoritmo de descenso, es decir,en cada etapa l con 0 ≤ l ≤ n, vamos a elegir una direccion de descenso dl ∈ Gl tal que

(2.13) J(xl+1) = ınfρ∈R

J(xl − ρdl).

Esta claro que si ∆l = xl+1 − xl ∈ Gl, entonces,

∆l = xl+1 − xl =l∑

i=0

δi,lJ′(xi), 0 ≤ l ≤ n,

y podemos tomar como direccion de descenso dl = αl∆l con αl ∈ R y αl 6= 0 (0 ≤ l ≤ n), adeterminar (de hecho, −1/αl es la solucion del problema de mınimos unidimensional (2.13)).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 39

Veamos algunas propiedades del conjunto ∆l : 0 ≤ l ≤ n. En primer lugar,

J ′(xl+1) = J ′(xl + ∆l) = A(xl + ∆l)− b = J ′(xl) +A∆l, ∀l : 0 ≤ l ≤ n,

que junto a (2.12) proporciona

0 =(J ′(xl+1), J ′(xl)

)= ‖J ′(xl)‖2 +

(A∆l, J

′(xl)), 0 ≤ l ≤ n.

Como hemos supuesto que J ′(xi) 6= 0 para 0 ≤ i ≤ n, de la identidad anterior obtenemos que∆l 6= 0 para 0 ≤ l ≤ n. Uilizando de nuevo (2.12),

0 =(J ′(xl+1), J ′(xi)

)=(A∆l, J

′(xi)), 0 ≤ i < l ≤ n,

y de aquı,

(2.14) (A∆l,∆i) = 0, 0 ≤ i < l ≤ n.

Definicion 2.9. Dada A ∈ L(RN ) una matriz simetrica y definida positiva y un conjunto devectores wl ∈ RN : 0 ≤ l ≤ n, se dice que son conjugados respecto de la matriz A si se tiene

wl 6= 0, 0 ≤ l ≤ k, y (Awl, wi) = (wl, Awi) = 0, 0 ≤ i < l ≤ n.

De (2.14) obtenemos que las direcciones de descenso ∆l : 0 ≤ l ≤ n son direcciones conjugadasrespecto de la matriz A. Tambien de (2.14), no es difıcil deducir que el conjunto ∆l : 0 ≤ l ≤ n estambien linealmente independiente. Como el conjunto J ′(xl) : 0 ≤ l ≤ n es ortogonal (ver (2.12)),de la identidad

(∆0 |∆1 | · · · |∆n) =(J ′(x0) | J ′(x1) | · · · | J ′(xn)

)

δ0,0 δ0,1 · · · δ0,n

0 δ1,1 · · · δ1,n

0 0. . .

...0 0 · · · δn,n

,

se tiene que δl,l 6= 0, para todo 0 ≤ l ≤ n. Podemos por tanto elegir

dl =1

δl,l∆l = J ′(xl) +

l−1∑i=0

δi,lδl,l

J ′(xi) = J ′(xl) +l−1∑i=0

λi,lJ′(xi),

con 0 ≤ l ≤ n.

Veremos que, para 0 ≤ i < l ≤ n, el calculo de los coeficientes λi,l (y por tanto de la direccionde descenso dl) es muy sencillo. Para ello utilizamos (2.14) y obtenemos,

0 = (Adl,∆i) = (dl, A∆i) =(dl, J

′(xi+1)− J ′(xi))

=

(J ′(xl) +

l−1∑m=0

λm,lJ′(xm), J ′(xi+1)− J ′(xi)

),

con 0 ≤ i < l ≤ n. La aplicacion de esta igualdad proporciona las formulas‖J ′(xl)‖2 − λl−1,l‖J ′(xl−1)‖2 = 0 para i = l − 1

λi+1,l‖J ′(xi+1)‖2 − λi,l‖J ′(xi)‖2 = 0 para i : 0 ≤ i ≤ l − 2,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

40 2.3. Metodos del gradiente conjugado para problemas sin restricciones

es decir,

λi,l =‖J ′(xl)‖2

‖J ′(xi)‖2, ∀i : 0 ≤ i < l ≤ n.

Volviendo a la expresion de dl,dl = J ′(xl) +

l−1∑i=0

‖J ′(xl)‖2

‖J ′(xi)‖2J ′(xi)

= J ′(xl) +‖J ′(xl)‖2

‖J ′(xl−1)‖2

(J ′(xl−1) +

l−2∑i=0

‖J ′(xl−1)‖2

‖J ′(xi)‖2J ′(xi)

)= J ′(xl) +

‖J ′(xl)‖2

‖J ′(xl−1)‖2dl−1 .

Esta ultima igualdad proporciona un procedimiento de calculo muy simple de las sucesivasdirecciones de descenso del algoritmo:

(2.15)

d0 = J ′(u0),

dl = J ′(ul) +‖J ′(xl)‖2

‖J ′(xl−1)‖2dl−1, ∀l : 0 ≤ l ≤ n.

Para completar el algoritmo, hay que determinar el paso optimo asociado a la direccion de descensodl, es decir, hay que determinar ρl ∈ R tal que J(ul − ρldl) = ınfρ∈R J(ul − ρdl). No es difıcilcomprobar que ρl viene dado por

ρl =(J ′(ul), dl)

(Adl, dl).

Tenemos los elementos para plantear el Algoritmo del Gradiente Conjugado para un funcionalcuadratico elıptico (AGCCE):

1. Elegir x0 ∈ RN y ε > 0, y tomar d0 = J ′(x0) = Ax0 − b.Dados n ≥ 0, xn ∈ RN y dn ∈ RN :

2. Calcular ρn =(J ′(xn), dn)

(Adn, dn)y xn+1 = xn − ρndn.

3. Hacer gn+1 = J ′(xn+1). Si ‖gn+1‖ < ε parar el algoritmo y tomar x ' xn+1. Si ‖gn+1‖ ≥ εpasar al punto siguiente.

4. Calcular dn+1 = gn+1 +‖J ′(xn+1)‖2

‖J ′(xn)‖2dn. Hacer n = n+ 1 y volver a 2.

Hemos probado:

Teorema 2.10. El algoritmo del gradiente conjugado para un funcional cuadratico elıptico en RNconverge, a lo sumo, en N etapas.

Es posible aplicar este algoritmo al caso de un funcional J : RN −→ R elıptico no necesa-riamente cuadratico. En este caso no tenemos asegurada la convergencia en un numero finito deetapas, ni tan siquiera la convergencia del algoritmo. En este caso, el algoritmo (AGCCE) quedadel siguiente modo:

1. Elegir x0 ∈ RN y ε > 0, y tomar d0 = J ′(x0).

Dados n ≥ 0, xn ∈ RN y dn ∈ RN :

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 41

2. Calcular ρn ∈ R tal que J(xn − ρndn) = ınfρ∈R

J(xn − ρdn) y tomar xn+1 = xn − ρndn.

3. Calcular J ′(xn+1) ∈ RN . Si ‖J ′(xn+1)‖ < ε parar el algoritmo y tomar x ' xn+1. Si‖J ′(xn+1)‖ ≥ ε pasar al punto siguiente.

4. Calcular dn+1 = J ′(xn+1) +‖J ′(xn+1)‖2

‖J ′(xn)‖2dn. Hacer n = n+ 1 y volver a 2.

Estudiaremos la convergencia del anterior algoritmo en la siguiente seccion.

2.3.2. Algoritmo del Gradiente Conjugado Generico (AGCG)

Supongamos que V es un espacio de Hilbert y que J : V −→ R es un funcional F-derivable enV . De manera general, un algoritmo de gradiente conjugado generico es un algoritmo de descensodonde las direcciones de descenso dn ∈ V satisfacen(

J ′(un), dn)> 0, ∀n ≥ 0,

donde unn≥0 ⊂ V es la sucesion que genera el algoritmo.

El algoritmo (AGCG) tiene la forma:

1. Elegir u0 ∈ V y ε > 0.

Dados n ≥ 0 y un ∈ V :

2. Calcular J ′(un) ∈ V . Si ‖J ′(un)‖ < ε parar el algoritmo y tomar u ' un. Si ‖J ′(un)‖ ≥ ε,elegir dn ∈ V tal que (J ′(un), dn) > 0 y pasar al punto siguiente.

3. Calcular ρn ∈ R tal que J(un − ρndn) = ınfρ∈R

J(un − ρJ ′(un)

).

4. Tomar un+1 = un − ρndn. Hacer n = n+ 1 y volver a 2.

Veremos un resultado de convergencia global del anterior algoritmo para funcionales elıpticosdefinidos en un espacio de Hilbert V . Se tiene:

Teorema 2.11. Supongamos que J : V → R es un funcional elıptico en V , con constante α > 0,y F-derivable en V con derivada continua. Supongamos ademas que J ′ : V → V es globalmenteLipschitziana en los acotados de V , es decir, para cualquier M > 0 existe LM ≥ 0 tal que

‖J ′(v)− J ′(w)‖ ≤ LM‖v − w‖, ∀v, w ∈ B(0;M).

Supongamos ademas que se satisface la llamada condicion de Polak para las direcciones dedescenso dnn≥0 ⊂ V :

(2.16) dn 6= 0 y existe ρ > 0 tal que(J ′(un), dn

)≥ ρ‖J ′(un)‖‖dn‖, ∀n ≥ 0.

Entonces, el algoritmo (AGCG) es globalmente convergente: para cualquier u0 ∈ V , la sucesionunn≥0 dada por el (AGCG) esta bien definida y un → u en V , siendo u ∈ V la unica soluciondel problema de mınimos (2.6). Ademas, se tiene la estimacion de error (2.11).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

42 2.3. Metodos del gradiente conjugado para problemas sin restricciones

Prueba: La demostracion del resultado sigue los pasos de la demostracion del Teorema 2.6. Denuevo, de las hipotesis del enunciado, podemos aplicar el Teorema 2.3 y deducir que el proble-ma (2.6) admite una unica solucion u ∈ V caracterizada por J ′(u) = 0. De esta manera podemossuponer que J ′(un) 6= 0, para n ∈ N, pues en caso contrario, el algoritmo converge en un numerofinito de etapas. Veamos la prueba:

Etapa 1. El algoritmo esta bien definido. Efectivamente, si consideramos la funcion

fn(ρ) = J(un − ρdn), ∀ρ ∈ R,

es facil comprobar que fn ∈ C1(R) y que es elıptica en R (pues dn 6= 0). Tenemos ası asegurada laexistencia del paso optimo ρn ∈ R que ademas satisface f ′(ρn) = 0, es decir,

(2.17)(J ′(un+1), dn

)= 0, ∀n ≥ 0.

Etapa 2. Esta etapa es analoga a la del Teorema 2.6. De hecho, de (2.17) deducimosJ(un)− J(un+1) ≥

(J ′(un+1), un − un+1

)+α

2‖un − un+1‖2

= ρn(J ′(un+1), dn

)+α

2‖un − un+1‖2 =

α

2‖un − un+1‖2.

Razonando como en el Teorema 2.6 obtenemos,

lım ‖un+1 − un‖2 = 0,

y la existencia de M > 0 tal que

‖un‖ ≤M, ∀n ≥ 0.

Etapa 3. En esta etapa intentamos probar una desigualdad parecida a (2.10). Combinando lacondicion de Polak (2.16) y la igualdad (2.17), obtenemos

‖J ′(un)‖‖dn‖ ≤1

ρ

(J ′(un), dn

)=

1

ρ

(J ′(un)− J ′(un+1), dn

)≤ 1

ρ‖J ′(un)− J ′(un+1)‖‖dn‖.

De aquı deducimos,

‖J ′(un)‖ ≤ 1

ρ‖J ′(un)− J ′(un+1)‖ ≤ LM

ρ‖un − un+1‖.

Con estas desigualdades, basta seguir el razonamiento de la prueba de la convergencia delalgoritmo (AGPO) hecha en el Teorema 2.6 para concluir la demostracion.

Observacion 2.6. Es posible generalizar el Teorema 2.11 cambiando la condicion de Polak (2.16)por otra condicion mas general, la llamada condicion de Zoutendijk: Existe una sucesiontnn≥0 ⊂ (0,∞) tal que∑

n≥0

t2n =∞ y(J ′(un), dn

)≥ tn‖J ′(un)‖‖dn‖.

Para ver una prueba de este resultado, vease [9] y [5]. Evidentemente, la condicion de Polak implicala condicion de Zoutendijk.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 43

Como ya vimos, en el (AGCCE) la direccion de descenso es calculada usando la formula dn =J ′(un) + γndn−1, con

γn =‖J ′(un)‖2

‖J ′(un−1)‖2, ∀n ≥ 0.

Recordemos tambien que, al aplicar el (AGCCE), los gradientes generados son ortogonales dos ados. Esto hace que tambien se tenga la formula

γn =‖J ′(un)‖2

‖J ′(un−1)‖2=

(J ′(un)− J ′(un−1), J ′(un))

‖J ′(un−1)‖2, ∀n ≥ 0.

Utilizando las expresiones anteriores, vamos a obtener dos algoritmos (distintos cuando J es unfuncional elıptico definido en V , un espacio de Hilbert) que se engloban dentro de los algoritmosde gradiente conjugado.

Empezamos por el llamado algoritmo del gradiente conjugado de Polak-Riviere (1969) (AGCPR):

1. Elegir u0 ∈ V y ε > 0, y tomar d0 = J ′(u0).

Dados n ≥ 0, un ∈ V y dn ∈ V :

2. Calcular ρn ∈ R tal que J(un − ρndn) = ınfρ∈R

J(un − ρdn) y tomar un+1 = un − ρndn.

3. Calcular J ′(un+1) ∈ V . Si ‖J ′(un+1)‖ < ε parar el algoritmo y tomar u ' un+1. Si ‖J ′(un+1)‖ ≥ε pasar al punto siguiente.

4. Calcular

dn+1 = J ′(un+1) +(J ′(un+1)− J ′(un), J ′(un+1))

‖J ′(un)‖2dn .

Hacer n = n+ 1 y volver a 2.

Veremos que el algoritmo (AGCPR) es un caso particular de algoritmo del gradiente conjugadogenerico. Respecto de la convergencia del algoritmo, se tiene:

Teorema 2.12. Supongamos que J : V → R es un funcional elıptico en V , con constante α > 0, yJ ∈ C2(V ). Supongamos ademas que J ′ : V → V es globalmente Lipschitziana en los acotados deV , es decir, para cualquier M > 0 existe LM ≥ 0 tal que

‖J ′(v)− J ′(w)‖ ≤ LM‖v − w‖, ∀v, w ∈ B(0;M).

Entonces, el algoritmo (AGCPR) es globalmente convergente: para cualquier u0 ∈ V , la sucesionunn≥0 dada por el (AGCPR) esta bien definida y un → u en V , siendo u ∈ V la unica soluciondel problema de mınimos (2.6). De nuevo, tambien se tiene la estimacion de error (2.11).

Prueba: Vamos a obtener la prueba como consecuencia del Teorema 2.11. Observese que bastacomprobar que la direccion de descenso dn satisface la condicion de Polak (2.16).

En primer lugar, si dn−1 6= 0, es facil comprobar que un ∈ V esta bien definido y satisface

(2.18)(J ′(un), dn−1

)= 0.

Si J ′(un) = 0, entonces u = un, siendo u el unico mınimo de J en V . Tenemos de este modo laconvergencia del algoritmo (AGCPR). Supondremos por tanto que J ′(un) 6= 0 y comprobaremosen este caso la condicion de Polak.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

44 2.3. Metodos del gradiente conjugado para problemas sin restricciones

Se tiene que dn = J ′(un) + γndn−1, con γn dado por

γn =(J ′(un)− J ′(un−1), J ′(un))

‖J ′(un−1)‖2.

Utilizando (2.18), es evidente que dn 6= 0. Esto asegura que el algoritmo esta bien definido y quela sucesion generada unn≥0 ⊂ V esta acotada (ver etapas 1 y 2 de la prueba del Teorema 2.11),i.e., existe M > 0 tal que

‖un‖ ≤M, ∀n ≥ 0.

Comprobemos ya la acotacion inferior de (J ′(un), dn). Supongamos que hemos demostrado laacotacion:

(2.19) |γn|‖dn−1‖ ≤ C0‖J ′(un)‖,

para C0 > 0 una constante. Entonces

‖dn‖ ≤ ‖J ′(un)‖+ |γn|‖dn−1‖ ≤ (C0 + 1)‖J ′(un)‖

y, usando (2.18), tambien obtenemos(J ′(un), dn

)= ‖J ′(un)‖2 ≥ 1

C0 + 1‖J ′(un)‖‖dn‖,

es decir, conseguimos (2.16) para ρ = 1/(C0 + 1) > 0. Tendrıamos ası la prueba del resultado.Centremonos en la prueba de (2.19). Probaremos esta desigualdad en dos etapas:

Etapa 1: En esta etapa obtendremos una expresion distinta de γn. Si introducimos la funcion f :[0, 1]→ V dada por f(t) = J ′(un−1− tρn−1dn−1), entonces es facil comprobar que f ∈ C1([0, 1];V ),con f ′(t) = −ρn−1J

′′(un−1 − tρn−1dn−1)(dn−1) y que se tiene la igualdad

(2.20)

J ′(un)− J ′(un−1) = f(0)− f(1) = −ρn−1

∫ 1

0J ′′(un−1 − tρn−1dn−1)(dn−1) dt =

= −ρn−1J′′n−1dn−1,

donde J ′′n−1 ∈ L(V, V ) esta dado por

J ′′n−1 =

∫ 1

0J ′′(un−1 − tρn−1dn−1) dt.

Multiplicando la igualdad anterior por dn−1 y teniendo en cuenta (2.18), deducimos

ρn−1 =(J ′(un−1), dn−1)(J ′′n−1dn−1, dn−1

) =‖J ′(un−1)‖2(

J ′′n−1dn−1, dn−1

) .Esta ultima igualdad, la igualdad (2.20) y la expresion de γn, proporciona

γn = −(J ′′n−1dn−1, J

′(un))(

J ′′n−1dn−1, dn−1

) .Etapa 2: Acotacion de γn. Supongamos que hemos probado la existencia de una constante C > 0tal que ‖J ′′n−1‖L(V,V ) ≤ C. Entonces, podemos acotar el numerador de γn del siguiente modo:∣∣(J ′′n−1dn−1, J

′(un))∣∣ ≤ C‖dn−1‖‖J ′(un)‖.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 2. Metodos de Tipo Gradiente Para Problemas sin Restricciones 45

Por otro lado(J ′′n−1dn−1, dn−1

)=

∫ 1

0

(J ′′(un−1 − tρn−1dn−1)dn−1, dn−1

)dt ≥ α‖dn−1‖2 .

En esta ultima desigualdad hemos tenido en cuenta el caracter elıptico del funcional J en V y, enconcreto, la Proposicion 2.5. Se tiene ası la prueba de la desigualdad (2.19), para C0 = C/α, y delteorema.

Etapa 3: Finalicemos la prueba mostrando la acotacion de J ′′n−1 en L(V, V ). Para ello probaremosque J ′′ esta uniformente acotada (respecto de la norma de L(V, V )) en los acotados de V . Observeseque esto es suficiente pues sabemos que la sucesion un satisface unn≥0 ⊂ B(0;M) y, ası, paratodo t ∈ [0, T ] se tiene un−1 − tρn−1dn−1 ∈ [un−1, un] ⊂ B(0;M).

Sea R > 0 y fijemos v ∈ B(0;R) y w ∈ V tal que ‖w‖ ≤ 1. Entonces, si |ε| ≤ 1,

‖J ′′(v)w‖ = lımε→0

1

ε‖J ′(v + εw)− J ′(v)‖ ≤ LR+1‖w‖,

donde LR+1 es la constante de Lipschitz de J ′ en B(0;R+ 1). Tomando supremo cuando ‖w‖ ≤ 1obtenemos el resultado. Esto finaliza la prueba.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

46 2.3. Metodos del gradiente conjugado para problemas sin restricciones

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Capıtulo 3

Metodos Para Problemas deOptimizacion con Restricciones

En este capıtulo vamos a interesarnos por los llamados problemas de optimizacion con restriccio-nes. De manera general estos problemas pueden ser formulados del siguiente modo: Consideramosun espacio de Hilbert V , un subconjunto U ⊆ V y un funcional J : U → R. Con estos datos,planteamos el problema:

(3.1)

Minimizar J(v)

Sujeto a v ∈ U.

En los capıtulos precedentes hemos estudiado el problema de existencia y unicidad de soluciondel problema de mınimo con restricciones (3.1). En este capıtulo nos interesaremos por proporcionarmetodos numericos que aproximen la/las soluciones del problema (3.1).

3.1. Metodo del Gradiente con Proyeccion

Empezamos esta seccion recordando el Teorema de la Proyeccion en espacios de Hilbert:

Teorema 3.1. (Teorema de la Proyeccion) Sean V un espacio de Hilbert y U ⊆ V un subcon-junto cerrado, convexo y no vacıo de V . Entonces, dado w ∈ V , existe un unico elemento Pw ∈ Vtal que

Pw ∈ U y ‖w − Pw‖ = ınfv∈U‖w − v‖.

Ademas, el elemento Pw satisface: Pw ∈ U y

(Pw − w, v − Pw) ≥ 0, ∀v ∈ U.

Recıprocamente, si u satisface

u ∈ U y (u− w, v − u) ≥ 0, ∀v ∈ U,

entonces, u = Pw.

Para una prueba de este resultado, vease por ejemplo [3].

47

48 3.1. Metodo del Gradiente con Proyeccion

Mediante el anterior resultado, tenemos la existencia de una aplicacion (operador de proyeccion)definido del siguiente modo:

w ∈ V 7→ Pw ∈ U,

con Pw ∈ U la unica solucion del problema ‖w − Pw‖ = ınfv∈U ‖w − v‖. Es posible probar que eloperador P satisface la propiedad ([3]):

‖Pw1 − Pw2‖ ≤ ‖w1 − w2‖, ∀w1, w2 ∈ V.

Ademas, en general, P es un operador no lineal. Cuando U es un subespacio vectorial de V , entoncesP es lineal y Pw esta caracterizado por

Pw ∈ U y Pw − w ∈ U⊥.

Consideraremos el problema (3.1) en el caso en el que V es un espacio de Hilbert, Ω ⊆ V esun abierto, U ⊆ Ω es un subconjunto cerrado, convexo y no vacıo, y J : Ω → R es un funcional.Recordemos que, gracias al Teorema 1.35, se tiene que si J es un funcional convexo en U y J esG-derivable en Ω, entonces, u es solucion del problema de mınimos (3.1) si y solo si

u ∈ U y(J ′(u), v − u

)≥ 0, ∀v ∈ U.

Es facil comprobar que esta ultima condicion equivale a

u ∈ U y(u−

[u− ρJ ′(u)

], v − u

)≥ 0, ∀v ∈ U, con ρ > 0.

Gracias al Teorema de la Proyeccion, la condicion anterior equivale a

u = P(u− ρJ ′(u)

),

con ρ > 0.Del razonamiento anterior deducimos que la busqueda de un mınimo de J en el convexo cerrado

no vacıo U equivale a la busqueda de un punto fijo de la aplicacion

g : v ∈ U 7→ g(v) = P(v − ρJ ′(v)

)∈ U,

siendo P el operador de proyeccion asociado a U. Es natural definir como metodo de aproximacionde la solucion u del problema de mınimos (3.1) el metodo de las aproximaciones sucesivas aplicadoal operador g. En particular este metodo construye la sucesion aproximante de la forma:

u0 ∈ U dado, un+1 = g(un) = P(un − ρJ ′(un)

)∈ U, ∀n ≥ 0.

Evidentemente, si U ≡ V , entonces P ≡ Id y el algoritmo anterior es simplemente el (AGPF)aplicado a un problema de mınimos sin restricciones. Es posible generalizar el anterior algoritmotomando pasos ρn variables. De esta forma obtenemos el algoritmo del gradiente con proyeccion ypaso variable (AGPPV): Dada la sucesion ρnn≥0

1. Elegir u0 ∈ U.

Dados n ≥ 0 y un ∈ U:

2. Calcular J ′(un) ∈ V .

3. Tomar un+1 = P (un − ρnJ ′(un)) ∈ U, hacer n = n+ 1 y volver a 2.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 49

Respecto a la convergencia del algoritmo, se tiene:

Teorema 3.2. Sea V un espacio de Hilbert, Ω ⊆ V un abierto y U ⊆ Ω un convexo cerrado novacıo. Supongamos que J : Ω→ R es un funcional F-derivable en Ω con derivada continua y elıpticoen U, con constante α > 0. Supongamos ademas que J ′ : Ω → V es globalmente Lipschitziana enU, es decir, existe L ≥ 0 tal que

‖J ′(v)− J ′(w)‖ ≤ L‖v − w‖, ∀v, w ∈ U.

Supongamos ademas que existen a, b > 0 tales que

0 < a ≤ ρn ≤ b <2α

L2, ∀n ≥ 0.

Entonces, el algoritmo (AGPPV) es globalmente convergente con convergencia geometrica, es decir,existe β = β(α,L, a, b) ∈ [0, 1) tal que, para cualquier u0 ∈ U, se tiene:

‖un − u‖ ≤ βn‖u0 − u‖, ∀n ≥ 0,

siendo u ∈ V la unica solucion del problema de mınimos (3.1).

Prueba: Bajo las condiciones del enunciado, podemos aplicar el Teorema 2.3 y deducir la existenciade un unico mınimo u ∈ U de J en U. Ademas este mınimo u esta caracterizado por la inecuacionvariacional (

J ′(u), v − u)≥ 0, ∀v ∈ U,

es decir, u = P (u− ρnJ ′(u)).

De esta ultima igualdad y de las propiedades de P obtenemos:‖un+1 − u‖2 = ‖P

(un − ρnJ ′(un)

)− P

(u− ρnJ ′(u)

)‖2

≤ ‖un − u− ρn(J ′(un)− J ′(u)

)‖2

≤ ‖un − u‖2 + ρ2n‖J ′(un)− J ′(u)‖2 − 2ρn

(J ′(un)− J ′(u), un − u

)≤ ‖un − u‖2 + L2ρ2

n‖un − u‖2 − 2αρn‖un − u‖2 ≡ Q(ρn)‖un − u‖2,

siendo Q el polinomio dado por Q(ρ) = L2ρ2−2αρ+1. Ahora es facil terminar la prueba razonandocomo en la prueba del Teorema 2.7.

Observacion 3.1. En el caso de un funcional cuadratico elıptico en RN , es decir, cuando elfuncional J esta dado por:

J(x) =1

2(Ax, x)− (b, x), ∀x ∈ RN ,

(A ∈ L(RN ) es una matriz simetrica y definida positiva y b ∈ RN ), es posible demostrar unresultado analogo al probado en el caso del problema de mınimos sin restricciones (Capıtulo 2): ElTeorema 3.2 sigue siendo valido para el funcional J si se tiene:

ρnn≥0 ⊂ [a, b] ⊂(

0,2

λN

),

donde λN es el mayor autovalor de la matriz A. Recordemos que el intervalo que proporciona elenunciado del Teorema 3.2 es (0, 2λ1/λ

2N ), donde λ1 es el menor de los autovalores de A.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

50 3.2. Metodos de Penalizacion

Los metodos del gradiente con proyeccion proporcionan, en teorıa, metodos que aproximan lasolucion de un problema de optimizacion convexa. Sin embargo, no nos podemos dejar enganar porel Teorema 3.2: en general, es imposible aplicar el metodo pues es imposible conocer explıcitamenteel operador de proyeccion P asociado a un convexo cerrado no vacıo U.

Veamos a continuacion un ejemplo sencillo donde sı es posible aplicar el (AGPPV):

Ejemplo 3.1. Consideremos V = RN y U dado por

U =

N∏i=1

[ai, bi],

donde ai, bi son tales que −∞ ≤ ai < bi ≤ ∞ con i : 1 ≤ i ≤ N (en el caso ai = −∞ o bi =∞ hayque tomar el correspondiente extremo abierto). No es difıcil comprobar que U ⊆ RN es un convexocerrado no vacıo y que el operador de proyeccion P esta dado por (1 ≤ i ≤ N):

(Px)i = mın max xi, ai , bi =

ai si xi < ai,wi si ai ≤ xi ≤ bi,bi si bi < xi.

En el caso particular U = RN+ = x ∈ RN : xi ≥ 0, 1 ≤ i ≤ N, el operador esta dado por(Px)i = max0, xi, con x ∈ RN e i : 1 ≤ i ≤ N .

Consideramos ahora el problema (3.1) para U = RN+ y un funcional cuadratico y elıptico en RN :

J(x) =1

2(Ax, x)− (b, x) ,

(A es una matriz simetrica y definida positiva y b ∈ RN ). En este caso, el (AGPPV) calcula elpunto xn+1 = (xn+1

i )1≤i≤N ∈ U a partir de xn = (xni )1≤i≤N mediante las relaciones:

xn+1i = max xni − ρn (Axn − b)i , 0 , ∀i : 1 ≤ i ≤ N.

Ademas, la sucesion ası generada converge hacia u el unico mınimo del funcional J en U.

3.2. Metodos de Penalizacion

En esta seccion vamos a analizar los llamados metodos de penalizacion. Estos metodos consisten,grosso modo, en la sustitucion del problema de mınimos con restricciones (3.1) por otro problemasin restricciones donde se ha anadido una funcion (la funcion de penalizacion) que fuerza a queel mınimo del problema sin restricciones se alcance “cerca”del conjunto U y que, en el lımite, seacerque al mınimo del problema con restricciones.

Comencemos definiendo el concepto de funcion de penalizacion:

Definicion 3.3. Sea U ⊆ V un subconjunto convexo cerrado no vacıo. Se dice que ψ : V → R esuna funcion de penalizacion para el conjunto U si satisface las propiedades:

ψ(v) ≥ 0, ∀v ∈ Vψ(v) = 0 si y solo si v ∈ U.

Con esta definicion estamos en condiciones de probar:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 51

Teorema 3.4. Sean V un espacio de Hilbert, U ⊆ V un subconjunto convexo cerrado no vacıoy J : V → R un funcional elıptico en V con constante de elipticidad α > 0. Supongamos queψ : V → R es una funcion de penalizacion para U tal que ψ es convexa y continua en V . Entonces,para cada ε > 0, el problema de mınimos sin restricciones Minimizar Jε(v) = J(v) +

1

εψ(v)

Sujeto a v ∈ V,

admite una unica solucion uε ∈ V . Ademas se tiene, lımε↓0 uε = u en V , siendo u ∈ U la unicasolucion del problema de mınimos (3.1).

Prueba: Bajo las hipotesis del enunciado, tenemos que el problema (3.1) admite una unicasolucion u ∈ U (ver Teorema 2.3). Por otro lado, el funcional Jε es tambien un funcional elıpticoen V con constante de elipticidad α > 0. Efectivamente, Jε es un funcional continuo y, paracualesquiera w, v ∈ V y θ ∈ [0, 1], se tiene

Jε((1− θ)w + θv) = J((1− θ)w + θv) +1

εψ((1− θ)w + θv)

≤ (1− θ)J(w) + θJ(v) +1− θε

ψ(w) +θ

εψ(v)− αθ(1− θ)

2‖w − v‖2

= (1− θ)Jε(w) + θJε(v)− αθ(1− θ)2

‖w − v‖2.

Aplicando de nuevo el Teorema 2.3 obtenemos que existe un unico uε ∈ V tal que Jε(uε) =ınfv∈V Jε(v).

Observese que tanto J como Jε son funcionales elıpticos en V . En particular, J y Jε sonfuncionales continuos, estrictamente convexos y coercitivos en V (Proposicion 2.2). Ası, J y Jεson tambien funcionales debilmente secuencialmente semicontinuos inferiormente en V . A ψ lepodemos aplicar el mismo razonamiento: ψ es continuo y convexo en V , por tanto, ψ es d.s.c.i. enV . Utilizaremos estas propiedades mas adelante.

Se tiene,

(3.2) J(uε) ≤ J(uε) +1

εψ(uε) ≡ Jε(uε) ≤ Jε(u) = J(u),

lo que proporciona que la sucesion uεε>0 esta acotada en V (J es un funcional coercitivo en V ).Como V es reflexivo, existe una subsucesion uε′ε′>0 y un elemento u′ ∈ V tal que

uε′ u′ debil en V.

Veamos que u′ ∈ U. Efectivamente, de (3.2), Jε′(uε′) ≤ Jε′(u) = J(u), es decir,

0 ≤ ψ(uε′) ≤ ε′ (J(u)− J(uε′)) ≤ ε′(J(u)−mın

v∈VJ(v)

),

de donde lımε′→0

ψ(uε′) = 0. Como ψ es d.s.c.i. en V , entonces,

0 ≤ ψ(u′) ≤ lım infε′→0

ψ(uε′) = 0,

es decir, ψ(u′) = 0, lo que equivale a u′ ∈ U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

52 3.2. Metodos de Penalizacion

Utilizando de nuevo (3.2) y la s.c.i. debil de J en V , colegimos

u′ ∈ U y J(u′) ≤ lım infε′→0

J(uε′) ≤ J(u),

de donde concluimos que u′ ≡ u y lım infε′→0

J(uε′) = J(u). Tomando lım supε′→0

en (3.2), se tiene

lım supε′→0

J(uε′) ≤ J(u) = lım infε′→0

J(uε′),

es decir, existe lımε′→0

J(uε′) = J(u). Tomando de nuevo lımε′→0

en (3.2), deducimos tambien que existe

el lımite y lımε′→0

Jε′(uε′) = J(u).

Para finalizar, probemos que uε′ → u en V . Efectivamente, como Jε es un funcional elıptico enV , podemos utilizar la desigualdad (2.1) con θ = 1/2, y escribir,

α

8‖uε′ − u‖2 ≤

1

2(Jε′(uε′) + Jε′(u))− Jε′

(1

2(uε′ + u)

)≤ 1

2(Jε′(u)− Jε′(uε′)) ≡

1

2(J(u)− Jε′(uε′)) .

Sin mas que tomar lımite deducimos el resultado.La unicidad de solucion del problema (3.1) permite demostrar que, en realidad, es toda la familia

uεε>0 la que converge hacia el elemento u. Esto finaliza la prueba.

Observacion 3.2. Observese que el problema penalizado tiene muy buenas propiedades: Si Jes elıptico en V , hemos visto que Jε tambien lo es. Ademas, si J y ψ son F-derivables en V ,tambien lo es Jε. De este modo, podemos aplicar al problema penalizado (que es un problema sinrestricciones) los algoritmos del gradiente o del gradiente conjugado vistos en el tema anterior yconstruir sucesiones que aproximen la solucion uε. Eligiendo ε suficientemente pequeno, tendrıamostambien una aproximacion de la solucion u del problema (3.1).

Como en el caso del metodo del gradiente con proyeccion, la dificultad en la aplicacion delos metodos de penalizacion radica en la construccion de ψ. De manera general, dado U ⊆ V unsubconjunto convexo cerrado no vacıo, no es facil construir una funcion de penalizacion asociadaal conjunto U. Veamos un ejemplo sencillo donde es posible construir una funcion de penalizacion:

Ejemplo 3.2. Como ejemplo, consideremos un conjunto de restricciones que viene de un problemade programacion convexa en RN : Supongamos dadas las funciones continuas ϕi : RN → R, coni : 1 ≤ i ≤ m. Supongamos tambien que ϕi son convexas en RN para todo i : 1 ≤ i ≤ m. Con estosdatos, consideremos el conjunto U dado por

U = x ∈ RN : ϕi(x) ≤ 0, ∀i : 1 ≤ i ≤ m.

Supondremos que U 6= ∅. Entonces, es facil comprobar que la funcion ψ dada por

ψ(x) =

m∑i=1

maxϕi(x), 0

es una funcion de penalizacion para el conjunto U.

Observacion 3.3. El ejemplo anterior tambien muestra que la aplicacion real de los metodosde penalizacion es limitada: aunque en este caso es posible construir una funcion de penalizacionasociada a U, esta, en general, no es derivable lo que hace que no sea posible aplicar los metodosde optimizacion desarrollados en el capıtulo anterior.

Pasemos a continuacion a desarrollar otro tipo de metodos para el problema con restriccio-nes (3.1).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 53

3.3. Metodos de dualidad. Metodo de Uzawa

En esta seccion consideraremos un problema general de programacion no lineal. Se trata denuevo del problema de optimizacion con restricciones (3.1) en el caso particular en el que el conjuntode restricciones sera dado por

(3.3) U = v ∈ Ω : ϕi(v) ≤ 0, 1 ≤ i ≤ m,

donde m ≥ 1 es un entero, Ω es un subconjunto abierto de un espacio de Hilbert V y ϕi sonfuncionales definidos en Ω, es decir, ϕi : Ω→ R, con i : 1 ≤ i ≤ m.

El problema en consideracion es un problema de mınimos con restricciones de desigualdad. Paratratarlo, vamos, en primer lugar, a generalizar el Teorema de los multiplicadores de Lagrange (que,recordemos, trata el problema de minimizacion con restricciones de igualdad) al caso en el que U

esta dado mediante m restricciones de desigualdad.

3.3.1. Relaciones de Kuhn-Tucker

Supondremos que U esta dado por (3.3) (Ω ⊆ V es un abierto) y que ϕi : Ω→ R son funcionescontinuas en Ω, para cualquer i : 1 ≤ i ≤ m. Dado v ∈ U, introducimos el denominado conjunto derestricciones efectivas en v:

I(v) = i : 1 ≤ i ≤ m y ϕi(v) = 0.

Con esta notacion y siguiendo [4], definimos:

Definicion 3.5. Se dice que las restricciones ϕi son cualificadas en v ∈ U si, para todo i ∈ I(v),se tiene que ϕi es F-derivable en v y, o bien, ϕi son afines, o bien, existe w ∈ V tal que

(ϕ′i(v), w) ≤ 0,

(ϕ′i(v), w) < 0 si ϕi no es afın

∀i ∈ I(v).

No vamos a entrar en el significado geometrico de la condicion de cualificacion de las restriccionesen un punto v ∈ U, pero en cualquier caso, esta condicion no se da en ciertos casos:

Ejemplo 3.3. Consideremos el caso V = Ω = R2, m = 2 y ϕ1 y ϕ2 dadas por

ϕ1(x1, x2) = −(x1 + x2) y ϕ2(x1, x2) = x1(x21 + x2

2)− 2(x21 − x2

2), (x1, x2) ∈ R2.

Tomando v = 0, tenemos que I(v) = 1, 2 y es facil comprobar que las restricciones no soncualificadas en este punto (en concreto, ϕ2 no satisface la definicion anterior).

Observacion 3.4. Gracias a la hipotesis de continuidad que estamos imponiendo sobre las res-tricciones ϕi, se tiene que v ∈ intU si y solo si I(v) = ∅. En este caso se tiene la condicion decualificacion de las restricciones en el punto v.

Por otro lado, si los funcionales ϕi son afines para cualquier i con 1 ≤ i ≤ m, entonces tambiense tiene la condicion de cualificacion sobre las restricciones en cualquier punto v ∈ U.

Estamos en condiciones de enunciar uno de los resultados mas importantes en Optimizacion: lasrelaciones de Kuhn-Tucker. Estas proporcionan una condicion necesaria de mınimo en Programacionno lineal:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

54 3.3. Metodos de dualidad. Metodo de Uzawa

Teorema 3.6 (Kuhn-Tucker). Sean V un espacio de Hilbert, Ω ⊆ V un abierto, J, ϕi : Ω → R,con 1 ≤ i ≤ m, m+ 1-funcionales continuos en Ω y u ∈ U, con U dado por (3.3). Supongamos queJ y ϕi son F-derivables en u, para cualquier i ∈ I(u), y que las restricciones son cualificadas en elpunto u. Entonces, si u es un mınimo local de J respecto del conjunto U, existen numeros realesλi(u), con i ∈ I(u), tales que

(3.4) J ′(u) +∑i∈I(u)

λi(u)ϕ′i(u) = 0 en V ′, con λi(u) ≥ 0, ∀i ∈ I(u).

La prueba de este resultado usa de manera esencial el denominado Lema de Farkas-Mirkonski.No vamos a presentar la prueba de estos resultados en este curso, pero esta puede ser consultada,por ejemplo, en [4] y [1].

Las relaciones (3.4) son llamadas relaciones de Kuhn-Tucker. Juegan el mismo papel que losmultiplicadores de Lagrange en el caso de problemas de mınimos con restricciones de igualdad.Teniendo en cuenta las desigualdades ϕi(u) ≤ 0, validas para i : 1 ≤ i ≤ m pues u ∈ U, lasrelaciones (3.4) se pueden reescribir de manera equivalente como

(3.5)

J ′(u) +

m∑i=1

λi(u)ϕ′i(u) = 0 en V ′,

λi(u) ≥ 0, ∀i : 1 ≤ i ≤ m,m∑i=1

λi(u)ϕi(u) = 0.

Por analogıa con el Teorema de los multiplicadores de Lagrange, el vector λ(u) dado por λ(u) =(λi(u))1≤i≤m ∈ Rm+ es denominado multiplicador de Lagrange generalizado asociado al mınimorelativo u de J en U dado por (3.3).

Observacion 3.5. 1. Los multiplicadores λi(u) que aparecen en (3.5) no estan determinadosde manera unica, salvo que el conjunto ϕ′i(u) : 1 ≤ i ≤ m ⊂ V sea un conjunto linealmenteindependiente.

2. Si I(u) = ∅, entonces u ∈ intU. Evidentemente, en este caso, (3.5) equivale a la condicionJ ′(u) = 0 en V y λi(u) = 0 para todo i : 1 ≤ i ≤ m, es decir, equivale a la necesaria clasicade mınimo en un abierto J ′(u) = 0 en V ′ (ver Teorema 1.34).

En general, el Teorema 3.6 es de difıcil aplicacion en la practica. En primer lugar, es difıcilcomprobar si en el mınimo u (que, evidentemente, es desconocido) las restricciones son cualificadas.En segundo lugar, las propias relaciones (3.5) son difıciles de tratar debido a las desigualdades quecontienen. En tercer lugar, las relaciones (3.5) son solo necesarias y, en general, proporcionan puntosque no corresponden a mınimos locales del funcional J relativos a U. Veremos que en el caso deun problema de programacion convexa el Teorema 3.6 puede ser reescrito de manera mas sencilla.Tambien veremos que las relaciones (3.5) proporcionan tambien una condicion suficiente para laobtencion de un mınimo (global) de J relativo a U.

Supongamos que Ω ⊆ V es un abierto convexo y que los funcionales ϕi son convexos en Ω paratodo i : 1 ≤ i ≤ m (de donde deducimos que U es tambien convexo). Comenzamos simplificandoel concepto de cualificacion de las restricciones (que ahora es independiente del punto):

Definicion 3.7. Se dice que las restricciones ϕi : Ω→ R, con 1 ≤ i ≤ N , son cualificadas si existev ∈ U que satisface ϕi(v) < 0 para aquellas restricciones ϕi que no son afines.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 55

Observese que esta definicion se reduce a pedir U 6= ∅ en el caso en el que todas las restriccionesϕi sean afines. En el caso general estamos exigiendo una condicion algo mas fuerte que la condicionU 6= ∅.

En estas condiciones se tiene:

Teorema 3.8 (Condicion necesaria y suficiente de mınimo en programacion convexa).Sean V un espacio de Hilbert, Ω ⊆ V un abierto convexo, J, ϕi : Ω → R, con 1 ≤ i ≤ m, m + 1-funcionales continuos en Ω tales que ϕi son convexos en Ω para cualesquiera i : 1 ≤ i ≤ m, y u ∈ U,con U dado por (3.3). Supongamos que J y ϕi son F-derivables en u, para cualquier i : 1 ≤ i ≤ m.Entonces,

1. Si u es un mınimo local del funcional J respecto del conjunto U (dado por (3.3)) y si lasrestricciones son cualificadas (en el sentido de la Definicion 3.7), entonces existen λi(u) ∈ R,con 1 ≤ i ≤ m, tales que se tienen las relaciones de Kuhn-Tucker (3.5).

2. De manera recıproca, si J es convexo en Ω y se tienen las relaciones de Kuhn-Tucker en elpunto u ∈ U, entonces J tiene en el punto u un mınimo global respecto del conjunto U.

Prueba:1. Para la prueba de este punto basta con comprobar que las restricciones son cualificadas en u ∈ U

y aplicar el Teorema 3.6. Efectivamente, consideremos v ∈ U proporcionado por la Definicion 3.7.Si u 6= v, tomamos w = v − u. Utilizando el caracter convexo de los funcionales ϕi, se tiene quepara i ∈ I(u), (

ϕ′i(u), w)

= ϕi(u) +(ϕ′i(u), v − u

)≤ ϕi(v)

≤ 0,< 0 si ϕi no es afın,

es decir, las restricciones son cualificadas en u.Por otro lado, si u = v, entonces I(u) solo contiene ındices i para los que ϕi es afın. Ası,

deducimos tambien que las restricciones son cualificadas en u. En ambos casos podemos aplicar elTeorema 3.6 y deducir el primer punto.

2. Sea v ∈ U (que es un conjunto convexo). Gracias a la convexidad de los datos y a las relacionesde Kuhn-Tucker (3.5) satisfechas por u, podemos escribir:

J(u) ≤ J(u)−m∑i=1

λiϕi(v) = J(u)−m∑i=1

λi (ϕi(v)− ϕi(u))

≤ J(u)−m∑i=1

λi(ϕ′i(u), v − u

)= J(u) +

(J ′(u), v − u

)≤ J(v).

Deducimos que u es un mınimo global de J en U. Esto finaliza la prueba del resultado.

Ejercicio 3.1. Sean A ∈ L(RN ) una matriz simetrica definida positiva, B ∈ L(RN ;Rm), conm ≤ N , una matriz tal que rangoB = m, b ∈ RN y c ∈ Rm. Consideramos el problema de mınimo

mınx∈RN , Bx≤c

1

2(Ax, x)RN − (b, x)RN

.

Compruebese que es posible aplicar los Teoremas 3.6 y 3.8 y deducir que el problema de mınimotiene una unica solucion x ∈ RN . Ademas, x ∈ RN es solucion del anterior problema de mınimo siy solo si existe p ∈ Rm tal que x satisface

Ax− b+B∗p = 0, p ≥ 0, (p,Bx− c)Rm = 0.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

56 3.3. Metodos de dualidad. Metodo de Uzawa

Observacion 3.6. Como aplicacion del teorema anterior obtenemos lo siguiente: supongamosque los datos del problema (3.1) son convexos y que conocemos el multiplicador λ(u) ∈ Rm+ .Introduzcamos el funcional

Ju : v ∈ RN 7→ Ju(v) = J(v) +

m∑i=1

λi(u)ϕi(v).

Ası, si se satisfacen las condiciones del Teorema 3.8 2, se tiene la siguiente cadena de equivalencias:

u es solucion de (3.1) (U dado por (3.3)) ⇐⇒ (3.5)⇐⇒ J′u(u) = 0⇐⇒ Ju(u) = ınfv∈V

Ju(v).

Como conclusion, conocido el multiplicador de Lagrange λi(u) (1 ≤ i ≤ m) asociado al problemade mınimos con restricciones (3.1) (con U dado por (3.3)), hemos reformulado este de maneraequivalente como un problema de mınimos sin restricciones para el funcional Ju(v). Nuestro objetivosera, por tanto, el calculo del multiplicador λ(u) para luego calcular u resolviendo el correspondienteproblema sin restricciones para el funcional Ju(v).

3.3.2. Lagrangianos y puntos de silla. Introduccion a la dualidad

En esta subseccion daremos una breve introduccion a la teorıa de la dualidad para los problemasde optimizacion. Despues aplicaremos esta teorıa al problema de programacion convexa (3.1).

Supongamos que V y Q son dos espacios vectoriales y L : U ×M → R (el lagrangiano) es unfuncional definido en un subconjunto U ×M de V ×Q. Entonces

Definicion 3.9. Se dice que (u, λ) ∈ U ×M es un punto de silla de L en U ×M si se tiene

(3.6) L(u, µ) ≤ L(u, λ) ≤ L(v, λ), ∀(v, µ) ∈ U ×M.

Para cada v ∈ U y µ ∈M , introducimos los funcionales

(3.7)

J : v ∈ U 7→ J(v) = sup

µ∈ML(v, µ) ∈ (−∞,∞],

G : µ ∈M 7→ G(µ) = ınfv∈U

L(v, µ) ∈ [−∞,∞).

Podemos de este modo introducir el llamado problema primal asociado al lagrangiano L

ınfv∈U

J(v)

y el llamado problema dualsupµ∈M

G(µ).

Utilizaremos los problemas primal y dual para determinar cada una de las componentes delos puntos de silla del lagrangiano L. De hecho, veremos que estos dos problemas determinanunıvocamente los puntos de silla de L. Se tiene:

Proposicion 3.10. En las condiciones anteriores, el punto (u, λ) ∈ U ×M es un punto de sillade L en U ×M si y solo si

(3.8) J(u) = mınv∈U

J(v) = L(u, λ) = maxµ∈M

G(µ) = G(λ),

con G y J dados por (3.7).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 57

Prueba: Supongamos que (u, λ) es un punto de silla de L en U ×M . Utilizando la desigualdadizquierda de (3.6) deducimos:

L(u, λ) ≤ J(u) = supµ∈M

L(u, µ) ≤ L(u, λ),

es decir, J(u) = L(u, λ). Utilizando ahora la desigualdad derecha de (3.6), tenemos

J(v) = supµ∈M

L(v, µ) ≥ L(v, λ) ≥ L(u, λ) = J(u),

es decir, J(u) = mınv∈U J(v). Un razonamiento analogo permite probar la igualdad contraria.

Veamos el recıproco. Por un lado, de la definicion de J(u) tenemos

L(u, µ) ≤ J(u), ∀µ ∈M.

Por otro lado, de la definicion de G y de (3.8), tambien se tiene

J(u) = G(λ) ≤ L(u, λ).

Combinando ambas desigualdades deducimos la desigualdad izquierda de (3.6). Un razonamientoanalogo permite completar la prueba.

Observacion 3.7. De la igualdad (3.8) deducimos que si L admite un punto de silla (u, λ) enU ×M , entonces se tiene

ınfv∈U

supµ∈M

L(v, µ) = supµ∈M

ınfv∈U

L(v, µ).

No es difıcil comprobar que la desigualdad

supµ∈M

ınfv∈U

L(v, µ) ≤ ınfv∈U

supµ∈M

L(v, µ),

es valida independientemente de la existencia del punto de silla. Efectivamente, si (v, µ) ∈ U ×M ,entonces,

ınfv∈U

L(v, µ) ≤ L(v, µ) ≤ supµ∈M

L(v, µ).

De esta desigualdad se deduce directamente la desigualdad buscada.

Volvemos en este punto al problema de programacion no lineal formulado al inicio de la Sec-cion 3.3. Por comodidad supondremos que se tiene Ω ≡ V y, ası,

(3.9) U = v ∈ V : ϕi(v) ≤ 0, 1 ≤ i ≤ m,

donde m ≥ 1 es un entero, V es un espacio de Hilbert y ϕi : V → R, con i : 1 ≤ i ≤ m, son m-funcionales. Supongamos tambien que J : V → R es un funcional dado y planteemos el problemade mınimos (3.1) para U dado por (3.9).

Vamos en primer lugar a relacionar la existencia de mınimo para el funcional J en U conla existencia de punto de silla para el llamado Lagrangiano asociado al problema (3.1) (U dadopor (3.9)): Definimos (U ≡ V y M ≡ Rm+ ):

(3.10) L : (v, µ) ∈ V × Rm+ −→ L(v, µ) = J(v) +m∑i=1

µiϕi(v) ∈ R.

Se tiene:

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

58 3.3. Metodos de dualidad. Metodo de Uzawa

Teorema 3.11. En las condiciones anteriores, se tiene:

1. Si (u, λ) ∈ V ×Rm+ es un punto de silla del Lagrangiano L en V ×Rm+ , entonces, u ∈ U y esuna solucion del problema de mınimo (3.1) para U (dado por (3.9)).

2. Supongamos que J y ϕi, con 1 ≤ i ≤ m, son convexas en V y F-derivables en u ∈ U.Supongamos ademas que las restricciones ϕi son cualificadas en el sentido de la Definicion 3.7.Entonces, si u es solucion de (3.1) (con U dado por (3.9)), existe λ ∈ Rm+ tal que (u, λ) esun punto de silla para el lagrangiano L en V × Rm+ .

Prueba: 1. Al ser (u, λ) ∈ V ×Rm+ un punto de silla del Lagrangiano L en V ×Rm+ , se satisface ladesigualdad (3.6) en V × Rm+ . La desigualdad de la izquierda equivale a

m∑i=1

(µi − λi)ϕi(u) ≤ 0, ∀µ ∈ Rm+ .

Tomando en esta desigualdad, alternativamente, µ ≡ 0 y µ = 2λ se tiene

m∑i=1

λiϕi(u) = 0.

Por otro lado, tomando µ = λ + λiei tambien se tiene ϕi(u) ≤ 0, para cualquier i : 1 ≤ i ≤ m, esdecir, u ∈ U.

Sea v ∈ U. Utilizando las propiedades anteriores y la desigualdad derecha de (3.6), obtenemos

J(u) = L(u, λ) ≤ L(v, λ) ≤ J(v),

es decir, u ∈ U es solucion del problema de mınimo (3.1). Se tiene de este modo la prueba delprimer punto.

2. Estamos en condiciones de aplicar el Teorema 3.8 1, deduciendo la existencia de λ ∈ Rm+ talque se satisfacen las relaciones de Kuhn-Tucker (3.5). Ası, si µ ∈ Rm+ ,

L(u, µ) = J(u) +m∑i=1

µiϕi(u) ≤ J(u) = L(u, λ), ∀µ ∈ Rm+ .

Por otro lado, de (3.5) deducimos que la funcion convexa en V L(·, λ) tiene un mınimo globalen el punto u. De aquı, L(u, λ) ≤ L(v, λ), para cualquier v ∈ V . Uniendo las dos desigualdadesobtenemos que (u, λ) es un punto de silla de L en V ×Rm+ . Esto termina la prueba del resultado.

Observacion 3.8. El resultado anterior establece una clara relacion entre las soluciones u delproblema de mınimo con restricciones (3.1) (con U dado por (3.9)) y los puntos de silla del Lagran-giano L dado por (3.10). Observese que la segunda componente λ ∈ Rm+ del punto de silla es elcorrespondiente multiplicador de Lagrange asociado a u. Como comentamos en la Observacion 3.5,este multiplicador no esta determinado de manera unica, incluso si el problema de mınimo (3.1)admite una unica solucion u ∈ U.

3.3.3. Metodo de Uzawa para un funcional elıptico

El Teorema 3.11 muestra una estrategia para el calculo de la solucion del problema de mıni-mos (3.1) planteado en U (U dado por (3.9)). Esta estrategia utiliza tambien la Proposicion 3.10,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 59

proposicion que permite calcular las componentes del punto de silla mediante los problemas primaly dual

ınfv∈U

J(v) y supµ∈M

G(µ),

con J y G dadas por (3.7), y U = V y M = Rm+ . Ası, podemos resolver el problema dual

(3.11) supµ∈Rm

+

G(µ),

lo que proporciona λ ∈ Rm+ , y despues calcular la primera componente (y solucion del problema deprogramacion) del punto de silla utilizando la desigualdad derecha de (3.6):

u ∈ V y L(u, λ) ≤ L(v, λ), ∀v ∈ V,

con L, dado por (3.10), el lagrangiano asociado a J . Observese que este ultimo problema es unproblema de mınimos sin restricciones.

Observese que el problema dual es un problema con restricciones planteado en Rm (espaciode dimension finita). El conjunto de restricciones (Rm+ ) es un conjunto convexo cerrado no vacıo.Ademas, conocemos el operador de proyeccion asociado (ver Ejemplo (3.1)). Esto permite utilizarel algoritmo del gradiente con proyeccion si el funcional G fuese F-derivable en Rm+ . Veremos que,bajo ciertas condiciones sobre los datos, esto es posible.

Supondremos:

Hipotesis (H): Supongamos que V es un espacio de Hilbert, J, ϕi : V → R son (m+1)-funcionalescontinuos en V (m ≥ 1). Supongamos ademas que los funcionales ϕi son convexos en V (para todoi : 1 ≤ i ≤ m) y que J es elıptico en V (con constante de elipticidad α > 0). Finalmente,supongamos que J es F-derivable en V y que las restricciones son cualificadas (en el sentido de laDefinicion 3.7.

Es facil comprobar que bajo las hipotesis (H), el problema de mınimo (3.1) (con U dado por (3.9))admite una unica solucion u ∈ U. Supongamos por un momento que las restricciones ϕi (1 ≤ i ≤ m)son tambien F-derivables en V . Podemos aplicar el Teorema 3.11, deduciendo que u tiene asociadaal menos un λ ∈ Rm+ tal que (u, λ) es un punto de silla del lagrangiano L en V × Rm+ , L dadopor (3.10), es decir,

L(v, µ) = J(v) + µ · Φ(v), ∀(v, µ) ∈ V × Rm+ ,

y Φ(v) = (ϕi(v))1≤i≤m ∈ Rm (mediante x · y estamos denotando el producto escalar euclıdeo entrelos vectores x, y ∈ Rm). Aplicando la Proposicion 3.10 tenemos que u esta caracterizada por ser la(unica) solucion del problema primal (problema de mınimos sin restricciones) y λ por ser soluciondel problema dual (problema con restricciones planteado en Rm+ ).

De manera generica, un metodo de dualidad es un metodo numerico aplicado al problema dualasociado al lagrangiano. Como dijimos antes, estudiaremos el metodo de Uzawa que no es mas queel Algoritmo del Gradiente con Proyeccion y Paso Fijo aplicado al problema dual (3.11)

Veamos que, al menos formalmente, G es F-derivable en Rm+ . Para µ ∈ Rm+ fijo, es facil comprobarque L(·, µ) es un funcional elıptico en V (con la misma constante de elipticidad α > 0). De estamanera, se tiene que el problema de mınimo que define el funcional dual G (ver (3.7))

G(µ) = ınfv∈V

L(v, µ)

admite una unica solucion uµ ∈ V caracterizada por

J ′(uµ) + µ · Φ′(uµ) = 0 en V,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

60 3.3. Metodos de dualidad. Metodo de Uzawa

es decir, G(µ) = L(uµ, µ) = J(uµ) + µ · Φ(uµ). Derivando respecto de µ (formalmente)

G′(µ) = Φ(uµ) +(J ′(uµ) + µ · Φ′(uµ)

)u′µ ≡ Φ(uµ).

El calculo anterior permite calcular (formalmente) el gradiente del funcional G(µ) en cada puntoµ ∈ Rm+ . Podemos ası introducir el algoritmo de Uzawa (Algoritmo del Gradiente con Proyecciony Paso Fijo aplicado al problema dual (3.11)). Recordemos que el operador de proyeccion de Rm+esta dado por:

(P+x)i = maxxi, 0, ∀x ∈ Rm.

Algoritmo de Uzawa:

1. Elegir µ0 ∈ Rm+ y ρ > 0.

Dados n ≥ 0 y µn ∈ Rm+ :

2. Calcular un ∈ V tal que L(un, µn) = mınv∈V

L(v, µn).

3. Tomar µn+1 = P+ (µn + ρΦ(un)) ∈ Rm+ , hacer n = n+ 1 y volver a 2.

Observacion 3.9. Observese que, en la aplicacion del metodo de Uzawa, en cada etapa n se vacalculando la solucion del problema de mınimo sin restricciones

mınv∈V

L(v, µn) = J(v) + µn · Φ(v),

con solucion un ∈ V . A partir del calculo de un se calcula el correspondiente µn+1. Veremos que,aunque el metodo de Uzawa es un metodo construido para aproximar la segunda componente λ delpunto de silla del lagrangiano L dado por (3.10), en realidad proporciona una aproximacion de laprimera componente u del punto de silla, es decir, de la solucion del problema (3.1).

Por otro lado, observese tambien que en la formulacion del algoritmo de Uzawa no usamosexplıcitamente que las funciones de restriccion ϕi son F-derivables en V . De hecho, probaremos laconvergencia del algoritmo sin imponer esta hipotesis.

Respecto de la convergencia del metodo, se tiene:

Teorema 3.12. Supongamos que se satisfecen las hipotesis (H). Supongamos ademas que los fun-cionales ϕi, con 1 ≤ i ≤ m, son globalmente lipschitzianos en V , es decir, existe L > 0 tal que

(3.12) |Φ(v)− Φ(w)| ≤ L‖v − w‖, ∀v, w ∈ V.

Entonces, si

0 < ρ <2α

L2,

el metodo de Uzawa converge globalmente, es decir, para cualquier µ0 ∈ Rm+ , la sucesion unn≥0

proporcionada por el algoritmo de Uzawa converge hacia la solucion u ∈ U del problema (3.1) (Udado por (3.9)).

Prueba: En primer lugar, J es un funcional elıptico y las restricciones ϕi son continuas y convexasen V . Por otro lado, las restricciones son cualificadas. Deducimos que el conjunto U es un convexocerrado no vacıo y que el problema (3.1), con U dado por (3.9), admite una unica solucion u ∈ U.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 3. Metodos Para Problemas de Optimizacion con Restricciones 61

Por otro lado, fijado µ ∈ Rm+ , se tiene que el funcional L(v, µ) = J(v) + µ · Φ(v) es elıptico en V(con constante de elipticidad α). Ası, existe un unico uµ ∈ V solucion del problema

L(uµ, µ) = ınfv∈V

L(v, µ).

Esto demuestra que el Algoritmo de Uzawa esta bien definido.Ademas, es posible aplicar el Teorema 3.11 y deducir la existencia de λ ∈ Rm+ tal que el par

(u, λ) es un punto de silla del lagrangiano L dado por (3.10).De la definicion de punta de silla (Definicion 3.9) deducimos que u ∈ U es solucion del problema

de mınimo sin restriccionesL(u, λ) = ınf

v∈VL(v, λ).

Usando el Ejercicio 1.2, obtenemos que u se caracteriza por ser solucion de la inecuacion

(3.13) 〈J ′(u), v − u〉+ λ · (Φ(v)− Φ(u)) ≥ 0, ∀v ∈ V.

Razonando del mismo modo deducimos tambien que un se caracteriza por ser la solucion de lainecuacion

(3.14) 〈J ′(un), v − un〉+ µn · (Φ(v)− Φ(un)) ≥ 0, ∀v ∈ V.

Tomando v = un en (3.13), v = u en (3.13) y sumando ambas expresiones deducimos

〈J ′(u)− J ′(un), un − u〉+ (λ− µn) · (Φ(un)− Φ(u)) ≥ 0.

De esta ultima expresion y de la caracterizacion de funcional elıptico dada en el Teorema 2.4,obtenemos

(3.15) (µn − λ) · (Φ(un)− Φ(u)) ≤ −α‖un − u‖2.

Utilizamos de nuevo la definicion de punto de silla para deducir que λ ∈ Rm+ esta caracterizadopor ser solucion de

L(u, λ) = supµ∈Rm

+

L(u, µ),

es decir, (λ− µ) ·Φ(u) ≥ 0 para todo µ ∈ Rm+ o, equivalentemente, (λ− µ) · (λ− (λ+ ρΦ(u))) ≤ 0para todo µ ∈ Rm+ , con ρ > 0 fijo. Usando la caracterizacion del operador de proyeccion P+ (verTeorema 3.1) , esta ultima desigualdad equivale a

λ = P+(λ+ ρΦ(u)).

Esta desigualdad junto a la definicion de µn+1 = P+ (µn + ρΦ(un)) ∈ Rm+ y (3.12), implican

|µn+1 − λ| = |P+(µn − λ+ ρ (Φ(un)− Φ(u)))| ≤ |µn − λ+ ρ (Φ(un)− Φ(u)) |.

Usando (3.15) llegamos a|µn+1 − λ|2 ≤ |µn − λ|2 + ρ2|Φ(un)− Φ(u)|2 − 2ρα‖un − u‖2

≤ |µn − λ|2 + ρ(L2ρ− 2α)‖un − u‖2.

Llamando β = ρ(2α− L2ρ

)> 0 y rn = |µn − λ|2, deducimos

β‖un − u‖2 ≤ rn − rn+1,

es decir, la sucesion rnn≥1 ⊂ R+ es monotona decreciente, por tanto lım (rn − rn+1) = 0 y, ası,

lım ‖un − u‖ = 0.

esto termina la prueba del teorema.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

62 3.3. Metodos de dualidad. Metodo de Uzawa

Observacion 3.10. El algoritmo de Uzawa nos permite aproximar la solucion u del problemade optimizacion con restricciones (3.1) (con U dado por (3.9)) por una sucesion de problemas deoptimizacion sin restricciones (etapa 2 del algoritmo de Uzawa). En cada etapa n del algoritmotambien se calcula directamente µn+1 = P+ (µn + ρΦ(un)) ∈ Rm+ . Como dijimos mas arriba, elTeorema 3.12 solo asegura la convergencia de la sucesion unn≥1 ⊂ V . Observese que este teoremano dice nada sobre la convergencia de la sucesion µnn≥1 ⊂ Rm+ . Es facil comprobar que en el casoen el que el lagrangiano L (ver (3.10)) tiene un unico punto de silla (u, λ) (o equivalentemente, λes unico), entonces tambien se tiene

lım |µn − λ| = 0.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Capıtulo 4

Control de sistemas linealesgobernados por ecuacionesdiferenciales sencillas

4.1. Planteamiento general de un problema de control optimo

El objetivo central de la Teorıa de Control es proporcionar estrategias para conducir un ciertoproceso hacia un objetivo deseado.

En la industria moderna donde la nocion de rendimiento es preponderante, se persigue conce-bir, realizar y optimizar buscando la mejora de los metodos existentes. Los dominios de aplicacionde la teorıa de control son multiples: aeroespacial, automobilıstico, robotico, aeronautico, internet,comunicaciones en general, medico, quımico, etc. Por ejemplo, la colocacion de un satelite en unaorbita adecuada, la reduccion del ruido de los vehıculos de transporte, la estabilizacion de estruc-turas, etc, son muestras de problemas de control. Desde un punto de vista matematico, un sistemade control es un sistema dinamico dependiendo de un parametro llamado control que generalmenteviene sujeto a ciertas restricciones.

Lo que se pretende es conducir “el estado” (variable que nos interesa) al objetivo prefijadomediante la eleccion de un mecanismo de “control” adecuado. Imaginemos un proceso regido porla ecuacion Λyv = f(v) donde y es el estado y v es el control. Se pretende actuar con v sobre elproceso para llevar yv a un yd deseado. Concretamente, en un problema de control intervienen lossiguientes elementos (ver [6]):

1. Un control a nuestra disposicion v que se mueve en un conjunto Uad de un espacio U. Elconjunto Uad es el llamado conjunto de controles admisibles.

2. El estado yv del sistema que se quiere controlar. Para cada v ∈ Uad, el estado yv se determinaresolviendo la ecuacion de estado

Λyv = f(v),

donde f es una funcion dada dependiente de v y Λ es el operador (conocido) que representael sistema a controlar (Λ es el “modelo” del sistema). En este tema estudiaremos el caso en elque la ecuacion de estado Λ viene dada por un sistema diferencial ordinario o por una EDP.

3. La observacion z(v) que es una funcion del estado yv.

63

64 4.2. Control optimo de e.d.o.

4. La funcion coste J(v) que esta definida a partir de una funcion positiva Φ que esta definidasobre el espacio de las observaciones por

J(v) = Φ(z(v)).

Nuestro objetivo es resolver el problema de mınimos (problema del Calculo de Variaciones)

ınfv∈Uad

J(v),

es decir, calcular u ∈ Uad (control optimo) tal que J(u) ≤ J(v), para cualquier v ∈ Uad.

Dentro de la Teorıa de Control Optimo pretendemos dar respuesta a las siguientes cuestiones:

(i) Existencia de solucion del problema de control optimo precedente.

(ii) Obtencion de condiciones necesarias (o necesarias y suficientes) para la/las soluciones delproblema de control optimo (condiciones de optimalidad).

(iii) Estudio de la estructura y de las propiedades de las soluciones de las condiciones de optima-lidad.

(iv) Obtencion de algoritmos constructivos para la aproximacion de la/las soluciones del problemade minimizacion precedente.

Debido al caracter introductorio de este tema, aquı solo nos dedicaremos al estudio de las dosprimeras cuestiones en dos situaciones sencillas: cuando el sistema de estado esta gobernado por unsistema diferencial ordinario lineal y cuando el sistema esta gobernado por una EDP elıptica lineal.Por otro lado, solo consideraremos funcionales coste J “sencillos”: solo estudiaremos funcionales quese pueden reescribir como un funcional cuadratico elıptico en un espacio de Hilbert. Evidentemente,el estudio de las cuatro cuestiones anteriores depende fuertemente del modelo Λ y del funcional Jconsiderados.

4.2. Control optimo de ecuaciones diferenciales ordinarias lineales

Comenzamos nuestro estudio de algunos problemas de control optimo de sistemas gobernadospor ecuaciones, con el caso mas sencillo: sistemas gobernados por un sistema diferencial ordinariolineal con coeficientes constantes. Para ello, sean n,m ≥ 1 dos numeros naturales y T > 0 un numeroreal (tiempo final de observacion). Consideremos A ∈ L(Rn) y B ∈ L(Rm;Rn) dos matrices. Paracada v ∈ L2(0, T ;Rm) e y0 ∈ Rn consideramos el sistema diferencial ordinario lineal (ecuacion deestado)

(4.1)

yt = Ay +Bv en (0, T )

y(0) = y0.

En el anterior sistema v es un control distribuido, es decir, un control que actua sobre la ecuacion atraves del segundo miembro de esta. Observese que para cada v ∈ L2(0, T ;Rm) y cada dato inicialy0 ∈ Rn, la ecuacion de estado (4.1) admite una unica solucion yv ∈ C0([0, T ];Rn), con yv,t ∈L2(0, T ;Rn), que depende de manera lineal y continua de v y de y0. De hecho, la solucion puedeser calculada a partir de una matriz fundamental F (t) asociada al sistema homogeneo mediante laformula de Duhamel.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 4. Control optimo de sistemas lineales 65

En nuestro caso particular, podemos calcular una matriz fundamental como F (t) = etA, cont ∈ R. Ası, la solucion de (4.1) viene dada mediante la expresion

yv(t) = etAy0 +

∫ t

0e(t−s)ABv(s) ds, ∀t ∈ R.

Supongamos que tenemos una matriz C ∈ L(Rn;R`) (matriz de observacion), con ` ≥ 1 unnumero natural, y consideremos (observacion)

zv = Cyv ∈ L2(0, T ;R`).

Con los datos anteriores introducimos la funcion coste

(4.2) J(v) =1

2‖Cyv − zd‖2L2(0,T ;R`) +

α

2‖v − vd‖2L2(0,T ;Rm),

donde α ≥ 0, zd ∈ L2(0, T ;R`) y vd ∈ L2(0, T ;Rm) estan dados e yv es la solucion del sistema deestado (4.1). Por otro lado, fijemos Uad ⊆ L2(0, T ;Rm) un subconjunto cerrado, convexo y no vacıo(conjunto de controles admisibles). Con estos datos, planteamos el problema de minimizacion:

(4.3)

Minimizar J(v)

Sujeto a v ∈ Uad.

Observacion 4.1. Minimizando el coste J , pretendemos calcular un control v en el conjunto decontroles admisibles que este “lo mas cerca” de un valor prefijado vd y que haga que la observaciondel estado asociado tambien este “cerca” de un valor deseado zd. Observese que el segundo sumandode (4.2) esta teniendo en cuenta cuanto “cuesta” controlar nuestro sistema de estado (4.1). Medianteel valor α ∈ [0,∞) estamos ponderando el coste del control optimo frente a la aproximacion dela observacion del estado al valor deseado zd. Por ultimo, si α ≡ 0 estamos buscando un controltal que la correspondiente observacion del estado asociado este lo mas cerca posible de un valordeseado zd, sin tener en cuenta el propio coste del control.

Comencemos estudiando el problema de la existencia y unicidad de control optimo. Se tiene:

Teorema 4.1. Bajo las condiciones anteriores, supongamos que Uad ⊆ L2(0, T ;Rm) es un sub-conjunto cerrado, convexo y no vacıo y fijemos α ∈ (0,∞). Entonces, el problema de control opti-mo (4.3) tiene una unica solucion u ∈ Uad.

Prueba: Veremos que el coste J es un funcional elıptico en el espacio de Hilbert L2(0, T ;Rm),con constante de elipticidad α > 0. Aplicando directamente el Teorema 2.3 con V ≡ L2(0, T ;Rm)obtendremos la prueba.

Observese que la solucion del sistema de estado (4.1) asociada a v e y0 puede ser escrita comoyv = Y0 + Λ0v, donde Y0 es la solucion de (4.1) asociada a y0 ∈ Rn y v ≡ 0 (i.e., Y0(t) = etAy0, cont ∈ R) y Λ0 es el operador definido

(4.4) v ∈ L2(0, T ;Rm) 7−→ Λ0v ≡ yv ∈ L2(0, T ;Rn),

donde yv es la solucion de (4.1) correspondiente a y0 ≡ 0 y v ∈ L2(0, T ;Rm). Evidentemente,

Λ0 ∈ L(L2(0, T ;Rm);L2(0, T ;Rn)).

Si ahora hacemos Λ = CΛ0 ∈ L(L2(0, T ;Rm);L2(0, T ;R`)), entonces el funcional J puede serescrito como

J(v) =1

2a(v, v)− 〈L, v〉+ C0,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

66 4.2. Control optimo de e.d.o.

con a(·, ·) la forma bilineal, continua y simetrica en L2(0, T ;Rm) dada por

a(v, w) = (Λv,Λw)L2(0,T ;R`) + α(v, w)L2(0,T ;Rm), ∀v, w ∈ L2(0, T ;Rm),

L es la forma lineal y continua en L2(0, T ;Rm) dada por

〈L, v〉 = (zd − CY0,Λv)L2(0,T ;R`) + α(vd, v)L2(0,T ;Rm), ∀v ∈ L2(0, T ;Rm),

y, finalmente, C0 ∈ R es la constante dada por

C0 =1

2‖zd − CY0‖2L2(0,T ;R`) +

α

2‖vd‖2L2(0,T ;Rm).

Por ultimo, se tiene

a(v, v) = ‖Λv‖2L2(0,T ;R`) + α‖v‖2L2(0,T ;Rm) ≥ α‖v‖2L2(0,T ;Rm), ∀v ∈ L2(0, T ;Rm),

de donde deducimos que J es un funcional cuadratico y elıptico (con constante asociada α > 0) enel espacio de Hilbert L2(0, T ;Rm) (vease el Ejemplo 2.1). Tenemos ası la prueba del resultado.

Observacion 4.2. En la prueba anterior hemos utilizado de manera fundamental que la constanteα en (4.2) es positiva. Siguiendo el razonamiento anterior, si α = 0, el funcional J sigue siendoun funcional cuadratico que verifica a(v, v) ≥ 0, para cualquier v ∈ L2(0, T ;Rm). Esta ultimapropiedad garantiza que el funcional J es continuo y convexo en L2(0, T ;L2(Rm)), pero de estaspropiedades no podemos deducir la existencia y/o unicidad de solucion para el problema de controloptimo (4.3).

Ejercicio 4.1. En las condiciones del Teorema 4.1, supongamos que α ≥ 0. Demuestrese que elconjunto

U = u ∈ Uad : u es solucion del problema de control optimo (4.3)

es un conjunto convexo y cerrado (posiblemente vacıo) de L2(0, T ;Rm).

Nuestro proximo objetivo sera proporcionar condiciones equivalentes al problema de controloptimo (4.3) planteado, i.e., sera proporcionar las denominadas condiciones de optimalidad. Paraello, consideremos el llamado sistema adjunto asociado a (4.1):

(4.5)

−ϕt = A∗ϕ+ f en (0, T )

ϕ(T ) = 0,

donde f ∈ L2(0, T ;Rn) y donde mediante A∗ estamos denotando la matriz traspuesta de A. Esfacil comprobar que el anterior sistema tiene una unica solucion ϕ y que esta depende de maneralineal y continua respecto de f . Ademas, si yv es la solucion de (4.1) asociada a v ∈ L2(0, T ;Rn) ey0 ≡ 0, se tiene la igualdad

d

dt(yv(t), ϕ(t))Rn = (Bv(t), ϕ(t))Rn − (yv(t), f(t))Rn = (v(t), B∗ϕ(t))Rm − (yv(t), f(t))Rn ,

e integrado entre 0 y T ,

0 =

∫ T

0(v(t), B∗ϕ(t))Rm dt−

∫ T

0(yv(t), f(t))Rn dt = (v,B∗ϕ)L2(0,T ;Rm) − (yv, f)L2(0,T ;Rn).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 4. Control optimo de sistemas lineales 67

Utilizando el operador Λ0 (ver (4.4)) la igualdad anterior se escribe

(Λ0v, f)L2(0,T ;Rn) ≡ (v,B∗ϕ)L2(0,T ;Rm), ∀f ∈ L2(0, T ;Rn), ∀v ∈ L2(0, T ;Rm),

es decir, el operador adjunto de Λ0, Λ∗0 ∈ L(L2(0, T ;Rm);L2(0, T ;Rn)), esta dado por la igualdadΛ∗0f = B∗ϕ, con ϕ solucion del problema adjunto (4.5).

Pasemos a continuacion a dar las condiciones de optimalidad del problema de control opti-mo (4.3). Se tiene:

Teorema 4.2. Bajo las condiciones del Teorema 4.1, la unica solucion del problema de controloptimo (4.3), u ∈ Uad, esta caracterizada por ser solucion de la inecuacion variacional

(4.6) (B∗ϕu + α(u− vd), v − u)L2(0,T ;Rm) ≥ 0, ∀v ∈ Uad,

donde yu y ϕu son las soluciones de los problemas de Cauchy

(4.7) yu,t = Ayu +Bu en (0, T ), yu(0) = y0,

y

(4.8) − ϕu,t = A∗ϕu + C∗[Cyu − zd] en (0, T ), ϕu(T ) = 0.

Prueba: Recordemos que J es un funcional cuadratico y elıptico en L2(0, T ;Rm) y Uad es unsubconjunto cerrado, convexo, no vacıo de L2(0, T ;Rm). Por tanto, la unica solucion u ∈ Uad delproblema (4.3) esta caracterizada por

u ∈ Uad y a(u, v − u)− 〈L, v − u〉 ≥ 0, ∀v ∈ Uad,

donde las formas a(·, ·) y L estan dadas en la prueba del Teorema 4.1. Utilizando los operadoresΛ0 y Λ∗0 podemos escribir

a(v, w)− 〈L,w〉 = (CΛ0v, CΛ0w)L2(0,T ;R`) + α (v, w)L2(0,T ;Rm)

− (zd − CY0, CΛ0w)L2(0,T ;R`) − α (vd, w)L2(0,T ;Rm)

= (Λ∗0C∗ [C (Λ0v + Y0)− zd] + α(v − vd), w)L2(0,T ;Rm),

para cualesquiera v, w ∈ L2(0, T ;Rm).Ası, las condiciones de optimalidad se reescriben como: u ∈ Uad y

(4.9) (Λ∗0C∗ [C (Λ0u+ Y0)− zd] + α(u− vd), v − u)L2(0,T ;Rm) ≥ 0, ∀v ∈ Uad.

Utilizando las expresiones de Λ0 y Λ∗0, se tiene que yu = Y0 + Λ0u es la solucion del sistema deestado (4.1) correspondiente a u ∈ Uad e y0 ∈ Rn, es decir, yu es la solucion de (4.7). Por otro lado, sihacemos f ≡ C∗[Cyu−zd] y consideramos la correspondiente solucion ϕu del sistema adjunto (4.5),es decir, la solucion de (4.8), se tiene que Λ∗0C

∗ [C (Λ0u+ Y0)− zd] = B∗ϕu. De la desigualdad (4.9)deducimos que u satisface la inecuacion (4.6). Esto finaliza la prueba del resultado.

Observacion 4.3. En el caso en el que Uad ≡ L2(0, T ;Rn) (y, por tanto, (4.3) es un problema deoptimizacion sin restricciones) podemos escribir de manera equivalente la inecuacion (4.6) como laecuacion

B∗ϕu(t) + αu(t) = αvd(t), p.c.t. t ∈ (0, T ),

donde ϕu junto con yu son, resp., las soluciones de (4.8) y de (4.7).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

68 4.3. Control optimo de EDP elıpticas

Observacion 4.4. En realidad, la caracterizacion del control optimo u dada en el Teorema 4.2sigue siendo valida en el caso α ∈ [0,∞). Efectivamente, en este caso el funcional J dado en (4.2)sigue siendo un funcional cuadratico convexo (posiblemente no elıptico) en L2(0, T ;Rm). Por tanto,la caracterizacion de las posibles soluciones de (4.3) continua siendo

u ∈ Uad y a(u, v − u)− 〈L, v − u〉 ≥ 0, ∀v ∈ Uad.

De aquı se obtiene el resultado general.

Observacion 4.5. En esta seccion hemos considerado el caso de un s.d.o. de coeficientes cons-tantes (A ∈ L(Rn) y B ∈ L(Rm;Rm)). Por otro lado, tambien hemos considerado una matriz deobservacion constante (C ∈ L(Rn;R`)). Es importante resaltar que los resultados presentados enlos Teoremas 4.1 y 4.2 siguen siendo validos cuando consideramos matrices de coeficientes variables,es decir, cuando

A ∈ C0([0, T ];L(Rn)), B ∈ C0([0, T ];L(Rm;Rn)) y C ∈ C0([0, T ];L(Rn;R`)).

Observacion 4.6. En el problema de control optimo estudiado en esta seccion para el sistema deestado dado por (4.1), hemos considerado una observacion definida a traves de una matriz C ∈L(Rn;R`). Evidentemente hay otras posibles elecciones de operadores de observacion. Destacamosel caso en el que C es el operador definido del siguiente modo:

C : w ∈ C0([0, T ];Rn) 7−→ w(T ) ∈ Rn.

Es facil comprobar que C es un operador lineal y continuo entre C0([0, T ];Rn) y Rn, i.e., C ∈L(C0([0, T ];Rn);Rn). Ası, podemos definir el funcional coste:

Jε(v) =1

2ε|Cyv − yd|2Rn +

1

2‖v‖2L2(0,T ;Rm) =

1

2ε|yv(T )− yd|2Rn +

1

2‖v‖2L2(0,T ;Rm),

donde yv ∈ C0([0, T ];Rn) es la solucion de (4.1) asociada a v ∈ L2(0, T ;Rn) e y0 ∈ Rn, yd ∈ Rnes el estado final deseado y ε es un numero real positivo. Mediante | · |Rn estamos denotando lanorma euclidea en RN . Este problema de control optimo entra dentro de los llamados problemasde controlabilidad exacta para el sistema (4.1).

Ejercicio 4.2. En las condiciones de la anterior observacion, fijemos Uad un convexo cerrado novacıo de L2(0, T ;Rm). Pruebese que el problema de control optimo

Minimizar Jε(v)

Sujeto a v ∈ Uad.

con yv la solucion de (4.1) asociada a v, tiene una unica solucion uε ∈ Uad. Obtengase el sistemade optimalidad asociado al anterior problema de control optimo.

4.3. Control de sistemas gobernados por ecuaciones en derivadasparciales elıpticas

Pasamos a continuacion a estudiar algunos problemas de control optimo de sistemas gobernadospor EDP elıpticas. Para ello, fijemos Ω ⊂ RN (N ≥ 1), un abierto conexo y acotado con frontera∂Ω de clase C2, y consideremos el sistema

(4.10)

N∑i,j=1

∂i (aij(x)∂jy) + c(x)y = v1ω en Ω,

y = 0 sobre ∂Ω,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 4. Control optimo de sistemas lineales 69

donde los coeficientes aij , c ∈ L∞(Ω) estan dados ( 1 ≤ i, j ≤ N) y satisfacen

(4.11)

aij(x) = aji(x), p.c.t. x ∈ Ω, ∀i, j : 1 ≤ i, j ≤ N,

c(x) ≥ 0,N∑

i,j=1

ai,j(x)ξiξj ≥ α|ξ|2RN , p.c.t. x ∈ Ω, ∀ξ ∈ RN ,

para una constante α > 0.

En (4.10), ω ⊆ Ω es un subconjunto abierto y 1ω representa la funcion caracterıstica de ω, esdecir, la funcion que vale 1 en ω y 0 en el resto. La funcion v ∈ L2(Ω) es un control distribuido, esdecir, un control que actua sobre el sistema a traves del segundo miembro de la EDP. Observeseque este control solo se ejerce sobre el conjunto ω.

Observacion 4.7. Cuando tomamos como coeficientes aij ≡ δij (1 ≤ i, j ≤ N) y c ≡ 0, el problemade contorno (4.10) se transforma en el problema de Dirichlet para la ecuacion de Laplace:

−∆y = v1ω en Ω,

y = 0 sobre ∂Ω.

Recordemos (vease [3]) que y es solucion debil de (4.10) si y esta en H10 (Ω) y satisface

a0(y, w) =

∫Ω

1ωv(x)w(x) dx, ∀w ∈ H10 (Ω),

donde a0(·, ·) es la forma bilineal y continua sobre H10 (Ω) dada por

(4.12) a0(y, w) =N∑

i,j=1

∫Ωaij(x)∂jy(x)∂iw(x) dx+

∫Ωc(x)y(x)w(x) dx, ∀y, w ∈ H1

0 (Ω).

Veamos en primer lugar que el sistema de estado (4.10) esta bien planteado. Se tiene:

Teorema 4.3. Bajo las condiciones anteriores, sean aij , c ∈ L∞(Ω) satisfaciendo (4.11). Entonces,para cada v ∈ L2(Ω) el problema (4.10) admite una unica solucion debil yv ∈ H1

0 (Ω) que dependelineal y continuamente de v, es decir, existe una constante positiva C (dependiente de ‖aij‖∞, ‖c‖∞y α) tal que

‖yv‖H10 (Ω) ≤ C‖v‖L2(Ω).

Este resultado es consecuencia directa del Teorema de Lax-Milgram:

Ejercicio 4.3. Pruebese el Teorema 4.3.

Observacion 4.8. Como consecuencia del Teorema 4.3, el operador

Λ0 : v ∈ L2(Ω) 7−→ Λ0v = yv ∈ L2(Ω),

(con yv la solucion de (4.10) asociada a v) esta bien definido y satisface Λ0 ∈ L(L2(Ω)) (de hecho,tambien se tiene Λ0 ∈ L(L2(Ω);H1

0 (Ω)).

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

70 4.3. Control optimo de EDP elıpticas

Como en la seccion anterior consideramos un operador C ∈ L(L2(Ω);H) (operador de obser-vacion), con H un espacio de Hilbert con producto escalar (·, ·)H y norma ‖ · ‖H . Un ejemplo deoperador de observacion puede ser

C : w ∈ L2(Ω) 7−→ Cw = w1O ∈ L2(Ω) ≡ H,

donde O ⊆ Ω es un subconjunto abierto.Con los datos anteriores consideramos zd ∈ H y vd ∈ L2(Ω) e introducimos la funcion coste

(4.13) J(v) =1

2‖Cyv − zd‖2H +

β

2‖v − vd‖2L2(Ω),

donde β ≥ 0 esta dado e yv es la solucion del sistema de estado (4.10) asociada a v ∈ L2(Ω). Denuevo, fijemos Uad ⊆ L2(Ω) un subconjunto cerrado, convexo y no vacıo (el conjunto de controlesadmisibles) y planteemos el problema de control optimo:

(4.14)

Minimizar J(v)

Sujeto a v ∈ Uad.

Observacion 4.9. De nuevo, podemos interpretar el funcional coste (4.13) como lo hicimos enla Observacion 4.1: pretendemos calcular un control v en el conjunto de controles admisibles queeste “lo mas cerca” posible de un valor prefijado vd y que haga que la observacion del estado asociadotambien este “cerca” de un valor deseado zd. El segundo sumando de (4.13) tiene en cuenta cuanto“cuesta” actuar sobre el sistema de estado (4.10).

Respecto de la existencia y unicidad de control optimo, se tiene:

Teorema 4.4. Bajo las condiciones anteriores, supongamos que Uad ⊆ L2(Ω) es un subconjuntocerrado, convexo y no vacıo y fijemos β ∈ (0,∞). Entonces, el problema de control optimo (4.14)tiene una unica solucion u ∈ Uad.

Prueba: La demostracion del resultado es parecida a la del Teorema 4.1. Veremos que el coste J esun funcional cuadratico elıptico en el espacio de Hilbert L2(Ω), con constante de elipticidad β > 0.De nuevo, el resultado sera consecuencia del Teorema 2.3.

El funcional J puede ser escrito como

J(v) =1

2a(v, v)− 〈L, v〉+ C0,

con a(·, ·) la forma bilineal, continua y simetrica en L2(Ω) dada por

a(v, w) = (CΛ0v, CΛ0w)H + β(v, w)L2(Ω), ∀v, w ∈ L2(Ω),

L es la forma lineal y continua en L2(Ω) dada por

〈L, v〉 = (zd, CΛ0v)H + β(vd, v)L2(Ω), ∀v ∈ L2(Ω),

y, finalmente, C0 ∈ R es la constante dada por

C0 =1

2‖zd‖2H +

β

2‖vd‖2L2(Ω).

Ası,a(v, v) = ‖CΛ0v‖2H + β‖v‖2L2(Ω) ≥ β‖v‖

2L2(Ω, ∀v ∈ L2(Ω),

de donde deducimos que J es un funcional cuadratico y elıptico (con constante asociada β > 0) enel espacio de Hilbert L2(Ω). Esto finaliza la prueba.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 4. Control optimo de sistemas lineales 71

Observacion 4.10. De nuevo, para deducir la existencia y unicidad de solucion del problemade control optimo (4.14) hemos utilizado de manera fundamental que la constante β en (4.13) espositiva. Si β = 0, el funcional J sigue siendo un funcional cuadratico y positivo, pero el problemade control optimo (4.3) podrıa no tener solucion o esta podrıa no ser unica. En cualquier caso,tambien se tiene la propiedad:

Ejercicio 4.4. En las condiciones del Teorema 4.4, supongamos que β ≥ 0. Demuestrese que elconjunto

U = u ∈ Uad : u es solucion del problema de control optimo (4.14)

es un conjunto convexo y cerrado (posiblemente vacıo) de L2(Ω).

Antes de pasar a estudiar las condiciones de optimalidad para el problema (4.14) veamos enque consiste el operador adjunto a Λ0, Λ∗0. Para ello, introducimos el sistema adjunto a (4.10):

(4.15)

N∑i,j=1

∂i (aij(x)∂jϕ) + c(x)ϕ = f en Ω,

ϕ = 0 sobre ∂Ω,

donde la funcion f ∈ L2(Ω) esta dada. Aplicando el Teorema 4.3 se tiene que, para cada f ∈ L2(Ω),el sistema adjunto (4.15) posee una unica solucion ϕ ∈ H1

0 (Ω) que depende lineal y continuamentede f .

Multiplicando por ϕ la EDP de (4.10), por yv la EDP de (4.15) e integrando por partes, es facilcomprobar la igualdad∫

Ωv(x)1ωϕ(x) dx =

∫Ωyv(x)f(x) dx, ∀v, f ∈ L2(Ω),

que, escrita en terminos del operador Λ0, proporciona la igualdad

(v, ϕ1ω)L2(Ω) = (Λ0v, f)L2(Ω), ∀v, f ∈ L2(Ω).

De aquı deducimos que el operador adjunto viene dado:

Λ∗0 : f ∈ L2(Ω) 7−→ Λ∗0f = ϕ1ω ∈ L2(Ω),

donde ϕ ∈ H10 (Ω) es la solucion de (4.15).

Mediante el operador adjunto podemos deducir las condiciones de optimalidad asociadas alproblema de control optimo (4.14):

Teorema 4.5. Bajo las condiciones del Teorema 4.4, la unica solucion del problema de controloptimo (4.14), u ∈ Uad, esta caracterizada por ser solucion de la inecuacion variacional

(4.16) (ϕu1ω + β(u− vd), v − u)L2(Ω) ≥ 0, ∀v ∈ Uad,

donde yu y ϕu son las soluciones de los problemas de Cauchy

(4.17)

N∑i,j=1

∂i (aij(x)∂jyu) + c(x)yu = u1ω en Ω,

yu = 0 sobre ∂Ω,

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

72 4.3. Control optimo de EDP elıpticas

y

(4.18)

N∑i,j=1

∂i (aij(x)∂jϕu) + c(x)ϕu = C∗[Cyu − zd] en Ω,

ϕu = 0 sobre ∂Ω.

Prueba: Como consecuencia del Teorema 4.4, sabemos que J es un funcional cuadratico y elıpticoen L2(Ω) y Uad es un subconjunto cerrado, convexo, no vacıo de L2(Ω). Por tanto, la unica solucionu ∈ Uad del problema (4.14) se caracteriza por

u ∈ Uad y a(u, v − u)− 〈L, v − u〉 ≥ 0, ∀v ∈ Uad,

donde las formas a(·, ·) y L estan dadas en la prueba del Teorema 4.4. Utilizando los operadoresΛ0 ∈ L(L2(Ω)) y C ∈ L(L2(Ω);H) y sus adjuntos Λ∗0 ∈ L(L2(Ω)) y C∗ ∈ L(H;L2(Ω)) podemosescribir

a(v, w)− 〈L, w〉 = (Λ∗0C∗[CΛ0v − zd

]+ β(v − vd), w)L2(Ω),

para cualesquiera v, w ∈ L2(Ω).

Ası, las condiciones de optimalidad se reescriben como: u ∈ Uad y

(4.19) (Λ∗0C∗[CΛ0u− zd

]+ β(u− vd), v − u)L2(Ω) ≥ 0, ∀v ∈ Uad.

Observese que Λ0u = yu es la solucion de (4.17). Por otro lado, si hacemos f ≡ C∗[Cyu − zd]y consideramos la correspondiente solucion ϕu del sistema adjunto (4.15), es decir, la solucion

de (4.18), se tiene que Λ∗0C∗[CΛ0u− zd

]= ϕu1ω. De la desigualdad (4.19) deducimos que u

satisface la inecuacion (4.16). Esto finaliza la prueba del resultado.

Observacion 4.11. De nuevo, cuando el conjunto de controles admisibles es el espacio completo,i.e., Uad ≡ L2(Ω), la desigualdad (4.16) equivale a la ecuacion

ϕu(x)1ω + βu(x) = βvd(x), p.c.t. x ∈ Ω,

donde ϕu junto con yu son, resp., las soluciones de (4.18) y de (4.17).

Observacion 4.12. Veamos en que se transforma (4.16)–(4.18) cuando tomamos como operadorde observacion Cw = w1O, con O un subconjunto abierto de Ω. En este caso, H ≡ L2(Ω) y es facilcomprobar que C es un operador autoadjunto. Ası, el sistema de optimalidad es: u ∈ U y

(ϕu1ω + β(u− vd), v − u)L2(Ω) ≥ 0, ∀v ∈ Uad,

donde el par (yu, ϕu) es solucion del sistema acoplado

−N∑

i,j=1

∂i (aij(x)∂jyu) + c(x)yu = u1ω en Ω,

−N∑

i,j=1

∂i (aij(x)∂jϕu) + c(x)ϕu = (yu − zd)1O en Ω,

yu = 0, ϕu = 0 sobre ∂Ω.

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Tema 4. Control optimo de sistemas lineales 73

Observacion 4.13. Razonando como en la Observacion 4.4 deducimos que la caracterizacion delcontrol optimo u dada en el Teorema 4.5 sigue siendo valida en el caso β ∈ [0,∞). En el caso β = 0no podemos asegurar la existencia y/o unicidad de solucion del sistema de optimalidad (4.16)–(4.18).

Observacion 4.14. En esta Seccion solo hemos considerado el control optimo (con control distri-buido) de sistemas gobernados por EDP elıpticas con condiciones de contorno de tipo Dirichlet.Es posible plantear problemas de control optimo para EDP elıpticas cuando el control se ejercea traves de la frontera sobre la condicion de contorno (control frontera). Por ejemplo, podrıamoshaber considerado como sistema de estado el problema de contorno:

−N∑

i,j=1

∂i (aij(x)∂jy) + c(x)y = 0 en Ω,

y = v1γ sobre ∂Ω,

donde los coeficientes aij ∈ L∞(Ω) y c ∈ L∞(Ω) satisfacen (4.11). En el problema anterior γ ⊂ ∂Ωes un abierto relativo de la frontera y 1γ es la funcion caracterıstica sobre γ. El conjunto de controlesadmisibles Uad es ahora un subconjunto convexo, cerrado no vacıo de L2(∂Ω). Observese que elcontrol es ejercido sobre el sistema solo en una parte de la frontera: γ. En este caso, el analisis dela ecuacion de estado y del problema de control optimo es tecnicamente mas complejo que el casode control distribuido estudiado anteriormente.

Por otro lado, tambien es posible considerar en (4.14) otras condiciones de contorno, por ejemplo,condiciones de tipo Neumann o Robin.

Finalmente, en esta seccion nos hemos limitado a plantear problemas de control optimo paraEDP elıpticas. Problemas analogos pueden ser planteados cuando consideramos EDP parabolicas(ecuacion del calor) o hiperbolicas (ecuacion de ondas). Para mas informacion, vease [6] y [2].

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

74 4.3. Control optimo de EDP elıpticas

Manuel Gonzalez Burgos, Dpto. de Ecuaciones Diferenciales y Analisis Numerico, Universidad de Sevilla

Bibliografıa

[1] G. Allaire, A. Craig, Numerical Analysis and Optimization. An Introduction to Mathema-tical Modelling and Numerical Simulation, Oxford, Londres, 2007.

[2] S. Barnett, Introduction to Mathematical Control Theory, Oxford University Press, London,1975.

[3] H. Brezis, Analyse Fonctionnelle. Theorie et Applications, Collection Mathematiques Appli-quees pour la Maıtrise, Masson, Parıs, 1983.

[4] P.G. Ciarlet, Introduction a l’Analyse Numerique Matricielle et a l’Optimisation, Masson,Paris, 1982.

[5] R. Fletcher, Practical Methods of Optimization, Vol 1, 2, John Wiley and Sons, Chichester,1980.

[6] J.-L. Lions, Controle Optimal de Systemes Gouvernes par des Equations aux Derivees Par-tielles, Dunod, Paris, 1968.

[7] J.-L. Lions, E. Magenes, Problemes aux Limites non Homogenes et Applications, Tomo 1,Dunod, Paris, 1968.

[8] D.G. Luenberger, Introduction to Linear and Non-linear Programming, Addison-Wesley,1973.

[9] E. Polak, Computational Methods in Optimization. An Unified Approach, Academic Press,San Diego, 1971.

75