Álgebra Lineal: Una introducción un tanto Exhaustiva Parte I

1

Álgebra Lineal:

Una introducción un tanto Exhaustiva

Parte I

Carlos

2

3

Tabla de contenido Prólogo ...................................................................................................................................... 8

Sección I Preliminares ............................................................................................................. 10

1 Primeros preliminares ................................................................................................. 11

1.1 Las proposiciones matemáticas y el cálculo o álgebra proposicional ................. 11

1.2 Métodos de demostración en matemáticas ....................................................... 14

1.3 Introducción a los conjuntos ............................................................................... 15

1.4 Breve mención a la teoría axiomática de conjuntos ........................................... 16

1.5 Introducción a las funciones ............................................................................... 17

1.6 El concepto de relación en uno o entre dos o más conjuntos ............................ 19

1.7 Profundizando un poco en el concepto de función ............................................ 20

1.8 Relaciones de equivalencia ................................................................................. 22

1.9 Relaciones de orden, parcial, total, estricta o fuerte y lineal ............................. 25

1.10 Definición preliminar del sumatorio simple ........................................................ 27

1.11 La demostración por inducción ........................................................................... 28

1.12 Estructuras algebraicas ....................................................................................... 29

1.13 La relación de extensión entre una estructura algebraica y otra ....................... 34

1.14 Isomorfismo de estructuras algebraicas ............................................................. 35

1.15 Casos importantes de estructuras algebraicas que vamos a ver en el libro ....... 38

1.16 Estructura algebraica de Cuerpo o Campo .......................................................... 40

2 Construcción axiomática de los números naturales, fundamento del método de

demostración por inducción y las definiciones por recurrencia ......................................... 42

2.1 Introducción ........................................................................................................ 42

2.2 Propiedades de los números naturales ............................................................... 42

2.3 Los axiomas de Peano de los números naturales ............................................... 43

2.4 Los números naturales pueden ser definidos en función de la teoría axiomática

de conjuntos .................................................................................................................... 45

2.5 Definiciones recursivas o por recurrencia ........................................................... 46

2.6 La operación binaria de la suma en los números naturales ................................ 49

2.7 Propiedades de la suma en los números naturales ............................................ 51

2.8 La relación de orden lineal (total) en los números naturales y los principios de

inducción ......................................................................................................................... 53

2.9 La operación del producto o multiplicación de los números naturales .............. 55

2.10 Definición rigurosa, por recurrencia, de las sumatorias ..................................... 58

4

2.11 Demostraciones por inducción (Repetición) ....................................................... 59

2.12 Definición rigurosa del Productorio de una sucesión de números ..................... 61

Sección II Sistemas de ecuaciones lineales, matrices y determinantes .................................. 63

3 Sistemas de Ecuaciones lineales ................................................................................. 64

3.1 Ecuaciones lineales .............................................................................................. 64

3.2 Sistemas de ecuaciones lineales ......................................................................... 64

3.3 Discusión de un sistema lineal ............................................................................ 65

3.4 Método de resolución de un sistema lineal de Gauss y de Gauss-Jordan .......... 65

4 Matrices. Transformaciones elementales ................................................................... 69

4.1 Matrices ............................................................................................................... 69

4.2 Matrices diagonales y triangulares ..................................................................... 71

4.3 Matrices escalonadas reducidas ......................................................................... 72

4.4 Transformaciones elementales y forma normal de Hermite .............................. 73

4.5 Rango de una matriz ........................................................................................... 74

4.6 Matrices y sistemas de ecuaciones ..................................................................... 75

5 Operaciones con matrices ........................................................................................... 78

5.1 Suma de matrices ................................................................................................ 78

5.2 Producto de un escalar por una matriz ............................................................... 79

5.3 Matrices y sistemas de nuevo. La solución de cualquier sistema de ecuaciones

es la suma de una solución particular mas la solución general del sistema homogéneo

asociado .......................................................................................................................... 80

5.4 Producto de matrices .......................................................................................... 83

5.5 División de una matriz en bloques o matrices particionadas y producto de

matrices particionadas .................................................................................................... 88

5.6 Matriz traspuesta ................................................................................................ 91

5.7 Propiedades del rango y de la traza .................................................................... 93

6 Matrices regulares ....................................................................................................... 94

6.1 Matrices Elementales .......................................................................................... 94

6.2 Matriz Inversa, Matrices Regulares ..................................................................... 97

6.3 Cálculo de la matriz Inversa .............................................................................. 100

6.4 Matrices equivalentes ....................................................................................... 102

6.5 Relaciones de equivalencia en las matrices ...................................................... 105

7 Determinantes........................................................................................................... 106

7.1 Permutaciones .................................................................................................. 106

7.2 Ciclos y descomposición de una permutación en ciclos disjuntos .................... 108

5

7.3 Permutaciones pares e impares y el signo de una permutación ...................... 109

7.4 Definición del determinante de una matriz cuadrada ...................................... 110

7.5 Expresión del determinante en función de los coeficientes de la matriz ......... 112

7.6 Más propiedades de los determinantes ............................................................ 116

7.7 Desarrollo del determinante por una fila o columna ........................................ 118

7.8 La regla de Laplace ............................................................................................ 121

7.9 Cálculo de la matriz inversa por medio de determinantes ............................... 122

7.10 Relación entre el determinante y el rango de una matriz ................................ 123

7.11 La relación entre determinantes y sistemas de ecuaciones, regla de Cramer.. 125

Sección III Espacios vectoriales ............................................................................................. 128

8 Introducción .............................................................................................................. 129

8.1 Vectores geométricos fijos y su suma ............................................................... 129

8.2 Vectores geométricos fijos y el producto por un escalar .................................. 131

8.3 Sistemas de Coordenadas para vectores geométricos fijos .............................. 132

8.4 El espacio afín n-dimensional y el espacio vectorial 𝐹𝑛, con F un cuerpo

cualquiera ...................................................................................................................... 135

9 Espacios Vectoriales. Bases ....................................................................................... 137

9.1 Definición y ejemplos ........................................................................................ 137

9.2 Primeras propiedades de los espacios vectoriales ............................................ 139

9.3 Dependencia lineal e independencia lineal....................................................... 140

9.4 Sistema de generadores de un espacio vectorial .............................................. 144

9.5 Bases de un espacio vectorial I.......................................................................... 146

9.6 Bases de un espacio vectorial II......................................................................... 149

9.7 Coordenadas de un vector respecto de una base ............................................. 151

9.8 Coordenadas y dependencia lineal ................................................................... 152

9.9 Cambio de base y de coordenadas de un vector .............................................. 153

10 Subespacios Vectoriales ........................................................................................ 155

10.1 Definición y Ejemplos ........................................................................................ 155

10.2 Subespacio generado por un conjunto de vectores.......................................... 157

10.3 Subespacio nulo, subespacio de filas y de columnas de una matriz ................. 158

10.4 Redefinición del rango de una matriz ............................................................... 160

10.5 Cálculo de la dimensión y una base de EC(A) y EF(A) para una matriz A .......... 162

10.6 Ecuaciones cartesianas y paramétricas de un subespacio I .............................. 164

10.7 Ecuaciones cartesianas y paramétricas de un subespacio II ............................. 166

6

10.8 Ecuaciones cartesianas y paramétricas de un subespacio III ............................ 169

10.9 Último repaso: Ecuaciones cartesianas y relaciones con la dimensión del

subespacio ..................................................................................................................... 171

10.10 Intersección de subespacios.......................................................................... 172

10.11 Suma de subespacios .................................................................................... 173

10.12 Fórmula de las dimensiones de los subespacios ........................................... 174

10.13 Suma directa de subespacios y subespacios complementarios o

suplementarios .............................................................................................................. 175

10.14 Más sobre espacios suplementarios I ........................................................... 178

10.15 Mas sobre espacios suplementarios II .......................................................... 179

10.16 Subespacios afines ........................................................................................ 181

10.17 Espacio vectorial cociente ............................................................................. 184

Sección IV Aplicaciones lineales ............................................................................................ 188

11 Aplicaciones lineales. Definición, ejemplos, propiedades y conceptos esenciales

189

11.1 Definición y Ejemplos ........................................................................................ 189

11.2 El espacio vectorial de las aplicaciones lineales entre dos espacios vectoriales V

y V’ 191

11.3 Isomorfismos I, Preparando el terreno ............................................................. 193

11.4 Isomorfismos II .................................................................................................. 196

11.5 Isomorfismos III. Muestra de varios Isomorfismos ........................................... 198

11.6 Isomorfismos IV ................................................................................................. 200

11.7 Núcleo e Imagen de una aplicación lineal ......................................................... 202

12 Aplicaciones lineales y matrices ............................................................................ 205

12.1 Matriz estandar asociada a una aplicación lineal de 𝐹𝑛 en 𝐹𝑚 ....................... 205

12.2 Suma de matrices y producto de una matriz por un escalar ............................ 207

12.3 Producto de matrices y algebra de matrices ..................................................... 208

12.4 Matriz inversa de otra ....................................................................................... 210

12.5 Algoritmo para calcular la inversa de una matriz redefinido ............................ 211

12.6 Nueva perspectiva del cambio de coordenadas ............................................... 212

12.7 Propiedades de los cambios de base y formas prácticas de realizarlos ............ 214

12.8 Matriz asociada a una aplicación lineal entre dos espacios vectoriales generales

sobre el mismo cuerpo F ............................................................................................... 215

12.9 Cálculo de las dimensiones ............................................................................... 218

12.10 Núcleo e imagen de una aplicación lineal y matrices ................................... 220

7

12.11 Matriz asociada a una aplicación lineal y cambio de bases .......................... 221

12.12 Matriz asociada a una aplicación lineal y operaciones definidas en las

aplicaciones y en las matrices ....................................................................................... 222

13 Espacio Vectorial Dual ........................................................................................... 223

13.1 Definición y la base dual asociada a una base de V .......................................... 223

13.2 Bases duales para un espacio vectorial V de dimensión finita.......................... 225

13.3 La relación de dualidad entre V y 𝑉 ∗................................................................ 226

13.4 Cambio de coordenadas de un covector en un cambio de la base de V .......... 227

13.5 El espacio bidual 𝑉 ∗∗ de V ............................................................................... 228

13.6 Complementos ortogonales o anuladores I ...................................................... 230

13.7 Complementos ortogonales o anuladores II ..................................................... 233

13.8 La aplicación lineal dual I ................................................................................... 235

13.9 La aplicación dual II ........................................................................................... 237

13.10 La aplicación lineal dual y la matriz traspuesta ............................................. 239

8

Prólogo Quisiera hacer ciertas consideraciones antes de empezar.

Este libro es el resultado de poner conocimientos de libros que tengo en formato

apuntes, ebook formato pdf, por conveniencia mía para estudiar los temas que presento

pero que también creo que pueden ser de utilidad para los lectores de los mismos.

Se presenta en una primera parte porque el procesador de textos que utilizo que es

Word da problemas con cierto número de páginas acumuladas, por lo que he

considerado que sería conveniente dividir el libro original en 2 partes. La verdad es que

se puede considerar la segunda parte mas interesante que la primera, pero estudiar la

primera es obligatorio para la segunda. La segunda parte todavía no está preparada.

Las características de este ebook son tales que es conveniente que se lean todos o casi

todas las secciones, subsecciones y subsubsecciones en orden para el entendimiento del

mismo, pues como ocurre con todos los textos de matemáticas el conocimiento se va

sumando en progresión según se avanza y lo posterior necesita de lo anterior. Por lo que

si no eres un lector que le gusten las matemáticas o tienes mucha prisa por buscar

ciertos resultados quizás no te vaya a gustar este libro.

Por tanto, ármese el lector de valor y léalo como se indica y sabiendo que si no te gustan

las matemáticas no vas a poder avanzar mucho. Lo siento este libro es así y lo he escrito

con mucho amor por las matemáticas por lo que este es el resultado. Si a pesar de todo

tienes éxito con el libro o te gusta, lo he escrito como un compendio de resultados

intentando ser exhaustivo para una introducción y que se pueda utilizar como material

de referencia.

El libro no requiere ningún conocimiento previo, aunque sí amor por las matemáticas y

una cierta madurez en el razonamiento deductivo que se irá adquiriendo poco a poco

con el tiempo si quieres aprender matemáticas de forma consistente leyendo libros.

Por tanto, quiero explicar a qué público va dedicado este libro:

1) Para repaso y profundización de estudiantes de primeros cursos universitarios que

tengan la curiosidad de profundizar quizás en las vacaciones.

2) Para todo aquel que quiera aprender matemáticas desde el principio, en concreto

el tema del álgebra lineal, con cierto grado de rigor (nivel universitario).

3) Como consulta de ciertos temas fundamentales por matemáticos más avanzados.

Queremos pedir disculpas a los matemáticos profesionales o más avanzados el nivel no

muy alto, de introducción, que presenta el libro.

Considero personalmente que el tema que trata este libro una introducción al álgebra

lineal es un tema bonito, sencillo y bastante fácil, por lo que quiero animar al lector que

se vea interesado en repasar y estudiar profundamente el libro que no lo encontrará

difícil, salvo quizás algunas demostraciones y quizás más en el tema del espacio dual.

Recomiendo que se lea el libro una vez rápidamente para determinar precisamente el

total de los temas que se tratan; quizás esta primera vez sin comprender bien las

9

demostraciones y luego, leerlo otra vez, más en profundidad, tratando de comprender

las demostraciones y el significado de todos los conceptos y temas que se tratan y como

se tratan.

No es un libro lo completo que quería porque he querido hacer una versión ligera para

publicarlo en internet los más rápido posible. Mi deseo es escribir otro más avanzado y

completo en el futuro donde me gustaría tratar todas las formas canónicas principales

(Smith, racional, generalizada de Jordan y de Jordan) y algoritmos para hallarlas a ellas,

así como a las bases que las determinan.

Así como está el ebook, no tiene ejercicios, pero me gustaría en sucesivas versiones

proveerlo de ellos, así como de sus soluciones.

Por último, quiero pedir disculpas si hay algún error, no se asuste el lector, puede

preguntarme en el email que dejaré si algo no se ha entendido e iré corrigiendo los

errores que pueda encontrar en repasos que haga al libro.

10

Sección I Preliminares

11

1 Primeros preliminares

1.1 Las proposiciones matemáticas y el cálculo o álgebra proposicional

Las matemáticas trabajan con proposiciones que son un tipo de enunciados de los que

se puede decidir si son ciertos o falsos. Si tenemos una o más proposiciones podemos

crear a partir de ellas otras proposiciones más complejas, y es más, podemos determinar

el valor de verdad (verdadero o falso) si sabemos el de las proposiciones que la

componen. Para todo esto debemos conocer como formar proposiciones más complejas

a partir, de otras componentes. En matemáticas hay 5 operadores (operadores lógicos)

que permiten construir proposiciones compuestas a partir de otras componentes. Estos

son los siguientes:

DEFINICIÓN: A partir de dos proposiciones A y B se puede construir la proposición A ó B,

por medio del operador lógico o, llamado también disyunción, que es verdadera cuando

A o B, al menos una, es verdadera. Es decir que solo será falsa si ambas A y B son falsas.

El operador o tiene la siguiente tabla de verdad, que se deduce de su significado:

A B A ó B

V V V

V F V

F V V

F F F

Si unimos más de dos proposiciones por varios operadores o y solo por ellos (habría

muchas maneras de hacerlo y todas equivalentes), no es necesario que pongamos la

tabla de verdad, pero el único modo de hacer falsa la proposición resultante es que

todas las proposiciones componentes o unidas sean falsas al mismo tiempo. En cuanto

haya una verdadera la proposición compuesta será verdadera.

La siguiente conectiva (operador lógico que une dos proposiciones) a tratar es y.

DEFINICIÓN: A partir de dos proposiciones A, B se puede construir la proposición A y B,

por medio del operador lógico y, llamada también conjunción, la cual, es verdadera

solamente cuando las dos proposiciones son verdaderas a la vez. Por lo cual, podemos

ver que su tabla de verdad es la siguiente:

A B A y B

V V V

12

V F F

F V F

F F F

Si unimos más de dos proposiciones solamente con operadores y, se puede deducir que

la única forma en que el resultado sea verdadero es que todas las proposiciones

componentes sean verdaderas. En cuanto una de las proposiciones componentes sea

falsa, la compuesta de ellas será falsa.

El siguiente operador lógico es el más fácil, se trata de la negación.

DEFINICIÓN: Dada una proposición A se puede construir la negación de esta, consistente

en negarla, de esta manera: no A, la cual es verdadera si A es falsa, y es falsa, si A es

verdadera. Con lo cual, la tabla de verdad es muy fácil.

A no A

V F

F V

El siguiente operador lógico es importantísimo, se trata de la implicación.

DEFINICIÓN: Dada las proposiciones A y B se puede construir la proposición A implica B,

por medio del operador lógico implica, que es la implicación o consecuencia lógica, y se

trata de una proposición falsa, solo si A es verdadera, pero B es falsa, de modo que si A

es falsa la proposición A implica B será verdadera, como podemos ver en la tabla de

verdad de la implicación:

A B A implica B

V V V

V F F

F V V

F F V

Es fácil ver por qué este operador es tan importante en matemáticas, esto es porque las

matemáticas se basan en la demostración de teoremas, que es llegar a una verdad o

proposición partiendo de otra. Esta cadena evidentemente consiste en una implicación

de la primera proposición hacia la conclusión y sabremos que la conclusión será

verdadera si demostramos la implicación, ya que tenemos como demostrada o

verdadera la primera proposición. Aquí también vemos la importancia de las tablas de

verdad, ya que en la tabla de verdad de la implicación que acabamos de ver, si la

implicación es verdadera, no está permitido que la conclusión sea falsa si la primera

proposición es verdadera (porque si esto fuera así la implicación sería falsa), por lo que

nos aseguramos de que la conclusión es verdadera sabiendo que la implicación es

verdadera y la premisa también.

13

Quizás nos parezca raro asignar el valor verdadero a una implicación donde la premisa

o primera proposición, es falsa, pero veamos porque debe ser así, pongamos 2 ejemplos:

a) Si la primera proposición es falsa no podemos dar un contraejemplo, que consiste

en ver que la conclusión es falsa con un ejemplo o caso verdadero (Cosa muy

importante cuando queremos demostrar que una implicación es falsa si sabemos la

verdad de la premisa, con el hecho de encontrar un ejemplo en contra se prueba la

falsedad de la implicación). Por ejemplo, consideremos la implicación “los españoles

son madrileños” tiene forma de implicación si decimos que A, “Soy español” implica

B, “soy madrileño”. Podemos demostrar que esta implicación es falsa si utilizamos

la proposición “soy valenciano”, esta proposición es un contraejemplo de la

implicación porque se cumple que “soy español”, A, pero no “soy madrileño”, B (o

sea se cumple que no B). Si damos un contraejemplo, supuesta la verdad de la

premisa, la implicación (que queremos demostrar o suponemos cierta, es decir la

verdad de la implicación) sería falsa según la tabla de verdad de la implicación. Pero

si la primera proposición, o premisa, es falsa, ya el contraejemplo no funciona (es

decir, el contraejemplo no demuestra la falsedad de la implicación), por lo que es

natural suponer la verdad de la implicación cuando la premisa es falsa.

b) Veamos otro caso más claro, supongamos que la implicación A implica B está

compuesta de A “n es divisible por 6” y B “n es divisible por 3”. Debería estar clara

la implicación A implica B, es decir “n es divisible por 6” implica que “n es divisible

por 3”, pero supongamos que n = 9, entonces ocurre que A es falsa, pero B es

verdadera (y deseamos que la implicación se siga considerando verdadera), además

en el caso n = 8, tanto A como B son falsas, aun así, sostenemos que A implica B

tiene que ser verdadero, lo cual ilustra la tabla de verdad de la implicación en los

casos en los que teníamos dudas.

Todavía nos queda decir unas cuantas cosas en cuanto a la implicación. Si A implica B

también se dice que ‘Si A entonces B’, y también que ‘A es suficiente para B’ o que ‘B es

necesaria para A’. También se dice que ‘A se cumple solo si B se cumple’, es decir ‘A solo

si B’.

Nos queda un último punto a considerar en cuanto a la implicación. La proposición

recíproca de A implica B, es B implica A. Es importante darse cuenta de que si una

proposición es cierta no quiere decir que su recíproca sea cierta también, por ejemplo,

si tu “vives en Madrid” A, entonces, “vives en España” B (A implica B), pero si vives en

España no implica que vivas en Madrid, puedes vivir en Gijón, por ejemplo, por tanto la

recíproca de A implica B, es decir, B implica A, no es cierta en general, aunque sepamos

que se cumple, A implica B. Cuando esto ocurre, es decir, cuando son ciertas tanto A

implica B, como B implica A, se dice que las proposiciones A y B son equivalentes. Lo que

nos lleva al último operador lógico.

DEFINICIÓN: Dadas las proposiciones A y B se puede construir la proposición A equivale

a B que se puede definir en función de la implicación y la conjunción, como A implica B

y B implica A. Otras formas de decir que dos proposiciones son equivalentes es decir que

A es necesario y suficiente para B, o que A si y solo si B. Si escribiéramos una tabla de

verdad compuesta de A implica B y B implica A, veríamos (como lo vamos a definir ahora

14

mismo) que si dos proposiciones son equivalentes tienen que tener el mismo valor de

verdad, es decir ambas verdaderas o ambas falsas, de modo que la tabla de verdad de

la equivalencia es la siguiente:

A B A equivale a B

V V V

V F F

F V F

F F V

1.2 Métodos de demostración en matemáticas

Será útil basados en nuestro conocimiento del operador lógico implicación (o

consecuencia lógica), ver como se procede habitualmente en matemáticas para hacer

demostraciones de proposiciones, que no son otra cosa más que implicaciones.

Consideramos esto útil porque nos ayudará en el futuro a comprender las

demostraciones y tener pistas de cómo hacer nosotros nuestras demostraciones en los

ejercicios.

1) Prueba directa: Este método es el más fácil. Suponemos la proposición A y

obtenemos la proposición B. Es fácil de describir, pero las demostraciones directas

no hay que suponer que sean fáciles de hacer. Si no logramos hacer una

demostración directa, entonces habrá que probar con las siguientes formas.

2) Probar la contrarecíproca: La proposición contrarecíproca de A implica B es (no B)

implica (no A) y se trata de dos proposiciones equivalentes, de ahí que si se

demuestra una se obtiene la otra. O dicho de nuevo, si no podemos hacer una

demostración directa, probar la contrarecíproca puede dar resultado. Para ver que

estas dos proposiciones son equivalentes podemos construir una tabla de verdad,

pero es más fácil si pensamos lo siguiente: ¿Cuándo es A implica B falso? Solo si A es

verdadero y B falso, y ¿Cuándo es (no B) implica (no A) falsa? Solo cuando no B es

verdadero y no A falso, es decir, cuando B es falsa y A verdadera, es decir, estamos

en las mismas circunstancias.

3) Prueba por contradicción: Es un principio lógico que, si al suponer una proposición

se llega a una contradicción, entonces la proposición que se suponía ha de ser por

fuerza falsa, de ahí que también si queremos demostrar la proposición A podemos

utilizar el principio anterior de la siguiente manera: Supongamos no A, entonces si

llegamos a una contradicción tendrá que ser no A falsa, es decir A verdadera.

4) Prueba por Casos: A veces, queremos demostrar una proposición según la

implicación A implica B y se dan una serie de casos diferentes o posibilidades,

entonces, si separamos los distintos casos y tratamos de demostrar que B se deduce

siempre en todos los casos, habremos conseguido lo que nos proponíamos.

15

Pongamos un ejemplo: Si en el transcurso de la demostración de una propiedad de

los números reales se dan las 3 posibilidades siguientes, que los números sean

menores de 5, que el número sea 5 o que los números sean mayores que 5, quizás

sea buena idea mirar cada caso y concluir en todos, la propiedad de los números

reales que queremos demostrar, entonces estaremos seguros de que la propiedad

es cierta porque no hay más casos por comprobar. A veces ordenarse de esta

manera en las demostraciones es muy útil y también es muy común, por eso hemos

descrito este método.

5) Demostración por inducción: La demostración por inducción es muy importante

para demostrar una proposición de los números naturales o que puede depender

de cada número natural n. Es tan importante que dedicamos una de las siguientes

subsecciones a ella.

1.3 Introducción a los conjuntos

Necesitamos repasar algunos conceptos sobre los conjuntos. No definiremos lo que es

un conjunto formalmente porque es una noción primaria de modo que nos limitaremos

a definirlos informalmente. Los conjuntos son fundamentales en matemáticas porque

son la piedra angular en donde descansan todos los conceptos matemáticos, es decir,

que todos los conceptos matemáticos se pueden definir en términos de conjuntos.

Diremos que un conjunto es una colección de entes u objetos llamados miembros o

elementos del conjunto y la noción de pertenencia de un elemento con respecto a un

conjunto es tan intuitiva y primaria que no la definiremos, pero la notaremos así:

notamos “a pertenece al conjunto A” de este modo a∈A. Si a no es elemento del

conjunto A lo notaremos así a∉A

Si un conjunto posee pocos elementos se pueden listar en su definición, así, A = {a, b, c},

define un conjunto cuyos elementos son a, b y c. Si se trata de un conjunto con muchos

elementos o infinitos debemos definirlos de otra manera, como, por ejemplo, dando

una propiedad que comparten todos sus elementos, así B = {x∈ℝ: 2 ≤ x ≤ 3} es la forma

de definir el intervalo de números reales comprendido entre 2 y 3 (con 2 y 3 incluidos).

DEFINICIÓN: Un subconjunto S de un conjunto A es un conjunto tal que cada elemento

de S pertenece a A. Esto simbólicamente se escribe y para las demostraciones, se trata

de esta manera: s∈S implica s∈A. Si S es un subconjunto de A se nota S ⊆ A o A ⊇ S.

Dado S ⊆ A, si sabemos que A posee elementos que S no posee, porque hasta este

punto, aunque S ⊆ A podría ser que S = A, pero si sabemos que hay elementos de A que

no posee S escribimos S ⊂ A o A ⊃ S.

Para dos conjuntos S y A definimos que S = A si poseen exactamente los mismos

elementos y esto para las demostraciones se simboliza así: S ⊆ A y también, A ⊆ S. Es

decir, que para demostrar que dos conjuntos son iguales hay que demostrar las dos

inclusiones.

16

DEFINICIÓN: Dados dos conjuntos A y B se puede definir la unión de ellos que se nota

así: A ∪ B, y que se trata del conjunto cuyos elementos son los de A y B juntos o

expresado simbólicamente A ∪ B = {x : xϵA ó xϵB}.

DEFINICIÓN: Dados dos conjuntos A y B se puede definir la intersección de ellos que se

nota así: A ∩ B y que se trata del subconjunto de A y B que posee exactamente los

elementos comunes de A y B o expresado simbólicamente A ∩ B = {x: xϵA y xϵB}.

DEFINICIÓN: Dado un conjunto grande de conjuntos que puede ser infinito, notados

de la siguiente manera: 𝐴𝑖, se puede definir su unión o su intersección, de la siguiente

manera: La unión ⋃ 𝐴𝑖𝑖 = {x: ꓱ i tal que xϵ𝐴𝑖}; la intersección ⋂ 𝐴𝑖𝑖 = {x: ꓯi xϵ𝐴𝑖}.

DEFINICIONES: Si A y B son conjuntos el conjunto de elementos de A que no están B se

define como el conjunto diferencia de A menos B y es denotado como A – B. Si B ⊆ A,

entonces, A – B se llama el complemento de B en A. Si Consideramos a A como un

subconjunto de uno más grande, U, que se llama el universal de una serie de conjuntos,

entonces U – A se llama el complemento de A y se denota como 𝐴𝐶.

Nos queda por definir un conjunto.

DEFINICIÓN: Existe el conjunto sin elementos llamado conjunto vacío, notado por Ø, de

modo que la proposición x∈Ø es falsa para cualquier x; y para todo conjunto A, Ø ⊆ A

es siempre verdadera, ya que la proposición “x∈Ø implica x∈A” es siempre verdadera,

puesto que la premisa x∈Ø, es falsa.

1.4 Breve mención a la teoría axiomática de conjuntos

A principios del siglo XX y por diversas razones, se realizó un trabajo de fundamentación

de las matemáticas y en concreto en la teoría de conjuntos, dándoles un formato

axiomático. Nosotros no vamos a ser tan rigurosos en este libro de fundamentar todas

las matemáticas del mismo en la axiomática de conjuntos más utilizada, pero vamos a

recordar en esta humilde subsección los axiomas en los que se fundamentaría nuestro

trabajo si fuésemos tan rigurosos hasta el extremo de comenzar con los axiomas de la

teoría de conjuntos que fundamentaría esta teoría (la teoría de conjuntos) que es la base

de todo este libro.

Asumiendo como hace la teoría axiomática de conjuntos como no definidos los

conceptos primitivos que son los de conjunto, elemento perteneciente a un conjunto y

pertenencia de un elemento al conjunto, como por ejemplo en la sentencia a∈ 𝐴, donde

a es un elemento, A un conjunto y el símbolo ∈, la relación de pertenencia, vamos sin

más a listar los axiomas de la teoría de conjuntos más aceptada que servirían de base a

este libro:

1) Axioma de extensionalidad: Dos conjuntos son iguales si tienen los mismos

elementos.

2) Axioma del conjunto vacío: Existe el conjunto vacío ∅, es decir el conjunto al que no

pertenece ningún elemento.

17

3) Axioma de especificación: Dado un conjunto A y una sentencia matemática o

propiedad P, existe un conjunto cuyos elementos son los elementos de A tales que

cumplan la propiedad P.

4) Axioma del par: Dados dos conjuntos A y B, existe otro conjunto C cuyos elementos

son precisamente A y B.

5) Axioma de la unión: Dado un conjunto A cuyos elementos son conjuntos, existe otro

conjunto B, cuyos elementos son los elementos que pertenezcan a algún conjunto

de A, es decir, sea C algún conjunto elemento de A, si x es un elemento C, entonces,

x pertenece a B.

6) Axioma de partes: Dado un conjunto de A existe otro conjunto cuyos elementos son

todos los subconjuntos de A.

7) Axioma de infinitud: Existe un conjunto A con la propiedad de que el conjunto vacío

∅ pertenece a él y siempre que un elemento b pertenece a A, entonces, también

pertenece a A el conjunto {b} como elemento (que no es lo mismo que decir que b

pertenece a A).

Quizás haya que aclarar en el axioma 6 un concepto no definido. Se puede definir en 6

el concepto de subconjunto: B es subconjunto de A si ocurre que un elemento x

pertenece a B implica siempre, que x pertenece a A (es decir, que todo elemento de B

pertenece a A).

Como mencionaremos en la subsección dedicada a los axiomas de Peano de los números

naturales (que son los axiomas con los que fundamentar rigurosamente los números

naturales como veremos), con estos axiomas de conjuntos se pueden demostrar

precisamente los axiomas de Peano, hecho que, aunque no sea arduo ni mucho menos,

no demostraremos en este libro.

1.5 Introducción a las funciones

El concepto de función seguro que es familiar al lector, pero lo introduciremos para

seguir una línea lógica en la argumentación y ser completos. Seguro que el lector

conocerá de sus estudios las funciones numéricas, como por ejemplo f(x) = 𝑥2, que se

supone implícitamente que es una función de números reales. A cada valor de x, el cual

es cualquier número real se le asigna su cuadrado, así por ejemplo x = 4 produce f(x) =

16. Parece sencillo, pero hay algunos detalles que tenemos que tratar para ser

completos.

DEFINICIÓN: Una función de un conjunto A, a otro B (donde A y B pueden ser cualquier

tipo de conjuntos, no necesariamente numéricos) es una regla que asigna a cada

elemento de A, x, un elemento de B, f(x), pero solo un elemento de B (este detalle es

crucial). Se nota como hemos visto f(x) al valor de x, es decir al valor que f asigna a x para

cada x, y simbólicamente una función f de A a B se simboliza así: f: A ↦ B. Además, hay

más terminología, la cual también es importante. Se dice que A es el dominio de f y B el

codominio. Además, todo y, tal que y = f(x) para algún x pertenece a un conjunto que se

llama el rango de f, que a veces, no tiene por qué coincidir con el codominio. Así, en el

ejemplo anterior de f(x) = 𝑥2, el dominio de f sería el conjunto de los números reales, ℝ,

18

mientras que el codominio podría ser y el rango de f, sería el conjunto de los números

reales positivos, añadiendo 0. Pero he aquí que en la definición de una función se admite

esta sutileza, el codominio de la función anterior podría ser también todo ℝ, porque la

función asigna a cada x un número real, aunque sabemos que solo le asignará un número

positivo, ó 0. Para tratar esta ambigüedad se considera que se trata de dos funciones

distintas, ya que tienen diferentes codominios, por lo que vemos que la determinación

del dominio y codominio es una parte importante en la definición de una función.

Vemos ahora una operación familiar en el conjunto de las funciones (consideramos

definido un tipo de funciones) que también es conocida por el lector, se trata de la

composición de funciones. Veamos el siguiente ejemplo: sea h(x) = 𝑠𝑒𝑛2(x). Esto, ¿qué

significa?, es una definición por pasos, primero calculamos el sen(x) y luego hayamos su

cuadrado. Entonces si f(x) = sen(x) y g(y) = 𝑦2, tenemos que h(x) = g(f(x)). ¿Comprende

el lector lo que queremos decir? Hagamos la definición en general:

DEFINICIÓN: Si tenemos dos funciones f y g con las siguientes características:

f: A ↦ B, g: B ↦ C (nótese que el codomino de f coincide con el dominio de g), la

composición de f y g, o su función compuesta, es la siguiente función h, notada como h

= g○f, h: A ↦ C, tal que h(x) = g(f(x)), para todo x de A. Es fácil, primero se calcula f y del

resultado, se calcula g y todo junto, define una nueva función.

La siguiente propiedad de la composición de funciones es muy importante y vamos a

mostrarla en el siguiente teorema.

TEOREMA 1.5.1: Sean f, g y h funciones definidas de la siguiente manera, f: A ↦ B, g: B

↦ C, h: C ↦ D, entonces (h○g)○f = h○(g○f) y simplemente se notará como h○g○f.

DEMOSTRACIÓN: El dominio de (h○g)○f y h○(g○f) es A, entonces, para todo x de A se

tiene que ((h○g)○f)(x) = (h○g)(f(x)) = h(g(f(x))) = h((g○f)(x)) = (h○(g○f))(x). □

Ahora, veamos dos detalles que nos interesan de las funciones. Para la función anterior,

f(x) = 𝑥2, dado un valor de f(x), por ejemplo, f(4) = 16, ¿habrá otro valor x = z, tal que f(z)

= 16? Esta es una pregunta que tiene mucha importancia, como veremos a lo largo del

libro. Pues bien, vemos que para x = -4 también f(-4) = 16, de modo que f(4) = f(-4) = 16.

Volveremos sobre esto inmediatamente.

Hay otro detalle que nos interesa. Si definimos como codominio de f(x) = 𝑥2, los números

reales positivos, ¿cada número positivo, incluido 0, es el valor de la función f(x) para

algún número x del dominio? La respuesta es que sí, pero si definimos como codominio

de esta regla f, a todo ℝ, sabemos que los números negativos no son asignados a ningún

número del dominio, ya que el cuadrado de cualquier número es positivo. Por estos dos

detalles son pertinentes estas definiciones que siguen:

DEFINICIÓN: La función f: A ↦ B se dice que es inyectiva o uno-a-uno si solo un valor del

domino de f se asignan a un valor f(x), es decir solo un valor x se corresponde con f(x) o

expresado más técnicamente si f(x) = f(y) implica que x = y.

19

La función f se dice suprayectiva si a todo elemento y, del codomino B, le corresponde

un elemento x (pueden ser varios) del domino A, tal que f(x) = y, o dicho de otra manera,

si el codominio coincide con el rango.

La función f se dice que es biyectiva o una correspondencia uno-a-uno si es inyectiva y a

la vez, suprayectiva.

Para ilustrar estas definiciones veamos un ejemplo:

EJEMPLO: Representamos la correspondencia f(x) = y con una flecha que va de x a y:

A f B

a j

b k

c l

Por lo tanto, tenemos que f(a) = f(b) = j y a k, del codominio B, no lo corresponde ningún

elemento del dominio A, por lo que, en este ejemplo, la función f no es ni inyectiva, ni

suprayectiva.

1.6 El concepto de relación en uno o entre dos o más conjuntos

Ya hemos visto que dada una función f: A ↦ B y para un elemento a de A, solo existe un

valor f(a) de B, en términos de flechas solo sale una flecha del elemento a hacia f(a).

Entonces nos preguntamos: ¿No se puede generalizar esta idea y permitir objetos

matemáticos, tales que, asocien a un elemento a de A, varios otros elementos de B? La

respuesta es que tales objetos si existen ya en matemáticas y se llaman relaciones. Para

la definición de estas, hace falta definir antes los pares ordenados y su generalización,

las n-tuplas.

DEFINICIÓN: Se define un par ordenado de dos elementos a y b, notado como (a, b), a

un conjunto especial de solo los elementos a y b, pero donde el orden importa; no es lo

mismo el par ordenado (a, b) que el par (b, a). Más técnicamente, dos pares ordenados

(a, b), (c, d) son iguales si se cumple que a = c y b = d. Por tanto, veamos como ejemplo,

que como decíamos antes, si a y b son distintos, el par (a, b) no es lo mismo que el par

(b, a), pues si fueran iguales, se tendría que cumplir que a = b y b = a, condición

redundante que hemos supuesto que no se cumplía. Ahora veamos como generalizar

esta noción de par ordenado, a la de n-tupla ordenada. Se define la n-tupla ordenada

(𝑎1, 𝑎2, …, 𝑎𝑛) como un conjunto especial de los n elementos 𝑎1, …, 𝑎𝑛, donde n es un

número natural, donde técnicamente, si dos n-tuplas, (𝑎1, 𝑎2, …, 𝑎𝑛), (𝑏1, 𝑏2, …, 𝑏𝑛), son

iguales, se tiene que cumplir que 𝑎1 = 𝑏1, 𝑎2 = 𝑏2, …, 𝑎𝑛 = 𝑏𝑛.

Ahora, si A y B son dos conjuntos, el producto cartesiano de A y B, notado como A×B, es

el conjunto de todos los pares ordenados (a, b), con a un elemento cualquiera, de A y b

un elemento cualquiera de B. De manera similar, el producto cartesiano de n conjuntos

𝐴1, …, 𝐴𝑛, notado por 𝐴1× … ×𝐴𝑛, es el conjunto de todas las n-tuplas ordenadas, (𝑎1,

𝑎2, …, 𝑎𝑛), donde, 𝑎1 es un elemento de 𝐴1, …, 𝑎𝑛 es un elemento de 𝐴𝑛 o dicho más

resumidamente 𝑎𝑖 es un elemento de 𝐴𝑖, con 1 ≤ i ≤ n. Si 𝐴𝑖 = A, es decir, todos los

20

conjuntos del producto cartesiano son uno mismo, A, este producto cartesiano

normalmente se nota como 𝐴𝑛.

Ahora podemos definir los conceptos de relación entre conjuntos: Una relación entre

dos conjuntos A y B es simplemente un subconjunto del producto cartesiano A×B. Una

relación en A es un subconjunto del producto cartesiano A×A. Similarmente, una

relación n-aria entre n conjuntos 𝐴1, …, 𝐴𝑛, es un subconjunto del producto cartesiano

𝐴1× … ×𝐴𝑛 y, finalmente, una relación n-aria en A, es un subconjunto de 𝐴𝑛.

EJEMPLO: Como ejemplo, definimos la relación R en el conjunto A = {1, 2, 3, 4, 5, 6, 7, 8}

de la siguiente manera: el par (a, b) pertenece a la relación, lo cual se simboliza así, aRb,

sí y solo sí a < b y a divide b. De esta manera, se obtienen los siguientes pares de la

relación R: (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (1, 7), (1, 8), (2, 4), (2, 6), (2, 8), (3, 6), (4, 8).

Comentamos que, por ejemplo, (3, 3) no pertenece a la relación, porque 3 se divide a sí

mismo, pero 3 no es menor que sí mismo.

Si ahora dibujáramos un diagrama de flechas veríamos que del elemento 1, salen 7

flechas, del elemento 2, tres flechas, de los elementos 3 y 4, solo sale 1 y de los

elementos 6, 7 y 8, no sale ninguna.

Para terminar, queremos definir lo que es una función, como se haría rigurosamente en

la teoría de conjuntos.

DEFINICIÓN: Una función f, de un dominio A, a un codominio B, es un conjunto de pares

ordenados (a, b), tales que a pertenece a A y b a B, (un subconjunto del producto

cartesiano A×B), de manera que no hay ningún par en la función f, (a, c), con b diferente

de c, es decir, si (a, b) y (a, c) pertenecen a la función, entonces b = c, de modo que, al

mismo elemento a de A no le corresponden diferentes elementos b y c de B. También

se puede definir función como una relación (binaria) entre A y B que cumple la condición

anterior.

1.7 Profundizando un poco en el concepto de función

Hay una función muy especial de entre todas las que pueden construirse de un conjunto

A en sí mismo. Se llama la función identidad y se nota como 𝐼𝐴. Si A está claro en la

discusión, esta función se nota simplemente como I.

DEFINICIÓN: Se llama función identidad en A y se nota por 𝐼𝐴 o simplemente por I, si A

está claro en el contexto, a la función 𝐼𝐴: A ↦ A, tal que 𝐼𝐴(x) = x, es decir, que asigna a

cada elemento de A, consigo mismo.

Otra de las preguntas que nos haremos de una función f: A ↦ B, es si hay una función g,

g: B ↦ A, tal que, si y = f(x) para cada x, g(y) = x, para cada y, pero esto si lo pensamos

un momento, quizás no pueda darse si f(𝑥𝑎) = f(𝑥𝑏) = z por ejemplo, pues para g(z) no

tenemos un valor único como lo exige la definición de función. Entonces, ahora está

claro que si f es inyectiva no hay impedimentos para que la función g exista.

Demostrémoslo en el siguiente teorema.

TEOREMA 1: Sea f una función f: A ↦ B, entonces existe otra función g: C ↦ A, tal que,

si y = f(x) para cada x, g(y) = x, para cada y, sí y solo sí, f es inyectiva. Si esto ocurre, el

dominio de g es el rango de f y el rango de g es el dominio de f.

21

DEMOSTRACIÓN:

a) Supongamos que g(y) no tiene un valor único (esto no es tan raro, puede darse si consideramos que g como función que queremos investigar, es primero una relación o un subconjunto del producto cartesiano C×A) de modo que g(y) = x y g(y) = z, por lo tanto, no sería una función según lo exige su definición, pero entonces, f(x) = f(z) = y y, por tanto, f no es inyectiva, contradicción, de modo que si f es inyectiva, g es una función bien definida.

b) Supongamos que f(x) = f(z) = y, pero entonces g(y) no está bien definida y no puede ser una función, por lo que tiene que ser x = z y, por tanto, f es inyectiva si g está bien definida como función.

Pero veamos ahora, que, si z no está en el rango de f, no es posible que g(z) = x, para

algún x, de modo que si z no está en el rango de f no puede pertenecer al domino de g.

Pero veamos que, si z pertenece al rango de f, entonces f(x) = z para algún x del dominio

de f, de modo que g(z) = x y g está definida en z, o sea que z pertenece al dominio de g.

Por último, x pertenece al rango de g si existe un y tal que f(x) = y, de modo que x

pertenece al dominio de f, por tanto, el rango de g es el dominio de f. □

DEFINICIÓN: Sea f una función f: A ↦ B, inyectiva, entonces, la función g: B ↦ A, tal

que, si y = f(x) para cada x, g(y) = x, se llama inversa de f y se nota como 𝑓−1 = g.

Nos quedan todavía 4 teoremas sencillos acerca de las funciones, sus compuestas y sus

inversas, que nos serán de utilidad más adelante y darán más luz al concepto de función.

Vamos ahora mismo a por ellos.

TEOREMA 2: Sea f una función f: A ↦ B, y g, g: B ↦ C, se cumple lo siguiente:

1) Si g○f es inyectiva, entonces f es inyectiva.

2) Si g○f es suprayectiva, entonces g es suprayectiva.

DEMOSTRACIÓN:

1) Sea g○f inyectiva y f(x) = f(u) entonces, (g○f)(u) = g(f(u)) = g(f(x)) = (g○f)(x), de modo que x = u, por ser g○f inyectiva.

2) Sea g○f suprayectiva y z pertenece a C, entonces existe un x en A, tal que (g○f)(x) = z, así que si y = f(x), g(y) = g(f(x)) = (g○f)(x) = z, entonces, para todo z de C, existe un y de B, tal que g(y) = z. □

Veamos otro teorema que nos da un criterio muy simple para la biyectividad.

TEOREMA 3: Sea f una función f: A ↦ B. Si existen dos funciones g y h, g, h: B ↦ A, tales

que a) g○f = 𝐼𝐴, y b) f○h = 𝐼𝐵, entonces f es biyectiva y g = h = 𝑓−1.

DEMOSTRACIÓN: Como 𝐼𝐴 es inyectiva, por a) y 1) del teorema anterior, f es inyectiva.

Ahora por b) y 2) del teorema anterior f también es suprayectiva, por ser 𝐼𝐵 suprayectiva.

Sea y de B y x = 𝑓−1(y), entonces, i) 𝑓−1(y) = x = 𝐼𝐴(x) = g(f(x)) = g(y), también ii) f(x) = y

= 𝐼𝐵(y) = f(h(y)), pero iii) 𝑓−1(y) = x y de las ecuaciones anteriores ii) x = h(y), por ser f

inyectiva, de modo que , de i), ii) y iii) tenemos que g(y) = 𝑓−1(y) = h(y). □

22

En el siguiente teorema vemos las características de las funciones inversas de una

biyección.

TEOREMA 4: Si f es una biyección, f: A ↦ B, entonces, 𝑓−1 es una biyección 𝑓−1: B ↦ A

y se cumple lo siguiente: a) 𝑓−1○f = 𝐼𝐴, b) f○𝑓−1 = 𝐼𝐵 y c) (𝑓−1)−1 = f.

DEMOSTRACIÓN: a) Si x pertenece a A y y = f(x), entonces, 𝑓−1(y) = x, de modo que

(𝑓−1○f)(x) = 𝑓−1(f(x)) = 𝑓−1(y) = x, por tanto, 𝑓−1○f = 𝐼𝐴. b) Sea y de B y x = 𝑓−1(y),

entonces, y = f(x) y (f○𝑓−1)(y) = f(𝑓−1(y)) = f(x) = y, y, por tanto, f○𝑓−1 = 𝐼𝐵. c) De estas

ecuaciones y del teorema anterior aplicado a 𝑓−1, se concluye que 𝑓−1 es una biyección

y que (𝑓−1)−1 = f. □

Nuestro último teorema trata de la inversa de una composición, veámoslo.

TEOREMA 5: Si f es una biyección, f: A ↦ B y g es una biyección, g: B ↦ C, entonces, g○f

es una biyección, g○f: A ↦ C y (g ○ f )−1 = 𝑓−1○𝑔−1.

DEMOSTRACIÓN: Primero notemos que puesto que 𝑔−1 es una función 𝑔−1: C ↦ B, así

como, 𝑓−1: B ↦ A, según nuestro teorema anterior; entonces, 𝑓−1○𝑔−1 es una

función bien definida, 𝑓−1○𝑔−1: C ↦ A. Entonces, por el teorema anterior y el de una

subsección anterior, teorema 1.5.1, referente a la composición de 3 funciones: a)

(𝑓−1○𝑔−1)○(g○f) = 𝑓−1○[𝑔−1○(g○f)] = 𝑓−1○[(𝑔−1○g)○f)] = 𝑓−1○(𝐼𝐵○f) = 𝑓−1○f = 𝐼𝐴.

b) (g○f)○(𝑓−1○𝑔−1) = g○[f○(𝑓−1○𝑔−1)] = g○[(f○𝑓−1)○𝑔−1)] = g○(𝐼𝐵○𝑔−1) = g○𝑔−1 =

𝐼𝐶. Ahora, por el teorema anterior 1.7.3, g○f es una biyección y (g ○ f )−1 = 𝑓−1○𝑔−1.

□

1.8 Relaciones de equivalencia

Vamos ahora, a ver una clase de relaciones muy importantes, las relaciones de

equivalencia, para lo que emplearemos un ejemplo de una de ellas:

EJEMPLO: Sea A el conjunto de los números enteros, simbolizado por ℤ. Definimos en A

la relación R de ejemplo, de la siguiente manera: aRb, si y solo si a – b es divisible por 4.

aRb también se expresa diciendo que a es congruente con b módulo 4 y se simboliza de

la siguiente manera, a ≡ b mod 4. Esto se puede generalizar y definir la relación de

congruencia módulo un número entero m cualquiera. En el caso trivial de m = 1, ocurre

que todos los números son congruentes entre sí mod 1 (esto es fácil de ver ya que a – b,

sean cuales sean a, b, es divisible por 1, como sucede con cualquier número). Si

tomamos m = -k con k positivo, es decir, m negativo, tenemos la misma relación que m

= k, ya que a – b es divisible por -k cuando lo es por k y viceversa.

Para comprender mejor esta relación de equivalencia demostraremos que aRb o a ≡ b

mod 4, ocurre cuando ambos números a y b tienen el mismo resto al dividirlo por 4.

Demostrémoslo: Si a = s4 + z (o sea, tiene resto z al dividir por 4) y b = 4t + z, entonces a

– b = 4(s + t), ya que el resto desaparece al restar y vemos que aRb. Y a la inversa si a –

b = 4s (es decir, aRb) y b = 4t + z, entonces de a – b = 4s obtenemos, despejando a, a =

4s + 4t + z = 4(s + t) + z y por tanto a también tiene el resto z como b.

Ahora examinemos las propiedades de esta relación R:

23

1) Se dice que es reflexiva, porque según la definición de la propiedad reflexiva de una relación ocurre cuando aRa. Esto ocurre con nuestra relación ya que a tiene el mismo resto que el mismo al dividirlo por 4.

2) Se dice que es simétrica ya que esto se cumple por definición si aRb implica bRa. Y vemos que evidentemente esto ocurre: si a tiene el mismo resto que b al dividirlo por 4 entonces evidentemente, b tiene el mismo resto que a.

3) Se dice que es transitiva ya que, si aRb y bRc implica aRc. Si a tiene resto z al dividirlo por 4 y b también, entonces si b tiene el mismo resto que c, esto quiere decir que z también es el resto de c y por tanto aRc.

Ahora llegamos a donde queríamos llegar para definir una relación de equivalencia:

DEFINICIÓN: Se dice que una relación R es de equivalencia si tiene las propiedades de

reflexividad, simétrica y transitiva. A la clase o conjunto, de todos los elementos

equivalentes con a, notada como S(a) se le llama clase de equivalencia de a.

Veamos las clases de equivalencia de nuestra relación de ejemplo R congruencia mod 4.

Tendremos una clase de equivalencia cuando los números pertenecientes a ella tengan

un mismo resto al dividirlo por 4 y habrá tantas clases como restos diferentes se pueden

obtener al dividir por 4. Estos son 0, 1, 2 y 3. De modo que las clases de equivalencia

serán S(0), S(1), S(2) y S(3). Veamos algún elemento correspondiente a estas clases para

cada una:

S(0) = {…, -8, -4, 0, 4, 8, …},

S(1) = {…, -7, -3, 1, 5, 9, …}

S(2) = {…, -6, -2, 2, 6, 10, …}

S(3) = {…, -5, -1, 3, 7, 11, …}.

Y quizás el lector no se haya percatado de ello, pero cualquier número entero cae dentro

de una de estas 4 clases. Y también ocurre que estas clases de equivalencia o conjuntos

no comparten ningún elemento en común. Se dice que producen o son una partición en

el conjunto A.

DEFINICIÓN: Se llama partición de un conjunto A, a una serie de clases o subconjuntos

de A tales que todo elemento de A pertenece a una de estas clases y éstas no tienen

ningún elemento en común es decir se dice que son disjuntas.

Ahora demostremos que una relación de equivalencia en un conjunto A produce una

partición en A.

TEOREMA: Las clases de equivalencia de una relación de equivalencia en A consisten o

son una partición en A. También, a partir de cualquier partición se puede construir una

relación de equivalencia R, consistente en que aRb si a y b pertenecen a un mismo

conjunto en los que queda partido el conjunto total A.

DEMOSTRACIÓN:

24

a) Todo elemento de A pertenece a una clase de equivalencia. Esto es así porque la relación de equivalencia es reflexiva aRa, de modo que, a pertenece a S(a).

b) Veamos ahora que dos clases de equivalencia S(a), S(b) son disjuntas si son diferentes. Hay 2 casos:

i) b es equivalente a a, de modo que demostramos que S(a) = S(b), pues si cRb, también ocurre que bRc por simetría, pero teníamos que aRb y por transitividad, aRc y por tanto, todo elemento de S(b) es elemento de S(a). De la misma manera, si c pertenece a S(a) ocurre que cRa, pero también teníamos que bRa pero por simetría, aRb y por transitividad cRb, de modo que todo elemento de S(a) también pertenece a S(b).

ii) b no es equivalente a a, entoces demostramos que S(a) ∩ S(b) = Ø, pues si hay un elemento c en común a S(a) y S(b), entonces cRa y cRb, pero por simetría, si cRa, también aRc y con cRb tendríamos que aRb lo cual, estamos suponiendo que no ocurre, por lo que por contradicción, S(a) y S(b) no comparten ningún elemento.

Inversamente, sea S(z) el conjunto que constituye la partición de A, que como vemos,

depende de cada elemento z de A. Como dijimos en el enunciado del teorema, definimos

una relación R en A de la siguiente manera: aRb si a y b pertenecen al mismo conjunto

S(a) = S(b). Entonces es fácil ver que esta relación es de equivalencia, solo tenemos que

ver que esta relación cumple las 3 propiedades características de las relaciones de

equivalencia:

i) R es reflexiva: Como S(z) es una partición todo elemento a de A, está en uno de los conjuntos S(z), digamos evidentemente, S(a), pero si a pertenece a un conjunto S(a), ocurre que aRa.

ii) R es simétrica: Si aRb, entonces a y b pertenecen a S(a) = S(b), de modo que bRa también se cumple evidentemente.

iii) R es transitiva: Si aRb, S(a) = S(b) y si bRc, entonces S(a) = S(b) = S(c), de modo que aRc. □

EJEMPLO: Veamos una clase de equivalencia que conocemos bien: la igualdad en

cualquier conjunto A. aRb es por definición a = b. Es de equivalencia evidentemente,

porque tiene las 3 propiedades requeridas:

1) Reflexiva: a = a

2) Simétrica a = b implica b = a

3) Transitiva a = b y b = c implica a = c

No hace falta pensar mucho para darse cuenta de que las clases de equivalencia de esta

relación son los conjuntos de un único elemento de A, es decir S(a) = {a}, para cualquier

a.

25

1.9 Relaciones de orden, parcial, total, estricta o fuerte y lineal EJEMPLO: Sea A el conjunto de los 12 primeros números naturales A = {1, 2, …, 12}.

Definimos una relación R en A de la siguiente manera: aRb si a divide a b. La relación

tiene las siguientes propiedades:

1) R es reflexiva ya que aRa porque para cualquiere a, a se divide a sí mismo

2) R es antisimétrica, lo que significa que si aRb y bRa, entonces a = b (si a divide a b, entonces también, se cumple que a ≤ b, por lo que también, como b divide a, según suponemos, b ≤ a, por lo que por fuerza a = b)

3) R es transitiva aRb y bRc implica aRc, ya que si a divide b y b divide c, c es un múltiplo de b y por tanto, es dividido por a.

DEFINICIÓN: Una relación R que es reflexiva, antisimétrica y transitiva se llama orden

parcial. También se llama a R orden total si, además, de dos elementos de A, a y b, se

puede decir que aRb o bRa. En este caso, se dice que A está totalmente ordenado por R.

EJEMPLOS: Conocemos un orden parcial muy común en los conjuntos de números, por

ejemplo, sea A el conjunto de los números enteros, entonces, el orden parcial más

conocido del lector es la relación de orden ≤ en A. Veamos que, en efecto, es un orden

parcial: Es reflexiva pues a ≤ a, es antisimétrica pues a ≤ b y b ≤ a implica que a = b y en

efecto, es transitiva, ya que a ≤ b y b ≤ c implica que a ≤ c. Es más, la relación ≤ en A es

un orden total, ya que para todo a, b de A se tiene que a ≤ b o b ≤ a. En cambio, la

relación R del primer ejemplo de esta subsección no es total, ya que hay elementos, por

ejemplo 3 y 7, que no se tiene ni 3R7, ni 7R3.

DEFINICIÓN: Una relación R se llama relación de orden estricto o fuerte si se cumplen las

siguientes 2 propiedades:

1) Si aRb entonces no bRa

2) R es transitiva

A las relaciones de orden parcial se las suele representar con el símbolo ≤, y las

relaciones de orden estricto con <.

Ahora veamos que hay una relación natural entre una relación de orden parcial ≤ y el

siguiente orden estricto que notaremos normalmente como < y que se forma de la

siguiente manera: a < b si a ≤ b y a ≠ b.

Primero veamos que este orden es un orden estricto y luego veremos cuál es la relación

natural entre estos dos órdenes de manera que uno es asociado del otro.

TEOREMA: La relación < definida de la siguiente manera a partir de un orden parcial ≤,

a < b si a ≤ b y a ≠ b es un orden estricto.

DEMOSTRACIÓN: Tenemos que comprobar las dos propiedades de los órdenes estrictos.

1) Si a < b entonces no b < a. Supongamos que a < b, entonces a ≤ b y a ≠ b, si ocurriera b < a, entonces, también b ≤ a y por la propiedad antisimétrica de ≤, tendríamos que

26

a = b, pero hemos supuesto que a < b lo que implica que a ≠ b, contradicción que nos dice que no se cumple b < a.

2) < es transitiva. Supongamos que a < b y b < c, de modo que a ≤ b, a ≠ b, b ≤ c y b ≠ c, por la propiedad transitiva de ≤, a ≤ c, pero si a = c, entonces también tendría que cumplirse que b ≤ a, pero hemos supuesto que a < b por lo que a ≤ b y por la propiedad antisimétrica de ≤, a = b, contradicción con la relación a < b, por lo que se cumple que a ≤ c y a ≠ c, por lo que a < c y < es transitiva como queríamos demostrar. □

Consideremos ahora esta otra proposición que es simétrica con el anterior teorema, si

definimos el orden parcial ≤, a partir de un orden estricto <, de la siguiente manera:

a ≤ b, si y solo si, a < b o a = b, entonces la relación ≤, es un orden parcial. Demostrémoslo.

TEOREMA: La relación ≤ definida de la siguiente manera a partir de un orden estricto <,

a ≤ b si y solo si, a < b o a = b es un orden parcial.

DEMOSTRACIÓN: Se tienen que verificar las 3 propiedades que definen un orden parcial:

a) a ≤ a. Traducido a su definición esto significa que a < a o a = a, lo cual, se verifica.

b) a ≤ b y b ≤ a implica que a = b. Traducido a su definición tenemos a < b o a = b y también, b < a o a = b, pero según esta proposición no puede ser a < b o b < a porque llegamos a las contradicciones de que (a < b y b < a) o (a < b y a = b) o (b < a y también, a = b) contradictorias por las propiedades del orden estricto, la única posibilidad de que se cumpla esa proposición consiste en que a = b.

c) Puesto que el orden estricto < es transitivo, al igual que la relación de igualdad =, tenemos que ≤ es transitivo. Este argumento no es un paso obvio, hay que pensar las posibilidades, pero al final se cumple el argumento. □

Ahora veamos la relación natural entre ≤ y <. Decimos que hay una relación natural

porque dado un orden, también se cumple el otro, es más un orden es natural al otro n

el sentido del siguiente teorema.

TEOREMA: Si tenemos un orden parcial ≤ al construir su estricto asociado, <, si

construimos a partir de éste, su parcial asociado como a ≪ b si a < b o a = b, entonces

tenemos que ≪ es el mismo orden que ≤. Y viceversa, si partimos de un orden estricto

< y construimos su parcial asociado ≤, al construir a partir de este su estricto asociado

como a ≪ b si a ≤ b y a ≠ b, entonces tenemos que hemos construido el estricto inicial,

es decir que < es ≪. Por lo que dado un orden parcial ≤ hay un único orden estricto

asociado y natural a él y dado un orden estricto, hay un único parcial asociado y natural

a él.

DEMOSTRACIÓN:

a) Sea dado un orden parcial ≤ y construyamos su estricto asociado < y a partir de este estricto construyamos su parcial asociado que le llamaremos ≪, veamos que si se da que a ≤ b, también se da que a ≪ b y viceversa, si a ≪ b, también se da que a ≤ b.

27

Sea a ≤ b, ¿es a < b o a = b? Si a < b, se da a ≤ b y a ≠ b, si añadimos a esta condición

‘o a = b’, ocurre que si a ≤ b entonces para los dos casos i) si a ≠ b, por tablas de

verdad se da a ≪ b verdadero y ii) si a = b, también a ≪ b es verdadero.

Ahora sea a ≪ b, ¿es a ≤ b? Veamos, se cumple que (a ≤ b y a ≠ b) o a = b (*), si a =

b entonces también a ≤ b pues se reduciría a a ≤ a, que se cumple por la propiedad

reflexiva de ≤, si a ≠ b, para que se cumpla (*) forzosamente tiene que darse a ≤ b.

b) Sea dado el orden estricto <, construyamos su orden parcial asociado ≤ y a partir de éste, su estricto asociado de la siguiente manera a ≪ b, si a ≤ b y a ≠ b.

Sea a < b, ¿es a ≪ b? Veamos, si a < b entonces, (a < b o a = b) y a ≠ b; si a = b,

también se cumple b < a (sí, porque es a < a) lo que está en contradicción con el

orden estricto <, por lo que a ≠ b y dado esto se cumple a ≪ b ya que se cumple su

tabla de verdad.

Ahora, sea a ≪ b, ¿Se da a < b? Veamos, se da (a < b o a = b) y a ≠ b, lo cual implica

trivialmente que a < b. □

Ahora definimos lo que es un orden lineal:

DEFINICIÓN: Sea un orden R, parcial ≤ o estricto <, con lo que se dan sus respectivos

asociados, se dice que ≤ o < son un orden lineal cuando para cada a, b de R se cumple

una y solo una de las siguientes condiciones: a < b, b < a o a = b.

1.10 Definición preliminar del sumatorio simple

Usaremos un símbolo para representar una expresión que se suma más allá de 2 veces

en el caso de que el operador suma sea asociativo, es decir, que aplicar el operador

suma en más de dos sumandos nos dé un único resultado independientemente de cómo

realicemos la suma, es decir cómo agrupemos 2 a 2 los sumandos con paréntesis (pues

consideramos la suma una operación de dos sumandos). Consiste en el símbolo ∑, que

indica la suma de la expresión que hay a su derecha, y que utiliza índices de sumación.

Pongamos el ejemplo más simple: la suma de todos los números naturales menores a

uno dado, por ejemplo, n:

1 + 2 + … + n ≡ ∑ 𝑗𝑗=𝑛𝑗=1 .

Este símbolo con el índice j nos dice que sustituyamos j por los números naturales y los

sumemos, empezando en el valor j = 1 y terminando, en j = n. A veces se usa la siguiente

variante:

1 + 2 + … + n ≡ ∑ 𝑗𝑛𝑗=1 .

Con más rigor, la expresión más general de sumatoria con un índice (luego veremos que

puede haber más de un índice) la expresamos así:

∑ 𝑓(𝑗)𝑗=𝑛𝑗=𝑚 ,

donde f(j) representa una función del índice j, el cuál este último, toma valores

consecutivos de números naturales. Entonces la anterior expresión significa que

sustituimos j = m en la siguiente función obteniendo f(m); si n > m, entonces sustituimos

de nuevo j por j = m + 1, obteniendo f(m + 1) y se lo sumamos a f(m), dando lugar a f(m)

+ f(m + 1) y siguiendo este proceso llegamos a la fórmula:

∑ 𝑓(𝑗)𝑗=𝑛𝑗=𝑚 = f(m) + f(m + 1) + … + f(n),

28

que significa que sustituimos todos los naturales desde m hasta n en j y sumamos las

correspondientes expresiones f(j). Los números m y n se llaman respectivamente el

límite inferior y el límite superior de la suma. La expresión f(j) puede ser una fórmula

matemática como por ejemplo f(j) = 𝑗2, resultando su sumatorio de la siguiente manera:

∑ 𝑗2𝑗=𝑛𝑗=𝑚 = 𝑚2 + (𝑚 + 1)2 + (𝑚 + 2)2 + … + 𝑛2,

o puede representarse como un valor que depende de j que usualmente se representa

de la siguiente manera f(j) = 𝑎𝑗, dando como resultado el siguiente sumatorio:

∑ 𝑎𝑗𝑗=𝑛𝑗=𝑚 = 𝑎𝑚 + 𝑎𝑚+1 + 𝑎𝑚+2 + … + 𝑎𝑛.

Como un ejemplo más: si quisiéramos definir una suma de cantidades indexadas de la

siguiente manera, 𝑥1, 𝑥2, …, 𝑥𝑛, se utilizaría el sumatorio así: ∑ 𝑥𝑗𝑛𝑗=1 .

EJEMPLO 1: Con un índice podemos dar todavía los siguientes ejemplos de sumatorio:

∑ 𝑎𝑗𝑛𝑗=1 • 𝑏𝑗 = 𝑎1 • 𝑏1 + 𝑎2 • 𝑏2 + … + 𝑎𝑛 • 𝑏𝑛,

para cantidades 𝑎1, 𝑎2, … , 𝑎𝑛, 𝑏1, 𝑏2, …, 𝑏𝑛 indexadas con el mismo índice j.

Incluso, para índices libres i, j se puede definir el siguiente sumatorio (en realidad son

muchos sumatorios por cada valor de i y j):

∑ 𝑎𝑖𝑘𝑛𝑘=1 • 𝑏𝑘𝑗 = 𝑎𝑖1 • 𝑏1𝑗 + 𝑎𝑖2 • 𝑏2𝑗 + … + 𝑎𝑖𝑛 • 𝑏𝑛𝑗,

Donde i y j pueden tener valores arbitrarios independientes, pero fijos para cada uno,

dando lugar a una matriz de sumatorios para cada valor de i y j, por ejemplo, i= 1, …,

m, j = 1, …, p. Por ejemplo, sustituyendo i = 2 y j = p se obtiene el elemento siguiente

de la matriz de sumatorios: ∑ 𝑎2𝑘𝑛𝑘=1 • 𝑏𝑘𝑝 = 𝑎21 • 𝑏1𝑝 + 𝑎22 • 𝑏2𝑝 + … + 𝑎2𝑛 • 𝑏𝑛𝑝 y así

para cada valor de i y j en el rango considerado, de modo que se puede entender que

∑ 𝑎𝑖𝑘𝑛𝑘=1 • 𝑏𝑘𝑗 = 𝑐𝑖𝑗, pues cada sumatorio da un número para cada i, j, que lo llamamos

𝑐𝑖𝑗.

1.11 La demostración por inducción

Necesitaremos utilizar la demostración por inducción, de modo que en esta sección de

preliminares la vamos a introducir, para aquellos lectores que no la conozcan. La

demostración por inducción se basa en una propiedad de los números naturales que se

llama el principio de inducción completa.

DEFINICIÓN: (Principio de inducción completa de los números naturales): Sea A un

subconjunto de números naturales que poseen una propiedad. Se demuestra que A es

todo ℕ (o todo el conjunto de números naturales salvo un subconjunto finito de los

primeros números) y, por tanto, que todo el conjunto ℕ posee esa propiedad (o todo el

conjunto ℕ salvo un subconjunto finito de los primeros números), si se cumplen las

siguientes 2 condiciones:

1) 1 (o un número natural n dado de A) cumple la propiedad (hecho que se llama base de la inducción).

2) Si k siendo cualquier número natural (o k ≥ n) cumple la propiedad entonces esto implica que k + 1 también la cumple (hecho que se llama y se cita a la hora de demostrarlo como el paso de la inducción).

Quizás no se haya entendido bien el concepto, queremos decir que si se cumplen estas

dos condiciones (de las cuales, la segunda es una implicación lógica que hay que

29

demostrar, aunque también la primera, pero la primera suele ser más fácil de

demostrar), entonces habremos demostrado que el conjunto A es en realidad ℕ (o todo

el conjunto ℕ, a partir del número n, es decir todo ℕ menos los n-1 primeros) y por tanto

todos los números naturales cumplen la propiedad (o todos a partir de n).

Este es un método de demostración matemática ampliamente utilizado que es fácil de

aceptar, puesto que si, a partir del 1 o de otro número natural n, se cumple una

propiedad y para todos los números naturales posteriores, el hecho de que el anterior

cumpla la propiedad implica que el siguiente también la va a cumplir, entonces

estaremos seguros de que ningún número natural se escapa de cumplir la propiedad (o

ningún número natural a partir de otro dado n).

Otra forma del principio de inducción matemática es reemplazar la condición 2) anterior

por la siguiente:

2’) Para todo número natural j ≤ k (o para todo j con n ≤ j ≤ k) se cumple la propiedad,

entonces, esto implica que se cumple para k + 1.

Es decir, no se cumple la propiedad solo para k sino también, para todo número menor

que k (o todo número j tal que n ≤ j ≤ k, para algún n)

EJEMPLO: Como ejemplo para entender todo esto, vamos a demostrar la siguiente

fórmula para la suma de los n primeros números naturales utilizando el principio de

inducción completa. La fórmula es la siguiente: 1 + 2 + … + n = ∑ 𝑗𝑗=𝑛𝑗=1 =

𝑛•(𝑛+1)

2 .

Entonces para la demostración de esta igualdad damos 2 pasos:

1) Vemos si la fórmula se cumple para 1. Si así no fuera, quizás se cumpliera a partir de

un número m: 1•(1+1)

2 = 1, por lo tanto, la fórmula se cumple para 1.

2) Demostramos que, suponiendo que se cumple para k, entonces, se cumple para k + 1 (también sería lo mismo, si resultase más conveniente expresarlo de esta manera: demostrar que, si se cumple para k - 1 implica que se cumple para k) lo cuál es la parte más interesante y difícil de la demostración: Si suponemos que se cumple para k tenemos entonces, por hipótesis,

1 + ... + k = 𝑘•(𝑘+1)

2,

pero (1 + ... + k) + k + 1 = 𝑘•(𝑘+1)

2 + k + 1,

pero 𝑘•(𝑘+1)

2 + k + 1 =

𝑘•(𝑘+1)+2•(𝑘+1)

2 = (𝑘+2)•(𝑘+1)

2,

sacando factor común k+1, pero (𝑘+2)•(𝑘+1)

2 =

(𝑘+1+1)•(𝑘+1)

2 =

(𝑘+1)•((𝑘+1)+1)

2

reordenando y por tanto, vemos que la fórmula se cumple para k + 1 y por tanto, para

todo número natural, si confiamos en la demostración por inducción.

1.12 Estructuras algebraicas

Vamos a definir lo que son las operaciones binarias y las estructuras algebraicas basadas

en ellas, pero antes de eso definiremos la generalización de estas nociones, porque en

este libro no nos basta con definir las leyes de composición internas u operaciones

30

binarias, sino que también vamos a ver las leyes de composición generales o también

las externas. Sin más pasamos a las definiciones de estas nociones.

DEFINICIÓN: Consideremos 3 conjuntos de la naturaleza que sean, A, B y C. Llamamos

ley de composición a toda función f, definida de la siguiente manera:

f: A×B → C

(a, b) → c= f(a, b),

Donde a∈A, b∈B y c∈C. Si A, B y C son el mismo conjunto A = B = C = E, decimos que

hemos definido una ley de composición interna, u operación binaria en el conjunto E.

Para el caso de que A y C son el mismo conjunto E, es decir, f es de la siguiente forma:

f: E×B → E

(a, b) → c= f(a, b),

Con a∈E, b∈B y c∈E, entonces decimos que f define una ley de composición externa a la

derecha y a los elementos de B se les llama operadores o multiplicadores a la derecha.

Volviendo al caso general, si tanto B como C son iguales a un mismo conjunto E = B = C,

es decir, f es de la siguiente forma:

f: A×E → E

(a, b) → c= f(a, b),

Con a∈A, b∈E y c∈E, entonces, decimos que f es una ley de composición externa a la

izquierda y a los elementos de A, se les llama operadores o multiplicadores a la izquierda.

Y en general no lo definiremos aquí, pero vemos que se podrían definir operaciones no

solo binarias sino unarias, ternarias, etc., es decir, operaciones no en un par ordenado

(a, b) de A×B, sino en un solo conjunto A (para las operaciones unarias), o en la tripleta

(a, b, c) de A×B×C, (para operaciones ternarias) o etc. Nos queda definir estructura

algebraica en su forma general, como 3 conjuntos (A, B, C), donde se ha definido una o

varias leyes de composición.

Por el momento nos referiremos a operaciones binarias y a estructuras algebraicas

donde solo se han definido operaciones binarias.

DEFINICIÓN: Entonces, recapitulando, Sea A un conjunto, una operación binaria en A, es

una función f: A×A ↦ A. Mejor notaremos a f como el símbolo siguiente ○ y al valor de

la función para dos elementos a, b de A, f(a, b), como a○b y se dice que c = a○b es el

producto de a por b.

Pero no trataremos operaciones binarias arbitrarias, normalmente tendrán una serie de

propiedades, como son las siguientes:

DEFINICIÓN: Una operación binaria se dice que es asociativa si, para todo a, b, c de A se

cumple que (a○b)○c = a○(b○c).

Lo bueno de las operaciones asociativas es que nos darán el mismo número cuando los

productos son de más de 3 elementos, siempre que se mantenga el orden de estos, es

31

decir, no importa como asociemos con paréntesis los elementos, que siempre

obtendremos el mismo elemento como producto. Esto es un teorema que requiere

demostración.

TEOREMA 1: El producto de un número arbitrario finito de factores en una operación

binaria asociativa está bien definido, no importando el orden en que se agrupan con

paréntesis los operandos, porque de cualquiera de las formas de agrupar obtenemos el

mismo elemento, aunque sí importa el orden en el que aparecen en las operaciones los

unos con respecto a otros.

DEMOSTRACIÓN: La realizamos por inducción en el número de factores:

1) Para n = 3: a ○ b ○ c = (a ○ b) ○ c = a ○ (b ○ c) según la propiedad asociativa.

2) Suponiendo que se cumple para todo j, con 3 ≤ j ≤ k, se cumple también para k + 1:

Supongamos que producimos con paréntesis dos formas de operar 𝑎1 ○ … ○ 𝑎𝑘+1,

digamos (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑘+1), (𝑎1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1),

suponiendo i < j, obtenemos por hipótesis de inducción lo siguiente:

(𝑎1 ○ … ○ 𝑎𝑗) = (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑗)

(𝑎𝑖+1 ○ … ○ 𝑎𝑘+1 ) = (𝑎𝑖+1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1), de modo que,

(𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑘+1) = (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1)

= (𝑎1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1), que por la hipótesis de inducción para n = 3 y para

3 ≤ n ≤ k, se trata del producto de 3 elementos a ○ b ○ c, y no importa las asociaciones

que hagamos para operarlos y por tanto son iguales las dos formas de operar los n

elementos y de esta manera hemos demostrado el teorema por inducción. □

DEFINICIÓN: Una operación binaria se dice que es conmutativa si a○b = b○a, para todo

a, b de A.

Si la operación binaria además de asociativa, es conmutativa, entonces, no importa el

orden en el que se operen n elementos, el resultado será siempre el mismo.

Demostrémoslo.

TEOREMA 2: Para una operación binaria asociativa y conmutativa no importa el orden

en el que se operen n elementos, porque el resultado será siempre el mismo para

cualquier forma de agruparlos y ordenarlos.

DEMOSTRACIÓN: Nota: Para las operaciones binarias conmutativas se suele utilizar la

notación de la suma para la operación, de modo que la utilizaremos en esta

demostración.

Sea µ una función que determina una ordenación del conjunto I = {1, …, n} de los

primeros n números naturales, de modo que µ(j) = k, donde j, k son números naturales

con 1 ≤ j, k ≤ n y µ es una biyección, de modo que define una ordenación en I.

Demostraremos que 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎1 + … + 𝑎𝑛, por inducción sobre el número n

de sumandos:

1) Para n = 2 se cumple 𝑎1 + 𝑎2 = 𝑎2 + 𝑎1, por el axioma de conmutatividad de la suma de la operación binaria.

32

2) Supongamos cierto la aseveración para todo k con 2 ≤ k ≤ n - 1 entonces demostraremos que la propiedad es cierta para n:

Sea r el número de I tal que µ(r) = n, para una ordenación arbitraria µ de I. Se cumplen

3 posibilidades:

1) r = 1, de modo que 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎𝑛 + (𝑎µ(2) + … + 𝑎µ(𝑛)) = ( 𝑎µ(2) + … + 𝑎µ(𝑛))

+ 𝑎𝑛, por las propiedades asociativa generalizada y conmutativa (para dos factores) y aplicando la hipótesis de inducción para k = n-1 obtenemos que 𝑎µ(1) + … + 𝑎µ(𝑛)

= 𝑎1 + … + 𝑎𝑛.

2) r = n ahora la demostración es más fácil aún pues 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎µ(1) + … +

𝑎µ(𝑛−1) + 𝑎𝑛 y de nuevo aplicando la hipótesis de inducción y la propiedad asociativa

generalizada 𝑎µ(1) + … + 𝑎µ(𝑛) = (𝑎1 + … + 𝑎𝑛−1 )+ 𝑎𝑛 = 𝑎1 + … + 𝑎𝑛

3) Para r = k con 1 < k < n la demostración es análoga: 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎µ(1) + … +

𝑎µ(𝑘−1) + 𝑎µ(𝑘) + 𝑎𝜇(𝑘+1) + … + 𝑎µ(𝑛) = (𝑎µ(1) + … + 𝑎µ(𝑘−1)) + 𝑎𝑛 + (𝑎𝜇(𝑘+1)+ … +

𝑎µ(𝑛)) = a + (𝑎𝑛 + b) = 𝑎µ(1) + … + 𝑎µ(𝑘−1) + 𝑎𝜇(𝑘+1) + … + 𝑎µ(𝑛) + 𝑎𝑛, por las

propiedades asociativa generalizada y la conmutativa (para dos factores); y ahora, aplicando la hipótesis de inducción y la propiedad asociativa generalizada, llegamos a que 𝑎µ(1) + … + 𝑎µ(𝑛) = (𝑎1 + … + 𝑎𝑛−1) + 𝑎𝑛, como queríamos demostrar. □

Ahora consideraremos como estructura algebraica, un conjunto A con una o dos

operaciones binarias diferentes, que notaremos como + y ○. Normalmente se nota a la

operación conmutativa como +. En el caso de los números, como los números naturales,

enteros, racionales, reales y complejos, las dos operaciones son conmutativas.

DEFINICIÓN: Si la estructura algebraica E, tiene dos operaciones (E, +, ○), una propiedad

muy importante de estas estructuras es la relación entre las dos operaciones. Se dice

que la estructura algebraica E, tiene la propiedad distributiva del producto con respecto

a la suma (más precisamente, propiedad distributiva por la izquierda) si para todo a, b,

c de E, se cumple que a○(b + c) = a○b + a○c.

También se define de forma obvia una propiedad distributiva por la derecha (del

producto con respecto a la suma). Si la estructura algebraica es conmutativa con

respecto al producto, la propiedad distributiva por la izquierda y la derecha coinciden.

También para la propiedad distributiva se cumple una generalización de ella si la

estructura cumple la propiedad asociativa con respecto a la suma (es una generalización

de la propiedad distributiva por la izquierda, para la propiedad distributiva por la

derecha se demuestra igual), lo detallamos en la siguiente proposición:

PROPOSICIÓN 3: Sean u y 𝑎𝑖, con 1 ≤ i ≤ n, de (E, +, •), estructura algebraica de dos

operaciones binarias + y •, donde la operación + es asociativa y • es una operación de

producto distributiva (por la izquierda) con respecto a la suma +, entonces, u•(𝑎1 + 𝑎2 +

… + 𝑎𝑛) = u•𝑎1 + u•𝑎2 + … + u•𝑎𝑛 o expresado de otra manera u•(∑ 𝑎𝑖𝑖=𝑛𝑖=1 ) = ∑ u • 𝑎𝑖

𝑖=𝑛𝑖=1 .

DEMOSTRACIÓN: Lo demostraremos por inducción fuerte en el número de sumandos.

Se cumple para n = 2: u•(𝑎1 + 𝑎2) = u•𝑎1 + u•𝑎2, por la propiedad distributiva.

33

Supongamos que se cumple para 2 ≤ n ≤ k, demostraremos que se cumple para n = k +

1:

u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 ) = u•(𝑎1 + b), con b = ∑ 𝑎𝑖

𝑖=𝑘+1𝑖=2 (podemos hacer esta agrupación por la

propiedad asociativa generalizada demostrada anteriormente), entonces, u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 )

= u•𝑎1 + u•b, por la propiedad distributiva o por el paso de inducción fuerte, pero, u•b

= u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=2 ), donde b consiste en una suma de k sumandos que por hipótesis de

inducción cumple la propiedad distributiva generalizada que estamos considerando,

esto es, u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=2 ) = ∑ u • 𝑎𝑖

𝑖=𝑘+1𝑖=2 , por hipótesis de inducción, de modo que

u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 ) = u•𝑎1+ ∑ u • 𝑎𝑖

𝑖=𝑘+1𝑖=2 = ∑ u • 𝑎𝑖

𝑖=𝑘+1𝑖=1 , que es lo que queríamos

demostrar. □

Ahora definiremos unos elementos muy distinguidos de las operaciones binarias, los

elementos neutros.

DEFINICIÓN: Sea ○ una operación binaria en A, un elemento e es neutro en la operación

binaria, si, para todo a de A se cumple que a○e = e○a = a.

Es un hecho curioso y muy importante notar que, si e es un elemento neutro, es el único

elemento neutro de la operación.

TEOREMA 4: Solo existe un elemento neutro para cada operación binaria.

DEMOSTRACIÓN: Supongamos que e y e’ son elementos neutros de ○, entonces,

e○e’ = e’, por ser e elemento neutro, pero e○e’ = e, por ser e’ elemento neutro; si

observamos las dos igualdades vemos que e’ = e○e’ = e. □

Nos queda un concepto más por definir para las operaciones binarias, en concreto, para

las operaciones binarias con elemento neutro.

DEFINICIÓN: Se dice de un elemento a de una operación binaria con elemento neutro e,

que es invertible si existe un elemento b tal que a○b = b○a = e. Al elemento b que

satisface la definición se dice que es un inverso de a.

Normalmente vamos a tratar con objetos dentro de un conjunto donde se define la

estructura algebraica, que cumplen la propiedad asociativa de modo que nos interesan

las operaciones binarias asociativas. En estas operaciones el inverso de un elemento es

único como lo demostramos a continuación.

TEOREMA 5: Si ○ es una operación binaria asociativa con elemento neutro e, entonces,

para todo a solo existe (en el caso de que exista uno) un elemento inverso notado como

𝑎−1.

DEMOSTRACIÓN: Sean b y c dos elementos inversos de a entonces se cumple lo

siguiente:

a○b = e = b○a, y a○c = e = c○a, entonces, b = b○e = b○(a○c) = (b○a) ○c = e○c = c. □

Si la propiedad no es asociativa este teorema no se tiene por qué cumplir, puede haber

varios inversos para un mismo elemento.

34

Terminamos el concepto de operación binaria con un teorema sobre los elementos

invertibles y en particular sobre los inversos en operaciones binarias asociativas.

TEOREMA 6: Si b es un inverso de a en una operación binaria ○ sobre A con elemento

neutro e, entonces, a es un inverso de b, por tanto, los elementos inversos de una

operación binaria con elemento neutro son a su vez invertibles. En particular, si ○ es

asociativa, el elemento inverso de b es a, 𝑏−1 = a.

DEMOSTRACIÓN: Las dos primeras aseveraciones siguen de la definición de elemento

inverso de a: a○b = b○a = e. En particular, si ○ es asociativa, el elemento inverso de b

como es único, es a, de modo que

(𝑎−1)−1= a. □

1.13 La relación de extensión entre una estructura algebraica y otra

Vamos a tener ocasión en este libro de ver estructuras algebraicas que están contenidas

en otras, como puede ser el ejemplo de que los números racionales están contenidos en

los números reales y éstos en los números complejos. Aunque no trataremos en

profundidad todos los casos que vamos a ver mencionaremos en algunos casos, como

se puede estudiar este fenómeno de restricción de una estructura en otra o de extensión

si miramos en la otra dirección. Sin más, veamos las definiciones que dan los conceptos

adecuados para tratar estos hechos en algunos casos.

DEFINICIÓN 1: Sea D el dominio de una función f y sea B un subconjunto de D. Entonces,

la restricción de f a B y se denota así 𝑓𝐵, en tanto que f es un conjunto de pares

ordenados, se define así: 𝑓𝐵 = {(x, y) de f | x es de B}.

Por tanto, si f es una función de D en F, entonces, 𝑓𝐵 = f∩(B×F) y es evidente que 𝑓𝐵 es

una función también como f, puesto que si f cumple que para todo x solo existe un valor

f(x), también ocurrirá lo mismo con 𝑓𝐵, puesto que ésta última, es un subconjunto de f.

Por tanto, 𝑓𝐵 es una función con dominio B y cuyo rango está contenido en el de f y se

cumple obviamente, que, para todo x de B, 𝑓𝐵(x) = f(x).

DEFINICIÓN 2: Sean f y g funciones con dominio D y B respectivamente, se dice que f es

una extensión de g o que f extiende g si B⊆D y g = 𝑓𝐵.

Ahora vamos con las estructuras algebraicas. Si * es una operación binaria en un

conjunto E y A es un subconjunto de E, ¿ocurrirá que la restricción de * en el A×A es

también una operación binaria? Pues puede ocurrir que sí, pero en otros casos no

ocurrirá puesto que para que se diera este caso, todos los valores de * en A×A tendrían

que estar dentro de A y eso a veces puede no ocurrir para * en E. Por ejemplo, para los

números reales como E, la restricción de la suma a los números irracionales (es decir, en

este caso sea A los irracionales) a veces da un número racional y por tanto no tenemos

una operación binaria de suma en los irracionales. Por tanto, lo que nos interesa son las

restricciones de operaciones binarias * de E a un subconjunto suyo A, que cumplan la

siguiente propiedad: x*y pertenece a A siempre que x, y pertenezcan a A.

35

DEFINICIÓN 3: Sea * una operación binaria en el conjunto E. Un subconjunto A de E es

estable para * o cerrado bajo *, si siempre que x, y sean de A, ocurre que x*y pertenece

a A. Si A es un conjunto estable bajo *, denotaremos la restricción de * a A×A, como ∗𝐴

y se llamará la operación binaria inducida en A por *.

EJEMPLO 1: Los conjuntos de los enteros, racionales y reales son estables bajo la

operación de la suma de los números complejos. Los números enteros, racionales, reales

y complejos distintos de 0 son estables bajo la operación de producto en los números

complejos.

EJEMPLO 2: Si m es un entero positivo, el conjunto de todos sus múltiplos en los enteros

es estable para las operaciones de la suma y producto de los enteros.

DEFINICIÓN 4: Si (E, *) y (A, •) son estructuras algebraicas diremos que (E, *) contiene a

(A, •) en el sentido algebraico o algebraicamente o que (E, *) es una extensión de (A, •)

si A es un subconjunto de E estable bajo * y que • es la operación binaria ∗𝐴 inducida en

A por *. También se tiene que, para dos estructuras algebraicas con dos operaciones

binarias cada una, (E, *, •) y (A, ®, ×) diremos que (E, *, •) contiene algebraicamente a

(A, ®, ×) o que (E, *, •) es una extensión de (A, ®, ×) si A es un subconjunto de E estable

bajo * y bajo • y que ® = ∗𝐴 y × = •𝐴, las operaciones * y • inducidas en A. Y análogamente,

se tendrían que definir las extensiones de estructuras algebraicas con más operaciones

binarias.

1.14 Isomorfismo de estructuras algebraicas

Nos será de utilidad más adelante tener un medio de comparar dos estructuras

algebraicas de manera que podamos decir que en realidad son la misma salvo que

hemos cambiado el nombre de sus elementos. Esto es posible gracias al concepto de

isomorfismo de estructuras algebraicas, que nos garantiza que si dos estructuras

algebraicas son isomorfas se tratarán abstrayendo, de la misma con las mismas

propiedades entre las dos, pero con diferente nombre a sus elementos. Veamos esto de

una forma más rigurosa gracias a las definiciones, los ejemplos y los teoremas

correspondientes.

DEFINICIÓN: Sean (A, ○) y (B, •) dos estructuras algebraicas con sus correspondientes

operaciones binarias, ○, •. Un isomorfismo entre (A, ○) y (B, •) es una biyección f, entre

A y B de forma que se cumple la siguiente propiedad que se llama la propiedad del

homomorfismo: f(a○b) = f(a)•f(b). Si se trata de dos estructuras algebraicas con dos

operaciones binarias cada una, digamos (A, ○, □), (B, •, ×) el isomorfismo es la biyección

f con las propiedades de homomorfismo siguientes: f(a○b) = f(a)•f(b), f(a□b) = f(a)×f(b).

Esto nos garantiza que las estructuras algebraicas son una sola, no son diferentes entre

sí en ningún aspecto, salvo en el nombre o construcción de sus elementos, aunque esto

es un hecho que no demostraremos en profundidad y ha de creer el lector en él. Si

tenemos un isomorfismo de una estructura algebraica en sí misma se dice que tenemos

un automorfismo.

Veamos unos teoremas para dar luz a este concepto.

36

TEOREMA 1: Sean (A, ○), (B, •) y (C, ×) tres estructuras algebraicas con una operación

binaria en ellas y sea f una biyección entre A y B, y g otra entre B y C:

1) La función identidad 𝐼𝐴 es un autormorfismo en (A, ○).

2) La biyección f es un isomorfismo entre (A, ○) y (B, •) sí y solo si, 𝑓−1 es un isomorfismo entre (B, •) y (A, ○).

3) Si f es un isomorfismo entre (A, ○) y (B, •) y g es uno entre (B, •) y (C, ×) entonces, g○f es un isomorfismo entre (A, ○) y (C, ×).

DEMOSTRACIÓN: 1) 𝐼𝐴(a○b) = a○b = 𝐼𝐴(a)○𝐼𝐴(b), esto, con el hecho de que 𝐼𝐴 es una

biyección nos da la prueba que queríamos.

2) Sean c, d elementos de B, entonces, existen a, b elementos de A tales que c = f(a),

d = f(b), entonces,

𝑓−1(c•d) = 𝑓−1(f(a)•f(b)) = 𝑓−1 (f(a○b)) = a○b = 𝑓−1 (c)○𝑓−1 (d).

Ahora, si 𝑓−1 es un isomorfismo de (B, •) en (A, ○), entonces por lo probado, (𝑓−1 )−1

también lo es, de (A, ○) en (B, •), pero del teorema 1.6.4 sabemos que (𝑓−1 )−1 = f.

3) Del teorema 5 de la subsubsección 9 sabemos que g○f es una biyección de A a C,

ahora veamos que (donde el primer símbolo ○, que afecta a las funciones es la

composición de funciones, diferente al producto○, como en a○b) (g○f)(a○b) = g(f(a○b))

= g(f(a)•f(b)) = g(f(a))×g(f(b)) = (g○f)(a)× (g○f)(b), por lo que queda demostrado lo que

pretendíamos. □

Este teorema último es obvio trasladarlo a una estructura algebraica de 2 operaciones

o más. Así sabremos que una estructura algebraica es isomorfa a sí misma, que, si una

estructura algebraica es isomorfa a una segunda, esta última es isomorfa a la primera y

que, si una es isomorfa a una segunda y esta segunda es isomorfa a una tercera,

entonces, la primera es isomorfa a la tercera.

Si dos estructuras algebraicas son isomorfas se tratan en realidad de una misma solo

que cambiando el nombre de los elementos, este hecho no se puede demostrar

simplemente, pero el siguiente teorema tratará de convencer al lector.

TEOREMA 2: Sea f un isomorfismo entre las estructuras algebraicas (A, ○) y (B, •):

1) La operación binaria ○ es asociativa sí y solo si • es asociativa.

2) ○ es conmutativa sí y solo si • es conmutativa.

3) El elemento e de (A, ○) es el elemento neutro de (A, ○), sí y solo sí, f(e) es el elemento neutro de (B, •).

4) El elemento b es un inverso de a en (A, ○), si y solo si, f(b) es un inverso de f(a) en (B, •).

DEMOSTRACIÓN: 1) Sean d, e, h elementos de B, entonces existen a, b, c de A tales que

d = f(a), e = f(b), h = f(c), entonces, (d•e)•h = (f(a)•f(b))•f(c) = (f(a○b))•f(c) = f((a○b)○c)

= f(a○(b○c)) = f(a)•f(b○c) = f(a)•(f(b)•f(c)) = d•(e•h). Inversamente, si • es asociativa en

37

(B, •), 𝑓−1 es un isomorfismo de (B, •) en (A, ○) y por lo demostrado, si • es asociativa,

también ○.

2) Se demuestra igual que la propiedad anterior.

3) Sea e el elemento neutro de (A, ○), entonces, sea a un elemento de A, f(a) = f(a○e) =

f(a)•f(e), de modo que f(e) es el neutro en (B, •).

4) Sabemos que e es el elemento neutro de (A, ○), de modo que si b es el inverso de a

se cumple a○b = b○a = e, ahora, f(a)•f(b) = f(a○b) = f(e) = f(b○a) = f(b)•f(a) y como

sabemos de la parte anterior, f(e) es el elemento neutro de (B, •), de modo que f(a) y

f(b) son inversos uno de otro.

Hasta aquí hemos visto lo que es un isomorfismo de estructuras algebraicas y unos

teoremas que nos muestran su significado (o al menos se trata de eso), ahora veamos

con un ejemplo, como demostrar que dos estructuras algebraicas son isomorfas.

Parecería sencillo, pero para no perdernos, resumamos como hacerlo. Para demostrar

que dos estructuras algebraicas (A, ○) y (B, •), son isomorfas debemos:

1) Mostar la función f que va a definir el isomorfismo.

2) Mostrar que f es inyectiva.

3) Mostrar que f es suprayectiva.

4) Mostrar la propiedad de homomorfismo, es decir que para dos elementos a, b de A se cumple f(a○b) = f(a)•f(b).

EJEMPLO: Demostraremos que la estructura (ℝ, +) y (ℝ+,•), es decir los números reales

bajo la suma es isomorfo a los números reales positivos bajo la multiplicación:

1) Mostremos la función f: f(a) = 10𝑎.

2) Mostremos que f es inyectiva: si f(a) = f(b) entonces, 10𝑎 = 10𝑏, tomando logaritmos, se llega a que a = b.

3) Si c es un elemento de ℝ+, entonces, log(c) = a pertenece a ℝ y 10log (𝑐) = c, de modo que para todo c de ℝ+ hay un elemento a de ℝ tal que, f(a) = c.

4) Para a, b de ℝ se cumple que f(a + b) = 10𝑎+𝑏 = 10𝑎•10𝑏 = f(a)•f(b), por lo que se cumple la propiedad de homomorfismo.

Así que hemos demostrado que f(a) = 10𝑎 es un isomorfismo entre (ℝ, +) y (ℝ+,•). La

correspondiente función 𝑓−1 que es el isomorfismo de (ℝ+,•) a (ℝ, +) es 𝑓−1 (c) = log(c)

= a.

Veremos en lo sucesivo estructuras algebraicas con más de una operación binaria, de

modo que es necesario definir la relación análoga de isomorfismo entre dos estructuras

algebraicas con más de una operación binaria, en concreto nos limitaremos a

estructuras algebraicas con dos o 3 operaciones binarias. Para demostrar que dos

estructuras algebraicas (A, +, ○) y (B, ×, •) son isomorfas se demuestran los 3 pasos

38

anteriores y además se necesitan demostrar las propiedades de homomorfismo que

amplía a la condición 4) anterior:

4’)

i) f(a + b) = f(a) × f(b)

ii) f(a○b) = f(a)•f(b), para todo a, b de A.

Análogamente, para estructuras algebraicas con 3 operaciones binarias u otro tipo de estructuras como veremos en la siguiente subsubsección (por ejemplo, la estructura de álgebra) ya definiremos en su momento como se define el isomorfismo, pero será de una forma parecida.

1.15 Casos importantes de estructuras algebraicas que vamos a ver en el libro

DEFINICIÓN 1 (Grupoide, semigrupo y monoide): Un conjunto A con una operación

binaria ○, en él se llama también grupoide, de modo que si tenemos el par (A, ○), según

las propiedades de ○ se denomina de las siguientes maneras: Consideremos a, b, c de A:

1) Si a○b = b○a, es decir, ○ es conmutativa, el grupoide (A, ○) se dice que es

conmutativo.

2) Si para todo c de A, a○c = b○c implica que a = b, se dice que el grupoide (A, ○) tiene

la propiedad de cancelación.

3) Si (a○b)○c = a○(b○c) es decir, ○ es asociativa, tenemos que (A, ○) es un semigrupo

(que puede ser conmutativo o no, con cancelación o no).

4) Si (A, ○) es un semigrupo y existe e de A tal que a○e = e○a = a, es decir existe un

elemento e, que es elemento neutro entonces, (A, ○) se llama monoide, (que puede

ser conmutativo o no, con cancelación o no).

EJEMPLO 1: Veremos en la siguiente subsección dedicada a los números naturales, que

estos números son una estructura algebraica (ℕ, +, •) con dos operaciones, +, la suma y

•, el producto, en la que (ℕ, +) es un semigrupo con la propiedad de cancelación y (ℕ,

•) es un monoide (con elemento unidad 1) con la propiedad de cancelación también.

Además, también veremos que ℕ tiene un orden total, <, pero esto lo veremos con más

detalle en la siguiente subsección dedicada a los números naturales ℕ.

Vamos a centrarnos en 2 estructuras algebraicas de momento: Los grupos y los anillos.

DEFINICIÓN 2 (Grupo): Llamamos grupo a un conjunto A con una operación binaria ○,

(es decir se trata de una estructura algebraica), tal que se cumplen los siguientes 3

axiomas:

a) La operación ○, es asociativa.

b) Existe el elemento neutro e, para la operación ○ en el grupo.

c) Todo a de A tiene un elemento inverso, que hemos visto que necesariamente será

único en el caso de operaciones binarias asociativas, lo notaremos como 𝑎−1.

Si, además, la operación ○ cumple la propiedad conmutativa se dice que el grupo es

conmutativo o abeliano y ya dijimos que se utiliza el convenio de notar a la operación

39

con la representación de la suma, es decir, la operación se nota como +, reservando la

notación multiplicativa o de producto (○) para el caso general no conmutativo. Tenemos

que aclarar que un grupo es un monoide con inversos para todos sus elementos como

puede reflexionar el lector.

EJEMPLO 2: El conjunto de los números enteros, los racionales, los reales y los complejos

son un grupo con respecto a la operación de la suma. El conjunto de los racionales, reales

y complejos no son un grupo con respecto al producto porque el elemento neutro de la

suma, el 0, no tiene inverso, pero se suele considerar a estos conjuntos excluyendo el 0

y entonces se dice que en el caso de excluir el 0, estos conjuntos (racionales, reales y

complejos) son un grupo con respecto al producto.

DEFINICIÓN 3 (Anillo): Llamamos anillo a un conjunto A en el que se han definido 2

operaciones binarias notadas como + y ○, que lo dotan como una estructura algebraica,

las cuales cumplen los siguientes axiomas:

a) A con respecto a la operación + se trata de un grupo abeliano o conmutativo.

b) Con respecto a la operación de producto se cumplen los siguientes axiomas:

i) El producto ○, es asociativo.

c) Con respecto a la relación entre el producto y la suma:

i) El producto es distributivo por la derecha y por la izquierda con respecto a

la suma, es decir, para todo a, b, c de A se cumple:

a○(b + c) = a○b + a○c,

(a + b)○c = a○c + b○c.

Si el producto tiene elemento neutro 1, se dice que es un anillo con unidad (en este caso,

1 es un elemento único ya que hemos visto que en las operaciones binarias los

elementos neutros son únicos) y si el producto es conmutativo, se dice que el anillo es

conmutativo.

EJEMPLO 3: El conjunto de los números enteros, racionales, reales y complejos son

anillos conmutativos.

Por último, veremos en este libro las estructuras de espacio vectorial y de álgebra cuya

definición damos ahora mismo. La estructura de espacio vectorial la estudiaremos

ampliamente en sucesivas secciones, por lo que no damos aquí su definición.

DEFINICIÓN 4 (Álgebra): Sea (A, +, ∘) un anillo y supongamos que también tenemos una

operación externa F×A → A, (µ, u) → µ•u, por elementos de un cuerpo conmutativo F.

Se dice que A con estas operaciones es un álgebra si se cumple lo siguiente:

1) A es un espacio vectorial sobre F.

2) Para todo µ de F y todo u, v de A se cumple que µ•(u∘v) = (µ•u)∘v.

EJEMPLO 4: Sea X un conjunto cualquiera y A = {f: X → F} el conjunto de aplicaciones de

X en un cuerpo conmutativo F. Definamos las operaciones A×A → A, dada por (f, g) → f

+ g, A×A → A, dada por (f, g) → f∘g, F×A → A, dada por (µ, f) → µ•f, donde, para todo x

de x, (f + g)(x) = f(x) + g(x), (f∘g)(x) = f(x)•g(x) y (µ•f)(x) = µ•f(x), entonces, para estas

definiciones, A es un álgebra sobre F.

40

1.16 Estructura algebraica de Cuerpo o Campo

Sin más, vamos a definir una estructura algebraica básica para la gran parte de nuestro

estudio en el álgebra lineal.

DEFINICIÓN: Sea F un conjunto, se define el cuerpo 𝕂, como un anillo conmutativo con

elemento neutro o unidad para el producto y cuya operación de producto para todo

elemento a de 𝕂, salvo el 0, tiene su correspondiente inverso, 𝑎−1, es decir, el conjunto

F con dos operaciones (internas) + y •, tales que cumplen las siguientes propiedades o

axiomas:

a) Con respecto a la operación +, también llamada suma o adición:

Sean a, b, c elementos de F, se cumple que:

1. a + b = b + c (Propiedad conmutativa de la suma)

2. (a + b) + c = a + (b + c) (Propiedad asociativa de la suma)

3. Existe un elemento notado por 0 de F, tal que a + 0 = 0 + a = a, para todo a de F

(Existencia del elemento neutro para la suma)

4. Para cada a de F existe un elemento -a, tal que a + (-a) = -a + a = 0 (Existencia del

elemento inverso para cada a de F)

De esta manera, F junto a la operación + constituye un grupo conmutativo.

b) Con respecto a la operación •, también llamada producto o multiplicación:


5. a•b = b•a (Propiedad conmutativa del producto)

6. (a•b)•c = a•(b•c) (Propiedad asociativa del producto)

7. Existe un elemento notado por 1 de F, tal que a•1 = 1•a = a, para todo a de F

(Existencia del elemento neutro del producto)

8. Para cada a de F-{0}, existe un elemento notado por 𝑎−1, tal que a•𝑎−1 = 𝑎−1•a = 1

(Existencia del elemento inverso para cada a de F-{0})

Por lo que 𝕂 con respecto a • no es un grupo conmutativo, pero sí lo es 𝕂 -{0} (con

respecto al producto como decimos)

c) La relación entre la suma y el producto:


9. a•(b + c) = a•b + a•c (Propiedad distributiva del producto con respecto a la suma).

Veamos ahora, algunas propiedades importantes que se deducen de los axiomas de

cuerpo.

PROPOSICIÓN 1: Se Cumplen los siguientes resultados consecuencia de los axiomas de

cuerpo:

1) (a + b)•c = a•c + b•c

41

2) El elemento neutro 0 es único

3) El elemento neutro 1 es único

4) El elemento inverso de la suma u opuesto, es único

5) El elemento inverso de la multiplicación es único

6) Si a + b = a + c, entonces b = c

7) a•b = a•c, con a distinto de 0, entonces b = c

8) a + a = a, entonces a = 0

9) -(-a) = a

10) 0•a = a•0 = 0

11) (-a)•b = a•(-b) = -(a•b)

12) (-a)•(-b) = a•b

13) -(a + b) = -a-b

DEMOSTRACIÓN:

1) (a + b)•c = c•(a + b) = c•a + c•b = a•c + c•b.

2) Supongamos que hay otro elemento neutro, llamémoslo 0’, entonces 0 = 0 + 0’ = 0’.

3) De igual forma se demuestra esta propiedad. Sea 1’ el otro elemento neutro de la

multiplicación, entonces, 1 = 1•1’ = 1’.

4) Ya vimos que en operaciones internas asociativas el elemento inverso es único si

existe.

5) Se demuestra de la misma forma que la propiedad anterior.

6) Sea a + b = a + c, entonces sumando -a en ambos lados de la igualdad se tiene:

-a + a + b = -a + a + c, entonces, 0 + b = 0 + c, lo que implica b = c.

7) Se demuestra de la misma forma que la propiedad anterior:

a•b = a•c, entonces multiplicando ambos lados de la igualdad por 𝑎−1, se tiene:

𝑎−1 •a•b = 𝑎−1•a•c = 1•b = 1•c, de modo que b = c.

8) a + 0 = a + a = a, de modo que por 6) 0 = a.

9) -a + a = 0 = -a -(-a) de modo que por 6) o por la unicidad del opuesto a = -(-a).

10) 0•a = (0 + 0) •a = 0•a + 0•a, de modo que por 8) 0 = 0•a.

11) (-a)•b + a•b = (-a + a)•b = 0•b = 0, de modo que (-a)•b = -(a•b). De igual forma se

demuestra que a•(-b) = -(a•b).

12) (-a)•(-b) = -(a•(-b)) = -(-(a•b)) = a•b, por 9)

13) (-a-b) + (a + b) = a – a + b – b = 0, de modo que -a- b = -(a + b). ∆

Nos queda una definición para terminar con esta sección de preliminares.

DEFINICIÓN: Se llama característica del cuerpo 𝕂 al mínimo número natural p > 1, tal

que se cumple lo siguiente con la unidad del cuerpo: 1 + … + 1 = 0, donde en la ecuación

anterior se suman p unidades. Por ser 𝕂 ≠ 0, la característica ha de ser mayor que 1. Si

no existe tal p, es decir, cualquier suma finita de 1 nunca da 0, se dice que la

característica del cuerpo es 0.

42

A nosotros nos interesarán en especial manera la característica de los cuerpos, pero de

hecho se puede definir el concepto de característica de la misma manera para un anillo

con unidad.

2 Construcción axiomática de los números naturales, fundamento del método de

demostración por inducción y las definiciones por recurrencia

2.1 Introducción Los números naturales son conocidos por todos, son los números enteros positivos, por

tanto, sin contar el cero. Damos esta definición informal porque no vamos a definir

rigurosamente los números naturales, de ellos partimos y los consideramos

suficientemente intuitivos.

Los números naturales son útiles para contar, lo cual, es hacer una correspondencia

biunívoca entre un subconjunto finito de los números naturales (desde el 1 al n) y los

elementos de otro conjunto finito, con lo cual podemos saber, ya que los números

naturales están ordenados, la cantidad de elementos que tiene el otro conjunto

(mirando cuál es el último número natural en la correspondencia).

Denotaremos los números naturales con el siguiente símbolo, ℕ, como ya hemos

mencionado rápidamente, una de las propiedades más importantes de los números

naturales es que están ordenados (con un orden total), por lo que, dados dos números

naturales, podremos saber cuál es el mayor y por tanto también el menor entre ellos

dos, suponiendo que son distintos.

En esta subsección demostraremos que todas las propiedades y operaciones que

hacemos con los números naturales (incluyendo las definiciones por recursión) se

deducen de los axiomas de Peano. Éste es nuestro único objetivo, por lo que el lector

que no esté interesado en estos hechos y en este nivel de rigor puede omitir la lectura

de toda esta subsección. Por lo tanto, advertimos a los lectores que no se desanimen si

encuentran difícil esta subsección porque está a un nivel de rigor bastante alto, en

concreto, las subsubsecciones, 2.5 de las definiciones por recurrencia y la 2.10 de la

definición rigurosa del sumatorio, porque intentamos en este libro que sea de lectura

para todos los públicos, incluso para los que se inician en las matemáticas, de modo que

si se salta esta subsección esperamos que encuentren fácil el resto del libro.

2.2 Propiedades de los números naturales Los números naturales son una estructura algebraica con dos operaciones + y • y una

relación de orden total. Las propiedades de ℕ son las siguientes:

a) Con respecto a la suma (ℕ, +):

1) Para todo a, b, c de ℕ se cumple (a + b) + c = a + (b + c) que se llama propiedad asociativa con respecto a la suma.

43

2) Para todo a, b de ℕ se cumple a + b = b + a que es la propiedad conmutativa con respecto a la suma.

3) Para todo a, b y c de ℕ se cumple a + c = b + c si y solo si, a = b, que es la propiedad de cancelación con respecto a la operación binaria de la suma +.

Por lo tanto, (ℕ, +) es un semigrupo conmutativo con la propiedad de cancelación.

b) Con respecto al producto o multiplicación (ℕ, •):

1) Para todo a, b, c de ℕ se cumple (a•b)•c = a•(b•c) que es la propiedad asociativa con respecto al producto.

2) Para todo a, b de ℕ se cumple a•b = b•a, que es la propiedad conmutativa con respecto al producto.

3) Existe el elemento 1 tal que para todo a de ℕ, 1•a = a•1 = a y esta propiedad es la existencia del elemento neutro con respecto a la multiplicación.

4) Para todo a, b y c de ℕ se cumple a•c = b•c si y solo si, a = b, que es la propiedad de cancelación con respecto a la operación binaria del producto o multiplicación •.

Por lo tanto, (ℕ, •) es un monoide conmutativo con la propiedad de cancelación.

c) Con respecto a la relación entre + y • (ℕ, +, •):

1) Para todo a, b, c de ℕ se cumple (a + b)•c = a•c + b•c, lo cual es la propiedad distributiva del producto con respecto a la suma.

d) Con respecto a la relación de orden total se cumple (ℕ, <):

1) < es una relación de orden lineal, es decir, cumple las propiedades de los órdenes estrictos, si a < b entonces, no b < a y es transitiva y además se cumple la ley de tricotomía que dice que solo se cumple una de estas tres posibilidades: a < b, b < a o a = b.

2) Para todo a, b, c de ℕ se cumple a < b si y solo si, a + c < b + c.

3) Para todo a, b, c de ℕ se cumple a < b si y solo si, a•c < b•c.

2.3 Los axiomas de Peano de los números naturales Propondremos los axiomas famosos de Peano para los números naturales y

demostraremos en esta y subsiguientes subsecciones, que, a partir de estos axiomas,

los números naturales cumplen las propiedades citadas en la anterior subsección. En

teoría axiomática de conjuntos los axiomas de Peano de los que partimos, pueden ser

demostrados por otros axiomas más básicos para los conjuntos, pero nosotros no

empezaremos con tan bajo nivel. Sin más, introducimos los axiomas de Peano, cuyo

significado comentaremos en esta subsección.

DEFINICIÓN (Axiomas de Peano de los números naturales):

1. 1 es un número natural.

44

2. Para cada número natural a existe un único natural a’ llamado el sucesor de a. O sea, hay una función sucesor S: a → a’ de los naturales en sí mismos.

3. a’ ≠ 1 para todo número a natural.

4. Para todo natural a, b, “a’ = b’ implica que a = b”, o, en otras palabras, la función sucesor S: a → a’ es inyectiva.

5. Sea A un subconjunto de los naturales: Supongamos que se cumple que i) 1 pertenece a A y ii) para todo a de A, si a es de A implica que a’ es también de A, entonces cumplirse i) y ii) implica que A es todo ℕ.

Estos son los cinco axiomas de Peano, que pensará el lector que, salvo el primero, los

demás no tienen mucho significado, por ello ahora pasamos a comentarlos:

El primero es evidente y no requiere explicación.

2. Para cada número natural a existe un único natural a’ llamado el sucesor de a. O sea, hay una función sucesor S: a → a’ de los naturales en sí mismos.

El número natural a’ es a + 1, de modo que este axioma más los siguientes, nos

ayuda a llegar a nuestro ideal de que la sucesión de números naturales debe ser

infinita, por muy grande que sea un natural a, siempre habrá el siguiente, esta es la

propiedad básica de los números naturales, que es un conjunto infinito cosa que

deja lleno de perplejidad al autor y es uno de los grandes misterios de las

matemáticas.

3. a’ ≠ 1, para todos los naturales a.

Este axioma trata de que, aparte de que 1 sea el primer número natural, que los

números naturales sean una sucesión lineal infinita de números, no circular, como

por ejemplo se daría si 1 = 4’, que más que la noción que deseamos para los números

naturales, sería un bucle de los 4 primeros números, cosa que cumpliría los 2

primeros axiomas, pero que no se adecuaría a nuestros propósitos de definir los

números naturales como una sucesión infinita.

4. Para todo natural a, b, “a’ = b’ implica que a = b”, o, en otras palabras, la función sucesor S: a → a’ es inyectiva.

Este axioma impide que se puedan formar bucles como ocurriría si 2 = 4’ por

ejemplo, pues si así fuera el caso, ocurriría que 1’ = 4’, que implicaría que 1 = 4, cosa

totalmente desafortunada y que se puede demostrar que está en contradicción con

los restantes axiomas, por ejemplo el 3 anterior pues 1 = 4 implica que 1 = 3’. Con

este axioma y los anteriores, tenemos que para todo natural a, hay un sucesor a’

que siempre sigue hacia delante, por lo tanto, este axioma era necesario para

nuestro propósito de definir los números naturales según la noción que poseemos

de ellos.

5. Sea A un subconjunto de los naturales: Supongamos que se cumple que i) 1 pertenece a A y ii) para todo a de A, si a es de A implica que a’ es también de A, entonces cumplirse i) y ii) implica que A es todo ℕ.

Este axioma es el más difícil de explicar, pero resulta muy útil y parece mentira que

sea el último y no necesitemos más axiomas para obtener todos los resultados y

45

propiedades que nos proporcionan los números naturales. Este axioma es el método

de demostración por inducción, pero aparte de eso, este axioma nos libra de otra

posibilidad desafortunada que encierran los anteriores axiomas. Con ellos no

evitaríamos que los números naturales fueran algo de esta naturaleza, por ejemplo,

el conjunto M = {1, 0.5, 2, 1.5, 3, …, etc.}. Pero, si pensamos en el 1 y en toda la

generación infinita de sucesores a partir de él, llamémoslo conjunto A, este axioma

nos asegura que los números naturales no son más que eso, pues ese sería un

conjunto A ⊆ ℕ, pero este axioma nos dice que también se cumple que ℕ ⊆ A, por

lo que no hay más números naturales que esos y nos libramos de las posibilidades

como el conjunto M.

Veamos dos proposiciones básicas de los axiomas de Peano que nos harán estar seguros

de que su definición es buena y que nos serán útiles más adelante.

PROPOSICIÓN 1: Para todo número natural a, a’ ≠ a.

DEMOSTRACIÓN: Sea A = {n de ℕ|n’≠ n}. Por los axiomas 1 y 3, 1 es de A. Sea n de A,

entonces, n’ ≠ n, de modo que (n’)’ ≠ n’, pues por el axioma 4, (n’)’ = n’ implica que n’ =

n. Por lo tanto, suponer que n es de A, implica que n’ es de A, por lo que A = ℕ. □

PROPOSICIÓN 2: Para todo natural a ≠ 1, existe un b único, tal que a = b’.

DEMOSTRACIÓN: Sea A tal que A = {n de ℕ| n = 1 o n = m’ para algún m de ℕ}. Por

definición, 1 pertenece a A. Ahora supongamos que n pertenece a A y n es distinto de 1,

por lo que existe un m tal que n = m’, por lo que n’ = (m’)’ también pertenece a A, por lo

que A = ℕ. Pero más aún, si a = b’ y a = c’, entonces, b’ = c’, por lo que por el axioma 4,

b = c, por lo que se cumple que el b del enunciado del teorema es único. □

2.4 Los números naturales pueden ser definidos en función de la teoría axiomática de conjuntos

No vamos a demostrar en este libro que los axiomas de Peano se pueden probar con los

axiomas de teoría (axiomática) de conjuntos (en concreto juegan especial relevancia en

esta demostración el axioma 2 o del conjunto vacío (véase la subsección 1.4) y el axioma

7 o de infinitud, en los que se postula que el conjunto vacío existe y existe un conjunto

que contiene al vacío y que si contiene un conjunto A, entonces también contiene como

elemento al conjunto cuyo único elemento es A, es decir {A}). Pero de hecho diremos

que es así, los axiomas de Peano se demuestran con la teoría axiomática de conjuntos.

Mencionamos ahora cómo se puede ver esto, pues según el axioma 7, de infinitud, existe

un conjunto que contiene el conjunto vacío ∅, y también {∅} y por tanto {{∅}} y así

sucesivamente. Ahora bien, si definimos el número natural 0 como el elemento ∅, y

definimos el número natural siguiente de un elemento a, de ese conjunto, como

“siguiente de a” (notado como a’), a’ = {a}, vemos que el natural 1 sería {∅}, el 2, como

1’ = {{∅}} y así sucesivamente, y se puede intuir, según el axioma 7, de infinitud, que

existe un conjunto con todos los números naturales y que solo los contenga a ellos,

(designemos este conjunto como A, pero ocurre que esta construcción de los números

naturales comenzaría con el 0 y no el 1, detalle que se puede subsanar fácilmente, pues

46

si queremos demostrar la existencia de los números naturales empezando en el 1 (sin el

0) podemos aplicar el axioma 3, de especificación, al conjunto A de esta manera: = {x de

A| x es distinto de 0}). A pesar de todo esto, no crea el lector que hemos demostrado o

dado la idea de la demostración de la existencia de los números naturales a partir de los

axiomas de la teoría de conjuntos, para ello haría falta tomar en cuenta ciertos detalles

en los que no vamos a entrar en este libro. Además, nos quedaría demostrar que los

números naturales así definidos, cumplen los axiomas de Peano, hecho que ocurre así,

pero que no vamos a demostrar. También deberíamos señalar que no importa como son

definidos los números naturales, lo importante es que cumplan los axiomas de Peano,

pues como sí que vamos a demostrar en toda esta subsección 2, si los elementos de un

conjunto cumplen los axiomas de Peano, entonces con las adecuadas definiciones de las

operaciones binarias de suma y producto y del orden total que los caracteriza, cumplen

todas las propiedades de los números naturales, que es el hecho que nos interesa en

este libro.

2.5 Definiciones recursivas o por recurrencia Los dos objetivos principales de esta subsección 2 de los números naturales y los

axiomas de Peano que los definen son 1, las demostraciones por inducción y 2, las

definiciones recursivas o por recurrencia.

Las definiciones recursivas están presentes en todas las matemáticas, de aquí la

importancia de esta subsubsección y es que ocurre que a veces, necesitamos definir una

función f, f: ℕ → A, de los números naturales a un conjunto arbitrario A, pero no

podemos utilizar una fórmula explícita, porque no la conocemos o por otras razones

como veremos más adelante, entonces lo que sí se puede hacer es definir f(n), n natural,

en función de los anteriores naturales k < n, explicaremos esto mejor en el principio de

definición por recurrencia:

DEFINICIÓN 1 (Principio de Definición por recurrencia): Sea A un conjunto no vacío, para

definir una función por recurrencia en A, f: ℕ → A, es suficiente definir f para m números

naturales con valores en A, 𝑎1, … , 𝑎𝑚, con m < n: f(1) = 𝑎1,, …, f(m) = 𝑎𝑚, y dar una regla

para definir f(n), en función de f(1), f(2), …, f(n-1), los valores explícitos 𝑎1, … , 𝑎𝑚, se

denominan valores iniciales y la relación de f(n) con f(1), f(2), …, f(n-1) se denomina

relación de recurrencia.

Veamos un ejemplo de este principio para entender mejor el concepto y sus detalles.

EJEMPLO 1: La sucesión de Fibonacci es muy famosa y su definición es un ejemplo del

principio de definición por recurrencia: La sucesión de Fibonacci se define para A = ℕ,

sus valores iniciales son f(1) = 1 y f(2) = 1 y la relación de recurrencia es la siguiente para

todo n = ℕ: f(n + 2) = f(n) + f(n + 1), de modo que los primeros números de la sucesión

de Fibonacci son: 1, 1, 2, 3, 5, 8, 13, etc. Es decir, el siguiente número de la sucesión se

calcula sumando los dos anteriores.

Para que quede claro, nosotros no vamos a utilizar el principio de definición por

recurrencia ni demostrarlo, sino que vamos a utilizar una versión más modesta del

47

mismo, lo vamos a llamar de forma análoga, definición por recurrencia y la diferencia

fundamental está en que la relación de recurrencia será solo de n con respecto a n + 1

(o análogamente de n- 1 con respecto a n) y solo habrá un valor inicial, f(1) = b. Para

hacer esto y asegurarnos que la definición de la función existe y da unívocamente un

resultado se formaliza lo anterior de la siguiente manera:

DEFINICIÓN 2 (Definiciones por recurrencia): Sea g una función cualquiera en un

conjunto A, es decir g: A → A, y b, un elemento de A. Se define una función por

recurrencia f, tal que f: ℕ → A con f(1) = b en dos pasos:

1) Se define f(1) = b.

2) Dado f(n), f(n’) = g(f(n)).

Lo que significa este esquema es que para definir f sin tener que definir explícitamente

f(1), f(2), f(3), etc., basta con definir f(1) = b y construir f(n + 1) supuesto que hayamos

calculado ya f(n), que se formaliza con que hay una función g que calcula f(n + 1) a partir

de f(n). Demostramos a continuación, que esto determina una función única que tendrá

la siguiente forma: f(1) = b, f(2) = g(f(1)) = g(b), f(3) = g(f(2)) = g(g(b)), f(4) = g(g(g(b))),

etc.

Antes de ver esta demostración tan interesante e importante, veamos algunos

ejemplos:

EJEMPLOS 2: a) La función f(n) = 2𝑛, en realidad se define recursivamente con f(1) = 2 y

con g(x) = 2•x, es decir, f(n + 1) = 2•f(n), de modo que f(2) = g(f(1)) = g(2) = 2•2 = 22, f(3)

= g(22) = g(g(2)) = 23, como se puede comprobar.

c) La función n•√2, se puede definir como f(1) = √2 y con g(x) = x + √2, pues f(2) =

g(f(1)) = g(√2) = √2 + √2 = 2•√2, f(3) = g(f(2)) = g(2•√2) = 2•√2 + √2 = 3•√2, como

se puede verificar.

Pasamos ahora a la demostración del Teorema de recurrencia o definiciones por

recurrencia:

TEOREMA 1 (Principio de Recursión o Teorema de Iteración o Definiciones por

recurrencia): Toda definición por recurrencia, según hemos visto en la definición

anterior de Definiciones por recurrencia, define de forma unívoca una función f, tal que

f: ℕ → A, con A arbitrario y f(1) = b de A arbitraria y con una función g arbitraria tal que

g: A → A.

DEMOSTRACIÓN: Construiremos la función f(n) como un subconjunto de ℕ×A.

Consideremos la colección C, de subconjuntos B de ℕ×A tales que (1, b) pertenece a B

y que (n’, g(x)) pertenece a B siempre que (n, x) pertenece a B. Por lo menos ℕ×A

pertenece a esta colección, por lo que C no es vacía. Entonces, definimos la intersección

de todos los subconjuntos de C y la llamaremos u. Es evidente que u es un subconjunto

también de ℕ×A que pertenece a C pues por definición, para todo B de C, (1, b)

pertenece a B y (n’, g(x)) pertenece a B siempre que (n, x) pertenezca a B. Por lo tanto,

lo que nos queda por demostrar es, que u es una función, es decir, para todo natural n,

solo existe un elemento x de A tal que (n, x) pertenece a u. Aquí utilizamos el principio

48

de inducción de los números naturales. Sea S el conjunto de naturales tal que (n, x)

pertenece a u para solo un x para cada n diferente, entonces probaremos que 1

pertenece a S y que n’ pertenece a S siempre que n pertenezca a S.

1 pertenece a S, pues si no es este el caso entonces, (1, c) pertenecería a u con c distinto

de b. Consideremos el conjunto u – {(1, c)}, llamémoslo Z. Pero entonces (1, b) pertenece

a Z y ocurre que si (n, x) pertenece a Z también lo hace (n’, g(x)), la razón de esto último

es que n’ no es 1, de modo que Z pertenece a la colección C, lo que contradice que u era

la intersección de todos los B de C.

Sea ahora que n pertenece a S, de modo que, solo existe un único x tal que (n, x)

pertenece a u. Pero si (n, x) pertenece a u, también lo hace (n’, g(x)). Si n’ no pertenece

a S, entonces existe un y tal que (n’, y) pertenece a u con y distinto de g(x). Consideremos

el conjunto X = u – {(n’, y)}. Entonces (1, b) pertenece a este X, ya que 1 es diferente de

n’ y, ocurre que, si (m, t) pertenece a X también pertenece a X, (m’, g(t)). Veámoslo: si

m = n, entonces t = x y (n’, g(x)) ya sabemos que debe pertenecer a X pues y es distinto

de g(x). Si m es distinto de n, entonces (m’, g(t)) pertenece a X porque m’ es distinto de

n’, es decir, X pertenece a C, de modo que obtenemos otra vez una contradicción con la

suposición de que u era la intersección de todo B de C, de modo que, n’ pertenece a S y

por inducción S es ℕ.

Nos quedaría demostrar que la función u está unívocamente definida: Sean 𝑢1 y 𝑢2, dos

funciones que cumplen con la definición de u dada anteriormente. Sea K el siguiente

conjunto K = {n de ℕ| 𝑢1(n) = 𝑢2(n)}. Entonces, 1 pertenece a K, ya que 𝑢1(1) = 𝑢2(1) =

b. Y si n pertenece a K entonces, 𝑢1(n) = 𝑢2(n), por lo que 𝑢1(n’) = g(𝑢1(n)) = g(𝑢2(n)) =

𝑢2(n’), por lo que K es todo ℕ, de modo que 𝑢1 = 𝑢2. □

Necesitaremos una versión generalizada de este teorema para la definición rigurosa,

recursiva, del sumatorio, que se demuestra de la misma manera que el teorema

anterior. Pasamos a continuación a establecer este teorema generalizado.

TEOREMA 2 (Generalización del Principio de Recursión o Teorema de Iteración o

Definiciones por recurrencia): Sea g una función cualquiera, de dos argumentos g(x, y)

de dominio ℕ×A en un conjunto A, es decir g: ℕ×A → A, y b, un elemento de A. Si se

define una función por recurrencia f, tal que f: ℕ → A con f(1) = b en dos pasos:

1) Se define f(1) = b.

2) Dado f(n), f(n’) = g(n, f(n)).

Entonces existe una única función f, dados b de A y g: ℕ×A → A.

DEMOSTRACIÓN: La demostración es igual a la anterior con la excepción de que la

función u tiene los pares ordenados de la siguiente forma: (1, b) pertenece a u y (n’, g(n,

x)) pertenece a u siempre que (n, x) pertenezca a u. □

Ahora queremos hacer una aclaración. Se supone que hemos tratado el tema de las

definiciones por recurrencia porque todos los matemáticos las utilizan en su trabajo, por

lo que para hacer una definición utilizando el principio de recursión o inducción, se

debería utilizar estas definiciones por recurrencia tales como lo hemos establecido

49

nosotros, pero en la realidad muchos matemáticos distan de esta calidad de rigor. Lo

que se suele hacer en la mayoría de las definiciones utilizando el principio de inducción

o recurrencia, es determinar una relación entre el objeto definido de A asociado a n y su

sucesor de A asociado el número n + 1 (o una relación entre el objeto asociado a n- 1

con el asociado a n, que es lo mismo) si especificar rigurosamente la función g exacta,

tal que f(n’) = g(f(n)) o f(n’) = g(n, f(n)) en la versión generalizada que hemos tratado.

Para entender lo que queremos decir veamos un ejemplo.

EJEMPLO 3: Sea la función definida en los números naturales de expresión f(n) = 2𝑛, en

un principio, esta definición parece suficientemente rigurosa, pero para definirla

correctamente, habría que utilizar el principio de definición por recurrencia que hemos

estudiado en esta subsubsección. Pero en lugar de utilizarlo en dos pasos como lo hemos

hecho aquí se suele hacer esta definición menos rigurosa: 21 = 2, 2𝑛+1 = 2•2𝑛, que es

rigurosa y se deduce de la definición correcta, pero con todo rigor debería hacerse de la

siguiente manera, que ya hemos visto en el ejemplo 2: f(1) = 2, g(x) = 2•x, con f(n + 1) =

g(f(n)). Es decir, la definición de g(x) se hace de forma implícita o encubierta.

2.6 La operación binaria de la suma en los números naturales Vamos a definir la operación de suma de forma recursiva, es decir, la vamos a definir

por inducción en el segundo sumando, primero definimos a un número natural

cualquiera a, su suma con 1, es decir, a + 1 y después definiremos la suma de a + c’, en

función de c.

DEFINICIÓN (operación de suma en los números naturales): Para todo número, a,

natural, definimos la siguiente operación binaria +:

1. a + 1 = a’

2. a + c’ = (a + c)’.

Esta definición tiene su justificación, aparte de que, con ella, se cumplen todas las

propiedades de la suma de números naturales que nos enseñaron en el colegio.

Necesitamos definirla así porque es el único medio que tenemos de definirla para todos

los números naturales y como probaremos, el “axioma de inducción” de los números

naturales (es decir el ultimo axioma de Peano o axioma numero 5) nos asegura

precisamente esto, que quedará definida para todos los números naturales. El

argumento para esto es el típico de las demostraciones por inducción: con la primera

propiedad definimos la suma de cualquier natural más el 1, de modo que el número 1

pertenece al conjunto A para los que está definida la suma con a (fijemos un número

natural a), ahora si suponemos definida la suma de a + c para cualquier natural c,

definimos la suma para el siguiente número que es c’, de modo que el conjunto A para

el que está definida la suma es por el axioma de inducción todo ℕ. Y el argumento sigue,

puesto que tenemos la suma definida para 1, es decir a + 1 = a’, a + 2 sería: a + (1)’ = (a

+ 1)’ = (a’)’, de modo que tenemos una forma de calcular a + 2 a partir de a y la operación

siguiente (‘), y siguiendo este proceso, llegaríamos a cualquier a + c que nos permitiría

definir a su vez a + c’, por lo que tendríamos definida la suma para todos los números

50

naturales una vez fijado a, el cual es arbitrario, por lo que definimos la suma a + c para

todo número a, c natural.

El siguiente teorema nos asegura que esta definición es correcta y nos proporciona una

única operación suma que, en posteriores proposiciones en esta subsección, veremos

que cumple con las propiedades de la suma de números que aprendimos en el colegio

o mejor que ya mostramos en la subsección 2.2.

Siendo rigurosos, deberíamos utilizar el principio de la definición por recurrencia, que

se puede aplicar así:

Se particulariza el esquema de recurrencia para la suma, haciendo A = ℕ, b = a’ con a

arbitrario y g = ‘, (es decir la función siguiente ‘, de los axiomas de Peano), de modo que

f se define para un a, arbitrario, y de tal forma que se puede notar f de la siguiente

manera, 𝑓𝑎, y se tiene 𝑓𝑎 (1) = (a + 1) = a’ y 𝑓𝑎(c’) = a + c’ = g(𝑓𝑎 (c)) = g(a + c) = (a + c)’.

Con estas definiciones se puede demostrar el siguiente teorema de la buena definición

de la suma, pero ya habrá comprobado el lector, que esta demostración aplicando así el

principio de definición por recurrencia, es un poco complicada, y por tanto el lector no

se debe preocupar por no comprenderla, pues vamos a realizar otra demostración que

no aplica este principio (de definición por recurrencia) directamente.

TEOREMA: Existe una única operación binaria, +, en ℕ, tal que satisfaga lo siguiente:

Para todo a, c naturales se cumple que

1. a + 1 = a’

2. a + c’ = (a + c)’.

DEMOSTRACIÓN: i) Primero demostraremos que existe una operación binaria +, que

satisface los puntos 1 y 2 anteriores de su definición. Más tarde demostraremos que esa

operación + queda definida únicamente.

Sea A el siguiente subconjunto de ℕ, A = {a de ℕ|a + c se puede definir para todo c

satisfaciendo las condiciones 1 y 2 de su definición}.

a) Demostremos que 1 pertenece a A: Para ello definimos 1 + c = c’, para todo c de ℕ,

de modo que 1 + 1 = 1’ y 1 + c’ = (c’)’ = (1 + c)’, de modo que se satisfacen las condiciones

1 y 2, por lo que 1 es de A.

b) Ahora supongamos que a pertenece a A, para cualquier a de ℕ, de modo que a + c

está definido para todo c de ℕ. Ahora definimos a’ + c = (a + c)’. Entonces, a’ + 1 = (a +

1)’ = (a’)’, por a pertenecer a A, de modo que se cumple la condición 1. También a’ + c’

= (a + c’)’ por definición, pero (a + c’)’ = ((a + c)’)’ pues a pertenece a A y ((a + c)’)’ = (a’ +

c)’, por definición, pero esto significa que a’ cumple la condición 2, por lo que a’

pertenece a A. De modo que por el axioma 5 de Peano, A = ℕ.

ii) Ahora demostraremos la unicidad de la operación + definida por las condiciones 1 y

2. Supongamos que existe otra operación × que cumple 1 y 2 y fijemos a de ℕ, de modo

que sea el conjunto A = {n de ℕ|a + n = a × n}. Entonces: ¨

a)1 pertenece a A, pues a + 1 = a’ = a × 1, por cumplirse 1.

51

b) Sea n de A, entonces, a + n’ = (a + n)’ por cumplirse 2, pero (a + n)’ = (a × n)’ por n

pertenecer a A y (a × n)’ = a × n’ por cumplirse 2, de modo que n’ también pertenece a

A y hemos demostrado que + y × son iguales por ser A = ℕ. □

A partir de ahora, llamaremos n + 1 al sucesor de n, n’, pues así es como se define n + 1

en la definición recursiva de la suma y así resultará más claro a partir de ahora.

2.7 Propiedades de la suma en los números naturales Debido a que la subsubsección anterior nos quedaría muy larga con las propiedades de

la suma además de su definición, consideramos en esta subsección las propiedades de

la suma.

TEOREMA 1: La operación de suma, +, en ℕ, cumple las siguientes leyes:

1. Para todo a, b, c de ℕ se cumple:

(a + b) + c = a + (b + c) que es la ley asociativa de la suma.

2. Para todo a, b de ℕ se cumple:

a + b = b + a que es la ley conmutativa de la suma.

DEMOSTRACIÓN: 1) Sean a, b números naturales fijos pero arbitrarios, definamos el

conjunto A = {c de ℕ|(a + b) + c = a + (b + c)}, entonces, por definición de +, (a + b) + 1 =

(a + b)’ = a + b’ = a + (b + 1), por lo que 1 pertenece a A. Ahora supongamos que c

pertenece a A, entonces, (a + b) + c’ = ((a + b) + c)’ = (a + (b + c))’, ya que c está en A por

hipótesis de inducción, ahora por la definición de suma (a + (b + c))’ = a +(b + c)’, que por

lo mismo, ocurre que a +(b + c)’ = a + (b + c’), por lo que c’ pertenece a A y se tiene que

A = N por inducción.

2) a) Primero demostremos que 1 + a = a + 1, para todo natural a. Sea A = {n de ℕ| n + 1

= 1 + n}, entonces 1 pertenece a A, pues 1 + 1 = 1 + 1 implica que n + 1 = 1 + n, con n =

1. Ahora si n pertenece a A, tenemos que n + 1 = 1 + n, pero (1 + n) + 1 = 1 + (n + 1) por

la ley asociativa, pero la primera igualdad es (n + 1) + 1, pues n pertenece a A, por

hipótesis de inducción, por lo que por la primera propiedad de la suma, n’ + 1 = 1 + n’,

lo que implica que n’ pertenece a A y hemos demostrado que A = ℕ.

b) Ahora supongamos que a + k = k + a para todo a de ℕ. Sea el elemento a + (k + 1) = (a

+ k) + 1, por hipótesis a + (k + 1) = (a + k) + 1 = (k + a) + 1, aplicando asociatividad (k + a)

+ 1 = k + (a + 1) = k + (1 + a) por la parte demostrada en a) y ahora por asociatividad k +

(1 + a) = (k + 1) + a, por lo que a + (k + 1) = (k + 1) + a, por lo que si consideramos el

conjunto A = {k de ℕ| a + k = k + a, para a fijo de ℕ, pero arbitrario} hemos demostrado

que 1 pertenece a A y, suponiendo que k pertenece a A, se demuestra que k’ pertenece

a A, de modo que A = ℕ. □

La próxima proposición será útil para definir la relación de orden de los números

naturales, pero también nos servirá en la última proposición de esta subsección que

tratará de la propiedad de cancelación de la operación de suma.

52

PROPOSICIÓN 1: Sean a, b números naturales, entonces, exactamente solo una de las

siguientes afirmaciones es cierta:

1. a = b

2. a = b + u, para algún natural u

3. a + v = b, para algún natural v.

DEMOSTRACIÓN: a) Primero demostraremos que las afirmaciones 1), 2) y 3) son

incompatibles entre sí. i) 1) y 2) no se pueden dar simultáneamente. Si a = b y a = b + u,

entonces, a = a + u, pero demostramos ahora que por inducción esto no es posible para

ningún número natural a. Sea A el conjunto A = {n de ℕ|n ≠ n + u, para algún u natural},

entonces, 1 + u = u + 1 = u’, pero por el axioma 3) de Peano, 1 ≠ u’, para todo u, por lo

que 1 pertenece a A. Ahora supongamos que n pertenece a A, entonces, n ≠ n + u y

supongamos que n’ = n’ + u = u + n’ = (u + n)’ = (n + u)’, por la definición de suma y la

propiedad conmutativa, por lo que por el axioma 4) de Peano, n = n + u lo cual es una

contradicción y tiene que ser n’ ≠ n’ + u, por lo que n de A implica n’ de A lo cual implica

por inducción que A = ℕ y por tanto, 1) y 2) son incompatibles. ii) 1) y 3) Son

incompatibles, es exactamente la misma demostración anterior cambiando b por a. iii)

2) y 3) son incompatibles. Si se cumple 2) y 3) entonces a = b + u = (a + u) + v = a + (u +

v), de modo que a = a + w con w = u + v, lo cual ya hemos demostrado antes que es

imposible para ningún número natural w.

b) Ahora demostraremos que se tiene que cumplir una de las 3 afirmaciones anteriores.

Sea A = {b de ℕ|alguna de las 3 afirmaciones anteriores tiene que cumplirse}. Sea a un

natural fijo pero arbitrario. Entonces 1 pertenece a A pues a = 1 o si a ≠ 1, por la

proposición 2.3.2 a = u’ para algún natural u, de modo que a = 1 + u según la definición

de la suma, por lo que a = 1 o a = 1 + u, lo que implica que 1 es de A. Ahora

demostraremos que si b es de A entonces implica que b’ pertenece a A. Si b = a,

entonces, b’ = a’ = a + 1, por lo que 3) se cumple para b’, por lo que b’ es de A en este

caso. Si b = a + u, para algún natural u, entonces b’ = (a + u)’ = a + u’, por lo que b’ es de

A en este caso. Por último, si a = b + u, para algún natural u, consideremos 2 subcasos:

i) u = 1, entonces, a = b + 1 = b’, por lo que b’ pertenece a A en este subcaso y ii) u ≠ 1,

entonces ya hemos visto que u = v’, para algún v, de modo que a = b + u = b + v’ = b + (1

+ v) = (b + 1) + v = b’ + v, de modo que b’ es de A, por lo que considerando todos los

casos y subcasos, A = ℕ. □

PROPOSICIÓN 2 (Leyes de cancelación para la suma):

1. a + u ≠ a, para cualquier u natural.

2. “a + x = a + y” implica que “x = y”, para todo a, x, y natural.

DEMOSTRACIÓN: 1) Ya lo demostramos en la proposición anterior.

2) Caso a) x = y + v para algún natural v, entonces, de a + x = a + y implica que a + y + v = a + y, contradiciendo el resultado 1) de esta proposición.

53

Caso b) y = x + w, para algún w natural, entonces, de nuevo, a + x = a + y implica que

a + x = a + x + w, lo cual según 1) de esta proposición no es posible, por lo que solo

queda la posibilidad de que x = y. □

Además de que “a + x = a + y” implica que “x = y”, para todo a, x, y natural, también se

cumple que x = y implica que a + x = a + y, pues esto es evidente porque si x es el mismo

número que y al sumarle un mismo número sea a, nos dará el mismo número a + x = a +

y.

2.8 La relación de orden lineal (total) en los números naturales y los principios de inducción

DEFINICIÓNES: Sean a, b naturales se dice que a es mayor que b y se denota, a > b si

ocurre que a = b + u, para algún u natural. Se dice que a es menor que b y se denota

como a < b, si b = a + v, para algún v natural. Notemos que a < b si y solo si, b > a. Ahora

la proposición 2.7.1 se puede reescribir con esta notación de la siguiente manera y lo

llamaremos teorema 2.8.1 el cual determina una relación de orden lineal total en el

conjunto de los números naturales.

TEOREMA 1 (ley de tricotomía en el conjunto de los números naturales): Dados a, b

naturales, se cumple una y solo una, de las siguientes posibilidades:

1. a = b.

2. a > b.

3. a < b.

Veamos las siguientes proposiciones (observaciones) que nos serán útiles más adelante

y que concede el valor singular del 1 que sabíamos que tenía en nuestro conocimiento

de los números naturales antes de los axiomas de Peano.

PROPOSICIÓN 1: Si a ≠ 1, entonces, 1 < a.

DEMOSTRACIÓN: Si a ≠ 1, sabemos por la proposición 2.3.2 que a = b’, para algún b

natural, de modo que a = b + 1, para algún b natural, según la definición de suma, pero

eso significa que a > 1 o que 1 < a, por la definición de < o >. □

Ya sabemos de nuestro conocimiento de las relaciones de orden que dada una relación

de orden estricta <, su relación de orden parcial asociada ≤ significa lo siguiente: a ≤ b,

si y solo si, a = b o a < b, por lo que usaremos el orden < o ≤ según nos convenga.

PROPOSICIÓN 2: Sean a, b naturales, entonces, a < b si y solo si a + 1 ≤ b.

DEMOSTRACIÓN: a < b implica según la definición que b = a + u, para algún u natural. Si

u = 1, entonces b = a + 1 y se cumple a + 1 ≤ b. Si u ≠ 1, sabemos por la proposición 2.3.2

que u = v’, para algún v, de modo que b = a + u = a + v’ = a + 1 + v, de modo que b > a +

1 y se cumple entonces también en este caso, que a + 1 ≤ b. Ahora a la inversa, si a + 1

≤ b, entonces, si a + 1 = b, se cumple que b > a y si a + 1 < b, entonces existe un natural

54

u tal que (a + 1) + u = b, de modo que a + (1 + u) = b, de modo que a + v = b para v = (1 +

u), de modo que a < b y hemos completado la demostración. □

Ahora veremos una propiedad muy importante de los números naturales relacionada

con el orden que es equivalente al principio de inducción, se llama propiedad de buena

ordenación de los números naturales. Nos permitirá demostrar el principio de inducción

fuerte o segundo principio de inducción que necesitamos muchas veces en las

demostraciones por inducción. Además de esto también nos permitirá demostrar los

principios de inducción especiales que necesitamos en las demostraciones por inducción

cuando el primer caso que se cumple es distinto del número 1, porque no se cumple o

no tiene sentido, en el problema en consideración, asociar al 1 la propiedad que

queremos demostrar.

TEOREMA 1 (propiedad de buena ordenación de los números naturales): Todo

subconjunto A, no vacío, de números naturales tiene un elemento que es el menor de

entre ellos o menor que los demás.

DEMOSTRACIÓN: Sea T = {n de ℕ|n ≤ a, para todo a de A}, entonces, 1 pertenece a T por

la proposición 1 anterior. Ahora para todo a se cumple que a’ > a, por lo que a’ no

pertenece a T, lo que implica que T no es todo ℕ, lo cual contradice el axioma 5 de Peano,

por lo que existe un t de T, tal que t’ no es de T. Ahora aseguramos que este número t

es el mínimo elemento de A. Primero veamos que por definición de T, t ≤ a, para todo a

de A y si t no pertenece a A, entonces, t < a para todo a de A, pero entonces por la

proposición 2 de esta subsección t + 1 ≤ a para todo a de A y esto implica que t’ pertenece

a T lo cual es una contradicción. Por lo que t es de A y t ≤ a para todo a de A, como

queríamos demostrar. □

Ahora veamos la demostración de los 3 principios de inducción fundamentales los cuales

vamos a utilizar en nuestras demostraciones por inducción, y con esto terminamos esta

subsección.

TEOREMA 2 (principio de inducción fuerte o segundo principio de inducción de los

números naturales): Sea A un subconjunto de ℕ tal que:

1. 1 pertenece a A.

2. n pertenece a A siempre que todo m < n pertenezca a A.

Entonces, A = ℕ.

DEMOSTRACIÓN: Sea T = {n de ℕ|n no es de A}. Si T = ∅, habríamos terminado, de modo

que supondremos que T posee algún elemento. Por tanto, por el principio de buena

ordenación de los números naturales T posee un elemento menor que los demás,

llamémoslo t. Por la hipótesis de inducción fuerte 1), t ≠ 1 (pues 1 pertenece a A),

entonces por la proposición 1 de esta subsección 1 < t y es evidente que todos los

números naturales menores que t pertenecen a A de modo que por la hipótesis de

inducción fuerte 2), t pertenece a A, lo cual es una contradicción y entonces T = ∅,o dicho

de otra manera, A = ℕ. □

55

TEOREMA 3 (principio de inducción especial con primer caso distinto de 1): Sea A un

subconjunto de ℕ tal que:

1. m pertenece a A.

2. n’ pertenece a A, si n pertenece a A, para todo n con m ≤ n.

Entonces, A = ℕ - {1, …, m - 1}.

DEMOSTRACIÓN: Supongamos que existe algún p natural con p > m, tal que p no es de

A, sea T = {n de ℕ|n > m y n no es de A}, entonces, T no es vacío ya que p es de T, por lo

que por el principio de buena ordenación, hay un elemento t de T que es menor que los

demás, de modo que t – 1 ≤ m o t – 1 es de A. En el primer caso, t ≤ m + 1 y puesto que

t > m tiene que ser t = m + 1, pero por hipótesis de inducción 2) t es de A, lo cual es una

contradicción. Ahora el caso t – 1 es de A implica que t = (t – 1) + 1 es de A lo cual es otra

contradicción, por lo que no existe ningún p > m que no sea de A. □

TEOREMA 4 (principio de inducción fuerte especial en el caso de que el primer elemento

es distinto de 1): Sea A un subconjunto de ℕ tal que:

1. m pertenece a A.

2. n pertenece a A siempre que todo p < n pertenezca a A, con m ≤ p.

Entonces, A = ℕ- {1, …, m - 1}.

DEMOSTRACIÓN: Es casi igual a la anterior. Supongamos que existe algún q natural con

q > m, tal que q no es de A, sea T = {n de ℕ|n > m y n no es de A}, entonces, T no es vacío

ya que q es de T, por lo que, por el principio de buena ordenación, hay un elemento t de

T que es menor que los demás, de modo que todo p con, m ≤ p < t pertenecen a A, pero

por hipótesis de inducción fuerte 2), t pertenece a A, lo cual es una contradicción, por lo

que no existe ningún q ≥ m que no sea de A. □

2.9 La operación del producto o multiplicación de los números naturales En esta sección definimos una operación más en los números naturales, el producto o

multiplicación, de nuevo lo hacemos de forma recursiva, aunque no utilizaremos como

así hicimos en la ocasión de la suma, el teorema de definición recursiva por resultar

complicado, pero ahora mismo indicamos como podría definirse el producto con ese

teorema.

Sin más definimos la operación de producto en los números naturales.

DEFINICIÓN (operación de producto o multiplicación, •, en los números naturales): Para

todo a natural definimos su producto con otro número natural en los siguientes pasos:

1. a•1 = a.

2. a•c’ = a•c + a.

Para definir esta operación rigurosamente aplicando el principio de la definición recursiva deberíamos hacerlo de la siguiente manera:

56

En este caso tomamos A = ℕ, por supuesto, b = a y g(c) = c + a, con a arbitrario, de modo

que 𝑓𝑎(1) = a•1 = a y 𝑓𝑎(c’) = a•c’ = g(𝑓𝑎(c)) = g(a•c) = 𝑓𝑎(c) + a = a•c + a.

Si el lector siente que utilizar la definición por recurrencia de la forma anterior es difícil

de seguir no se preocupe que realizaremos otra demostración de la existencia del

producto de números naturales que, aunque no sea tan rigurosa, se entiende fácilmente

y es por supuesto una de mostración válida.

A partir de ahora demostraremos que la operación de producto así definida, existe, es

única y cumple con las propiedades que conocemos para ella según la noción que

tenemos de número natural, de modo que habremos construido los números naturales

gracias a los axiomas de Peano y habremos demostrado que cumple con todas las

propiedades que necesitamos para ellos como el fundamento de los otros números que

posteriormente definiremos y vamos a necesitar.

TEOREMA 1: Existe una única operación binaria, producto, •, en los naturales, tal que

cumple las dos propiedades de su definición.

DEMOSTRACIÓN: a) Existencia. Sea A el siguiente conjunto, A = {a de ℕ|a•b satisface las

propiedades 1 y 2 de su definición}. Entonces 1 pertenece a A si definimos 1•c = c, puesto

que 1•1 = 1 y 1•c’ = c’ = c + 1 = 1•c + 1 y entonces se cumplen las propiedades 1 y 2 de

su definición. Ahora supongamos que c está en A de modo que c•d está definido y

cumple las propiedades 1 y 2 de la definición de producto, ahora entonces definimos

c’•d = c•d + d y veamos si c’ está en A. c’•1 = c•1 + 1 = c + 1 = c’, de modo que se cumple

la propiedad 1 del producto. Ahora c’•d’ = c•d’ + d’ = (c•d + c) + d’ = (c•d + c) + (d + 1) =

((c•d + c) + d) + 1 = ((c•d + d) + c) + 1 = (c’•d + c) + 1 = c’•d + c’, por lo que se cumple la

propiedad 2 y vemos que c’ también está en A, de modo que A es todos los números

naturales y la propiedad • tal como la hemos definido existe.

b) Ahora demostremos que hay una única operación • en los números naturales tal

como la hemos definido. Supongamos que hay otra operación ○ tal que cumple 1 y 2 de

la definición, entonces sea A = {n de ℕ|a•n = a○n}. Veamos que 1 pertenece a A: a•1 =

a = a○1. Ahora veamos si n’ pertenece a A cuando n pertenece a A. a•n’ = a•n + a = a○n

+ a = a○n’, por lo que n’ pertenece a A y A es todo ℕ. □

TEOREMA 2 (El producto cumple las propiedades, distributiva del producto con respecto

a la suma por la izquierda y por la derecha, conmutativa y asociativa):

La operación •, definida con las propiedades 1 y 2 cumple las siguientes propiedades:

a) a•(b + c) = a•b + a•c, propiedad distributiva, del producto con respecto a la suma, por la izquierda.

b) (a + b)•c = a•c + b•c, propiedad distributiva, del producto con respecto a la suma, por la derecha.

c) a•b = b•a, propiedad conmutativa del producto.

d) (a•b)•c = a•(b•c), propiedad asociativa del producto.

57

DEMOSTRACIÓN: a) Sea A = {n de ℕ| a•(b + n) = a•b + a•n}. Veamos por inducción que

A es todo ℕ. 1 pertenece a A: a•(b + 1) = a•b’ = a•b + a = a•b + a•1. Ahora supongamos

que n es de A, entonces, a•(b + n) = a•b + a•n. Ahora veamos a•(b + n’) = a•(b + (n + 1))

= a•((b + n) + 1) = a•(b + n)’ = a•(b + n) + a = a•b + a•n + a = a•b + a•n’. De modo que n’

pertenece a A y por tanto, la propiedad distributiva por la izquierda se cumple para todo

número natural a, b y c.

b) Sea A = {n de ℕ| (a + b)•n = a•n + b•n}. Entonces, 1 pertenece a A pues (a + b)•1 = a

+ b = a•1 + b•1. Ahora supongamos que n pertenece a A, ahora, (a + b)•n’ = (a + b)•n +

(a + b) = (a•n + b•n) + (a + b) = (a•n + a) + (b•n + b) = a•n’ + b•n’, de modo que bajo esta

suposición se cumple que también, n’ pertenece a A, de modo que A = ℕ.

c) Sea A = {n de ℕ| a•n = n•a}, entonces, 1 pertenece a A, pues sea B = {n de ℕ| 1•n =

n•1}. Entonces, 1 es de B, pues 1•1 = 1•1 = 1. Ahora supongamos que n es de B,

entonces, 1•n’ = 1•n + 1 = n•1 + 1 = n + 1 = n’ = n’•1, de modo que n’ es de B y B es todo

ℕ. Ahora sea n de A, de modo que a•n = n•a, ahora, a•n’ = a•n + a = n•a + 1•a = (n +

1)•a = n’•a, de modo que n’ pertenece a A, que es todos los naturales.

d) Sean a, b números naturales fijos pero arbitrarios. Sea A el conjunto A = {c de

ℕ|(a•b)•c = a•(b•c)}. Veamos que 1 pertenece a A. (a•b)•1 = a•b = a•(b•1). Ahora

supongamos que c pertenece a A, veamos si c’ pertenece a A. a•(b•c’) = a•((b•c) + b) =

a•(b•c) + a•b = (a•b)•c + a•b = (a•b)•c’, de modo que c’ pertenece a A el cual es todo

ℕ. □

Ahora estamos preparados para demostrar las propiedades de orden que nos faltan por

demostrar, como consecuencia de estas, demostraremos la propiedad de cancelación

para el producto.

PROPOSICIÓN 1: Sean a, b naturales tales que a > b, entonces, para cada natural n, se

cumple lo siguiente:

1. a + n > b + n

2. a•n > b•n.

DEMOSTRACIÓN: 1) a > b significa que a = b + u para algún natural u. De modo que a +

n = b + u + n = b + n + u, de modo que a + n > b + n.

2) De igual modo a•n = (b + u)•n = b•n + (u•n), de modo que a•n > b•n. □

TEOREMA 3 (propiedad de cancelación para el producto):

a•c = b•c implica que a = b.

DEMOSTRACIÓN: Supongamos que a•c = b•c, pero no se cumple que a = b. Entonces,

hay 2 posibilidades: a > b, que por la proposición anterior implica que a•c > b•c, en

contradicción con la hipótesis. O, por el contrario, a < b, lo que implica que a•c < b•c,

que también contradice la hipótesis, por lo que se cumple que a = b. □

También se cumple el recíproco de la propiedad de cancelación, pero lo afirmamos aquí

sin demostración porque es evidente, pues si a es el mismo número que b, es decir a =

58

b, al multiplicarlo por un número sea c, es evidente que se obtiene un número que es él

mismo sea como sea como lo llamemos, es decir a•c = b•c.

TEOREMA 4 (propiedades adicionales del orden <, en los naturales):

1. Para todo a, b, c de ℕ se cumple a < b si y solo si, a + c < b + c.

2. Para todo a, b, c de ℕ se cumple a < b si y solo si, a•c < b•c.

DEMOSTRACIÓN: 1) Ya se demostró en la proposición 1 de esta subsección que a < b

implica que a + c < b + c. Ahora demostramos que a + c < b + c implica que a < b. La

hipótesis es que b + c = a + c + u, de modo que b + c = a + u + c, por la propiedad de

cancelación de la suma tenemos que b = a + u, de modo que b > a.

2) De la misma forma solo queda demostrar que a•c < b•c implica a < b. Si a = b, esto

implicaría que a•c = b•c, en contradicción con la hipótesis. Si a > b, por la proposición 1

de esta subsección, implica que a•c > b•c, otra contradicción, por lo que solo queda la

posibilidad de que a < b. □

A modo de conclusión de estas subsecciones, ya hemos demostrado las propiedades de

la subsección 2.2 gracias a los axiomas de Peano. Si lo cree oportuno el lector, ahora

puede repasar la dicha subsección 2.2 y comprobar que todas las propiedades que

citamos allí han sido demostradas en las siguientes subsecciones hasta concluir con esta.

2.10 Definición rigurosa, por recurrencia, de las sumatorias Ya vimos en la subsubsección 1.10 unas pocas posibilidades del sumatorio simple. La

verdad es que son tantas las variantes que no podemos enumerarlas todas. En esta

subsubsección vamos a dar una definición por recurrencia de un sumatorio básico y

definiremos también (pero no rigurosamente por recurrencia) con un esquema, los

sumatorios múltiples que son muy importantes también.

Los sumatorios simples se basan en una sucesión o función h: ℕ → A, para un conjunto

arbitrario A, cuyo valor para todo i donde esté definido, es h(i), entonces, el sumatorio

consiste en sumar todos los valores de h(i). Para la formalización de esta definición

tenemos que el sumatorio debe cumplir las siguientes propiedades:

1) ∑ ℎ(𝑖)𝑖=1𝑖=1 = h(1)

2) ∑ ℎ(𝑖)𝑖=𝑛+1𝑖=1 = ∑ ℎ(𝑖)𝑖=𝑛

𝑖=1 + h(n+1) = h(n+1) + ∑ ℎ(𝑖)𝑖=𝑛𝑖=1 ,

De modo que, para aplicar la definición por recurrencia (utilizaremos la definición

generalizada por recurrencia), queremos definir una función f, que será el sumatorio de

la función h, tal que:

1) f(1) = h(1) = b

2) f(n+1) = f(n) + h(n + 1) = h(n + 1) + f(n) notaremos esta expresión como (*)

Para esto basta definir para la relación de recurrencia, en el caso generalizada, g(n, x) =

h(n + 1) + x, de modo que según (*), f(n + 1) = g(n, f(n)), como puede comprobar el lector

y se consigue así la condición de la definición generalizada por recurrencia.

59

Hemos definido rigurosamente el sumatorio ∑ ℎ(𝑖)𝑖=𝑛𝑖=1 dada una sucesión finita h(i) que

empieza con el índice i = 1, pero ya vimos en la subsubsección 1.10 que la forma más

utilizada del sumatorio es empezar el índice i en i = k de modo que el sumatorio simple

toma la forma ∑ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 , pero esto se puede deducir en base al sumatorio básico que

hemos definido por recursión de la siguiente manera:

∑ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 = ∑ ℎ(𝑖)𝑖=𝑛

𝑖=1 - ∑ ℎ(𝑖)𝑖=𝑘𝑖=1 ,

Donde en la anterior ecuación la resta significa que quitamos los sumandos de la

sumatoria que se resta y que pueden tener cualquier valor formal irrelevante

arbitrario.

Cuando la sucesión definitoria h, del sumatorio tiene una dependencia de más de una

variable, h(i, j), por ejemplo (2 índices i, j), a veces se quiere sumar toda la sucesión,

entonces, ¿cómo se puede definir una sumatoria que sea para toda la sucesión h(i, j)?

Es decir, queremos definir el sumatorio siguiente: ∑ ℎ(𝑖, 𝑗)𝑖,𝑗 .

Que se formaliza como un sumatorio doble: ∑ ∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1

𝑖=𝑛2𝑖=𝑘2

Se procede en dos pasos: se considera el sumatorio interior, cuando i está fijo a un valor,

digamos i = p y se realiza el sumatorio interior cuyo índice es j y después se suma para

cada i = p (realizando la suma en cada caso interior), es decir se hace el sumatorio

exterior:

∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1

= ∑ ℎ(𝑝, 𝑗)𝑗=𝑛1𝑗=𝑘1

= h’(p) y

∑ ∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1


= ∑ ℎ′(𝑝)𝑝=𝑛2𝑝=𝑘2

= ∑ ℎ′(𝑖)𝑖=𝑛2𝑖=𝑘2

.

Podemos utilizar un esquema recursivo que no es rigurosamente una definición por

recurrencia, pero que nos permitirá definir los sumatorios múltiples en general:

1) n = 1: ya hemos definido ∑ ℎ(𝑖)𝑖=𝑝𝑖=𝑘

2) para el caso general n: ∑ …∑ ℎ(𝑖𝑛, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1

𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛

= ∑ ℎ′(𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛

𝑖𝑛)

Con h’(𝑖𝑛) = ∑ …∑ ℎ(𝑖𝑛, 𝑖𝑛−1, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1

𝑖𝑛−1=𝑝𝑛−1𝑖𝑛−1=𝑘𝑛−1

.

2.11 Demostraciones por inducción (Repetición) Vamos a repetir aquí la discusión de las demostraciones por inducción, porque es el sitio

adecuado para hacerlo aunque nos vimos obligados a adelantar esta discusión en la

subsección anterior de primeros preliminares, si ya ha leído esa subsección aquí vamos

a repetir letra por letra lo ya escrito, por tanto, puede el lector saltarse esta

subsubsección.

DEFINICIÓN: (Principio de inducción completa de los números naturales): Sea A un

subconjunto de números naturales que poseen una propiedad. Se demuestra que A es

todo ℕ (o todo el conjunto de números naturales salvo un subconjunto finito de los

primeros números) y, por tanto, que todo el conjunto ℕ posee esa propiedad (o todo el

60

conjunto ℕ salvo un subconjunto finito de los primeros números), si se cumplen las

siguientes 2 condiciones:

a) 1 (o un número natural n dado de A) cumple la propiedad (hecho que se llama base

de la inducción).

b) Si k siendo cualquier número natural (o k ≥ n) cumple la propiedad entonces, esto

implica que k + 1 también la cumple (hecho que se llama y se cita a la hora de

demostrarlo como el paso de la inducción).

Quizás no se haya entendido bien el concepto, queremos decir que si se cumplen estas

dos condiciones (de las cuales, la segunda es una implicación lógica que hay que

demostrar, aunque también la primera, pero la primera suele ser más fácil de

demostrar), entonces habremos demostrado que el conjunto A es en realidad ℕ (o todo

el conjunto ℕ, a partir del número n, es decir todo ℕ menos los n-1 primeros) y por

tanto, todos los números naturales cumplen la propiedad (o todos a partir de n).

Este es un método de demostración matemática ampliamente utilizado que es fácil de

aceptar, puesto que si, a partir del 1 o de otro número natural n, se cumple una

propiedad y para todos los números naturales posteriores, el hecho de que el anterior

cumpla la propiedad implica que el siguiente también la va a cumplir, entonces

estaremos seguros de que ningún número natural se escapa de cumplir la propiedad (o

ningún número natural a partir de otro dado n).

Otra forma del principio de inducción matemática llamada el principio de inducción

fuerte, es reemplazar la condición b) anterior por la siguiente:

b’) Si para todo número natural j ≤ k (o para todo j con n ≤ j ≤ k) se cumple la propiedad,

entonces, esto implica que se cumple para k + 1.

Es decir, no se cumple la propiedad solo para k sino también, para todo número menor

que k (o todo número j tal que n ≤ j ≤ k, para algún n)

EJEMPLO: Como ejemplo para entender todo esto, vamos a demostrar la siguiente

fórmula para la suma de los n primeros números naturales utilizando el principio de

inducción completa. La fórmula es la siguiente: 1 + 2 + … + n = ∑ 𝑗𝑗=𝑛𝑗=1 =

𝑛•(𝑛+1)

2 .

Entonces para la demostración de esta igualdad damos 2 pasos:

a) Vemos si la fórmula se cumple para 1. Si así no fuera, quizás se cumpliera a partir de

un número m: 1•(1+1)

2 = 1, por lo tanto, la fórmula se cumple para 1.

b) Demostramos que, suponiendo que se cumple para k, entonces, se cumple para k +

1 (también sería lo mismo, si resultase más conveniente expresarlo de esta manera:

demostrar que, si se cumple para k - 1 implica que se cumple para k) lo cuál es la parte

más interesante y difícil de la demostración:

Si suponemos que se cumple para k tenemos entonces, por hipótesis,

1+ ... + k = 𝑘•(𝑘+1)

2, pero (1 + ... + k) + k + 1 =

𝑘•(𝑘+1)

2 + k + 1, pero

𝑘•(𝑘+1)

2 + k + 1 =

𝑘•(𝑘+1)+2•(𝑘+1)

2 = (𝑘+2)•(𝑘+1)

2 sacando factor común k+1, pero

(𝑘+2)•(𝑘+1)

2 =

(𝑘+1+1)•(𝑘+1)

2 = (𝑘+1)•((𝑘+1)+1)

2 reordenando, y por tanto, vemos que la fórmula se

cumple para k + 1 y por tanto, para todo número natural, si confiamos en la

demostración por inducción.

61

2.12 Definición rigurosa del Productorio de una sucesión de números Necesitamos definir una notación muy parecida al sumatorio, pero en el caso de que los

números (es importante tener en cuenta que los números cuyo producto vamos a definir

pueden ser de muy diversas clases, incluso números o entes que no conocemos de

momento) no van a tener la propiedad conmutativa solo la asociativa, de manera que

su producto (con la notación que llamaremos productorio) tenga sentido en un orden,

pero que no podamos cambiar el orden en el que se nos dan. Cuando una serie de

números con la propiedad asociativa (si no tienen la propiedad asociativa el producto,

ni la suma de más de dos números están definidos si no se da un orden de agrupación

para el producto sucesivo de los números de dos en dos, es decir, utilizar paréntesis para

definir cómo se realiza la operación que en distintos agrupamientos daría resultados

diferentes) no tienen la propiedad conmutativa, no se suele utilizar la notación de la

suma (+) para la operación, en su lugar se utiliza la notación del producto que se

sobreentiende que no tiene la propiedad conmutativa (•) y la notación análoga para la

operación de una serie de números en este caso es el productorio. Salvo unos pequeños

cambios, procederemos igual que en la definición recursiva del sumatorio, pero en este

caso para el productorio.

Los productorios simples se basan en una sucesión o función h: ℕ → A, para un conjunto

arbitrario A, cuyo valor para todo i donde esté definido, es h(i), entonces, el productorio

consiste en multiplicar todos los valores de h(i). Para la formalización de esta definición

tenemos que el productorio debe cumplir las siguientes propiedades:

1) ∏ ℎ(𝑖)𝑖=1𝑖=1 = h(1)

2) ∏ ℎ(𝑖)𝑖=𝑛+1𝑖=1 = ∏ ℎ(𝑖)𝑖=𝑛

𝑖=1 •h(n+1).

De modo que, para aplicar la definición por recurrencia (utilizaremos la definición

generalizada por recurrencia), queremos definir una función f, que será el productorio

de la función h, tal que:

1) f(1) = h(1) = b

2) f(n+1) = f(n)• h(n + 1), notaremos esta expresión como (*)

Para esto basta definir g(n, x) = x•h(n + 1), de modo que según (*), f(n + 1) = g(n, f(n)),

como puede comprobar el lector y se consigue así la condición de la definición

generalizada por recurrencia.

De igual manera que en el sumatorio, hemos definido rigurosamente el productorio

∏ ℎ(𝑖)𝑖=𝑛𝑖=1 , dada una sucesión finita h(i) que empieza en i = 1, pero ya podemos suponer

que la forma más utilizada del productorio es empezar el índice i en i = k de modo que

el productorio simple toma la forma ∏ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 , pero esto se puede deducir en base al

productorio básico que hemos definido por recursión de la siguiente manera:

∏ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 = ∏ ℎ(𝑖)𝑖=𝑛

𝑖=𝑘 /∏ ℎ(𝑖)𝑖=𝑘−1𝑖=1 ,

62

lo cual significa que quitamos el producto de los k – 1 términos de la sucesión (los

cuales pueden ser formales, sin importancia que se pueden definir arbitrariamente) en

el resultante productorio.

Cuando la sucesión definitoria h, del productorio tiene una dependencia de más de una

variable, h(i, j), por ejemplo (2 índices i, j), a veces se quiere multiplicar toda la sucesión,

entonces, ¿cómo se puede definir un productorio que sea para toda la sucesión h(i, j)?

Es decir, queremos definir el productorio siguiente:∏ ℎ(𝑖, 𝑗)𝑖,𝑗 .

Que se formaliza como un productorio doble: ∏ ∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1


Se procede en dos pasos: se considera el productorio interior, cuando i está fijo a un

valor, digamos i = p y se realiza el productorio interior cuyo índice es j y después se

multiplica para cada i = p (realizando el producto en cada caso interior), es decir se hace

el productorio exterior:

∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1

= ∏ ℎ(𝑝, 𝑗)𝑗=𝑛1𝑗=𝑘1

= h’(p) y

∏ ∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1


= ∏ ℎ′(𝑝)𝑝=𝑛2𝑝=𝑘2

= ∏ ℎ′(𝑖)𝑖=𝑛2𝑖=𝑘2

Podemos utilizar un esquema recursivo que no es rigurosamente una definición por

recurrencia, pero que nos permitirá definir los productorios múltiples en general:

1) n = 1: ya hemos definido ∏ ℎ(𝑖)𝑖=𝑝𝑖=𝑘

2) para el caso general n: ∏ …∏ ℎ(𝑖𝑛, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1

𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛

= ∏ ℎ′(𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛

𝑖𝑛)

Con h’(𝑖𝑛) = ∏ …∏ ℎ(𝑖𝑛, 𝑖𝑛−1, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1

𝑖𝑛−1=𝑝𝑛−1𝑖𝑛−1=𝑘𝑛−1

.

63

Sección II Sistemas de ecuaciones lineales, matrices y

determinantes

64

3 Sistemas de Ecuaciones lineales

3.1 Ecuaciones lineales

DEFINICIÓN: Sea 𝕂 un cuerpo, una ecuación lineal con coeficientes en 𝕂 es una

expresión de la forma:

𝑎1 • 𝑥1 + 𝑎2 • 𝑥2 +⋯+ 𝑎𝑛 • 𝑥𝑛 = 𝑏 ,

donde los términos 𝑎1, 𝑎2, … , 𝑎𝑛 son elementos conocidos de 𝕂 y se llaman coeficientes;

el término b es de nuevo un elemento también conocido y de 𝕂 y se denomina término

independiente, y por último, 𝑥1, 𝑥2, … , 𝑥𝑛, son símbolos que llamaremos incógnitas.

Debe notarse que en una ecuación lineal no pueden aparecer incógnitas con un

exponente distinto de 1, o el producto de varias incógnitas o funciones de las incógnitas,

como la exponencial, el logaritmo o funciones trigonométricas.

EJEMPLO 1: Las ecuaciones siguientes:

2x + 5y = 0, 3x – y + 7z = 13

Son ecuaciones lineales, mientras que las siguientes no lo son:

2𝑥2 + y = 5, xy + z = 0, sen(x) + y + z = 9.

DEFINICIÓN: Una solución de una ecuación lineal es una asignación de valores a las

incógnitas dentro del cuerpo que estamos considerando, de forma que se verifique la

igualdad.

Así, por ejemplo, para la ecuación 2x + 3y = 5 una solución es x = 1, y = 1, y otra solución

es x = 0 e y = 5/3.

3.2 Sistemas de ecuaciones lineales

DEFINICIÓN: Sea un conjunto de m ecuaciones lineales con las mismas incógnitas:

{

𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛

==

𝑏1𝑏2…

𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛

…=

…𝑏𝑚

se le llama sistema de m ecuaciones lineales con n incógnitas. Llamamos solución del

sistema a cada conjunto de valores concretos que tomen las incógnitas digamos:

𝑥1 = 𝑘1, … , 𝑥𝑛 = 𝑘𝑛, que sean solución de todas las ecuaciones al mismo tiempo, es

decir que hagan que se verifiquen todas las ecuaciones al mismo tiempo. Se llama

solución general del sistema al conjunto de todas las soluciones del sistema y se dice

que dos sistemas son equivalentes, si tiene la misma solución general, es decir

exactamente las mismas soluciones.

65

EJEMPLO 2: Consideremos el siguiente sistema:

{𝑥 + 𝑦 = 2𝑥 − 𝑦 = 0

Una solución de este sistema es x = 1, e y = 1 y se comprueba que esta es su única

solución. En cambio, el siguiente sistema:

{𝑥 + 𝑦 = 2𝑥 + 𝑦 = 3

no tiene solución, mientras que por último el sistema siguiente:

{𝑥 + 𝑦 = 22𝑥 + 2𝑦 = 4

tiene entre sus soluciones x = 1, y = 1, x = 0, y = 2 y es más, la solución general del

sistemas es el conjunto { x = λ, y = 2 – λ, con λ cualquier número real}.

3.3 Discusión de un sistema lineal

Según su número de soluciones, se clasifican las soluciones de un sistema lineal del

siguiente modo:

DEFINICIÓN: Un sistema es compatible si tiene alguna solución, compatible determinado

si tiene una única solución, compatible indeterminado si tiene más de una solución, e

incompatible si no tiene ninguna solución.

{𝑆𝑖𝑠𝑡𝑒𝑚𝑎 𝑐𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 {

𝐶𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜𝐶𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜

𝑆𝑖𝑠𝑡𝑒𝑚𝑎 𝑖𝑛𝑐𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒

Al proceso de estudiar a cuál de estos tipos de sistema pertenece uno dado, se lo

llamará discutir un sistema.

A un sistema cuyos términos independientes son todos 0 se dice que es homogéneo:

{


==

00…


…=

…0

Todo sistema homogéneo admite una solución, la llamada trivial 𝑥1 = 0, … , 𝑥𝑛 = 0,

por tanto es compatible, pero puede que sea indeterminado porque admita más

soluciones o determinado, cuando la única solución es la trivial.

3.4 Método de resolución de un sistema lineal de Gauss y de Gauss-Jordan

En esta subsección vamos a ver cómo resolver un sistema de ecuaciones lineales. El

método tiene la siguiente filosofía: transformar el sistema inicial poco a poco en otros

66

equivalentes más sencillos hasta llegar a un sistema tan sencillo en el que se puedan

obtener las soluciones trivialmente. Veamos el siguiente ejemplo.

EJEMPLO 3: Sea el sistema lineal siguiente:

{

2𝑥 + 2𝑦 + 10𝑧 = 182𝑥 + 3𝑦 + 12𝑧 = 23

2𝑦 + 5𝑧 = 11

Podemos simplificar la primera ecuación dividiéndola por 2, como veremos, esto no

cambia las soluciones del sistema.

{

𝑥 + 𝑦 + 5𝑧 = 92𝑥 + 3𝑦 + 12𝑧 = 23

2𝑦 + 5𝑧 = 11

Ahora restamos la primera ecuación multiplicada por 2 a la segunda y veremos que esto

no cambia las soluciones del sistema.

{

𝑥 + 𝑦 + 5𝑧 = 9𝑦 + 2𝑧 = 52𝑦 + 5𝑧 = 11

Ahora restamos la segunda ecuación multiplicada por 2 a la tercera.

{𝑥 + 𝑦 + 5𝑧 = 9𝑦 + 2𝑧 = 5

𝑧 = 1

Así hemos obtenido lo que se llama un sistema escalonado y podemos seguir dos

caminos: el método de Gauss que consiste en sustituir en la segunda ecuación el valor

de z de la tercera, por lo que la segunda ecuación sería y + 2 = 5, de donde y = 3 y ahora

sustituimos los valores de z e y en la primera, con lo que se obtiene x + 3 + 5 = 9 y de

aquí x = 1 y llegamos así a la solución del sistema. Sin embargo, hay otro camino, que es

el método de Gauss-Jordan, en el que se sigue simplificando el sistema de la siguiente

manera: Restamos la tercera ecuación multiplicada por 2 a la segunda y la tercera

ecuación multiplicada por 5 a la primera, con lo que llegamos al siguiente sistema

equivalente:

{𝑥 + 𝑦 = 4𝑦 = 3

𝑧 = 1

Y seguimos simplificando, finalmente restamos la segunda ecuación a la primera para

obtener:

{𝑥 = 1𝑦 = 3

𝑧 = 1

Entonces, así el sistema muestra la solución. Clarificaremos este ejemplo y

seguidamente demostraremos que las transformaciones que hemos realizado no

alteran la solución del sistema de modo que obtenemos realmente sistemas

equivalentes al aplicarlas.

PROPOSICIÓN 1: Si en un sistema de ecuaciones lineales se intercambian de orden dos

de ellas, se multiplica una de ellas por un número del cuerpo distinto de 0, o se suma a

una de ellas otra multiplicada por un número del cuerpo distinto de 0 se obtiene un

sistema equivalente.

67

DEMOSTRACIÓN: La primera afirmación es evidente, la segunda se debe a que si

escogemos tres elementos del cuerpo a, b, c, con c ≠ 0, dado a = b es cierto si y solo sí

ac = bc. Veamos pues la tercera afirmación. Sea el siguiente sistema:

{

𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1… … …𝑎𝑖1𝑥1 +⋯+ 𝑎𝑖𝑛𝑥𝑛 = 𝑏𝑖

… … …𝑎𝑗1𝑥1 +⋯+ 𝑎𝑗𝑛𝑥𝑛 = 𝑏𝑗

… … …𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚

(1)

Ahora, el sistema que obtenemos de sumar la j-ésima ecuación multiplicada por el

número k ≠ 0 a la i-ésima ecuación del sistema anterior será:

{

𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1… … …(𝑎𝑖1 + 𝑘𝑎𝑗1)𝑥1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛)𝑥1 = 𝑏𝑖 + 𝑘𝑏𝑗

… … …𝑎𝑗1𝑥1 +⋯+ 𝑎𝑗𝑛𝑥𝑛 = 𝑏𝑗

… … …𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚

(2)

Hemos de probar que ambos sistemas tienen las mismas soluciones. Supongamos que

𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (1) y veamos que también es solución de (2).

Puesto que ambos sistemas solo difieren en la i-ésima ecuación basta ver que 𝑥1 = 𝑐1,

… , 𝑥𝑛 = 𝑐𝑛 verfica la ecuación i-ésima de (2). Pero por ser solución de (1) se tiene lo

siguiente:

𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 = 𝑏𝑖𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛 = 𝑏𝑗

Multiplicando por k la segunda ecuación y sumando se obtiene:

𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 + k(𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛) = 𝑏𝑖 + 𝑘𝑏𝑗

De donde,

(𝑎𝑖1+ 𝑘𝑎𝑗1)𝑐1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛) 𝑐𝑛 = 𝑏𝑖 + 𝑘𝑏𝑗

Es decir, 𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (2). Recíprocamente, si 𝑥1 = 𝑐1, … , 𝑥𝑛 =

𝑐𝑛 es solución de (2) se tiene que

(𝑎𝑖1+ 𝑘𝑎𝑗1)𝑐1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛) 𝑐𝑛 = 𝑏𝑖 + 𝑘𝑏𝑗

𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛 = 𝑏𝑗

De donde, restando la segunda ecuación multiplicada por k a la primera se

obtiene

𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 = 𝑏𝑖

Es decir, 𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (1). □

Ahora aclararemos el algoritmo de Gauss-Jordan.

Algoritmo para convertir un sistema en escalonado reducido.

68

Paso 1: Se lleva al primer lugar una ecuación con coeficiente no nulo para la incógnita

𝑥1.

Paso 2: Se divide esta primera ecuación por el coeficiente de 𝑥1, de forma que se tenga

el coeficiente 1 para esta incógnita.

Paso 3: Se elimina esta primera incógnita de las restantes ecuaciones, restándoles la

primera multiplicada por el coeficiente conveniente. Así la primera incógnita solo

aparece en la primera ecuación:

{

𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑎22𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏2… … …𝑎𝑚2𝑥2 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚

Ahora se deja fija la primera ecuación y se dan los pasos 1, 2 y 3 para las restantes

ecuaciones y la incógnita 𝑥2:

{

𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏′2… … …

𝑎𝑚3𝑥3 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏′𝑚

Y repitiendo este proceso llegamos a un sistema escalonado (la primera incógnita de

cada ecuación tiene coeficiente 1 y no aparece en las siguientes). Si apareciera alguna

ecuación del tipo 0 = 0 puede ser eliminada.

{

𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏′2… … …𝑥𝑟 +⋯+ 𝑎𝑟𝑛𝑥𝑛 = 𝑏′′𝑟

Aún podemos simplificar más. Llamamos incógnitas principales a las incógnitas que

aparecen como primera incógnita en alguna de las ecuaciones, e incógnitas libres o

secundarias a las restantes (si las hay). Cada incógnita principal de una ecuación puede

ser eliminada de las restantes ecuaciones y obtenemos así un sistema de ecuaciones

escalonado reducido (cada incógnita que es la primera de la ecuación no aparece en las

restantes).

Discusión y resolución de sistemas escalonados reducidos.

Veamos los distintos casos de sistemas escalonados reducidos que podemos encontrar:

Caso 1: Si aparece una ecuación del tipo 0 = b, con b ≠ 0, el sistema será incompatible.

Caso 2: Si todas las incógnitas son principales, entonces siendo el sistema escalonado

reducido habrá de ser forzosamente de la siguiente forma:

{

𝑥1 = 𝑏1𝑥2 = 𝑏2… … …𝑥𝑛 = 𝑏𝑛

Y es, por tanto, compatible determinado, con solución 𝑥1 = 𝑏1, …, 𝑥𝑛 = 𝑏𝑛.

Caso 3: Si existen incógnitas libres, entonces las incógnitas principales pueden

despejarse en función de las libres y por tanto, existe una solución del sistema, para

cada elección que se haga de las incógnitas libres. El sistema será entonces compatible

indeterminado y la solución general del sistema se obtendrá asignado un parámetro a

cada una de las incógnitas libres.

EJEMPLO 4: Sea el sistema escalonado reducido siguiente:

{𝑥 + 𝑧 = 1𝑦 + 𝑧 = 1

69

Las incógnitas x e y son principales, mientras que la z es libre, despejando las

incógnitas principales se obtiene:

{𝑥 = 1 − 𝑧𝑦 = 1 − 𝑧

Y, por tanto, la solución general del sistema es x = 1- λ, y = 1 – λ, z = λ, donde λ puede

ser cualquier número real.

El propósito fundamental de esta subsección 3 y de esta subsubsección 3.4 era la

discusión de un sistema de ecuaciones lineales por el método de reducción de Gauss-

Jordan. Esta discusión de los sistemas lineales no la hemos establecido como un

teorema, si hubiera sido así, la siguiente proposición habría sido un corolario, pero como

no lo hemos hecho así, estableceremos la siguiente proposición.

PROPOSICIÓN 2: Los casos posibles del conjunto solución general para un sistema de

ecuaciones lineales se reducen a 3: a) El sistema no tiene solución; b) El sistema tiene

una única solución o c) El sistema tiene infinitas soluciones.

DEMOSTRACIÓN: Los casos a) y b) son evidentes, en la discusión de un sistema lineal

por el método de Gauss-Jordan, hemos visto que éste puede tener una única solución o

ninguna. c) Si el sistema tiene más de una solución entonces, tiene infinitas, pues este

caso se da cuando el sistema tiene alguna incógnita libre que transformándola o

transformándolas, si hay más de una, en parámetros, nos dan infinitas posibilidades

para el conjunto solución general del sistema dependiente de parámetros. □

4 Matrices. Transformaciones elementales

4.1 Matrices

DEFINICIÓN: Dado un cuerpo 𝕂, y dos conjuntos de números naturales consecutivos

empezando en el 1, I = {1, 2, …, m} , J = {1, 2, …, n}, una matriz de orden m×n con

coeficientes en 𝕂, es una función definida en el producto cartesiano de I y J, I×J, de la

siguiente forma:

A: I×J→ 𝕂

(i, j) ↦ 𝑎𝑖𝑗

constituida por m•n elementos de 𝕂 distribuidos en m filas y n columnas, de manera

que denotamos por 𝑎𝑖𝑗 al elemento situado en la fila i y la columna j, correspondiente

al elemento de 𝕂 asociado en la función A, con el par (i, j). De forma reducida se expresa

de la siguiente manera: A = (𝑎𝑖𝑗) y se representa por una tabla de la siguiente manera:

A = (

𝑎11 𝑎12𝑎21 𝑎22

… 𝑎1𝑛… 𝑎2𝑛

⋮ ⋮𝑎𝑚1 𝑎𝑚2

⋱ ⋮… 𝑎𝑚𝑛

)

70

En demostraciones y aplicaciones necesitaremos indicar o poner atención, en el

elemento (o coeficiente) en la fila i y columna j, de la matriz A, matriz A que puede

tratarse de un producto o suma u otra operación de matrices, es decir, por ejemplo A =

B•C, entonces, este elemento lo indicaremos como [𝐴]𝑖𝑗, que tiene sentido para

matrices complejas como A = B•C y, entonces, [𝐴]𝑖𝑗 = [B • C ]𝑖𝑗, donde ahora, la

notación nueva tiene su justificación.

EJEMPLO 1:

A = (1 2 92 7 5

)

es una matriz de orden 2•3, es decir, tiene 2 filas y 3 columnas y 𝑎13 es el elemento que

se encuentra en la primera fila y la tercera columna, es decir: 𝑎13 = 9.

Dos matrices son iguales si son iguales como función, es decir: tienen igual orden y

tienen el mismo valor en cada uno de sus posiciones o elementos.

EJEMPLO 2:

A = (𝑎 2 34 5 6

), B = (1 2 34 5 𝑏

)

las matrices A y B son iguales sólo si a = 1 y b = 6.

A = (1 2 34 5 6

), C = (1 2 340

5 60 0

)

Las matrices A y C son diferentes ya que no son del mismo orden, C tiene una fila más

que A. En términos de su definición como funciones tienen distinto dominio.

DEFINICIÓN: A una matriz con una sola fila la llamaremos matriz fila, e igualmente a una

matriz con una sola columna la llamaremos matriz columna. Llamaremos matriz

cuadrada a todo matriz con igual número de filas que de columnas, es decir, en el caso

de que sea de orden n•n, con n natural.

Al conjunto de todas las matrices de orden m•n con coeficientes en el cuerpo 𝕂, lo

denotaremos por 𝔐m•n(𝕂), para el caso de matrices cuadradas, es decir cuando m = n

escribiremos 𝔐n(𝕂). Así, por ejemplo, 𝔐3(ℝ), denota al conjunto de todas las matrices

cuadradas de orden 3 con coeficientes en el conjunto de los números reales, en cambio,

𝔐2•3(ℚ), denota el conjunto de las matrices de 2 filas y 3 columnas con coeficientes en

el cuerpo de los números racionales.

DEFINICIÓN: Dada una matriz A, llamaremos una submatriz de A, a cada matriz que se

obtenga de ella suprimiendo alguna o algunas, de sus filas o columnas.

71

4.2 Matrices diagonales y triangulares

DEFINICIÓNES: Dada una matriz cuadrada A = (𝑎𝑖𝑗) ϵ 𝔐n(Ƒ) los elementos con el mismo

índice de fila y columna, es decir 𝑎11, 𝑎22, … , 𝑎𝑛𝑛, constituyen su diagonal principal. Se

dice que A es una matriz diagonal, si todos los elementos suyos distintos de los de la

diagonal principal son cero. Simbólicamente se expresa de la siguiente manera: 𝑎𝑖𝑗 = 0

si i ≠ j.

A = (

𝑎11 00 𝑎22

… 0… 0

⋮ ⋮0 0

⋱ ⋮… 𝑎𝑛𝑛

).

A es triangular superior si todos los elementos por debajo de su diagonal principal son

cero. Simbólicamente 𝑎𝑖𝑗 = 0 con i > j. Y triangular inferior si todos los elementos por

encima de su diagonal principal son cero, 𝑎𝑖𝑗 = 0 con i < j.

A = (

𝑎11 𝑎120 𝑎22


⋮ ⋮0 0

⋱ ⋮… 𝑎𝑛𝑛

), A = (

𝑎11 0𝑎21 𝑎22

… 0… 0

⋮ ⋮𝑎𝑛1 𝑎𝑛2

⋱ ⋮… 𝑎𝑛𝑛

)

Triangular superior Triangular inferior

Llamaremos matriz identidad de orden n a la matriz cuadrada 𝐼𝑛 que tiene unos en su

diagonal principal y que es cero en las restantes posiciones. Utilicemos un símbolo

llamado delta de Kronecker 𝛿𝑖𝑗, tal que su valor es el siguiente, 𝛿𝑖𝑗 = 1, con i = j, es decir,

𝛿𝑖𝑖 = 𝛿𝑗𝑗 = 1, y 𝛿𝑖𝑗 = 0, si i ≠ j. De modo que 𝐼𝑛 = (𝛿𝑖𝑗). Para más concreción, veamos la

forma de 𝐼4:

𝐼4 = (

1 00 1

0 00 0

0 00 0

1 00 1

).

En la sección de operaciones con matrices, en concreto, la subsección 4.3, justificaremos

porqué llamamos a 𝐼𝑛 matriz unidad, esto es debido a que en la operación que allí

definiremos como el producto de matrices de ciertas dimensiones, 𝐼𝑛 se comporta como

una matriz unidad, es decir un elemento unidad, en concreto, el elemento identidad

para el anillo (𝔐n(𝕂),+,•).

Ya vimos en la subsección 1.8 que en una estructura algebraica con elemento unidad,

este elemento es único. De modo que la matriz identidad 𝐼𝑛 es única para la estructura

algebraica (𝔐n(𝕂),+,•), que resulta ser un anillo no conmutativo si n > 1.

Por último, se llama traza de una matriz cuadrada A y se denota por tr(A), a la suma de

los elementos de su diagonal principal, es decir: tr(A) = 𝑎11 + 𝑎22 + … + 𝑎𝑛𝑛.

72

4.3 Matrices escalonadas reducidas

DEFINICIÓN: Sea A una matriz de dimensión m•n con coeficientes en el cuerpo 𝕂

llamaremos pivote o término líder de una fila o columna de A al primer elemento no nulo

de dicha fila o columna, si hay alguno.

La matriz A se dice escalonada por filas si verifica las 4 condiciones siguientes:

1. Si A tiene filas formadas exclusivamente por ceros (filas nulas), éstas se encuentran

en la parte inferior de la matriz.

2. El pivote de cada fila no nula es 1.

3. El pivote de cada fila no nula está a la derecha del de la fila anterior.

4. Los elementos que aparecen en la misma columna que el pivote y debajo de él son

cero.

Se dice escalonada reducida por filas si además de ser escalonada cumple la siguiente

condición:

5. Todos los elementos de cada columna de los pivotes son cero (salvo el pivote).

EJEMPLO 3: Sean las siguientes matrices donde los pivotes están entre corchetes:

A = (

[2] 0 0 5

00

[1] 0 −2

0 [1] 4

), B = (

[1] 0 0 5

00

[1] 0 −2[1] 1 4

), C = (

[1] 0 0 5

00

[1] 1 −2

0 [1] 4

),

D = (

[1] 0 0 5

00

[1] 0 −20 [1] 4

), E = (

[1] 0 2 0

00

[1] 3 00 0 [1]

),

Entonces vemos que A no es escalonada por filas porque el primer pivote no es el

número 1, B tampoco porque no se cumple la regla 3, el pivote de la fila 3 no está a la

derecha del de la fila 2, en cambio, C si es escalonada pero no reducida, ya que en la

tercera columna deberían ser todos ceros salvo el pivote de la tercera fila; por otra parte,

D y E son escalonadas reducidas.

DEFINICIÓN: De igual manera se definen los conceptos análogos escalonada por

columnas o escalonada reducida por columnas.

Una matriz A es escalonada por columnas si cumple las siguientes reglas:

1. Si A tiene columnas enteramente compuestas por ceros, éstas son las últimas de la

matriz.

2. El pivote de cada columna no nula es 1.

3. El pivote de cada columna no nula está más abajo que el de la anterior.

4. Los elementos de la matriz que aparecen en la misma fila que un pivote de una

columna son todos ceros a su derecha.

73

Es escalonada reducida por columnas si además de ser escalonada por columnas cumple

la siguiente regla:

5. Los elementos de la misma fila del pivote de una columna son todos ceros (salvo el

pivote).

Veamos otro ejemplo de estas definiciones:

EJEMPLO 4: Sean las siguientes matrices cuyos pivotes de cada columna se han puesto

entre corchetes:

F = (

[1] 0 0030

[1]10

00[1]

), G = (

[1] 0 0030

[1]10

[1]01

), H = (

[1] 0 0030

[1]10

0[1]0

),

F es escalonada reducida por columnas, G no es ni escalonada por columnas y H es

escalonada, pero no reducida.

4.4 Transformaciones elementales y forma normal de Hermite

Nos va a interesar transformar cualquier matriz en una escalonada reducida, de forma

que dos matrices que se transforman en la misma forma escalonada reducida se van a

llamar equivalentes. Para ello vamos a considerar las transformaciones especiales que

relacionan una matriz con otra y en concreto una matriz con su escalonada reducida

equivalente. Definimos de ahora en antemano a cualquier elemento del cuerpo en

consideración como escalar.

DEFINICIÓN 1: Se definen como transformaciones elementales de filas a las siguientes:

Tipo I: Intercambiar la posición de 2 filas.

Tipo II: Multiplicar todos los elementos de una fila por un escalar no nulo.

Tipo III: Sumar a una fila otra multiplicada por un escalar.

DEFINICIÓN 2: Diremos que dos matrices A y B son equivalentes por filas y lo denotamos

A ∼𝑓 B si se puede pasar de una a otra por una sucesión de transformaciones

elementales.

Las transformaciones elementales al invertirlas, es evidente que nos dan otra

transformación elemental, de modo que si A ∼𝑓 B también se cumple B ∼𝑓 A. Y si A ∼𝑓

B y B ∼𝑓 C, aplicando a A las transformaciones que nos relacionan A con B seguidas de

las que relacionan B con C obtenemos que A ∼𝑓 C. De modo que la relación ∼𝑓 es una

relación de equivalencia.

PROPOSICIÓN: Para cualesquiera matrices A, B, C de 𝔐m•n(𝕂), se cumplen las

siguientes propiedades que hacen de ∼𝑓 una relación de equivalencia:

1) A ∼𝑓 A

74

2) A ∼𝑓 B es equivalente a que B ∼𝑓 A

3) A ∼𝑓 B y B ∼𝑓 C implica que A ∼𝑓 C.

Ahora enunciamos un resultado que es de mucha utilidad e importancia.

TEOREMA: Toda matriz A es equivalente a una forma escalonada reducida por filas, que,

además, es única, para la matriz A y para todas sus equivalentes por filas.

DEMOSTRACIÓN: Demostraremos primero la posibilidad de obtener una matriz

escalonada reducida por filas para cualquier matriz A, utilizando las 3 transformaciones

elementales. La demostración de la unicidad de la matriz escalonada reducida por filas

la haremos en la subsección 4.6.

Paso 1: Se lleva al primer lugar una fila con el primer coeficiente no nulo. Si no hay

ninguna fila con el primer coeficiente no nulo, se escoge una fila con el segundo

coeficiente no nulo y si tampoco existe se procede con el siguiente coeficiente y así

sucesivamente.

Paso 2: Si esta primera fila tiene como pivote el número a, se multiplica toda ella por el

inverso de a, de forma que obtenga el pivote 1.

Paso 3: A cada una de las siguientes filas se les hace el coeficiente de la columna del

pivote de la primera fila, igual a 0, restándole la primera fila multiplicada por el factor a,

conveniente en cada fila. Así, todas las columnas a la izquierda del pivote de la primera

fila son de ceros y todos los coeficientes por debajo del pivote de la primera fila son

ceros.

Ahora se procede con las siguientes filas dando los pasos 1, 2 y 3 en cada una para

obtener una matriz escalonada.

Finalmente, con el pivote 1 en cada fila se hace 0 el correspondiente coeficiente de cada

fila anterior de la misma columna, obteniendo una matriz escalonada reducida por filas.

□

DEFINICIÓN 3: Dada una matriz A de 𝔐m•n(𝕂), llamaremos forma normal de Hermite

por filas y la denotaremos como 𝐻𝑓, a la única matriz escalonada reducida por filas que

se obtiene de A por transformaciones elementales de filas. De forma equivalente se

define la forma normal de Hermite por columnas, 𝐻𝑐, pero en este caso demostraremos

su unicidad más adelante.

Es necesario destacar el hecho de que se puede llegar a la forma normal de Hermite de

filas o columnas por muchos caminos y no necesariamente uno único.

4.5 Rango de una matriz

DEFINICIÓN 1: Dada una matriz A de 𝔐m×n(𝕂), llamaremos rango de A y lo

denotaremos como rag(A) al número de filas no nulas de su forma normal de Hermite

por filas, o lo que es lo mismo, a su número de pivotes.

PROPOSICIÓN 1: Si A es de orden m×n, entonces rag(A) ≤ min{m, n}.

75

DEMOSTRACIÓN: Por su propia definición rag(A) es menor que el número de filas de A,

es decir rag(A) ≤ m, además, en 𝐻𝑓 no puede haber más filas no nulas que columnas,

pues cada fila no nula tiene un 1 como pivote y si se piensa en ello, se concluye que el

número de pivotes es menor o igual que el número de columnas, pues como máximo

hay tantos pivotes como columnas tiene 𝐻𝑓. □

EJEMPLO: Sea la siguiente matriz:

A = (3 6 −5 01 12 4

2 9−3 1

)

Busquemos la forma normal de Hermite por filas:

(3 6 −5 01 12 4

2 9−3 1

) ∼𝑓 (1 1 2 93 62 4

−5 0−3 1

) ∼𝑓 (1 1 2 90 32 4

−11 −27−3 1

) ∼𝑓

(1 1 2 90 30 2

−11 −27−7 −17

) ∼𝑓 (1 1 2 90 20 3

−7 −17−11 −27

) ∼𝑓 (1 1 2 90 10 3

−7/2 −17/2−11 −27

) ∼𝑓

(1 1 2 90 10 0

−7/2 −17/2−1/2 −3/2

) ∼𝑓 (1 1 2 90 10 0

−7/2 −17/2

1 3) ∼𝑓 (

1 0 11/2 35/2

0 10 0

−7/2 −17/2

1 3

)

∼𝑓 (1 0 0 10 10 0

−7/2 −17/2

1 3) ∼𝑓 (

1 0 0 10 10 0

0 21 3

)

Cuya última matriz es 𝐻𝑓, y, por tanto, el rango de A es 3.

Como observación muy importante para los cálculos, notemos que para determinar el

rango de una matriz no hace falta hallar su forma normal de Hermite por filas, basta con

conseguir una matriz escalonada por filas equivalente, pues el número de filas no nulas

de una matriz escalonada por filas es el mismo que el de su matriz escalonada reducida

por filas.

4.6 Matrices y sistemas de ecuaciones

DEFINICIONES 1: Dado un sistema de m ecuaciones con n incógnitas:

{


==

𝑏1𝑏2…


…=

…𝑏𝑚

Se llama matriz de coeficientes del sistema a la matriz A de orden m×n siguiente:

A = (

𝑎11 𝑎12𝑎21 𝑎22



⋱ ⋮… 𝑎𝑚𝑛

)

Y llamaremos matriz ampliada del sistema, (A|B) a la matriz de orden m×(n+1) siguiente:

76

(A|B) = (

𝑎11𝑎21

𝑎12𝑎22

⋯𝑎1𝑛𝑎2𝑛

𝑏1𝑏2

⋮ ⋮ ⋱ ⋮ ⋮𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛 𝑏𝑚

).

EJEMPLO 1: El siguiente sistema:

{

2𝑥 + 3𝑦 + 4𝑧𝑥 + 2𝑦

==

06

3𝑦 + 5𝑧 = 1

Tiene la siguiente matriz de coeficientes, A y matriz ampliada, (A|B):

A = (2 3 41 20 3

05), (A|B) = (

2 3 4 01 20 3

0 65 1

).

El siguiente resultado es la aplicación del método de Gauss-Jordan para resolver

sistemas de ecuaciones lineales en función de la matriz ampliada.

PROPOSICIÓN: Dado un sistema de ecuaciones con matriz ampliada (A|B), si H es la

forma normal de Hermite por filas de (A|B), entonces, el sistema cuya matriz es H es un

sistema escalonado reducido equivalente al de partida.

DEMOSTRACIÓN: Puesto que la forma normal de Hermite por filas, H se obtiene de la

matriz ampliada, (A|B) por transformaciones elementales de filas, bastará probar que

las transformaciones elementales no afectan a la solución general del sistema. Pero

pensemos, una transformación elemental del primer tipo solo intercambia las

ecuaciones del sistema; una del segundo tipo, solo multiplica toda la ecuación por un

número; y una del tercer tipo solo suma a una ecuación otra multiplicada por un número

y como vimos en el capítulo anterior estas transformaciones no cambian la solución del

sistema. □

EJEMPLO 2: El siguiente sistema:

{

3𝑥 + 6𝑦 − 5𝑧𝑥 + 𝑦 + 2𝑧

==

09

2𝑥 + 4𝑦 − 3𝑧 = 1

Tiene la siguiente matriz ampliada:

(A|B) = (3 6 −5 01 12 4

2 9−3 1

)

Cuya forma normal de Hermite por filas H, la calculamos en el ejemplo de la subsección

3.5, la cual es:

77

H = (1 0 0 10 10 0

0 21 3

),

Por tanto, el sistema de partida es equivalente al siguiente, es decir, tiene las mismas

soluciones:

{𝑥𝑦

==

12

𝑧 = 3

Por tanto, es un sistema compatible determinado con las soluciones ya vistas.

TEOREMA 1 (Teorema de Rouché-Frobenius): Dado un sistema de m ecuaciones con n

incógnitas con matriz de coeficientes A, y matriz ampliada (A|B) se cumple que:

1. El sistema es compatible si y solo si, rag(A) = rag(A|B).

2. El sistema es compatible determinado si y solo si, rag(A) = rag(A|B) = n.

DEMOSTRACIÓN: Sea H la forma normal de Hermite por filas de (A|B), entonces la forma

normal de Hermite por filas de A, será H’, que se obtiene de H eliminando la última

columna. Como sabemos, el sistema es compatible si y solo si, en su forma escalonada

reducida no aparece ninguna ecuación 0 = b, con b ≠ 0, es decir, si H y H’ tienen el mismo

número de filas no nulas o, lo que es lo mismo, rag(A) = rag(A|B).

Ahora, si rag(A) = rag(A|B) = r, entonces existen r incógnitas principales y el sistema será

compatible determinado si todas las incógnitas son incógnitas principales, es decir, si r

= n. □

TEOREMA 2: La forma escalonada reducida por filas de una matriz es única.

DEMOSTRACIÓN: Ahora demostraremos la unicidad de la forma escalonada reducida

por filas. Demostramos que si no es única llegamos a una contradicción. Supongamos

que existen 2 matrices en forma escalonada reducida por filas A y B, entonces, elijamos

solamente la primera columna, si miramos de izquierda a derecha, que es diferente en

A y B y las columnas de los pivotes correspondientes, para formar las matrices A’ y B’. Es

decir, si, por ejemplo, A y B son de esta forma:

A = (1 2 0 3 500

0 1 4 60 0 0 0

), B = (1 2 0 7 900

0 1 8 90 0 0 0

), entonces,

A’ = (1 0 300

1 40 0

) y B’ = (1 0 700

1 80 0

), en general,

A’ = (𝐼𝑛 ⋮ 𝑎′…0

⋮ …⋮ 0

) ó es de esta forma A’ =

(

𝐼𝑛 ⋮ 0…

0

⋮ …⋮ 1⋮ 0⋮ ⋮ )

,

78

B’ = (𝐼𝑛 ⋮ 𝑏′…0

⋮ …⋮ 0

) ó es de esta forma B’ =

(

𝐼𝑛 ⋮ 0…

0

⋮ …⋮ 1⋮ 0⋮ ⋮ )

.

Observemos que A’ y B’ son equivalentes reducidas por filas pues la eliminación de

columnas no afecta esta característica. Ahora consideremos A’ y B’ como matrices

aumentadas de un sistema de ecuaciones. El sistema de A’ tiene una única solución a’ o

es inconsistente y de igual manera el sistema de B’ tiene la solución única b’ o es

inconsistente. Pero ambos sistemas son equivalentes entonces, a’ = b’ o el sistema es

inconsistente, en ambos casos A’ = B’, lo cual es una contradicción. □

La demostración de la unicidad de la forma escalonada reducida por columnas la

haremos en la subsección 5.6

5 Operaciones con matrices

5.1 Suma de matrices

DEFINICIÓN: Dadas dos matrices de igual orden m×n, A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗), se define su

suma, como la matriz del mismo orden que ellas, m×n, de la siguiente manera:

[A + B] 𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗, es decir, A + B = (

𝑎11 + 𝑏11 𝑎12 + 𝑏12𝑎21 + 𝑏21 𝑎22 + 𝑏22

… 𝑎1𝑛 + 𝑏1𝑛… 𝑎2𝑛 + 𝑏2𝑛

⋮ ⋮𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2

⋱ ⋮… 𝑎𝑚𝑛 + 𝑏𝑚𝑛

),

o sea, la suma de las matrices A y B, es la matriz que en la posición ij, tiene al elemento

𝑎𝑖𝑗 + 𝑏𝑖𝑗, suma de los correspondientes elementos de A y B en la posición ij.

Recordemos que la suma de matrices solo está definida para matrices del mismo orden.

EJEMPLO: (2 30 1

) + (0 13 5

) = (2 + 0 3 + 10 + 3 1 + 5

) = (2 43 6

).

En la siguiente proposición enunciamos y demostramos las propiedades de la suma de

matrices:

PROPOSICIÓN (Propiedades de la suma de matrices): (𝔐m×n(𝕂),+) es un grupo

abeliano o conmutativo, es decir la suma de matrices verifica las siguientes propiedades:

1. Asociativa: A + (B + c) = (A + B) + C, para todo A, B, C de 𝔐m×n(𝕂).

2. Conmutativa: A + B = B + A, para todo A, B de 𝔐m×n(𝕂).

3. Existencia del elemento neutro: Existe 0 en 𝔐m×n(𝕂), tal que A + 0 = 0 + A = A, para

todo A de 𝔐m×n(𝕂).

4. Existencia del elemento inverso o simétrico (u opuesto) para todo A de 𝔐m×n(𝕂):

Para todo A de 𝔐m×n(𝕂), existe -A tal que, -A + A = A + (-A) = 0.

79

DEMOSTRACIÓN: Siendo A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗) y C = (𝑐𝑖𝑗):

1. [A + (B + C)] 𝑖𝑗 = 𝑎𝑖𝑗 + [𝐵 + 𝐶]𝑖𝑗 = 𝑎𝑖𝑗 + (𝑏𝑖𝑗 + 𝑐𝑖𝑗) = (𝑎𝑖𝑗 + 𝑏𝑖𝑗) + 𝑐𝑖𝑗 = [𝐴 + 𝐵]𝑖𝑗

+ 𝑐𝑖𝑗 = [(A + B) + C] 𝑖𝑗, para todo i, j.

2. [A + B ] 𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 = 𝑏𝑖𝑗 + 𝑎𝑖𝑗 = [B + A] 𝑖𝑗, para todo i, j .

3. 0 es la matriz cuyos elementos son todos cero, es decir, [0] 𝑖𝑗 = 0, para todo i, j, por

lo que [A + 0] 𝑖𝑗 = 𝑎𝑖𝑗 + 0 = 0 + 𝑎𝑖𝑗 = [0 + A] 𝑖𝑗 = 𝑎𝑖𝑗, para todo i, j, de modo que, 0

+ A = A + 0 = A.

4. Para A = (𝑎𝑖𝑗), [−A] 𝑖𝑗 = -𝑎𝑖𝑗, de modo que [A + (−A)] 𝑖𝑗 = 𝑎𝑖𝑗 + (-𝑎𝑖𝑗) = -𝑎𝑖𝑗 + 𝑎𝑖𝑗 =

[−A + A)] 𝑖𝑗 = 0, para todo i, j, por lo que A + (-A) = -A + A = 0. □

5.2 Producto de un escalar por una matriz

DEFINICIÓN: Dada una matriz m×n, A = (𝑎𝑖𝑗) y un número de u de 𝕂, también llamado

escalar, definimos el producto de A por u o de u por A, u•A, de la siguiente manera:

[u • A ] 𝑖𝑗 = u•𝑎𝑖𝑗, para todo i, j, es decir, u•A = (

u • 𝑎11 u • 𝑎12 u • 𝑎21 u • 𝑎22

… u • 𝑎1𝑛… u • 𝑎2𝑛

⋮ ⋮ u • 𝑎𝑚1 u • 𝑎𝑚2

⋱ ⋮… u • 𝑎𝑚𝑛

),

o sea, multiplicamos todos los elementos de la matriz A por u, para hallar u•A.

EJEMPLO: Sea la matriz A = (1 0 532

5 −11 0

), entonces, 2•A = (2 • 1 2 • 0 2 • 52 • 32 • 2

2 • 5 2 • (−1)2 • 1 2 • 0

)

= (2 0 1064

10 −22 0

) y (-0.5)•A = (−0.5 0 −2.5−1.5−1

−2.5 0.5−0.5 0

).

En la siguiente proposición enunciamos y demostramos las propiedades del producto de

una matriz por un escalar:

PROPOSICIÓN (Propiedades del producto de una matriz por un escalar): El producto de

una matriz por un escalar cumple las siguientes propiedades:

1. Distributiva respecto de la suma de escalares:

(u + v)•A = u•A + v•A, para todo u, v de 𝕂 y para todo A de 𝔐m×n(𝕂).

2. Distributiva respecto a la suma de matrices:

u•(A + B) = u•A + u•B, para todo u de 𝕂 y para todo A, B de 𝔐m×n(𝕂).

3. Pseudoasociativa:

(u•v)•A = u•(v•A), para todo u, v de 𝕂 y para todo A de 𝔐m×n(𝕂).

4. Ley de identidad:

1•A = A, para todo A de 𝔐m×n(𝕂).

DEMOSTRACIÓN: Sean A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗), entonces,

1. [(u + v) • A ] 𝑖𝑗 = (u + v)•𝑎𝑖𝑗 = u•𝑎𝑖𝑗 + v•𝑎𝑖𝑗 = [u • A] 𝑖𝑗 + [v • A] 𝑖𝑗 =

[u • A + v • A] 𝑖𝑗, para todo i, j, de modo que, (u + v)•A = u•A + v•A.

80

2. [u • (A + B) ] 𝑖𝑗 = u•[A + B] 𝑖𝑗 = u•(𝑎𝑖𝑗 + 𝑏𝑖𝑗) = u•𝑎𝑖𝑗 + u•𝑏𝑖𝑗 = [u • A] 𝑖𝑗 +

[u • B] 𝑖𝑗 = [u • A + u • B] 𝑖𝑗, para todo i, j, de modo que, u•(A + B) = u•A + u•B.

3. [(u • v) • A ] 𝑖𝑗 = (u•v)• 𝑎𝑖𝑗 = u•(v•𝑎𝑖𝑗) = u•[v • A] 𝑖𝑗 = [u • (v • A)] 𝑖𝑗, para todo i,

j, de modo que, (u•v)•A = u•(v•A).

4. [1 • A] 𝑖𝑗 = 1•𝑎𝑖𝑗 = 𝑎𝑖𝑗 = [A] 𝑖𝑗, para todo i, j, de modo que, 1•A = A. □

COROLARIO: El conjunto de las matrices (𝔐m×n(𝕂), +, •) con la suma y el producto por

escalares de 𝕂 tiene estructura de Espacio vectorial sobre el cuerpo 𝕂.

DEMOSTRACIÓN: Vaya a la sección de espacios vectoriales y dese cuenta de que con las

propiedades de la suma y producto por un escalar vistas anteriormente se cumple que

las matrices 𝔐m×n(𝕂) tienen estructura de espacio vectorial como dice la afirmación

de este corolario. □

5.3 Matrices y sistemas de nuevo. La solución de cualquier sistema de ecuaciones es la

suma de una solución particular mas la solución general del sistema homogéneo

asociado

Para entender mejor lo que queremos describir en esta subsubsección veamos el

siguiente sistema de ecuaciones lineales:

EJEMPLO 1: Sea el siguiente sistema de ecuaciones:

{2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4𝑥 − 𝑧 + 2𝑤 = 0

Lo reducimos Gauss-Jordan en los siguentes pasos:

{

2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4

−𝑦

2− 𝑧 +

5𝑤

2= −2

, {

2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4−𝑧 + 3𝑤 + 𝑢/2 = 0

, {

𝑥 − 𝑤 − 𝑢/2 = 0𝑦 + 𝑤 + 𝑢 = 4−𝑧 + 3𝑤 + 𝑢/2 = 0

La solución general es {(w + u/2, 4 – w – u, 3w + u/2, w, u) | w, u cualquier número

arbitrario real}, pero utilicemos la notación de matrices columna o vectores columna

siguiente:

{

(

𝑥𝑦𝑧𝑤𝑢)

=

(

04000)

+

(

1−1310 )

•w +

(

1/2−11/201 )

•u | w, u cualquier número arbitrario real}.

Fijémonos en que si hacemos w = u = 0, una posible alternativa, nos daría:

(


=

(

04000)

, que sería una solución particular del sistema.

81

De modo que esta solución general se puede describir como la suma de una solución

particular más la suma de un conjunto infinito de soluciones que cumple ciertas

condiciones como veremos. Notemos también que el conjunto infinito siguiente:

{

(

1−1310 )

•w +

(

1/2−11/201 )

•u | w, u cualquier número arbitrario real} tiene la forma anterior

también salvo que en este caso se podría considerar que la solución particular es

(


=

(

00000)

, la solución trivial correspondiente a un sistema homogéneo.

Demostraremos el teorema fundamental de esta subsubsección con la ayuda de un lema

sobre la solución general de los sistemas homogéneos.

Para que se entienda el significado y el método del siguiente lema proponemos el

siguiente ejemplo, en el que debe pensar el lector para que le ayude en la demostración

del lema.

EJEMPLO 2: Sea el siguiente sistema de ecuaciones lineales homogéneo en su forma

escalonada:

{𝑥 + 𝑦 + 2𝑧 + 𝑢 + 𝑣 = 0𝑦 + 𝑧 + 𝑢 − 𝑣 = 0

𝑢 + 𝑣 = 0

Empezando con la última ecuación expresemos el término principal en función de las

variables libres, es decir u = -v. Para la siguiente fila sustituyamos el término principal de

la anterior fila por su valor que hemos obtenido, esto da, y + z + (-v) + v = 0 y despejemos

el término principal también en este caso: y = -z + 2v. Y por último y como en cada

ecuación substituyamos con lo conseguido en las ecuaciones anteriores, esto da, x + (-z

+ 2v) + 2z + (-v) + v = 0 y resolviendo el término principal obtenemos, x = -z – 2v. Ahora

queda escribir la solución en forma vectorial o de matrices columna:

(

𝑥𝑦𝑧𝑢𝑣)

=

(

−1−1100 )

•z +

(

−220−11 )

•v, con z, v cualquier número real.

Notemos que no aparece un vector constante porque al pasar las variables libres al lado

derecho de las ecuaciones estas tienen como constante un 0 por ser un sistema

homogéneo.

82

LEMA: Para cualquier sistema homogéneo existen matrices columna (también llamados

vectores columna) 𝛽1, …, 𝛽𝑘, tales que la solución del sistema es de la forma:

{𝑐1•𝛽1 + … + 𝑐𝑘•𝛽𝑘 | con 𝑐1, …, 𝑐𝑘 elementos del cuerpo arbitrarios}, donde k es el

número de variables libres en la forma escalonada del sistema.

DEMOSTRACIÓN: La demostración que vamos a realizar es peculiar. Aunque lo parezca,

no es una demostración que utiliza el principio de inducción completa, sino que se sirve

del mismo mecanismo. Vamos a demostrar que el lema es válido para cualquier número

n de ecuaciones de un sistema lineal, aunque ya advertimos que en realidad no se trata

de una demostración por inducción.

Demostraremos que en la última ecuación de un sistema lineal se puede despejar el

término principal en función de las variables libres y también que se pueden expresar el

término principal de la t + 1 ecuación por encima de la última, en función de las variables

libres, por lo que se demostraría que se puede seguir el proceso para cualquier número

t de ecuación del sistema lineal, es decir, para todas las ecuaciones.

Entonces supongamos que podemos reducir el sistema a otro equivalente escalonado

por el método de Gauss-Jordan. Esto nos puede dar una serie de ecuaciones de la forma

0 = 0 correspondientes a las últimas filas, las cuales ignoraremos.

Consideremos la última ecuación que tenga la forma siguiente:

𝑎𝑚,𝑙𝑚•𝑥𝑙𝑚 + 𝑎𝑚,𝑙𝑚+1•𝑥𝑙𝑚+1 + … + 𝑎𝑚,𝑛•𝑥𝑛 = 0, donde 𝑎𝑚,𝑙𝑚 ≠ 0 y

donde 𝑥𝑙𝑚 significa la incógnita principal o líder.

Esta es la última ecuación por lo que las variables diferentes del término principal son

variables libres, movamos estas al otro lado de la ecuación y dividamos por el coeficiente

principal, 𝑎𝑚,𝑙𝑚, de modo que obtenemos el resultado que esperábamos para la última

ecuación:

𝑥𝑙𝑚 = (-𝑎𝑚,𝑙𝑚+1/𝑎𝑚,𝑙𝑚)•𝑥𝑙𝑚+1 + … + (-𝑎𝑚,𝑛/𝑎𝑚,𝑙𝑚)•𝑥𝑛.

Hay un caso que hay que considerar y es el caso en el que la última ecuación no tenga

términos libres, en este caso 𝑥𝑙𝑚 = 0 y también tiene la forma que queremos pues es la

suma de 0 variables libres.

Ahora asumamos que la proposición se cumple para las últimas t ecuaciones con 0 ≤ t <

m – 1, es decir para la m-ésima ecuación, la (m – 1)-ésima ecuación, etc., y la (m – t)-

ésima, entonces, hemos de demostrar que también se cumple para la (m – (t + 1))-ésima

ecuación. Para esto, sustituyamos las incógnitas principales de las últimas ecuaciones,

𝑥𝑙𝑚, …, 𝑥𝑙𝑚−𝑡 por su expresión en términos de las variables libres. Así como resultado

nos queda la ecuación que estamos considerando con el término principal de esta

manera:

𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1)•𝑥𝑙𝑚−(𝑡+1), con 𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1)≠ 0

y el resto del lado izquierdo de la ecuación como combinaciones de las variables libres.

Entonces lo que nos queda es pasar las variables libres a la derecha de la ecuación y

83

dividirlo por el coeficiente principal 𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1) y así obtenemos la ecuación en la

forma que queríamos, es decir, que podemos parametrizar la solución en términos de

las variables libres. □

Ahora podemos demostrar el teorema de esta subsubsección:

TEOREMA: Para un sistema de ecuaciones lineales y para una solución particular en

forma de vector columna p, la solución general del sistema tiene siempre la forma

siguiente:

{p + h | h es la solución general del sistema homogéneo asociado} =

= {p + 𝑐1•𝛽1 + … + 𝑐𝑘•𝛽𝑘 | con 𝑐1, …, 𝑐𝑘 elementos del cuerpo, arbitrarios},

donde k es el número de variables libres en la forma escalonada del sistema y 𝛽1, …., 𝛽𝑘

son ciertas matrices columna o vectores columnas.

DEMOSTRACIÓN: Según el anterior lema, nos queda por demostrar que toda solución

general tiene la forma p + h, donde p es una solución particular y h es la solución general

del sistema homogéneo asociado. Tenemos que demostrar que toda solución del

sistema cae en la forma descrita y que toda solución de la forma descrita es una solución

del sistema.

Supongamos que un conjunto de valores s, de las incógnitas del sistema es solución del

sistema, entonces s – p es solución del sistema homogéneo asociado, pues para la i-

ésima ecuación tenemos: 𝑎𝑖,1•(𝑠1 - 𝑝1) + … + 𝑎𝑖,𝑛•(𝑠𝑛 - 𝑝𝑛) = (𝑎𝑖,1•𝑠1 + … + 𝑎𝑖,𝑛•𝑠𝑛) –

(𝑎𝑖,1•𝑝1 + … + 𝑎𝑖,𝑛•𝑝𝑛) = 𝑑𝑖 - 𝑑𝑖 = 0. Entonces sea s = p + h, con h = s – p y tiene la forma

requerida.

Ahora veamos que toda solución con la forma p + h, con h solución del sistema

homogéneo asociado es solución del sistema, pero esto es obvio pues para la i-ésima

ecuación del sistema:

𝑎𝑖,1•(𝑝1 + ℎ1) + … + 𝑎𝑖,𝑛•(𝑝𝑛 + ℎ𝑛) = (𝑎𝑖,1•𝑝1 + … + 𝑎𝑖,𝑛•𝑝𝑛) + (𝑎𝑖,1•ℎ1 + … + 𝑎𝑖,𝑛•ℎ𝑛)

= 𝑑𝑖 + 0 = 𝑑𝑖. □

5.4 Producto de matrices

DEFINICIÓN: El producto de 2 matrices A, de dimensión m×p, y B, de dimensión p×n, solo

tiene sentido en estas condiciones, es decir cuando el número de columnas de A es igual

al número de filas de B y en tal caso, su producto A•B = C, siendo C una matriz de

dimensión m×n, es decir del mismo número de filas que A y de columnas que B. Si

definimos el operador fila_i(A) = (𝑎𝑖1, 𝑎𝑖2, …, 𝑎𝑖𝑝), como el operador que asocia a una

matriz A su fila i y columna_j(B) =

(

𝑏1𝑗𝑏2𝑗⋮𝑏𝑝𝑗)

, como el operador que asocia a una matriz B,

84

su columna j y definimos el producto de una matriz fila, d = (𝑑1, 𝑑2, …, 𝑑𝑝), y una matriz

columna, g = (

𝑔1𝑔2⋮𝑔𝑝

) , con el mismo número de elementos, p,

d•g = (𝑑1, 𝑑2, …, 𝑑𝑝)• (

𝑔1𝑔2⋮𝑔𝑝

) = ∑ 𝑑𝑖 ∙ 𝑔𝑖𝑖=𝑝𝑖=1 = 𝑑1•𝑔1 + 𝑑2•𝑔2 + … + 𝑑𝑝•𝑔𝑝,

entonces, en el caso del producto de una matriz A, m×p, y una matriz B, p×n, definimos

el producto de A•B como la matriz C, cuyos elementos en la fila i, y columna j, 𝑐𝑖𝑗, es el

producto de la fila i de A, por la columna j, de B, de modo que si A•B = C, entonces,

[A • B ]𝑖𝑗 = fila_i(A)• columna_j(B) = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑝𝑘=1 = 𝑐𝑖𝑗.

Mostrémoslo de otra manera:

A•B =

(

fila_1(A) • columna_1(B) fila_1(A) • columna_2(B) … fila_1(A) • columna_n(B)

fila_2(A) • columna_1(B) ⋮

fila_m(A) • columna_1(B)

fila_2(A) • columna_2(B) … fila_2(A) • columna_n(B) ⋮ ⋱ ⋮

fila_m(A) • columna_2(B) … fila_m(A) • columna_n(B)

)

,y veamos un ejemplo:

EJEMPLO 1: Consideremos el producto siguiente:

(2 3 10 1 2

)•(0 1 1 230

5 0 11 2 3

),

Se cumple la condición de que el número de columnas de la primera matriz es el mismo

que el de filas de la segunda y tenemos que,

(2 3 10 1 2

)•(0 1 1 230

5 0 11 2 3

) =

(2 ∙ 0 + 3 ∙ 3 + 1 ∙ 0 2 ∙ 1 + 3 ∙ 5 + 1 ∙ 1 2 ∙ 1 + 3 ∙ 0 + 1 ∙ 2 2 ∙ 2 + 3 ∙ 1 + 1 ∙ 30 ∙ 0 + 1 ∙ 3 + 2 ∙ 0 0 ∙ 1 + 1 ∙ 5 + 2 ∙ 1 0 ∙ 1 + 1 ∙ 0 + 2 ∙ 2 0 ∙ 2 + 1 ∙ 1 + 2 ∙ 3

)

=

(9 18 4 103 7 4 7

).

Notemos que el número de filas del producto es el mismo que el de la primera matriz,

mientras que el número de columnas es el de la segunda matriz.

Ahora veremos las propiedades del producto de matrices en la siguiente proposición:

PROPOSICIÓN 1(Propiedades del producto de matrices):

85

El producto de matrices cumple las siguientes propiedades para matrices A, B, C,

adecuadas y u cualquier escalar de 𝕂:

1. Asociativa: (A•B)•C = A•(B•C).

2. Existencia del elemento neutro por la izquierda: Existe una matriz 𝐼𝑚, tal que, 𝐼𝑚•A

= A.

3. Existencia del elemento neutro por la derecha: Existe una matriz 𝐼𝑛, tal que, A• 𝐼𝑛 =

A.

4. Asociativa respecto del producto por escalares: u•(A•B) = (u•A)•B = A•(u•B).

5. Distributiva respecto de la suma por la izquierda: (A + B)•C = A•C + B•C.

6. Distributiva respecto de la suma por la derecha: A•(B + C) = A•B + A•C.

DEMOSTRACIÓN:

1. [(A • B ) • C]𝑖𝑗 = ∑ [A • B ]𝑖𝑙𝑙=𝑛𝑙=1 •𝑐𝑙𝑗 = ∑ ∑ (𝑎𝑖𝑘

𝑘=𝑢𝑘=1 𝑙=𝑛

𝑙=1 •𝑏𝑘𝑙)• 𝑐𝑙𝑗,

[A • (B • C)]𝑖𝑗 = ∑ 𝑎𝑖𝑘 • [B • C ]𝑘𝑗𝑘=𝑢𝑘=1 = ∑ ∑ 𝑎𝑖𝑘

𝑙=𝑛𝑙=1 𝑘=𝑢

𝑘=1 •(𝑏𝑘𝑙• 𝑐𝑙𝑗),

Ahora hay que hacer varias consideraciones: se ve que las expresiones finales de la

derecha contienen los mismos sumandos debido a la propiedad asociativa del

producto de los elementos de 𝕂; la diferencia está en la forma de agruparlos para

las sumas. En la primera expresión fijemos mentalmente cada elemento indexado

por l, entonces para cada l hacemos la suma en k y a los resultados de esta suma

después la hacemos en l. En la segunda expresión, primero fijamos el índice k y

realizamos la suma en l y después según cada resultado para k hacemos la suma en

k, pero es el mismo resultado en ambas expresiones por la propiedad conmutativa

y asociativa de la suma en 𝕂.

2. [𝐼𝑚 • A ]𝑖𝑗 = ∑ 𝛿𝑖𝑘𝑘=𝑚𝑘=1 •𝑎𝑘𝑗 = 𝑎𝑖𝑗, pues 𝛿𝑖𝑘 = 1, con k = i, es decir 𝛿𝑖𝑖 = 1 y 𝛿𝑖𝑘 = 0, para

i ≠ k.

3. [A • 𝐼𝑛 ]𝑖𝑗 = ∑ 𝑎𝑖𝑘𝑘=𝑛𝑘=1 •𝛿𝑘𝑗 = 𝑎𝑖𝑗, pues 𝛿𝑘𝑗 = 1, con k = j, es decir 𝛿𝑗𝑗 = 1 y 𝛿𝑘𝑗 = 0, para

k ≠ j.

4. [𝑢 • (A • B) ]𝑖𝑗 = u•(∑ 𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ 𝑢 • (𝑎𝑖𝑘 •

𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ (𝑢 • 𝑎𝑖𝑘) •

𝑘=𝑛𝑘=1 𝑏𝑘𝑗 =

∑ [𝑢 • A ]𝑖𝑘𝑘=𝑛𝑘=1 •𝑏𝑘𝑗 = ∑ 𝑎𝑖𝑘 • (u •

𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ 𝑎𝑖𝑘 •

𝑘=𝑛𝑘=1 [𝑢 • B ]𝑘𝑗 = [(𝑢 • A) • B ]𝑖𝑗

= [A • (u • B) ]𝑖𝑗

5. [(A + B ) • C]𝑖𝑗 = ∑ [A + B ]𝑖𝑘𝑘=𝑛𝑘=1 • 𝑐𝑘𝑗 = ∑ (𝑘=𝑛

𝑘=1 𝑎𝑖𝑘 + 𝑏𝑖𝑘)• 𝑐𝑘𝑗 = ∑ (𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑐𝑘𝑗 +

𝑏𝑖𝑘•𝑐𝑘𝑗) = (∑ 𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑐𝑘𝑗) + (∑ 𝑏𝑖𝑘 •

𝑘=𝑛𝑘=1 𝑐𝑘𝑗) = [A • C ]𝑖𝑗 + [B • C ]𝑖𝑗 = [A • C + B •

C ]𝑖𝑘.

6. Es como la demostración de 5, se deja la demostración al lector. □

En el conjunto de matrices cuadradas de dimensión n, el producto es una operación

interna y por las propiedades anteriores se tiene:

COROLARIO 1: (𝔐n(𝕂), +, •) es un anillo no conmutativo si n > 1.

COROLARIO 2: (𝔐n(𝕂), +, ∘, •) con ∘ el productor por escalares de 𝕂 es un álgebra.

DEMOSTRACIÓN: Repase el lector las propiedades de la suma de matrices, el producto

por escalares del cuerpo 𝕂, las propiedades del producto de matrices y avance hasta la

sección de espacios vectoriales para comprobar la afirmación. O de otra forma, en el

86

corolario de la subsubsección anterior vimos que las matrices con las operaciones de

suma y producto por escalares es un espacio vectorial, ahora hemos visto que con la

suma y el producto interno de matrices es un anillo juntando las dos estructuras se trata

de un álgebra como vimos en la subsubsección de las definiciones de estructuras

algebraicas que íbamos a ver en este libro, en concreto la estructura de álgebra y todas

las demás menos las de espacio vectorial, se vio en la subsubsección 1.14. □

Veamos un ejemplo que prueba la no conmutatividad del producto de matrices:

EJEMPLO 2: Sea A = (3 −1−6 2

), B = (3 −19 −3

), entonces A•B = (9 − 9 −3 + 3

−18 + 18 6 − 6) =

(0 00 0

), en cambio B•A = (9 + 6 −3 − 227 + 18 9 − 6

) = (15 −545 3

).

También, en este ejemplo se ve como el producto de dos matrices distintas de 0 puede

resultar la matriz 0.

Acabamos con un estudio un poco más detallado del producto de matrices en la

siguiente proposición.

PROPOSICIÓN 2: Las siguientes proposiciones son verdaderas para el producto de

matrices:

1. Si f es una matriz fila, f = (𝑓1, 𝑓2, …, 𝑓𝑝) y B una matriz p×n, entonces,

f•B = (f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)).

2. Si f es una matriz fila, f = (𝑓1, 𝑓2, …, 𝑓𝑝) y B una matriz p×n, entonces,

f•B = 𝑓1• fila_1(B) + 𝑓2• fila_2(B) + … + 𝑓𝑝• fila_p(B).

3. Si A es una matriz m×p, y B, p×n, entonces,

fila_i(A•B) =

(fila_i(A)•Columna_1(B), fila_i(A)•Columna_2(B), …, fila_i(A)•Columna_n(B)) =

fila_i(A)•B.


A•B = (

fila_1(A) • Bfila_2(A) • B

⋮fila_m(A) • B

).

5. Si A es una matriz m×p, y c una matriz columna, c = (

𝑐1𝑐2⋮𝑐𝑝

), entonces,

A•c = (

fila_1(A) • cfila_2(A) • c

⋮fila_m(A) • c

).

6. Si A es una matriz m×p, y c una matriz columna, c = (

𝑐1𝑐2⋮𝑐𝑝

), entonces,

A•c = columna_1(A)• 𝑐1 + columna_2(A)• 𝑐2 + … + columna_p(A)• 𝑐𝑝.

87


columna_j(A•B) = (

fila_1(A) • columna_j(B)fila_2(A) • columna_j(B)

⋮fila_m(A) • columna_j(B)

) = A• columna_j(B).


A•B = (A•Columna_1(B), A•Columna_2(B), …, A•Columna_n(B)).

DEMOSTRACIÓN: Todas estas fórmulas son evidentes si observamos la definición

general de producto de matrices que repetimos aquí para su referencia:

A•B = (*) =

(

fila_1(A) • columna_1(B) fila_1(A) • columna_2(B) … fila_1(A) • columna_n(B)

fila_2(A) • columna_1(B) ⋮

fila_m(A) • columna_1(B)

fila_2(A) • columna_2(B) … fila_2(A) • columna_n(B) ⋮ ⋱ ⋮

fila_m(A) • columna_2(B) … fila_m(A) • columna_n(B)

)

1) Según (*) solo hay una fila, por lo que (*) se reduce a lo siguiente:

(f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)),

que es lo que queríamos demostrar.

2) Según 1) tenemos f•B = (f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)) =

(𝑓1•𝑏11 + 𝑓2•𝑏21 + … + 𝑓𝑝•𝑏𝑝1, 𝑓1•𝑏12 + 𝑓2•𝑏22 + … + 𝑓𝑝•𝑏𝑝2, …, 𝑓1•𝑏1𝑛 + 𝑓2•𝑏2𝑛 +

… + 𝑓𝑝•𝑏𝑝𝑛) = (𝑓1•𝑏11, 𝑓1•𝑏12, …, 𝑓1•𝑏1𝑛) + (𝑓2•𝑏21, 𝑓2•𝑏22, …, 𝑓2•𝑏2𝑛) + … + (𝑓𝑝•𝑏𝑝1,

𝑓𝑝•𝑏𝑝2, …, 𝑓𝑝•𝑏𝑝𝑛) = 𝑓1• fila_1(B) + 𝑓2• fila_2(B) + … + 𝑓𝑝• fila_p(B).

3) Según (*) si nos fijamos en la fila i obtenemos:

fila_i(A•B) =

(fila_i(A)•Columna_1(B), fila_i(A)•Columna_2(B), …, fila_i(A)•Columna_n(B)) =

Según 1) = fila_i(A)•B.

4) Según 3) si nos fijamos en la fila i, fila_i(A•B) = fila_i(A)•B, pensando que

A•B = (

fila_1(A • B)fila_2(A • B)

⋮fila_m(A • B)

) = (

fila_1(A) • Bfila_2(A) • B

⋮fila_m(A) • B

),

Que era lo que queríamos demostrar.

5) Según (*) nos quedamos con una sola columna, lo que da: (


⋮fila_m(A) • c

), que era

lo que queríamos demostrar.

88

6) Según 5) tenemos (


⋮fila_m(A) • c

) = (

𝑎11 • 𝑐1 + 𝑎12 • 𝑐2 +⋯+ 𝑎1𝑝 • 𝑐𝑝𝑎21 • 𝑐1 + 𝑎22 • 𝑐2 +⋯+ 𝑎2𝑝 • 𝑐𝑝

⋮𝑎𝑚1 • 𝑐1 + 𝑎𝑚2 • 𝑐2 +⋯+ 𝑎𝑚𝑝 • 𝑐𝑝

) =

(

𝑎11 • 𝑐1𝑎21 • 𝑐1

⋮𝑎𝑚1 • 𝑐1

) + (

𝑎12 • 𝑐2𝑎22 • 𝑐2

⋮𝑎𝑚2 • 𝑐2

) + … + (

𝑎1𝑝 • 𝑐𝑝𝑎2𝑝 • 𝑐𝑝

⋮𝑎𝑚𝑝 • 𝑐𝑝

) = columna_1(A)• 𝑐1 +

columna_2(A)• 𝑐2 + … + columna_p(A)• 𝑐𝑝, como queríamos demostrar.

7) Según (*) si nos fijamos en la columna j tenemos:

columna_j(A•B) = (

fila_1(A) • columna_j(B)fila_2(A) • columna_j(B)

⋮fila_m(A) • columna_j(B)

) que según 5) es =

= A• columna_j(B), como queríamos demostrar.

8) Según (*) A•B = (columna_1(A•B), columna_2(A•B), …, columna_n(A•B)) =

según 7) = (A• columna_1(B), A• columna_2(B), …, A• columna_n(B)), que era lo

que queríamos demostrar. □

5.5 División de una matriz en bloques o matrices particionadas y producto de matrices

particionadas

DEFINICIÓN: Una matriz particionada o dividida en bloques, es ver a una matriz como si

se hubieran trazados líneas entre sus filas y columnas para considerarla a esta como una

matriz cuyos elementos no son números de 𝕂, sino otras matrices o bloques, y veremos

que esta consideración nos va a facilitar muchos cálculos y va ser muy conveniente.

Por ejemplo, consideremos la siguiente matriz para ver claramente lo que estamos

definiendo:

A =

(

𝑎11 𝑎12 ⋮ 𝑎13 𝑎14

𝑎21𝑎31…𝑎41

𝑎22 ⋮ 𝑎23 𝑎24𝑎32 ⋮ 𝑎33 𝑎34⋯ ⋯ ⋯ ⋯

𝑎42 ⋮ 𝑎43 𝑎44)

,

Entonces, podemos considerar a esta matriz como dividida en 4 bloques o submatrices,

que vamos a notar de la siguiente manera:

A = (𝐴11 𝐴12𝐴21 𝐴22

).

Ahora consideremos otra matriz B cuyo producto con A, A•B, esté bien definido pero

dividida en bloques de la siguiente manera:

B = (𝐵11 𝐵12 𝐵13𝐵21 𝐵22 𝐵23

).

Queremos ver en qué condiciones podemos tener su producto de tal manera que

podamos considerar cada bloque en ambas como elementos, de modo que vamos a ver

89

que se puede definir el producto de estas matrices en función de su producto en bloques

al igual que si fueran elementos, es decir, veamos que es posible y en qué circunstancias

obtenemos que:

A•B = (𝐴11 ∙ 𝐵11 + 𝐴12 ∙ 𝐵21 𝐴11 ∙ 𝐵12 + 𝐴12 ∙ 𝐵22 𝐴11 ∙ 𝐵13 + 𝐴12 ∙ 𝐵23𝐴21 ∙ 𝐵11 + 𝐴22 ∙ 𝐵21 𝐴21 ∙ 𝐵12 + 𝐴22 ∙ 𝐵22 𝐴21 ∙ 𝐵13 + 𝐴22 ∙ 𝐵23

),

Esto no siempre será posible como podemos imaginar, se debe dar la condición de que

cada producto y suma estén bien definidos. Por ejemplo, para que 𝐴11 ∙ 𝐵11 esté bien

definido, el número de columnas de 𝐴11 tiene que ser el mismo que el de filas de 𝐵11. Y

esto ocurre cuando la primera línea que divida las columnas r y r + 1 de A verticalmente,

exactamente se corresponda con la primera línea que divida las correspondientes filas r

y r + 1 de B horizontalmente. Pero lo asombroso es que esta sea toda la condición que

se debe cumplir, siempre que una línea divida las columnas r y r + 1 de A verticalmente,

le debe corresponder una línea que divida las filas r y r + 1 correspondientes de B

horizontalmente, y no importa las líneas que dividan horizontalmente las filas de A ni

líneas que dividan verticalmente las columnas de B.

Precisemos esta discusión en un teorema:

TEOREMA: Se A una matriz m×p, B una matriz p×n, donde m = 𝑚1 + 𝑚2 + … + 𝑚𝑡, p =

𝑝1 + 𝑝2 + … + 𝑝𝑠, n = 𝑛1 + 𝑛2 + … + 𝑛𝑢 y supongamos A y B de la siguiente forma:

A = (

𝐴11 𝐴12 … 𝐴1𝑠𝐴21⋮𝐴𝑡1

𝐴22 … 𝐴2𝑠⋮ ⋱ ⋮

𝐴𝑡2 … 𝐴𝑡𝑠

), B = (

𝐵11 𝐵12 … 𝐵1𝑢𝐵21⋮𝐵𝑠1

𝐵22 … 𝐵2𝑢⋮ ⋱ ⋮

𝐵𝑠2 … 𝐵𝑠𝑢

),

Con particiones de A y B, tales que 𝐴𝑖𝑗 es 𝑚𝑖×𝑝𝑗, mientras que 𝐵𝑖𝑗 es 𝑝𝑖×𝑛𝑗, de forma

que sus productos son posibles, entonces:

A•B = (

𝐶11 𝐶12 … 𝐶1𝑢𝐶21⋮𝐶𝑡1

𝐶22 … 𝐶2𝑢⋮ ⋱ ⋮

𝐶𝑡2 … 𝐶𝑡𝑢

)

tal que, 𝐶𝑖𝑗 = ∑ 𝑘=𝑠𝑘=1 𝐴𝑖𝑘•𝐵𝑘𝑗 que es posible si el número de columnas de 𝐴𝑖𝑘 es igual al

de filas de 𝐵𝑘𝑗.

DEMOSTRACIÓN: Demostraremos este teorema en el caso sencillo de que las matrices

A y B se dividen en pocas filas y pocas columnas porque su generalización es sencilla. De

todas formas, necesitaremos dividir la demostración en 4 casos más sencillos. Sean A

una matriz m×r y B una matriz r×n.

a) Caso 1: Cuando B = (𝐵1 𝐵2 𝐵3), con 𝐵1 una matriz r×𝑡1, 𝐵2 una matriz r×𝑡2 y

𝐵3 una matriz r×𝑡3, entonces,

A•B = A•(𝑏1, … , 𝑏𝑡1 , 𝑏𝑡1+1, … , 𝑏𝑡1+𝑡2 , 𝑏𝑡1+𝑡2+1, … , 𝑏𝑡1+𝑡2+𝑡3) = (A•𝑏1, … , 𝐴 • 𝑏𝑡1 , 𝐴 •

𝑏𝑡1+1, . . . , 𝐴 • 𝑏𝑡1+𝑡2 , 𝐴 • 𝑏𝑡1+𝑡2+1, … , 𝐴 • 𝑏𝑛) = (𝐴 • 𝐵1 𝐴 • 𝐵2 𝐴 • 𝐵3), donde 𝑏𝑖

son las columnas de B y vemos que es fácil generalizar cuando la matriz B no la

dividimos en 3 submatrices columna sino en más de 3.

90

b) Caso 2: Cuando A = (𝐴1𝐴2), con 𝐴1 es una matriz t×r y 𝐴2 una matriz (m-t)×r. Entonces,

A•B =

(

𝑎1⋮𝑎𝑡𝑎𝑡+1⋮𝑎𝑚 )

•B =

(

𝑎1 • 𝐵⋮

𝑎𝑡 • 𝐵𝑎𝑡+1 • 𝐵

⋮𝑎𝑚 • 𝐵 )

= (𝐴1 • 𝐵𝐴2 • 𝐵

), donde 𝑎𝑖 son las filas de A y vemos que

este caso es fácil de generalizar cuando la matriz A no la subdividimos en dos

matrices fila, sino en más de dos.

c) Caso 3: Cuando A = (𝐴1 𝐴2 𝐴3), con 𝐴1 es una matriz m×𝑡1, 𝐴2 una matriz m×𝑡2

y 𝐴3 una matriz m×𝑡3 y B = (𝐵1𝐵2𝐵3

), con 𝐵1 una matriz 𝑡1×n, 𝐵2 una matriz 𝑡2×n y 𝐵3

una matriz 𝑡3×n. Si C = A•B, entonces, 𝑐𝑖𝑗 = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡𝑘=1 = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗

𝑘=𝑡1𝑘=1 +

∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡1+𝑡2𝑘=𝑡1+1

+ ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡1+𝑡2+𝑡3𝑘=𝑡1+𝑡2+1

, por lo que 𝑐𝑖𝑗 es la suma de la entrada (i,

j) de 𝐴1 • 𝐵1, de la entrada (i, j) de 𝐴2 • 𝐵2 y de la entrada (i, j) de 𝐴3 • 𝐵3 y

observemos que 𝐴1 • 𝐵1 es una matriz de m filas y n columnas al igual que 𝐴2 • 𝐵2

y 𝐴3 • 𝐵3, por lo que se pueden sumar, de modo que A•B = (𝐴1 𝐴2 𝐴3)•(𝐵1𝐵2𝐵3

) =

𝐴1 • 𝐵1 + 𝐴2 • 𝐵2 + 𝐴3 • 𝐵3. En este caso también el caso de A con 3 columnas y B

con 3 filas se puede generalizar fácilmente a n entradas.

d) Caso 4: A = (𝐴11 𝐴12 𝐴13 𝐴14𝐴21𝐴31

𝐴22 𝐴23 𝐴24𝐴32 𝐴33 𝐴34

), con 𝐴11 matriz de 𝑠1×𝑡1, 𝐴12, 𝑠1×𝑡2, 𝐴13 𝑠1×𝑡3,

𝐴14, 𝑠1×𝑡4; 𝐴21, 𝑠2×𝑡1, 𝐴22, 𝑠2×𝑡2, 𝐴23 𝑠2×𝑡3, 𝐴24, 𝑠2×𝑡4; 𝐴31 𝑠3×𝑡1, 𝐴32, 𝑠3×𝑡2, 𝐴33

𝑠3×𝑡3, 𝐴34, 𝑠3×𝑡4 y B = (

𝐵11 𝐵12𝐵21𝐵31𝐵41

𝐵22𝐵32𝐵42

), con 𝐵11 matriz de 𝑡1×u, 𝐵12, 𝑡1×(n-u); 𝐵21,

𝑡2×u, 𝐵22, 𝑡2× (n-u); 𝐵31, 𝑡3×u, 𝐵32, 𝑡3× (n-u); 𝐵41, 𝑡4×u, 𝐵42, 𝑡4× (n-u) . Ahora

hagamos 𝐴1 = (𝐴11𝐴21𝐴31

), 𝐴2 = (𝐴12𝐴22𝐴32

), 𝐴3 = (𝐴13𝐴23𝐴33

), 𝐴4 = (𝐴14𝐴24𝐴34

), y 𝐵1 = (𝐵11 𝐵12),

𝐵2 = (𝐵21 𝐵22), 𝐵3 = (𝐵31 𝐵32), 𝐵4 = (𝐵41 𝐵42)por lo que por el caso 3, A•B =

(𝐴1 𝐴2 𝐴3 𝐴4)•(

𝐵1𝐵2𝐵3𝐵4

) = 𝐴1 • 𝐵1 + 𝐴2 • 𝐵2 + 𝐴3 • 𝐵3 + 𝐴4 • 𝐵4 y por los casos

1 y 2, 𝐴1 • 𝐵1 = (𝐴11𝐴21𝐴31

)•𝐵1 = (𝐴11 • 𝐵1𝐴21 • 𝐵1𝐴31 • 𝐵1

) = (𝐴11 • 𝐵11 𝐴11 • 𝐵12𝐴21 • 𝐵11𝐴31 • 𝐵11

𝐴21 • 𝐵12𝐴31 • 𝐵12

) , también,

𝐴2 • 𝐵2 = (𝐴12𝐴22𝐴32

)•𝐵2 = (𝐴12 • 𝐵2𝐴22 • 𝐵2𝐴32 • 𝐵2

) = (𝐴12 • 𝐵21 𝐴12 • 𝐵22𝐴22 • 𝐵21𝐴32 • 𝐵21

𝐴22 • 𝐵22𝐴32 • 𝐵22

), también,

𝐴3 • 𝐵3 = (𝐴13𝐴23𝐴33

)•𝐵3 = (𝐴13 • 𝐵3𝐴23 • 𝐵3𝐴33 • 𝐵3

) = (𝐴13 • 𝐵31 𝐴13 • 𝐵32𝐴23 • 𝐵31𝐴33 • 𝐵31

𝐴23 • 𝐵32𝐴33 • 𝐵32

), y también,

91

𝐴4 • 𝐵4 = (𝐴14𝐴24𝐴34

)•𝐵4 = (𝐴14 • 𝐵4𝐴24 • 𝐵4𝐴34 • 𝐵4

) = (𝐴14 • 𝐵41 𝐴14 • 𝐵42𝐴24 • 𝐵41𝐴34 • 𝐵41

𝐴24 • 𝐵42𝐴34 • 𝐵42

), y por tanto,

(𝐴11 𝐴12 𝐴13 𝐴14𝐴21𝐴31

𝐴22 𝐴23 𝐴24𝐴32 𝐴33 𝐴34

)•(

𝐵11 𝐵12𝐵21𝐵31𝐵41

𝐵22𝐵32𝐵42

) =

(𝐴11 • 𝐵11 + 𝐴12 • 𝐵21 + 𝐴13 • 𝐵31 + 𝐴14 • 𝐵41 𝐴11 • 𝐵12 + 𝐴12 • 𝐵22 + 𝐴13 • 𝐵32 + 𝐴14 • 𝐵42𝐴21 • 𝐵11 + 𝐴22 • 𝐵21 + 𝐴23 • 𝐵31 + 𝐴24 • 𝐵41𝐴31 • 𝐵11 + 𝐴22 • 𝐵21 + 𝐴33 • 𝐵31 + 𝐴34 • 𝐵41

𝐴21 • 𝐵12 + 𝐴22 • 𝐵22 + 𝐴23 • 𝐵32 + 𝐴24 • 𝐵42𝐴31 • 𝐵12 + 𝐴32 • 𝐵22 + 𝐴33 • 𝐵32 + 𝐴34 • 𝐵42

)

donde es fácil generalizar, al caso en el que A tenga un número arbitrario, w bloques

columna, sin importar tampoco el número de bloques fila y el caso en el que B tenga w

bloques fila sin importar el número de bloques columna que tenga. □

EJEMPLO: Como aplicación inmediata de este teorema veremos que es muy útil cuando

las matrices a multiplicar tienen pocos bloques y varios bloques de ellos son de

elementos 0. Consideremos el caso de estas matrices A y B:

A = (𝐴11 ⋮ 0…0

… …

⋮ 𝐴22) =

(

−1 1 ⋮ 0 00…00

−1 ⋮ 0 0… … … …

0 ⋮ 1 10 ⋮ 0 1 )

, B = (𝐵11…𝐼2

) =

(

−1 00…10

−1…01 )

,

entonces,

A•B = (𝐴11 • 𝐵11 + 0 • 𝐼2

…0 • 𝐵11 + 𝐴22 • 𝐼2

) = (𝐴11 • 𝐵11

…𝐴22

) =

(

1 −20…10

1…11 )

.

5.6 Matriz traspuesta

DEFINICIÓN 1: Dada una matriz m×n, A, se define la matriz traspuesta de A, 𝐴𝑇, como la

matriz n×m (nótese que el número de filas de A, m, es el número de columnas de 𝐴𝑇, y

el número de columnas de A, n, es el de filas de 𝐴𝑇) cuyo elemento en la posición i, j, es

decir de la fila i y la columna j, es el elemento 𝑎𝑗𝑖, es decir el elemento de la fila j y

columna i de A. Es decir que las columnas de 𝐴𝑇, son las filas de A y las filas de 𝐴𝑇 son

las columnas de A. Es decir, si

A = (

𝑎11 𝑎12𝑎21 𝑎22



⋱ ⋮… 𝑎𝑚𝑛

) de orden m×n, entonces, 𝐴𝑇 = (

𝑎11 𝑎21𝑎12 𝑎22

… 𝑎𝑚1… 𝑎𝑚2

⋮ ⋮𝑎1𝑛 𝑎2𝑛

⋱ ⋮… 𝑎𝑚𝑛

)

de orden n×m.

EJEMPLO 1: Si A = (1 2 347

5 68 9

), entonces, 𝐴𝑇 = (1 4 723

5 86 9

).

92

PROPOSICIÓN 1 (Propiedades de la trasposición de matrices):

La trasposición de matrices cumple estas 4 primeras propiedades:

1. (𝐴𝑇)𝑇 = A.

2. (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵𝑇.

3. (𝐴 • 𝐵)𝑇 = 𝐵𝑇•𝐴𝑇.

4. (𝑢 • 𝐴)𝑇 = u•𝐴𝑇con u un escalar de 𝕂.

DEMOSTRACIÓN:

1. [(𝐴𝑇)𝑇 ]𝑖𝑗 = [𝐴𝑇 ]𝑗𝑖 = [𝐴 ]𝑖𝑗.

2. [(𝐴 + 𝐵)𝑇 ]𝑖𝑗 = [𝐴 + 𝐵 ]𝑗𝑖 = [𝐴 ]𝑗𝑖 + [𝐵 ]𝑗𝑖 = [𝐴𝑇 ]𝑖𝑗 + [𝐵𝑇 ]𝑖𝑗 = [𝐴𝑇 + 𝐵𝑇]𝑖𝑗.

3. Supongamos A matriz m×p y B matriz p×n, entonces, A•B es una matriz m×n, 𝐴𝑇

es p×m, 𝐵𝑇 es n×p, de modo que (𝐴 • 𝐵)𝑇, está bien definida y es n×m y 𝐵𝑇•𝐴𝑇,

está bien definida y es n×m. Ahora razonamos de la siguiente manera:

[(𝐴 • 𝐵)𝑇 ]𝑖𝑗 = [𝐴 • 𝐵 ]𝑗𝑖 = ∑ [𝐴 ]𝑗𝑘 𝑘=𝑝𝑘=1 •[𝐵 ]𝑘𝑖 = ∑ [𝐴𝑇 ]𝑘𝑗

𝑘=𝑝𝑘=1 •[𝐵𝑇 ]𝑖𝑘 =

∑ 𝑘=𝑝𝑘=1 [𝐵𝑇 ]𝑖𝑘•[𝐴𝑇 ]𝑘𝑗 = [𝐵𝑇 • 𝐴𝑇]𝑖𝑗.

4. [(𝑢 • 𝐴)𝑇 ]𝑖𝑗 = [𝑢 • 𝐴 ]𝑗𝑖 = u•𝑎𝑗𝑖 = u•[𝐴𝑇]𝑖𝑗 = [𝑢 • 𝐴𝑇]𝑖𝑗. □

Por inducción se demuestra el siguiente corolario a la proposición anterior:

COROLARIO 1 (Otras propiedades de la trasposición de una matriz):

La trasposición de matrices cumple las siguientes propiedades:

1. (𝐴1 +⋯+ 𝐴𝑘)𝑇 = 𝐴1

𝑇 + … + 𝐴𝑘𝑇, para k número natural.

2. (𝐴1 • … • 𝐴𝑘)𝑇 = 𝐴𝑘

𝑇 • … • 𝐴1𝑇, para k número natural.

DEMOSTRACIÓN: Se deja al lector como ejercicio de demostración por inducción. □

Hacemos notar en la siguiente proposición la relación que tienen las matrices

escalonadas reducidas con la trasposición de matrices.

PROPOSICIÓN 2:

1. La matriz A es escalonada reducida por columnas si y solo si, 𝐴𝑇 es escalonada

reducida por filas y viceversa.

2. Dos matrices A y B son equivalentes por columnas si y solo si, sus traspuestas son

equivalentes por filas y viceversa.

DEMOSTRACIÓN: 1. Esto resulta claro si pensamos que las columnas de una matriz son

las filas de su traspuesta y viceversa. 2. Esta proposición es consecuencia de la anterior

si pensamos que dos matrices equivalentes por filas o columnas lo son si son

equivalentes (por filas o columnas) con la forma normal de Hermite correspondiente

(por filas o columnas) de ambas. □

COROLARIO 2 (unicidad de la forma escalonada reducida por columnas):

La forma escalonada reducida por columnas de una matriz es única.

93

DEMOSTRACIÓN: Según la proposición anterior una matriz A es escalonada reducida por

columnas si 𝐴𝑇 es escalonada reducida por filas, puesto que 𝐴𝑇 es única también lo es

A pues si hubiera otra matriz B, escalonada reducida por columnas, su transpuesta 𝐵𝑇

sería una forma escalonada reducida por filas diferente de 𝐴𝑇, pero hemos visto que

esta es única. □

Por último, terminamos con unas definiciones y un ejemplo.

DEFINICIONES 2: Sea A una matriz cuadrada, decimos que A es simétrica si ocurre que A

= 𝐴𝑇. Notemos que para que esto ocurra se dará la condición 𝑎𝑗𝑖 = 𝑎𝑖𝑗. También

llamamos a un matriz cuadrada A, antisimétrica si 𝐴𝑇 = -A. Y esto ocurrirá si 𝑎𝑗𝑖 = -𝑎𝑖𝑗,

que para los elementos de la diagonal principal se tiene 𝑎𝑖𝑖 = -𝑎𝑖𝑖, por lo que en el caso

de que los coeficientes de la matriz sean los números reales o complejos implica que

𝑎𝑖𝑖 = 0. Esto es, los elementos de la diagonal en una matriz antisimétrica real o compleja

son todos 0.

EJEMPLO 2: La matriz (1 2 323

2 55 7

) es simétrica, mientras que (1 2 423

2 55 7

) no lo es

puesto que 𝑎31 = 3 ≠ 4 = 𝑎13.

La matriz A = (0 2 −3−23

0 5−5 0

), es antisimétrica ya que 𝐴𝑇 = -A = (0 −2 32−3

0 −55 0

).

5.7 Propiedades del rango y de la traza

Vamos a ver ahora unas propiedades de los rangos y las trazas de una matriz en las

siguientes proposiciones.

PROPOSICIÓN 1: Sean A y B matrices m×n, entonces se cumple lo siguiente:

1. rag(u•A) = rag(A), donde u es un escalar de 𝕂.

2. |rag(A) – rag(B)| ≤ rag(A + B) ≤ rag(A) + rag(B)

DEMOSTRACIÓN:

1. Es evidente ya que u•A se obtiene de A por transformaciones elementales de filas,

en concreto multiplicando cada fila por u y por tanto la forma de Hermite y por tanto

el rango, es el mismo.

2. Sean 𝐻𝐴, 𝐻𝐵, la formas de Hermite por filas de A y B. Veamos:

Rag(A + B) ≤ rag(𝐴 + 𝐵𝐵

), pero aplicando operaciones elementales en (𝐴 + 𝐵𝐵

),

vemos que esta matriz es equivalente a esta otra (𝐴𝐵) y ésta otra es equivalente a

(𝐻𝐴𝐻𝐵), y por tanto,

Rag(A + B) ≤ rag(𝐴 + 𝐵𝐵

) = rag(𝐴𝐵) = rag(

𝐻𝐴𝐻𝐵) ≤ rag(A) + rag(B).

Cuya última desigualdad se justifica porque el rango de una matriz es menor que el

número de filas no nulas que posee.

94

Por otro lado, puesto que A = (A + B) + (-B), rag(A) ≤ rag(A + B) + rag(-B) =

rag(A + B) + rag(B), por lo que rag(A) – rag(B) ≤ rag(A + B).

De B = (A + B) – A, se obtiene que rag(B) – rag(A) ≤ rag(A + B), de modo que por las

propiedades del valor absoluto se obtiene que |rag(A) – rag(B)| ≤ rag(A + B). □

PROPOSICIÓN 2: Dadas dos matrices cuadradas A y B se cumple lo siguiente:

1. tr(A + B) = tr(A) + tr(B).

2. tr(u•A) = u•tr(A), con u escalar de 𝕂.

3. tr(A•B) = tr(B•A).

DEMOSTRACIÓN:

1. Los elementos de la diagonal de A + B son 𝑎11 + 𝑏11, …, 𝑎𝑛𝑛 + 𝑏𝑛𝑛, por lo que

tr(A + B) = (𝑎11 + 𝑏11) + … + (𝑎𝑛𝑛 + 𝑏𝑛𝑛) = (𝑎11 + … + 𝑎𝑛𝑛) + (𝑏11 + … + 𝑏𝑛𝑛) =

= tr(A) + tr(B).

2. tr(u•A) = u•𝑎11 + … + u•𝑎𝑛𝑛 = u•(𝑎11 + … + 𝑎𝑛𝑛) = u•tr(A).

3. Con C = A•B, los elementos de la diagonal de C son:

𝑐11 = 𝑎11 • 𝑏11 + … + 𝑎1𝑛 • 𝑏𝑛1, …, 𝑐𝑛𝑛 = 𝑎𝑛1 • 𝑏1𝑛 + … + 𝑎𝑛𝑛 • 𝑏𝑛𝑛, y por tanto,

tr(A•B) = ∑ 𝑐𝑖𝑖𝑖=𝑛𝑖=1 = ∑ ∑ 𝑎𝑖𝑗

𝑗=𝑛𝑗=1 𝑏𝑗𝑖

𝑖=𝑛𝑖=1 = ∑ ∑ 𝑏𝑗𝑖

𝑖=𝑛𝑖=1 𝑎𝑖𝑗

𝑗=𝑛𝑗=1 = tr(B•A), pues los índices

i, j se recorren para todos los i, j en ambas expresiones. □

6 Matrices regulares

6.1 Matrices Elementales

En esta subsección veremos que realizar transformaciones elementales en una matriz

es lo mismo que multiplicar esa matriz por la derecha o por la izquierda por otra matriz

especial.

DEFINICIÓN 1: Llamaremos matrices elementales por filas de orden n a las matrices

resultantes de aplicar una y solo una, transformación elemental por filas a la matriz

identidad de orden n. Puesto que hay 3 tipos de transformaciones elementales por filas,

habrá también 3 tipos de matrices elementales que a continuación definimos:

Tipo I: Consiste en intercambiar la fila i por la fila j en la matriz identidad, la denotaremos

como 𝐸𝑖𝑗.

Tipo II: Consiste en multiplicar la fila i de la matriz identidad por el escalar k, la

denotaremos por 𝐸𝑖(k).

Tipo III: Consiste en sumar a la fila i de la matriz identidad, la fila j multiplicada por el

escalar k, la denotaremos por 𝐸𝑖𝑗(k).

De modo análogo podemos definir las matrices elementales por columnas:

95

DEFINICIÓN 2: Llamamos matriz elemental por columnas de orden n a la matriz que

resulta de realizar una operación elemental por columnas en la matriz identidad de

orden n. Hay 3 tipos de matrices elementales por columnas:

Tipo I: Consiste en intercambiar la columna i por la columna j en la matriz identidad, la

denotaremos como 𝐹𝑖𝑗.

Tipo II: Consiste en multiplicar la columna i de la matriz identidad por el escalar k, la

denotaremos por 𝐹𝑖(k).

Tipo III: Consiste en sumar a la columna i de la matriz identidad, la columna j multiplicada

por el escalar k, la denotaremos por 𝐹𝑖𝑗(k).

EJEMPLO: Para el orden 4 tenemos las siguientes matrices elementales por filas:

𝐸13 = (

0 0 1 0010

1 0 00 0 00 0 1

), 𝐸3(2) = (

1 0 0 0000

1 0 00 2 00 0 1

), 𝐸24(3) = (

1 0 0 0000

1 0 30 1 00 0 1

),

Para el mismo orden, tenemos las siguientes matrices elementales por columnas:

𝐹13 = (

0 0 1 0010

1 0 00 0 00 0 1

), 𝐹3(2) = (

1 0 0 0000

1 0 00 2 00 0 1

), 𝐹24(3) = (

1 0 0 0000

1 0 00 1 03 0 1

).

Fijémonos en como 𝐸13 = 𝐹13, 𝐸3(2) = 𝐹3(2) y 𝐸24(3) ≠ 𝐹24(3). En cambio, ocurrirá que

𝐸24(3) = 𝐹42(3). Estos hechos los demostraremos en forma general en la siguiente

proposición, después de los 2 siguientes teoremas.

TEOREMA 1: Sea A una matriz de orden m×n y sea E, una matriz elemental por filas de

orden m, entonces:

E•A es la matriz que se obtiene de A aplicando a sus filas la misma transformación que

se aplica a la identidad (de orden m) para obtener E.

DEMOSTRACIÓN: Dividiremos la demostración en 3 casos correspondientes a los 3 tipos

de matrices elementales por filas que existen y utilizaremos como elemento esencial el

caso 3 de la proposición 5.4.2 que dice que fila_i(E•A) = fila_i(E)•A:

1. Matrices de tipo I: Demostraremos que las dos matrices E•A y B, resultado de

intercambiar las filas i y j de A, tienen las mismas filas y por lo tanto son iguales:

a) Para la fila i resulta: fila_i(𝐸𝑖𝑗•A) = fila_i(𝐸𝑖𝑗)•A = fila_j(I)•A = fila_j(A) = fila_i(B).

b) Para la fila j tenemos: fila_j(𝐸𝑖𝑗•A) = fila_j(𝐸𝑖𝑗)•A = fila_i(I)•A = fila_i(A) =

fila_j(B).

c) Para la fila h ≠ i, j tenemos: fila_h(𝐸𝑖𝑗•A) = fila_h(𝐸𝑖𝑗)•A = fila_h(I)•A = fila_h(A)

= fila_h(B).

Por tanto, las filas de 𝐸𝑖𝑗•A y de B coinciden y por tanto las matrices son iguales.

2. Matrices de tipo II:

96

a) Para las filas j ≠ i tenemos: fila_j(𝐸𝑖(𝑘)•A) = fila_j(𝐸𝑖(𝑘))•A = fila_j(I)•A =

fila_j(A) = fila_j(B).

b) Para la fila i tenemos: fila_i(𝐸𝑖(𝑘)•A) = fila_i(𝐸𝑖(𝑘))•A = (k•fila_j(I))•A =

k•fila_i(A) = fila_i(B).

Por tanto, las filas de 𝐸𝑖(𝑘)•A y B son iguales y por tanto las matrices son iguales.

3. Matrices de tipo III:

a) Para las filas diferentes de i tenemos que fila_h(𝐸𝑖𝑗(k)•A) = fila_h(B).

b) Para la fila i tenemos: fila_i(𝐸𝑖𝑗(k)•A) = fila_i(𝐸𝑖𝑗(k))•A = (fila_i(I) + k•fila_j(I))•A

= fila_i(I)•A + k•fila_j(I)•A = fila_i(I•A) + k•fila_j(I•A) = fila_i(A) + k•fila_j(A) =

fila_i(B).

Por lo que vemos que 𝐸𝑖𝑗(k)•A = B, por el mismo argumento que antes. □

De igual manera se obtiene el siguiente teorema referente a las matrices elementales

columna y al producto de estas por A.

TEOREMA 2: Sea A una matriz de orden m×n y sea F una matriz elemental por columnas

de orden n, entonces:

A•F es la matriz que se obtiene de A aplicando a sus columnas la misma transformación

que se aplica a la identidad (de orden n) para obtener F.

DEMOSTRACIÓN: Es una demostración totalmente análoga a la anterior donde ahora

utilizaremos el caso 7 de la proposición 5.4.2 que dice que columna_i(A•F) =

A•columna_i(F):

1. Matrices de tipo I:

a) Para la columna i resulta: columna_i(A•𝐹𝑖𝑗) = A• columna_i(𝐹𝑖𝑗) =

A•columna_j(I) = columna_j(A) = columna_i(B).

b) Para la columna j resulta: columna_j(A•𝐹𝑖𝑗) = A• columna_j(𝐹𝑖𝑗) =

A•columna_i(I) = columna_i(A) = columna_j(B).

c) Para la columna h ≠ i, j se tiene que columna_h(A•𝐹𝑖𝑗) = columna_h(B).

Por lo tanto llegamos a la conclusión de que A•𝐹𝑖𝑗 = B.

2. Matrices de tipo II:

a) Para las columnas j ≠ i tenemos: columna_j(A•𝐹𝑖(𝑘)) = columna_j(B).

b) Para la columna i tenemos: columna_i(A•𝐹𝑖(𝑘)) = A• columna_i(𝐹𝑖(𝑘)) =

A•k•columna_i(I) = k•columna_i(A) = columna_i(B).

Por tanto, A•𝐹𝑖(𝑘) = B.

3. Matrices de tipo III:

a) Para columnas diferentes de i tenemos que columna_h(A•𝐹𝑖𝑗(k)) =

columna_h(B).

b) Para la columna i tenemos: columna_i(A•𝐹𝑖𝑗(k)) = A•columna_i(𝐹𝑖𝑗(k)) =

A•(columna_i(I) + k•columna_j(I)) = A•columna_i(I) + k•A•columna_j(I) =

columna_i(A) + k•columna_j(A) = columna_i(B).

97

Por lo que, de nuevo, A•𝐹𝑖𝑗(k) = B y hemos demostrado el teorema. □

Como consecuencia de los teoremas 1 y 2 llegamos a este corolario importante

teóricamente:

COROLARIO: Sea A una matriz m×n, H su forma normal de Hermite por filas y C su forma

normal de Hermite por columnas, entonces:

1. H = 𝐸𝑘•𝐸𝑘−1•…•𝐸1•A, para algunas matrices elementales por filas, 𝐸1, …, 𝐸𝑘 de

orden m.

2. C = A•𝐹1•𝐹2•…•𝐹𝑠, para algunas matrices elementales por columnas, 𝐹1, 𝐹2, …,

𝐹𝑠, de orden n.

Ahora para terminar demostraremos la relación que tienen las matrices elementales por

filas con las matrices elementales por columnas:

PROPOSICIÓN: Se cumplen las siguientes igualdades:

1. 𝐹𝑖𝑗 = (𝐸𝑖𝑗) 𝑡 = 𝐸𝑖𝑗.

2. 𝐹𝑖(k) = (𝐸𝑖(k)) 𝑡 = 𝐸𝑖(k).

3. 𝐹𝑖𝑗(k) = (𝐸𝑖𝑗(k)) 𝑡 = 𝐸𝑗𝑖(k).

DEMOSTRACIÓN:

1. Sea una matriz A cualquiera, m×n, entonces, 𝐸𝑖𝑗•A intercambia i por la j de A, pero

pasando a la traspuesta, (𝐸𝑖𝑗 • A )𝑡 = 𝐴𝑡•𝐸𝑖𝑗

𝑡 ocurre que esta matriz es el resultado

de intercambiar la columna i por la j en 𝐴𝑡, por lo que 𝐹𝑖𝑗 = (𝐸𝑖𝑗) 𝑡, pero como vamos

a ver en los ejemplos siguientes, (𝐸𝑖𝑗) 𝑡 = 𝐸𝑖𝑗 = 𝐹𝑖𝑗.

2. 3. Se obtienen aplicando el mismo argumento anterior. □

EJEMPLO 3: Fijémonos en el orden n = 4. Entonces:

𝐸13 = (

0 0 1 0010

1 0 00 0 00 0 1

), 𝐹13 = (

0 0 1 0010

1 0 00 0 00 0 1

),

𝐸3(2) = (

1 0 0 0000

1 0 00 2 00 0 1

), 𝐹3(2) = (

1 0 0 0000

1 0 00 2 00 0 1

),

𝐸24(3) = (

1 0 0 0000

1 0 30 1 00 0 1

), 𝐹24(3) = (

1 0 0 0000

1 0 00 1 03 0 1

), 𝐹42(3) = (

1 0 0 0000

1 0 30 1 00 0 1

).

6.2 Matriz Inversa, Matrices Regulares

DEFINICIÓN 1: Sean A, B de 𝔐n(𝕂), se dice que B es la matriz inversa de A, si A•B = B•A

= 𝐼𝑛. Diremos que la matriz A es invertible si existe una matriz inversa de A.

Veamos que no toda matriz tiene inversa en el siguiente ejemplo.

98

EJEMPLO 1: La matriz A = (1 00 0

) no puede tener inversa puesto que al multiplicarla por

cualquier otra matriz cuadrada de orden 2 se tiene lo siguiente:

(1 00 0

)•(𝑎 𝑏𝑐 𝑑

) = (𝑎 𝑏0 0

), que no puede ser nunca la identidad.

LEMA 1: Una matriz invertible A de 𝔐n(𝕂) tiene una única inversa.

DEMOSTRACIÓN: Si A tuviese dos inversas B, C, entonces, A•B = B•A = A•C = C•A = I, de

modo, que tendríamos: B = B•I = B•(A•C) = (B•A)•C = I•C = C. □

DEFINICIÓN 2: Dada una matriz invertible A de 𝔐n(𝕂), a la inversa de A la denotaremos

como 𝐴−1.

EJEMPLO 2: La matriz A = (1 11 2

) es invertible y su inversa es 𝐴−1 = (2 −1−1 1

), ya que,

(1 11 2

)•(2 −1−1 1

) = (1 00 1

) y (2 −1−1 1

)•(1 11 2

) = (1 00 1

) .

PROPOSICIÓN 1: Dadas A, B, 𝐴1, …, 𝐴𝑛, de 𝔐n(𝕂) se verifica lo siguiente:

1. Si A y B son invertibles, entonces, A•B es invertible y su inversa es (A • B)−1 =

B−1•A−1.

2. Si 𝐴1, …, 𝐴𝑛 son invertibles, entonces, 𝐴1•…• 𝐴𝑛 es invertible y (𝐴1 • … • 𝐴𝑛)−1 =

𝐴𝑛−1•…•𝐴1

−1.

3. Si A es invertible, entonces, 𝐴𝑡 es invertible y (𝐴𝑡)−1 = (𝐴−1)𝑡.

DEMOSTRACIÓN:

1. Si A y B son invertibles, entonces, (A•B)•( B−1•A−1) = A•(B•B−1)•A−1 = A•I•A−1 =

I, y también, ( B−1•A−1)•( A•B) = B−1•(A−1• A)•B = = B−1•I•B = I.

2. Se deja al lector como ejercicio de la demostración por inducción una vez sabido el

caso anterior.

3. Si A es invertible, entonces, 𝐴𝑡•(𝐴−1)𝑡 = (𝐴−1 • 𝐴)𝑡 = 𝐼𝑡 = I y también, (𝐴−1)𝑡•𝐴𝑡 =

(𝐴 • 𝐴−1)𝑡 = I, con lo que 𝐴𝑡 es invertible y su inversa es (𝐴−1)𝑡. □

LEMA 2: Cada matriz elemental por filas o columnas es invertible y su inversa es otra

matriz elemental de la misma clase.

DEMOSTRACIÓN: Dividamos la demostración en 3 casos:

I. 𝐸𝑖𝑗•𝐸𝑖𝑗 = I y 𝐹𝑖𝑗•𝐹𝑖𝑗 = I, por lo que 𝐸𝑖𝑗−1 = 𝐸𝑖𝑗 y 𝐹𝑖𝑗

−1 = 𝐹𝑖𝑗.

II. 𝐸𝑖(k)• 𝐸𝑖(1/k) = 𝐸𝑖(1/k)• 𝐸𝑖(k) = I y, también, 𝐹𝑖(k)• 𝐹𝑖(1/k) = 𝐹𝑖(1/k)• 𝐹𝑖(k) = I,

por lo que, 𝐸𝑖(k)−1 = 𝐸𝑖(1/k) y 𝐹𝑖(k)

−1 = 𝐹𝑖(1/k).

III. 𝐸𝑖𝑗(k)• 𝐸𝑖𝑗(-k) = 𝐸𝑖𝑗(-k)• 𝐸𝑖𝑗(k) = I y también, 𝐹𝑖𝑗(k)• 𝐹𝑖𝑗(-k) = 𝐹𝑖𝑗(-k)• 𝐹𝑖𝑗(k) = I,

por lo que, (𝐸𝑖𝑗(k))−1 = 𝐸𝑖𝑗(-k) y (𝐹𝑖𝑗(k))

−1 = 𝐹𝑖𝑗(-k). □

Ahora veremos un teorema importante después de una conveniente definición.

DEFINICIÓN 3: Se dice que A es regular por la derecha si B•A = 0 implica que B = 0. Y se

dice que A es regular por la izquierda si A•B = 0 implica que B = 0.

99

TEOREMA: Para una matriz cuadrada A de 𝔐n(𝕂), las siguientes afirmaciones son

equivalentes:

a) A es invertible.

b) A es regular por la derecha

b’) A es regular por la izquierda

c) rag(A) = n

d) La forma de Hermite por filas de A es la indentidad

d’) La forma de Hermite por columnas de A es la identidad

e) A es un producto de matrices elementales

DEMOSTRACIÓN:

a) Implica b): Si A es invertible y B•A = 0, entonces, multiplicando por 𝐴−1 por la

derecha en la igualdad queda (B•A)• 𝐴−1 = B = 0.

b) Implica c): Supongamos que rag(A) < n y sea H la forma de Hermite por filas de A.

Entonces, la última fila de H será de ceros y consideremos la siguiente matriz:

D =

(

0 0 … 0 00⋮00

0 … 0 0⋮ ⋱ ⋮ ⋮0 … 0 00 … 0 1)

, compuesta enteramente de ceros salvo en la posición

[𝐷]𝑛𝑛, entonces es evidente que D•H = 0, pero H = 𝐸𝑘•…•𝐸1•A, para ciertas

matrices elementales, 𝐸1,…, 𝐸𝑘 y por tanto, 0 = D•H = (D•𝐸𝑘•…•𝐸1)•A y tenemos

por tanto una matriz B = D•𝐸𝑘•…•𝐸1, distinta de 0 de forma que B•A = 0. Lo cual es

una contradicción con la hipótesis b). Notemos que B ≠ 0 es una consecuencia de

que 𝐸𝑘•…•𝐸1 es invertible y por tanto, regular por la derecha.

c) Implica d): Si rag(A) = n la forma normal de Hermite, H, será una matriz escalonada

reducida de orden n×n con n pivotes 1 cada uno a la derecha del anterior y por tanto

no hay otra posibilidad salvo que H se la identidad.

d) Implica e): Si la forma normal de Hermite de A es la identidad, entonces, I =

𝐸𝑘•…•𝐸1•A; multiplicando esta ecuación por la izquierda por A obtenemos A =

A•𝐸𝑘•…•𝐸1•A, de modo que también A•𝐸𝑘•…•𝐸1 = I (por ser la matriz identidad I

única) y podemos decir que 𝐸𝑘•…•𝐸1 = 𝐴−1, con lo que A = 𝐸1−1•…•𝐸𝑘

−1 es un

producto de matrices elementales, ya que la inversa de una matriz elemental es otra

matriz elemental.

e) Implica a): Si A es un producto de matrices elementales entonces A es una matriz

invertible al ser un producto de matrices invertibles.

Ahora demostremos las implicaciones a) implica b’) implica c) implica d’) implica e).

a) Implica b’) Si A es invertible y A•B = 0, entonces, multiplicando por 𝐴−1 por la

izquierda en la igualdad anterior, tenemos, 𝐴−1• A•B = I•B = 0, es decir, B = 0.

100

b’) implica c). Supongamos que rag(A) < n y sea H’ la forma normal de Hermite por filas

de A, entonces (𝐻′)𝑇 = H es la forma de Hermite por columnas de A. Entonces, la última

columna de H será de ceros y consideremos la siguiente matriz:

D =

(

0 0 … 0 00⋮00

0 … 0 0⋮ ⋱ ⋮ ⋮0 … 0 00 … 0 1)

, compuesta enteramente de ceros salvo en la posición[𝐷]𝑛𝑛,

entonces es evidente que H•D = 0, pero H = A•𝐸1•…•𝐸𝑘, para ciertas matrices

elementales, 𝐸1,…, 𝐸𝑘 y por tanto, 0 = H•D = (A•𝐸1•…•𝐸𝑘)•D y tenemos por tanto, una

matriz B = 𝐸1•…•𝐸𝑘•D, distinta de 0 de forma que A•B = 0. Lo cual es una contradicción

con la implicación de a) a b’). Notemos que B ≠ 0 es una consecuencia de que 𝐸1•…•𝐸𝑘

es invertible y, por tanto, regular por la izquierda.

c) implica d’). Si rag(A) = n la forma normal de Hermite por filas, H’, será una matriz

escalonada reducida de orden n×n con n pivotes 1 cada uno a la derecha del anterior y

por tanto no hay otra posibilidad salvo que H’ se la identidad, de modo que (𝐻′)𝑇 = H

que es la forma de Hermite por columnas de A, también es la identidad.

d’) implica e). Si la forma normal de Hermite por filas de A es la identidad, entonces, I =

𝐸𝑘•…•𝐸1•A, de modo que 𝐼𝑇 = I = A• 𝐸1𝑇•…•𝐸𝑘

𝑇; multiplicando esta ecuación por la

derecha por A obtenemos A = A• 𝐸1𝑇•…•𝐸𝑘

𝑇•A, de modo que también 𝐸1𝑇•…•𝐸𝑘

𝑇•A

= I (por ser la matriz identidad I única) y podemos decir que 𝐸1𝑇•…•𝐸𝑘

𝑇= 𝐴−1, con lo

que A = (𝐸𝑘𝑇)−1•…•(𝐸1

𝑇)−1 es un producto de matrices elementales, ya que la inversa

y la transpuesta de una matriz elemental es otra matriz elemental. □

DEFINICIÓN 4: Gracias al teorema anterior podemos identificar el concepto de matriz

invertible con el de matriz regular. Una matriz que no sea regular se llamará singular.

Veamos ahora el siguiente interesante corolario del teorema anterior el cuál dice que

para saber si una matriz A es regular solo es necesario saber que existe una matriz B que

cumple solamente una de estas dos condiciones o que A•B = I o que B•A = I, es decir,

que basta una de las dos condiciones para que se cumpla la otra.

COROLARIO: Sean A, B matrices n×n tales que A•B = I, entonces A es invertible y B = 𝐴−1.

DEMOSTRACIÓN: Comprobamos la condición b) del teorema anterior:

Sea X•A = 0, entonces, X = X•I = X•(A•B) = (X•A)•B = 0•B = 0. Por tanto, A es regular por

la derecha, por lo que A es invertible, si 𝐴−1 es su inversa se cumple, A•B = I y

multiplicando por la izquierda por 𝐴−1 en la anterior igualdad se tiene, 𝐴−1 •(A•B) =

𝐴−1•I, lo que implica que B = 𝐴−1. □

6.3 Cálculo de la matriz Inversa

Como consecuencia de las subsecciones 6.1 y 6.2 tenemos el siguiente útil corolario cuya

utilidad se podrá comprobar enseguida.

101

COROLARIO: Sea A una matriz m×n y sea H su forma normal de Hermite por filas,

entonces, existe una matriz regular Q de 𝔐𝑚(𝕂), de forma que H = Q•A.

DEMOSTRACIÓN: Esto es consecuencia del Teorema 6.1.1, del lema 6.2.2 y del teorema

6.2.1, pues con estas proposiciones sabemos que H = 𝐸𝑘•…•𝐸1•A y entonces se tiene

que Q = 𝐸𝑘•…•𝐸1 que es una matriz regular. □

Ahora veamos que Q = 𝐸𝑘•…•𝐸1 se puede calcular aplicando a la matriz identidad las

mismas transformaciones que le aplicamos a A para obtener H. Entonces si ampliamos

A con la matriz identidad:

(A|I) = (

𝑎11 𝑎12 … 𝑎1𝑛 ⋮ 1 0 … 0𝑎21⋮

𝑎𝑚1

𝑎22 … 𝑎2𝑛 ⋮ 0 1 … 0⋮ ⋱ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮

𝑎𝑚2 … 𝑎𝑚𝑛 ⋮ 0 0 … 1

),

y por medio de transformaciones elementales por filas obtenemos H en la parte

izquierda, en la parte derecha tendremos Q.

EJEMPLO 1: Sea la matriz A = (1 2 0 111

1 2 00 2 1

), entonces,

(A|I) = (1 2 0 1 ⋮ 1 0 011

1 2 0 ⋮ 0 1 00 2 1 ⋮ 0 0 1

), → (1 2 0 1 ⋮ 1 0 001

−1 2 −1 ⋮ −1 1 00 2 1 ⋮ 0 0 1

), →

(1 2 0 1 ⋮ 1 0 001

−1 2 −1 ⋮ −1 1 0−2 2 0 ⋮ −1 0 1

), → (1 2 0 1 ⋮ 1 0 000

1 −2 1 ⋮ 1 −1 0−2 2 0 ⋮ −1 0 1

), →

(1 2 0 1 ⋮ 1 0 000

1 −2 1 ⋮ 1 −1 00 −2 2 ⋮ 1 −2 1

), → (

1 2 0 1 ⋮ 1 0 0

00

1 −2 1 ⋮ 1 −1 0

0 1 −1 ⋮ −1

21 −

1

2

), →

(

1 2 0 1 ⋮ 1 0 0

00

1 0 −1 ⋮ 0 1 −1

0 1 −1 ⋮ −1

21 −

1

2

), → (

1 0 0 3 ⋮ 1 −2 2

00

1 0 −1 ⋮ 0 1 −1

0 1 −1 ⋮ −1

21 −

1

2

),

por lo que la forma de Hermite por filas de A es H = (1 0 0 300

1 0 −10 1 −1

) y

Q = (

1 −2 20

−1

2

1 −1

1 −1

2

) y se tiene que

Q•A = (

1 −2 20

−1

2

1 −1

1 −1

2

)•(1 2 0 111

1 2 00 2 1

) = (1 0 0 300

1 0 −10 1 −1

) = H.

Ahora viene la consecuencia que titula esta subsección: en el caso de que A sea regular

su forma normal de Hermite por filas es la identidad y el corolario anterior dice que Q•A

102

= I, por lo que Q = 𝐴−1 y por tanto, hemos obtenido un método sencillo para calcular la

inversa de una matriz regular.

EJEMPLO 2: Sea la matriz A = (1 2 323

3 44 6

), entonces,

(A|I) = (1 2 3 ⋮ 1 0 023

3 4 ⋮ 0 1 04 6 ⋮ 0 0 1

) , → (1 2 3 ⋮ 1 0 003

−1 −2 ⋮ −2 1 04 6 ⋮ 0 0 1

), →

(1 2 3 ⋮ 1 0 000

−1 −2 ⋮ −2 1 0−2 −3 ⋮ −3 0 1

), → (1 2 3 ⋮ 1 0 000

1 2 ⋮ 2 −1 0−2 −3 ⋮ −3 0 1

), →

(1 2 3 ⋮ 1 0 000

1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1

), → (1 0 −1 ⋮ −3 2 000

1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1

), →

(1 0 0 ⋮ −2 0 100

1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1

), → (1 0 0 ⋮ −2 0 100

1 0 ⋮ 0 3 −20 1 ⋮ 1 −2 1

),

por lo que, 𝐴−1 = (−2 0 101

3 −2−2 1

).

6.4 Matrices equivalentes

Recordemos ahora en las siguientes líneas y lemas el concepto de matrices equivalentes

por filas y columnas. Sabemos que dos matrices A y B son equivalentes por filas y se

denota así A ~𝑓 B, si se puede pasar de una a otra por transformaciones elementales de

filas. De la misma manera, A y B son equivalentes por columnas, A ~𝑐 B, si se puede

pasar de una a otra por transformaciones elementales de columnas.

LEMA 1: Dadas matrices A, B, m×n, las siguientes afirmaciones son equivalentes:

1. A y B son equivalentes por filas.

2. A y B tienen la misma forma normal de Hermite por filas.

3. Existe una matriz regular Q de 𝔐𝑚(𝕂) tal que B = Q•A.

DEMOSTRACIÓN:

1) Es equivalente a 2) Esto es el teorema 4.4.1.

1) Es equivalente a 3) A ~𝑓 B si y solo si, B se obtiene de A por transformaciones

elementales de filas o lo que es equivalente, existen matrices elementales por filas,

𝐸1, …, 𝐸𝑘, tales que B = 𝐸𝑘•…•𝐸1•A, por tanto, B = Q•A, con Q regular y Q = 𝐸𝑘•…•𝐸1

(Q es regular ya que una matriz que es el producto de matrices elementales es

regular), además si B = Q•A con Q regular, entonces A ~𝑓 B, pues toda matriz regular

es producto de matrices elementales. □

LEMA 2: Dadas matrices A, B, m×n, las siguientes afirmaciones son equivalentes:

1. A y B son equivalentes por columnas.

103

2. A y B tienen la misma forma normal de Hermite por columnas.

3. Existe una matriz regular P de 𝔐𝑛(𝕂) tal que B = A•P.

DEMOSTRACIÓN:

1) Es equivalente a 2) Es consecuencia del lema anterior y la proposición 5.6.2.

1) Es equivalente a 3) A ~𝑐 B, si y solo si, B se obtiene de A por transformaciones

elementales de columnas, o lo que es equivalente, existen matrices elementales por

columnas 𝐹1, …, 𝐹𝑘, tales que B = A•𝐹1•…•𝐹𝑘, de modo que B = A•P, con P = 𝐹1•…•𝐹𝑘

y sabemos que P es regular por ser producto de matrices regulares, además, si B =

A•P, para alguna matriz regular P, entonces, B se obtiene de A por sucesión de

transformaciones elementales, ya que cualquier matriz regular P es producto de

matrices elementales. □

Ahora veamos que hay una relación de equivalencia más general entre matrices que la

equivalencia por filas o columnas.

DEFINICIÓN: Se dice que dos matrices A y B m×n son equivalentes y se nota así: A ~ B, si

B se puede obtener de A por transformaciones elementales de filas y columnas. Por

tanto, dos matrices equivalentes por filas son equivalentes y dos matrices equivalentes

por columnas son equivalentes, pero el recíproco no es cierto: dos matrices equivalentes

pueden no ser equivalentes por filas ni equivalentes por columnas.

PROPOSICIÓN 1: La equivalencia de matrices según la definición anterior, es una relación

de equivalencia en el conjunto de matrices m×n. Además, dos matrices A, B m×n son

equivalentes si y solo si, existen matrices regulares Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), tales

que B = Q•A•P.

DEMOSTRACIÓN: Primero demostremos la segunda afirmación. Si A ~ B, entonces, B se

obtiene de A por sucesión de transformaciones elementales de filas y columnas, y por

tanto, B = 𝐸𝑘•…•𝐸1•A•𝐹1•…•𝐹𝑘, para ciertas matrices elementales por filas, 𝐸1, …, 𝐸𝑘

y ciertas matrices elementales por columnas, 𝐹1, …, 𝐹𝑘, por tanto, haciendo Q =

𝐸𝑘•…•𝐸1 y P = 𝐹1•…•𝐹𝑘, entonces, B = Q•A•P para ciertas matrices regulares Q y P de

sabidas dimensiones Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂). Por otra parte, si B = Q•A•P, para

ciertas matrices regulares, Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), como toda matriz regular es

producto de matrices elementales, sean Q = 𝐸𝑘•…•𝐸1 y P = 𝐹1•…•𝐹𝑘, entonces, B =

Q•A•P = 𝐸𝑘•…•𝐸1•A•𝐹1•…•𝐹𝑘 se obtiene de A por transformaciones elementales de

filas y columnas.

Para la primera afirmación, veamos que la relación de equivalencia entre matrices es

una relación de equivalencia:

1. A ~ A, pues A = 𝐼𝑚•A•𝐼𝑛, con 𝐼𝑚, 𝐼𝑛 matrices indentidad que son regulares.

2. A ~ B implica que B ~ A, pues si B = Q•A•P para matrices regulares Q y P, entonces

multiplicando esta igualdad por la izquierda por 𝑄−1 y por la derecha por 𝑃−1,

tenemos, 𝑄−1 •B•𝑃−1 = A, donde sabemos que la inversa de una matriz regular es

una matriz regular.

104

3. A ~ B y B ~ C, entonces, A ~ C, pues si B = Q•A•P y C = Q’•B•P’, entonces C =

Q’•Q•A•P•P’, siendo Q’•Q, P•P’ matrices regulares ya que son producto de

matrices regulares.

Por tanto, hemos visto que la equivalencia de matrices cumple las propiedades reflexiva,

simétrica y transitiva, por lo que es una relación de equivalencia. □

PROPOSICIÓN 2: Dada una matriz A m×n, el rango de A es r si y solamente si, A es

equivalente a la matriz J = (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

).

DEMOSTRACIÓN: Sea H la forma normal de Hermite por filas de A. Entonces, H tiene r

filas no nulas, y aplicando transformaciones elementales de columnas, es evidente que

se puede obtener la matriz J.

Recíprocamente, supongamos que A es equivalente a J, entonces A se puede obtener

de J aplicando transformaciones elementales por columnas primero y por filas después.

El rango de J es evidentemente r y cualquier matriz que se obtenga de J aplicando

transformaciones elementales de columnas tendrá rango r, pues los pivotes se

mantendrán en las transformaciones elementales por columnas, con lo que seguirá

habiendo r filas no nulas y finalmente puesto que las transformaciones elementales por

filas no afectan al rango tendremos que rag(A) = r. □

TEOREMA: Dos matrices de igual orden son equivalentes si y solo si, tienen igual rango.

DEMOSTRACIÓN: Llamemos r = rag(A) y s = rag(B), entonces,

A ~ (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

) y B ~ (𝐼𝑠 ⋮ 0…0

⋮ …⋮ 0

),

por tanto, A ~ B es equivalente a que (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

) ~ (𝐼𝑠 ⋮ 0…0

⋮ …⋮ 0

), lo cual solo puede

ocurrir si r = s. □

COROLARIO: Para toda matriz m×n se verifica que rag(A) = rag(𝐴𝑡), por lo que el rango

de una matriz es tanto su número de filas no nulas en la forma normal de Hermite por

filas, como su número de columnas no nulas en su forma normal de Hermite por

columnas.

DEMOSTRACIÓN: Sea r = rag(A), entonces, A es equivalente a J = (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

), matriz

m×n, de modo que J = Q•A•P. Así 𝐴𝑡 es equivalente a 𝐽𝑡 = 𝑃𝑡•𝐴𝑡•𝑄𝑡 que es una matriz

n×m de la forma 𝐽𝑡 = (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

), por lo que rag(A) = rag(𝐴𝑡). □

PROPOSICIÓN 3: Dadas las matrices A, m×p y B, p×n se cumple que

rag(A•B) ≤ min { rag(A), rag(B) }.

105

DEMOSTRACIÓN: Sea r = rag(A), s = rag(B) y sea H la forma normal de Hermite por filas

de A y C la forma normal de Hermite por columnas de B. Entonces existe matrices

regulares Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂) tales que H = Q•A y C = B•P. Entonces, H•C =

Q•A•B•P es una matriz equivalente a A•B y por tanto, rag(H•C) = rag(A•B), pero H•C

tiene como máximo r filas no nulas y s columnas no nulas y por tanto, rag(A•B) ≤ min{r,

s} = min { rag(A), rag(B) }.□

6.5 Relaciones de equivalencia en las matrices

En esta subsección vamos a repasar las relaciones de equivalencia de matrices que

hemos visto y vamos a adelantar las relaciones de equivalencia que vamos a ver en el

futuro en esta parte del libro, en concreto entre las relaciones de equivalencia que

hemos visto y las que vamos a ver suman 5 de ellas. Las 3 primeras ya las hemos visto,

son estas 3:

1. Equivalencia por filas entre dos matrices m×n:

Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existe

una matriz regular Q de 𝔐𝑚(𝕂), tal que: B = Q•A. Ya hemos demostrado que se

trata de una relación de equivalencia entre las matrices m×n.

2. Equivalencia por columnas entre dos matrices m×n:

Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existe

una matriz regular P de 𝔐𝑛(𝕂), tal que B = A•P. Y ya vimos también que se trata de

una relación de equivalencia entre las matrices m×n.

3. Equivalencia entre dos matrices m×n:

Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existen

dos matrices regulares, Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), tales que B = Q•A•P. También

vimos que se trata de una relación de equivalencia entre las matrices de dimensión

m×n.

Ahora adelantamos que vamos a ver en esta parte del libro, 2 relaciones de equivalencia

más:

4. La relación de congruencia entre dos matrices cuadradas A y B de la misma

dimensión n×n, consiste en que existe una matriz regular P de 𝔐𝑛(𝕂), tal que B =

P•A•𝑃𝑡. Demostraremos en la proposición siguiente que se trata de una relación de

equivalencia en las matrices de 𝔐𝑛(𝕂).

5. La relación de similaridad entre dos matrices cuadradas A y B de la misma dimensión

n×n, consiste en que existe una matriz regular P de 𝔐𝑛(𝕂), tal que B = P•A•𝑃−1.

Ahora mismo demostraremos que se trata de una relación de equivalencia en las

matrices de 𝔐𝑛(𝕂).

Sin más, ahora enunciamos y demostramos la siguiente proposición que termina con

esta corta subsección:

PROPOSICIÓN: La relación de congruencia en matrices de 𝔐𝑛(𝕂) es una relación de

equivalencia, como también ocurre para la relación de similaridad en matrices de

𝔐𝑛(𝕂).

106

DEMOSTRACIÓN: I Congruencia: Tenemos que demostrar que la congruencia de

matrices de 𝔐𝑛(𝕂) se trata de una relación reflexiva, simétrica y transitiva:

a) Reflexiva: A = 𝐼𝑛•A•( 𝐼𝑛)𝑡 = 𝐼𝑛•A•𝐼𝑛 = A.

b) Simétrica: Si B = P•A•𝑃𝑡, entonces, multiplicando la igualdad anterior por 𝑃−1 por

la izquierda y por ( 𝑃𝑡)−1 por la derecha obtenemos que 𝑃−1•B•( 𝑃𝑡)−1 = A, pero

ya hemos visto que ( 𝑃𝑡)−1 = ( 𝑃−1)𝑡, por lo que la expresión anterior queda A =

𝑃−1•B•( 𝑃−1)𝑡 y evidentemente, 𝑃−1 es regular, por lo que A es congruente con B.

c) Transitiva: Si B = P•A•𝑃𝑡 y C = Q•B•𝑄𝑡, entonces C = Q•P•A•𝑃𝑡•𝑄𝑡, pero 𝑃𝑡•𝑄𝑡 =

(𝑄 • 𝑃)𝑡, por lo que C = (Q•P)•A•(𝑄 • 𝑃)𝑡 y puesto que Q y P son regulares también

lo es Q•P, por lo que C es congruente con A.

II Similaridad:

a) Reflexiva: A = 𝐼𝑛•A•( 𝐼𝑛)−1 = 𝐼𝑛•A•𝐼𝑛 = A.

b) Simétrica: Si B = P•A•𝑃−1, entonces multiplicando la anterior expresión por 𝑃−1 por

la izquierda y por P por la derecha tenemos 𝑃−1•B•P = A = 𝑃−1•B•( 𝑃−1)−1, y

considerando que 𝑃−1 es evidentemente regular si lo es P, entonces, A es similar a

B.

c) Transitiva: Si B = P•A•𝑃−1 y C = Q•B•𝑄−1, entonces, C = Q•P•A•𝑃−1•𝑄−1, pero ya

sabemos que 𝑃−1•𝑄−1 = (Q • P)−1, por lo que C = (Q•P)•A•(Q • P)−1 y es evidente

que Q•P es una matriz regular, por lo que C es similar a A. □

7 Determinantes

7.1 Permutaciones

Tenemos una idea de que una permutación es un ordenamiento de una serie de

elementos de un conjunto. Pongamos como ejemplo el conjunto de los primeros 5

números naturales. Sea A = {1, 2, 3, 4, 5}, entonces una permutación de A podría ser por

ejemplo, {4, 2, 5, 3, 1}, pero la idea que es más natural y más conveniente para nuestros

propósitos es la idea de que una permutación es una función biyectiva de un conjunto

en sí mismo, como puede ser el ejemplo siguiente: α = (1 2 3 4 54 2 5 3 1

), donde la fila

de abajo, que es la permutación según la consideramos en nuestro primer concepto,

ahora se trata de los valores correspondientes a cada elemento de la parte de arriba

según la función α, es decir, la permutación α, de modo α(1) = 4, α(2) = 2 y así

sucesivamente. Esta idea de las permutaciones nos es más conveniente porque

podemos definir la composición de permutaciones más naturalmente como

composición de funciones, para ello habremos de demostrar que la composición de dos

permutaciones sigue siendo una permutación. Para esto haremos una definición

rigurosa y demostraremos la proposición correspondiente.

DEFINICIÓN (Permutación de un conjunto): Sea A un conjunto cualquiera, definimos

permutación del conjunto A como una función biyectiva de ese conjunto en sí mismo. Al

107

conjunto de todas las permutaciones del conjunto A se le nota como 𝑆𝐴. Se define la

composición de permutaciones, por ejemplo, β○α como la operación de composición de

una después de otra como funciones que son. En una composición de permutaciones

entenderemos que primero se aplica la que está a la derecha y después la que está a la

izquierda, de modo que si a pertenece a A, (β○α)(a) = β(α(a)).

PROPOSICIÓN 1 (La composición de permutaciones es una operación interna en el

conjunto de permutaciones de un conjunto A): Sean las permutaciones α y β de 𝑆𝐴,

entonces, la composición de ellas, β○α, es otra permutación, es decir pertenece a 𝑆𝐴,

por lo que la composición de permutaciones constituye una operación interna de 𝑆𝐴.

DEMOSTRACIÓN: Solamente debemos demostrar que la composición de dos funciones

biyectivas de un conjunto A es otra función biyectiva. Debemos demostrar que es a)

inyectiva: (β○α)(a) = (β○α)(b) implica que β(α(a)) = β(α(b)), pero como β es inyectiva se

cumple que α(a) = α(b), pero como α es inyectiva se cumple que a = b, por lo que β○α

es inyectiva. Tenemos que demostrar b) que a su vez β○α es suprayectiva. Sea a de A,

como β es suprayectiva existe un a’ tal que a = β(a’), a su vez para a’ existe un a’’ tal que

a’ = α(a’’), pues α es suprayectiva también, pero entonces a = β(a’) = β(α(a’’)), por lo que

para a de A, existe un a’’ para el que a = (β○α)(a’’), por lo que β○α es también

suprayectiva y por tanto biyectiva, que era lo que queríamos demostrar. □

A partir de ahora vamos a considerar las permutaciones de un conjunto de números

sucesivos naturales empezando por el 1. Si se trata de los n primeros números, al

conjunto de las permutaciones de esos números lo notaremos como 𝑆𝑛. También vamos

a trabajar con las permutaciones con la notación de la doble fila. Veamos un ejemplo.

EJEMPLO: Sea A = {1, 2, 3, 4, 5} y sea α = (1 2 3 4 54 2 5 3 1

), de modo que α(1) = 4, α(2)

= 2 y así sucesivamente y sea β = (1 2 3 4 53 5 4 2 1

), entonces,

α○β = (1 2 3 4 54 2 5 3 1

)○(1 2 3 4 53 5 4 2 1

) = (1 2 3 4 55 1 3 2 4

), pues (α○β)(1) =

α(β(1)) = α(3) = 5 y así sucesivamente.

Veamos ahora las propiedades de las permutaciones y su producto que las

necesitaremos en nuestra exposición de los determinantes.

PROPOSICIÓN 2 (Las propiedades de la composición de permutaciones): Sea A un

conjunto cualquiera, no necesariamente el conjunto de los primeros n números

naturales, y α, β y µ permutaciones de 𝑆𝐴, entonces, la composición de permutaciones

cumple las siguientes propiedades, que conceden a 𝑆𝐴 las propiedades de la estructura

algebraica de un grupo:

a) α○(β○µ) = (α○β)○µ, que es la propiedad asociativa.

b) Exsiste una permutación i, tal que i(a) = a para todo a de A tal que para toda

permutación α, cumple que i○α = α○i = α, que es la existencia de elemento neutro.

c) Para toda permutación α existe otra, α−1, tal que α○α−1 = α−1○α = i, existencia del

elemento inverso.

108

DEMOSTRACIÓN: a) Ya demostramos en la subsección de preliminares que la

composición de funciones es asociativa, por lo que también lo es la composición de

funciones biyectivas. b) Es evidente que la permutación i tal como está definida es

biyectiva y se comporta como elemento neutro. c) Para toda permutación α tal que a’ =

α(a), la permutación α−1 tal que α−1(a’) = a, para todo a, a’ de A cumple las propiedades

de la permutación inversa de α, comprobémoslo: i(a) = a = α−1(a’) = α−1(α(a)) =

(α−1○α)(a) y también i(a’) = a’ = α(a) = α(α−1(a’)) = (α−1○α)(a’). □

7.2 Ciclos y descomposición de una permutación en ciclos disjuntos

DEFINICIÓN: Sea a de A y α de 𝑆𝐴, entonces α fija a si α(a) = a y α mueve a si α(a) ≠ a.

DEFINICIÓN: Sean 𝑖1, 𝑖2, …, 𝑖𝑟 distintos números naturales entre 1 y n, si α fija todos los

restantes elementos n – r y si α(𝑖1) = 𝑖2, α(𝑖2) = 𝑖3, …, α(𝑖𝑟) = 𝑖1, entonces, α es un r-ciclo

o un ciclo de longitud r. Denotaremos a α como (𝑖1 𝑖2 … 𝑖𝑟). A los ciclos de longitud 2 los

llamaremos trasposiciones. Un ciclo de longitud 1 deja fijo ese elemento a veces es

conveniente suprimir los ciclos de longitud 1.

EJEMPLO 1: (1 2 3 4 52 3 4 5 1

) = (1 2 3 4 5), (1 2 3 4 55 1 4 2 3

) = (1 5 3 4 2),

(1 2 3 4 52 3 1 4 5

) = (1 2 3)○(4)○(5) = (1 2 3).

EJEMPLO 2: La multiplicación de permutaciones con la notación de los ciclos es un poco

liosa por eso veamos un ejemplo: Sea µ = α○β, con α = (1 2) y β = (1 3 4 2 5). Entonces,

µ(1) = (α○β)(1) = α(β(1)) = α(3) = 3, después, µ(3) = α(β(3)) = α(4) = 4, µ(4) = α(β(4)) =

α(2) = 1, llegados de nuevo a 1, ahora buscamos µ(2), pues 2 es el menor número para

el cuál no hemos buscado su valor de µ(2) = α(β(2)) = α(5) = 5 y queda µ(5) = α(β(5)) =

α(1) = 2, por lo que (1 2)○(1 3 4 2 5) = (1 3 4)○(2 5). Los últimos ciclos en la expresión

anterior se dicen que son disjuntos.

DEFINICIÓN: Dos permutaciones α, β son disjuntas si para todo a de A tal que α mueve

a, entonces, β lo deja fijo y viceversa, para todo a que β mueve, α lo deja fijo, pero puede

suceder que un elemento b de A que deja fijo α también lo deje fijo β. Un conjunto de

varias permutaciones es disjunto si son disjuntas las permutaciones del conjunto dos a

dos.

PROPOSICIÓN: Toda permutación α de 𝑆𝑛 es un ciclo o producto de ciclos disjuntos.

DEMOSTRACIÓN: La hacemos por inducción en el número de elementos k que mueve α.

Si α no mueve ningún número k = 0, entonces es la permutación identidad que podemos

considerarla un ciclo o un producto de n ciclos de longitud 1 disjuntos. Sea k > 0, sea 𝑖1

un número movido por α, definamos 𝑖2 como 𝑖2 = α(𝑖1), 𝑖3 = α(𝑖2), …, 𝑖𝑟+1 = α(𝑖𝑟), donde

r es el menor número tal que 𝑖𝑟+1 ∈ {𝑖1, 𝑖2, …, 𝑖𝑟}, es decir, que 𝑖𝑟+1 es uno de los

números {𝑖1, 𝑖2, …, 𝑖𝑟}, que por tanto se repite. Observemos que la lista de r números

tiene que ser menor o igual que n, es decir que para r > n tiene que haber alguna

repetición. Decimos que α(𝑖𝑟) = 𝑖1, pues en caso contrario, α(𝑖𝑟) = 𝑖𝑗 para j ≥ 2, pero

α(𝑖𝑗−1) = 𝑖𝑗, de modo que α no sería inyectiva lo cual es una contradicción. Sea β el ciclo

109

β = (𝑖1 𝑖2 … 𝑖𝑟). Si r = n, entonces α = β. Si r < n, sea Y el conjunto de números que deja

fijo β. Ya que α(Y) = Y hay una permutación α’(Y) = α(Y) = Y que deja fijo el conjunto {𝑖1,

𝑖2, …, 𝑖𝑟}, y con m = n – r, siendo m el número de elementos de Y, por lo tanto con m ≤

n - 2, α = β○α’, con β y α’ disjuntos, de modo que por hipótesis de inducción (α’ mueve

menos números que α) α’ es un ciclo o producto de ciclos disjuntos lo cual prueba la

proposición pues β = (𝑖1 𝑖2 … 𝑖𝑟) es un ciclo disjunto con los ciclos de α’. □

7.3 Permutaciones pares e impares y el signo de una permutación

PROPOSICIÓN 1: Todo ciclo es producto de trasposiciones.

DEMOSTRACIÓN: Siempre podemos hacer la siguiente descomposición de un ciclo:

(𝑎1, 𝑎2, …, 𝑎𝑚) = (𝑎1, 𝑎2)○ (𝑎2, 𝑎3)○…○(𝑎𝑚−2, 𝑎𝑚−1)○(𝑎𝑚−1, 𝑎𝑚). □

COROLARIO 1: Toda permutación es producto de trasposiciones.

DEMOSTRACIÓN: Esto se sigue de la proposición 7.2.1 y de la proposición anterior. □

EJEMPLO: a) (1 2 3 4 5 6 74 1 7 5 2 6 3

) = (1, 4, 5, 2)○(3, 7) = (1, 4)○(4, 5)○ (5, 2)○(3, 7).

b) I = (1, 2)○(1, 2) = (1, 2)○(1, 2)○(3, 4)○(3, 4) = (3, 4)○(3, 4).

Por tanto, la permutación identidad I y cualquier permutación, puede ser producto de

muchas formas de solo trasposiciones, pero vamos a ver inmediatamente que este

producto para una permutación en concreto, solo puede ser o par o impar y esta paridad

nunca cambia.

PROPOSICIÓN 2: La permutación identidad no se puede expresar como un producto

impar de trasposiciones, es decir siempre se expresa como un producto par de

trasposiciones.

DEMOSTRACIÓN: Sea la expresión siguiente: P = ∏ (𝑗 − 𝑖)𝑖,𝑗 , con 1 ≤ i < j ≤ n. Si

permutamos las i, j según una trasposición obtenemos la misma expresión con signo

contrario. Veamos por qué ocurre esto. Sea α una permutación de {1, 2, …, n}, escribimos

αP = ∏ (α(𝑗) − α(𝑖))𝑖,𝑗 . En caso de que α = (h, k), h < k, ¿cuáles son los factores de αP?,

pensemos:

a) Si i, j son diferentes de h, k, α(𝑗) − α(𝑖) = j – i;

b) Si i < h < k, el factor h – i de P pasa a ser k – i en αP, el factor k – i de P pasa a ser

ahora, h – i en αP, por lo tanto, solo cambia la posición de los factores en el producto,

pero no hay cambio de signo;

c) Si h < k < j, el factor j – h de P pasa a ser j – k en αP, y el factor j – k pasa a ser j – h

en αP, por tanto, igual que en el caso anterior solo hay cambio de posición y no de

signo;

d) Si h < i < k, el factor i – h de P pasa a ser i – k, en αP, y el factor k – i, pasa a ser h – i

en αP, por lo que ahora hay cambio de posición y de signo, pero el signo cambia 2

veces, por lo que el producto no cambia;

110

e) Si i = h < k = j, el factor k – h de P pasa a ser h – k en αP, y este es el único cambio de

signo que afecta al producto.

Por lo tanto, αP = -P. Pero supongamos ahora que I = 𝛽𝑛○…○𝛽2○𝛽1, donde 𝛽𝑖 son todas

trasposiciones, apliquemos a P sucesivamente las trasposiciones 𝛽1, 𝛽2, …, 𝛽𝑛,

obtendremos (−1)𝑛P, pero aplicar estas trasposiciones sucesivamente es lo mismo que

aplicar la identidad por lo que (−1)𝑛P = P, por tanto, es obligatorio que n sea par. □

COROLARIO 2: Si α = ρ𝑟○…○ρ2○ρ1 = τ𝑡○…○τ2○τ1 son dos descomposiciones de la

permutación α como producto de trasposiciones, entonces, r y t tienen la misma

paridad.

DEMOSTRACIÓN: Multiplicando los dos productos por ρ1 a la derecha y teniendo en

cuenta que ρ1○ρ1 = I, se tiene ρ𝑟○…○ρ2 = τ𝑡○…○τ2○τ1○ρ1. Multiplicando

sucesivamente por ρ2, …, ρ𝑟−1, ρ𝑟, obtenemos, τ𝑡○…○τ2○τ1○ρ1○ρ2○…○ρ𝑟 = I. Entonces

la proposición anterior nos dice que t + r es par, por lo que t y r tienen la misma paridad.

□

DEFINICIÓN: Una permutación se llama par si se descompone en producto par de

trasposiciones y es impar si se descompone en producto impar de trasposiciones.

Por tanto, el producto de permutaciones sigue la regla de los signos según su paridad,

es decir, el producto de dos pares es par, así como el producto de dos impares, y es

impar el producto de una par y una impar, por lo que podemos definir el signo de una

permutación de la siguiente manera:

DEFINICIÓN: Se define la aplicación signo: ε: 𝑆𝑛 → {1, -1}, tal que:

ε(α) = 1, si α es par,

ε(α) = -1, si α es impar.

Y es evidente que se cumple que ε(I) = 1 y ε(α○β) = ε(α)•ε(β) (se deduce esto por la regla

de que la suma de un numero par y un número impar es impar mientras que la suma de

2 números pares o dos impares es par y para el producto de -1 y 1 ocurre los mismo, el

producto de 1 y 1 es 1 y el de -1 y -1 es 1, mientras que el producto de 1 y -1 es -1), por

lo que se deduce que ε(α) = ε(𝛼−1), puesto que ε(α○𝛼−1) = ε(α)•ε(𝛼−1) = 1, por lo que

ε(α) y ε(𝛼−1) son los dos 1 o los dos -1, además, por la proposición 1 de esta subsección

si (𝑎1, 𝑎2, …, 𝑎𝑚) es un ciclo de orden m, entonces, se tiene que ε (𝑎1, 𝑎2, …, 𝑎𝑚) =

(−1)𝑚−1.

Ahora ya estamos preparados para definir los determinantes de una matriz cuadrada,

cosa que haremos en la siguiente subsección.

7.4 Definición del determinante de una matriz cuadrada

Para esta subsección consideraremos las matrices como un conjunto ordenado de

columnas:

111

A = (

𝑎11 𝑎12 … 𝑎1𝑛𝑎21⋮

𝑎𝑚1

𝑎22 … 𝑎2𝑛⋮ ⋱ ⋮

𝑎𝑚2 … 𝑎𝑚𝑛

) = (𝑎1 𝑎2 … 𝑎𝑛), con 𝑎𝑖 = (

𝑎1𝑖𝑎2𝑖⋮𝑎𝑚𝑖

).

DEFINICIÓN: Llamamos determinante de una matriz cuadrada A, de dimensión n×n, a

una función de las matrices cuadradas en el cuerpo 𝕂, constituyente de los elementos

de la matriz: det: A → det A ∈ 𝕂 tal que cumpla las siguientes condiciones:

1) Es multilineal, es decir:

i) que si una columna i de la matriz, es suma de dos columnas, el determinante es

la suma de los determinantes de cada una de las matrices en que se

descompone la primera matriz si formamos dos matrices con todas las columnas

iguales salvo la i-ésima que toma el valor de una y otra columna en la suma en

la que se descompone la columna i-ésima en la primera matriz, es decir:

det(𝑎1 ⋯ 𝑎′𝑖 + 𝑎′′𝑖 … 𝑎𝑛) = det(𝑎1 ⋯ 𝑎′𝑖 … 𝑎𝑛) + det(𝑎1 ⋯ 𝑎′′𝑖 … 𝑎𝑛)

ii) y si una columna es producto de un escalar por otra columna, entonces, el

determinante de esa matriz es el producto del escalar por el determinante de la

matriz con esa otra columna sin el producto por el escalar, es decir:

det(𝑎1 ⋯ 𝑐 • 𝑎𝑖 … 𝑎𝑛) = c•det(𝑎1 ⋯ 𝑎𝑖 … 𝑎𝑛).

2) Es alternada, es decir que el determinante de una matriz cambia de signo al cambiar

entre sí dos columnas, o en símbolos:

det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = - det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛).

3) El determinante de la matriz unidad de dimensión n×n vale la unidad del cuerpo:

det 𝐼𝑛 = 1.

También se nota al determinante de esta otra manera: det A = |

𝑎11 𝑎12 … 𝑎1𝑛𝑎21⋮𝑎𝑛1

𝑎22 … 𝑎2𝑛⋮ ⋱ ⋮

𝑎𝑛2 … 𝑎𝑛𝑛

|.

Más adelante demostraremos la existencia de tal función, pues a primera vista no se

puede saber si una tal función puede existir con esas propiedades. De momento,

podemos demostrar una serie de proposiciones sobre propiedades del determinante

que debe tener según su definición.

PROPOSICIÓN 1: Sea A = (𝑎1 𝑎2 … 𝑎𝑛) una matriz n×n:

a) Si una de las columnas de A, 𝑎𝑖 = 0, el vector columna cuyos todos los elementos

son 0, entonces, det A = 0.

b) Si dos columnas de A son iguales 𝑎𝑖 = 𝑎𝑗, con i ≠ j, entonces, det A = 0, siempre que

en el cuerpo 𝕂, 1 + 1 ≠ 0, es decir tenga característica distinta de 2.

c) El determinante no cambia de valor si a una columna le sumamos una combinación

lineal de las otras.

DEMOSTRACIÓN:

a) det A = det (𝑎1 … 0→ … 𝑎𝑛) = det(𝑎1 … 0 ∙

0→ … 𝑎𝑛) =

= 0•det (𝑎1 … 0→ … 𝑎𝑛) = 0.

112

b) det (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = -det (𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛), lo que

implica que 2•det (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) =

= 2•det (𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) = 0,

por lo que det (𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) = 0.

c) det A = det (𝑎1 … 𝑎𝑖 + ∑ µ𝑗 • 𝑎𝑗𝑗≠i … 𝑎𝑛) =

= det (𝑎1 … 𝑎𝑖 … 𝑎𝑛) + ∑ µ𝑗 •𝑗≠i det (𝑎1 … 𝑎𝑗 … 𝑎𝑗 … 𝑎𝑛), pero el

sumando del sumatorio es una suma de 0, pues se trata de determinantes con la

columna 𝑎𝑗 repetida. □

PROPOSICIÓN 2: Sea A una matriz cuadrada, entonces:

a) det A•𝐹𝑖𝑗 = -det A, con 𝐹𝑖𝑗 una matriz elemental por columnas de tipo I, es decir que

intercambia dos columnas.

b) det A•𝐹𝑖(k) = k•det A, siendo 𝐹𝑖(k) una matriz elemental por columnas de tipo II, es

decir, la matriz que multiplica a una columna por la constante k.

c) det A•𝐹𝑖𝑗(k) = det A, siendo 𝐹𝑖𝑗(k) una matriz elemental por columnas de tipo III, es

decir, la matriz que suma a la columna i, la j multiplicada por la constante k.

d) En particular: det 𝐹𝑖𝑗 = -1, det 𝐹𝑖(k) = k y det 𝐹𝑖𝑗(k) = 1, cuando cambiamos A por la

matriz identidad de orden n, 𝐼𝑛.

e) Por lo tanto si F es una matriz elemental sin considerar su naturaleza se cumple lo

siguiente: det (A•F) = (det A)• (det F)

DEMOSTRACIÓN: a), b) y c) son evidentes según la proposición anterior y la definición

del determinante, d) también lo es, si aplicamos a), b) y c) anteriores sustituyendo la

matriz A por la identidad 𝐼𝑛; e) resulta de la aplicación de los demás casos. □

PROPOSICIÓN 3: Sea A = (𝑎1 𝑎2 … 𝑎𝑛) una matriz n×n y sea α una permutación de

𝑆𝑛, entonces det (𝑎α(1) 𝑎α(2) … 𝑎α(𝑛)) = ε(α)•det (𝑎1 𝑎2 … 𝑎𝑛), siendo ε(α)

el signo de la permutación α.

DEMOSTRACIÓN: Sea α = ρ𝑟○…○ρ2○ρ1 una descomposición de α en producto de

trasposiciones, de modo que α se obtiene de la identidad, al multiplicar esta un número

par o impar, pero solo uno de estos dos números: par o impar de trasposiciones. De

modo que para obtener la matriz (𝑎α(1) 𝑎α(2) … 𝑎α(𝑛)) hemos tenido que aplicar

a sus columnas un número par o impar, pero un numero con una sola paridad de

trasposiciones correspondiente a si α es par o impar. Pero al aplicar una trasposición en

las que se descompone α a las columnas de la matriz A cambiamos el determinante de

esta de signo, de modo que si aplicamos un número par de trasposiciones nos queda el

determinante igual al de A y si aplicamos un número impar de trasposiciones a la matriz

A, el determinante cambia de signo. Este razonamiento demuestra la proposición. □

7.5 Expresión del determinante en función de los coeficientes de la matriz

Veremos como la definición del determinante que hemos dado nos lleva a una expresión

precisa, aunque compleja, de su valor con la cual podremos hacer cálculos. Pero antes

de deducir la fórmula general vamos a ver los casos particulares de matrices con

dimensión n = 1, 2 y 3, para hacernos una idea de esta expresión que podremos

113

generalizar para cualquier valor de n. Mas adelante también demostraremos que esta

expresión cumple las propiedades de la definición, por lo que estas propiedades de su

definición lo determinan unívocamente.

EJEMPLOS: Deduzcamos el valor del determinante de las matrices de orden 1, 2 y 3:

a) Orden 1: La matriz identidad es 𝐼1 = (1). Por definición det 𝐼1 = 1. Sea una matriz

cualquiera A, en esta dimensión adquiere la forma A = (a) = (a•1), por la propiedad

de multilinearidad det A = a•det (1) = a•1 = a.

b) Orden 2: Para una matriz general de orden 2, A, podemos escribir cada columna

descompuesta de la siguiente manera: 𝑎𝑗 = (𝑎1𝑗𝑎2𝑗

) = 𝑎1𝑗•(10) + 𝑎2𝑗•(

01) = 𝑎1𝑗•𝑒1 +

𝑎2𝑗•𝑒2, con 𝑒1 = (10), 𝑒2 = (

01). Ahora aplicamos la propiedad multilineal y alternada

para obtener:

det A = det(𝑎11•𝑒1 + 𝑎21•𝑒2 𝑎12•𝑒1 + 𝑎22•𝑒2 ) = 𝑎11•det(𝑒1 𝑎12•𝑒1 + 𝑎22•𝑒2 ) +

+ 𝑎21•det(𝑒2 𝑎12•𝑒1 + 𝑎22•𝑒2 ) = 𝑎11•𝑎12•det(𝑒1 𝑒1) + 𝑎11•𝑎22•det(𝑒1 𝑒2 ) +

𝑎21•𝑎12•det(𝑒2 𝑒1) + 𝑎21•𝑎22•det(𝑒2 𝑒2 ) = 𝑎11•𝑎22 - 𝑎21•𝑎12.

c) Orden 3: En orden 3 descomponemos la columnas de nuevo de la siguiente manera:

𝑎𝑗 = (

𝑎1𝑗𝑎2𝑗𝑎3𝑗

) = 𝑎1𝑗•𝑒1 + 𝑎2𝑗•𝑒2 + 𝑎3𝑗•𝑒3, con 𝑒1 = (100), 𝑒2 = (

010), 𝑒3 = (

001) y dejando

los cálculos en manos del lector se obtiene la siguiente expresión para el

determinante:

det A = 𝑎11•𝑎22•𝑎33 + 𝑎21•𝑎32•𝑎13 + 𝑎31•𝑎12•𝑎23 - 𝑎31•𝑎22•𝑎13 - 𝑎21•𝑎12•𝑎33 –

- 𝑎11•𝑎32•𝑎23.

El orden del determinante es el siguiente no importando la dimensión de la matriz:

Se obtiene una suma del producto de elementos de la matriz tomando en cada

producto un elemento de cada fila y de cada columna estando en cada producto

todas las filas y todas las columnas y se obtiene la suma de todos los productos

posibles con la salvedad de que el signo de cada sumando puede ser positivo o

negativo. Para ver cuando un sumando se suma o se resta veremos la expresión

exacta del determinante en el siguiente teorema.

TEOREMA 1: Sea A una matriz cuadrada de orden n entonces el determinante de A es la

suma de todos los productos de n elementos de la matriz escogidos de tal manera que,

en cada producto, aparezcan elementos de cada fila y cada columna; si los ordenamos

según las columnas, el índice de la fila de cada elemento aparece según cada

permutación de 𝑆𝑛 y el signo del producto lo determina el signo de la permutación

correspondiente a las filas. Expresado simbólicamente se entiende mejor:

det A = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛.

114

DEMOSTRACIÓN: La demostración sigue el patrón de la discusión previa al teorema sea

la columna 𝑎𝑗 = (

𝑎1𝑗𝑎2𝑗⋮𝑎𝑛𝑗

) = 𝑎1𝑗•(

10⋮0

) + 𝑎2𝑗•(

01⋮0

) + … + 𝑎𝑛𝑗•(

00⋮1

) = 𝑎1𝑗•𝑒1 + 𝑎2𝑗•𝑒2 + … +

+ 𝑎𝑛𝑗•𝑒𝑛. Con esta construcción se tiene,

det (𝑎1 … 𝑎𝑛) = det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1

𝑎2 … 𝑎𝑛) = det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1

∑ 𝑎𝑗22 • 𝑒𝑗2𝑛𝑗2

𝑎3 … 𝑎𝑛) =

det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1

… ∑ 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛𝑛𝑗𝑛

) = ∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1

∑ 𝑎𝑗22 • 𝑒𝑗2𝑛𝑗2


) =

∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1,𝑗2

𝑎𝑗22 • 𝑒𝑗2 ∑ 𝑎𝑗33 • 𝑒𝑗3𝑛𝑗3


) = … =

= ∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1,…,𝑗𝑛

… 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) = ∑ 𝑎𝑗11 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛

𝑎𝑗22 • 𝑒𝑗2 … 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) =

∑ 𝑎𝑗11 • 𝑎𝑗22 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛

𝑒𝑗2 𝑎𝑗33 • 𝑒𝑗3 … 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) = … =

= ∑ 𝑎𝑗11 • … • 𝑎𝑗𝑛𝑛 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛

… 𝑒𝑗𝑛).

En det (𝑒𝑗1… 𝑒𝑗𝑛) los índices 𝑗𝑖 pueden tomar valores arbitrarios de 1 hasta n, pero cada

elemento del sumando se anulará cuando 𝑗𝑟 = 𝑗𝑡. Por tanto, quedarán solo los elementos

del sumando cuyos valores de 𝑗𝑖 para los distintos 𝑗𝑖, sean permutaciones de 𝑆𝑛. Sea σ

la siguiente permutación: σ = (1 … 𝑛𝑗1 … 𝑗𝑛

), entonces, se tiene que:

det (𝑎1 … 𝑎𝑛) =

∑ • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛σ∈𝑆𝑛 •det(𝑒𝜎(1)…𝑒𝜎(𝑛)) =

= ∑ 휀(𝜎) • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛σ∈𝑆𝑛 •det(𝑒1…𝑒𝑛) =

∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛. □

Ahora demostraremos que esta expresión para el determinante cumple con las

propiedades de la definición.

TEOREMA 2: Existe una y solo una aplicación determinante, para cada matriz cuadrada

A, de orden n, que cumple con las propiedades de la definición del determinante.

DEMOSTRACIÓN:

a) Si una columna es suma de dos, el determinante es suma de los dos determinantes

que se forman al separar los sumandos de la columna:

Sea 𝑎𝑗 = 𝑎′𝑗 + 𝑎′′𝑗, entonces:

det(𝑎1 … 𝑎𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • (𝑎′𝜎(𝑗)𝑗 + 𝑎′′𝜎(𝑗)𝑗) • … • 𝑎𝜎(𝑛)𝑛 =

115

∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 +

+ ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

det(𝑎1… 𝑎′𝑗 … 𝑎𝑛) + det(𝑎1… 𝑎′′𝑗 … 𝑎𝑛).

b) Si una columna es el producto de otra por un escalar c, entonces, el determinante

es el producto del escalar por el determinante que resulta con la columna sin el

producto por el escalar:

Sea 𝑎𝑗 = c•𝑎′𝑗, entonces,

det(𝑎1 … 𝑎𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑐 • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

c•∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛,

por la propiedad distributiva generalizada del cuerpo.

c) Si intercambiamos dos filas del determinante, el determinante cambia de signo:

Primero demostremos que si dos filas son iguales el determinante es 0.

det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) =

∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑖)𝑖 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

Por otro lado,

∑ 휀(σ ○ β)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =

= 휀(β)• ∑ 휀(σ)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =

= -∑ 휀(σ)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =

= -∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑖)𝑖 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =

= - det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) si 𝑎𝑖 = 𝑎𝑗, porque 𝑎(σ○β)(𝑖)𝑖 = 𝑎(σ○β)(𝑗)𝑗

y 𝑎(σ○β)(𝑘)𝑘 = 𝑎𝜎(𝑘)𝑘, con k ≠ i, j y con α = σ○β, β es la trasposición β = (i j) y α recorre todas las

permutaciones (de 𝑆𝑛) si σ recorre todas las permutaciones y σ○β = σ, salvo en el caso de los

índices i y j donde no importa que sean diferentes en esos casos pues los elementos a los que

se aplican son iguales.

De modo que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = - det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) si 𝑎𝑖 = 𝑎𝑗, por lo que

2• det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = 0, lo que implica en todos los cuerpos de característica

116

distinta de 2, que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = 0

Ahora veremos que la propiedad anterior determina que el determinante cambie de

signo al cambiar dos columnas entre sí.

Tenemos que 0 = det(𝑎1 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) =

= det(𝑎1 … 𝑎𝑖 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) =

= det(𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) +

+ det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛) = 0 + 0 + det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛),

por lo que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = -det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛)

d) El determinante de la matriz unidad det 𝐼𝑛 = 1:

En 𝐼𝑛 los únicos elementos distintos de 0 son los de la diagonal principal cuyo producto

es el único producto que aparece en la expresión del determinante según los

coeficientes de la matriz (puesto que todos los demás productos en el sumando

contienen al menos un 0). La conclusión se obtiene si sabemos que estos elementos son

1 cuyo producto es 1. □

7.6 Más propiedades de los determinantes

Sin más vamos a demostrar seguidamente, ciertas proposiciones con referencia a los

determinantes.

PROPOSICIÓN 1: El determinante de una matriz coincide con el determinante de su

traspuesta.

DEMOSTRACIÓN:

det 𝐴𝑡 = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • [𝐴𝑡]𝜎(1)1 • … • [𝐴𝑡]𝜎(𝑛)𝑛 =

= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • [𝐴]1𝜎(1) • … • [𝐴]𝑛𝜎(𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎1𝜎(1) • … • 𝑎𝑛𝜎(𝑛) =

= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎−1(𝜎(1))𝜎(1) • … • 𝑎𝜎−1(𝜎(𝑛))𝜎(𝑛) =

Ordenando los productos para que los índices de las columnas queden siempre

ordenados (con el orden de la permutación identidad, es decir) en todos los productos

queda,

= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎−1(1)1 • … • 𝑎𝜎−1(𝑛)𝑛 =

Pero como el signo de una permutación es el mismo que el de la inversa tenemos

= ∑ 휀(𝜎−1)𝜎∈𝑆𝑛 • 𝑎𝜎−1(1)1 • … • 𝑎𝜎−1(𝑛)𝑛 = det A

117

Finalmente, ya que a toda permutación le corresponde una y solo una inversa, si

recorremos todos los miembros del sumando para las permutaciones de 𝑆𝑛, ocurrirá

que 𝜎−1 recorrerá también todo 𝑆𝑛. □

COROLARIO 1: Todas Las propiedades del determinante correspondiente a las filas es

también una propiedad correspondiente a las columnas.

DEMOSTRACIÓN: Toda propiedad de las filas de 𝐴𝑡 es una propiedad de las columnas de

A y viceversa, por lo que podemos demostrar una propiedad del determinante para las

filas o columnas de 𝐴𝑡 y resultará una propiedad del determinante para las columnas o

filas correspondientemente de A. □

En la subsubsección 7.4 hemos demostrado que si F es una matriz elemental sin

considerar su naturaleza, se cumple lo siguiente: det (A•F) = (det A)• (det F), gracias a la

proposición 1 de esta subsección se cumple el corolario correspondiente a la relación

entre el determinante de una matriz y el del producto de esta por una matriz elemental

por filas.

COROLARIO 2: Si E es una matriz elemental por filas sin considerar en detalle de qué tipo

de matriz elemental por filas se trata y A una matriz cualquiera, se cumple lo siguiente:

det(E•A) = (det E)•(det A).

DEMOSTRACIÓN:

det(E•A) = det ((E • A)𝑡) = det((A)𝑡 • (E)𝑡) = det((A)𝑡 • 𝐹) = (det (A)𝑡) • (det F) =

(det A)•(det E),

para alguna matriz elemental por columnas F (exactamente para F = 𝐸𝑡). □

PROPOSICIÓN 2: Una matriz es invertible si y solo si, su determinante es distinto de 0.

DEMOSTRACIÓN: Si una matriz A es invertible se puede expresar como producto de

matrices elementales A = 𝐸1•…•𝐸𝑘, de modo que det A = (det 𝐸1)•…•(det 𝐸𝑘), con det𝐸1

≠ 0, … det𝐸𝑘 ≠ 0, por lo que det A ≠ 0.

Si A no es invertible debe ocurrir por fuerza, que por transformaciones elementales de

filas o columnas se llegue a una matriz que tenga una fila de ceros, pues si no fuera así,

su forma normal de Hermite por filas o columnas sería la identidad y obtendríamos una

contradicción con que 𝐸1•…•𝐸𝑘•A = 𝐼𝑛, la matriz identidad, forma de Hermite de A,

porque entonces, A tendría inversa, contrario a la suposición. De modo que 𝐸1•…•𝐸𝑘•A

por ejemplo, si calculamos su forma de Hermite por filas, y tiene una fila de ceros y por

tanto el determinante es 0, pero det(𝐸1• •…•𝐸𝑘•A) = (det 𝐸1)•…•(det 𝐸𝑘)•(det A) = 0

por lo que a la fuerza, det A = 0. □

PROPOSICIÓN 3: Sean A y B matrices cuadradas cualesquiera de la misma dimensión,

entonces,

det (A•B) = (det A)•(det B).

118

DEMOSTRACIÓN: Si A es invertible, entonces, A = 𝐸1•…•𝐸𝑘, como producto de matrices

elementales, entonces, det (A•B) = (det 𝐸1)•…•(det 𝐸𝑘)•(det B) =

= (det A)•(det B), según las proposiciones anteriores.

Si A no es invertible, entonces det A = 0, por lo que existen matrices 𝐸1,…, 𝐸𝑘, tales que

𝐸1•…•𝐸𝑘•A = C tiene una fila de ceros, por lo que C•B también tiene una fila de ceros y

det (C•B) = 0 = det (𝐸1•…•𝐸𝑘•A•B) lo que implica que det (A•B) = 0 = (det A)•(det B). □

COROLARIO 3: Se cumple lo siguiente: det(𝐴−1) = 1/det(A).

DEMOSTRACIÓN: 1 = det(𝐼𝑛) = det(A•𝐴−1) = det(A)• det(𝐴−1), por lo que se deduce la

proposición. □

7.7 Desarrollo del determinante por una fila o columna

En esta subsección vamos a ver un modo de obtener el determinante de una matriz

cuadrada de modo recurrente, el resultado no va a ser el mejor modo de calcular un

determinante, salvo para la dimensión de la matriz baja (n = 2 o 3), pero es un resultado

valioso teóricamente.

DEFINICIONES 1: Se llama menor de orden k de una matriz A m×n con k ≤ min{m, n} a

una matriz cuadrada de orden k, obtenida con los coeficientes de A situados en k filas y

k columnas de A que fijemos. Se llama menor adjunto de un coeficiente 𝑏𝑖𝑗 de una matriz

cuadrada B, al menor que resulta de suprimir la fila i y la columna j de la matriz B, lo

denotaremos como 𝐵𝑖𝑗, es decir, con el mismo símbolo para el coeficiente de B a partir

del cual se obtiene el menor adjunto, pero con letra mayúscula en lugar de minúscula.

EJEMPLOS 1: Sea A = (1 1 2 12 3 0 0−1 1 1 5

), B = (

1 1 2 12 3 0 0−1−1

19

1 50 −8

), entonces, fijando las

filas {2, 3} y las columnas {1, 3} de A, obtenemos el menor de orden 2, M, siguiente:

M = (2 0−1 1

) y fijando las filas {1, 3, 4} y las columnas {1, 2, 4} obtenemos un menor de

orden 3 de B, que es el menor adjunto de 𝑏23,

𝐵23 = (1 1 1−1 1 5−1 9 −8

).

DEFINICIONES 2: Definamos la siguiente aplicación: D: 𝔐n(𝕂) → 𝕂 de forma recurrente

para cada n, de la siguiente manera:

1) Para k = 1, A = (𝑎11), D(A) = 𝑎11,

2) Para D definida para k = n – 1, definimos para k = n de la siguiente manera:

D(A) = 𝑎11•D(𝐴11) + … + (−1)𝑗+1•𝑎1𝑗•D(𝐴1𝑗) + … + (−1)𝑛+1•𝑎1𝑛•D(𝐴1𝑛) =

∑ (−1)𝑗+1 • 𝑎1𝑗 • D(𝐴1𝑗)𝑛𝑗=1 .

119

Llamamos a la función D así obtenida desarrollo del determinante por la primera fila y

veremos que elegir una fila u otra no determina el valor del determinante. Además, si

llamamos adjunto de un coeficiente 𝑎𝑖𝑗 de una matriz cuadrada A y lo simbolizamos, de

la siguiente manera: Ad(𝐴)𝑖𝑗 = (−1)𝑖+𝑗•D(𝐴𝑖𝑗), se tiene una nueva definición de la

aplicación D(A):

1) D(a) = a

2) D(A) = ∑ 𝑎1𝑗 • Ad(𝐴)1𝑗 𝑛𝑗=1 .

EJEMPLOS 2: Para matrices de orden 2 tenemos lo siguiente: D(𝑎11 𝑎12𝑎21 𝑎22

) =

= 𝑎11•D(𝑎22) - 𝑎12•D(𝑎21) = 𝑎11•𝑎22 - 𝑎12•𝑎21;

Para matrices de orden 3 se tiene: D(

𝑎11 𝑎12 𝑎13𝑎21 𝑎22 𝑎23𝑎31 𝑎32 𝑎33

) = 𝑎11•D(𝑎22 𝑎23𝑎32 𝑎33

) –

𝑎12•D(𝑎21 𝑎23𝑎31 𝑎33

) + 𝑎13•D(𝑎21 𝑎22𝑎31 𝑎32

) = 𝑎11•(𝑎22•𝑎33 - 𝑎32•𝑎23) –

-𝑎12•(𝑎21•𝑎33 - 𝑎31•𝑎23) + 𝑎13•(𝑎21•𝑎32 - 𝑎31•𝑎22) =

= 𝑎11•𝑎22•𝑎33 + 𝑎31•𝑎12•𝑎23 + 𝑎21•𝑎32•𝑎13 - 𝑎11•𝑎32•𝑎23 - 𝑎21•𝑎12•𝑎33 -

𝑎31•𝑎22•𝑎13.

Por lo que vemos que se tratan precisamente de los determinantes para las

matrices (cuadradas) de orden 2 y 3.

EJEMPLOS 3: Demostraremos en el siguiente teorema que la aplicación D es el

determinante, por ahora con esta información se pueden calcular muy bien los

determinantes de matrices de orden bajos (sobre todo si hay elementos 0):

a) |3 0 01 1 09 5 8

| = 3•|1 05 8

| = 3•1•8 = 24.

b) |

3 1 0 40 1 0 101

52

−8 −3−1 2

| = 3•|1 0 15 −8 −32 −1 2

| - 1•|0 0 10 −8 −31 −1 2

| - 4•|0 1 00 5 −81 2 −1

| = 3•(-8) –

1•(8) - 4•(-8) = 0.

TEOREMA: La aplicación D antes definida recursivamente coincide con la aplicación

determinante.

DEMOSTRACIÓN: Con el trabajo hecho anteriormente en esta subsección 7 se

demuestra este teorema comprobando las propiedades que definen a la aplicación

determinante y que valga la redundancia, lo determinan. Lo demostraremos por

inducción suponiendo que la propiedad se cumple para k = n – 1 y sabiendo que para k

= 1, 2 y 3 se cumple que la aplicación D es la misma que el determinante.

a) Propiedad multilineal:

120

i) Sea A una matriz una de cuyas columnas sea la suma de las de otras dos

matrices que poseen las restantes columnas iguales, es decir, sea:

A = (𝑎1 … 𝑎′𝑖 + 𝑎′′𝑖 … 𝑎𝑛), A’ = (𝑎1 … 𝑎′𝑖 … 𝑎𝑛),

A’’ = (𝑎1 … 𝑎′′𝑖 … 𝑎𝑛), entonces, Ad(𝐴)1𝑖 = Ad(𝐴′)1𝑖 = Ad(𝐴′′)1𝑖, mientras

que Ad(𝐴)1𝑘 = Ad(𝐴′)1𝑘 + Ad(𝐴′′)1𝑘, con k ≠ i, por hipótesis de inducción.

Por lo que,

D(A) = ∑ 𝑎1𝑗 • Ad(𝐴)1𝑗 𝑛𝑗=1 = (∑ 𝑎1𝑘 • (Ad(𝐴′)1𝑘 + Ad(𝐴′′)1𝑘)

𝑛𝑘≠𝑖 ) +

(𝑎′1𝑖 + 𝑎′′1𝑖)• Ad(𝐴)1𝑖 = (∑ 𝑎1𝑘 • Ad(𝐴′)1𝑘𝑛𝑘≠𝑖 + 𝑎′1𝑖• Ad(𝐴′)1𝑖) +

(∑ 𝑎1𝑘 • Ad(𝐴′′)1𝑘𝑛𝑘≠𝑖 + 𝑎′′1𝑖• Ad(𝐴′′)1𝑖) = D(A’) + D(A’’).

ii) Sea ahora A = (𝑎1 … 𝑎𝑖 … 𝑎𝑛), B = (𝑎1 … 𝛽 • 𝑎𝑖 … 𝑎𝑛), entonces se tiene que:

Ad(𝐴)1𝑖 = Ad(𝐵)1𝑖 y Ad(𝐵)1𝑘 = β• Ad(𝐴)1𝑘, con k ≠ i, por hipótesis de

inducción. Por tanto: D(B) = (∑ 𝑎1𝑘 • Ad(𝐵)1𝑘𝑛𝑘≠𝑖 ) + (β•𝑎1𝑖)•Ad(𝐵)1𝑖 =

(∑ 𝑎1𝑘 • β • Ad(𝐴)1𝑘𝑛𝑘≠𝑖 ) + (β•𝑎1𝑖)•Ad(𝐴)1𝑖 = β•D(A).

b) Propiedad alternada:

Sea A = (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) y B = (𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛), entonces, por hipótesis de

inducción, Ad(𝐵)1𝑘 = - Ad(𝐴)1𝑘, con k ≠ i, j. Por otra parte, las columnas del menor

𝐴1𝑖 coinciden con las del 𝐵1𝑗, salvo la 𝑎𝑗, que en 𝐴1𝑖, ocupan el lugar (j - 1) (puesto

que hemos eliminado la columna 𝑎𝑖) y en 𝐵1𝑗 que ocupa el lugar i. Por lo que

podemos pasar de 𝐴1𝑖 a 𝐵1𝑗 haciendo j – i – 1 intercambios de posición. Por hipótesis

de inducción cada intercambio cambia el signo de modo que se tiene lo siguiente:

Ad(𝐴)1𝑖 = (−1)1+𝑖•det(𝐴1𝑖) = (−1)1+𝑖•((−1)𝑗−𝑖−1•det(𝐵1𝑗)) =

= -(−1)𝑗−1•det(𝐵1𝑗) = - Ad(𝐵)1𝑗. Análogamente se obtiene que Ad(𝐴)1𝑗 =

- Ad(𝐵)1𝑖, por lo que D(A) = (∑ 𝑎1𝑘 • Ad(𝐴)1𝑘)𝑛𝑘≠𝑖,𝑗 + 𝑎1𝑖 • Ad(𝐴)1𝑖 +

+ 𝑎1𝑗 • Ad(𝐴)1𝑗 = = (∑ 𝑎1𝑘 • (−Ad(𝐵)1𝑘))𝑛𝑘≠𝑖,𝑗 + 𝑎1𝑖 • (−Ad(𝐵)1𝑗) +

𝑎1𝑗 • (−Ad(𝐴)1𝑖) = - D(B).

c) Es claro que D(𝐼𝑛) = 1•D(Ad(𝐼𝑛)11) = D(𝐼𝑛−1) = 1. □

En la siguiente proposición veremos que no importa que fila escojamos para desarrollar

el determinante, demostraremos que podemos desarrollar el determinante por

cualquier fila. Y en la siguiente proposición veremos que también se puede desarrollar

el determinante por cualquier columna.

PROPOSICIÓN 1: Escojamos una fila j cualquiera de la matriz A de dimensión n×n,

entonces, det(A) = 𝑎𝑗1• Ad(𝐴)𝑗1 + … + 𝑎𝑗𝑖• Ad(𝐴)𝑗𝑖 + … + 𝑎𝑗𝑛• Ad(𝐴)𝑗𝑛. Esta expresión

se conoce como desarrollo del determinante por la j-ésima fila.

DEMOSTRACIÓN: Sea B la matriz obtenida de A cambiando la fila j a la primera posición,

entonces: 𝐵1𝑖 = 𝐴𝑗𝑖, de donde, Ad(𝐵)1𝑖 = (−1)𝑗−1• Ad(𝐴)𝑗𝑖 y por tanto,

det(A) = (−1)𝑗−1•det(B) = (−1)𝑗−1•(𝑏11• Ad(𝐵)11 + … + 𝑏1𝑖• Ad(𝐵)1𝑖 + … +

+ 𝑏1𝑛• Ad(𝐵)1𝑛) = 𝑎𝑗1• Ad(𝐴)𝑗1 + … + 𝑎𝑗𝑖• Ad(𝐴)𝑗𝑖 + … + 𝑎𝑗𝑛• Ad(𝐴)𝑗𝑛. □

PROPOSICIÓN 2: Fijada una columna j cualquiera de una matriz cuadrada A de orden n,

se tiene: det(A) = 𝑎1𝑗• Ad(𝐴)1𝑗 + … + 𝑎𝑖𝑗• Ad(𝐴)𝑖𝑗 + … + 𝑎𝑛𝑗• Ad(𝐴)𝑛𝑗. Esta expresión

se conoce como desarrollo del determinante por la j-ésima columna.

121

DEMOSTRACIÓN: Sabemos que det(A) = det(𝐴𝑡) y la expresión de la proposición es el

desarrollo por la j-ésima fila de 𝐴𝑡. □

COROLARIO: El determinante de una matriz triangular (superior o inferior) es el producto

de los elementos de su diagonal principal.

DEMOSTRACIÓN: Demostraremos este corolario para el caso de una matriz triangular

superior y lo haremos por inducción en el número k del orden de la matriz.

a) Caso k = 2, el caso de una matriz de una fila y columna es trivial y no hay nada que

decir. En el caso de que la matriz A sea de dimensión 2×2, entonces A = (𝑎11 𝑎120 𝑎22

),

pues hemos convenido en que es una matriz triangular superior. En este caso, si

desarrollamos el determinante por la primera columna se tiene:

Det A = 𝑎11•𝑎22 - 0•𝑎12 = 𝑎11•𝑎22, por lo que se cumple el corolario en este caso.

b) Caso k = n, supuesto cierto para k = n – 1. Entonces la matriz A es de la siguiente

forma:

A = (

𝑎11 𝑎12 … 𝑎1𝑛0⋮0

𝑎22⋮0

…⋱…

𝑎2𝑛⋮𝑎𝑛𝑛

)

Desarrollando el determinante por la primera columna, tenemos que det A =

𝑎11•Adj(A)11 = 𝑎11•det A’ = 𝑎11•𝑎22• … •𝑎𝑛𝑛, por hipótesis de inducción en los

determinantes de dimensión k = n – 1, para matrices triangulares superiores, y

donde A’ es la matriz que resulta de A eliminando la primera fila y columna, es decir,

el menor adjunto del elemento 𝑎11 de A y que es triangular superior, al igual que A.

Para las matrices triangulares inferiores se demuestra de la misma manera

desarrollando los determinantes por la primera fila en lugar del desarrollo por la primera

columna como hemos hecho en el caso de matrices triangulares superiores. □

7.8 La regla de Laplace

Esta pequeña subsección está dedicada a esta regla importante para calcular

determinantes con una configuración especial. Sin más enunciamos y demostramos la

proposición.

PROPOSICIÓN (Regla de Laplace): Sea A = (𝐵 ⋮ 0⋯ ⋯ ⋯𝑀 ⋮ 𝐶

), con [𝐵]𝑖𝑗 = 𝑏𝑖𝑗, [𝐶]𝑖𝑗 = 𝑐𝑖𝑗,

matrices cuadradas de orden k y h respectivamente y [𝑀]𝑖𝑗 = 𝑚𝑖𝑗 una matriz de orden

h×k, entonces se cumple que:

det(A) = det(B)• det(C).

También se cumple que para una matriz A = (𝐵 ⋮ 𝑀⋯ ⋯ ⋯0 ⋮ 𝐶

), con [𝐵]𝑖𝑗 = 𝑏𝑖𝑗, [𝐶]𝑖𝑗 = 𝑐𝑖𝑗,

matrices cuadradas de orden k y h respectivamente y [𝑀]𝑖𝑗 = 𝑚𝑖𝑗 una matriz de orden

k×h,

122

det(A) = det(B)• det(C).

DEMOSTRACIÓN: Procederemos por inducción sobre el número k desarrollando el

determinante de A, para la primera proposición por la primera fila. Si k = 1 se tiene:

det(𝑏11 ⋮ 0⋯ ⋯ ⋯𝑀 ⋮ 𝐶

) = 𝑏11•det(C).

Supongamos el enunciado cierto para k – 1, entonces, para k se tiene:

det(A) = det

(

𝑏11 … 𝑏1𝑘 ⋮ 0 ⋯ 0⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮𝑏𝑘1⋯𝑚11

⋮𝑏ℎ1

…⋯⋯⋱⋯

𝑏𝑘𝑘⋯𝑚1𝑘

⋮𝑏ℎ𝑘

⋮⋯⋮⋮⋮

0⋯𝑐11⋮𝑐ℎ1

⋯⋯⋯⋱⋯

0⋯𝑐1ℎ⋮𝑐ℎℎ)

=

𝑏11•𝐴𝑑(𝐴)11 + … + 𝑏1𝑘•𝐴𝑑(𝐴)1𝑘.

Pero 𝐴𝑑(𝐴)1𝑗 = (−1)1+𝑗•det(𝐴1𝑗) = (−1)1+𝑗•det(𝐵1𝑗)•det(C) = 𝐴𝑑(𝐵)1𝑗•det(C), por

hipótesis de inducción y para j = 1, …, k, de donde:

det(A) = (𝑏11 • 𝐴𝑑(𝐵)11 + … + 𝑏1𝑘 • 𝐴𝑑(𝐵)1𝑘) •det(C) = det(B) •det(C).

Haciendo el desarrollo del determinante de A en el segundo caso por la primera columna

se obtiene de igual manera el segundo caso. □

7.9 Cálculo de la matriz inversa por medio de determinantes

Hay una fórmula precisa para calcular la matriz inversa de una dada. Esta fórmula será

de interés sobre todo teórico pues el cálculo de la matriz inversa por medio del algoritmo

de Gauss, discutido en la subsección 6.3, es mucho más rápido que utilizar esta fórmula.

Esta subsección está dedicada a presentar y demostrar esta fórmula importante.

DEFINICIÓN: Dada una matriz cuadrada A, de orden n, llamamos matriz adjunta a la que

resulta de sustituir cada elemento por su adjunto asociado y la notaremos como 𝐴∗, de

modo que, por definición, [𝐴∗]𝑖𝑗 = Ad(𝐴)𝑖𝑗.

EJEMPLO 1: Si A = (1 2 32 3 43 4 6

), entonces, 𝐴∗ = (2 0 −10 −3 2−1 2 −1

).

PROPOSICIÓN: Sea A una matriz cuadrada de orden n y sea 𝐴∗ la matriz adjunta de A,

entonces,

A•(𝐴∗) 𝑡 = det(A)• 𝐼𝑛.

DEMOSTRACIÓN: Sea C = A•(𝐴∗) 𝑡, de modo que [𝐶]𝑖𝑗 = 𝑐𝑖𝑗, por lo tanto, cada elemento

de C es el producto de la la fila correspondiente de A por la columna correspondiente

de (𝐴∗) 𝑡, por definición de producto de matrices, de modo que resulta:

123

𝑐𝑖𝑗 = 𝑎𝑖1• Ad(𝐴)𝑗1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑗𝑛.

Para i = j se tiene: 𝑐𝑖𝑖 = 𝑎𝑖1• Ad(𝐴)𝑖1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑖𝑛 = det(A), para todo i, puesto

que es el desarrollo del determinante de A por la i-ésima fila, para cada i.

Para i ≠ j, 𝑐𝑖𝑗 = 𝑎𝑖1• Ad(𝐴)𝑗1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑗𝑛 = 0, pues es el desarrollo del

determinante de una matriz por la fila j, con los elementos de la fila i, es decir, como si

la matriz tuviera dos filas iguales en las posiciones i y j. Por tanto, tenemos:

A•(𝐴∗) 𝑡 = (

det(A) 0 … 00 det(A) … 0⋮0

⋮0

⋱…

⋮det(A)

). □

Ahora se obtiene inmediatamente el siguiente resultado deseado.

TEOREMA: Si la matriz A cuadrada, de orden n es regular, entonces:

𝐴−1 = (1/det(A))•(𝐴∗) 𝑡.

DEMOSTRACIÓN: Si A es regular, entonces sabemos que det(A) ≠ 0, por lo que en la

fórmula de la proposición anterior podemos pasar este número (det(A)) al otro la do de

la igualdad dividiendo: A•(𝐴∗) 𝑡•(1/det(A)) = 𝐼𝑛, de lo que se deduce que,

(𝐴∗) 𝑡•(1/det(A)) = 𝐴−1. □

EJEMPLO 2: Veamos la matriz del ejemplo anterior, ejemplo 1:

A = (1 2 32 3 43 4 6

) y 𝐴∗ = (2 0 −10 −3 2−1 2 −1

).

𝐴−1 = (1/det(A))•(𝐴∗) 𝑡 = (1/-1)• (2 0 −10 −3 2−1 2 −1

) = (−2 0 10 3 −21 −2 1

), como se puede

comprobar haciendo (1 2 32 3 43 4 6

)•(−2 0 10 3 −21 −2 1

) = 𝐼3.

7.10 Relación entre el determinante y el rango de una matriz

Vamos a ver en un teorema, la relación que hay entre el rango de una matriz y el

determinante o mejor dicho, la relación del rango con los determinantes de los menores

que se pueden formar con la matriz. Pero primero vamos a establecer el siguiente lema.

LEMA: Si la matriz A de orden m×n tiene un menor de orden r con determinante distinto

de 0 y todos sus menores de orden superior tienen determinante 0, lo mismo es cierto

para el producto de A por la izquierda, por cualquier matriz elemental de filas o su

producto por la derecha, por cualquier matriz elemental de columnas.

DEMOSTRACIÓN: El argumento es un poco arduo o duro de pensar en un primer

momento, pero si el lector persiste lo comprenderá fácilmente.

124

𝐸𝑖𝑗•A tiene los mismos menores que A salvo con dos de sus filas permutadas, de modo

que si la propiedad es cierta para A también lo será para 𝐸𝑖𝑗•A, pues quizás el único

cambio en el determinante de los menores sea su cambio de signo.

𝐸𝑖(ρ)•A tiene los mismos menores que A salvo con una de sus filas multiplicada por ρ,

de modo que si la propiedad es cierta para A también lo será para 𝐸𝑖(k)•A, pues quizás,

el único cambio en los menores del determinante es multiplicar a estos por el número

k.

𝐸𝑖𝑡(ρ)•A coincide con la matriz A salvo en que a la fila i se le ha sumado la t multiplicada

por el escalar ρ. Por tanto, los menores de 𝐸𝑖𝑡(ρ)•A son menores de A en los que

posiblemente, a una fila se le ha sumando otra multiplicada por ρ salvo aquellos

menores en los que no aparece la fila t pero sí la fila i. Pensemos en esta expresión de

los determinantes:

||

𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮

𝑎𝑖𝑗1 + 𝜌 • 𝑎𝑡𝑗1⋮

𝑎𝑖𝑘𝑗1

…

…

𝑎𝑖𝑗𝑘 + 𝜌 • 𝑎𝑡𝑗𝑘⋮

𝑎𝑖𝑘𝑗𝑘

|| = ||

𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮𝑎𝑖𝑗1⋮

𝑎𝑖𝑘𝑗1

…

…

𝑎𝑖𝑗𝑘⋮


|| + ρ•|

|

𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮𝑎𝑡𝑗1⋮

𝑎𝑖𝑘𝑗1

…

…

𝑎𝑡𝑗𝑘⋮


||.

Si todos los menores de A de orden k > r tienen determinante 0, los de 𝐸𝑖𝑡(ρ)•A también

lo tendrán.

i) Si un menor de orden r de A tiene determinante distinto de 0 y no contiene la

fila i, hay un menor de orden r de 𝐸𝑖𝑡(ρ)•A con determinante distinto de 0.

ii) Si un menor de orden r de A tiene determinante distinto de 0 y contiene las filas

i y t, hay un menor de orden r de 𝐸𝑖𝑡(ρ)•A con determinante distinto de 0 pues

según la descomposición de la ecuación anterior el determinante, segundo

sumando del lado derecho, tiene dos filas iguales (las de índice t e i) y por tanto

su valor (el del determinante de este segundo sumando) es 0.

iii) Si los únicos menores de A de orden r con determinante distinto de 0 contienen

la fila i, pero no la t, en la expresión anterior, el segundo determinante de la

derecha es 0 y por tanto, los menores de 𝐸𝑖𝑡(ρ)•A de orden r con la fila i, pero

no la t, tienen el mismo determinante que los menores de A con las mismas filas

y en particular, uno de ellos tiene determinante distinto de 0.

Los mismos argumentos, cambiando filas por columnas, demuestran que el producto

por la derecha por una matriz elemental por columnas no cambia el rango. □

Ahora estamos preparados para formular nuestro teorema de la relación entre el rango

de una matriz y los determinantes de sus menores.

TEOREMA: Sea A una matriz m×n, entonces el rango de A coincide con el mayor orden

de sus menores con determinante distinto de 0.

DEMOSTRACIÓN: Sea r = rag(A) y sea H la forma de Hermite por filas de A, entonces, H

contiene un menor regular de orden r (el que contiene los r pivotes) y puesto que H

contiene exactamente r filas no nulas todo menor de H de orden r + 1 es singular. Según

125

el lema anterior esta propiedad se mantiene multiplicando por matrices elementales de

filas de modo qua A también lo cumple. □

EJEMPLO: Consideremos la matriz A siguiente:

A = (3 6 5 91 1 2 41 −2 3 7

), por tanto, rag(A) ≤ 3.

Los distintos menores de orden 3 obtenidos de A tienen todos determinante 0:

|3 6 51 1 21 −2 3

| = |3 6 91 1 41 −2 7

| = |3 5 91 2 41 3 7

| = |6 5 91 2 4−2 3 7

| = 0,

por lo que rag(A) ≤ 2. Tomando menores de orden 2 hay uno con determinante no nulo:

|3 61 1

| = -3, luego rag(A) = 2.

Tenga en cuenta el lector que el cálculo del rango por este método es sobre todo útil

cuando se trata de calcular el rango de una matriz dependiente de algún parámetro en

sus coeficientes y se aplica, por tanto, a la discusión de sistemas dependientes de

parámetros.

7.11 La relación entre determinantes y sistemas de ecuaciones, regla de Cramer

Dado un sistema de ecuaciones:

{


==

𝑏1𝑏2…


…=

…𝑏𝑚

Si denotamos por A, a la matriz de coeficientes y por X y B, a la matriz de incógnitas y a

la matriz de términos independientes respectivamente, es decir:

X = (

𝑥1⋮𝑥𝑛), B = (

𝑏1⋮𝑏𝑚

),

el sistema se expresa de esta forma maravillosa y concisa, compruébelo el lector:

A•X = B.

DEFINICIÓN: Diremos que el sistema anterior es un sistema de Cramer si A es una matriz

cuadrada (es decir, el sistema tiene el mismo número, de ecuaciones y de incógnitas) y

además A es regular.

Por tanto, sabemos que todo sistema de Cramer tiene una solución única (es compatible

y determinado), según el teorema de Rouché-Frobenius. Gracias al trabajo que hemos

desarrollado sobre los determinantes hay una forma de computar la solución de los

sistemas de Cramer que vemos en el siguiente Teorema:

126

TEOREMA (Regla de Cramer): Dado un sistema de Cramer:

{


==

𝑏1𝑏2…

𝑎𝑛1𝑥1 +⋯+ 𝑎𝑛𝑛𝑥𝑛

…=

…𝑏𝑛

,

la solución única de él es la siguiente:

𝑥1 = (1/det(A))•|𝑏1 𝑎12 … 𝑎1𝑛⋮ ⋮ ⋱ ⋮𝑏𝑛 𝑎𝑛2 … 𝑎𝑛𝑛

|, …, 𝑥𝑛 = (1/det(A))•|𝑎11 𝑎12 … 𝑏1⋮ ⋮ ⋱ ⋮𝑎𝑛1 𝑎𝑛2 … 𝑏𝑛

|.

DEMOSTRACIÓN: Expresando el sistema en la forma A•X = B, puesto que A es regular

tiene inversa y podemos multiplicar ambos miembros de la igualdad por 𝐴−1, por lo que

queda X = 𝐴−1•B. Ahora, utilizando la expresión de la inversa de una matriz A, que

hemos aprendido en esta subsección se tiene:

(

𝑥1⋮𝑥𝑖⋮𝑥𝑛)

= (1/det(A))•

(

𝐴𝑑(𝐴)11 𝐴𝑑(𝐴)21 … 𝐴𝑑(𝐴)𝑛1⋮ ⋮ ⋱

𝐴𝑑(𝐴)1𝑖⋮

𝐴𝑑(𝐴)1𝑛

𝐴𝑑(𝐴)2𝑖⋮

𝐴𝑑(𝐴)2𝑛

…⋱…

𝐴𝑑(𝐴)𝑛𝑖

𝐴𝑑(𝐴)𝑛𝑛)

•(𝑏1⋮𝑏𝑛

).

Por lo que para cada 𝑥𝑖 se tiene la fórmula:

𝑥𝑖 = (1/det(A))•(𝑏1•𝐴𝑑(𝐴)1𝑖 + … + 𝑏𝑛•𝐴𝑑(𝐴)𝑛𝑖) = (1/det(A))•|

𝑎11 … 𝑏1 … 𝑎1𝑛𝑎21 … 𝑏2 … 𝑎2𝑛⋮𝑎𝑛1

⋱…

⋮𝑏𝑛

⋱…

⋮𝑎𝑛𝑛

|

pues se puede pensar la fórmula anterior como el desarrollo por la i-ésima columna del

determinante de A con la i-ésima columna sustituida por la columna de los términos

independientes, es decir la matriz B. □

EJEMPLO: Sea el sistema:

{

2𝑥 + 𝑦 + 𝑧 = 1𝑥 + 2𝑦 + 𝑧 = 2

𝑥 + 𝑦 + 2𝑧 = 3.

La matriz de coeficientes es:

A = (2 1 11 2 11 1 2

), con det(A) = 4,

por lo que es regular y estamos en el caso de un sistema de Cramer cuyas soluciones son

las siguientes:

x = (1/4)•|1 1 12 2 13 1 2

| = (1/4)•(-2) = -(1/2),

127

y= (1/4)•|2 1 11 2 11 3 2

| = (1/4)•2 = ½

z = (1/4)•|2 1 11 2 21 1 3

| = (1/4)•6 = 3/2.

Pues bien, aquí acaba esta primera sección de Sistemas de Ecuaciones, Matrices y

Determinantes. La siguiente de este libro de Álgebra Lineal estará dedicada a Espacios

Vectoriales.

128

Sección III Espacios vectoriales

129

8 Introducción

8.1 Vectores geométricos fijos y su suma

Consideremos el espacio ordinario tridimensional (Afín) euclidiano como un conjunto de

puntos S, donde no vamos a definir lo que es una recta, un segmento y la longitud de éste,

si no que los damos como conocidos, entonces vamos a hacer la siguiente definición de

vector:

DEFINICIÓN 1 (Vector fijo): Sea un par de puntos A, B, definimos como vector fijo, v = 𝐴𝐵⃗⃗⃗⃗ ⃗, al

par ordenado de los puntos A, B, por lo que este elemento tiene como propiedades las

siguientes:

a) Dirección de v: La de la recta que pasa por sus puntos, A, B.

b) Extemos de v: que son los puntos A, B, donde A se denomina punto de aplicación y B,

extremo de v, o A, inicio del vector v y B, final del mismo.

c) Sentido de v: De A hacia B, como lo define el par ordenado de puntos que es.

d) Longitud, o módulo de v: Como la longitud del segmento de recta que determinan los

dos puntos A, B, y que notaremos como ‖𝑣‖, una vez fijada una unidad de medida.

Ahora introduciremos otras notaciones convenientes:

Notaremos por 𝑊3, el conjunto de todos los vectores fijos del espacio S, es decir, definimos

𝑊3 = {𝐴𝐵⃗⃗⃗⃗ ⃗ | A, B de S} y por 𝑉𝐴3, el conjunto de todos los vectores fijos de punto de aplicación

un mismo punto, es decir, 𝑉𝐴3 = {𝐴𝐵⃗⃗⃗⃗ ⃗ | B de S}, de modo que tenemos la siguiente relación

𝑊3 = ⋃ 𝑉𝐴3

𝐴∈𝑆 .

PROPOSICIÓN 1: Fijado un punto O, entonces, hay una biyección entre 𝑉𝑂3 y S.

DEMOSTRACIÓN: Cada punto B de S determina un único vector 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 y cada vector 𝑂𝐵⃗⃗ ⃗⃗ ⃗,

de 𝑉𝑂3 determina un único punto, B, de S. □

Ahora nos referiremos a 𝑉𝑂3 una vez que hemos fijado un punto O, cualquiera y vamos a

definir la operación de suma en este conjunto.

DEFINICIÓN 2 (Suma de dos vectores fijos en el conjunto 𝑉𝑂3): Definimos la suma de dos

vectores fijos, 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 como el vector 𝑂𝐶⃗⃗⃗⃗ ⃗, tal que es la diagonal del paralelogramo

formado por los vectores 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗, a esta operación se llama regla del paralelogramo. Es fácil

de entender si observamos la figura siguiente:

130

PROPOSICIÓN 2: La suma 𝑂𝐶⃗⃗⃗⃗ ⃗ de dos vectores fijos, 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 se puede obtener como

el lado del triangulo 𝑂𝐶⃗⃗⃗⃗ ⃗, constituido (el triángulo) de los lados 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝐴𝐶⃗⃗⃗⃗ ⃗, de modo que la suma

de dos vectores se puede realizar transportando paralelamente el segundo sumando,

haciendo coincidir el punto de aplicación de éste en el extremo final del primero y el lado

𝑂𝐶⃗⃗⃗⃗ ⃗ está formado por el punto de aplicación del primer vector y su extremo final es el final

del segundo, o de otro modo, como constituido por los lados 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝐵𝐶⃗⃗⃗⃗ ⃗ y 𝑂𝐶⃗⃗⃗⃗ ⃗. De modo que la

suma de dos vectores 𝑂𝐴⃗⃗⃗⃗ ⃗ y 𝑂𝐵⃗⃗ ⃗⃗ ⃗ se puede expresar más convenientemente como 𝑂𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ +

𝐴𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝐵𝐶⃗⃗⃗⃗ ⃗, que se denomina como regla del triángulo en contraposición de la regla del

paralelogramo anterior.

DEMOSTRACIÓN: Mostramos de nuevo la figura anterior y vemos que en el paralelogramo

formado por 𝑂𝐴⃗⃗⃗⃗ ⃗ y 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ es semejante a 𝐴𝐶⃗⃗⃗⃗ ⃗ y, por otra parte, 𝐵𝐶⃗⃗⃗⃗ ⃗ es semejante a 𝑂𝐴⃗⃗⃗⃗ ⃗, por

lo que es cierto que 𝑂𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝐵𝐶⃗⃗⃗⃗ ⃗, según sendas reglas del triángulo. □

La regla del triángulo es más conveniente como veremos y con ella se entiende mejor la

suma de dos vectores que son colineales, que se divide en dos casos: el primero cuando los

dos vectores colineales tienen el mismo sentido y el segundo cuando tienen sentido

contrario, en ambos casos la suma se puede realizar según la regla del triángulo especial,

transportando el punto de aplicación del segundo sumando al final del primero y el vector

suma resultará en el segmento que une el punto de aplicación del primero hacia el final del

segundo (que ha sido transportado) y todo esto realizado en la misma recta.

PROPOSICIÓN 3: Con la suma así definida se cumple que (𝑉𝑂3, +) es un grupo abeliano.

DEMOSTRACIÓN: Comprobamos las 4 propiedades de la suma que la constituyen un grupo

abeliano:

a) Propiedad asociativa: Según la regla del triángulo: 𝑂𝐷⃗⃗⃗⃗⃗⃗ = (𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐶⃗⃗⃗⃗ ⃗) + 𝐶𝐷⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + (𝐴𝐶⃗⃗⃗⃗ ⃗ +

𝐶𝐷⃗⃗⃗⃗ ⃗)

131

b) Existencia de elemento neutro: Se define el elemento neutro como un vector especial

𝑂𝑂⃗⃗⃗⃗⃗⃗ que tiene longitud 0 y su dirección y sentido no están definidos, este vector cumple

que 𝑂𝑂⃗⃗⃗⃗⃗⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝑂⃗⃗⃗⃗⃗⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗.

c) Existencia del elemento opuesto para cada vector 𝑂𝐴⃗⃗⃗⃗ ⃗: Este elemento opuesto 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ = -

𝑂𝐴⃗⃗⃗⃗ ⃗ es el vector en la misma dirección que 𝑂𝐴⃗⃗⃗⃗ ⃗ y del mismo módulo, pero con el punto

A’ en el lado opuesto de A con respecto a O, de modo que 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ = 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝑂⃗⃗⃗⃗⃗⃗ .

d) Propiedad conmutativa: Ya sea por la regla del triángulo o por la del paralelogramo se

cumple que 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝐵⃗⃗ ⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗.□

8.2 Vectores geométricos fijos y el producto por un escalar

Ahora vamos a definir otra operación entre los vectores y los números reales, que

llamaremos escalares, a diferencia de los vectores.

DEFINICIÓN (Producto de un vector por un escalar): Dado un vector v = 𝑂𝐴⃗⃗⃗⃗ ⃗ y un número real

α, llamado escalar, se puede definir el producto de α•v = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ que será otro vector de 𝑉𝑂3, de

la siguiente manera:

a) O, A, B están en la misma recta.

b) Si α > 0, v y α•v tienen la misma orientación, pero si α < 0, v está a un lado de O, mientras

que α•v apunta en el sentido opuesto.

c) ‖α • v‖ = |α|•‖v‖.

Ahora sin más veamos las propiedades de esta operación.

PROPOSICIÓN (Propiedades del producto de un vector por un escalar): Sean, α, µ escalares

reales y u, v vectores fijos de 𝑉𝑂3, entonces se cumplen las siguientes propiedades:

a) α•(u + v) = α•u + α•v.

b) (α + µ)•v = α•v + µ•v.

c) α•(µ•v) = (α•µ)•v.

d) 1•v = v.

DEMOSTRACIÓN:

a) Esto se demuestra por el teorema de la geometría euclidiana elemental conocido por

primer teorema de Tales, que dice quedos triángulos semejantes tienen sus lados

proporcionales. Veamos la imagen siguiente:

132

El triángulo 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝐴𝐶⃗⃗⃗⃗ ⃗, 𝑂𝐶⃗⃗⃗⃗ ⃗ es semejante al 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗, 𝐴′𝐶′⃗⃗⃗⃗⃗⃗⃗⃗ , 𝑂𝐶′⃗⃗ ⃗⃗ ⃗⃗ que en la figura se llaman 𝜆•a,

𝜆•b y 𝜆•(a + b), por lo que los lados a, 𝜆•a y b, 𝜆•b son semejantes respectivamente con la

misma razón de semejanza que es 𝜆, por lo que se cumple que 𝜆•(a + b) = 𝜆•a + 𝜆•b. De la

misma forma se habría podido demostrar esta propiedad con los triángulos 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝐵𝐶⃗⃗⃗⃗ ⃗, 𝑂𝐶⃗⃗⃗⃗ ⃗ y

𝑂𝐵′⃗⃗⃗⃗⃗⃗ ⃗, 𝐵′𝐶′⃗⃗⃗⃗⃗⃗ ⃗⃗ , 𝑂𝐶′⃗⃗ ⃗⃗ ⃗⃗ que también son semejantes.

b) Hay que dividir la demostración en 4 casos:

i) α > 0 y µ > 0, en este caso el sentido del primer miembro coincide con el de v,

pues α + µ > 0, también el sentido del segundo miembro coincide con el de v,

pues α•v y µ•v coinciden en sentido con v. El módulo del primer miembro vale

|α + µ|•‖v‖ = (|α| + |µ|)•‖v‖ = |α|•‖v‖ + |µ|•‖v‖, el del segundo por ser dos

vectores del mismo sentido: ‖α • v + µ • v‖ = ‖α • v‖ + ‖µ • v‖ = |α|•‖v‖ +

|µ|•‖v‖.

ii) α < 0 y µ < 0, en este caso se razón igual que en el anterior salvo que todos los

vectores tienen el sentido opuesto al de v.

iii) α > 0 y µ < 0, con |α| > |µ|. En este caso el sentido del primer vector coincide

con el de v pues α + µ > 0 y el sentido del segundo miembro también coincide

con el de v, pues ‖α • v‖> ‖µ • v‖, por ser |α| > |µ|. El módulo del primer

miembro vale |α + µ|•‖v‖ = (|α| - |µ|)•‖v‖ = |α|•‖v‖ - |µ|•‖v‖ y el del segundo,

por ser ‖α • v‖> ‖µ • v‖: ‖α • v + µ • v‖ = ‖α • v‖ - ‖µ • v‖ = |α|•‖v‖ - |µ|•‖v‖.

iv) α < 0 y µ > 0, con |α| > |µ|. En este caso el sentido del primer miembro es distinto

al de v, pues α + µ < 0 y el del segundo miembro también es distinto pues

‖α • v‖> ‖µ • v‖ y α•v tiene sentido distinto a v. La relación de los módulos es

la misma que en el caso anterior.

c) Hay que distinguir otros 4 casos:

i) α > 0 y µ > 0, en este caso el sentido del primer miembro coincide con el de v,

pues µ > 0, y por tanto, µ•v tiene el mismo sentido que v y por tanto, α•(µ•v)

también. El segundo miembro también tiene el mismo sentido que v por ser α•µ

> 0. En cuanto a los módulos más tarde lo veremos.

ii) Consideremos los casos α > 0 y µ < 0, y α < 0 y µ > 0 en ambos casos, los dos

miembros de la igualdad tienen sentido distinto al de v.

iii) α < 0 y µ < 0, en ambos miembros de la igualdad el sentido es el mismo que el

de v.

En cuanto a los módulos se cumple lo siguiente: ‖α • (µ • v)‖ = |α|•‖µ • v‖ = |α| •

|µ|•‖v‖ = |α • µ|•‖v‖ = ‖(α • µ) • v)‖.

d) Esta propiedad es evidente, pues 1•v tiene el mismo sentido que v y el módulo ‖1 • v‖

= |1|•‖v‖ = ‖v‖. □

8.3 Sistemas de Coordenadas para vectores geométricos fijos

Sin más vamos a definir los conceptos de sistemas de coordenadas para una recta, un plano

y el espacio tridimensional.

133

DEFINICIÓN: Sea una recta r, un sistema de coordenadas en ella, notado por Λ, se define

eligiendo un punto de ella, O, y un vector, 𝑖 , 𝑂𝐸⃗⃗⃗⃗ ⃗, donde E es otro punto de r distinto de O.

El punto O se denomina origen de coordenadas y el vector 𝑖 se denomina vector de la base,

cuya longitud puede ser cualquier número real una vez que hemos definido en r una unidad

de medida.

PROPOSICIÓN 1: Un sistema de coordenadas, Λ, en la recta r define una biyección entre los

puntos de r y los números reales.

DEMOSTRACIÓN: Cualquieras punto P de r determina el vector 𝑂𝑃⃗⃗⃗⃗ ⃗, que a su vez determina

el número x tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 . Y a su vez, cualquier número real x determina un punto P de

la recta de la siguiente manera: 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 . □

DEFINICIÓN: Según la proposición anterior uno dice del punto P que tiene coordenada x, que

se escribirá de la siguiente manera P = (x), con respecto al sistema de coordenadas Λ

denotado también como (O; x) o (O; 𝑖 ).

Ahora definimos lo que es un sistema de coordenadas en un plano α.

DEFINICIÓN: Dado un plano α, se define un sistema de coordenadas en él, notado por Π,

eligiendo un punto O de él y un par de vectores distintos y no colineales 𝑖 = 𝑂𝐸1⃗⃗ ⃗⃗ ⃗⃗ ⃗, 𝑗 = 𝑂𝐸2⃗⃗ ⃗⃗ ⃗⃗ ⃗,

con 𝐸1, 𝐸2, puntos de α y cuya norma de 𝑖 y 𝑗 es arbitraria para cada uno, una vez que hemos

definido una unidad de medida en el plano. El punto O se denomina origen del sistema de

coordenadas y a los vectores 𝑖 , 𝑗 se los llama vectores de la base. El sistema es orientado de

tal manera que el vector 𝑖 coincide con el 𝑗 si realizamos una rotación del mismo en sentido

contrario a las agujas del reloj de ángulo φ, con 0 < φ < π. A la recta determinada por O y 𝐸1,

considerando su orientación (la de 𝑖 ) se denomina eje de abcisas, mientra que a la recta

determinad por O y 𝐸2, con su orientación se denomina eje de ordenadas.

PROPOSICIÓN 2: Un sistema de coordenadas, Π, en un plano α, determina una biyección

entre cada punto de α y cada par ordenado de números reales (x, y).

DEMOSTRACIÓN: Cualquier punto P de α, determina por la regla del paralelogramo, el par

ordenado (x, y), tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 y viceversa cualquier para ordenado de números

reales (x, y) determina un punto P tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 por la regla del paralelogramo de

la suma de vectores fijos. □

DEFINICIÓN: Según la proposición anterior, con respecto a Π los números reales x, y se

denominan las coordenadas de P y se denotará como P = (x, y). El sistema coordenado Π se

denotará (O; x, y) o (O; 𝑖 , 𝑗 ).

134

Para definir un sistema de coordenadas en el espacio (afín) tridimensional necesitaremos

elegir un punto O como origen del sistema y 3 puntos más U, V, W de tal manera que los 4

puntos (incluyendo el O) no estén en el mismo plano, o lo que es equivalente, dados dos

vectores formados por O y dos de los otros puntos determinan (estos vectores) un plano

donde no está el otro cuarto punto.

DEFINICIÓN (terna de vectores orientada según la mano derecha): Una terna ordenada de

vectores fijos (u, v, w) se dice orientada según la mano derecha si los tres ángulos que

determinan esos 3 vectores, es decir los ángulos 𝑢�̂�, 𝑣�̂�, 𝑤�̂�, orientados en ese orden de

manera que si rotamos el primer vector que forma cada ángulo en sentido contrario a las

manecillas del reloj coincidirá con el segundo, sus ángulos son menores que π y distintos del

ángulo nulo.

DEFINICIÓN (Sistema de coordenadas para el espacio (afín) tridimensional S): Un sistema de

coordenadas ∑ para el espacio S se define cuando se elige un punto O llamado origen de

coordenadas y 3 vectores fijos distintos del vector nulo y no contenidos en el mismo plano,

𝑖 = 𝑂𝐴⃗⃗ ⃗⃗ ⃗, 𝑗 = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ y �⃗� = 𝑂𝐶⃗⃗⃗⃗ ⃗, tales que (𝑖 , 𝑗 , �⃗� ) sea una terna de vectores orientada según la

mano derecha. Los vectores 𝑖 , 𝑗 , �⃗� se llaman vectores de la base y las rectas determinadas

por O e 𝑖 , 𝑗 , �⃗� junto con su orientación se llaman respectivamente eje de las abcisas, de las

ordenadas y de las cotas.

PROPOSICIÓN 3: Dado un sistema de coordenadas ∑ en el espacio S se define una biyección

entre los puntos de S y las ternas de coordenadas (x, y, z).

DEMOSTRACIÓN: Dado un punto P de S el sistema de coordenadas para el vector fijo 𝑂𝑃⃗⃗⃗⃗ ⃗ se

determina unívocamente una terna de coordenadas (x, y, z) de tal manera que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 +

y•𝑗 + z•�⃗� . Y recíprocamente, dado una terna (x, y, z) determina únicamente el punto P con

𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 + z•�⃗� . □

DEFINICIÓN: Según el teorema anterior para cada punto P los valores (x, y, z) con el vector

𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 + z•�⃗� que determinan se llaman coordenadas de P o componentes de 𝑂𝑃⃗⃗⃗⃗ ⃗ y

se nota P = (x, y, z). Además, al sistema de coordenadas ∑ se lo nota como ∑ = (O; 𝑖 , 𝑗 , �⃗� ) =

(O; x, y, z).

Para acabar esta subsubsección nos queda una proposición muy interesante cuyas

consecuencias desarrollaremos en la subsubsección siguiente.

PROPOSICIÓN 4: Consideremos los vectores v = x•𝑖 + y•𝑗 + z•�⃗� y w = x’•𝑖 + y’•𝑗 + z’•�⃗� con

respecto al sistema de coordenadas ∑ = (O; 𝑖 , 𝑗 , �⃗� ) y un escalar µ real. Entonces se tiene:

a) v + w = (x + x’)•𝑖 + (y + y’)•𝑗 + (z + z’)•�⃗� .

b) µ•v = (µ•x)•𝑖 + (µ•y)•𝑗 + (µ•z)•�⃗� .

DEMOSTRACIÓN: a) Sea v + w = (x•𝑖 + y•𝑗 + z•�⃗� ) + (x’•𝑖 + y’•𝑗 + z’•�⃗� ), por las propiedades

que demostramos para la suma y el producto por un escalar se cumple que v + w = (x•𝑖 +

x’•𝑖 ) + (y•𝑗 + y’•𝑗 ) + (z•�⃗� + z’•�⃗� ) = (x + x’)•𝑖 + (y + y’)•𝑗 + (z + z’)•�⃗� . b) Esta proposición se

sigue de las propiedades del producto de vectores por escalares. □

135

8.4 El espacio afín n-dimensional y el espacio vectorial 𝐹𝑛, con F un cuerpo cualquiera

Hemos visto en subsubsecciones anteriores que dado un sistema de referencia ∑ = (O; 𝑖 , 𝑗 ,

�⃗� ) del espacio afín tridimensional S, a cada vector 𝑂𝑃⃗⃗⃗⃗ ⃗ le corresponde un punto de P al cual

le corresponde una terna de coordenadas (números reales) notándolo así P = (x, y, z), de

modo que si tenemos un par de puntos P y P’ de coordenadas P = (x, y, z), P’ = (x’, y’, z’) que

se corresponden con los vectores 𝑂𝑃⃗⃗⃗⃗ ⃗ y 𝑂𝑃′⃗⃗⃗⃗⃗⃗ ⃗ y los sumamos 𝑂𝑃⃗⃗⃗⃗ ⃗ + 𝑂𝑃′⃗⃗⃗⃗⃗⃗ ⃗ = 𝑂𝐶⃗⃗⃗⃗ ⃗ al punto C le

corresponde la terna C = (x + x’, y + y’, z + z’) y si multiplicamos a 𝑂𝑃⃗⃗⃗⃗ ⃗ por un escalar µ, µ•𝑂𝑃⃗⃗⃗⃗ ⃗

= 𝑂𝑄⃗⃗⃗⃗⃗⃗ , al punto Q le corresponde la terna Q = (µ•x, µ•y, µ•z). Esto nos sugiere una

generalización del espacio afín S de 3 dimensiones a unos vectores posibles de un espacio

de dimensión cualquiera finita n si consideramos esos vectores como las n-tuplas (𝑥1, 𝑥2, …,

𝑥𝑛), que obtendríamos al fijar un sistema de coordenadas en ese espacio para cada vector

𝑂𝑃⃗⃗⃗⃗ ⃗, de modo que tendríamos la correspondencia 𝑂𝑃⃗⃗⃗⃗ ⃗ ↔ P ↔ (𝑥1, 𝑥2, …, 𝑥𝑛), notándolo así

P = (𝑥1, 𝑥2, …, 𝑥𝑛). Y podríamos generalizar más aún, si en vez de n-tuplas de números reales,

tuviéramos n-tuplas de elementos de cualquier cuerpo no necesariamente del cuerpo de los

reales, de modo que dado un cuerpo F cualquiera, las n-tuplas P = (𝑎1, 𝑎2, …, 𝑎𝑛) con 𝑎𝑖, 1

≤ i ≤ n, cualquier elemento de F, serían puntos de un espacio abstracto que llamaremos

espacio vectorial 𝐹𝑛.

DEFINICIÓN (Espacio vectorial 𝐹𝑛, con F cualquier cuerpo): El espacio vectorial 𝐹𝑛 consiste

de vectores v = (

𝑎1𝑎2⋮𝑎𝑛

) con elementos 𝑎1, 𝑎2, …, 𝑎𝑛 cualesquiera de F llamadas componentes

o coeficientes de v y con dos operaciones:

a) Para 2 vectores v = (


), w = (

𝑏1𝑏2⋮𝑏𝑛

) su suma se define como v + w = (

𝑎1 + 𝑏1𝑎2 + 𝑏2

⋮𝑎𝑛 + 𝑏𝑛

).

b) Para un vector v = (


) y un escalar (un elemento de F), µ el producto exterior, µ•v =

(

µ • 𝑎1µ • 𝑎2⋮

µ • 𝑎𝑛

). A la suma se le llama también adición y al producto exterior, producto

escalar.

También se define que dos vectores v = (


), w = (

𝑏1𝑏2⋮𝑏𝑛

) son iguales, v = w, si se cumple la

igualdad como n-tuplas, es decir, 𝑎1 = 𝑏1, 𝑎2 = 𝑏2, …, 𝑎𝑛 = 𝑏𝑛.

Ahora veremos que este espacio vectorial así construido tiene las mismas propiedades que

el espacio 𝑉𝑂3 de vectores geométricos fijos, dado un punto O del espacio.

136

PROPOSICIÓN 1: La suma de vectores y el producto por un escalar en 𝐹𝑛 cumplen las

siguientes propiedades:

1) Dados dos vectores v, w, v + w = w + v.

2) Dados 3 vectores u, v, w, (u + v) + w = u + (v + w).

3) Existe el vector 0 tal que dado un vector cualquiera v se cumple v + 0 = 0 + v = v.

4) Para todo vector v, existe el vector -v, tal que, v + (-v) = -v + v = 0.

5) Para cualquier escalar c y vectores u, v se cumple que c•(u + v) = c•u + c•v.

6) Para cuales quiera escalares c, d y cualquier vector v se cumple que (c + d)•v = c•v + d•v.

7) Para cualesquiera escalares c, d y cualquier vector v, se cumple que (c•d)•v = c•(d•v).

8) Para cualquier vector v se cumple que 1•v = v.

DEMOSTRACIÓN: Son comprobaciones rutinarias que se deducen de las propiedades del

cuerpo F, por lo que dejamos su demostración al lector, pero tenemos que notar que el

vector 0 de 3) es 0 = (

00⋮0

), es decir el vector 0 es el que tiene por todas sus componentes el

0 del cuerpo y el vector -v de 4) dado v = (


), es el siguiente, -v = (

−𝑎1−𝑎2⋮

−𝑎𝑛

). □

Hay todavía 4 propiedades importantes más que las mostramos aparte de las anteriores

porque en la definición axiomática de los espacios vectoriales que daremos más adelante,

se deducen de las anteriores, aunque en el espacio 𝐹𝑛 se pueden demostrar directamente

por las propiedades del cuerpo F.

PROPOSICIÓN 2:

9) Para cualquier vector v, entonces 0•v = 0, donde el primer cero es el elemento neutro

de la suma en el cuerpo y el segundo cero es el elemento neutro de la suma de vectores

en 𝐹𝑛.

10) Si 0 es el vector 0 de 𝐹𝑛, entonces, para cualquier escalar c, c•0 = 0.

11) Sea v cualquier vector, entonces, (-1)•v = -v.

12) Sean c y v cualquier escalar y vector respectivamente entonces, c•v = 0 implica que c =

0 o v = 0.

DEMOSTRACIÓN: Se deja al lector. □

En esta subsección hemos visto varios objetos (Los vectores geométricos fijos y el espacio

vectorial 𝐹𝑛) que tienen una serie de propiedades en común, por lo que nos han servido

como introducción al concepto abstracto de espacio vectorial que veremos que tiene

muchos mas ejemplos o casos dispares, todos con las mismas propiedades que permiten su

estudio en conjunto. Puesto que hay una diferencia substancial entre los ejemplos, los

espacios vectoriales de dimensión finita y los espacios vectoriales de dimensión infinita,

nosotros nos centraremos en los espacios de dimensión finita.

137

9 Espacios Vectoriales. Bases

9.1 Definición y ejemplos

DEFINICIÓN (Espacio Vectorial): Sea F un cuerpo y V un conjunto no vacío; diremos que V

es un espacio vectorial sobre F (o F-espacio vectorial) si:

a) En V hay definida una operación interna, que denotaremos por +, de forma que (V, +)

es un grupo abeliano, es decir, verifica las siguientes propiedades:

1) Asociativa: (u + v) + w = u + (v + W), para todo u, v, w de V.

2) Conmutativa: u + v = v + u, para todo u, v de V.

3) Existencia de elemento neutro: Existe un elemento 0 de V tal que 0 + v = v + 0, para

todo v de V.

4) Existencia de elemento opuesto: Para todo v de V existe un -v de V tal que v + (-v) =

-v + v = 0.

b) En V hay definida una operación externa (ley de composición externa) de F en V que

denotaremos por •, que verifica lo siguiente:

1) a•(u + v) = a•u + a•v, para todo a de F y todo u, v de V.

2) (a + b)•u = a•u + b•v, para todo a, b de F y todo u de V.

3) a•(b•u) = (a•b)•u, para todo a, b de F y todo u de V.

4) 1•u = u, para todo u de V.

Los elementos del espacio vectorial V se denominan vectores y a los elementos de cuerpo F

los denominamos escalares. A la operación externa la denominamos producto por escalares.

EJEMPLO 1: 𝔐m•n(F) es un espacio vectorial sobre F con las operaciones de suma de

matrices y producto por escalares de F definidas en la sección anterior dedicada a las

matrices y sistemas lineales.

EJEMPLO 2: El cuerpo F puede considerarse como espacio vectorial sobre sí mismo

considerando el producto por escalares como el producto de elementos del cuerpo. Más

generalmente ya hemos visto que si consideramos el producto cartesiano de F consigo

mismo n veces: 𝐹𝑛 = {(

𝑥1 𝑥2⋮𝑥𝑛

) | 𝑥𝑖 de F, para todo i = 1, 2, …, n} podemos dotarlo de estructura

de espacio vectorial sobre F si definimos las siguientes operaciones:

(


) + (

𝑦1 𝑦2⋮ 𝑦𝑛

) = (

𝑥1 + 𝑦1 𝑥2 + 𝑦2

⋮𝑥𝑛 + 𝑦𝑛

),

k•(


) = (

k • 𝑥1 k • 𝑥2⋮

k • 𝑥𝑛

), con k de F.

Si definimos como 𝐹0 = {0} y la suma 0 + 0 = 0 con -0 = 0 y la multiplicación por un escalar c

de F como c•0 = 0, vemos que este conjunto también es un espacio vectorial.

138

EJEMPLO 3: Sea V el conjunto de vectores v = (

𝑎1𝑎2𝑎3⋮

), con 𝑎1, 𝑎2, 𝑎3,… infinitos elementos de

F, donde hay un 𝑎𝑖, para cada natural i. Definamos la suma en V como (

𝑎1𝑎2𝑎3⋮

) + (

𝑏1𝑏2𝑏3⋮

) =

(

𝑎1 + 𝑏1𝑎2 + 𝑏2𝑎3 + 𝑏3

⋮

) y la multiplicación por un escalar c de F como c•(

𝑎1𝑎2𝑎3⋮

) = (

𝑐 • 𝑎1𝑐 • 𝑎2𝑐 • 𝑎3⋮

). El vector 0 es

definido como 0 = (

000⋮

) y para cada v = (

𝑎1𝑎2𝑎3⋮

), el vector -v = (

−𝑎1−𝑎2−𝑎3⋮

), entonces se puede

comprobar que este conjunto es un espacio vectorial y se denota como V = 𝐹∞∞.

EJEMPLO 4: Definamos V como los vectores v = (

𝑎1𝑎2𝑎3⋮

), con 𝑎1, 𝑎2, 𝑎3,… elementos de F

donde solo hay un número finito de 𝑎𝑖 ≠ 0. Definimos la suma de vectores, el producto por

un escalar de F, el 0 y para todo v el -v de la misma forma que en el ejemplo 3 anterior. Está

claro que si u y v pertenecen a V tienen los dos un número finito de 𝑎𝑖 ≠ 0, por lo que a su

suma y producto por un escalar le ocurre lo mismo y también cumplen lo mismo el vector 0

y para todo v, el -v, por lo que este conjunto V así definido también es un espacio vectorial,

como se puede comprobar y es denotado como v = 𝐹∞.

EJEMPLO 5: Para cada n natural sea V = {(𝑎1, 𝑎2, …, 𝑎𝑛) | con 𝑎𝑖 de F para cada i = 1, …, n}

con adición y multiplicación por un escalar realizada para cada componente similarmente al

ejemplo 2, y con el vector 0 = (0, 0, …, 0) y para cada v = (𝑎1, 𝑎2, …, 𝑎𝑛) se define el vector -

v = (-𝑎1, -𝑎2, …, -𝑎𝑛) , entonces, V así definido es un espacio vectorial, que denotaremos

como (𝐹𝑛)𝑡 . Para n = 0 definimos 𝐹0 = {0} = (𝐹0)𝑡.

Similarmente al ejemplo 3 definimos (𝐹∞∞)𝑡 = {(𝑎1, 𝑎2, 𝑎3, …) | con 𝑎𝑖 de F para cada natural

i} y se comprueba que es un espacio vectorial.

Y Similarmente al ejemplo 4 definimos (𝐹∞)𝑡 = {(𝑎1, 𝑎2, 𝑎3, …) | con 𝑎𝑖 ≠ 0 de F para un

número finito de i} y se comprueba que es un espacio vectorial.

EJEMPLO 6: a) Sea P(F) = {polinomios en una indeterminada x con coeficientes en F} = {𝑎0 +

𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛 | 𝑎1, 𝑎2, …, 𝑎𝑛 de F} donde definimos la adición de sus elementos

de la siguiente manera: (𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛) + (𝑏0 + 𝑏1•x + 𝑏2•𝑥2 + … + 𝑏𝑛•𝑥𝑛)

= (𝑎0 + 𝑏0) + (𝑎1 + 𝑏1)•x + (𝑎2 + 𝑏2)•𝑥2 + … + (𝑎𝑛 + 𝑏𝑛)•𝑥𝑛 y la multiplicación por un escalar

c de F como c•(𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛) = c•𝑎0 + c•𝑎1•x + c•𝑎2•𝑥2 + … + c•𝑎𝑛•𝑥𝑛.

El polinomio 0 es el polinomio con todos sus coeficientes el 0 y -(𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … +

𝑎𝑛•𝑥𝑛) = (-𝑎0) + (−𝑎1)•x + (-𝑎2)•𝑥2 + … + (-𝑎𝑛)•𝑥𝑛. Entonces con estas definiciones se

comprueba que P(F) es un espacio vectorial.

139

b) Si definimos el grado de un polinomio distinto del 0 como la potencia más alta de x que

aparece en el polinomio, es decir que si el polinomio es 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛 con

𝑎𝑛 ≠ 0, entonces, el grado del polinomio es n. Entonces para cualquier d mayor o igual que

0, sea 𝑃𝑑(F) = {polinomios con coeficientes en F de grado máximo d}, se comprueba que

𝑃𝑑(F) es un espacio vectorial.

EJEMPLO 7: a) Sea X cualquier conjunto y sea V = {f: X → F}, es decir el conjunto de las

funciones definidas en X con valores en F. Definimos la suma de dos funciones f + g como (f

+ g)(x) = f(x) + g(x) para cada x de X y el producto de una función f por un escalar c, de F como

(c•f)(x) = c•f(x), para cada x de X. También definimos la función 0 como 0(x) = 0 para cada x

de X y la función -f para cada f como (-f)(x) = -f(x) para cada x de X, entonces V así definido

se comprueba que es un espacio vectorial sobre F.

b) Más general sea X cualquier conjunto y W un espacio vectorial sobre F, definamos V = {f:

X → W} y definamos la suma y multiplicación por un escalar y el elemento 0 y -f para todo f

como en el caso a) anterior entonces se comprueba que V así definido es un espacio vectorial

sobre F.

EJEMPLO 8: Ya lo hemos visto pero lo recalcamos aquí que existe el espacio vectorial con un

solo elemento que ha de ser el 0 y definimos la suma de dos elementos de este espacio como

0 + 0 = 0 y el producto por un escalar c, de F como c•0 = 0, entonces se comprueba que este

conjunto es un espacio vectorial al que se le llama espacio vectorial 0 o trivial.

Nos gustaría, para terminar, hacer una aclaración. Para un mismo conjunto V se pueden

tener 2 estructuras de espacio vectorial diferentes, por ejemplo los números complejos,

notémoslos por V, pueden considerarse un espacio vectorial con respecto al cuerpo de el

mismo, considerando el producto ordinario en los complejos como el producto por un

escalar siendo los números complejos, tanto los elementos de V, como los escalares del

espacio vectorial, pero también se puede considerar los complejos como un espacio

vectorial con respecto a los números reales como escalares y veremos más adelante, que

son dos espacios vectoriales diferentes. Por lo tanto, al definir o considerar un espacio

vectorial V, debemos tener claro a cuál de los posibles nos estamos refiriendo en caso de

posible confusión.

9.2 Primeras propiedades de los espacios vectoriales

Esta subsubsección constará solo de una proposición, la siguiente:

PROPOSICIÓN (Primeras propiedades de un espacio vectorial): Sea V un espacio vectorial

sobre el cuerpo F, para a, b de F y u, v de V se cumple:

1) El elemento 0 es único en V, es decir hay un solo elemento 0 de V con la propiedad de

que 0 + u = u + 0 = u, para todo u de V.

2) Para todo u de V hay un único vector -u, tal que -u + u = u + (-u) = 0.

3) Si existe un vector v con la propiedad de que para un vector u ocurre que u + v = u o v

+ u = u, entonces v = 0.

4) 0•u = 0

5) a•0 = 0

140

6) si a•v = 0, entonces a = 0 o v = 0

7) (-1) •v = -v

8) –(a•v) = (-a) •v = a•(-v)

9) a•(u – v) = a•u - a•v

10) (a – b) •u = a•u - b•u

11) a•u = b•u y u es diferente de 0, entonces, a = b

12) a•u = a•v y a es distinto de 0, entonces u = v

DEMOSTRACIÓN: 1) y 2) Ya se demostraron en la subsubsección 1.11 de las estructuras

algebraicas.

3) Se cumple lo siguiente: v + u = u, (v + u) + (-u) = 0, v + (u – u) = 0, v + 0 = 0, v = 0, la

otra demostración es igual.

4) 0•v = (0 + 0) •v = 0•v + 0•v, de modo que por 3) anterior, deducimos que 0•v = 0.

5) a•0 = a•(0 + 0) = a•0 + a•0, por lo que por 3) a•0 = 0.

6) Si a•v = 0 y a es diferente de 0, existe 𝑎−1, tal que, 𝑎−1•a•v = 1•v = 𝑎−1•0 = 0, de

modo que v = 0.

7) (-1) •v + v = (-1 + 1) •v = 0•v = 0 y por otra parte, v + (-1) •v = (1 - 1) •v = 0•v = 0.

8) a•v + (-a•v) = (a – a) •v = 0•v, de modo que (-a)•v = -(a•v). De la misma manera,

a•v + a•(-v) = a•(v – v) = a•0 = 0.

9) a•(u – v) = a•(u + (– v)) = a•u + a•(-v) = a•u - a•v.

10) (a – b) •u = (a + (-b)) •u = a•u - b•u.

11) a•u = b•u implica que a•u - b•u = 0 = (a-b)•u, lo que implica que a - b = 0, es decir,

a = b.

12) a•u = a•v, esto implica que a•u - a•v = 0 = a•(u – v) lo que implica que u – v = 0, es

decir, u = v. □

9.3 Dependencia lineal e independencia lineal

Sin más, empezamos esta subsubsección tan importante definiendo conceptos:

DEFINICIÓN 1 (Combinación lineal, en el caso de un número finito de vectores):

1) Sea S = {𝑣1, …, 𝑣𝑘}, un conjunto finito de vectores de un espacio vectorial, V, entonces,

para cualesquiera escalares 𝑐1, …, 𝑐𝑘, v = ∑ 𝑐𝑖 • 𝑣𝑖𝑘𝑖=1 = 𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘, es una

combinación lineal de vectores en S.

2) Si el conjunto de vectores S es el conjunto vacío, entonces por definición, el vector 0 en

V es la única combinación lineal de los vectores de S.

DEFINICIÓN 2 (Combinación lineal, en el caso de un número infinito de vectores): sea S = {𝑣1,

𝑣2, …} una familia arbitraria de vectores (que puede ser infinita) del espacio vectorial V,

entonces una combinación lineal con los escalares 𝑐1, 𝑐2, …, es una suma ∑𝑐𝑘 • 𝑣𝑘 = 𝑐1•𝑣1

+ 𝑐2•𝑣2 + …, en donde es obligatorio que todos los escalares 𝑐𝑘, salvo un número finito, sean

cero.

DEFINICIÓN 3 (Combinación lineal trivial): En el caso de que, en las definiciones anteriores,

𝑐𝑖 = 0, para todo i se dirá que la combinación lineal es la trivial. Si ocurre lo contrario, es

141

decir, 𝑐𝑖≠ 0 para algún i, la combinación lineal se dirá no trivial. En el caso 2) de la definición

1, es decir cuando S es vacío, la única combinación posible es la trivial.

LEMA (Valor de la combinación trivial): Una combinación lineal trivial, siempre tiene el valor

de 0.

DEMOSTRACIÓN: Para el caso de S vacío por definición se cumple el lema. Para S no vacío,

si 𝑐𝑖 = 0, para todo i, se cumple que v = 0•𝑣1 + 0•𝑣2 + … = 0 + 0 + … = 0. □

DEFINICIÓN 4 (Conjunto de vectores linealmente independientes, caso finito e infinito): Sea

S un conjunto arbitrario de vectores de un espacio vectorial V, S es linealmente

independiente, si la única combinación lineal de ellos que es 0 es la trivial, es decir, para

cualquier combinación lineal de S = {𝑣1, 𝑣2, …}, 𝑐1•𝑣1 + 𝑐2•𝑣2 + … = 0 implica que 𝑐𝑖 = 0, para

todo i.

DEFINICIÓN 5 (Conjunto de vectores linealmente dependientes, caso finito e infinito): Un

conjunto de vectores S = {𝑣1, 𝑣2, …}, es linealmente dependiente si no es linealmente

independiente, es decir, hay alguna combinación lineal de ellos, 𝑐1•𝑣1 + 𝑐2•𝑣2 + … = 0, con

𝑐𝑖≠ 0 para algún i.

EJEMPLO 1: Sean los siguientes vectores de 4, es decir las 4-tuplas de los números reales,

u = (1, 2, 0, 0) y v = (0, 0, 1, 0), entonces el vector (2, 4, 3, 0) es combinación lineal de u y v,

puesto que (2, 4, 3, 0) = 2•u + 3•v, como se puede comprobar. Pero (0, 0, 0, 1) no puede ser

combinación lineal de u y v, puesto que el último componente de cualquier combinación

lineal de u y v es siempre 0.

EJEMPLO 2: Sea el espacio vectorial 𝑃2(), es decir los polinomios con coeficientes en los

reales de grado menor o igual a 2. Consideremos lo vectores p(x) = 𝑥2 + x + 1, q(x) = 2•x + 1

y r(x) = 𝑥2 + 1. Veamos si son linealmente dependientes o independientes:

Sea la combinación lineal arbitraria a•p(x) + b•q(x) + c•r(x) = 0, entonces se cumple que,

0 = a•(𝑥2 + x + 1) + b•(2•x + 1) + c•(𝑥2 + 1) = a•𝑥2 + a•x + a + 2•b•x + b + c•𝑥2 + c =

= (a + c) •𝑥2 + (a + 2•b)•x + (a + b + c) = 0.

De donde se obtiene el siguiente sistema homogéneo:

{𝑎 + 𝑐 = 0

𝑎 + 2 • 𝑏 = 0𝑎 + 𝑏 + 𝑐 = 0

Que se puede comprobar que es compatible determinado con solución única a = 0, b = 0 y c

= 0, lo que significa que la única manera en que la combinación lineal genérica es 0 es que

los coeficientes sean los 3, 0, por lo que el conjunto de vectores (polinomios) dado es

linealmente independiente.

Para el próximo ejemplo debemos hacer unos comentarios interesantes. Ya vimos en la

subsubsección 7.11, que dado un sistema de ecuaciones, S, se puede considerar éste como

una ecuación, entre el producto de la matriz de coeficientes, A, y la matriz columna de las

incógnitas, X, con una matriz columna, B, por tanto, dado S, tenemos la ecuación A•X = B: el

142

producto A•X, que recalcamos, es el producto de una matriz rectangular con una matriz

columna es igual a una matriz columna, B. Pero también vimos en la subsubsección 5.3, en

concreto en la proposición 2 apartado 5) que el producto de una matriz con una columna,

es lo mismo que la combinación lineal de cada columna de la matriz con su componente

asociado 𝑥𝑖, de la matriz columna, X, como coeficiente de la combinación lineal, de modo

que un sistema de ecuaciones es un problema que busca hallar qué coeficientes son los

necesarios para expresar el vector columna B como combinación lineal de las columnas de

la matriz de coeficientes considerados a su vez vectores columna. Si el sistema es compatible

y determinado, obtendremos los coeficientes necesarios, si es compatible indeterminado

obtendremos un conjunto de coeficientes dependientes de parámetros que expresan que

hay muchas posibilidades, infinitas, no solo una. Y si el sistema es incompatible, entonces,

es imposible expresar el vector B como combinación lineal de las columnas de la matriz

considerados como vectores. Si B = 0, el vector columna nulo, el sistema de ecuaciones sería

homogéneo, entonces el sistema es un problema que trata de hallar los coeficientes que son

necesarios para obtener cero como combinación lineal de las columnas de la matriz, de

modo que estamos buscando si éstas columnas, son un conjunto linealmente dependiente

y si el sistema es compatible determinado sacamos la conclusión de que el conjunto de las

columnas de la matriz del sistema es linealmente independiente. Notemos que si el sistema

es compatible indeterminado habrá muchas posibilidades para que el conjunto de las

columnas de la matriz sea linealmente dependiente, es decir habrá infinitas formas

dependientes de parámetros de obtener una combinación lineal de resultado el vector cero.

De modo que ya sabemos cómo utilizar los sistemas de ecuaciones para determinar los

coeficientes de dependencia lineal, los coeficientes que producen un vector como

combinación lineal de otros, si es posible, y si ciertos vectores son linealmente dependientes

o independientes, siempre que los vectores sean elementos de 𝐹𝑛, siendo F un cuerpo

cualquiera. Como debemos proceder es considerar esos vectores como vectores columna y

agruparlos para formar la matriz de coeficientes de un sistema y después aplicar los

conocimientos que tenemos en la discusión de un sistema para responder las preguntas que

nos hacemos, según la discusión del párrafo anterior. Veamos un ejemplo:

EJEMPLO 3: Estudiemos si el siguiente conjunto de vectores de 3 es linealmente

dependiente o independiente: {(1, 0, 1), (1, 1, 0), (1, 1, 1), (1, 2, 1)}.

Según los párrafos inmediatamente anteriores a este ejemplo, dado el sistema homogéneo

A•X = 0, es equivalente a la siguiente ecuación: Columna_1 (A)• 𝑥1 + Columna_2 (A)• 𝑥2 + …

+ Columna_n (A)• 𝑥𝑛 = 0, de modo que se trata de ver que combinaciones lineales de las

columnas son el vector 0, es decir, si el conjunto de vectores columnas es linealmente

dependiente o no. Por tanto, si disponemos los vectores del ejemplo en forma de columnas

y los agrupamos como un sistema de ecuaciones su matriz asociada será la formada por los

vectores como columnas, es decir, tenemos que discutir el siguiente sistema homogéneo

cuya matriz de coeficientes es la siguiente:

(1 1 1 101

10

11

21),

143

Este sistema sería determinado si el rango fuera 4, pero esto es imposible, ya que la matriz

de coeficientes solo tiene 3 filas, por lo que el rango a lo máximo es 3, de modo que ya

podemos concluir que los vectores son linealmente dependientes. Veamos que existe una

submatriz cuyo determinante es distinto de 0, se trata por ejemplo de la esquina superior

izquierda:

(1 1 101

10

11), cuyo determinante es 1.

Esto nos dice que el conjunto de estos vectores es linealmente independiente, puesto que

su sistema homogéneo asociado sería compatible determinado.

Veamos ahora, algunas propiedades de los conjuntos linealmente dependientes e

independientes en las 2 proposiciones siguientes.

PROPOSICIÓN 1: Sea V un espacio vectorial sobre F, entonces se cumple que:

1) Si 0 pertenece a {𝑣1, …, 𝑣𝑛}, entonces, {𝑣1, …, 𝑣𝑛} es linealmente dependiente.

2) {𝑣1} es linealmente independiente si y sólo si, 𝑣1 ≠ 0.

3) Si {𝑣1, …, 𝑣𝑛} es linealmente dependiente, entonces, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟}, es

linealmente dependiente.

4) Si {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente independiente, entonces, {𝑣1, …, 𝑣𝑛} es


DEMOSTRACIÓN: 1) Digamos que 𝑣1 = 0, entonces, 1•𝑣1 + 0•𝑣2 + … + 0•𝑣𝑛 = 0, donde el

único coeficiente distinto de 0 es el del vector 𝑣1 = 0, es una combinación lineal distinta de

la trivial e igual a 0, por lo que se demuestra que {𝑣1, …, 𝑣𝑛} es linealmente dependiente.

2)Según 1), {0} es linealmente dependiente, de modo que {𝑣1} es linealmente independiente

solo si 𝑣1 ≠ 0. Además, sabemos que si 𝑣1 ≠ 0, a•𝑣1 = 0, solo si a = 0, de modo que si 𝑣1 ≠ 0,

{𝑣1} es linealmente independiente.

3) Sea 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0 con no todos los 𝑎𝑖 = 0, de modo que {𝑣1, …, 𝑣𝑛} es

linealmente dependiente, entonces, 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 + 0 • 𝑣𝑛+1 + … + 0 • 𝑣𝑛+𝑟 = 0

con no todos los 𝑎𝑖 = 0, por tanto, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente dependiente.

4) Si {𝑣1, …, 𝑣𝑛} fuera linealmente dependiente por el punto anterior, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …,

𝑣𝑛+𝑟} sería también linealmente dependiente, de modo que encontraríamos una

contradicción, por lo que 𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente independiente implica

que {𝑣1, …, 𝑣𝑛} también lo es. □

Ahora demostraremos la siguiente importante proposición:

PROPOSICIÓN 2: Un conjunto de vectores {𝑣1, …, 𝑣𝑛}, es linealmente dependiente si y sólo

si, uno de los vectores es combinación lineal de los restantes.

DEMOSTRACIÓN: Si {𝑣1, …, 𝑣𝑛}, es linealmente dependiente es porque existe una

combinación lineal 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0 con no todos los 𝑎𝑖 = 0, supongamos que

reordenamos {𝑣1, …, 𝑣𝑛}, de modo que es 𝑎1 ≠ 0, entonces de 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0,

podemos despejar 𝑣1, de modo que 𝑣1 = -𝑎2/𝑎1 • 𝑣2 - … - 𝑎𝑛/𝑎1 • 𝑣𝑛. Recíprocamente, si

144

𝑣1 = 𝑏2 • 𝑣2 + … + 𝑏𝑛 • 𝑣𝑛, se obtiene que 0 = (-1)• 𝑣1 + 𝑏2 • 𝑣2 + … + 𝑏𝑛 • 𝑣𝑛 y vemos que

{𝑣1, …, 𝑣𝑛}, es linealmente dependiente. □

Observemos que el teorema anterior no afirma que cada vector es combinación lineal de los

restantes si el conjunto es linealmente dependiente, es decir, solo podemos asegurar que

uno es combinación lineal de los restantes. Veamos el siguiente ejemplo.

EJEMPLO 4: Sea el conjunto de vectores de 2 siguientes: {(1, 1), (1, 0), (2, 2)}, piense un

poco el lector, porque son linealmente dependientes, es fácil de pensar (2, 2) se puede

expresar como combinación lineal de (1, 1), en cambio, el vector (1, 0) no se puede expresar

como combinación lineal de los otros dos.

Si tenemos un espacio vectorial considerado como otros varios con distintos conjuntos de

escalares, entonces, la dependencia lineal o independencia lineal no solo depende de los

vectores, sino también, de los escalares que consideremos en la estructura de espacio

vectorial. Para entender lo que queremos decir veamos el siguiente ejemplo.

EJEMPLO 5: Los vectores u = (1 + i, 2•i) y v = (1, 1+ i) de 𝐶2, los pares ordenados de

complejos, son linealmente dependientes en 𝐶2, considerando como escalares a los

complejos, mientras que es un conjunto linealmente independiente si consideramos los

escalares como los números reales. Veámoslo: Si consideramos la combinación lineal

siguiente: 𝑧1•(1 + i, 2•i) + 𝑧2•(1, 1 + i) = (0, 0) se llega al siguiente sistema de ecuaciones:

{(1 + 𝑖) • 𝑧1 + 𝑧2 = 0

2 • 𝑖 • 𝑧1 + (1 + 𝑖) • 𝑧2 = 0

Donde la primera ecuación 𝑧2 = -(1 + i)•𝑧1no tiene solución para 𝑧1 y 𝑧2 reales, distinta de la

trivial. En cambio, considerando los escalares como números complejos la segunda ecuación

es la primera multiplicada por (1 + 𝑖), de modo que el sistema tiene infinitas soluciones una

de las cuales es: 𝑧1 = 1, 𝑧2 = -(1 + 𝑖).

9.4 Sistema de generadores de un espacio vectorial

DEFINICIÓN (Sistema de generadores para el caso finito e infinito): Un conjunto de vectores,

S, de un espacio vectorial V, se dice que es un sistema de generadores de V, si todo vector

de V se puede expresar como combinación lineal de los vectores de S. Recordemos que para

el caso infinito la expresión de cada vector de V como combinación lineal de vectores de S

debe ser una combinación lineal de un conjunto finito de vectores de S.

EJEMPLO 1: Sea S = {(1, 1), (1, 0), (1, -1)} es un sistema de generadores de 2. Para

comprobarlo tenemos que plantear este problema: dado un vector (x, y), encontrar

escalares a, b, c tales que: a•(1, 1) + b•(1, 0) + c•(1, -1) = (x, y), el cual se convierte en el

sistema:

{1 • 𝑎 + 1 • 𝑏 + 1 • 𝑐 = 𝑥

1 • 𝑎 − 1 • 𝑐 = 𝑦,

Con incógnitas a, b, c. Vemos que la matriz de coeficientes tiene rango 2 y el rango de la

matriz ampliada no puede ser mayor que 2, por tanto, el sistema es compatible, para

145

cualesquiera valores x, y, por lo que el conjunto S, efectivamente, es un sistema de

generadores de 2.

PROPOSICIÓN 1: Sea S = {𝑢1, 𝑢2, …, 𝑢𝑛}, un sistema de generadores del espacio vectorial V,

si 𝑢𝑖 es combinación lineal de los restantes vectores S, entonces el conjunto de los vectores

que se obtiene de S, eliminando el 𝑢𝑖, es decir S’ = {𝑢1, …, 𝑢𝑖−1, 𝑢𝑖+1, …, 𝑢𝑛}, es también un

sistema de generadores de V.

DEMOSTRACIÓN: Sea 𝑢𝑖 = ∑ 𝑏𝑗𝑗≠𝑖 • 𝑢𝑗 y sabemos que cada vector v, de V se puede expresar

de la siguiente manera: v = 𝑎1•𝑢1 + … + 𝑎𝑖•𝑢𝑖 + … + 𝑎𝑛•𝑢𝑛 = sustituyendo el valor de 𝑢𝑖 en

función de los restantes vectores de S, v = 𝑎1•𝑢1 + … + 𝑎𝑖•(∑ 𝑏𝑗𝑗≠𝑖 • 𝑢𝑗) + … + 𝑎𝑛•𝑢𝑛,

obtenemos, v = (𝑎1 + 𝑎𝑖•𝑏1)• 𝑢1 + (𝑎2 + 𝑎𝑖•𝑏2)• 𝑢2 + … + (𝑎𝑛 + 𝑎𝑖•𝑏𝑛)• 𝑢𝑛, de modo que v

se puede expresar como combinación lineal de los vectores de S’, cualquiera que sea v. □

EJEMPLO 2: En el ejemplo anterior vimos que S = {(1, 1), (1, 0), (1, -1)} era un sistema de

generadores de 2. Pero veamos que el primer vector (1, 1), se puede expresar como

combinación lineal de los otros dos: (1, 1) = 2•(1, 0) + (-1)•(1, -1), luego sabemos que S’ =

{(1, 0), (1, -1)}, sigue siendo un sistema de generadores de 2.

Ahora hagamos notar un hecho acerca de la dependencia o independencia lineal y los

sistemas de generadores. Según la proposición anterior y la proposición 2 de la

subsubsección anterior vemos que los conjuntos de vectores linealmente dependientes son

en cierta manera redundantes, ya que hay más vectores que los necesarios para ser un

sistema de generadores y hay al menos, un vector que se puede expresar en función de los

otros. En cambio, los sistemas linealmente independientes son no redundantes, en el

sentido de que ninguno de ellos se puede expresar como combinación lineal de los otros.

Ahora acabamos con una importante proposición que la utilizaremos en la siguiente

subsubsección.

PROPOSICIÓN 2: Si L = {𝑣1, 𝑣2, …, 𝑣𝑚}, es un conjunto de vectores de V linealmente

independiente y S = {𝑢1, 𝑢2, …, 𝑢𝑠}, un sistema de generadores de V, entonces, m ≤ s.

DEMOSTRACIÓN: La demostración consiste en sustituir los vectores de S por los vectores L

uno a uno en el razonamiento de que los conjuntos así obtenidos serán también sistema de

generadores. Veamos el razonamiento: Puesto que S es un sistema de generadores, también

lo será S∪{𝑣1} es decir, {𝑣1, 𝑢1, 𝑢2, …, 𝑢𝑠}, por otra parte 𝑣1 = 𝑎1•𝑢1 + 𝑎2•𝑢2 + … + 𝑎𝑠•𝑢𝑠, de

modo que, como 𝑣1 no es 0, alguno de los coeficientes 𝑎𝑖 es distinto de 0, digamos sin

perjuicio del razonamiento que 𝑎1 es distinto de 0, de modo que 𝑢1 se puede expresar como

combinación lineal de 𝑆1 = {𝑣1, 𝑢2, …, 𝑢𝑠}, y según la proposición anterior, 𝑆1 también es un

sistema generador de V. Siguiendo con el razonamiento, 𝑣2 = 𝑏1•𝑣1 + 𝑏2•𝑢2 + … + 𝑏𝑠•𝑢𝑠 y

podemos suponer que no todos los escalares desde 𝑏2 a 𝑏𝑠 son cero, puesto que si lo fueran,

podríamos expresar 𝑣2 en función de 𝑣1, pero sabemos que 𝑣1 y 𝑣2 son linealmente

independientes. Supongamos que 𝑏2 es distinto de 0, entonces, por el razonamiento

anterior, obtenemos un conjunto 𝑆2 = {𝑣1, 𝑣2, 𝑢3, …, 𝑢𝑠}, que es un sistema de generadores.

Siguiendo este proceso, llegaremos a agotar el conjunto L o el conjunto S, pero si en el

conjunto linealmente independiente hubiese más de s vectores entonces podríamos

146

expresar 𝑣𝑠+1 en función de los restantes vectores lo cual es una contradicción puesto que

L es un conjunto linealmente independiente. □

9.5 Bases de un espacio vectorial I

DEFINICIÓN (Base de un espacio vectorial finita o infinita): Dado un espacio vectorial V, un

subconjunto B de V es una base de V si se cumple que:

1) B es linealmente independiente.

2) B es un sistema de generadores de V.

TEOREMA (Teorema de la base): Si un espacio vectorial V tiene una base con un número

finito de vectores, entonces todas las bases de V tienen el mismo número finito de vectores.

DEMOSTRACIÓN: Sea B = {𝑣1, 𝑣2, …, 𝑣𝑛} una base de V y sea B’ = {𝑢1, 𝑢2, …, 𝑢𝑚}, otra base

de V. Según la proposición 2 de la subsubsección anterior, ya que B’ es un conjunto

linealmente independiente y B un sistema de generadores, ha de ser m ≤ n. Pero de la misma

manera, al ser B un conjunto linealmente independiente y B’ un sistema de generadores ha

de ser n ≤ m, por lo que m = n. □

DEFINICIÓN (Dimensión finita de un espacio vectorial y dimensión infinita de un espacio

vectorial): Sea V un espacio vectorial que posee una base finita, llamaremos dimensión de V

y lo notaremos así: dim(V), al número finito de vectores de cualquiera de sus bases. Sea un

espacio vectorial V cuyas bases son infinitas, diremos que V es un espacio vectorial de

dimensión infinita y lo notaremos así: dim(V) = ∞.

EJEMPLO 1: Sea 𝐹𝑛 = {(


) | 𝑥𝑖 de F, para todo i = 1, 2, …, n}. El conjunto (

10⋮0

), (

01⋮0

), …,

(

00⋮1

), es una base que recibe el nombre de la base canónica de 𝐹𝑛. En efecto, veamos que

es un sistema de generadores: Su matriz asociada al sistema de ecuaciones correspondiente

es:

(

1 0 0 ⋯ 000⋮0

10⋮0

01⋮0

⋯⋯⋱⋯

00⋮1)

,

Como vemos tiene solución para cualquier valor de los términos independientes. Además

también vemos que es sistema lineal homogéneo asociado tiene como solución única la

trivial, por lo que el conjunto es linealmente independiente y por tanto dim(𝐹𝑛) = n.

Por las mismas razones en (𝐹𝑛)𝑡 el conjunto (1, 0, …, 0), (0, 1, …, 0), …, (0, 0, …, 1), llamada

también base canónica, es una base. Por tanto, dim((𝐹𝑛)𝑡) = n.

147

EJEMPLO 2: Sea 𝑃𝑑(F) = {polinomios con coeficientes en F de grado máximo d}. En este

espacio vectorial, el conjunto B = {1, x, 𝑥2, …, 𝑥𝑑} es una base llamada base estandar. En

efecto, se comprueba fácilmente que cualquier polinomio 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑑•𝑥𝑑

es una combinación lineal de los vectores de B. También se comprueba que si un polinomio

p(x) = 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑑•𝑥𝑑 = 0, entonces los coeficientes 𝑎𝑖 = 0, para todo i.Por

lo que B es linealmente independiente. Por tanto, dim(𝑃𝑑(F)) = d + 1.

EJEMPLO 3: El espacio vectorial P(F) de todos los polinomios en una indeterminada sobre el

cuerpo F no es de dimensión finita. Pues supongamos por reducción al absurdo que su

dimensión es m, entonces cada conjunto con más de m vectores debería ser linealmente

dependiente como veremos más adelante. En particular el conjunto {1, x, 𝑥2, …, 𝑥𝑚}, de m

+ 1 vectores, debería ser linealmente dependiente, pero ya hemos visto en el ejemplo

anterior que no es así, por lo tanto, llegamos a una contradicción.

EJEMPLO 4: Consideremos en el espacio 𝔐m•n(F), las matrices 𝐴𝑖𝑗 que tienen un uno en la

posición ij y cero en las restantes para cada 1 ≤ i ≤ m, 1 ≤ j ≤ n, entonces el conjunto de todas

estas matrices, llamémoslo B, es una base que se llama base estándar y, como podemos

comprobar, que hay m•n matrices distintas, dim(𝔐m•n(F)) = m•n.

EJEMPLO 5: El espacio vectorial trivial consistente en el elemento 0 únicamente, tiene

dimensión 0, puesto que, aunque el elemento {0}, es un sistema de generadores no es


LEMA: 1) Sea S un conjunto linealmente independiente en V, si u es un vector de V, entonces,

S∪{u} es linealmente independiente si y solo si, u no es combinación lineal de los vectores

de S.

2) Sea S un sistema de generadores de V, y sea un vector u de S, entonces, S – {u} es un

sistema de generadores de V sí y solo sí, u es combinación lineal de S – {u}

DEMOSTRACIÓN: 1) Sea S = {𝑣𝑖}, si u es combinación lineal de S, u = ∑𝑐𝑖 • 𝑣𝑖, entonces,

∑𝑐𝑖𝑣𝑖 – u = 0 es una relación de dependencia en S∪{u}. Ahora supongamos que tenemos

una relación de dependencia en S∪{u}: ∑𝑐𝑖 • 𝑣𝑖 + c•u = 0, no podemos suponer que c = 0,

porque esto implicaría que 𝑐𝑖 = 0 para todo i y no tendríamos una relación de dependencia.

Entonces, u = ∑(−𝑐𝑖/𝑐) • 𝑣𝑖, por lo que u es una combinación lineal de S.

2) Sea S’ = S – {u} = {𝑣𝑖}, si u no es combinación lineal de S’, entonces, S’ no es sistema de

generadores de V. Por otro lado, supongamos que u, es combinación lineal de S’, u = ∑𝑐𝑖 • 𝑣𝑖

y suponemos que S es sistema generador de V, de modo que otro vector w = ∑𝑑𝑖 • 𝑣𝑖 + d•u,

pero entonces, se ve que S’ es un sistema generador de V. □

Veamos ahora una proposición muy interesante que se deriva de la proposición 2 de la

subsección anterior y del lema anterior.

PROPOSICIÓN: Sea V un espacio vectorial de dimensión m y sea S un conjunto de n vectores:

1) Si n > m (quizás n infinito), entonces S es linealmente dependiente.

2) Si n < m entonces, S no es un sistema generador de V.

3) Si n ≠ m, entonces S no es una base de V.

4) Si n = m las siguientes proposiciones son equivalentes:

148

a) S es una base de v.

b) S es linealmente independiente.

c) S es un sistema de generadores de V.

DEMOSTRACIÓN: Suponemos que V tiene una base B de m vectores.

1) Esto es otro enunciado de la proposición 2 de la subsubsección anterior.

2) Si S es un sistema de generadores de V entonces B sería un conjunto de vectores

linealmente independiente y S un conjunto de generadores con n < m, lo cual contradice

la proposición 2 de la subsubsección anterior.

3) Esto es el teorema anterior.

4) Si a) es cierto entonces b) y c) también, por definición.

Supongamos b) cierto. Si S no es un sistema de generadores habría un vector u que no

es combinación lineal de los de S, por lo que S∪{u} sería un conjunto de m + 1 vectores

linealmente independiente, en contradicción con 1). Así que c) es cierto y, por tanto,

también a).

Supongamos c) cierto. Si S no fuera linealmente independiente podríamos obtener un

conjunto de m – 1 vectores generador de V, lo cual es una contradicción con 2), por lo

que b) es cierto y también a). □

Para terminar, veamos un corolario muy importante para la teoría de la siguiente

subsubsección.

COROLARIO: Sea B un conjunto de vectores de un espacio vectorial V, las siguientes

proposiciones son equivalentes:

1) B es una base.

2) B es un conjunto linealmente independiente maximal, es decir, B es linealmente

independiente, pero para cualquier vector u de V, B∪{u} es linealmente dependiente.

3) B es un sistema de generadores de V minimal, es decir, B es sistema de generadores de

V, pero para cualquier vector u, de B, B – {u} no es un sistema generador de V.

DEMOSTRACIÓN: 1) implica 2) y 3): Supongamos que B es una base, entonces todo vector v

de V se puede expresar como combinación lineal de los vectores de B, así que, B∪{v} es

linealmente dependiente, según el lema anterior. También B es linealmente independiente

por lo que para todo vector v de B, v no es combinación lineal de los vectores de B – {v}, así

que, por el lema anterior, B – {v} no es sistema generador de V.

2) implica 1): Supongamos que B es un conjunto linealmente independiente maximal,

entonces B es linealmente independiente. Además, para cualquier vector v de V, B∪{v} es

linealmente dependiente, por lo que por el lema anterior v es combinación lineal de los

vectores de B, por lo que B es sistema generador de V.

3) implica 1): Ahora supongamos que B es un sistema generador minimal, por tanto, B es un

sistema generador de V. Pero para cualquier vector v de B, B - {v} no es sistema generador,

por lo que v no es combinación lineal de B, según el lema anterior, y, por tanto, B es

linealmente independiente según la proposición 2 de la subsubsección 9.3. □

149

Notemos que el corolario y el lema anteriores, valen para conjuntos B y S, infinitos pues en

el razonamiento no hemos supuesto que B o S fuera finito.

9.6 Bases de un espacio vectorial II

Ahora vamos a demostrar dos teoremas importantes que nos dan dos medios para obtener

una base en un espacio vectorial V.

TEOREMA 1: En un espacio vectorial no nulo, de cada sistema de generadores finito puede

extraerse una base.

DEMOSTRACIÓN: Dado un sistema de generadores finito, si es linealmente independiente

ya es una base, por lo que suponemos que no lo es. Por tanto, uno de los vectores se puede

expresar como combinación lineal de los restantes, por lo que se puede eliminar este vector

y seguimos teniendo un sistema de generadores. De nuevo aplicamos este proceso hasta

que tengamos un conjunto linealmente independiente o hasta que lleguemos a un único

vector que sabemos que siempre es linealmente independiente. □

TEOREMA 2 (Teorema de ampliación de la base): Sea V un espacio vectorial de dimensión n

y sea S = {𝑣1, 𝑣2, …, 𝑣𝑠} un conjunto de vectores linealmente independiente, entonces,

existen vectores {𝑣𝑠+1, …, 𝑣𝑛}, tales que {𝑣1, 𝑣2, …, 𝑣𝑠, 𝑣𝑠+1, …, 𝑣𝑛} son una base de V.

DEMOSTRACIÓN: Si el conjunto S ya es sistema de generadores ya tenemos una base, por lo

que vamos a suponer que esto no ocurre. En este caso, se puede elegir un vector v

llamémoslo, 𝑣𝑠+1 = v de V tal que v no es combinación lineal de los vectores de S, por lo que

{𝑣1, 𝑣2, …, 𝑣𝑠, 𝑣𝑠+1} es un conjunto linealmente independiente. Siguiendo este razonamiento

llegamos a un conjunto con n vectores linealmente independiente, puesto que, según el

corolario de la subsección anterior, con menos vectores no puede ser una base. También

sabemos por el corolario anterior o por el teorema de la base de susbsubsección anterior,

que no puede haber un conjunto de vectores linealmente independiente de cardinal mayor

que n y además sabemos también por la proposición de la subsubsección anterior, que si

llegamos a un conjunto linealmente independiente de n vectores éste debe ser base, por lo

que concluimos que hemos obtenido una base de n vectores. □

Queremos hacer notar que con estos dos teoremas tenemos dos modos de construir una

base en un espacio vectorial de dimensión finita. Con el primero nos han de dar un sistema

de generadores de V, pero con el segundo no nos hace falta ningún dato inicial aunque

parezca lo contrario, porque si V no es cero, del conjunto vacío podemos buscar cualquier

vector distinto de cero y este será un conjunto linealmente independiente desde el cual

podemos partir según el teorema 2.

Si juntamos los dos teoremas en uno podrían expresarse de la siguiente manera que lo

haremos en el siguiente corolario.

COROLARIO: Sea V un espacio vectorial de dimensión finita. Sea R en conjunto de vectores

de V linealmente independiente y T un sistema de generadores de V, tales que R ⊆ T,

entonces, siempre existe una base B, tal que R ⊆ 𝐵 ⊆ T. En concreto:

150

1) Si Existe un conjunto linealmente independiente R en V entonces también existe una

base B, con R ⊆ B.

2) Si existe un sistema de generadores T en V entonces existe una base B tal que B ⊆ T.

Para terminar, vamos a ver unos ejemplos y hacer unas consideraciones acerca de los

espacios vectoriales de dimensión infinita.

EJEMPLO 1: Consideremos el espacio vectorial 𝐹∞ = {(𝑎1𝑎2⋮) , 𝑎𝑖 es distinto de cero para solo

un número finito de i}, sea 𝑒𝑖 un vector de 𝐹∞, tal que 𝑎𝑖 = 1 y 𝑎𝑗 = 0 para todo j distinto de

i, entonces, B = {𝑒1, 𝑒2, 𝑒3, …} es una base de 𝐹∞, como podemos comprobar. Pues sea

cualquier combinación lineal de vectores de B (recordemos que las combinaciones lineales

deben ser de conjuntos finitos de B) 𝑐1 • 𝑒1 + 𝑐2 • 𝑒2 + … + 𝑐𝑛 • 𝑒𝑛 = 0, implica que 𝑐𝑖 = 0 para

todo i. Además, también este conjunto es un sistema generador, pues cualquier vector v de

𝐹∞ v = (𝑎1𝑎2⋮) , 𝑎𝑖 es distinto de cero para solo un número finito de i, por lo que habrá un

número finto de vectores de B que puedan expresar v como combinación lineal de ellos.

EJEMPLO 2: Consideremos el espacio vectorial 𝐹∞∞ = {(𝑎1𝑎2⋮)} Si B es el mismo conjunto que

en el ejemplo anterior, entonces B es linealmente independiente, pero no es sistema

generador de 𝐹∞∞, pues cualquier vector de este que tenga un número infinito de

componentes no se puede expresar como combinación lineal (porque las combinaciones

lineales son sumas finitas) de vectores de B. Por lo que según las definiciones que hemos

dado de combinación lineal no sabemos cómo obtener una base para este espacio vectorial.

Entonces, viendo estos ejemplos nos hacemos la pregunta: Dado un espacio vectorial:

¿Existe siempre una base para él? En matemáticas más avanzadas se utiliza un axioma de

teoría de conjuntos que nos permite deducir que siempre existe una base para un espacio

vectorial. Nosotros nos dedicaremos casi exclusivamente a los espacios vectoriales de

dimensión finita, de modo que hemos dicho esto para que el lector se haga una idea de los

problemas que surgen con espacios vectoriales de dimensión infinita, pero no

profundizaremos mucho más, solo diremos que se cumple el siguiente teorema que no

demostraremos, para espacios vectoriales arbitrarios análogo al corolario de esta

subsección:

TEOREMA 3: Sea V un espacio vectorial. Sea R en conjunto de vectores de V linealmente

independiente y T un sistema de generadores de V, tales que R ⊆ T, entonces, siempre existe

una base B, tal que R ⊆ 𝐵 ⊆ T. En concreto:

1) Si Existe un conjunto linealmente independiente R en V entonces también existe una

base B, con R ⊆ B.

2) Si existe un sistema de generadores T en V entonces existe una base B tal que B ⊆ T.

151

9.7 Coordenadas de un vector respecto de una base

Hemos dejado para esta subsubsección un hecho muy importante que ocurre con las bases

y los vectores de un espacio vectorial. Este hecho va a representar una herramienta para el

estudio de los espacios vectoriales que nos permitirá trabajar con cualquier espacio vectorial

V de dimensión finita n utilizando su espacio vectorial equivalente 𝐹𝑛.

PROPOSICIÓN 1: Sea V un espacio vectorial de dimensión finita n y sea B = {𝑣1, 𝑣2, …, 𝑣𝑛}

una base del mismo, entonces, todo vector x de V se expresa de forma única como

combinación lineal de los vectores de la base.

DEMOSTRACIÓN: Veamos en esta demostración lo que significa la proposición. B es un

sistema generador, de modo que x se puede expresar como combinación lineal de los

vectores de B. Supongamos que hay dos formas de expresar x por los vectores de B:

x = 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛, x = 𝑥′1•𝑣1 + 𝑥′2•𝑣2 + … + 𝑥′𝑛•𝑣𝑛, entonces, podemos escribir

que 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛 = 𝑥′1•𝑣1 + 𝑥′2•𝑣2 + … + 𝑥′𝑛•𝑣𝑛, lo que implica que (𝑥1 -

𝑥′1)•𝑣1 + (𝑥2 - 𝑥′2)•𝑣2 + … + (𝑥𝑛 - 𝑥′𝑛)•𝑣𝑛 = 0 Y como los vectores de B son linealmente

independientes esto implica que 𝑥𝑖 = 𝑥′𝑖, para todo i, de modo que solo hay una expresión

posible para x como combinación lineal de los vectores de B. □

Por la anterior proposición dada una base B de V, existe una correspondencia biunívoca

entre un conjunto de n coeficientes y cada vector de x de V. Es decir, dado un vector x

determinada un conjunto de n coeficientes (ordenados) y dado un conjunto de n

coeficientes de terminan un único vector x de V.

DEFINICIÓN (Coordenadas de un vector x respecto de una base B de V): Sea x = 𝑥1•𝑣1 + 𝑥2•𝑣2

+ … + 𝑥𝑛•𝑣𝑛, la expresión única de x con respecto a los vectores de la base B como hemos

discutido anteriormente diremos que los coeficientes (𝑥1, 𝑥2, …, 𝑥𝑛) son las coordenadas de

x respecto de la base B y lo expresaremos de la siguiente manera:

x = (𝑥1, 𝑥2, … , 𝑥𝑛) 𝐵.

De modo que, fijada una base, a cada vector x de V le corresponde un vector de 𝐹𝑛 y

viceversa.

EJEMPLO 1: Sea en 3, la base canónica B = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}. El siguiente vector,

x = (2, 3, 1) tiene de coordenadas con respecto a la base canónica, x = (2, 3,1) 𝐵. Mientras

que con respecto a la base B’ = {(1, 1, 1), (0, 1, 1), (0, 0, 1)} tiene de coordenadas x =

(2, 1,−2) 𝐵′, puesto que (2, 3, 1) = 2•(1, 1, 1) + 1•(0, 1, 1) + (-2)• (0, 0, 1).

EJEMPLO 2: Consideremos la base estándar B = {1, x, 𝑥2} del espacio vectorial 𝑃2(F) de los

polinomios de una indeterminada sobre el cuerpo F. Entonces las coordenadas de un

polinomio p(x) = a + b•x + c•𝑥2, son p(x) = (𝑎, b, c) 𝐵.

Ahora para terminar, veamos un hecho básico que ocurre con las coordenadas de los

vectores de V (dada un base B) que veremos más adelante, que es un resultado muy

importante.

152

PROPOSICIÓN 2 (Coordenadas y operaciones con los vectores): Sea V un espacio vectorial de

dimensión n y B una base de V, entonces si x = (𝑥1, 𝑥2, … , 𝑥𝑛) 𝐵, e y = (𝑦1, 𝑦2, … , 𝑦𝑛) 𝐵, se

cumple:

1) x + y = (𝑥1 + 𝑦1, 𝑥2 + 𝑦2, … , 𝑥𝑛 + 𝑦𝑛) 𝐵, es decir las coordenadas del vector suma de

otros dos son la suma de las coordenadas de los vectores sumando.

2) c•x = (c • 𝑥1, 𝑐 • 𝑥2, … , 𝑐 • 𝑥𝑛) 𝐵, para todo escalcar c de F, es decir las coordenadas del

producto de un escalar por un vector son el producto del escalar por las coordenadas

del vector.

DEMOSTRACIÓN: 1) Si x = 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛, e y = x = 𝑦1•𝑣1 + 𝑦2•𝑣2 + … + 𝑦𝑛•𝑣𝑛,

entonces, x + y = (𝑥1 + 𝑦1)•𝑣1 + (𝑥2 + 𝑦2)•𝑣2 + … + (𝑥𝑛 + 𝑦𝑛)•𝑣𝑛.

2) c•x = c•(𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛) = (c•𝑥1)•𝑣1 + (c•𝑥2)•𝑣2 + … + (c•𝑥𝑛)•𝑣𝑛. □

9.8 Coordenadas y dependencia lineal

En esta subsubsección veremos una primera aplicación de la expresión de los vectores de un

espacio vectorial V, de dimensión finita, en forma de sus coordenadas, veremos que

podemos determinar si un conjunto de vectores es linealmente dependiente o

independiente estudiando la dependencia o independencia de sus coordenadas. Sin más

establezcamos la siguiente proposición.

PROPOSICIÓN (Coordenadas y dependencia lineal): Sea V un espacio vectorial de dimensión

finita, y sea B una base del mismo. Un conjunto de vectores S = {𝑢1, 𝑢2, …, 𝑢𝑟} es linealmente

independiente, si y solo si, la matriz cuyas columnas (o filas) son sus coordenadas respecto

a B, tiene rango r.

DEMOSTRACIÓN: Sea B la base del espacio vectorial V, B = {𝑣1, 𝑣2, …, 𝑣𝑛}, si expresamos la

dependencia lineal de S de la siguiente manera: 𝑥1•𝑢1 + … + 𝑥𝑟•𝑢𝑟 = 0, esto implica si

expresamos cada vector de S en función de los vectores de la base B con:

𝑢1 = 𝑎11•𝑣1 + 𝑎12•𝑣2 + … + 𝑎1𝑛•𝑣𝑛,

𝑢2 = 𝑎21•𝑣1 + 𝑎22•𝑣2 + … + 𝑎2𝑛•𝑣𝑛,

…

𝑢𝑟 = 𝑎𝑟1•𝑣1 + 𝑎𝑟2•𝑣2 + … + 𝑎𝑟𝑛•𝑣𝑛,

por lo que, de 𝑥1•𝑢1 + … + 𝑥𝑟•𝑢𝑟 = 0 se obtiene,

𝑥1 • 𝑎11 + 𝑥2 • 𝑎21 + … + 𝑥𝑟 • 𝑎𝑟1 = 0,

𝑥1 • 𝑎12 + 𝑥2 • 𝑎22 + … + 𝑥𝑟 • 𝑎𝑟2 = 0,

…

𝑥1 • 𝑎1𝑛 + 𝑥2 • 𝑎2𝑛 + … + 𝑥𝑟 • 𝑎𝑟𝑛 = 0,

Por ser la base un conjunto linealmente independiente. Entonces vemos que esto es un

sistema de ecuaciones homogéneo de n ecuaciones con r incógnitas cuyas columnas de la

153

matriz asociada son las coordenadas de los vectores de S (con respecto a la base B). Los

vectores serán linealmente dependientes, es decir, el sistema tendrá una solución distinta

de la trivial si y solo si, el rango de la matriz de coeficientes es menor que r, y esto lo

deducimos del Teorema de Rouche-Frobenius, en caso contrario, el sistema es linealmente

independiente. Si consideramos el sistema cuyas filas de la matriz asociada, son las

coordenadas de los vectores se tratará de un sistema cuya matriz es la transpuesta del

anterior, por lo que se sigue cumpliendo la proposición ya que rag(A) = rag(𝐴𝑡). □

EJEMPLO 1: Consideremos en 4 los vectores siguientes con respecto a la base canónica: 𝑢1

= (1, 1, 2, 2), 𝑢2 = (0, 1, 1, 1), 𝑢3 = (2, 0, 2, 2), la matriz cuyas filas son estos vectores es:

A = (1 1 2 202

1 1 10 2 2

) cuya forma normal de Hermite por filas es H = (1 0 1 100

1 1 10 0 0

), por lo

que el rango de A es 2 y los vectores 𝑢1, 𝑢2, 𝑢3m, son linealmente dependientes.

EJEMPLO 2: Consideremos en 𝑃2(), los polinomios p(x) = 3•𝑥2 + 2•x + 1, q(x) = 4•𝑥2 + 3•x

+ 2 y r(x) = 6•𝑥2 + 4•x + 3. Las coordenadas de estos polinomios con respecto a la base

canónica, B = {1, x, 𝑥2}, son p(x) = (1, 2, 3)𝐵, q(x) = (2, 3, 4)𝐵 y r(x) = (3, 4, 6)𝐵, la matriz cuyas

filas son estas coordenadas es:

A = (1 2 323

3 44 6

), cuya forma de Hermite por filas es H = (1 0 000

1 00 1

), por lo que los 3

polinomios son linealmente independientes.

9.9 Cambio de base y de coordenadas de un vector

Veremos en esta importante subsubsección la relación entre las coordenadas de un vector

de un espacio vectorial V de dimensión finita, con respecto a una base y las coordenadas del

mismo vector con respecto a otra base, ya que bases puede haber muchas. Sin más vamos

a ver la proposición central de esta subsubsección.

PROPOSICIÓN 1 (Coordenadas de un vector y cambio de base): Sea V un espacio vectorial V

de dimensión n. Sean B = {𝑒1, 𝑒2, …, 𝑒𝑛} y B’ = {𝑒′1, 𝑒′2, …, 𝑒′𝑛} bases de V y sea P la matriz

de cambio de base de B a B’, cuyas columnas son las coordenadas de la base B’ en función

de los vectores de B. Entonces tenemos este sistema y estas ecuaciones matriciales:

{𝑒′1 = 𝑎11 • 𝑒1 +⋯+ 𝑎𝑛1 • 𝑒𝑛

…𝑒′𝑛 = 𝑎1𝑛 • 𝑒1 +⋯+ 𝑎𝑛𝑛 • 𝑒𝑛

, (𝑒′1, 𝑒′2, …, 𝑒′𝑛) = (𝑒1, 𝑒2, …, 𝑒𝑛)•(𝑎11 ⋯ 𝑎1𝑛⋮𝑎𝑛1

⋱⋯

⋮𝑎𝑛𝑛

),

𝐵′ = B•P,

Y es muy importante y hay que tener cuidado en la forma del sistema y las ecuaciones

matriciales, donde B y B’ son vectores columna de los vectores de las bases

correspondientes. Entonces con esta configuración, sea x expresado como combinación

lineal de los vectores de B y B’:

154

x = 𝑥1•𝑒1 + … + 𝑥𝑛•𝑒𝑛, x = B•X = (𝑒1, 𝑒2, …, 𝑒𝑛)•(

𝑥1⋮𝑥𝑛),

x = 𝑥′1•𝑒′1 + … + 𝑥′𝑛•𝑒′𝑛, x = B’•X ‘= (𝑒′1, 𝑒2, …, 𝑒′𝑛)•(𝑥′1⋮𝑥′𝑛

),

Entonces la relación entre sus coordenadas es:

{𝑥1 = 𝑎11 • 𝑥′1 +⋯+ 𝑎1𝑛 • 𝑥′𝑛

…𝑥𝑛 = 𝑎𝑛1 • 𝑥′1 +⋯+ 𝑎𝑛𝑛 • 𝑥′𝑛

, X = P•X’, (

𝑥1⋮𝑥𝑛) = (

𝑎11 ⋯ 𝑎1𝑛⋮𝑎𝑛1

⋱⋯

⋮𝑎𝑛𝑛

)•(𝑥′1⋮𝑥′𝑛

),con lo que

X’ = 𝑃−1•X.

DEMOSTRACIÓN: Matricialmente se tiene

x = B•X = B’•X’ = B•P•X’, de modo que B•X - B•P•X’ = B•(X - P•X’) = 0

(𝑒1, 𝑒2, …, 𝑒𝑛)•(𝑥1 − 𝑎11 • 𝑥

′1 −⋯− 𝑎1𝑛 • 𝑥′𝑛…

𝑥𝑛 − 𝑎𝑛1 • 𝑥′1 −⋯− 𝑎𝑛𝑛 • 𝑥′𝑛

) = 0, lo que implica por ser los vectores

de B linealmente independientes que

X = P•X’.

Puesto que P es una matriz regular se obtiene también que

X’ = 𝑃−1•X. □

También se puede probar el recíproco del teorema anterior, es decir, que, si toda matriz de

cambio de base es regular, también se cumple que toda matriz regular es de algún cambio

de base.

PROPOSICIÓN 2: Toda matriz regular es una matriz de cambio de base.

DEMOSTRACIÓN: Consideremos una matriz Q regular de orden n cuyos coeficientes son del

cuerpo F. Entonces sus columnas pueden considerarse vectores de 𝐹𝑛 y puesto que el rango

de la matriz es n, estos vectores son linealmente independientes, ahora, puesto que la

dimensión de 𝐹𝑛 es n, estos vectores constituyen una base llamémosla B’, entonces, se

puede considerar Q como una matriz de cambio de base de la base canónica B a B’. □

EJEMPLO: En el espacio vectorial 𝑃2(), los polinomios {(𝑥 − 1)2, 2•(x – 1), 2} forman una

base B’, podemos escribirlos en función de la base estándar B = {1, x, 𝑥2}:

(𝑥 − 1)2 = 𝑥2 - 2•x + 1 = (1, −2, 1)𝐵,

2•(x - 1) = 2•x – 2 = (−2, 2, 0)𝐵,

1 = (2, 0, 0)𝐵,

155

con lo que la matriz de cambio de base P = (1 −2 2−21

20

00), y la matriz de cambio

de base de de B a B’ es: 𝑃−1 = (0 0 101/2

1/21/2

11/2

), y por ejemplo, las coordenadas

del vector p(x) = 1 + 2•x - 2•𝑥2 = (1, 2, −2)𝐵 son:

(0 0 101/2

1/21/2

11/2

)•(12−2) = (

−2−11/2

), por lo que p(x) = (−2,−1, 1/2)𝐵′.

10 Subespacios Vectoriales

10.1 Definición y Ejemplos

Veremos ahora una noción importantísima para nuestro futuro trabajo, que la utilizaremos

constantemente a lo largo del libro.

DEFINICIÓN (Subespacio vectorial): Sea V un espacio vectorial sobre el cuerpo F, entonces

un subconjunto W de V, es subespacio vectorial de V, si W es un espacio vectorial con

respecto a las mismas operaciones consideradas en V.

Quizás esta definición le parezca al lector muy abstracta y no la entienda fácilmente, pero

pensemos en lo que puede significar. Para cada par de vectores de W debe estar definida la

operación de suma que es la misma que en V y para un vector, v, y un escalar, c, de F debe

estar definido el producto c•v que da el mismo resultado que en V. Esto es lo que significa

la definición. A parte de esto, puede parecer muy difícil determinar si un subconjunto, W, de

V es subespacio o no (una primera idea puede ser tener que verificar los axiomas de la

definición de espacio vectorial para W), pero veremos en las siguientes proposiciones que

podemos definir criterios muy sencillos para saber si W es subespacio de V.

PROPOSICIÓN 1 (Primeros criterios para saber si W es subespacio de V): Sea W un

subconjunto de V, entonces, W es subespacio de V si y solo sí se cumplen estas dos

condiciones equivalentes:

a) 1) 0 pertenece a W

2) Si u, v pertenecen a W, entonces u + v pertenece a W

3) Si c pertenece a F y w pertenece a W, entonces, c•v pertenece a W

b) 1) W no es vacío

2) Si u, v pertenecen a W, entonces u + v pertenece a W

3) Si c pertenece a F y w pertenece a W, entonces, c•v pertenece a W

DEMOSTRACIÓN: a) Ya sabemos que 1) es la condición 3 de la de la suma en la definición de

espacio vectorial. Las condiciones 1 y 2 de la definición de la suma de los espacios vectoriales

se cumplen porque W es un subconjunto de V y siempre que u y v pertenecen a W también

lo hace u + v (con la suma definida en V) y también cumplen las propiedades de la suma de

V. Veamos la condición 4 de la suma de los espacios vectoriales. Si w pertenece a W también

156

(-1)•w = -w según las propiedades del producto por escalares en V, por lo que también se

cumple esta condición. Para las condiciones del producto escalar en W y las relaciones con

la suma se hace la misma consideración: se cumplen en W porque se cumplen en V.

b) Ahora para demostrar la equivalencia de a) y b): a) implica b) pues si 1) 0 pertenece a W

entonces W no es vacío. Y b) implica a) pues si W no es vacío contiene al menos un vector w

tal que, como hemos visto antes, -w también pertenece a W y también, por tanto, 0 = -w +

w. □

EJEMPLO 1: a) Sea V un espacio vectorial, entonces, V es un subespacio de sí mismo y

también {0}. En estos casos se dice que son los subespacios impropios de V.

b) Para cualquier d, 𝑃𝑑(F) el conjunto de polinomios de grado menor o igual a d es subespacio

de P(F), el conjunto de polinomios de una indeterminada. Y también, si r ≤ d, 𝑃𝑟(F) es

subespacio vectorial de 𝑃𝑑(F).

c) 𝐹∞ es subespacio vectorial de 𝐹∞∞.

d) Sea m > n, entonces, 𝐹𝑛 no es subespacio vectorial de 𝐹𝑚, pues sus elementos son tuplas

de diferente número de componentes, sin embargo,

(

𝑎1𝑎2⋮𝑎𝑛0⋮0 )

, con 𝑎𝑖 elementos de F es un

elemento de 𝐹𝑚 y el conjunto de todos esos elementos es un subespacio de 𝐹𝑚.

e) Sea X un conjunto, entonces ya vimos que V = {f: X → F}, es un espacio vectorial de cuerpo

F. Ahora, sea t un punto fijo de X, entonces, W = {f de V: f(t) = 0} es un subespacio de V.

También, para 𝑥1, …, 𝑥𝑘, un conjunto finito de puntos de X, W = {f de V |f(𝑥1) = … = f(𝑥𝑘) =

0} es un subespacio de V.

EJEMPLO 2: En 𝔐m•n(F) podemos definir 5 subespacios vectoriales:

1) Las matrices triangulares superiores, puesto que la suma de dos es de nuevo una matriz

triangular y el producto de una por un escalar también lo es.

2) Las matrices triangulares inferiores.

3) Las matrices diagonales, por las mismas razones.

4) Las matrices simétricas pues si A y B son simétricas se cumple que A = 𝐴𝑡, B = 𝐵𝑡 y (𝐴 +

𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡 = A + B, por lo que A + B también es simétrica. Y también se cumple que

si A = 𝐴𝑡, (𝑐 • 𝐴)𝑡 = c•𝐴𝑡 = c•A, por lo que, c•A es simétrica también.

5) Las matrices antisimétricas, se demuestra de la misma manera, que son un subespacio

vectorial.

Queremos recordar otra definición alternativa y método de demostración de que un

subconjunto W es un subespacio de V.

PROPOSICIÓN 2 (Otra verificación de cuando un conjunto W es subespacio de V): Sea W un

subconjunto de V espacio vectorial sobre F, entonces W es subespacio vectorial de V si y solo

157

sí, W es no vacío o contiene el vector 0 y además dados u, v vectores de W y c, d escalares

de F, entonces, c•u + d•v pertenece siempre a W.

DEMOSTRACIÓN: Si W es un subespacio entonces, c•u + d•v pertenece siempre a W. Si c•u

+ d•v pertenece siempre a W entonces haciendo c = d = 1, c•u + d•v = u + v y haciendo, d =

0, c•u + d•v = c•d, por lo que se cumplen las condiciones de la proposición 1 y tenemos

demostrado que se constituye un subespacio. □

10.2 Subespacio generado por un conjunto de vectores

A partir de un conjunto cualquiera, S, de vectores de un espacio vectorial V se puede

considerar otro conjunto que consiste en todas las posibles combinaciones lineales de S, esto

lo formalizaremos en una definición, por su importancia.

DEFINICIÓN (Envolvente lineal de un conjunto S de vectores): Dado un conjunto de vectores

S de un espacio vectorial V, se denomina envolvente lineal de S y se nota como L(S) o Span(S)

al conjunto de todas las posibles combinaciones lineales de S, en fórmulas:

L(S) = {𝑎1 • 𝑠1 +⋯+ 𝑎𝑛 • 𝑠𝑛 | n natural y 𝑎𝑖 de F y 𝑠𝑖 de S, i = 1, …, n}.

EJEMPLO 1: Consideremos los vectores de 3 u = (1, 1, 0), v = (0, 0, 1), entonces L(u, v) = {a•u

+ b•v | a, b de } = {(a, a, b) | a, b de }.

Ahora veremos una importante proposición que enlaza las envolventes lineales con los

subespacios vectoriales.

PROPOSICIÓN 1: L(S) es el menor subespacio vectorial de V que contiene S.

DEMOSTRACIÓN: Hay tres pasos en esta demostración: Demostrar que L(S) es un subespacio,

S está contenido en L(S) y que cualquier subespacio W de V que contenga a S también

contiene a S.

Pero L(S) es un subespacio, pues si consideramos dos vectores u, v de L(S), con u = 𝑎1 • 𝑠1 +

⋯+ 𝑎𝑛 • 𝑠𝑛, v = 𝑏1 • 𝑡1 +⋯+ 𝑏𝑚 • 𝑡𝑚, con 𝑎𝑖, 𝑏𝑗 de F y 𝑠𝑘, 𝑡𝑙 de S, entonces c•u + d•v =

c•(𝑎1 • 𝑠1 +⋯+ 𝑎𝑛 • 𝑠𝑛) + d•(𝑏1 • 𝑡1 +⋯+ 𝑏𝑚 • 𝑡𝑚) = c•𝑎1 • 𝑠1 + … + c•𝑎𝑛 • 𝑠𝑛 + d•𝑏1 •

𝑡1 + … + d•𝑏𝑚 • 𝑡𝑚 que pertenece a L(S).

Todo vector de S está en L(S) de forma evidente.

Además, sea W un subespacio vectorial de V tal que S está incluido en W, pero todo

subespacio vectorial es cerrado para las combinaciones lineales, de modo que L(S) está

incluido en W, de modo que L(S) es el menor de los subespacios que contienen a S como


Ahora pensemos que representa L(S). S es un sistema generador de L(S) y también al ser

subespacio podemos pensar en que dimensión debe tener L(S), para ello debemos obtener

una base, que sería un subconjunto de S linealmente independiente que fuera un sistema

generador de L(S).

158

En general, si U es un subespacio de V, este, espacio vectorial de dimensión finita, según el

teorema de ampliación de la base, un conjunto de vectores linealmente independiente de U

(que fuera una base suya) se puede ampliar en V a una base de V, de modo que dim(U) ≤

dim(V) para un espacio vectorial V de dimensión finita. Y por este argumento, si dim(U) =

dim(V), entonces se deduce que U = V. También podemos argumentar en general para

espacios vectoriales de dimensión finita que dado un sistema de generadores de un

subespacio U de V, podemos obtener una base eliminando los vectores que sean

combinación lineal de los restantes. El ejemplo siguiente aclarará lo que hemos dicho en este

párrafo.

EJEMPLO 2: Consideremos en 4, U = L((1, 3, 4, 1), (2, 6, 8, 2), (2, 5, 7, 2)). Vemos que los 3

vectores son un sistema de generadores de U, pero no son base porque son linealmente

dependientes, ya que la matriz (1 3 4 122

65

87

22) tiene rango 2 y, por tanto, solo hay 2 vectores

linealmente independientes. Esto lo veremos claro puesto que si observamos que el segundo

vector es 2 veces el primero la forma normal de Hermite por filas nos mostraria una fila de

ceros. Y, puesto que el segundo es una combinación lineal del primero, si lo eliminamos nos

quedamos con el conjunto siguiente como base {(1, 3, 4, 1), (2, 5, 7, 2)}.

En el siguiente lema veremos otros métodos para pasar de un sistema de generadores a otro

que nos recuerda a las operaciones elementales de las matrices pues de hecho es

básicamente los mismo que demostramos entonces con las matrices.

LEMA: Si {𝑢1, 𝑢2, …, 𝑢𝑛} es un sistema de generadores del subespacio vectorial U, entonces,

también es un sistema de generadores para U los siguientes conjuntos:

1) El conjunto que se obtiene intercambiando la posición de dos de los vectores.

2) El conjunto que se obtiene del anterior, multiplicando un vector de ellos por un escalar

c, no nulo: {𝑢1, 𝑢2, …, c•𝑢𝑗, …, 𝑢𝑛}.

3) El conjunto que se obtiene del anterior sumando a un vector el múltiplo de otro por un

escalar c. {𝑢1, …, 𝑢𝑖 + c•𝑢𝑗, …, 𝑢𝑗, …, 𝑢𝑛}.

DEMOSTRACIÓN: 1) Es evidente. 2) Sea x un vector de U entonces, se puede poner como

combinación lineal de los vectores de S x = 𝑥1 • 𝑢1 + … + 𝑥𝑖 • 𝑢𝑖 + … + 𝑥𝑛• 𝑢𝑛 y es obvio que

x se puede expresar como combinación lineal de los vectores del otro conjunto: x = 𝑥1 • 𝑢1 +

… + (𝑥𝑖/𝑐) • (𝑐 • 𝑢𝑖) + … + 𝑥𝑛• 𝑢𝑛.

3) De forma similar x se puede expresar de la siguiente manera:

x = 𝑥1 • 𝑢1 + … + 𝑥𝑖 • (𝑢𝑖 + c•𝑢𝑗) + … + (𝑥𝑗 - c•𝑥𝑖)•𝑢𝑗 + … + 𝑥𝑛• 𝑢𝑛. □

10.3 Subespacio nulo, subespacio de filas y de columnas de una matriz

Ya hemos visto la estructura del conjunto de soluciones de un sistema lineal. Si A es una

matriz m•n, K ≠ 0, una matriz m•1, matriz columna o vector columna m-tupla y X una matriz

columna n•1 o vector columna n-tupla, este conjunto se puede definir como {X |A•X = K}, se

le llama espacio de soluciones del sistema, aunque vamos a ver ahora mismo que no es un

subespacio vectorial, por muchas razones y entre ellas por ejemplo que no contiene al vector

159

0, pues A•0 = 0 ≠ K, por lo que el vector 0 no cumple la condición que define este espacio, en

general. De momento no vamos a ocuparnos de este espacio salvo en un caso muy concreto

y es cuando el sistema es homogéneo.

PROPOSICIÓN 1: El espacio de soluciones de un sistema homogéneo de ecuaciones es un

subespacio vectorial.

DEMOSTRACIÓN: Veamos las 3 condiciones que nos permiten asegurar que es un subespacio:

A•0 = 0, de modo que el vector 0 cumple la condición y pertenece al conjunto. Dados 𝑋1, 𝑋2,

vectores que cumplen la solución ocurre que A•𝑋1 = 0 y A•𝑋2 = 0 y, por tanto, A•(𝑋1 + 𝑋2) =

A•𝑋1 + A•𝑋2 = 0 + 0 = 0, de modo que el vector suma de dos soluciones pertenece al espacio.

Y también si A•X = 0, para todo escalar c, A•(c•X) = c•A•X = c•0 = 0, por lo que el producto

de un escalar por una solución también es solución del sistema. □

DEFINICIÓN (Subespacio nulo de una matriz o espacio de soluciones de un sistema de

ecuaciones homogéneo): El espacio de soluciones de un sistema homogéneo, {X |A•X = 0},

donde A es una matriz m•n y X un vector de 𝐹𝑛, es un subespacio vectorial de 𝐹𝑛 y se

denomina espacio nulo de la matriz A y se nota como EN(A) = {X de 𝐹𝑛 |A•X = 0}

Hay otros dos subespacios vectoriales relacionados con una matriz que estudiaremos:

DEFINICIÓN (Subespacio de filas de una matriz): Si A es una matriz m•n, el espacio de filas de

esa matriz es el subespacio de (𝐹𝑛)𝑡 que resulta ser la envolvente lineal de las filas de la

matriz A, consideradas como vectores de (𝐹𝑛)𝑡 y se nota EF(A).

DEFINICIÓN (Subespacio de columnas de una matriz): Si A es una matriz m•n, el espacio de

columnas de esa matriz es el subespacio de 𝐹𝑚 que resulta ser la envolvente lineal de las

columnas de la matriz A, consideradas como vectores de 𝐹𝑚 y se nota EC(A).

Según vimos en la proposición 5.3.2 (apartado 2)) de diversas propiedades del producto de

matrices, si una fila es combinación lineal de otras, esto es lo mismo que multiplicar una

matriz fila de número de componentes, m, igual al número de filas que queremos combinar,

por la matriz m•n que resulta de considerar cada fila a combinar, como fila sucesiva de la

matriz, es decir, si Z es una fila o vector fila 1•n, entonces, Z = Y•A es la expresión matricial

que indica que Z es combinación lineal de las filas de A consideradas como vectores fila y con

Y vector fila de dimensión m, genérico si queremos abarcar todas las posibilidades de

combinación lineales de (𝐹𝑚)𝑡, de modo que se puede caracterizar al espacio de filas de E

como EF(A) = {Y•A | Y de (𝐹𝑚)𝑡}. De la misma manera vimos en la proposición 5.3.2

(apartado 6)), que un sistema lineal se podía considerar como hallar todas las combinaciones

lineales posibles resultantes de considerar las columnas de una matriz como vectores a

combinar, es decir Z = A•X, con Z un vector columna m•1 y X un vector columna n•1 genérico

que abarca todas las posibilidades de 𝐹𝑛, o EC(A) = {A•X | X de 𝐹𝑛}

PROPOSICIÓN 2: Para cualquier matriz A, de dimensión m•n y matrices P y Q tales que, P•A

y A•Q están definidas se cumple:

1) EN(A) ⊆ EN(P•A) con EN(A) = EN(P•A) si P es cuadrada y regular.

2) EF(P•A) ⊆ EF(A) con EF(P•A) = EF(A) si P es cuadrada y regular.

3) EC(A•Q) ⊆ EC(A) con EC(A•Q) = EC(A) si Q es cuadrada y regular.

160

DEMOSTRACIÓN: 1) X es de EN(A) implica que A•X = 0, lo que implica que P•(A•X) = (P•A)•X

= 0 o sea X pertenece a EN(P•A). Si 𝑃−1 existe tenemos que X es de EN(P•A) cuando, (P•A)•X

= 0, lo que implica que 𝑃−1•(P•A)•X = A•X = 0.

2) Sea P una matrix r•m, entonces, EF(P•A) = {Y•(P•A ) | Y de (𝐹𝑟)𝑡} = {(Y•P)•A ) | Y de (𝐹𝑟)𝑡},

pero Y•P es una combinación lineal de las filas de P que puede ser de rango m, como mucho,

o menor, por tanto, {(Y•P)•A ) | Y de (𝐹𝑟)𝑡} ⊆ {Z•A ) | Z de (𝐹𝑚)𝑡}, porque si Y•P no abarca

todas las posibilidades de (𝐹𝑚)𝑡 al ser el rango de P menor que m, no podemos asegurar la

igualdad de conjuntos. En cambio, si r = m y P es regular, EF(A) = EF(𝑃−1•(P•A)) ⊆ EF(P•A).

3) De la misma manera que en 2) para una matriz Q, n•r, EC(A•Q) = {(A•Q)•Y | Y de 𝐹𝑟} =

{A•(Q •Y )| Y de 𝐹𝑟} ⊆ {A•Z | Z de 𝐹𝑛} = EC(A). Si r = n y Q es regular, entonces, EC(A) =

EC((A•Q)•𝑄−1) ⊆ EC(A•Q). □

Ahora como consecuencia de esta proposición viene un corolario que trata de los espacios

nulos, filas y columnas de matrices equivalentes por filas o columnas. Dice lo siguiente:

COROLARIO: Puesto que A y B son equivalente por filas si hay una matriz regular P, tal que A

= P•B y equivalentes por columnas si hay una matriz regular Q tal que A = B•Q, se cumple:

1) A es equivalente por filas a B, entonces, EN(A) = EN(B).

2) A es equivalente por filas a B, entonces, EF(A) = EF(B).

3) A es equivalente por columnas con B, entonces EC(A) = EC(B).

DEMOSTRACIÓN: La demostración es inmediata. □

Para demostrar 2 y 3 podríamos haber utilizado también el lema de la anterior

subsubsección, puesto que para pasar del espacio de columnas y de filas de A y B

equivalentes por filas o columnas se realizan las operaciones del lema que no cambian a los

dichos espacios.

10.4 Redefinición del rango de una matriz

Para empezar esta subsubsección vamos a ver la relación que existe entre EN(A) y EC(A), para

una matriz A cualquiera.

PROPOSICIÓN 1: Para cualquier matriz A de dimensión m•n, dim(EC(A)) + dim(EN(A)) = n,

esto es la dimensión del espacio de columnas y del espacio nulo suman el número de

columnas.

DEMOSTRACIÓN: Sea t = dim(EN(A)) y 𝑢1, 𝑢2, …, 𝑢𝑡 una base de EN(A). Sabemos que

podemos ampliar este conjunto de vectores linealmente independiente hasta una base de

𝐹𝑛. Sean 𝑤1, 𝑤2, …, 𝑤𝑟 estos vectores que amplían la base de EN(A) de modo que 𝑢1, 𝑢2, …,

𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟 es una base de 𝐹𝑛 y entonces tenemos que n = t + r. La demostración estaría

completa si mostramos que r = dim(EC(A)). Sabemos que EC(A) = {A•X | X de 𝐹𝑛}, de modo

que para un vector z de EC(A), z = A•X, entonces ya que {𝑢1, 𝑢2, …, 𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟} es una

base de 𝐹𝑛, existen 𝑎1, …, 𝑎𝑡, 𝑏1, …, 𝑏𝑟 tales que X = 𝑎1 • 𝑢1 + … + 𝑎𝑡 • 𝑢𝑡 + 𝑏1•𝑤1 + … +

𝑏𝑟•𝑤𝑟 y z = 𝑎1 • 𝐴 • 𝑢1 + … + 𝑎𝑡 • 𝐴 • 𝑢𝑡 + 𝑏1 • 𝐴•𝑤1 + … + 𝑏𝑟 • 𝐴•𝑤𝑟 = 𝑏1 • 𝐴•𝑤1 + … + 𝑏𝑟 •

𝐴•𝑤𝑟, ya que 𝑢𝑖 pertenece a EN(A), para cada i. Entonces lo que hemos demostrado es que

161

los vectores A•𝑤1, A•𝑤2, …, A•𝑤𝑟 generan EC(A), solo queda por demostrar que son

linealmente independientes. Supongamos que 𝑐1 • A • 𝑤1 + 𝑐2 • A • 𝑤2 + … +𝑐𝑟 • A • 𝑤𝑟 = 0

= 0, entonces, A•v = 0, con v = 𝑐1 • 𝑤1 + 𝑐2 • 𝑤2 + … +𝑐𝑟 • 𝑤𝑟 de modo que v pertenece a

EN(A), de modo que también v = 𝑑1 • 𝑢1 + 𝑑2 • 𝑢2 + … + 𝑑𝑡𝑢𝑡 y v – v = 0 = 𝑐1 • 𝑤1 + 𝑐2 • 𝑤2 +

… +𝑐𝑟𝑤𝑟 - 𝑑1 • 𝑢1 - 𝑑2 • 𝑢2 - … - 𝑑𝑡𝑢𝑡, pero como {𝑢1, 𝑢2, …, 𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟} es una base

se tiene a la fuerza que 𝑐𝑖 = 0 para todo i = 1, …, r y vemos que los vectores A•𝑤1, A•𝑤2, …,

A•𝑤𝑟, forman una base de EC(A), de modo que dim(EC(A)) = r, con t + r = n. □

Veamos ahora unos lemas que nos conducirán a una nueva definición del rango de una

matriz.

LEMA 1: Si P es regular, entonces, dim(EC(P•A)) = dim(EC(A)).

DEMOSTRACIÓN: Por la proposición 2 de la subsubsección anterior 10.3 EN(P•A) = EN(A) y,

por tanto, dim(EC(P•A)) = dim(EC(A)), ya que P•A y A tienen el mismo número de columnas

se sigue de la proposición 1 anterior de esta subsubsección que n = dim(EN(P•A)) +

dim(EC(P•A)) = t + dim(EC(P•A)) , de modo que n – t = dim(EC(P•A)) = dim(EC(A)) = r. □

LEMA 2: Si P y Q son regulares, entonces dim(EC(P•A•Q)) = dim(EC(A)).

DEMOSTRACIÓN: Por la proposición 2 de la subsubsección anterior 10.3 EC(A•Q) = EC(A), de

modo que aplicando el lema anterior lema 1 de esta subsubsección dim(EC(P• A•Q)) =

dim(EC(A•Q)) = dim(EC(A)). □

LEMA 3: Si P y Q son regulares, entonces, dim(EF(P• A•Q)) = dim(EF(A)).

DEMOSTRACIÓN: Esta claro que dim(EC(𝐴𝑡)) = dim(EF(A)), de modo que dim(EF(P• A•Q)) =

dim(EC((P • A • Q)𝑡)) = dim(EC(Q𝑡•A𝑡•P𝑡)) = dim(EC(A𝑡)) = dim(EF(A)). □

Ahora ya estamos preparados para redefinir el rango de una matriz.

PROPOSICIÓN 2: Para cualquier matriz A, dim(EF(A)) = dim(EC(A)).

DEMOSTRACIÓN: Según la discusión de la subsubsección 6.4 proposición 2 existen matrices

regulares P y Q, tales que P•A•Q = (𝐼𝑟 ⋮ 0…0

⋮ …⋮ 0

), de modo que dim(EC(A)) = dim(EC(P•A•Q))

= r = dim(EF(P•A•Q)) = dim(EF(A)). □

Ahora vemos que dim(EC(A)) = dim(EF(A)) = rango de A según la definición antigua que dimos,

por lo tanto se puede redefinir el rango de A como la dimensión común de dim(EC(A)) =

dim(EF(A)) o también, como el número de columnas o de filas linealmente independientes

de la matriz. Formalicemos esta discusión en una definición.

DEFINICIÓN 1 (Rango de una matriz A): Definimos el rango de una matriz, A, y se notará como

rag(A), a la dimensión única de su espacio de filas o su espacio de columnas ya que siempre

coinciden, también como el número mayor de filas o columnas linealmente independientes,

de modo que rag(A) = dim(EC(A)) = dim(EF(A)).

DEFINICIÓN 2 (Nulidad de una matriz): A la dimensión del espacio nulo EN(A), dim(EN(A))

también se la llama nulidad y se nota como dim(EN(A)) = nul(A), entonces tenemos que la

expresión de la proposición 1 de esta subsubsección queda: rag(A)+ nul(A) = n.

162

Ahora demostraremos un lema que será útil en lo sucesivo.

LEMA 4: Sea B = {𝑒1, …, 𝑒𝑛} una base de un espacio vectorial V, U = {𝑢1, …, 𝑢𝑘} un conjunto

de vectores que son sistema de generadores de V y A, la matriz n•k cuyas columnas son las

coordenadas de los vectores de U con respecto a la base B, entonces, esto ocurre sí y solo si,

rag(A) = n.

DEMOSTRACIÓN: Si U es un sistema generador de V esto es equivalente a que para cualquier

vector v, de V, v = 𝑐1•𝑢1 + … + 𝑐𝑘•𝑢𝑘, de modo que si v se expresa en función de la base B

obtenemos también que v = 𝑏1•𝑒1 + … + 𝑏𝑛•𝑒𝑛 y podemos escribir estas ecuaciones

vectoriales: v = U•c , v = B•b y U = B•A, con U = (𝑢1, …, 𝑢𝑘), c = (𝑐1, …,𝑐𝑘), B = (𝑒1, …, 𝑒𝑛) y b

= (𝑏1, …, 𝑏𝑛), de modo que v = B•b = U•c = B•A•c y por tanto, b = A•c, por la unicidad de las

coordenadas en una base y esto, para toda n-tupla b, lo que es equivalente a que, para todo

b, el sistema A•X = b tiene solución, lo que es equivalente por el teorema de Rouche-

Frobenius que rag(A) = rag(Ab), para todo b, lo que es equivalente a que para todo b,

L(col_1(A), …, col_k(A)) = L(col_1(A), …, col_k(A), b), lo que es equivalente a que para todo b,

b pertenece a L(col_1(A), …, col_k(A)), de modo que esto es equivalente a que L(col_1(A), …,

col_k(A)) es todas las n-tuplas en el cuerpo F que, como tiene dimensión n, como espacio

vectorial, es equivalente, según nuestra definición de rango, a que rag(A) = n. □

10.5 Cálculo de la dimensión y una base de EC(A) y EF(A) para una matriz A

Empezamos primero con una base de EC(A). Esta sección tendrá 3 proposiciones semejantes

y será muy corta.

PROPOSICIÓN 1 (Cálculo de una base para EC(A)): Sea A una matriz de dimensión m•n y sea

EC(A) su espacio de columnas, entonces se cumple lo siguiente:

1) Sea A’ una forma escalonada con respecto a las columnas (no necesariamente reducida)

y estén los pivotes de la forma escalonada en las columnas 𝑗1, …, 𝑗𝑘, entonces, los

vectores columna B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las columnas de la matriz A (y fíjese el

lector que decimos la matriz A y no la A’) forman una base para el espacio EC(A).

2) También forman una base de EC(A) los vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las

columnas de la matriz A’.

3) También forman una base aún más sencilla las columnas distintas de 0, de la forma de

Hermite reducida por columnas de A.

DEMOSTRACIÓN: 1) Sea 𝐻𝑐 la forma de Hermite reducida por columnas, entonces, las

columnas no nulas proceden de las columnas B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, de la matriz A y sabemos por

el lema de la subsubsección 10.2 que son un sistema de generadores de EC(A). Al tener este

conjunto B, la dimensión de EC(A) (puesto que esta dimensión es el rango de A) también

tiene que ser un sistema linealmente independiente y por tanto es una base de EC(A).

2) Estos vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘} con combinaciones lineales de los vectores de las columnas

de A y de 𝐻𝑐 y según el lema de la subsubsección 10.2 también son una base de EC(A).

3) El mismo argumento anterior sirve para los vectores columna distintos de 0 de 𝐻𝑐. □

163

PROPOSICIÓN 2 (Cálculo de una base para EF(A)): Sea A una matriz de dimensión m•n y sea

EF(A) su espacio de filas, entonces se cumple lo siguiente:

1) Sea A’ una forma escalonada con respecto a las filas (no necesariamente reducida) y

estén los pivotes de la forma escalonada en las filas 𝑗1, …, 𝑗𝑘, entonces, los vectores fila

B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las filas de la matriz A (y fíjese el lector que decimos la

matriz A y no la A’) forman una base para el espacio EF(A).

2) También forman una base de EF(A) los vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las filas

de la matriz A’.

3) También forman una base aún más sencilla las filas distintas de 0, de la forma de Hermite

reducida por filas de A.

DEMOSTRACIÓN: Análoga a la proposición 1 anterior. □

EJEMPLO 1: Sea U, el subespacio de 𝐹4, U = L((1, 3, 4, 1), (2, 6, 8, 2), (2, 5, 7, 2)), escribamos

una matriz cuyas filas son estos vectores y calculemos su forma normal de Hermite por filas:

(1 3 4 122

65

87

22) → (

1 3 4 100

0−1

0−1

00) → (

1 3 4 100

10

10

00) → (

1 0 1 100

10

10

00).

Por tanto, una base de U es B = {(1, 0, 1, 1), (0, 1, 1, 0)}.

Ahora vamos a ver otra forma de calcular una base de EC(A) utilizando una forma escalonada

por filas (y advierta el lector que no decimos por columnas), llamémosla A’ de A.

PROPOSICIÓN 3(Cálculo de una base para EC(A) por medio de una forma escalonada por filas

de A): Sea S = {𝑣1, …, 𝑣𝑛} un conjunto de n vectores de 𝐹𝑚 y sea A la matriz formada por

medio de estos vectores como sus columnas. Sea A’ una forma escalonada por filas de la

matriz A y estén los pivotes en las columnas 𝑗1, …, 𝑗𝑘, entonces, L(S) tiene como base B = {𝑣𝑗1,

…, 𝑣𝑗𝑘} y, por tanto, la dimensión de L(S) es k. Y, por tanto, una base de EC(A) es B.

DEMOSTRACIÓN: Debemos mostrar que B es linealmente independiente y que es un sistema

generador de W = L(S). Demostremos primero que es un sistema generador de W.

Sea v un vector de W, entonces v = 𝑑1•𝑣1 + … + 𝑑𝑛•𝑣𝑛, para unos escalares 𝑑1, …, 𝑑𝑛 del

cuerpo. Y esto también significa piénselo el lector que ya lo hemos discutido, que A•X = v

tiene solución. Pero, de hecho, piense el lector en la subsubsección 3.4 que discutimos la

resolución de un sistema de ecuaciones, que esto significa que existe una solución 𝑥𝑗1 = 𝑐𝑗1,

…, 𝑥𝑗𝑘 = 𝑐𝑗𝑘 y con 𝑥𝑗 = 0 para las demás j, haciendo las variables libres nulas, por tanto, v =

𝑐𝑗1•𝑣𝑗1 + … + 𝑐𝑗𝑘 • 𝑣𝑗𝑘 y esto significa que B genera W.

Ahora demostremos que B es linealmente independiente. Supongamos que 𝑐𝑗1•𝑣𝑗1 + … +

𝑐𝑗𝑘 • 𝑣𝑗𝑘 = 0, entonces haciendo 0 los coeficientes de los vectores de S que faltan vemos que

0 = 𝑑1•𝑣1 + … + 𝑑𝑛•𝑣𝑛 = A•X. Pero esto es un sistema homogéneo en el que las variables

libres se han hecho nulas, esto obliga que 𝑐𝑗1 = … = 𝑐𝑗𝑘 = 0 puesto que las incógnitas

principales dependen en un sistema homogéneo, solo de las libres, por lo que B es

linealmente independiente. □

EJEMPLO 2: Encontrar una base para el subespacio de 𝐹4, L(S), con

164

S = {(

1237

), (

41−20

), (

−1011

), (

54−17

), (

0146

)}.

Por tanto, A = (

1 4 −1 5 0237

1 0 4 1−2 1 −1 40 1 7 6

) que se reduce a A’ = (

1 4 −1 5 0000

−7 2 −6 10 0 −4 20 0 0 0

).

Donde vemos que hay 3 columnas principales en las posiciones 1, 2 y 4, por lo que W tiene

dimensión 3 y tiene una base B = {(

1237

), (

41−20

), (

54−17

)}. También se puede decir que B es

una base de EC(A).

10.6 Ecuaciones cartesianas y paramétricas de un subespacio I

Para discutir las coordenadas cartesianas y paramétricas de un subespacio nos queda

demostrar un paso previo muy interesante y lo haremos en la siguiente proposición.

PROPOSICIÓN 1 (Dimensión de los subespacios en función de las coordenadas): Sea V un

espacio vectorial de dimensión n y W un subespacio suyo, W = L(𝑤1, …, 𝑤𝑠). Sea B = {𝑒1, …,

𝑒𝑛} una base de V y A una matriz cuyas columnas son la expresión de cada vector de un

sistema de generadores de W en función de B, entonces, rag(A) = dim W.

DEMOSTRACIÓN: Sea t = dim W y escojamos una base de W de modo que la matriz fila U =

(𝑢1, …, 𝑢𝑡) y B = (𝑒1, …, 𝑒𝑛), y por tanto, U = B•C, para una matriz C de dimensión n•t. Vimos

en la proposición de la subsubsección 9.8 que esto implica que rag(C) = t. Definamos P = (𝑤1,

…, 𝑤𝑠), a la s-tupla de un sistema de generadores de W y supongamos que P = U•D, según el

lema 4 de la subsubsección 10.4, se tiene que rag(D) = t, más aún, B•A = P = U•D = B•C•D,

de modo que por la unicidad de las coordenadas de una base, tenemos: A = C•D. Por la

propiedad del rango del producto de dos matrices, rag(A) = rag(C•D) ≤ min{rag(C), rag(D)} =

min{t, t} = t. Ahora supongamos que rag(A) < t, de modo que, según la proposición de la

subsubsección 9.8, no puede haber t vectores en W linealmente independientes, pero

sabemos que de un sistema de generadores de W como tiene dimensión t, podemos extraer

una base de t vectores linealmente independientes, lo cual es una contradicción y, por tanto,

rag(A) = t. □

A partir de ahora vamos a utilizar un concepto muy fructífero y que nos va a acompañar a lo

largo de este libro. Es el siguiente, hemos visto que dada una base de un espacio vectorial V

de dimensión finita, cada vector de V queda determinado por sus coordenadas, de modo que

el concepto que vamos a establecer es que fijada una base, podemos considerar todos los

vectores definidos por sus coordenadas (según esa base) por tanto, podemos utilizar todas

las herramientas que tenemos a nuestra disposición en el espacio de las n-tuplas de

elementos de F (matrices, sistemas lineales, etc.), para estudiar los espacios o subespacios

de V. En esta subsubsección empezaremos este estudio y verá el lector que tiene mucho

significado y gran alcance este concepto.

165

Para terminar los preliminares veremos un corolario que nos será útil y desde donde

empezamos a utilizar el concepto que acabamos de establecer. Demostramos de nuevo el

resultado de la proposición 1 de esta subsubsección y agregaremos algunos detalles más.

COROLARIO: Sea V un espacio vectorial de dimensión n y B una base del mismo. Sea U = L(𝑢1,

…, 𝑢𝑘) un subespacio del mismo y consideremos la matriz A de orden k•n que consiste en

que las filas de A son las coordenadas según la base B, de los vectores 𝑢1, …, 𝑢𝑘. Entonces

𝐴𝑡, es la matriz cuyas columnas son las coordenadas según la base B de los vectores 𝑢1, …,

𝑢𝑘. Entonces, se cumple lo siguiente:

1) dim U = rag(A) = rag(𝐴𝑡)

2) Las filas de la forma normal de Hermite por filas de A son las coordenadas de los vectores

de una base de U.

3) Las columnas de la forma normal de Hermite por columnas de 𝐴𝑡 son las coordenadas

de los vectores de una base de U.

DEMOSTRACIÓN: 1) Utilizando las coordenadas respecto de la base B, tenemos

simbólicamente expresado que U = EF(A), es decir todas las combinaciones lineales de las

filas de A, tomadas como vectores dan las coordenadas de todos los vectores de U y por tanto

rag(A) = dim U = rag(𝐴𝑡).

2) Sea 𝐻𝑓 la forma normal de Hermite por filas de A, según el lema de la subsubsección 10.2,

las filas no nulas de 𝐻𝑓 forman un sistema de generadores de todos los vectores de U

expresados en coordenadas según la base B. De modo que ya que el número de estas filas es

igual al rag(A) = dim EF(A) = dim U, este sistema de generadores ha de ser una base de EF(A)

y, por tanto, de los vectores de U expresados en coordenadas.

3) Esta afirmación es la misma que en 2). □

Ahora vamos a entrar en materia y quería advertir al lector que esta subsubsección puede

resultar un tanto desconcertante, pero con el tiempo y el uso de los conceptos que

trataremos, resultará muy natural, aunque lleva tiempo familiarizarse con el material que

exponemos a continuación.

El primer concepto que hemos introducido en esta subsubsección es que podemos utilizar

las coordenadas de los vectores de un subespacio para determinar a los vectores del mismo,

ahora se trata de ir un paso más adelante y utilizar un sistema de ecuaciones lineales

homogéneo para determinar las coordenadas de los vectores del subespacio y así determinar

éste. Ya vimos que las soluciones de un sistema homogéneo de ecuaciones lineales son un

subespacio vectorial, por tanto, se trata de asociar a cada subespacio vectorial el conjunto

de soluciones de un sistema homogéneo como las coordenadas de sus vectores y viceversa

con respecto a una base dada.

DEFINICIÓN 1 (Ecuaciones paramétricas de un subespacio vectorial U dada una base B del

espacio vectorial V al que pertenece): Sea V un especio vectorial de dimensión n de base B =

{𝑒1, …, 𝑒𝑛} y sea U un subespacio vectorial del mismo que tiene un sistema de generadores

166

{𝑢1, …, 𝑢𝑠}. Sea W = (𝑢1, …, 𝑢𝑠) = (𝑒1, …, 𝑒𝑛)•A = E•A, con E = (𝑒1, …, 𝑒𝑛) y A una matriz n•s.

Sea T = (

𝑡1⋮𝑡𝑠

) una matriz s•1 de parámetros o variables… Entonces se tiene:

U = L(𝑢1, …, 𝑢𝑠) = {∑ 𝑡𝑖 •𝑖=𝑠𝑖=1 𝑢𝑖, para todo 𝑡1, … , 𝑡𝑠 de F} = {W•T, para toda T matriz s•1} =

{E•A•T, para toda matriz T de dimensión s•1} .

Si decimos que las coordenadas de los vectores de U son X = (

𝑥1⋮𝑥𝑛), el sistema de ecuaciones

X = A•T, es decir, {

𝑥1 = 𝑎11 • 𝑡1 +⋯+ 𝑎1𝑠 • 𝑡𝑠…

𝑥𝑛 = 𝑎𝑛1 • 𝑡1 +⋯+ 𝑎𝑛𝑠 • 𝑡𝑠

, se llaman ecuaciones paramétricas de U

con respecto a la base B. Las variables 𝑡1, …, 𝑡𝑠 se llaman parámetros. Y observemos que estas

ecuaciones paramétricas tienen la misma forma que las soluciones de un sistema

homogéneo de ecuaciones, porque de hecho lo son. Variando todas las posibles

combinaciones de valores a los parámetros obtenemos todas las posibles coordenadas de los

vectores de U dada la base B y es evidente que, si tenemos un sistema de generadores de U

diferente, las ecuaciones paramétricas serán diferentes para un mismo subespacio U y fijada

una base B de V. Más aún diremos que si dim U = r todo sistema de ecuaciones paramétrico

de U ha de tener al menos, r parámetros.

DEFINICIÓN 2 (Ecuaciones paramétricas o implícitas de un subespacio U de un espacio V al

que pertenece, dada una base B del mismo): Sea V un espacio vectorial de dimensión n, de

base B = {𝑒1, …, 𝑒𝑛}, sea U un subespacio vectorial de V y sea E = (𝑒1, …, 𝑒𝑛). Un sistema

cartesiano de ecuaciones de U, o un sistema de ecuaciones implícitas de U, con respecto a la

base B, es un sistema homogéneo de ecuaciones A•X = 0, tal que, las soluciones del sistema

son las coordenadas de los vectores de U y las únicas coordenadas dadas la base B, es decir

simbólicamente: A•X = 0 es equivalente a que E•X pertenece a U.

Al igual que lo consideramos con las ecuaciones paramétricas, surgen 2 preguntas a

considerar con las ecuaciones paramétricas que nos guiaran para su estudio:

1) Dado un sistema de ecuaciones homogéneo de n incógnitas, ¿existirá un subespacio

vectorial U, tal que sus ecuaciones cartesianas son ese sistema con respecto a la base B?

2) Dado un subespacio vectorial U de V, ¿Siempre podemos encontrar un sistema

homogéneo de ecuaciones que sea su sistema cartesiano de ecuaciones? Y si siempre

existe, ¿será este sistema cartesiano único?

10.7 Ecuaciones cartesianas y paramétricas de un subespacio II

Ya podemos responder al segundo aspecto de la segunda pregunta con la que terminamos la

subsubsección anterior. Veamos que un subespacio puede admitir diferentes ecuaciones

cartesianas o implícitas, pues si A•X = 0 es uno de ellos para el subespacio U, cualquier otro

equivalente al mismo será también un sistema de ecuaciones cartesiano para el mismo

subespacio U. Por ejemplo, consideremos el vector 0 como subespacio vectorial de un

espacio vectorial de dimensión n, está claro que cualquier sistema de ecuaciones homogéneo

167

con rag(A) = n, tendrá a 0 como su única solución y entre ellas podemos considerar el

siguiente: { 𝑥1 = 0, 𝑥2 = 0, …, 𝑥𝑛 = 0. También ocurre que cualquier sistema de ecuaciones

homogéneo serán las ecuaciones cartesianas de V, considerado como subespacio de sí

mismo si la matriz del sistema A = 0 y como ejemplo podemos considerar el sistema trivial {0

= 0.

Ahora respondamos a la primera cuestión.

PROPOSICIÓN 1(Existencia de un subespacio para cada sistema de ecuaciones cartesianas):

Sea V un espacio vectorial de dimensión n y sea B = {𝑒1, …, 𝑒𝑛} una base del mismo. Sea A•X

= 0 un sistema homogéneo de ecuaciones lineales. Entonces existe un subespacio U de V tal

que sus ecuaciones cartesianas son A•X = 0 con respecto a la base B. Es más, dim U = n –

rag(A).

DEMOSTRACIÓN: Denominemos al sistema de soluciones de A•X = 0 como S y sea E = (𝑒1, …,

𝑒𝑛), definamos U = {E•X, para todo X de S}, entonces se cumple:

a) U es un subespacio de V pues dados E•X, y E•Y de U y a, b de F, tenemos a• E•X + b• E•Y

= E•(a•X + b•Y) que pertenece a U. También observemos que A•X = 0 y A•Y = 0 implica

que A•(a•X + b•Y) = 0 y por tanto, a•X + b•Y es de S.

b) U tiene ecuaciones cartesianas A•X = 0 pues A•X = 0 es equivalente a que X es de S, lo

cual es equivalente a que E•X es de U.

c) U es el único espacio vectorial de V con las ecuaciones cartesianas A•X = 0 pues si

existiera otro U’ tal que E•X perteneciera a U’ esto sería equivalente a que A•X = 0, que

es equivalente a que X es de S, lo que es equivalente a que E•X pertenezca a U, de modo

que tenemos que U’ = U.

d) Además, y, por último, tenemos que dim U = dim S, pues si {𝑥1, …, 𝑥𝑡} es una base de S

entonces {E•𝑥1, …, E•𝑥𝑡} es un base de U como se puede verificar fácilmente y por el

teorema de Rouche- Frobenius, se sigue que dim S = n – rag(A) y por tanto, dim U = n –

rag(A). □

Ahora respondamos la segunda cuestión.

PROPOSICIÓN 2 (Existencia de un sistema de ecuaciones cartesianas para cada subespacio U

de V fijada una base B de V): Sea V un espacio vectorial de dimensión n con base B = {𝑒1, …,

𝑒𝑛}, sea U un subespacio vectorial de V de dimensión t < n. Entonces U admite un sistema de

ecuaciones cartesianas con respecto a la base B de n – t ecuaciones B•X = 0, con rag(B) = n -

t.

DEMOSTRACIÓN: Podemos suponer que U no es {0}, pues en ese caso tenemos el sistema

homogéneo 𝐼𝑛•X = 0, que cumple la proposición, con 𝐼𝑛 la matriz unidad de orden n. De

modo que sea 0 < t < n y {𝑢1, …, 𝑢𝑡} una base de U. Sea W = (𝑢1, …, 𝑢𝑡) = E•A, con E = (𝑒1, …,

𝑒𝑛) y A una matriz de dimensión n•t. Puesto que {𝑢1, …, 𝑢𝑡} es una base de U rag(A) = t y sea

v = E•X un vector de U. Entonces v de U es equivalente a que v∈L(𝑢1, …, 𝑢𝑡), lo que es

equivalente a que v, 𝑢1, …, 𝑢𝑡, son linealmente dependientes, lo que es equivalente a que

rag(X|A) < t + 1, lo que es equivalente a que rag(X|A) = t, pues en general se tiene que t =

rag(A) ≤ rag(X|A) ≤ t + 1.

168

La condición rag(x|A) = t es equivalente a que los menores de (X|A) de orden t + 1 que se

forman a partir de un menor de orden t sean cero, de ahí obtenemos un sistema de (𝑛

𝑡 + 1)

ecuaciones homogéneo, de las que n – t son esenciales. Las ecuaciones de este sistema son

lineales, de modo que el sistema que obtenemos podemos simbolizarlo así B•X = 0 y

podemos concluir que v = E•X es de U es equivalente a que B•X = 0, de modo que B•X = 0 es

un sistema de ecuaciones cartesianas. Tiene que cumplirse que rag(B) = n – t, pues dim U = t

y según el teorema de Rouche-Frobenius hay n – rag(B) = t variables libres. □

Haremos ahora algunas observaciones adicionales, que quizás hayan quedado sin pensarse.

OBSERVACIONES: 1) Dado un sistema generador de U se obtiene un sistema de ecucaciones

cartesianas por la operación de hacer rag(X|A) = t = rag(A) = dim U, para una base que se

obtenga de U a partir del sistema de generadores y asociada a la matriz A’ se hallan las

ecuaciones cartesianas con la misma operación rag(X|A’) = rag(A).

2) Podemos tener sistemas de ecuaciones cartesianos de número de ecuaciones m, mayor

que n – t, pero el número menor de ecuaciones ha de ser n – t que es el número que hemos

utilizado en la demostración de la proposición 2 de esta subsubsección, por tanto, para el

número de ecuaciones del sistema cartesiano, m se cumple que n – t ≤ m.

EJEMPLO: Sea V el espacio afín de dimensión 4 con su base canónica. Determinar las

ecuaciones cartesianas y paramétricas del subespacio U generado por los vectores 𝑢1 = (1, 1,

-2, 1), 𝑢2 = (0, 1, 0, 2) y 𝑢3 = (2, 1, -4, 0). Si hacemos W = (𝑢1, 𝑢2, 𝑢3), tenemos que W = E•A,

con A = (

1 0 21−21

102

1−40

). Se tiene que rag(A) = 2, pues 2•𝑢1 - 𝑢2 = 𝑢3, de modo que dim U =

2. Para obtener las ecuaciones cartesianas de U ponemos la imposición rag(colum_1(A)

colum_2(A) X) = rag(A’|X) = 2, es decir, rag(

1 0 𝑥11−21

102

𝑥2𝑥3𝑥4

) = 2, lo que es equivalente a que

det(1 0 𝑥11−2

10

𝑥2𝑥3) = det(

1 0 𝑥111

12

𝑥2𝑥4) = 0 lo que es equivalente a que,

{2 • 𝑥1 + 𝑥3 = 0

𝑥4 + 2 • 𝑥1 − 𝑥1 − 2 • 𝑥2 = 0, o {

2 • 𝑥1 + 𝑥3 = 0 𝑥1 − 2 • 𝑥2 + 𝑥4 = 0

.

Resolviendo el sistema de ecuaciones obtenemos las ecuaciones paramétricas:

{

𝑥1 = 𝑠1𝑥2 = 𝑠2

𝑥3 = −2 • 𝑠1𝑥4 = −𝑠1 + 2 • 𝑠2

.

Obsérvese que haciendo X = A•T, con T = (

𝑡1𝑡2𝑡3

), se obtiene el siguiente sistema de ecuaciones

paramétricas equivalente:

169

{

𝑥1 = 𝑡1 + 2 • 𝑡3𝑥2 = 𝑡1 + 𝑡2 + 𝑡3𝑥3 = −2 • 𝑡1 − 4 • 𝑡3𝑥4 = 𝑡1 + 2 • 𝑡2

.

10.8 Ecuaciones cartesianas y paramétricas de un subespacio III

En esta subsubsección haremos un resumen de la discusión de las ecuaciones paramétricas

y cartesianas o implícitas de un subespacio y recalcaremos las diferentes operaciones y pasos

de uno a otro de los elementos que aparecen en esta discusión.

Los elementos que hemos estudiado son estos:

a) Bases del subespacio U

b) Ecuaciones Paramétricas de U

c) Ecuaciones cartesianas de U

Y los pasos de unos elementos a otros que vamos a repasar son:

1) Bases de U a las Ecuaciones Paramétricas.

2) De las Ecuaciones Paramétricas a las Bases de U

3) De las Ecuaciones Cartesianas a las Ecuaciones Paramétricas de U

4) De las Ecuaciones Paramétricas a las Ecuaciones Cartesianas de U

Repasémoslo ahora mismo:

1) Bases de U a las Ecuaciones Paramétricas.

Dada una base de U escrita como vector fila W = (𝑢1, …, 𝑢𝑠) = (𝑒1, …, 𝑒𝑛)•A = E•A, donde E =

(𝑒1, …, 𝑒𝑛), base de V, de modo que dadas las coordenadas de un vector de U, X se tiene que

E•X = W•T, donde T es una matriz de s parámetros, de modo que E•X = W•T = E•A•T, de

donde se obtienen las ecuaciones paramétricas: X = A•T.

Ejemplo: Sea la base de U {(1, -1, 0), (-1, 1, 1)} con V siendo el espacio afín de dimensión 3,

entonces se obtienen las Ecuaciones Paramétricas de U: (

𝑥1𝑥2𝑥3) = (

1 −1−10

11)•(

𝑡1𝑡2).

2) De las Ecuaciones Paramétricas a las Bases de U.

Dadas unas ecuaciones paramétricas de U, X = A•T, las columnas de A forman un sistema de

generadores de U. Si este conjunto es linealmente independiente es base de U. Si no,

entonces una base de U la forman las columnas no nulas de la forma normal de Hermite por

columnas de A.

Ejemplo: Sean las ecuaciones paramétricas de un subespacio U, del espacio afín de dimensión

3 las siguientes: : (

𝑥1𝑥2𝑥3) = (

1 −1 0−10

11

01)•(

𝑡1𝑡2𝑡3

), entonces {(1, -1, 0), (-1, 1, 1), (0, 0, 1)} son

170

un sistema de generadores de U, pero la forma normal de Hermite por columnas de A es

(1 0 0−10

01

00), por lo que una base de U es {(1, -1, 0), (0, 0, 1)}.

3) De las Ecuaciones Cartesianas a las Ecuaciones Paramétricas de U.

Sean las ecuaciones cartesianas de U, un subespacio de V, A•X = 0, entonces se obtienen las

ecuaciones paramétricas de U resolviendo el sistema de ecuaciones cartesianas.

Ejemplo: Sean las ecuaciones cartesianas de U, del espacio afín de dimensión 3, V, las

siguientes: {𝑥1 + 𝑥2 = 0

2 • 𝑥1 + 2 • 𝑥2 = 0, o sea que A•X = 0, es (

1 1 02 2 0

)•(

𝑥1𝑥2𝑥3) = (

00), esto nos

lleva, resolviendo el sistema que 𝑥1 = -𝑥2, de modo que la solución del sistema es 𝑥1 = -𝑡1, 𝑥2

= 𝑡1, 𝑥3 = 𝑡2, de modo que las ecuaciones paramétricas son (

𝑥1𝑥2𝑥3) = (

−1 010

01)•(

𝑡1𝑡2).

4) De las Ecuaciones Paramétricas a las Ecuaciones Cartesianas de U.

Dado el sistema de ecuaciones paramétricas X = A•T. Hay dos métodos para hallar las

ecuaciones cartesianas:

i) El sistema X = A•T ha de ser compatible de modo que rag(A|X) = rag(A), por lo que si

rag(A) = r, todos los menores de dimensión r + 1 de (A|X) deben ser 0, por lo que de

ahí obtenemos un sistema de (𝑛

𝑟 + 1) ecuaciones de las que n – r son esenciales.

Ejemplo: (

𝑥1𝑥2𝑥3) = (

1 −1−10

11)•(

𝑡1𝑡2), de modo que si el sistema es compatible debe darse que

det(A|X) = det(1 −1 𝑥1−10

11

𝑥2𝑥3) = -(𝑥1 + 𝑥2) = 0 y se obtiene: (1 1 0)• (

𝑥1𝑥2𝑥3) = 0.

ii) Por eliminación de parámetros:

Ejemplo: De (

𝑥1𝑥2𝑥3) = (

1 −1−10

11)•(

𝑡1𝑡2), se sigue que {

𝑥1 = 𝑡1 − 𝑡2 𝑥2 = −𝑡1 + 𝑡2

𝑥3 = 𝑡2

, lo que es equivalente

a que 𝑥1 + 𝑥2 = 0.

EJEMPLO: En el espacio vectorial de los polinomios en una indeterminada, sobre el cuerpo

de los reales, de grado menor o igual a 3, 𝑃3(ℝ), consideramos el subespacio siguiente:

U = {p(x) de 𝑃3(ℝ) | p(x) = p(-x)}.

Para calcular las ecuaciones paramétricas y luego las cartesianas, necesitamos en primer

lugar elegir la base de V, sea esta: B = {1, x, 𝑥2, 𝑥3}. Así, dado un polinomio de este espacio,

p(x) = 𝑎0 + 𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3, sus coordenadas son (𝑎0, 𝑎1 , 𝑎2, 𝑎3 ) y para que el

polinomio p(x) = 𝑎0 + 𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3 pertenezca a U debe ocurrir que p(x) = 𝑎0 +

𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3 = 𝑎0 - 𝑎1•x + 𝑎2• 𝑥2 - 𝑎3• 𝑥3 = p(-x), lo que implica que 2•𝑎1•x +

171

2•𝑎3• 𝑥3 = 0, es decir que ya obtenemos las ecuaciones cartesianas si observamos que 𝑎1 =

0 y 𝑎3 = 0 ,o se las ecuaciones cartesianas de U son las siguientes:

U = {𝑎1 = 0𝑎3 = 0

.

Resolviendo el sistema obtenemos las ecuaciones paramétricas:

U = {

𝑎0 = 𝜆𝑎1 = 0𝑎2 = μ𝑎3 = 0

.

De donde obtenemos una base de U 𝐵𝑈 = {(1, 0, 0, 0)𝐵, (0, 0, 1, 0)𝐵}, es decir 𝐵𝑈 = {1, 𝑥2}.

10.9 Último repaso: Ecuaciones cartesianas y relaciones con la dimensión del subespacio

Queremos repasar como final a la discusión de ecuaciones cartesianas y paramétricas unos

últimos detalles que quizá no hayan quedado suficientemente claros. Son los siguientes

detalles.

Si llamamos n = dim V y r = dim U, entonces, en las ecuaciones paramétricas de U aparecerán

r parámetros y dado un sistema homogéneo de n incógnitas, para que la solución dependa

de r parámetros es necesario que la matriz de coeficientes tenga rango n – r, por lo que al

menos tiene que haber n – r ecuaciones. Si el sistema tiene más de n – r ecuaciones estás se

pueden reducir a un sistema equivalente con exactamente n – r ecuaciones y de rango n – r,

así, con estas aclaraciones podemos escribir estas fórmulas:

Número de Ecuaciones Cartesianas = dim V – dim U

dim U = dim V - Número de Ecuaciones Cartesianas

Donde se entiende que se trata de un sistema en el que no se puede reducir más el número

de ecuaciones. Así, estas fórmulas y aclaración pueden ser útiles cuando tratamos de

encontrar las ecuaciones cartesianas como veremos en los siguientes ejemplos.

EJEMPLO 1: Considerar en el espacio afín de dimensión 3 el subespacio U generado por los

vectores (1, -1, 0) y (1, 1, 0). Entonces las ecuaciones paramétricas son:

{

𝑥1 = µ + 𝜌𝑥2 = −µ + 𝜌

𝑥3 = 0,

Como U tiene dimensión 2, en un espacio de dimensión 3 solo necesitamos una ecuación

cartesiana para describir U y por tanto podemos decir que la ecuación 𝑥3 = 0 nos vale como

ecuación cartesiana para este ejemplo.

EJEMPLO 2: Sea el subespacio U del espacio afín de dimensión 4, generado por la base

siguiente: {(1, 0, 1, 1), (0, 1, 1, 0)}, inmediatamente obtenemos las ecuaciones paramétricas:

172

{

𝑥1 = µ𝑥2 = 𝜌

𝑥3 = µ + 𝜌𝑥4 = µ

,

Ahora obtendremos las ecuaciones cartesianas por eliminación de parámetros. Puesto que

U es un subespacio de V, que este último tiene dimensión 4 y U tiene dimensión 2, entonces

necesitaremos solamente 2 ecuaciones cartesianas. Ahora usamos la primera ecuación

paramétrica para eliminar el parámetro µ y una ecuación y obtenemos:

{

𝑥2 = 𝜌𝑥3 − 𝑥1 = 𝜌𝑥4 − 𝑥1 = 0

, y repitiendo el proceso se obtiene,

{𝑥3 − 𝑥1 − 𝑥2 = 0𝑥4 − 𝑥1 = 0

,

de modo que ya tenemos las dos ecuaciones cartesianas que queríamos si ningún parámetro:

{ 𝑥1 + 𝑥2 − 𝑥3 = 0𝑥1 − 𝑥4 = 0

.

10.10 Intersección de subespacios

En general, dada una familia de subespacios de un espacio vectorial V, {𝑈𝑖 | i de I}, su

intersección, ⋂ 𝑈𝑖 𝑖∈𝐼 , es también un subespacio, se trata del mayor subespacio contenido en

todos los de la familia, como demostramos a continuación.

PROPOSICIÓN (Intersección de subespacios): La intersección ⋂ 𝑈𝑖 𝑖∈𝐼 de una familia de

subespacios, {𝑈𝑖 | i de I}, de un espacio vectorial V, es un subespacio de V.

DEMOSTRACIÓN: Sean x, y dos vectores de la intersección ⋂ 𝑈𝑖 𝑖∈𝐼 , entonces consideremos

que x e y pertenecen a cada uno de los subespacios de la familia, por tanto, como pertenecen

a todos consideremos un subespacio arbitrario de la familia, {𝑈𝑖 | i de I}, sea 𝑈𝑘, como x e y

pertenecen a 𝑈𝑘, también pertenece a este subespacio toda combinación lineal de ellos, a•x

+ b•y, siendo a, b escalares del cuerpo, pero este hecho ocurre para cada uno de los

subespacios de la familia, de modo que de nuevo, a•x + b•y pertenece a la intersección y

esto demuestra que la intersección es un subespacio de V. □

En la práctica, tendremos que calcular la intersección de un par de subespacios U, W de V,

espacio vectorial de dimensión finita; para ello nos serán de utilidad las ecuaciones

cartesianas de ambos subespacios. Ya que, las coordenadas de un vector de ambos espacios

tienen que cumplir las ecuaciones cartesianas de ambos, la intersección tendrá de

ecuaciones cartesianas la unión de las de los dos subespacios. Quizá de esta manera habrá

que suprimir algunas ecuaciones por superfluas, cosa que descubriremos al manipular el

sistema por operaciones elementales y, una vez conseguidas las ecuaciones necesarias y

suficientes, las tendremos en cuenta para saber la dimensión del subespacio intersección de

los dos.

EJEMPLO: Consideremos los subespacios siguientes del espacio afín tridimensional:

173

U = {(x, y, z) | x + y + z = 0},

W = L((1, 1, 1), (1, 1, 0), (-1, -1, 1)).

Para calcular la intersección debemos obtener las ecuaciones cartesianas de W y, en primer

lugar, obtenemos una base del sistema de generadores, para ello reducimos la matriz cuyas

filas son las coordenadas de los vectores generadores:

(1 1 11−1

1−1

01) → (

1 1 100

00

−12) → (

1 1 000

00

10).

De modo que una base de W es {(1, 1, 0), (0, 0, 1)} y de aquí obtenemos las ecuaciones

paramétricas:

W = {

𝑥 = 𝜌𝑦 = 𝜌𝑧 = µ

,

Puesto que el subespacio tiene 2 parámetros, es decir dimensión 2, se necesita una ecuación

cartesiana para describirlo que podemos obtener fácilmente así: x – y = 0. Así que las

ecuaciones cartesianas de U ∩ W son:

U ∩ W = {𝑥 + 𝑦 + 𝑧 = 0𝑥 − 𝑦 = 0

.

Y vemos que ninguna ecuación puede eliminarse por transformaciones elementales, por lo

que tenemos que la dimensión de U ∩ W es 3 – 2 = 1.

10.11 Suma de subespacios

La unión de dos subespacios U y W de un espacio vectorial V, en general no es un subespacio,

como podemos comprobar con este ejemplo.

EJEMPLO 1: En el espacio afín de dimensión 2, consideremos los subespacios U = {(x, 0) | x

real}, que consiste en los vectores del eje x y W = {(0, y) | y real}, que consiste en los vectores

del eje y. Entonces los vectores (1, 0) y (0, 1), están en U∪W, pero su suma (1, 1) no está ni

en U ni en W, por lo que no está en U∪W y, por tanto, U∪W no es un subespacio vectorial

de V.

DEFINICIÓN (Suma de subespacios): Al menor subespacio que contiene a U∪W, lo

llamaremos suma de los subespacios U y W y lo denotaremos como U + W, por tanto, U + W

= L(U∪W).

Este nombre de suma se justifica comprobando que U + W = {u + w | u es de U y w es de W},

como lo haremos en la próxima proposición.

PROPOSICIÓN 1: U + W = {u + w | u es de U y w es de W}.

DEMOSTRACIÓN: Es evidente que {u + w | u es de U y w es de W} está contenido en L(U∪W),

pues esté último subespacio es cerrado frente a la suma de sus vectores. Además, se

comprueba fácilmente que {u + w | u es de U y w es de W} es un subespacio pues contiene a

174

un vector u haciendo w = 0, y si contiene a u, ya que U es un subespacio, también contiene a

c•u con c escalar, y de la misma, manera contiene a d•w, con d escalar, por lo que contiene

a c•u + d•w, por lo que es un subespacio y evidentemente contiene a los subespacios U y W.

Pero ya vimos que L(U∪W) es el menor subespacio que contiene a U y a W y por tanto está

contenido en el subespacio {u + w | u es de U y w es de W}. □

Para el cálculo de la suma de dos espacios reunimos las bases de ambos: Si {𝑢1, 𝑢2, … , 𝑢𝑟} es

una base de U y {𝑤1, 𝑤2, … , 𝑤𝑠} es una base de W, entonces, {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠} es

un sistema generador de U + W, como comprobamos en la siguiente proposición.

PROPOSICIÓN 2: Sea {𝑢1, 𝑢2, … , 𝑢𝑟} una base de U y {𝑤1, 𝑤2, … , 𝑤𝑠} una base de W, entonces

el conjunto {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠} es un sistema generador de U + W.

DEMOSTRACIÓN: Sea v = u + w de U + W. Entonces, u tiene la forma u = 𝑎1•𝑢1 + … + 𝑎𝑟•𝑢𝑟 y

w = 𝑏1•𝑤1 + … + 𝑏𝑠•𝑤𝑠 y, por tanto, v = u + w = 𝑎1•𝑢1 + … + 𝑎𝑟•𝑢𝑟 + 𝑏1•𝑤1 + … + 𝑏𝑠•𝑤𝑠, por

lo que v es una combinación lineal del conjunto {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠}. □

Una vez reunido un sistema generador de U + W, se puede extraer de él una base y desde

ella las ecuaciones paramétricas y después las cartesianas.

La definición de suma se puede generalizar a una familia cualquiera de subespacios {𝑈𝑖 | i de

I} de la siguiente manera: ∑ 𝑈𝑖𝑖∈𝐼 = L(⋃ 𝑈𝑖𝑖∈𝐼 ), y para un número finito de subespacios de un

espacio vectorial V de dimensión finita, la discusión de obtener un sistema generador a partir

de las bases de sus subespacios correspondientes se puede generalizar de manera obvia.

EJEMPLO 2: Consideremos los siguientes subespacios:

U = {(x, y, z) | x + y + z = 0}, W = L((1, 1, 1), (0, 0, 1)).

Para calcular U + W debemos obtener una base de U, por lo que resolvemos el sistema de

ecuaciones, para obtener las ecuaciones paramétricas:

{

𝑥 = 𝜌𝑦 = µ

𝑧 = −𝜌 − µ, de donde obtenemos la base de U,

{(1, 0, -1), (0, 1, -1)}y así un sistema de generadores de U + W es,

{(1, 1, 1), (0, 0, 1), (1, 0, -1), (0, 1, -1)}, de donde sacamos la base:

(

1 1 1010

001

1−1−1

) → (

1 1 1000

0−11

1−2−1

) → (

1 0 2000

100

−11−3

) → (

1 0 0000

100

010

),

de modo que una base de U + W es {(1, 0, 0), (0, 1, 0), (0, 0, 1)} y U + W es todo el espacio

afín de dimensión 3.

10.12 Fórmula de las dimensiones de los subespacios

En esta corta subsubsección veremos la relación que hay entre la dimensión de la suma de

dos subespacios y entre la dimensión de cada uno de los subespacios y que está relacionada

175

con la dimensión de la intersección de esos mismos subespacios., Veamos eso más claro en

la siguiente proposición.

PROPOSICIÓN (Fórmula de las dimensiones de los subespacios): Sean U y W dos subespacios

de un espacio vectorial de dimensión finita, entonces se cumple:

dim U + dim W = dim (U ∩ W) + dim (U + W) o también,

dim (U + W) = dim U + dim W - dim (U ∩ W).

DEMOSTRACIÓN: Llamemos r = dim U, s = dim W, m = dim (U ∩ W). Tenemos que probar que

dim (U + W) = r + s – m. La idea es partir de una base de dim (U ∩ W), digamos 𝑣1, 𝑣2, …, 𝑣𝑚,

que es un conjunto de vectores linealmente independiente, y ampliarlo a una base de U

añadiendo los vectores 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟 y también a una base de W mediante los vectores

𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠, consideremos el conjunto de r + s – m vectores siguiente:

{𝑣1, 𝑣2, …, 𝑣𝑚, 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟, 𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠} y probemos que es una base de U +

W. Es un sistema de generadores de U + W, pues es la unión de las bases de U y W ahora

demostremos que es linealmente independiente.

Sea una combinación lineal de los vectores igual a 0:

0 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟 + 𝑐𝑚+1•𝑤𝑚+1 + … + 𝑐𝑠•𝑤𝑠, entonces,

V = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟 = -𝑐𝑚+1•𝑤𝑚+1 - … - 𝑐𝑠•𝑤𝑠 es un vector

que está en U ∩ W y se escribe de forma única en sus bases:

v = 𝑑1•𝑣1 + 𝑑2•𝑣2 + … + 𝑑𝑚•𝑣𝑚 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟, por

tanto, 0 = (𝑎1 − 𝑑1)•𝑣1 + … + (𝑎𝑚 − 𝑑𝑚)•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟, lo que nos da, por

ser 𝑣1, 𝑣2, …, 𝑣𝑚, 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟, linealmente independientes, 𝑏𝑖 = 0 con i = m + 1, …, r,

por lo que ahora queda 0 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑐𝑚+1•𝑤𝑚+1 + … + 𝑐𝑠•𝑤𝑠 y como

𝑣1, 𝑣2, …, 𝑣𝑚, 𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠 son linealmente independientes se tiene que

𝑎𝑖 = 0 con i = 1, …, m y 𝑐𝑗 = 0, con j = m + 1, …, s. □

Esta fórmula de las dimensiones muchas veces nos ayuda a calcular las dimensiones de los

espacios suma e intersección e incluso en muchos casos quizás nos evite calcularlos.

EJEMPLO: En el ejemplo de la subsubsección 10.10 de la intersección de subespacios vimos

que dim (U ∩ W) = 1, puesto que dim U = dim W = 2 se tiene que dim (U + W) = 2 + 2 – 1 = 3,

por lo que este espacio suma era todo el espacio afín de dimensión 3 como vimos en el

ejemplo de la subsubsección anterior.

10.13 Suma directa de subespacios y subespacios complementarios o suplementarios

Bajo ciertas circunstancias, a la suma de subespacios se le llama suma directa. Veamos en

una definición cuando esto ocurre.

DEFINICIÓN 1 (Suma directa de subespacios vectoriales): Una suma de subespacios es suma

directa y el operador de la suma se cambia por el símbolo ⊕, cuando para cada vector su

176

expresión, como suma de vectores de cada uno de los subespacios sumandos, es única, es

decir, cada vector del espacio vectorial V se expresa como suma de un único vector sumando

de cada subespacio sumando.

DEFINICIÓN 2 (Familia de subespacios independientes para el caso de una familia finita de

subespacios): Dada una familia finita de subespacios 𝑈1, 𝑈2, …, 𝑈𝑚, decimos que es

independiente si 𝑈𝑖 ∩(∑ 𝑈𝑗𝑗≠𝑖 ) = 0, para todo i = 1, 2, …, m. Para el caso de dos subespacios,

son independientes si 𝑈1 ∩ 𝑈2 = 0.

Veamos la relación que hay entre las sumas directas de subespacios y las familias

independientes.

PROPOSICIÓN: La suma de una familia finita de subespacios 𝑈1 + 𝑈2 + … + 𝑈𝑚 es directa si y

solo si, la familia es una familia independiente de subespacios.

DEMOSTRACIÓN: Supongamos primero que cada vector es expresión única de una suma de

sumandos de cada subespacio sumando, es decir que la suma es directa, entonces

supongamos que un vector v es de 𝑈𝑖 ∩(∑ 𝑈𝑗𝑗≠𝑖 ). Podemos escribir v = v + 0 + … + 0, donde

v es de 𝑈𝑖 y los ceros son de 𝑈𝑗 con j distinto de i, pero también podemos escribir que v = 0 +

v = 0 + ∑ 𝑣𝑗𝑗≠𝑖 , con 𝑣𝑗 de 𝑈𝑗 y 0 de 𝑈𝑖, lo cual contradice la unicidad de la expresión de cada

vector en una suma directa, salvo que todos los vectores sean 0. Ahora supongamos que la

familia es independiente y tenemos dos expresiones de un mimo vector:

v = 𝑢1 + … + 𝑢𝑚 = 𝑣1 + … + 𝑣𝑚, entonces esto implica lo siguiente:

𝑢1 - 𝑣1 = (𝑣2 - 𝑢2) + … + (𝑣𝑚 - 𝑢𝑚), que es un vector en 𝑈1y en ∑ 𝑈𝑗𝑗≠1 y,

como es una familia independiente, tiene que ser 𝑢1 - 𝑣1 = 0, es decir, 𝑢1 = 𝑣1. Y este

razonamiento se puede hacer para cada índice i, por lo que implica que la suma es directa. □

DEFINICIÓN 3 (Espacios suplementarios o complementarios uno con respecto al otro): Dado

un subespacio vectorial U de V, llamaremos subespacio complementario o suplementario de

U a cualquier subespacio, W, que verifique que V = U ⊕ W.

Como vemos en el siguiente ejemplo, dado un subespacio U de V hay muchos subespacios,

w, suplementarios distintos…

EJEMPLO 1: Vayamos al espacio afín de dimensión 2, V, y sigamos con la costumbre de

identificar un vector suyo, (𝑥𝑦), con su punto de coordenadas (x, y). Entonces, W = {(

𝑥0)} es

un subespacio de V = {(𝑥𝑦)} y como vemos en la imagen, W es el eje de las abcisas, el eje de

las x.

177

Pero pensará el lector que el subespacio suplementario correspondiente a W es U = {(0𝑦)},

puesto que U ∩ W = 0 y podemos escribir todo vector de V, v = (𝑥𝑦), como v = (

𝑥0) + (

0𝑦),

como se ve en la imagen siguiente:

Pero podríamos haber escogido como U = {(𝑦𝑦)}, pues entonces seguiríamos teniendo U ∩ W

= 0 y cualquier v de V, podría escribirse como v = (𝑥𝑦) = (

𝑥 − 𝑦0

) + (𝑦𝑦) y de nuevo tendríamos

que V = W ⊕ U, puesto que el primer sumando en v pertenece a W.

De hecho, podríamos escoger cualquier línea que pase por el origen distinta de W y nos

habría servido como espacio suplementario de W. Por lo tanto, ocurre que para cualquier

subespacio de V hay muchos subespacios complementarios o suplementarios.

178

En el caso de espacios vectoriales de dimensión finita es fácil calcular un subespacio

complementario de uno dado. Se trata de aplicar el teorema de extensión de la base.

Supongamos que U tiene la base siguiente: {𝑢1, 𝑢2, …, 𝑢𝑟}, entonces existen vectores {𝑣𝑟+1,

…, 𝑣𝑛}, de tal manera que {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, …, 𝑣𝑛}, es una base de V. Entonces, L(𝑣𝑟+1, …,

𝑣𝑛) es un subespacio complementario de U puesto que la suma de ambos es V, ya que la

suma de sus bases es un sistema de generadores para V y su intersección es cero ya que la

unión de sus bases es un sistema linealmente independiente. Esto es un método muy general

para obtener un espacio suplementario de otro, en la subsubsección siguiente veremos otros

métodos más prácticos.

EMEPLO: En el ejemplo de la subsubsección 10.8 consideramos el subespacio U de 𝑃3(ℝ)

siguiente:

U = {p(x) de 𝑃3(ℝ) | p(x) = p(-x)} que tenía la base siguiente: 𝐵𝑈 = {1, 𝑥2}.

Para ampliar esta base tenemos muchas opciones, una de ellas puede ser elegir los vectores

{x, 𝑥3} y obtenemos que I = L(x, 𝑥3), es un subespacio suplementario de U, pero podríamos

haber elegido más opciones, por ejemplo la siguiente es igualmente válida: W = L(1 + x, 𝑥2 +

𝑥3) y W es otro espacio suplementario de U.

10.14 Más sobre espacios suplementarios I

Vamos a demostrar un teorema muy importante respecto a los espacios suplementarios, el

cual nos va a permitir definir el concepto de codimensión de un subespacio que es un

concepto muy importante en el algebra lineal, y luego veremos cómo hallar la base de un

subespacio suplementario con respecto a otro cuando tenemos una base de un primer

subespacio, por medio de dos métodos. Veamos ahora ese teorema tan importante.

TEOREMA (De las bases de dos espacios suplementarios de uno con respecto al otro):

1) Sean U y W dos subespacios de V. Sea 𝐵1 una base de U y 𝐵2 una base de W. Si B = 𝐵1 ∪

𝐵2 es una base de V, entonces, V = U⊕W y Uy W son espacios suplementarios uno con

respecto al otro.

2) Supongamos que V = U⊕W, entonces, para bases 𝐵′1 de U y 𝐵′2 de W, se cumple que B’

= 𝐵′1 ∪ 𝐵′2 es una base de V.

3) Cualquier subespacio U de V tiene un complementario y todos los espacios

complementarios de U tienen la misma dimensión.

DEMOSTRACIÓN: 1) Sea 𝐵1 = {𝑢1, 𝑢2, …} y 𝐵2 = {𝑤1, 𝑤2, …}. Supongamos que B es una base

de V, por tanto es un sistema generador de V, entonces, podemos escribir cualquier vector v

de la siguiente forma: v = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , sea u = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 y w = ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , entonces,

v = u + w, con u de U y w de W, por lo que V = U + W. Ahora, supongamos que v es de U∩W,

entonces, v = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 para algunos 𝑐𝑖 y también v = ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , para algunos 𝑑𝑗, entonces,

v – v = 0 = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 + ∑ (−𝑑𝑗) • 𝑤𝑗𝑗 , pero como B es linealmente independiente 𝑐𝑖 = 0 = 𝑑𝑗,

para todo i y j y v = 0, de modo que V = U⊕W. 2) Supongamos que V = U⊕W y sean 𝐵′1 =

{𝑢′1, 𝑢′2, …}, y 𝐵′2 = {𝑤′1, 𝑤′2, …} bases de U y W respectivamente. Entonces V = U + W, de

modo que todo v de V se puede escribir como v = u + w con u de U y w de W. Pero 𝐵′1 es un

sistema generador de U y 𝐵′2 de W, por tanto, u = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 y w = ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 , para algunos

179

𝑐𝑖 y 𝑑𝑗, de modo que v = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 y B’ es un sistema generador de V. Si 0 =

∑ 𝑐𝑖 • 𝑢′𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 , entonces, sea v = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 = ∑ (−𝑑𝑗) • 𝑤′𝑗𝑗 , por lo que v es de U y

de W al mismo tiempo, pero como U∩W = 0, entonces, v = 0 y 𝑐𝑖 = 𝑑𝑗 = 0 para todo i y j, por

ser 𝐵′1 y 𝐵′2 linealmente independientes, por lo que B’ es linealmente independiente y por

tanto, base de V. 3) U es un espacio vectorial y por tanto, tiene una base, sea 𝐵1,

extendámosla hasta B una base de V y escribamos B = 𝐵1 ∪ 𝐵2, de modo que L(𝐵2) = W es un

subespacio suplementario de U. Sea m la dimensión de U, entonces, toda base de V tiene n

elementos y toda base de U tiene m elementos. Así, por tanto, 𝐵1 tiene m elementos y B

tiene n elementos, de modo que cualquier base 𝐵2 que hallemos de W tiene n – m elementos.

□

Podemos aplicar el teorema anterior de la siguiente manera: Supongamos que tenemos una

base B, de V y si la descomponemos en dos conjuntos disjuntos Si B = 𝐵1 ∪ 𝐵2, entonces si U

= L(𝐵1) y W = L(𝐵2), se tiene que V = U⊕W. Y si reemplazamos 𝐵1 por otra base 𝐵′1 de U y

𝐵2 por otra base, 𝐵′2 de W, entonces podemos reemplazar B por B’ y B’ será otra base de V.

También el teorema anterior nos da pie a dar la siguiente definición importante:

DEFINICIÓN (Codimensión de un subespacio): Sea U un subespacio de otro espacio V, la

codimensión de U, simbolizado por codim𝑉 U, es la dimensión de cualquier subespacio

complementario o suplementario de U, que será siempre la misma sin importar el subespacio

complementario que escojamos, como hemos visto en el anterior teorema.

Observemos que la suma de la dimensión de U y la codimensión de U es la dimensión de V.

10.15 Mas sobre espacios suplementarios II

En esta subsubsección vamos a ver 3 métodos para hallar las bases de los subespacios y de

sus suplementarios.

LEMA 1: Sea U un subespacio de 𝐹𝑚, con un sistema de generadores S = {𝑣1, …, 𝑣𝑛 }. Sea {𝑓1,

…, 𝑓𝑟 } un sistema de generadores de 𝐹𝑚, en concreto, puede ser la base standard de 𝐹𝑚,

{𝑒1, …, 𝑒𝑚 }, entonces sea A una de las matrices siguientes: A = (𝑣1| …| 𝑣𝑛|𝑓1| …| 𝑓𝑟) o A =

(𝑣1| …| 𝑣𝑛|𝑒1| …| 𝑒𝑚). Sea A’ una matriz escalonada (por filas) de A. Entonces, las columnas

de A entre 1 y n que tienen pivotes en A’, son una base de U y las columnas entre n + 1 y n +

m de A que tengan pivotes en A’, son una base del complemento de U en V.

DEMOSTRACIÓN: Como hemos supuesto {𝑓1, …, 𝑓𝑟 } es un sistema generador de 𝐹𝑚 y {𝑒1, …,

𝑒𝑚}, por supuesto, es un sistema generador de 𝐹𝑚, entonces las columnas de A por supuesto

generan 𝐹𝑚.

Ahora pensemos que la matriz 𝐴0 = (𝑣1| …| 𝑣𝑛) es la matriz cuyas columnas son las n primeras

empezando por la izquierda, de A y observemos que, si A’ es una matriz escalonada (por

filas), también lo es 𝐴′0. Ahora aplicamos la proposición 3 de la subsubsección 10.5 dos veces.

Aplicándolo en 𝐴′0, nos da que las primeras n columnas de A, con pivotes en A’ son una base

de U y que las columnas con pivotes en toda A’ son una base de V, por tanto, las columnas

que no son de las primeras n de A con pivotes en A’ son una base del suplementario de U. □

180

EJEMPLO 1: Encontremos una base para un subespacio U de 𝐹4, y también para su

subespacio complementario, donde U es el subespacio con el sistema de generadores

siguiente:

(

1237

), (

41−20

), (

−1011

), (

54−17

), (

0146

).

Debemos formar la matriz siguiente:

(

1 4 −1 5 0 1 0 0 02 1 0 4 1 0 1 0 0

3 −2 1 −1 4 0 0 1 07 0 1 7 6 0 0 0 1

) que queda reducida así,

(

1 4 −1 5 0 1 0 0 00 −7 2 −6 1 −2 1 0 00 0 0 −4 2 1 −2 1 00 0 0 0 0 0 −2 −1 1

),

Que tiene pivotes en las columnas 1, 2, 4 y 7, por lo que una base para U será:

(

1237

), (

41−20

) y (

54−17

) y una base para el complemento será (

0100

).

Vemos que este método está muy bien, pero hay que formar una matriz muy grande, un

método mejor es el siguiente:

LEMA 2: Sea U un subespacio de (𝐹𝑛)𝑡 con un sistema de generadores S = {𝑣1, …, 𝑣𝑚 }. Sea

A la matriz siguiente: A = (

𝑣1⋮𝑣𝑚) , si A’ es una matriz escalonada por filas obtenida de A,

entonces, las filas distintas de 0 de A’ forman una base de U. Si los pivotes de A’ se encuentran

en las columnas 𝑗1, …, 𝑗𝑘, entonces, {(𝑒𝑗)𝑡 | 𝑗 ≠ 𝑗1, …, 𝑗𝑘}, es una base del suplemento de U

en V.

DEMOSTRACIÓN: Por la proposición 2 punto 3 de la subsubsección 10.5, las filas distintas de

0 de A’ son una base de U. Ahora formemos la matriz A’’ que consiste en que sus primeras

filas son las de A’ distintas de 0 y sus últimas filas son las (𝑒𝑗)𝑡, con j distinto de 𝑗1, …, 𝑗𝑘. Por

tanto, esta matriz tiene pivotes en cada columna y ninguna fila suya es 0, y salvo que sus filas

están desordenadas, está en una forma escalonada (por filas) y por tanto, sus filas son una

base de (𝐹𝑛)𝑡 por lo que las filas que fueron añadidas a A’ son una base del suplementario

de U. □

EJEMPLO 2: Encuentra una base para el subespacio U de (𝐹6)𝑡, cuyo sistema de generadores

son los siguientes vectores: {(1, 2, 1, 3, 6, -1), (2, 4, 5, 4, 7, -3), (0, 0, -6, 4, 9, 3), (3, 6, 6, 7, 9,

0)} y para su subespacio suplementario.

181

Entonces A = (

1 2 1 3 6 −12 4 5 4 7 −30 0 −6 4 9 33 6 6 7 9 0

) y una matriz escalonada suya es

A’ = (

1 2 1 3 6 −10 0 3 −2 −5 −10 0 0 0 −1 10 0 0 0 0 0

), por lo que U tiene la siguiente base:

{(1, 2, 1, 3, 6, -1), (0, 0, 3, -2, -5, -1), (0, 0, 0, 0, -1, 1)} y un suplementario de U tiene la siguiente

base: {(𝑒2)𝑡, (𝑒4)

𝑡, (𝑒6)𝑡} = {(0, 1, 0, 0, 0, 0), (0, 0, 0, 1, 0, 0), (0, 0, 0, 0, 0, 1)}.

Otra forma obvia de obtener una base para un subespacio y su suplementario de 𝐹𝑚 es

utilizar el método anterior, pero para vectores de 𝐹𝑚, es decir columnas, si primeramente

los transformamos en vectores filas, es decir en vectores de (𝐹𝑚)𝑡 y obtenida la respuesta,

volvemos a transformarlos en vectores columna. Veamos el siguiente ejemplo:

EJEMPLO 3: Sean los vectores columnas del ejemplo 1 anterior. Entonces formamos la matriz

A siguiente:

A =

(

1 2 3 74−150

1041

−21−14

0176)

que tiene la siguiente forma escalonada A’ =

(

1 2 3 70000

1000

4100

6100)

.

Por lo que U tiene la siguiente base:

{(

1237

), (

0146

) y (

0011

)} y un complementario suyo: {(

0001

)}.

10.16 Subespacios afines

En esta subsubsección vamos a introducir la noción de subespacios afines. Los subespacios

afines son una generalización de los espacios vectoriales y subespacios vectoriales, es decir,

todo subespacio vectorial es subespacio afín, pero no todo subespacio afín es un subespacio

vectorial. Sin más definimos esta noción.

DEFINICIÓN 1 (Subespacios afines): Sea U un subespacio vectorial del espacio vectorial V. Sea

t un vector de V, entonces A = t + U = {t + u | u es de U} es un subespacio afín paralelo a U.

Por tanto, vemos que un subespacio afín es el resultado de desplazar un subespacio vectorial

mediante un vector t cualquiera. Si el vector t = 0, A resultaría ser simplemente U, de modo

que los subespacios vectoriales también son subespacios afines, en concreto, paralelos a sí

mismos.

En esta subsubsección vamos a demostrar de forma algebraica, es decir con generalidad que

si U y W son distintos subespacios vectoriales no importa que vectores t y r escojamos, que

siempre A = t + U y B = r + W serán distintos, pero puede ocurrir que si fijamos U para distintos

182

t y r, A = t + U y B = r + U, pueden ser el mismo subespacio Afín, aunque lo más probable es

que sean distintos.

Ahora es conveniente dar una nueva definición de paralelismo que generaliza la anterior.

DEFINICIÓN 2 (Subespacios afines paralelos): Dos espacios afines son paralelos sin son los dos

paralelos al mismo subespacio U.

Remarquemos que, según esta definición, todo espacio afín es paralelo así mismo.

Ahora veamos un poco cual va a ser nuestro discurso y demos una serie de intuiciones

geométricas para los resultados que vamos a demostrar después. Veremos en que consisten

los subespacios afines al considerarlos en el espacio afín de dimensión 2, donde identificamos

como siempre, los vectores de este espacio con los puntos extremos de los vectores.

Ya vimos que U = {(𝑥0)} es un subespacio de V = {(

𝑥𝑦)}, identificando estos vectores con los

puntos de sus extremos, U se trata del eje x en el plano afín de 2 dimensiones y está dado

por la condición o ecuación y = 0. Ahora escojamos un vector arbitrario de V 𝑡0 = (𝑎0𝑏0),

entonces, 𝐴𝑡0 = 𝑡0 + U = {(𝑥 + 𝑎0𝑏0

)} es un subespacio afín paralelo a U. Este subespacio afín

se trata de una recta horizontal de ecuación y = 𝑏0. Y notemos que, si consideramos todos

los espacios afines de este tipo, paralelos a U, vemos que llenan todo el plano.

En particular notemos dos hechos importantísimos:

1) Dos líneas (subespacios afines) son diferentes, sin puntos en común o, si tienen un punto

en común, se trata de la misma línea.

2) Cada punto del plano está contenido en una de estas líneas y solo en una.

Por tanto, vemos, como lo hicimos en la primera subsección de este libro, que el conjunto de

estas líneas constituye una partición del plano y, por tanto, hay una relación de equivalencia

que forma esta partición.

Ahora demostraremos una serie de lemas y corolarios que nos introducirán en las

propiedades de los espacios afines en general.

LEMA 1: Sea U un subespacio de un espacio vectorial V, sea t un elemento de V y sea A = t +

U, entonces se tiene:

1) Si t es de U, entonces A = t + U = 0 + U = U.

183

2) Si t no es de U, entonces, A y U son disjuntos.

DEMOSTRACIÓN: 1) Supongamos que t pertenece a U, entonces, todo elemento de A es de

la forma t + u para algún u de U y como U es un subespacio, este elemento es de U, por lo

que A ⊆ U. Por otro lado, sea u, un elemento de U, entonces, U = t + (u – t) = t + w con w de

U, por ser U un subespacio, por lo que U⊆ A, de modo que A = U.

2) Probaremos el contrarecíproco: si A y U no son disjuntos, entonces t es de U. Supongamos

que A y U no son disjuntos. Por tanto, hay un vector v tal que v es de U ∩ A, en particular, v

es de A, por lo que v = t + u, para algún u de U. Pero v es también de U, por lo que t = v – u es

de U. □

LEMA 2: Sea U un subespacio vectorial de un espacio vectorial V, entonces, para dos

elementos t y r de V, t + (r + U) es un subespacio afín y t + (r + U) = (t + r) + U.

DEMOSTRACIÓN: (t + r) + U es un subespacio afín y todo elemento de él es de la forma (t + r)

+ u con u un elemento de U, pero (t + r) + u = t + (r + u), de modo que t + (r + U) es un

subespacio afín y todo elemento de él pertenece a (t + r) + U. De la misma forma se puede

demostrar que todo elemento de t + (r + U) es un elemento de (t + r) + U, por lo que ambos

subespacios afines coinciden. □

COROLARIO 1: Sean A = t + U y B = r + U dos subespacios afines paralelos a U, entonces, A y

B o son el mismo subespacio o son disjuntos. Es más:

1) Si t – r es elemento de U o, equivalentemente, r – t es de U, entonces A = B.

2) Si t – r no es elemento de U o, equivalentemente r – t no es de U entonces, A y B son

disjuntos.

DEMOSTRACIÓN: 1) Supongamos que r – t es de U. Sea r – t = u, de modo que r = t + u, con u

de U, de modo que usando el lema 1 y 2 de esta subsubsección, r + U = (t + u) + U = t + (u +

U) = t + U.

2) Probaremos el contrarecíproco. Supongamos que A y B no son disjuntos, y sea v un vector

de A ∩ B, entonces v = t + u, para algún u de U y v = r + w para algún w de U, de modo que v

= t + u = r + w, por lo que t – r = w – u, por lo que t – r pertenece a U. □

COROLARIO 2: Sea U un subespacio vectorial de un espacio vectorial V. Entonces, todo v de

V pertenece, y únicamente pertenece, a un subespacio afín paralelo a U.

DEMOSTRACIÓN: Puesto que v = v + 0, v está en el subespacio afín v + U. Del corolario anterior

sabemos que v no pertenece a otro subespacio afín pues todos son disjuntos. □

Con estos Corolarios vemos de forma general, que los subespacios afines paralelos a un

subespacio vectorial U cualquiera de un espacio vectorial V cualquiera, forman una partición

de V de modo que hay una relación de equivalencia que los define. Esta relación de

equivalencia será discutida en la próxima subsubsección y allí veremos que no solo forman

una partición de V los subespacios afines paralelos a U, sino que podemos definir una

estructura de espacio vectorial considerando a cada subespacio afín como elemento de un

espacio vectorial (el espacio vectorial cociente de V con respecto a U) con unas operaciones

de suma en el espacio vectorial (cociente) y producto por un escalar muy naturales.

184

En la siguiente definición queremos generalizar la noción de dimensión para los subespacios

afines. Es una forma muy fácil de hacerlo.

DEFINICIÓN 3 (Dimensión de un subespacio afín): Sea A un subespacio afín de V paralelo a un

subespacio vectorial U de V, entonces la dimensión de A es la dimensión de U y la notamos

como dim A = dim U.

LEMA 3: Sea B = {𝑢1, 𝑢2, …} una base de U, un subespacio vectorial de V, entonces, todo

vector de A = t + U, una vez elegido t, puede expresarse de manera única como t + ∑𝑐𝑖 • 𝑢𝑖,

para sus correspondientes escalares 𝑐𝑖.

DEMOSTRACIÓN: Dada la base B todo u de U se expresa de manera única como u = ∑𝑐𝑖 • 𝑢𝑖,

para unos únicos 𝑐𝑖, de modo que todo v de A es de la forma t + u = v = t + ∑𝑐𝑖 • 𝑢𝑖, con t y

𝑐𝑖 únicos. □

Con el siguiente lema dejamos la discusión de los subespacios afines hasta la próxima

subsubsección.

LEMA 4: Sean A un subespacio afín de un espacio vectorial V, paralelo a U y sea B un

subespacio afín de V paralelo a W. Si U es distinto de W, entonces A es distinto de B.

DEMOSTRACIÓN: Demostraremos el contrarecíproco: Si A = B, entonces U = W. Puesto que

A es paralelo a U hay un t de V tal que A = t + U y, de la misma manera, B = r + W. De modo

que A = B, es decir, t + U = r + W. En particular t + 0 = r + w con w de W, de modo que t – r =

w de W y de la misma manera llegamos a la conclusión de que r – t = u con u de U, pero u =

-w, por lo que ambos, son elementos de U y de W. Pero usando el lema 2 de esta

subsubsección y el hecho de que w es de U tenemos lo siguiente:

A = B, t + U = r + W, lo que es equivalente a que -r + (t + U) = -r + (r + W) lo que es

equivalente a que, (-r + t) + U = 0 + W, es decir, w + U = 0 + W, lo que implica que U = W. □

10.17 Espacio vectorial cociente

DEFINICIÓN 1 (relación binaria en V con respecto a un subespacio U que da lugar al espacio

vectorial cociente V/U): Sea V un espacio vectorial sobre un cuerpo F y sea U un subespacio

vectorial de V, definamos la relación binaria siguiente que dará lugar al espacio vectorial

cociente que definiremos más adelante. La relación binaria está definida en V de la siguiente

manera: v ~ w se relaciona y es equivalente a que v – w es de U.

Veamos que esta relación tan sencilla es en realidad una relación de equivalencia.

PROPOSICIÓN 1: La relación antes definida es una relación de equivalencia, es decir verifica

las siguientes propiedades:

1) Reflexiva: u ~ u, para todo u de V

2) Simétrica: u ~ w implica que w ~ u, para todo u, w de V

3) Transitiva: u ~ w y w ~ z, implica que u ~ z, para todo u, w, z de V.

DEMOSTRACIÓN: Para cualquier vector v de V, v – v = 0 que pertenece a U, por lo que se

cumple la relación u ~ u. Supongamos que u ~ w, por lo que u – w es un vector de U, pero

185

su inverso también es de U, es decir w – u, es de U, por lo que w ~ u y tenemos la propiedad

simétrica. Por último, si u ~ w y w ~ z, se cumple que u – w es de U y w – z también, por lo

que u – w + w – z es un vector de U, por lo que u – z que es ese vector es de U, y esto implica

que u ~ z. □

DEFINICIÓN 2 (Clase de equivalencia del espacio cociente): Consideremos para cada vector v

de V, el conjunto de todos los vectores de V relacionados con él en la relación binaria anterior,

es decir, cada conjunto {w de V | u ~ w} estos conjuntos ya sabemos que se llaman clases de

equivalencia con un vector de ellos u como representante de ella.

Ya estudiamos las relaciones de equivalencia y vimos que definen una partición de V en la

que cada vector de V pertenece a una y solo una de estas clases de equivalencia y por tanto

que dos clases de estas distintas no tienen ningún elemento en común.

Ahora veremos que cada clase de equivalencia definida por esta relación binaria de

equivalencia es en realidad un subespacio afín, por lo que relacionamos esta subsubsección

con la anterior.

PROPOSICIÓN 2: Las clases de equivalencia de un vector v de V con respecto a la relación

binaria anterior, son de la siguiente forma, por lo que se trata de un subespacio afín:

v + U = {v +u | con u de U}.

DEMOSTRACIÓN: Si v ~ w, entonces v – w = u de U, por lo que w = v – u, por lo que, todo

vector que se relacione con v, está en v + U de modo que la clase de equivalencia de v

contiene a v + U. Por otra parte, v – (v + u) = -u, que es un vector de U, por lo que v y v + u

están relacionados, de modo que v + U contiene a la clase de v. □

DEFINICIÓN 3 (Conjunto cociente de V con respecto a U, V/U): Al conjunto de todas las clases

de equivalencia de la relación de equivalencia anterior considerados cada uno como un

elemento se le llama Conjunto Cociente de V con respecto a U y se le nota como V/U.

Observemos que la clase de equivalencia del vector 0 es el subespacio U, es decir 0 + U = u +

U, para todo u de U. Y también hay que decir que cada vector del subespacio afín es un

representante de cada clase de equivalencia y que ninguno es mejor que otro, todos son

igualmente representantes de su clase.

Ahora veremos que si definimos unas operaciones muy naturales entre cada clase de

equivalencia podemos formar un espacio vectorial que llamaremos espacio vectorial

cociente.

PROPOSICIÓN 3: El conjunto V/U tiene estructura de F-espacio vectorial con las siguientes

operaciones:

Suma: (v + U) + (w + U) = (v +w) + U

Producto por escalares: r•(v + U) = (r•v) + U.

DEMOSTRACIÓN: En cada una de las operaciones hay que demostrar que la clase de

equivalencia resultado no depende de los representantes escogidos. Veámoslo primero para

la suma: Sean v + U = v’ + U y w +U = w’ + U. La suma de las primeras clases de equivalencia

186

nos da (v + w) + U, mientras que la suma de las segundas nos da (v’ + w’) + U. Para ver si se

trata de la misma clase de equivalencia hacemos (v + w) – (v’ + w’) = (v – v’) + (w – w’) que es

la suma de dos vectores de u, por lo que los vectores v + w y v’ + w’ están relacionados y en

la misma clase de equivalencia.

Por otra parte, si v + U = v’ + U, entonces v – v’ es un vector de U que puesto que U es cerrado

para el producto por escalares, a•(v – v’) = a•v - a•v’, pertenece a U por lo que a•(v + U) =

(a•v) + U = (a•v’) + U = a•(v’ + U).

Todas las propiedades que definen un espacio vectorial como axiomas se cumplen puesto

que los representantes en sus operaciones las cumplen. Es rutinario demostrarlo, por lo que

se deja al lector. □

Ahora veamos como obtener una base para el espacio cociente. Este importante tema está

contenido en la siguiente proposición.

PROPOSICIÓN 4 (Base y dimensión para el espacio vectorial cociente de V/U): Sea V un

espacio vectorial de dimensión finita n, y U un subespacio vectorial suyo de dimensión r,

entonces, dim (V/U) = n – r y una base del espacio vectorial cociente viene dada por las clases

del siguiente conjunto: {𝑣𝑟+1 + 𝑈, 𝑣𝑟+2 + 𝑈, …, 𝑣𝑛 +𝑈}, donde {𝑣𝑟+1, 𝑣𝑟+2, …, 𝑣𝑛} son los

vectores que amplían la base de U hasta una base de V.

DEMOSTRACIÓN: Supongamos que {𝑢1, 𝑢2, …, 𝑢𝑟} es una base de U y consideramos vectores

{𝑣𝑟+1, 𝑣𝑟+2, …, 𝑣𝑛} tales que amplían la base de U hasta V, es decir, {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, 𝑣𝑟+2,

…, 𝑣𝑛} es una base de V. Por tanto, cualquier vector v, de V, puede escribirse en función de

esta base: v = 𝑥1●𝑢1 + … + 𝑥𝑟●𝑢𝑟 + 𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛. Ahora, puesto que cualquier

vector tiene su clase de equivalencia y las clases de equivalencia son un espacio vectorial

podemos escribir: v + U = (𝑥1●𝑢1 + … + 𝑥𝑟●𝑢𝑟 + 𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛) + U, pero tenemos

que 𝑢𝑖 + U = 0 + U y v + U = (𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛) + U = 𝑥𝑟+1●(𝑣𝑟+1 + U) + … + 𝑥𝑛●(𝑣𝑛 +

U) y por tanto, {𝑣𝑟+1 +𝑈, 𝑣𝑟+2 + 𝑈, …, 𝑣𝑛 + 𝑈} es un sistema generador de V/U. Pero

veremos que es un sistema linealmente independiente pues si 0 + U = 𝑎𝑟+1●(𝑣𝑟+1 + U) + … +

𝑎𝑛●(𝑣𝑛 + U) = (𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛) + U y puesto que las clases son iguales tenemos que

𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 es un elemento del subespacio U de modo que se puede poner en

función de la base de U 𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 = 𝑏1●𝑢1 + … + 𝑏𝑟●𝑢𝑟, de modo que se tiene

-𝑏1●𝑢1 - … - 𝑏𝑟●𝑢𝑟 + 𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 = 0, pero como {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, 𝑣𝑟+2, …,

𝑣𝑛} es una base de V esto implica que 𝑎𝑟+1 = … = 𝑎𝑛 = 0, pues al ser base el anterior conjunto,

es linealmente independiente. □

Esta demostración también nos da un método para calcular las coordenadas de una clase de

equivalencia con respecto a una base de V/U. Veamos el siguiente ejemplo.

EJEMPLO: En el espacio afín de 3 dimensiones consideremos el subespacio de ecuaciones

cartesianas siguiente: U: x + y + z = 0. Estudiemos si en los dos casos las parejas de vectores

determinan la misma clase de equivalencia.

1) v = (1, 4, 5), w = (2, 4, 1). Vemos que v - w = (-1, 0, 4) que no está en U, por tanto

pertenecen a dos clases de equivalencia diferentes.

2) v = (1, 4, 5), w = (2, 3, 5). Vemos que v – w = (-1, 1, 0) que si pertenece a U, por lo que v

+ U = w + U.

187

Ahora calculemos una base de V/U, para ello empecemos con una base de U, {(1, -1, 0), (1,

0, -1)}, por ejemplo y ampliémosla hasta una base de V, con el vector (0, 0, 1), por ejemplo.

Entonces, la clase de este vector es una base para V/U, β = {(0, 0, 1) + U}. Ahora calculemos

las coordenadas de una clase de equivalencia con respecto a esta base de V/U, por ejemplo,

de la clase (1, 2, 1) + U. Para ello escribimos en primer lugar, (1, 2, 1) en función de la base

de V, (1, 2, 1) = -2●(1, -1, 0) + 3●(1, 0, -1) + 4●(0, 0, 1). Ahora, considerando la clase de

equivalencia a la que pertenece este vector, podemos escribir, (1, 2, 1) + U = -2●(0 + U) +

3●(0 + U) + 4●((0, 0, 1) + U) = 4●((0, 0, 1) + U), con lo que (1, 2, 1) + U = (4)𝛽.

188

Sección IV Aplicaciones lineales

189

11 Aplicaciones lineales. Definición, ejemplos, propiedades y conceptos esenciales

11.1 Definición y Ejemplos

En el álgebra lineal, no solo se estudian los espacios vectoriales y sus subespacios, también

se estudian las funciones entre ellos. Pero no vamos a estudiar las funciones generales que

se definen entre los espacios vectoriales considerados como conjuntos, si no que vamos a

estudiar unas funciones que son especiales para los espacios vectoriales pues conservan las

operaciones definidas en ese espacio. ¿Qué significa que estas funciones conservan las

operaciones del espacio vectorial? Llamemos f a una de estas funciones entre dos espacios

vectoriales V y V’, los dos, sobre el cuerpo F, v y w dos vectores del espacio vectorial V y c un

escalar del cuerpo F, entonces, las funciones que nos interesan conservan las operaciones

definidas en los vectores de V es decir que f(v + w) = f(v) + f(w) y f(c•v) = c•f(v). Sin más,

vamos a definir los conceptos que hemos tratado aquí, pues las funciones que nos interesan

se llaman funciones o aplicaciones lineales.

DEFINICIÓN (Aplicaciones lineales u homomorfismos entre espacios vectoriales): Dados dos

espacios vectoriales V y V’ sobre el mismo cuerpo F, una función entre V y V’ o aplicación, se

llama aplicación lineal y homomorfismo entre los espacios vectoriales V y V’, si verifica las

siguientes dos propiedades:

1) f(u + v) = f(u) + f(v), para todo u, v de V

2) f(c•v) = c•f(v), para todo c de F y todo v de V.

Veamos en el siguiente lema una propiedad definitoria de las aplicaciones lineales:

LEMA 1: Una función f: V → V’ es una transformación lineal si y solamente si, para

cualesquiera vectores 𝑣1, …, 𝑣𝑘 en V y cualesquiera escalares 𝑐1, …, 𝑐𝑘, f(𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘)

= 𝑐1•f(𝑣1) + … + 𝑐𝑘•f(𝑣𝑘) (*).

DEMOSTRACIÓN: Si f es lineal se tiene que aplicando sucesivamente la propiedad 1) de la

definición de aplicaciones lineales f(𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘) = f(𝑐1•𝑣1) + … + f(𝑐𝑘•𝑣𝑘) = aplicando

la propiedad 2) de las aplicaciones lineales, f(𝑐1•𝑣1) + … + f(𝑐𝑘•𝑣𝑘) = 𝑐1•f(𝑣1) + … + 𝑐𝑘•f(𝑣𝑘).

Por otra parte, si se cumple la propiedad (*), estableciendo k = 2 y 𝑐1 = 1 = 𝑐2 se tiene que

f(1•𝑣1 + 1•𝑣2) = f(𝑣1 + 𝑣2) = f(𝑣1) + f(𝑣2), y aplicando k = 1, f(𝑐1•𝑣1) = 𝑐1•f(𝑣1). □

Veamos otras 2 propiedades de las transformaciones lineales.

LEMA 2: Sea f: V → V’ una transformación lineal, entonces se verifica lo siguiente, por lo que

son condiciones necesarias para que una aplicación sea lineal, aunque no son suficientes:

1) f(0) = 0.

2) F(-u) = -f(u).

DEMOSTRACIÓN: 1) f(0) = f(0•0) = 0•f(0) = 0. 2) f(-u) = f((-1) •u) = (-1) •f(u) = -f(u). □

190

Ahora veamos una serie de ejemplos de aplicaciones lineales. Primero veamos como las

propiedades anteriores son necesarias, pero no suficientes.

EJEMPLO 1: a) La aplicación f: ℝ2 → ℝ2, dada por f(x, y) = (x + 1, y), no es lineal puesto que

f(0, 0) = (1, 0) que es diferente de (0, 0).

b) La aplicación g: ℝ2 → ℝ2 dada por g(x, y) = (y, 𝑥2), no es lineal, pues para el escalar c = 2 y

el vector u = (1, 0) se tiene que g(c•u) = g(2•(1, 0) = g(2, 0) = (0, 4), mientras que c•g(u) =

2•g(1, 0) = 2•(0, 1) = (0, 2).

c) Sin embargo, g(0, 0) = 0, a pesar de que no es lineal.

EJEMPLO 2: La aplicación f: ℝ2 → ℝ2, dada por f(x, y) = (y, x) es lineal. En efecto, consideremos

dos vectores cualesquiera de ℝ2: u = (x, y), v = (x’, y’), entonces, f(u + v) = f((x, y) + (x’, y’)) =

f(x + x’, y + y’) = (y + y’, x + x’), mientras que f(u) + f(v) = f(x, y) + f(x’, y’) = (y, x) + (y’, x’) = (y +

y’, x + x’). De la misma manera, para todo c de F = ℝ se tiene que, f(c●u) = f(c●(x, y)) = f(c●x,

c●y) = (c●y, c●x) y por otro lado c●f(u) = c●f(x, y) = c●(y, x) = (c●y, c●x).

EJEMPLO 3: La aplicación Φ: 𝔐𝑚×𝑛(F) → 𝔐𝑛×𝑚(F) que lleva cada matriz A a su traspuesta

𝐴𝑡 es también lineal, puesto que según vimos (𝐴 + 𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡 y (c • A)𝑡 = c•𝐴𝑡, para todo

c de F.

EJEMPLO 4: a) Sea V = 𝐹𝑛 y V’ = 𝐹𝑚, se A una matriz m×n con componentes en F, entonces

T = 𝑇𝐴: V → V’ dada por 𝑇𝐴(v) = A●v es lineal, comprobémoslo: A●(u + v) = A●u + A●v, según

la propiedad distributiva del producto de matrices, y A●(c●v) = c●A●v según las propiedades

del producto de matrices que ya vimos y hay que considerar aquí que el símbolo del producto

●, tiene dos significados diferentes, uno para el producto de un escalar por un vector y otro

para el producto de matrices.

b) Sea V = P(F) el espacio vectorial de los polinomios de una variable con coeficientes en F,

entonces, T: V → V’ dado por T(p(x)) = p(x)●q(x) es una transformación lineal, de hecho, si

q(x) tiene grado r, entonces, para cualquier d, T: 𝑃𝑑(F) → 𝑃𝑑+𝑟(F), dado por T(p(x)) = p(x)●q(x)

es una transformación lineal.

c) Sea V un espacio vectorial y sean 𝑣1, …, 𝑣𝑘, k elementos fijos de V, entonces T: 𝐹𝑘 → V,

dado por T([

𝑎1⋮𝑎𝑘]) = 𝑎1●𝑣1 + … + 𝑎𝑘●𝑣𝑘 es también una aplicación lineal. d) Ya vimos en un

ejemplo que para cualquier conjunto X, V = {f: X → F} tiene la estructura de un espacio

vectorial. Entonces, 𝐸𝑥1: V → F dado por 𝐸𝑥1(f) = f(𝑥1), el operador evaluación, es una

aplicación lineal. De forma similar, también es una aplicación lineal la siguiente, dados 𝑥1, …,

𝑥𝑘 fijos de X definimos E: V → 𝐹𝑘, dado por E(f) = [

𝑓(𝑥1)𝑓(𝑥2)⋮

𝑓(𝑥𝑘)

]. e) De igual manera podemos

considerar a los polinomios con coeficientes en F como funciones de F a F, de la siguiente

manera, sea p(x) = 𝑎0 + 𝑎1●x + …+ 𝑎𝑛●𝑥𝑛, para cualquier c de F tenemos que p(c) = 𝑎0 + 𝑎1●c

+ …+ 𝑎𝑛●𝑐𝑛, de modo que al igual que la parte

191

d) de este ejemplo tenemos que 𝐸𝑐: P(F) → F, dado por 𝐸𝑐(p(x)) = p(c) es lineal. También por

supuesto, para cualquier d mayor o igual que 0 se define 𝐸𝑐: 𝑃𝑑(F) → F, dado por 𝐸𝑐(p(x)) =

p(c). También si consideramos 𝑐1, …, 𝑐𝑘 fijos de F, tenemos que E: P(F) → 𝐹𝑘 o, E: 𝑃𝑑(F) → 𝐹𝑘

dado por E(p(x)) = [

𝑝(𝑐1)𝑝(𝑐2)⋮

𝑝(𝑐𝑘)

], son aplicaciones lineales. f) Tenemos 𝑆𝑑𝑛: 𝐹∞ → 𝐹∞ y 𝑆𝑑𝑛: 𝐹∞∞

→ 𝐹∞∞ y también, 𝑆𝑢𝑝: 𝐹∞ → 𝐹∞ y 𝑆𝑢𝑝: 𝐹∞∞ → 𝐹∞∞, definidos como 𝑆𝑑𝑛 ([

𝑎1𝑎2𝑎3⋮

]) = [

0𝑎1𝑎2⋮

] y

𝑆𝑢𝑝 ([

𝑎1𝑎2𝑎3⋮

]) = [

𝑎2𝑎3𝑎4⋮

]. A 𝑆𝑑𝑛 se le llama desplazamiento hacia abajo y a 𝑆𝑢𝑝 desplazamiento

hacia arriba y son aplicaciones lineales. También se definen análogamente, 𝑆𝑟𝑡: (𝐹∞)𝑡 →

(𝐹∞)𝑡 y 𝑆𝑟𝑡: (𝐹∞∞)𝑡 → (𝐹∞∞)𝑡 y también, 𝑆𝑙𝑡: (𝐹

∞)𝑡 → (𝐹∞)𝑡 y 𝑆𝑙𝑡:(𝐹∞∞)𝑡 → (𝐹∞∞)𝑡, los

desplazamientos a la derecha y a la izquierda respectivamente.

EJEMPLO 5: Sea V un espacio vectorial. Entonces tenemos la aplicación lineal identidad,

definida por I: V → V, I(v) = v, para todo v de V.

EJEMPLO 6: Por último, otra aplicación lineal importante es la aplicación lineal 0, definida

entre dos espacios vectoriales V y V’, de la siguiente manera: 0: V → V’, 0(v) = 0 de V’, para

todo v de V.

11.2 El espacio vectorial de las aplicaciones lineales entre dos espacios vectoriales V y V’

DEFINICIÓN 1 (Espacio vectorial de las aplicaciones lineales entre dos espacios V y V’ sobre el

mismo cuerpo, F, y operaciones de suma y producto por un escalar del cuerpo en este

espacio): Dados dos F-espacios vectoriales V y V’ denotamos por 𝐻𝑜𝑚𝐹(V, V’) al conjunto de

todas las aplicaciones lineales de V en V’. En este conjunto podemos definir las operaciones

de suma y producto por un escalar de la siguiente forma: Dadas f y g de 𝐻𝑜𝑚𝐹(V, V’) y dado

c de F se definen nuevas aplicaciones así:

f + g: V → V’; (f + g)(u) = f(u) + g(u)

c•f: V → V’; (c•f)(u) = c•f(u).

Ahora veremos que estas aplicaciones así definidas son aplicaciones lineales.

PROPOSICIÓN 1 (Las operaciones definidas en 𝐻𝑜𝑚𝐹(V, V’) producen aplicaciones lineales):

Dadas dos aplicaciones lineales f, g de V en V’ F-espacios vectoriales estos, para un cuerpo F,

y dado c de F, f + g y c•f según definidas anteriormente, son aplicaciones lineales.

DEMOSTRACIÓN: 1) (f + g)(a•u + b•v) = f(a•u + b•v) + g(a•u + b•v) = f(a•u) + f(b•v) + g(a•u)

+ g(b•v) = a•f(u) + b•f(v) + a•g(u) + b•g(v) = a•(f(u) + g(u)) + b•(f(v) + g(v)) = a•(f + g)(u) + b•(f

+ g)(v), por lo que f + g es lineal.

192

2) (c•f)(a•u + b•v) = c•f(a•u + b•v) = c•f(a•u) + c•f(b•v) = a•(c•f(u)) + b•(c•f(v)) = a•((c•f)(u))

+ b•((c•f(v)). □

De hecho, ya hemos dejado ver en la definición de suma y producto por un escalar en

𝐻𝑜𝑚𝐹(V, V’) que éste es un espacio vectorial con las operaciones definidas de suma y

producto por un escalar de las funciones de éste. Demostrémoslo.

PROPOSICIÓN 2 (𝐻𝑜𝑚𝐹(V, V’) es un espacio vectorial): HomF(V, V’) con las operaciones que

hemos definido en el de suma y producto por un escalar es un espacio vectorial.

DEMOSTRACIÓN: 1) f + (g + h) = (f + g) + h: (f + (g + h))(u) = f(u) + g(u) + h(u) = ((f + g) + h)(u).

2) f + g = g + f: (f + g)(u) = f(u) + g(u) = g(u) + f(u) = (g + f)(u). 3) f + 0 = 0 + f = f: (f +0)(u) = f(u)

+ 0(u) = f(u) = 0(u) + f(u) = (0 + f)(u). 4) f+ (-f) = (-f) + f = 0: (f + (-f))(u) = f(u) – f(u) = 0 = 0(u) =

-f(u) + f(u) = ((-f) + f)(u). 5) a•(f + g) = a•f + a•g: (a•(f + g))(u) =a•(f(u) + g(u)) = a•f(u) + a•g(u)

= (a•f)(u) + (a•g)(u). 6) (a + b) •f = a•f + b•f: ((a + b)•f)(u) = (a + b)•f(u) = a•f(u) + b•f(u) =

(a•f)(u) +(b•f)(u). 7) a•(b•f) = (a•b) •f: (a•(b•f))(u) = a•b•f(u) = ((a•b) •f)(u). 8) 1•f = f: (1•f)(u)

= 1•f(u) = f(u) = (f)(u). □

Ahora nos fijaremos en la operación de composición de aplicaciones lineales, nos hacemos

la siguiente pregunta: la composición de dos aplicaciones lineales ¿es lineal?

Afortunadamente la repuesta es que sí, como vemos en la siguiente proposición.

PROPOSICIÓN 3 (La composición de dos aplicaciones lineales es lineal): Dadas dos

aplicaciones lineales f: V → V’, g: V’ → V’’, su composición, g○f: V → V’’ es lineal.

DEMOSTRACIÓN: (g○f)( a•u + b•v) = g(f(a•u + b•v)) = g(a•f(u) + b•f(v)) = a•g(f(u)) + b•g(f(v))

= a•(g○f)(u) + b• (g○f)(v). □

La siguiente proposición de propiedades de la composición es muy importante como

veremos enseguida.

PROPOSICIÓN 4: Sean f, g, h aplicaciones lineales y c un escalar de F, en las circunstancias en

las que todas las operaciones que proponemos tienen sentido, se cumple lo siguiente:

1) h○(g○f) = (h○g)○f.

2) (h + g)○f = h○f + g○f

3) (c•g) ○f = c•(g○f)

4) h○(g + f) = h○g + h○f

5) g○(c•f) = c•(g○f)

6) 0○f = 0; f○0 = 0

7) I○f = f○I = f.

DEMOSTRACIÓN: 1) Es la propiedad de la asociatividad general de la composición de

funciones. 2) ((h + g)○f)(u) = (h + g)(f(u)) = h(f(u)) + g(f(u)) = (h○f)(u) + (g○f)(u). 3) ((c•g) ○f)(u)

= (c•g)(f(u)) = c•(g(f(u))) = (c•(g○f))(u). 4) (h○(g + f))(u) = h(g(u) + f(u)) = (h○g)(u) + (h○f)(u). 5)

(g○(c•f))(u) = g(c•f(u)) = c•g(f(u)) = c•(g○f)(u). 6) (0○f)(u) = 0(f(u)) = 0 = f(0(u)) = (f○0)(u) =

0(u). 7) (I○f)(u) = I(f(u)) = f(u) = f(I(u)) = (f○I)(u) = f(u). □

193

DEFINICIÓN 2 (Endomorfismos y el F-Algebra de los endomorfismos de un espacio vectorial

V): Una aplicación lineal de un espacio vectorial V en sí mismo se llama Endomorfismo y al

conjunto de estos se los denomina como 𝐸𝑛𝑑𝐹(V) = HomF(V, V). En este conjunto podemos

definir una operación interna que no es ni más ni menos, que la composición de

endomorfismos. Según la proposición 4 anterior tenemos las siguientes propiedades para la

operación interna en EndF(V):

Asociativa: h○(g○f) = (h○g)○f,

Elemento neutro: I○f = f○I = f,

Distributivas respecto de la suma: (h + g)○f = h○f + g○f

h○(g + f) = h○g + h○f

Compatibilidad: (c•g) ○f = g○(c•f) = c•(g○f).

Por lo que EndF(V) con las operaciones de suma, producto por un escalar y composición de

funciones, constituyen un F- Álgebra.

Podemos seguir indagando en las consecuencias de la proposición 4 anterior.

COROLARIO: 1) Sea HomF(V, V’) el espacio vectorial de las aplicaciones lineales de V en V’,

sea t: V’ → V’’ una aplicación lineal fija, entonces, P: HomF(V, V’) → HomF(V, V’’) definida por

P(f) = t○f es una transformación lineal. 2) Sea HomF(V’, V’’) el espacio vectorial de las

aplicaciones lineales de V’ en V’’, y sea s: V → V’ una aplicación lineal fija, entonces, Q:

HomF(V’, V’’) → HomF(V, V’’) definida por Q(f) = f○s es una aplicación lineal.

DEMOSTRACIÓN: La proposición 1) no es más que los apartados 2 y 3 de la proposición

general 4 y la proposición 2) de este corolario no son más que los apartados 4 y 5 de la

proposición general 4 anterior. □

11.3 Isomorfismos I, Preparando el terreno

En estas subsubsecciones relacionadas con el concepto de isomorfismo vamos a preparar la

base y después culminar con un resultado muy importante del álgebra lineal, que entre

espacios vectoriales de dimensión finita todos los subespacios con la misma dimensión son

equivalentes, lo cuál se expresa en forma matemática rigurosa, estableciendo que son

isomorfos. Pero hasta llegar a este resultado vamos a tener que poner primero una base,

por lo que en esta subsubsección no vamos a detallar si quiera el concepto de isomorfismo.

Empecemos con un resultado general importante.

TEOREMA: Sea V un espacio vectorial y sea B = {𝑣1, 𝑣2, …} una base de V. Sea V’ otro espacio

vectorial y sean {𝑤1, 𝑤2, …} vectores arbitrarios de V’, entonces, existe una única aplicación

lineal T: V → V’ que cumple que T(𝑣𝑖) = 𝑤𝑖. Esta aplicación lineal está dada por la siguiente

fórmula: T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖.

194

DEMOSTRACIÓN: Es evidente que esta expresión define una función para cada v de V, pues

ya que B es una base de V cualquier vector v se expresa de forma única como v = ∑𝑐𝑖•𝑣𝑖, por

tanto, T(v) = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 define un valor de V’ para dada vector v de V. Además esta

función es lineal como se puede comprobar de la siguiente manera: T(v + u) = T(∑𝑐𝑖•𝑣𝑖 +

∑𝑏𝑖•𝑣𝑖) = T(∑(𝑐𝑖 + 𝑏𝑖)•𝑣𝑖) = ∑(𝑐𝑖 + 𝑏𝑖)•𝑤𝑖 = ∑(𝑐𝑖 • 𝑤𝑖) + ∑(𝑏𝑖 • 𝑤𝑖) = T(v) + T(u). Y T(r•v) =

T(𝑟 • ∑ 𝑐𝑖•𝑣𝑖) = T(∑𝑟 • 𝑐𝑖•𝑣𝑖) = ∑𝑟 • 𝑐𝑖•𝑤𝑖 = 𝑟 • ∑ 𝑐𝑖•𝑤𝑖 = 𝑟 • 𝑇(𝑣), para cualquier escalar r

de F.

Ahora veremos que esta aplicación es única, pues si T’(𝑣𝑖) = 𝑤𝑖, para otra aplicación T’,

entonces, pero linealidad T’(v) = T’(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•T’(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = T(v), para todo v, por

lo que T = T’. □

Repasemos lo que este teorema nos dice, primero, los vectores 𝑤𝑖 son arbitrarios, por lo que

no hay ninguna restricción en los valores de T, de modo que tenemos una forma genérica de

definir aplicaciones lineales, simplemente escojamos los valores a los que queremos que nos

lleve la aplicación T. Segundo, dice que si dos aplicaciones coinciden en los valores de una

base, entonces son la misma aplicación, por lo que nos da los medios de comprobar si dos

aplicaciones son iguales, simplemente miremos los valores a los que nos lleva una base.

A partir de aquí seguiremos estableciendo la base para definir y ver las propiedades de los

isomorfismos entre espacios vectoriales.

LEMA 1: Sea T una aplicación lineal, T: V → V’, las siguientes proposiciones son equivalentes:

1) El único vector v con T(v) = 0 es el vector v = 0.

2) Si w es un vector de V’ y u y v son vectores de V entonces T(u) = T(v) = w, implica que u =

v.

DEMOSTRACIÓN: Ya sabemos que T(0) = 0, pero si 2) se cumple para todo vector de V,

también para v = 0, de modo que 2) implica que T(v) = 0 implica que v = 0.

Por otra parte supongamos que 2) es falso para algún vector w de V’, de modo que hay

vectores u y v distintos con T(u) = T(v) = w, por lo que T(u – v) = w – w = 0 y puesto que u y w

son distintos, esto implica que hay un vector z = u – v, con T(z) = 0, por lo que 1) es falsa. □

DEFINICIÓN: Sea T una aplicación lineal, T: V → V’:

1) T es inyectiva o uno-uno si siempre que T(u) = T(v) implica que u = v.

2) T es suprayectiva o sobre si para todo w de V’ existe un vector v tal que T(v) = w.

A las aplicaciones lineales inyectivas también se las llama monomorfismos y a las

suprayectivas, epimorfismos, y una aplicación lineal que tiene inversa se llama invertible o

isomorfismo.

COROLARIO 1: Sea T una aplicación lineal, T: V → V’, T es inyectiva si y solo si, el único vector

v tal que T(v) = 0 es v = 0.

195

DEMOSTRACIÓN: Es el lema 1, por lo que ya está todo demostrado. □

Antes de seguir, veamos un ejemplo de isomorfismo.

EJEMPLO: Sea T: 𝐹𝑛 → (𝐹𝑛)𝑡 dado por T([

𝑎1⋮𝑎𝑛]) = (𝑎1, …, 𝑎𝑛), esta aplicación tiene la

siguiente inversa: 𝑇−1: (𝐹𝑛)𝑡 → 𝐹𝑛, dada por 𝑇−1(𝑎1, …, 𝑎𝑛) = [

𝑎1⋮𝑎𝑛], tanto a T como a 𝑇−1

se les llama traspuesta y escribimos T(v) = 𝑣𝑇 y también, 𝑇−1 (v) = 𝑣𝑇.

Ahora veamos como responder a las siguientes preguntas: dada una aplicación lineal T: V →

V’, ¿es T inyectiva?, ¿es T suprayectiva? Tenemos que notar que estas dos preguntas son

independientes y diferentes una de otra, pero en el siguiente lema veremos la forma de

responder a las dos.

LEMA 2: Sea una aplicación lineal T: V → V’ y B = {𝑣1, 𝑣2, … } una base de V. Sea 𝑤1 = T(𝑣1) y

𝑤2 = T(𝑣2), etc. y sea C = {𝑤1, 𝑤2, …} un subconjunto de V’, entonces:

1) T es inyectiva si y solo si, C es un conjunto linealmente independiente.

2) T es suprayectiva si y solo si, C es un sistema generador de V’.

DEMOSTRACIÓN: 1) Usaremos el Corolario 1 para ver que T es inyectiva. Primero,

supongamos que T es inyectiva, consideremos la combinación lineal 0 = ∑𝑐𝑖•𝑤𝑖 = ∑𝑐𝑖•T(𝑣𝑖)

= T(∑𝑐𝑖•𝑣𝑖), pero T es inyectiva y por tanto, ∑𝑐𝑖•𝑣𝑖 = 0, pero {𝑣1, 𝑣2, … } es una base, por lo

que 𝑐𝑖 = 0, para todo i, por lo que C = {𝑤1, 𝑤2, …} es linealmente independiente. Por otra

parte, supongamos que T no es inyectiva, por lo que hay un v distinto de 0, tal que T(v) = 0.

Puesto que B es una base tenemos que v = ∑𝑐𝑖•𝑣𝑖, con no todos los 𝑐𝑖 = 0, pero entonces,

T(v) = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = 0 con no todos los 𝑐𝑖 = 0, por lo que C no es linealmente

independiente.

2) Primero supongamos que T es suprayectiva. Sea w un vector de V’ entonces, existe un

vector v de V, tal que T(v) = w, puesto que B es una base tenemos que v = ∑𝑐𝑖•𝑣𝑖, por lo que

w = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•T(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖, por lo que C es un sistema de generadores de V’. Por

otra parte, supongamos que T no es suprayectiva, de modo que hay un vector w de V’ para

el que no hay v tal que w = T(v). Supongamos que C es un sistema de generadores de V’, por

lo que w = ∑𝑐𝑖•𝑤𝑖, para algunos 𝑐𝑖, pero si ponemos v = ∑𝑐𝑖•𝑣𝑖, entonces T(v) = T(∑𝑐𝑖•𝑣𝑖)

= ∑𝑐𝑖•T(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = w lo cual supisimos que era imposible. □

Terminamos esta subsubsección con un corolario de este lema, muy interesante.

COROLARIO 2: 1) Sea V un espacio vectorial de dimensión finita, n, y sea V’ de dimensión m

con m > n, o m infinito, entonces no existe una transformación lineal T tal que T: V → V’ y

pueda ser suprayectiva.

196

2) Sea V un espacio vectorial de dimensión finita n y sea V’ un espacio vectorial con dimensión

m < n o con n dimensión infinita, entonces no existe una posible transformación lineal T: V

→ V’, tal que T sea inyectiva.

DEMOSTRACIÓN: 1) Por el lema anterior, si T pudiera ser suprayectiva tendríamos que C sería

un sistema generador de V’, pero, este conjunto tiene n vectores con n < m, lo cual, es

imposible.

2) Por el lema anterior también, si T fuera inyectiva tendríamos un sistema linealmente

independiente, C, con n > m vectores en V’, lo cual es imposible, como sabemos. □

11.4 Isomorfismos II

Esta subsubsección vamos a demostrar el importante teorema de que dos espacios

vectoriales con la misma dimensión (si ésta es finita) son isomorfos, pero antes tenemos que

hacer un cierto trabajo.

Primero veamos que en general, si f: X → Y es una función entre dos conjuntos cualesquiera

(no necesariamente espacios vectoriales), se dice que f es invertible si existe otra función g:

Y → X tales que g○f: X → X y f○g: Y → Y, son respectivamente las funciones identidad, es decir:

g(f(x)) = x, para todo x de X, y f(g(y)) = y, para todo y de Y. En este caso, decimos que g es la

inversa de f y escribimos 𝑓−1 = g y decimos que f es la inversa de g y escribimos 𝑔−1 = f.

También deberíamos saber que una función general f: X → Y, entre dos conjuntos X e Y, es

invertible si es inyectiva y suprayectiva. Si ocurre esto g = 𝑓−1 es la función definida de la

siguiente manera: como f es inyectiva y suprayectiva para todo y de Y, existe exactamente

un x de X, tal que f(x) = y, entonces, g(y) = x.

Por tanto, supongamos que T: V → V’, es una transformación lineal que es inyectiva y

suprayectiva, entonces considerada como función general tiene una inversa 𝑇−1: V’ → V,

pero podría ser que no fuera ésta la inversa de T como aplicación lineal. Pero veamos que

esto si ocurre siempre, que la inversa de T es una aplicación lineal como demostramos en el

siguiente lema.

LEMA 1: Sea T: V → V’, una transformación lineal que es inyectiva y suprayectiva, entonces,

la función 𝑇−1: V’ → V, resulta que es una aplicación lineal.

DEMOSTRACIÓN: 1) Supongamos que 𝑇−1(w) = u y 𝑇−1(z) = v, entonces, T(u) = w y T(v) = z,

como T es lineal se tiene que T(u + v) = T(u) + T(v) = w + z, por lo que 𝑇−1 (w + z) = u + v =

𝑇−1(w) + 𝑇−1(z). 2) Supongamos que 𝑇−1(w) = u, por lo que T(u) = w, como T es lineal

tenemos que T(c•u) = c•T(u) = c•w, por lo que 𝑇−1(c•w) = c•u = c•𝑇−1(w). □

COROLARIO 1: Sea T: V → V’, una transformación lineal que es inyectiva y suprayectiva,

entonces, es un isomorfismo.

197

DEMOSTRACIÓN: T tiene una función inversa por ser inyectiva y suprayectiva, pero hemos

visto en el lema anterior, que ésta es lineal, por lo tanto, T es un isomorfismo. □

Ahora veremos muchas propiedades de los isomorfismos, como el lema que sigue, que nos

da un medio de saber si una aplicación lineal es un isomorfismo mirando las bases a las que

afecta como aplicación lineal.

COROLARIO 2: Sea T: V → V’, una transformación lineal sea B una base de V y C el conjunto

de V’ al que lleva a B, entonces, T es un isomorfismo, si y solo si C es una base de V’.

DEMOSTRACIÓN: C es una base de V’ si y solo si, es linealmente independiente y un sistema

generador de V’, por lo que por el lema 2 de la subsubsección anterior esto ocurre si y solo

si, T es inyectiva y suprayectiva, lo que ocurre si y solo si, T es un isomorfismo, según el lema

1 anterior. □

LEMA 2: Sea T: V → V’ un isomorfismo, sea B = {𝑣1, 𝑣2, … } una base de V, sea 𝑤𝑖 = T(𝑣𝑖) y sea

C = {𝑤1, 𝑤2, … } una base de V’, entonces, sea S: V’ → V dada por S(𝑤𝑖) = 𝑣𝑖, ocurre que S =

𝑇−1.

DEMOSTRACIÓN: Como T es un isomorfismo, según el lema anterior, C es una base de V’.

Puesto que C es una base de V’, sabemos por el teorema 1 de la sección anterior que S es

única y está bien definida.

Notemos que para cualquier 𝑣𝑖 de B, (S○T)(𝑣𝑖) = S(T(𝑣𝑖)) = S(𝑤𝑖) = 𝑣𝑖, por lo que, S○T es la

identidad en una base de V, por lo que S○T = I. También, ocurre que (T○S)(𝑤𝑖) = T(𝑣𝑖) = 𝑤𝑖,

por lo que por el mismo argumento, T○S = I y concluimos que S = 𝑇−1. □

LEMA 3: Sean S y T isomorfismos, entonces, S○T es un isomorfismo y (S ○ T)−1 = 𝑇−1○𝑆−1.

DEMOSTRACIÓN: S○T es un isomorfismo si y solo si, es invertible, solo tenemos que computar

que la fórmula (S ○ T)−1 = 𝑇−1○𝑆−1 es correcta para demostrar este lema. Entonces

tenemos: (S○T)○(𝑇−1○𝑆−1) = S○I○𝑆−1 = I y (𝑇−1○𝑆−1)○ (S○T) = 𝑇−1○I○T = I. □

Y ya con una definición, podemos demostrar el teorema principal de esta subsubsección, que

para nosotros tendrá la forma de corolario.

DEFINICIÓN (Espacios vectoriales isomorfos): Sean V y V’ dos espacios vectoriales, si existe

un isomorfismo T: V → V’, decimos que V y V’ son isomorfos.

COROLARIO 3: 1) Sean V y V’ espacios vectoriales de dimensión finita n, entonces, V y V’ son

isomorfos. En particular, todo espacio vectorial de dimensión finita n, es isomorfo a 𝐹𝑛.

2) Sean V y V’ espacios vectoriales, con V de dimensión finita n y V’ de dimensión finita m

distinta de n o de dimensión infinita, entonces, V y V’ no son isomorfos.

DEMOSTRACIÓN: 1) Sean B = {𝑣1, 𝑣2, …,𝑣𝑛} y C = {𝑤1, 𝑤2, …,𝑤𝑛} bases de V y V’

respectivamente, entonces, por el teorema 1 de la subsubsección anterior existe una

198

aplicación lineal bien definida T: V → V’, con T(𝑣𝑖) = 𝑤𝑖, entonces, por el corolario 2 anterior

de esta subsubsección, T es un isomorfismo. 2) Sea B = {𝑣1, 𝑣2, …,𝑣𝑛} una base de V, si

existiera un isomorfismo T: V → V’, entonces, C = {T(𝑣1), T(𝑣2), …, T(𝑣𝑛)} sería una base de V’

y por tanto V’ tendría dimensión n, lo cual es contradictorio con las hipótesis. □

Para terminar, haremos algunas aclaraciones. Este corolario nos simplifica mucho la vida y es

muy importante, puesto que nos reduce una cuestión difícil de responder, como saber si dos

espacios son isomorfos, con lo cual deberíamos proporcionar una función T que fuera un

isomorfismo entre ellos al hecho de contar los vectores de la base, cosa que en caso finito es

muy sencillo. Si las dos bases de los dos espacios tienen el mismo número de vectores

sabremos que son isomorfos, si tienen distinto número sabremos que no lo son.

Cuando existe un isomorfismo entre dos espacios vectoriales V y V’ se produce una

correspondencia biunívoca entre cada par de elementos de V y V’ dada por w = T(v) o por v

= 𝑇−1(w). Pero no siempre existe una correspondencia canónica o natural que sea la más

apropiada, sino que cada isomorfismo nos produce una correspondencia diferente y ninguna

es mejor que la otra de forma general.

Por último, dados dos espacios isomorfos, se entiende que tienen una estructura

equivalente, por lo que podemos transformar problemas de uno en problemas del otro que

pueden ser más fáciles de tratar como ocurre con los espacios de dimensión finita n que son

isomorfos a 𝐹𝑛 que nos permiten tratar problemas de estos como computaciones en éste,

que pueden ser fáciles utilizando matrices, por ejemplo.

Pero si hay un isomorfismo entre dos espacios vectoriales se tiene que entender que son

semejantes, pero no el mismo espacio.

11.5 Isomorfismos III. Muestra de varios Isomorfismos

En las dos últimas subsubsecciones hemos discutido teóricamente los isomorfismos, pero no

hemos visto ningún ejemplo de isomorfismo o como se realiza este. Hay varias maneras de

realizar un isomorfismo, en esta subsección veremos dos maneras de definir un isomorfismo,

pero antes discutamos un poco el conjunto de isomorfismos de un espacio vectorial que es

un conjunto muy importante y veremos que tiene estructura de grupo.

DEFINICIÓN (Automorfismos de V): Un isomorfismo de un espacio vectorial V en sí mismo,

también se llama autormorfismo y el conjunto de estos se nota como Aut(V). Ya hemos visto

que la composición de isomorfismos es isomorfismo, de modo que la composición de

automorfismos también es un automorfismo, por lo que el conjunto (Aut(V), ○), con respecto

a la composición de aplicaciones, que hemos visto que los isomorfismos tienen inversa, tiene

estructura de grupo, este grupo importante se denomina el grupo lineal de V.

Sin más, vamos a ver unos ejemplos concretos de isomorfismos.

EJEMPLO: Vamos a definir el isomorfismo clásico entre un espacio vectorial V cualquiera de

dimensión n, y 𝐹𝑛. Vemos que hay muchos isomorfismos de este tipo, uno para cada base

que escojamos de V, por lo que empezaremos escogiendo una base de V. Por tanto, fijada

199

una base B de V definimos la correspondencia entre un vector u de V y sus coordenadas en

la base B, que es una matriz (𝑎1, 𝑎2, … , 𝑎𝑛)𝑇 de 𝐹𝑛 y que notaremos como 𝐶𝑜𝑟𝑑𝐵(u). Este es

nuestro isomorfismo, para demostrar que lo es seguiremos 4 pasos:

1) Demostraremos que es una aplicación inyectiva.

2) Demostraremos que es suprayectiva.

3) Demostraremos que 𝐶𝑜𝑟𝑑𝐵(u + v) = 𝐶𝑜𝑟𝑑𝐵(u) + 𝐶𝑜𝑟𝑑𝐵(v), de modo que tendremos la

primera parte de la condición de aplicación lineal.

4) Demostraremos que 𝐶𝑜𝑟𝑑𝐵(c•u) = c•𝐶𝑜𝑟𝑑𝐵(u) de modo que demostraremos así la

linealidad de la aplicación 𝐶𝑜𝑟𝑑𝐵.

Pero en realidad todo esto ya lo hemos demostrado anteriormente. Veamos, ya sabemos

que, para cada vector de V, fijada una base le corresponden unívocamente las coordenadas,

de modo que si u = v es evidente que 𝐶𝑜𝑟𝑑𝐵(u) = 𝐶𝑜𝑟𝑑𝐵(v), por lo que la correspondencia

𝐶𝑜𝑟𝑑𝐵 es inyectiva, también que para toda matriz coordenada de 𝐹𝑛, fijada una base,

corresponde un vector u de V: no es mas que la expresión de ese vector como combinación

lineal de los vectores de la base con los coeficientes de u correspondientes a 𝐶𝑜𝑟𝑑𝐵(u), por

lo que 𝐶𝑜𝑟𝑑𝐵 es suprayectiva. También sabemos que las coordenadas de la suma de dos

vectores u + v, es la suma de las coordenadas de estos, es decir, 𝐶𝑜𝑟𝑑𝐵(u + v) = 𝐶𝑜𝑟𝑑𝐵(u) +

𝐶𝑜𝑟𝑑𝐵(v), por lo que tenemos la propiedad 3) y también sabemos que 𝐶𝑜𝑟𝑑𝐵(c•u) =

c•𝐶𝑜𝑟𝑑𝐵(u), por lo que hemos establecido el isomorfismo que pretendíamos y también

notemos que para cada base hay un isomorfismo correspondiente.

Ahora demostraremos un teorema importante de los isomorfismos entre los subespacios

suplementarios de un subespacio dentro de un espacio vectorial V.

TEOREMA: Sea V un espacio vectorial y U un subespacio suyo, entonces, todos los

subespacios W complementarios de U en V son isomorfos y por tanto tienen la misma

dimensión. Más aun, todo complemento W de U es isomorfo al espacio vectorial cociente

V/U.

DEMOSTRACIÓN: La segunda proposición implica la primera, pero como ejercicio vamos a

demostrar independientemente las dos proposiciones.

Sean W, W’ dos complementos de U, de modo que V = U⨁W = U⨁W’. Sea w de W, entonces,

w = u + w’, para un único u de U y w’ de W’. Definamos T: W → W’ como T(w) = w’.

Verifiquemos que es una transformación lineal.

a) Si 𝑤1 = 𝑢1 + 𝑤′1 y 𝑤2 = 𝑢2 + 𝑤′2, entonces, 𝑤1 + 𝑤2 = (𝑢1 + 𝑢2) + (𝑤′1 + 𝑤′2), de modo

que T(𝑤1 + 𝑤2) = 𝑤′1 + 𝑤′2 = T(𝑤1) + T(𝑤2).

b) También, si w = u + w’, entonces, c•w = c•u + c•w’, de modo que T(c•w) = c•T(w).

De forma similar w’= u + w, con w’ de W’ y u, w únicos de U y W y definimos, S: W’ → W, por

S(w’) = w y por la misma lógica, vemos que S es lineal.

Queremos probar que S = 𝑇−1 y por tanto, que T es un isomorfismo y por tanto, que W y W’

son isomorfos.

Sea 𝑤0 de W. Si 𝑤0 = 𝑢0 + 𝑤′0, entonces, 𝑤′0 = T(𝑤0) = 𝑤0 - 𝑢0, si 𝑤′0 = 𝑢′0 + 𝑤0, entonces,

𝑤0 = S(𝑤′0) = 𝑤′0 - 𝑢0, pero 𝑤0 - 𝑢0 = 𝑤′0 = 𝑢′0 + 𝑤0 da 𝑢′0 = -𝑢0. Entonces, S(T(𝑤0)) = S(𝑤′0)

200

= 𝑤′0 - 𝑢′0 = 𝑤′0 + 𝑢0 = 𝑤0, por lo que, S○T = I y de forma similar, T○S = I. Esto prueba la

primera proposición ahora demostremos la segunda.

Sea W un complemento de U. Sea �̅�: W → V/U, definida por �̅�(w) = w + U. Queremos

demostrar que �̅� es un isomorfismo, para ello demostraremos primero que es lineal y luego

que es inyectiva y suprayectiva.

a) �̅�(𝑤1 + 𝑤2) = (𝑤1 + 𝑤2) + U, mientras que �̅�(𝑤1) = 𝑤1 + U y �̅�(𝑤2) = 𝑤2 + U, pero por la

definición de la suma en el espacio cociente, 𝑤1 + U + 𝑤2 + U = (𝑤1 + 𝑤2) + U, por lo que

�̅�(𝑤1 + 𝑤2) = �̅�(𝑤1) + �̅�(𝑤2).

b) �̅�(c•w) = c•w + U,pero, c•�̅�(w) = c•(w + U) = c•w + U, de la misma manera, por lo que

�̅�(c•w) = c•�̅�(w).

Veamos que �̅� es inyectiva, lo cual queremos ver que �̅�(w) = 0 implica que w = 0. Supongamos

que �̅�(w) = 0, lo que significa que �̅�(w) = w + U = 0 + U = U, pero W ⋂ U = 0, de modo que w

= 0.

Ahora veamos que es suprayectiva. Sea v + U un elemento arbitrario de V/U, entonces,

tenemos que demostrar que v = w + u = �̅�(w), para algún elemento w de W y u de U. Pero

por ser U y W complementarios se tiene que de hecho v = w + u, por lo que �̅�(w) = w + U =

((w + u) – u) + U = (w + u) + (-u + U) = w + u + U = v + U. Por tanto, �̅� es suprayectiva y, por

tanto, un isomorfismo. □

11.6 Isomorfismos IV

En esta subsubsección terminamos con el tópico de los isomorfismos y vamos a ver unas

proposiciones un tanto técnicas que usaremos más adelante.

LEMA: Sea T: V → V’ una aplicación o transformación lineal. Entonces:

1) T es inyectiva si y solo si, hay una aplicación lineal S: V’ → V tal que S○T = I.

2) T es suprayectiva si y solo si, hay una aplicación lineal U: V’ → V tal que T○U = I.

DEMOSTRACIÓN: 1) Supongamos que T es inyectiva, y sea B = {𝑣1, 𝑣2, …} una base de V.

Entonces sabemos que C = T(B) = {𝑤1, 𝑤2, …} es un conjunto linealmente independiente y

que puede ser extendido hasta una base de V’. Sea esta base C∪C’, con C’ = {𝑤′1, 𝑤′2, …}.

Ahora, definamos una aplicación lineal S: V’ → V de la siguiente manera: S(𝑤𝑖) = 𝑣𝑖, y S(𝑤′𝑖)

= 0. Entonces, para cada vector 𝑣𝑖 en la base B se tiene que (S○T)(𝑣𝑖) = S(T(𝑣𝑖)) = S(𝑤𝑖) = 𝑣𝑖,

por lo que sabemos que obligatoriamente, S○T = I.

Por otra parte, supongamos que existe una aplicación lineal S: V’ → V tal que S○T = I y

supongamos que T(v) = 0, entonces, v = I(v) = (S○T)(v) = S(T(v)) = S(0) = 0, de modo que T es

inyectiva.

2) Supongamos primero que T es suprayectiva y sea B = {𝑣1, 𝑣2, …} una base de V. Entonces,

sabemos que C = T(B) = {𝑤1, 𝑤2, …} es un sistema de generadores de V’, por lo que sabemos

que C contiene un subconjunto C’ que es base de V’. Ahora bien, por cada vector 𝑤𝑖 de C’

201

existe un 𝑣𝑖 tal que 𝑤𝑖 = T(𝑣𝑖). Aclaremos que pueden existir varios 𝑣𝑖 con 𝑤𝑖 = T(𝑣𝑖), pero

solo elegimos uno de ellos. Sea U: V’ → V, la aplicación lineal tal que U(𝑤𝑖) = 𝑣𝑖. Entonces

para cada vector 𝑤𝑖 en la base C’ se cumple, (T○U)(𝑤𝑖) = T(U(𝑤𝑖)) = T(𝑣𝑖) = 𝑤𝑖 = I(𝑤𝑖), por lo

que ya sabemos que esto implica que T○U = I.

Por otra parte, supongamos que existe una aplicación lineal U: V’ → V tal que T○U = I.

Entonces, para cada w de V’ tenemos que w = I(w) = (T○U)(w) = T(U(w)), por lo que T es

suprayectiva. □

Ahora juntando todos los resultados que tenemos hasta ahora podemos enunciar el siguiente

teorema.

TEOREMA: Sean V y V’ dos espacios vectoriales de la misma dimensión finita n. Sea T: V → V’

una aplicación o transformación lineal. Entonces son equivalentes las siguientes

proposiciones:

1) T es invertible, es decir, existe una transformación lineal 𝑇−1: V’ → V, con T○𝑇−1 = 𝑇−1○T

= I.

2) T es inyectiva.

3) Existe una transformación lineal S: V’ → V, con S○T = I. En este caso, S = 𝑇−1.

4) T es suprayectiva.

5) Existe una transformación lineal U: V’ → V tal que T○U = I. En este caso, U = 𝑇−1.

DEMOSTRACIÓN: Lo primero de todo es que sabemos que las condiciones 2) y 3) son

equivalentes y también las condiciones 4) y 5) son equivalentes, por el lema anterior.

Sea B = {𝑣1, … , 𝑣𝑛} una base de V y C = T(B) = {𝑤1, … , 𝑤𝑛}. Ya sabemos que las condiciones 1),

2) y 4) son equivalentes a que:

1) C es una base de V’

2) C es linealmente independiente

3) C es un sistema generador de V’.

Pero C es un conjunto de n vectores en espacio vectorial de dimensión n, por lo que sabemos

que estas 3 condiciones son equivalentes.

Finalmente, supongamos que todas estas condiciones son ciertas, por lo que T tiene una

inversa, 𝑇−1, entonces, si S○T = I, se tiene que S = S○I = S○(T○𝑇−1) = (S○T)○ 𝑇−1 = I○𝑇−1 =

𝑇−1. Y de forma análoga, si T○U = I, se tiene que U = I○U = (𝑇−1 ○ T)○U = 𝑇−1○(T○U) = 𝑇−1○I

= 𝑇−1. □

Por último, tenemos el siguiente corolario y después veremos un ejemplo.

COROLARIO: Sean V, V’ y V’’ tres espacios vectoriales con la misma dimensión finita, n. Sea

T: V → V’, y S: V’ → V’’, de manera que S○T: V → V’’. Si S○T es un isomorfismo, entonces T y S

son los dos isomorfismos.

202

DEMOSTRACIÓN: Si S○T es un isomorfismo, entonces es inyectiva y suprayectiva. Entonces T

es inyectiva porque si hubiera un vector v distinto de 0 tal que T(v) = 0, tendríamos que

(S○T)(v) = S(T(v)) = S(0) = 0 y S○T no seria inyectiva. También S, es suprayectiva, porque si

existiera un vector w tal que no existiera v con S(v) = w para algún v de V’, entonces w no

tendría un vector u de V, tal que w = (S○T)(u) = S(T(u)).

Pero por el teorema anterior, esto implica que T y S son isomorfismos. □

Ahora veamos que el paso crucial en la demostración del teorema de esta subsubsección es

contar. Dijimos, “tenemos n vectores en un espacio vectorial de dimensión n”. Pero, ¿qué

pasa si los espacios son infinito dimensionales? No podemos contar y en el siguiente ejemplo

demostramos que no hay un teorema análogo para dimensión infinita.

EJEMPLO: Sea V = (𝐹∞)𝑇, recordemos que tenemos la aplicación lineal desplazamiento a la

derecha 𝑆𝑟𝑡: V → V y el desplazamiento a la izquierda 𝑆𝑙𝑡: V → V, definidos por 𝑆𝑟𝑡(𝑎1, 𝑎2, 𝑎3,

…) = (0, 𝑎1, 𝑎2, …) y 𝑆𝑙𝑡(𝑎1, 𝑎2, 𝑎3, …) = (𝑎2, 𝑎3, 𝑎4, …). Pero observemos que 𝑆𝑟𝑡 es inyectivo,

pero no suprayectivo, y 𝑆𝑙𝑡 es suprayectivo, pero no inyectivo, por lo tanto el corolario

anterior no se cumple y también observemos que (𝑆𝑙𝑡○𝑆𝑟𝑡)( 𝑎1, 𝑎2, 𝑎3, …) = 𝑆𝑙𝑡(𝑆𝑟𝑡( 𝑎1, 𝑎2,

𝑎3, …)) = 𝑆𝑙𝑡(0, 𝑎1, 𝑎2, …) = ( 𝑎1, 𝑎2, 𝑎3, …), por lo que 𝑆𝑙𝑡○𝑆𝑟𝑡 = I. Pero (𝑆𝑟𝑡○𝑆𝑙𝑡)( 𝑎1, 𝑎2, 𝑎3,

…) = 𝑆𝑟𝑡(𝑎2, 𝑎3, 𝑎4, …) = (0, 𝑎2, 𝑎3, …), por lo que 𝑆𝑟𝑡○𝑆𝑙𝑡 no es I. Si definimos el operador

siguiente R: V → V como R(𝑎1, 𝑎2, 𝑎3, …) = (𝑎1, 0, 0, …), se tiene que 𝑆𝑟𝑡○𝑆𝑙𝑡 = I – R.

11.7 Núcleo e Imagen de una aplicación lineal

En esta subsubsección vamos a definir dos subespacios muy importantes de dos espacios

vectoriales V y V’ relacionados con una aplicación lineal T: V → V’. Sin más vamos a definirlos.

DEFINICIÓN (Núcleo e Imagen de una aplicación lineal): Sea T: V → V’ una aplicación lineal.

Entonces:

1) Ker(T) = {v de V | T(v) = 0}.

2) Im(T) = {w de V’ |w = T(v) para algún v de V}.

A Ker(T) se le llama núcleo de T y a Im(T) se le llama imagen de T.

Ahora vamos a ver los dos Teoremas básicos del núcleo y la imagen de una aplicación lineal.

TEOREMA 1 (El núcleo y la imagen de una aplicación lineal son subespacios de V y V’

respectivamente): Sea T: V → V’ una aplicación lineal. Entonces:

1) Ker(T) es un subespacio de V.

2) Im(T) es un subespacio de V’.

DEMOSTRACIÓN: 1) Sean a, b escalares y u, v de Ker(T), entonces, T(a•u + b•v) = a•T(u) +

b•T(v) = a•0 + b•0 = 0, de modo que a•u + b•v pertenece a Ker(T).

203

2) Sean a, b escalares y u’, v’ de Im(T). Entonces por la definición de Im(T) existen u, v de V

tales que T(u) = u’ y T(v) = v’, pero entonces T(a•u + b•v) = a•T(u) + b•T(v) = a•u’ + b•v’, de

modo que para a•u’ + b•v’ existe un vector, a•u + b•v tal que a•u’ + b•v’ = T(a•u + b•v), por

lo que a•u’ + b•v’ pertenece a Im(T). □

TEOREMA 2: Dada una aplicación lineal T: V → V’ una aplicación lineal. Entonces:

1) T es inyectiva si y solo si Ker(T) = 0.

2) T es suprayectiva si y solo si Im(T) = V’.

DEMOSTRACIÓN: 1) Ya lo sabíamos de subsubsecciones anteriores, 2) es evidente. □

Ahora, de momento, nos vamos a centrar en el caso de que T = 𝑇𝐴: 𝐹𝑚 → 𝐹𝑛 , dejando para

la subsección posterior el caso general de una aplicación lineal cualquiera. En esta

subsubsección queremos encontrar una base para el núcleo e imagen de estas aplicaciones.

LEMA 1: Sea T = 𝑇𝐴: 𝐹𝑚 → 𝐹𝑛 , entonces, Im(T) = EC(A) el espacio de columnas de A que ya

estudiamos en su momento, por tanto, dim(Im(T)) = rag(A).

DEMOSTRACIÓN: Sea A = (𝑢1 … 𝑢𝑚) la descomposición de A en columnas y v = (

𝑐1⋮𝑐𝑚),

entonces, T(v) = 𝑇𝐴(v) = A•v = 𝑐1•𝑢1 + … + 𝑐𝑚•𝑢𝑚, esto es, una combinación lineal de las

columnas de A, de modo que todas las posibles combinaciones son Im(T) que no es ni más ni

menos, que el EC(A). □

COROLARIO 1: El procedimiento de la proposición 10.5.1 nos da una base de Im(T), por tanto,

dim(Im(T)) = rag(A) es el número de pivotes o filas principales de una forma escalonada por

filas, A’ de A.

DEMOSTRACIÓN: Es simplemente la proposición 10.5.1. □

Para hallar una base de Ker(T) es necesario un poco más de trabajo y no vamos a dar los

métodos aquí, en esta subsubsección veremos simplemente un ejemplo, esperaremos a la

siguiente subsección en la que también veremos la forma de calcular el núcleo y la imagen

de una aplicación lineal entre dos espacios cualesquiera V y V’ no necesariamente de la forma

𝐹𝑛 . De todas formas, diremos que Ker(T) = {v de V | T(v) = 0} = {v de V | A•v = 0}, es decir

que Ker(T) es simplemente el conjunto de soluciones de un sistema homogéneo de matriz A,

es decir el conjunto de soluciones del sistema A•X = 0. Pero esto es el espacio nulo de A, de

modo que Ker(T) = EN(A).

DEFINICIÓN (Rango y nulidad de una aplicación lineal): Queremos recordar en esta definición

que a dim(Im(T)) siendo T una aplicación lineal, se le llama también rango de T y se nota como

rag(T) y vemos que esta definición es muy conveniente ya que si T = 𝑇𝐴, entonces, hemos

visto que rag(T) = rag(A). También se define a la dim(Ker(T)) como nulidad de T y se nota

Nul(T) y hemos visto que si T = 𝑇𝐴, Nul(T) = dim(Ker(T)) = dim(EN(A)).

Ahora demostraremos un lema que nos dará otros medios para calcular una base de Im(T).

204

LEMA 2: Sea T: V → V’ una aplicación lineal, si {𝑢1, …, 𝑢𝑚} es un sistema de generadores de

V, entonces, {T(𝑢1), …, T(𝑢𝑚)} es un sistema de generadores de Im(f).

DEMOSTRACIÓN: Dado u’ arbitrario de Im(T), existe un u de V tal que f(u) = u’ y puesto que

{𝑢1, …, 𝑢𝑚} es un sistema de generadores de V entonces u = 𝑎1•𝑢1 + … + 𝑎𝑚•𝑢𝑚, para ciertos,

𝑎1, …, 𝑎𝑚 de F, entonces, u’ = T(u) = 𝑎1•T(𝑢1) + … + 𝑎𝑚•T(𝑢𝑚), luego u’ se escribe como

combinación lineal de T(𝑢1), …, T(𝑢𝑚). Puesto que u’ era un vector arbitrario de V’, se obtiene

que {T(𝑢1), …, T(𝑢𝑚)} es un sistema de generadores de Im(T). □

Ahora veamos un ejemplo sobre el cálculo de Im(T) y Ker(T) con los conocimientos con los

que contamos ahora.

EJEMPLO 1: Calculemos el núcleo y la imagen de la aplicación lineal T: ℝ3 → ℝ3 dada por T(x,

y, z) = (x + z, y, x + 2•y + z).

Para calcular el núcleo pensamos los siguiente: (x, y, z) es de Ker(T) si T(x, y, z) = 0, lo que es

equivalente a que (x + z, y, x + 2•y + z) = (0, 0, 0) o de otra forma obtenemos el sistema

siguiente:

{

𝑥 + 𝑧 = 0𝑦 = 0

x + 2 • y + z = 0, que es equivalente a, {

x + z = 0𝑦 = 0

, lo cual son unas ecuaciones

cartesianas de Ker(T). Pasando a ecuaciones paramétricas se obtiene:

{

𝑥 = −µ𝑦 = 0z = µ

y por tanto, Ker(T) tiene de base {(-1, 0, 1)}.

Para calcular una base de Im(T) lo haremos de dos formas. Primero calculemos la matriz A,

tal que T = 𝑇𝐴:

A = (1 0 101

12

01) que es equivalente a (

1 0 100

10

00), por lo que una base para Im(T) es

{(1, 0, 1), (0, 1, 2)}.

Ahora utilizamos el siguiente método: Un sistema de generadores vendrá dado por {f(1, 0,

0), f(0, 1, 0), f(0, 0, 1)}, o lo que es igual, {(1, 0, 1), (0, 1, 2), (1, 0, 1)}, lo cual nos da la siguiente

base para Im(T): {(1, 0, 1), (0, 1, 2)}, que coincide con el otro método. Si nos interesan las

ecuaciones paramétricas o cartesianas de Im(T) podemos obtenerlas como siempre.

Nos queda un punto técnico muy interesante que tratar. Por definición Ker(T) = 𝑇−1(0). Nos

queremos preguntar que puede ser 𝑇−1(w) con w arbitrario de V’. Puede ser que 𝑇−1(w) sea

vacío, si w no pertenece a Im(T), pero, ¿qué pasa en caso contrario? Veámoslo en el siguiente

teorema.

TEOREMA 3: Sea T: V → V’ una aplicación lineal, sea w un elemento de V’. Si A = 𝑇−1(w) no

es vacío, entonces es un espacio afín paralelo a Ker(T).

205

DEMOSTRACIÓN: Sea v un elemento de v tal que T(v) = w. Queremos demostrar que A = v +

Ker(T).

Primero demostremos que v + Ker(T) ⊆ A. Sea u un elemento de Ker(T), entonces, T(v + u) =

T(v) + T(u) = w + 0 = w.

Luego demostremos que A ⊆ v + Ker(T). Sea z un elemento de V con T(z) = w, entonces z = v

+ (z – v) = v + u con u = z – v, pero entonces, T(u) = T(z) – T(v) = w – w = 0, por lo que u

pertenece a Ker(T) y z pertenece a v + Ker(T). □

EJEMPLO 2: Consideremos el siguiente sistema:

{

𝑥1 + 2 • 𝑥2 − 𝑥3 − 3 • 𝑥4 + 3 • 𝑥5 = 192 • 𝑥1 + 4 • 𝑥2 − 𝑥3 − 2 • 𝑥4 + 8 • 𝑥5 = 443 • 𝑥1 + 6 • 𝑥2 − 𝑥3 − 𝑥4 + 13 • 𝑥5 = 69

5 • 𝑥1 + 10 • 𝑥2 − 3 • 𝑥3 − 7 • 𝑥4 + 21 • 𝑥5 = 1178 • 𝑥1 + 16 • 𝑥2 − 5 • 𝑥3 − 12 • 𝑥4 + 34 • 𝑥5 = 190

, tiene como matriz reducida la

Siguiente:

(

1 2 −1 −3 3 190000

0000

1000

4000

2100

6500 )

.

Podemos reinterpretar el sistema como T(v) = 𝑇𝐴(v) = A•v = w, donde A es la matriz del

sistema y w es el lado derecho del sistema. Al resolver el sistema hemos hallado 𝑇𝐴−1(w),

consiste en todos los vectores de la forma siguiente:

(

𝑥1𝑥2𝑥3𝑥4𝑥5)

=

(

00−405 )

+ 𝑥2•

(

−21000 )

+ 𝑥4•

(

−10−410 )

, que podemos ver como el primer vector

del lado derecho como v y el resto pertenece a Ker(T).

12 Aplicaciones lineales y matrices

12.1 Matriz estandar asociada a una aplicación lineal de 𝐹𝑛 en 𝐹𝑚

Ya hemos visto que dada una matriz A de dimensión m×n, la aplicación T = 𝑇𝐴: 𝐹𝑛 → 𝐹𝑚 ,

definida como T(v) = 𝑇𝐴(v) = A•v es una aplicación lineal. Ahora será conveniente profundizar

un poco en esta aplicación, lo haremos con un teorema y un corolario.

206

Y es que vimos que para toda matriz A, m×n, la aplicación 𝑇𝐴: 𝐹𝑛 → 𝐹𝑚 , es siempre una

aplicación lineal bien definida, en el siguiente teorema veremos que todas las aplicaciones

lineales T: 𝐹𝑛 → 𝐹𝑚 se obtienen de esta forma.

TEOREMA: Sea T: 𝐹𝑛 → 𝐹𝑚 una aplicación lineal, entonces, T = 𝑇𝐴, para una única matriz A.

DEMOSTRACIÓN: Sea 𝑢1 = T(𝑒1), 𝑢2 = T(𝑒2), …, 𝑢𝑛 = T(𝑒𝑛), con 𝑒1, 𝑒2, …, 𝑒𝑛 los vectores de la

base standard de 𝐹𝑛 . Sea A la matriz siguiente: A = (𝑢1 𝑢2 … 𝑢𝑛). Queremos demostrar que

T = 𝑇𝐴.

Para ver esto tenemos que demostrar que T(v) = 𝑇𝐴(v), para todo vector v de 𝐹𝑛 y lo haremos

computando por separado T(v) y 𝑇𝐴(v) y viendo que da el mismo resultado. Primero

computemos T(v). Sea v = (

𝑐1𝑐2⋮𝑐𝑛

), entonces, v = 𝑐1•𝑒1 + 𝑐2•𝑒2 + … + 𝑐𝑛•𝑒𝑛, y por tanto, T(v) =

T(𝑐1•𝑒1 + 𝑐2•𝑒2 + … + 𝑐𝑛•𝑒𝑛) = 𝑐1• T(𝑒1) + 𝑐2• T(𝑒2) + … + 𝑐𝑛• T(𝑒𝑛) = 𝑐1•𝑢1 + 𝑐2•𝑢2 + … +

𝑐𝑛•𝑢𝑛.

Ahora computemos 𝑇𝐴(v): 𝑇𝐴(v) = A•v = A•(


) = (𝑢1 𝑢2 … 𝑢𝑛)• (


) = 𝑐1•𝑢1 + 𝑐2•𝑢2 + …

+ 𝑐𝑛•𝑢𝑛. Por lo que T(v) = 𝑇𝐴(v), como habíamos supuesto.

Para completar la prueba necesitamos demostrar que la matriz A es única y esto lo hacemos

suponiendo que existe otra matriz A’ que cumple la propiedad y así llegamos a la conclusión

de que A = A’.

Así que supongamos que T = 𝑇𝐴 = 𝑇𝐴′, escribamos A = (𝑢1 𝑢2 … 𝑢𝑛) y A’ = (𝑢′1 𝑢′2 … 𝑢′𝑛).

Entonces demostraremos que para todo vector v de T(v) = 𝑇𝐴(v) = 𝑇𝐴′(v). En particular, esto

ocurre para los vectores de la base standard de 𝐹𝑛 . Sea v = 𝑒𝑖, computamos T(𝑒𝑖) = A•𝑒𝑖 = 𝑢𝑖

y T(𝑒𝑖) = A’•𝑒𝑖 = 𝑢′𝑖, así, 𝑢′𝑖 = T(𝑒𝑖) = 𝑢𝑖, por lo que 𝑢𝑖 = 𝑢′𝑖, por lo que A’ = (𝑢′1 𝑢′2 … 𝑢′𝑛) =

(𝑢1 𝑢2 … 𝑢𝑛) = A. □

Realmente la demostración del teorema anterior no solo nos dice que T = 𝑇𝐴 para una matriz

única A, nos da la fórmula para esa matriz y eso es lo que nos interesa.

COROLARIO: Sea T: 𝐹𝑛 → 𝐹𝑚 una aplicación lineal y sea A la matriz siguiente:

A = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), entonces, T = 𝑇𝐴.

DEMOSTRACIÓN: Por la demostración del teorema anterior T = 𝑇𝐴 con A = (𝑢1 𝑢2 … 𝑢𝑛), pero

𝑢1 = T(𝑒1), 𝑢2 = T(𝑒2), …, 𝑢𝑛 = T(𝑒𝑛), por lo que A es como se supuso en el corolario. □

Terminamos esta subsubsección con la definición central de ésta.

207

DEFINICIÓN (Matriz estándar de una aplicación lineal T: 𝐹𝑛 → 𝐹𝑚 ): Sea T: 𝐹𝑛 → 𝐹𝑚 una

aplicación lineal, sea A la matriz A = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), de tal manera que T = 𝑇𝐴, entonces,

A es la matriz estándar de T.

12.2 Suma de matrices y producto de una matriz por un escalar

En esta subsubsección y en la siguiente vamos a redefinir el álgebra de las matrices gracias al

estudio que hemos realizado de las aplicaciones lineales.

DEFINICIÓN (Suma de matrices y producto de una matriz por un escalar): Sean S y P elementos

de Hom(𝐹𝑛 , 𝐹𝑚), entonces, sabemos que U = S + P también es un elemento de Hom(𝐹𝑛 ,

𝐹𝑚), también sabemos que S tiene una matriz estándar, llamémosla A al igual que ocurre con

P, sea esta matriz B y U y también tiene la matriz estándar C. Entonces, definimos C = A + B,

de modo que 𝑇𝐴+𝐵 = 𝑇𝐴 + 𝑇𝐵. También sea T de Hom(𝐹𝑛 , 𝐹𝑚) y c un escalar de F, entonces,

c•T es un elemento de Hom(𝐹𝑛 , 𝐹𝑚). Tenga T la matriz estándar D y U la matriz estándar E.

Entonces definimos E = c•D, de modo que 𝑇𝑐•𝐷 = c•𝑇𝐷.

Entonces hemos definido convenientemente la suma de matrices y el producto de una matriz

por un escalar, el siguiente teorema nos da la fórmula para el cálculo de estas matrices que

se desprende naturalmente de la definición.

TEOREMA (Suma de matrices y producto de una matriz por un escalar): 1) Sean A y B matrices

m×n. Sea A = (𝑢1 𝑢2 … 𝑢𝑛) y B = (𝑣1 𝑣2 … 𝑣𝑛), entonces C = A + B es la matriz dada por C =

(𝑢1+𝑣1 𝑢2+𝑣2 … 𝑢𝑛+ 𝑣𝑛).

2) Sea A = (𝑎𝑖𝑗) y B = (𝑏𝑖𝑗), entonces C = A + B es la matriz dada por 𝑐𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗.

3) Sea D una matriz m×n y c un escalar de F. Sea D = (𝑤1 𝑤2 … 𝑤𝑛), entonces, E = c•D es la

matriz m×n dada por E = (c•𝑤1 c•𝑤2 … c•𝑤𝑛).

4) Sean D = (𝑑𝑖𝑗) y E = (𝑒𝑖𝑗), entonces, E = c•D es la matriz dada por 𝑒𝑖𝑗 = c•𝑑𝑖𝑗.

DEMOSTRACIÓN: 1) La matriz estándar de S está dada por A = (S(𝑒1) S(𝑒2) … S(𝑒𝑛)), por lo que

𝑢1 = S(𝑒1), …, 𝑢𝑛 = S(𝑒𝑛) y la matriz estándar de P está dada por B = (P(𝑒1) P(𝑒2) … P(𝑒𝑛)), por

lo que 𝑣1 = P(𝑒1), …, 𝑣𝑛 = P(𝑒𝑛), pero la matriz estándar de U está dada por C = (U(𝑒1) U(𝑒2)

… U(𝑒𝑛)) = ((S+P)(𝑒1) (S+P)(𝑒2) … (S+P)(𝑒𝑛)) = (S(𝑒1)+P(𝑒1) S(𝑒2)+P(𝑒2) … S(𝑒𝑛) +P(𝑒𝑛)) = (𝑢1+𝑣1

𝑢2+𝑣2 … 𝑢𝑛+ 𝑣𝑛).

2) Puesto que las columnas se suman componente a componente se tiene la fórmula que se

propone.

3) La matriz estándar para D se obtiene de la siguiente manera, D = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), por

lo que 𝑤1 = T(𝑒1), …, 𝑤𝑛 = T(𝑒𝑛), pero la matriz estándar para U es E = (U(𝑒1) U(𝑒2) … U(𝑒𝑛))

= ((c•T)(𝑒1) (c•T)(𝑒2) … (c•T)(𝑒𝑛)) = (c•T(𝑒1) c•T(𝑒2) … c•T(𝑒𝑛)) = (c•𝑤1 c•𝑤2 … c•𝑤𝑛).

208

4) La multiplicación de columnas por escalares se hace multiplicando el escalar por cada

componente, por lo que obtenemos la fórmula que se proponía. □

12.3 Producto de matrices y algebra de matrices

Sin más, vamos a definir cómo debe ser el producto de matrices en función de las aplicaciones

lineales de Hom(𝐹𝑛 , 𝐹𝑚) y su correspondiente matriz estándar. De esta definición surgirá la

forma de calcular las matrices que ya conocemos.

DEFINICIÓN (Producto de matrices): Sean S: 𝐹𝑛 → 𝐹𝑚 y D: 𝐹𝑚 → 𝐹𝑝 transformaciones

lineales, sea U = D○S la composición de D y S. Sabemos que S tiene su matriz estándar,

llamémosla, B y D la suya, llamémosla A. Sabemos que, U es una aplicación lineal y que, por

lo tanto, tendrá una matriz estándar, llamémosla C. Entonces definimos que C = A•B, de

modo que 𝑇𝐴•𝐵 = 𝑇𝐴•𝑇𝐵.

TEOREMA: Sea A una matriz p×m y sea B una matriz m×n. Escribamos B = (𝑢1 𝑢2 … 𝑢𝑛).

Entonces, C = A•B es la matriz dada por C = (A•𝑢1 … A•𝑢𝑛).

DEMOSTRACIÓN: La matriz estándar de S es B = (S(𝑒1) … S(𝑒𝑛)), por lo que 𝑢1 = S(𝑒1), …, 𝑢𝑛

= S(𝑒𝑛). Recordemos que decir que A es la matriz estándar de T significa que T(v) = A•v, para

todo v. Por lo que la matriz estándar de U esta dada por C = (U(𝑒1) … U(𝑒𝑛)) = ((D○S)(𝑒1) …

(D○S)(𝑒𝑛)) = (D(S(𝑒1)) … D(S(𝑒𝑛))) = (D(𝑢1) … D(𝑢𝑛)) = (A•𝑢1 … A•𝑢𝑛). □

Ahora debemos profundizar más en las consecuencias de este teorema para obtener la

fórmula del cálculo del producto de matrices en términos de componentes, que ya

conocemos.

COROLARIO 1 (Fórmula para el cálculo del producto de matrices): Sea A = (𝑎𝑖𝑗) una matriz

p×m y B = (𝑏𝑖𝑗) una matriz m×n, entonces C = A•B es la p×n matriz C = (𝑐𝑖𝑗) definida por:

𝑐𝑖𝑗 = ∑ 𝑎𝑖𝑘 •𝑘=𝑚𝑘=1 𝑏𝑘𝑗 para cada i = 1, …, p y cada j = 1, …, n.

DEMOSTRACIÓN: Sea C = (𝑤1 … 𝑤𝑛), entonces, 𝑤𝑗 = A•𝑢𝑗, ahora bien, 𝑤𝑗 = (

𝑐1𝑗𝑐2𝑗⋮𝑐𝑝𝑗

), A = (𝑎𝑖𝑗)

y 𝑢𝑗 =

(

𝑏1𝑗𝑏2𝑗⋮𝑏𝑚𝑗)

, entonces por la definición del producto de una matriz por una columna o

vector columna se tiene que (

𝑐1𝑗𝑐2𝑗⋮𝑐𝑝𝑗

) =

(

𝑎11𝑏1𝑗 + 𝑎12𝑏2𝑗 +⋯+ 𝑎1𝑚𝑏𝑚𝑗𝑎21𝑏1𝑗 + 𝑎22𝑏2𝑗 +⋯+ 𝑎2𝑚𝑏𝑚𝑗

⋮𝑎𝑝1𝑏1𝑗 + 𝑎𝑝2𝑏2𝑗 +⋯+ 𝑎𝑝𝑚𝑏𝑚𝑗)

, por lo que,

𝑐𝑖𝑗 = 𝑎𝑖1𝑏1𝑗 + 𝑎𝑖2𝑏2𝑗 +⋯+ 𝑎𝑖𝑚𝑏𝑚𝑗 = ∑ 𝑎𝑖𝑘 •𝑘=𝑚𝑘=1 𝑏𝑘𝑗. □

Veamos ahora las propiedades del álgebra de matrices, en el siguiente lema asumimos que

todas las operaciones tienen sentido.

209

LEMA (Álgebra de matrices): a) Sean A, B y C matrices. Sean a y b escalares de F. Sea 0 la

matriz 0 cuyas componentes son todas 0 e I la matriz identidad y si A = (𝑎𝑖𝑗), entonces, -A =

(-𝑎𝑖𝑗), entonces:

1) A + B = B+ A.

2) (A + B) + C = A + (B + C).

3) 0 + A = A + 0 = A.

4) A + (-A) = (-A) + A = 0.

5) a•(A + B) = a•A + a•B.

6) (a + b)•A = a•A + b•A.

7) a•(b•A) = (a•b)•A.

8) 1•A = A

9) 0•A = 0

10) a•0 = 0

11) (-1)•A = -A

12) A•(B•C) = (A•B)•C.

13) (A + B)• C = A•C + B•C.

14) (a•A)•B = a•(A•B).

15) A•(B + C) = A•B + A•C.

16) A•(a•B) = a•(A•B).

17) A•0 = 0 y 0•A = 0.

18) I•A = A, A•I = A.

b) Por tanto, bajo las operaciones de suma de matrices y producto por un escalar𝑀𝑚,𝑛(F), el

conjunto de las matrices m×n con entradas en F es un F-espacio vectorial.

DEMOSTRACIÓN: a) 1) 𝑇𝐴+𝐵 = 𝑇𝐴 + 𝑇𝐵 = 𝑇𝐵 + 𝑇𝐴 = 𝑇𝐵+𝐴. 2) 𝑇(𝐴+𝐵)+𝐶 = 𝑇𝐴+𝐵 + 𝑇𝐶 = 𝑇𝐴 + 𝑇𝐵 +

𝑇𝐶 = 𝑇𝐴 + 𝑇𝐵+𝐶 = 𝑇𝐴+(𝐵+𝐶). 3) 𝑇0+𝐴 = 𝑇0 + 𝑇𝐴 = 𝑇𝐴 = 𝑇𝐴 + 𝑇0 = 𝑇𝐴+0. 4) 𝑇𝐴+(−𝐴) = 𝑇𝐴 + 𝑇−𝐴 = 𝑇0

= 𝑇−𝐴 + 𝑇𝐴 = 𝑇(−𝐴)+𝐴. 5) 𝑇𝑎•(𝐴+𝐵) = a•𝑇𝐴+𝐵 = a•(𝑇𝐴 + 𝑇𝐵) = a•𝑇𝐴 + a•𝑇𝐵 = 𝑇a•𝐴 + 𝑇a•𝐵 =

𝑇a•𝐴+𝑎•𝐵. 6) 𝑇(𝑎+𝑏)•𝐴 = (a + b)•𝑇𝐴 = a• 𝑇𝐴 + b•𝑇𝐴 = 𝑇𝑎•𝐴 + 𝑇𝑏•𝐴 = 𝑇𝑎•𝐴+𝑏•𝐴. 7) 𝑇𝑎•(𝑏•𝐴) = a•𝑇𝑏•𝐴

= a•(b•𝑇𝐴) = (a•b)•𝑇𝐴 = 𝑇(𝑎•𝑏)•𝐴. 8) 𝑇1•𝐴 = 1•𝑇𝐴 = 𝑇𝐴. 9) 𝑇0•𝐴 = 0•𝑇𝐴 = 0 = 𝑇0. 10) 𝑇𝑎•0 = a•𝑇0

= a•0 = 0 = 𝑇0. 11) 𝑇(−1)•𝐴 = (-1) 𝑇𝐴 = -𝑇𝐴 = 𝑇−𝐴. 12) 𝑇𝐴•(𝐵•𝐶) = 𝑇𝐴○𝑇𝐵•𝐶 = 𝑇𝐴○(𝑇𝐵○𝑇𝐶) =

(𝑇𝐴○𝑇𝐵)○𝑇𝐶 = 𝑇𝐴•𝐵○𝑇𝐶 = 𝑇(𝐴•𝐵)•𝐶. 13) 𝑇(𝐴+𝐵)•𝐶 = 𝑇𝐴+𝐵○𝑇𝐶 = (𝑇𝐴 + 𝑇𝐵) ○𝑇𝐶 = 𝑇𝐴○𝑇𝐶 + 𝑇𝐵○𝑇𝐶 =

𝑇𝐴•𝐶 + 𝑇𝐵•𝐶 = 𝑇𝐴•𝐶+𝐵•𝐶. 14) 𝑇(𝑎•𝐴)•𝐵 = 𝑇𝑎•𝐴○𝑇𝐵 = (a•𝑇𝐴)○𝑇𝐵 = a•(𝑇𝐴○𝑇𝐵) = a•𝑇𝐴•𝐵 = 𝑇𝑎•(𝐴•𝐵).

15) 𝑇𝐴•(𝐵+𝐶) = 𝑇𝐴○𝑇𝐵+𝐶 = 𝑇𝐴○(𝑇𝐵 + 𝑇𝐶) = 𝑇𝐴○𝑇𝐵 + 𝑇𝐴○𝑇𝐶 = 𝑇𝐴•𝐵 + 𝑇𝐴•𝐶 = 𝑇𝐴•𝐵+𝐴•𝐶). 16) 𝑇𝐴•(𝑎•𝐵)

= 𝑇𝐴○𝑇𝑎•𝐵 = 𝑇𝐴○(a•𝑇𝐵) = a•(𝑇𝐴○𝑇𝐵) = a•𝑇𝐴•𝐵 = 𝑇𝑎•(𝐴•𝐵). 17) 𝑇𝐴•0 = 𝑇𝐴○0 = 0 = 0○𝑇𝐴 = 𝑇0•𝐴. 18)

𝑇𝐼•𝐴 = 𝑇𝐼○𝑇𝐴 = 𝑇𝐴 = 𝑇𝐴○𝑇𝐼 = 𝑇𝐴•𝐼. □

Ahora veremos un corolario que se basa en los resultados obtenidos anteriormente sobre

aplicaciones lineales que nos resultará útil más adelante.

COROLARIO 2: 1) Sea B una matriz fija p×n. Entonces, P: 𝑀𝑛,𝑚(F) → 𝑀𝑝,𝑚(F) definida por P(A)

= B•A es una aplicación lineal.

2) Sea A una matriz fija n×m. Entonces Q: 𝑀𝑝,𝑛(F) → 𝑀𝑝,𝑚(F) definida como Q(B) = B•A es

una transformación lineal.

210

DEMOSTRACIÓN: Se basa en las propiedades demostradas en el lema anterior. □

12.4 Matriz inversa de otra

De nuevo, vamos a ver el significado y propiedades de la matriz inversa utilizando

aplicaciones lineales, en este caso, isomorfismos. En la subsubsección siguiente a esta

redefiniremos el algoritmo para el cálculo de la inversa de una matriz.

Damos dos definiciones de la matriz inversa de otra matriz, que enseguida veremos que son

equivalentes.

DEFINICIÓN 1 (Matriz inversa de una dada I): Sea T: 𝐹𝑛 → 𝐹𝑛 una aplicación lineal, de modo

que T = 𝑇𝐴 para una única matriz A. Si T es invertible, entonces, 𝐴−1 es la matriz definida de

modo que (𝑇𝐴 )−1 = 𝐻𝐴−1 , donde H es una aplicación lineal, tal como T lo es, H: 𝐹𝑛 → 𝐹𝑛. Es

decir, sea N = 𝑁𝐴 una aplicación lineal N: 𝐹𝑛 → 𝐹𝑛, si N es invertible entonces tiene una

inversa, 𝑁−1: 𝐹𝑛 → 𝐹𝑛, pero 𝑁−1 = 𝑇𝑀, para una matriz única M, de modo que establecemos

que 𝐴−1 = M.

Ahora hacemos una definición alternativa que ya conocíamos.

DEFINICIÓN 2 (Matriz inversa de una dada II): La matriz A es invertible si existe una matriz

𝐴−1, tal que A•𝐴−1 = 𝐴−1•A = I. En este caso, 𝐴−1 es la matriz inversa de A.

Ahora demostramos un teorema principal gracias al estudio que hemos hecho de los

isomorfismos.

TEOREMA 1 (Propiedades de la inversa): Sea A una matriz n×n, entonces las siguientes

proposiciones son equivalentes:

1) La transformación lineal 𝑇𝐴: 𝐹𝑛 → 𝐹𝑛 definida por 𝑇𝐴(x) = A•x es invertible.

2) La matriz A es invertible, esto es, existe una matriz 𝐴−1 tal que 𝐴−1•A = A•𝐴−1 = I.

3) Existe una matriz B tal que A•B = I. En este caso, B = 𝐴−1.

4) Existe una matriz C tal que C•A = I. En este caso C = 𝐴−1.

5) Para cualquier b de 𝐹𝑛, la ecuación A•x = b tiene una única solución.

6) Para cualquier b de 𝐹𝑛, la ecuación A•x = b tiene solución.

7) La ecuación A•x = 0 solo tiene la solución trivial x = 0.

DEMOSTRACIÓN: Supongamos que 1) es verdadero, de modo que T = 𝑇𝐴 es invertible, es

decir existe una aplicación lineal 𝑇−1 que es la inversa de T. De modo que ocurre:

T○𝑇−1 = 𝑇−1○T = I

𝑇𝐴○(𝑇𝐴)−1 = (𝑇𝐴)

−1○𝑇𝐴 = I,

𝑇𝐴○𝑇𝐴−1 = 𝑇𝐴−1○𝑇𝐴 = 𝑇𝐼,

𝑇𝐴•𝐴−1 = 𝑇𝐴−1•𝐴 = 𝑇𝐼, por lo que

A•𝐴−1 = 𝐴−1•A = I.

Pero esta cadena de implicaciones es reversible, por lo que si se cumple 2) también, 1).

211

Pero recordemos que 𝑇𝐴 es una aplicación lineal dada por 𝑇𝐴(x) = A•x, si suponemos que 𝑇𝐴

es invertible, entonces es un isomorfismo que es inyectivo y suprayectivo de modo que, 𝑇𝐴(x)

= b tiene solución y única, pero 𝑇𝐴(x) = A•x, de modo que 5) es equivalente a 1).

Ahora la condición de que 𝑇𝐴 es suprayectiva es que 𝑇𝐴(x) = b tiene solución para cada b y

esto es equivalente a que A•x = b tiene solución para cada b, esto es la condición 6), pero

sabemos que esto es equivalente a que hay una aplicación lineal U tal que T○U = I. Sea U =

𝑇𝐵, entonces esto es equivalente a que A•B = I, que es la condición 3).

La condición de que 𝑇𝐴 es inyectiva es equivalente a que 𝑇𝐴(x) = 0 tiene la solución única x =

0, lo cual es equivalente a que A•x = 0 tiene la solución única x = 0, esto es la condición 7).

Pero sabemos que esto es equivalente a que existe una aplicación lineal S tal que S○T = I, sea

S = 𝑇𝐶, entonces C•A = I, esto es la condición 4).

Pero sabemos, ya que 𝐹𝑛 tiene dimensión finita que las proposiciones 1), 3) y 4), son

equivalentes, así que las 7 condiciones son equivalentes por el teorema de la subsubsección

11.6.

Además, si todas son ciertas, sabemos también que B = 𝐴−1 y C = 𝐴−1 por el mismo teorema

de la subsubsección 11.6. □

Además, se puede demostrar el siguiente teorema.

TEOREMA 2: Sean A y B matrices n×n.

1) Si A y B son invertibles, entonces, A•B es invertible y (A • B )−1 = 𝐵−1•𝐴−1.

2) Si A•B es invertible también, A y B son invertibles.

DEMOSTRACIÓN: 1) es el lema 3 de la subsubsección 11.4. Y 2) es el corolario de la

subsubsección 11.6. □

12.5 Algoritmo para calcular la inversa de una matriz redefinido

Para una matriz A, solo necesitamos encontrar una matriz B con A•B = I, para concluir que B

es la inversa de A. Sea B = (𝑣1 𝑣2 … 𝑣𝑛), entonces A•B = I es el conjunto de ecuaciones A•(𝑣1

𝑣2 … 𝑣𝑛) = I lo que implica que (A•𝑣1 A•𝑣2 … A•𝑣𝑛) = (𝑒1 𝑒2 … 𝑒𝑛), es decir, A•𝑣1 = 𝑒1, …,

A•𝑣𝑛 = 𝑒𝑛 que son n sistemas de ecuaciones lineales con la misma matriz. Por tanto, tenemos

el siguiente algoritmo:

ALGORITMO (Cálculo de la inversa de una matriz regular): Sea A una matriz n×n para i = 1, …,

n sea x = 𝑣𝑖, la solución de A•x = 𝑒𝑖, si cada una de estas ecuaciones tiene solución, entonces,

𝐴−1 = (𝑣1 𝑣2 … 𝑣𝑛), si alguna de las ecuaciones no tiene solución entonces A no es regular.

En la práctica, ya que tenemos n sistemas de ecuaciones con la misma matriz A, podemos

resolver todos los sistemas de una sola vez como hicimos en la subsubsección dedicada la

matriz inversa anteriormente. Veamos un ejemplo para recordar el método.

EJEMPLO: Sea A la matriz siguiente:

212

A = (1 1 323

22

97), entonces formamos la matriz siguiente:

(1 1 3 1 0 023

22

97

00

10

01) añadiendo la matriz identidad a la derecha,

Al resolver el sistema obtenemos: (1 0 0 −4/3 −1/3 1

00

10

01

13/3−2/3

−2/31/3

−10), de modo que

𝐴−1 = (−4/3 −1/3 1

13/3−2/3

−2/31/3

−10

).

12.6 Nueva perspectiva del cambio de coordenadas

En estas subsubsecciones utilizaremos la siguiente metáfora: Elegir una base nos da las

coordenadas de los vectores y las coordenadas son como un lenguaje para describir los

vectores.

Ahondemos un poco en esta metáfora, los lenguajse humanos son una manera de dar

nombres a los objetos, por ejemplo: [∗]𝐸𝑠𝑝𝑎ñ𝑜𝑙 = estrella, [∗]𝐼𝑛𝑔𝑙é𝑠 = star, [∗]𝐹𝑟𝑎𝑛𝑐é𝑠 = étoile.

De forma similar, si V es un espacio vectorial de dimensión n sobre un cuerpo F y B es una

base de V, tenemos que [𝑣]𝐵 es un vector en 𝐹𝑛 que son las coordenadas del vector v en la

base B que podemos pensar que es un nombre del vector v en el lenguaje definido por B.

De la misma manera, veremos que si T: V → V’ es una aplicación lineal de un espacio vectorial

de dimensión n, V a un espacio vectorial V’ de dimensión m, ambos sobre el mismo cuerpo,

F y B y C son bases de V y V’ respectivamente, tenemos que esta aplicación lineal determina

una matriz con respecto a las bases B y C que notaremos de la siguiente manera: [𝑇]𝐶←𝐵 una

matriz m×n con entradas en F, que podemos pensar que es el nombre de la transformación

lineal en las bases fijadas de V y V’.

Al igual que en los lenguajes humanos a veces es bueno trabajar con los objetos y otras veces

es mejor trabajar con los lenguajes, es decir, con palabras de ese lenguaje, en álgebra lineal

a veces es bueno trabajar con los vectores y las aplicaciones lineales directamente y otras

veces es mejor traducir estos objetos a ‘lenguajes’ es decir, trabajar con las coordenadas y

las matrices de aplicaciones, donde tenemos formas de computar los problemas muy

eficaces.

También a veces es muy importante en los lenguajes humanos o esencial, poder traducir las

palabras de un lenguaje a otro y de la misma manera a veces necesitamos en álgebra lineal

traducir los objetos de un lenguaje a otro.

Ahora veremos una serie de ejemplos para preparar esta subsubsección y las siguientes.

213

EJEMPLO 1: a) Para cualquier base B = {𝑣1 𝑣2 … 𝑣𝑛}, [0]𝐵 = (0⋮0), pues 0 = 0⦁𝑣1 + … + 0⦁𝑣𝑛.

b) Para cualquier base, B = {𝑣1 𝑣2 … 𝑣𝑛}, [𝑣𝑖]𝐵 =

(

0⋮010⋮0)

= 𝑒𝑖, con el 1 en la posición i, pues, 𝑣𝑖

= 0⦁𝑣1 + … + 1⦁𝑣𝑖 + … + 0⦁𝑣𝑛.

EJEMPLO 2: Sea V = 𝐹𝑛, y sea E = {𝑒1 𝑒2 … 𝑒𝑛} la base estándar. Si v = (


), entonces, v =

(

𝑐10⋮0

) + (

0𝑐2⋮0

) + … + (

00⋮𝑐𝑛

) = 𝑐1⦁(

10⋮0

) + 𝑐2⦁(

01⋮0

) + … + 𝑐𝑛⦁(

00⋮1

) = 𝑐1⦁𝑒1 + 𝑐2⦁𝑒2 + … + 𝑐𝑛⦁𝑒𝑛,

de modo que [𝑣]𝐸 = (


), por lo que un vector de 𝐹𝑛 se ve igual a sí mismo en la base

estándar.

EJEMPLO 3: Sea V = 𝑃𝑑(F) y sea B = {1, x, …, 𝑥𝑑}, entonces, [𝑎0 + 𝑎1 ⦁x + ⋯+ 𝑎𝑑 ⦁𝑥𝑑]𝐵 =

(

𝑎0𝑎1⋮𝑎𝑑

).

EJEMPLO 4: Sea V = 𝐹3 y sea B = {(123), (

122), (

397)} una base de V.

a) Si [𝑣]𝐸 = (−140), encuentra, [𝑣]𝐵. Solución: [𝑣]𝐵 = (

𝑐1𝑐2𝑐3) si v = 𝑐1⦁𝑣1 + 𝑐2⦁𝑣2 + 𝑐3⦁𝑣3, por lo

que el problema es un sistema de ecuaciones: (−140) = 𝑐1⦁(

123) + 𝑐2⦁(

122) + 𝑐3⦁(

397) que al

resolverlo nos da 𝑐1 = 3, 𝑐2 = 6 y 𝑐3 = 5, por lo que [𝑣]𝐵 = (365).

b) Si [𝑤]𝐵 = (40−1), encuentra, [𝑤]𝐸. Solución: Vemos que 4⦁𝑣1 + 0⦁𝑣2 - 1⦁𝑣3 = 4⦁(

123) + 0 -

1⦁(397) = (

1−15).

Ahora, con el problema fundamental que vamos a resolver de nuevo, el cambio de

coordenadas de una base a otra, terminamos esta subsubsección. El problema se puede

214

enunciar de la siguiente manera: Supongamos que tenemos 2 bases, B y C, y sabemos la

expresión de [𝑣]𝐵, entonces, ¿Cómo podemos calcular [𝑣]𝐶? En esto consiste nuestro

teorema de esta sección.

TEOREMA (Cambio de bases para vectores): Sea V un espacio vectorial de dimensión n sobre

un cuerpo F y sean B y C dos bases de V. Entonces, hay una matriz n×n, llamémosla 𝑃𝐶←𝐵,

con la propiedad de que [𝑣]𝐶 = 𝑃𝐶←𝐵⦁[𝑣]𝐵, para cada v de V. Si B = {𝑣1 𝑣2 … 𝑣𝑛}, entonces,

𝑃𝐶←𝐵 = [[𝑣1]𝐶 [𝑣2]𝐶 … [𝑣𝑛]𝐶].

DEMOSTRACIÓN: Sabemos que hay un isomorfismo 𝑇1: V → 𝐹𝑛 dado por 𝑇1(v) = [𝑣]𝐵, es

decir, el isomorfismo de las coordenadas, similarmente, 𝑇2: V → 𝐹𝑛 dado por 𝑇2(v) = [𝑣]𝐶 es

otro isomorfismo. Sea T la composición siguiente: T = 𝑇2 ∘ 𝑇1−1: 𝐹𝑛 → 𝐹𝑛, entonces, T es una

aplicación lineal con T([𝑣]𝐵) = 𝑇2 ∘ 𝑇1−1([𝑣]𝐵) = 𝑇2(𝑇1

−1([𝑣]𝐵)) = 𝑇2(v) = [𝑣]𝐶 . Pero sabemos

que toda aplicación lineal T: 𝐹𝑛 → 𝐹𝑛 tiene una matriz P tal que T = 𝑇𝑃, para una única matriz

P, sea 𝑃𝐶←𝐵 esta matriz P. Ahora bien, sabemos que 𝑃𝐶←𝐵 = [𝑃𝐶←𝐵⦁𝑒1 𝑃𝐶←𝐵⦁𝑒2 … 𝑃𝐶←𝐵⦁𝑒𝑛],

pero recordemos que [𝑣𝑖]𝐵 = 𝑒𝑖, entonces tenemos que 𝑃𝐶←𝐵⦁𝑒𝑖 = 𝑃𝐶←𝐵⦁[𝑣𝑖]𝐵 = [𝑣𝑖]𝐶. □

DEFINICIÓN (Matriz de cambio de base de una base a otra): La matriz 𝑃𝐶←𝐵 se llama la matriz

de cambio de base de la base B a la base C.

12.7 Propiedades de los cambios de base y formas prácticas de realizarlos

Vamos a demostrar un lema que nos da unas propiedades de las matrices de cambio de base

muy interesantes.

LEMA 1: Sean B, C y D bases del espacio vectorial de dimensión finita V. Entonces, se cumple

lo siguiente:

1) 𝑃𝐵←𝐵 = I (La matriz identidad).

2) 𝑃𝐶←𝐵 es invertible y 𝑃𝐵←𝐶 = (𝑃𝐶←𝐵)−1.

3) 𝑃𝐷←𝐵 = 𝑃𝐷←𝐶⦁𝑃𝐶←𝐵.

DEMOSTRACIÓN: 1) 𝑃𝐵←𝐵 tiene la propiedad de que 𝑃𝐵←𝐵⦁[𝑣]𝐵 = [𝑣]𝐵, para todo [𝑣]𝐵 en

𝐹𝑛, de modo que 𝑃𝐵←𝐵 tiene que ser la identidad.

3) Por una parte, por definición se cumple que 𝑃𝐷←𝐵⦁[𝑣]𝐵 = [𝑣]𝐷, para todo vector [𝑣]𝐵 en

𝐹𝑛. Por otra parte, (𝑃𝐷←𝐶⦁𝑃𝐶←𝐵)⦁ [𝑣]𝐵 = 𝑃𝐷←𝐶⦁(𝑃𝐶←𝐵⦁ [𝑣]𝐵) = 𝑃𝐷←𝐶⦁[𝑣]𝐶 = [𝑣]𝐷, para

todo vector [𝑣]𝐵 en 𝐹𝑛, por lo que debe ser que 𝑃𝐷←𝐵 = 𝑃𝐷←𝐶⦁𝑃𝐶←𝐵.

2) Tomemos D = B, entonces por 1) y 3) tenemos que 𝑃𝐵←𝐶⦁𝑃𝐶←𝐵 = 𝑃𝐵←𝐵 = I y similarmente,

𝑃𝐶←𝐵⦁𝑃𝐵←𝐶 = 𝑃𝐶←𝐶 = I, por lo que 𝑃𝐶←𝐵 y 𝑃𝐵←𝐶 son inversas una de la otra. □

La parte 2) del lema anterior nos dice que toda matriz de cambio de base es invertible. Nos

podemos preguntar si toda matriz invertible es una matriz de cambio de base y la respuesta

es que sí como vamos a ver en el siguiente lema.

LEMA 2: Sea P una matriz invertible de dimensión n×n. Sea B una base de V, entonces, existe

una base de V, tal que 𝑃𝐶←𝐵 = P.

215

DEMOSTRACIÓN: Sea Q = 𝑃−1. Sea Q = (𝑞1 𝑞2 … 𝑞𝑛) = (𝑞𝑖𝑗). Sea B = {𝑣1 𝑣2 … 𝑣𝑛} y definamos

C = {𝑤1 𝑤2 … 𝑤𝑛}, de la siguiente manera: 𝑤𝑗 = ∑ 𝑞𝑖𝑗⦁𝑖=𝑛𝑖=1 𝑣𝑖 para j = 1, …, n, de modo que

[𝑤𝑗]𝐵 = 𝑞𝑗, para j = 1, …, n, entonces, por el teorema de la subsubsección anterior se tiene

(con los roles de B y C cambiados) 𝑃𝐵←𝐶 = ([𝑤1]𝐵 [𝑤2]𝐵 … [𝑤𝑛]𝐵 = (𝑞1 𝑞2 … 𝑞𝑛) = Q, de modo

que 𝑃𝐶←𝐵 = 𝑄−1 = P. □

Ahora veamos como calcular las matrices de cambio de base de forma práctica. Hay 2

métodos, uno directo y otro indirecto.

El método directo, es usar la fórmula del teorema de la subsubsección anterior para 𝑃𝐶←𝐵

donde nos dice que la columna i de 𝑃𝐶←𝐵 es [𝑣𝑖]𝐶 las coordenadas del vector 𝑣𝑖 en la base C.

Pero esto se obtiene usando un sistema de ecuaciones, que ya sabemos cómo resolverlo.

El método indirecto para V = 𝐹𝑛, es el siguiente. Sea B una base de V, B = {𝑣1 𝑣2 … 𝑣𝑛} y sea

E la base estándar de 𝐹𝑛.

1) Supongamos que queremos encontrar 𝑃𝐸←𝐵, lo cual, es muy fácil, pues 𝑃𝐸←𝐵 = ([𝑣1]𝐸

[𝑣2]𝐸 … [𝑣𝑛]𝐸, de modo que 𝑃𝐸←𝐵 = (𝑣1 𝑣2 … 𝑣𝑛).

2) Supongamos que queremos hallar 𝑃𝐵←𝐸 = (𝑃𝐸←𝐵)−1 y ya sabemos cómo hallar inversas

de matrices.

3) Supongamos que queremos hallar 𝑃𝐶←𝐵, podemos introducir, la base E estándar como

intermedia y hacer 𝑃𝐶←𝐵 = 𝑃𝐶←𝐸⦁𝑃𝐸←𝐵 = (𝑃𝐸←𝐶)−1⦁𝑃𝐸←𝐵, por lo que tendríamos que

calcular una inversa de una matriz fácil.

Veamos un ejemplo.

EJEMPLO: Sea V = 𝐹2, sea B = {(13), (

27)} y C = {(

94), (

21)}. Entonces,

𝑃𝐸←𝐵 = (1 23 7

), 𝑃𝐵←𝐸 = (𝑃𝐸←𝐵)−1= (

1 23 7

)−1

= (7 −2−3 1

),

𝑃𝐸←𝐶 = (9 24 1

), 𝑃𝐶←𝐸 = (𝑃𝐸←𝐶)−1= (

9 24 1

)−1

= (1 −2−4 9

),

𝑃𝐶←𝐵 = 𝑃𝐶←𝐸⦁𝑃𝐸←𝐵 = (1 −2−4 9

)⦁(1 23 7

) = (−5 −1223 55

),

𝑃𝐵←𝐶 = 𝑃𝐵←𝐸⦁𝑃𝐸←𝐶 = (𝑃𝐶←𝐵)−1= (

55 12−23 −5

).

Nótese que 𝑃𝐶←𝐵 = (−5 −1223 55

) = ((13)𝐶

(27)𝐶) y vemos lo siguiente:

(13) = (-5)⦁ (

94) + 23⦁(

21) y (

27) = (-12)⦁ (

94) + 55⦁(

21).

12.8 Matriz asociada a una aplicación lineal entre dos espacios vectoriales generales sobre el

mismo cuerpo F

En esta subsubsección veremos como toda aplicación lineal T: V → V’ tiene asociada una

matriz con respecto a dos bases, B de V y C de V’ que notaremos como [𝑇]𝐶←𝐵. Esto permite

tratar problemas de las aplicaciones lineales como problemas de matrices.

216

Recordemos que, para cualquier aplicación lineal, T: 𝐹𝑛 → 𝐹𝑛 era T = 𝑇𝐴, para una matriz A,

y llamábamos a A la matriz estándar de T. Como veremos, A es la matriz de T relativa a las

bases estándar 𝐸𝑛 y 𝐸𝑚, de 𝐹𝑛 y 𝐹𝑚 respectivamente, es decir, en nuestra nueva notación A

= [𝑇𝐴]𝐸𝑚←𝐸𝑛, pero si usamos diferentes bases, obtendremos diferentes matrices para 𝑇𝐴.

Estudiaremos como se transforman las matrices de las aplicaciones lineales si escogemos

diferentes bases, así como estudiamos como se transforman las coordenadas de un vector al

elegir una base diferente.

Considerando la metáfora de que una base nos da un lenguaje para estudiar los vectores,

ahora un par de bases nos permiten estudiar las transformaciones lineales y veremos que

unas bases escogidas son mejores para estudiar una aplicación lineal de modo que en nuestra

metáfora según la aplicación lineal hay un lenguaje o lenguajes mejores que otros.

Veamos un ejemplo.

EJEMPLO 1: Consideremos la aplicación lineal 𝑇1: 𝐹2 → 𝐹2, dada por 𝑇𝐴1, con 𝐴1 = (2 00 5

) y

𝑇2: 𝐹2 → 𝐹2, dada por 𝑇𝐴2, con 𝐴2 = (−13 −930 20

).

Entonces, veamos que 𝑇1 tiene un significado geométrico claro, pues si E = {𝑒1, 𝑒2} es la base

estándar de 𝐹2, tenemos que 𝑇1(𝑒1) = (2 00 5

)⦁(10) = (

20) = 2⦁(

10) y 𝑇1(𝑒2) = (

2 00 5

)⦁(01) =

(05) = 5⦁(

01), por lo que 𝑇1 preserva la dirección de 𝑒1 aunque la aumenta en un factor de 2

y también 𝑇1 preserva la dirección de 𝑒2 aunque la aumenta en un factor de 5. Pero por otra

parte no vemos un significado claro a 𝑇2 en la base estándar, pero si escogemos la siguiente

base: B = {(3−5), (

−12)} = {𝑣1, 𝑣2}, vemos que 𝑇2(𝑣1) = (

−13 −930 20

)⦁(3−5) = (

6−10

) =

2⦁(3−5) y 𝑇2(𝑣2) = (

−13 −930 20

)⦁(−12) = (

−510) = 5⦁(

−12) y por tanto, vemos que tiene el

mismo significado geométrico que 𝑇1 preserva la dirección 𝑣1 aunque la aumenta en un

factor de 2 y también preserva la dirección 𝑣2 aunque la estira en un factor de 5.

Por lo que para estudiar 𝑇1 deberíamos usar la base estándar, pero para estudiar 𝑇2 es mejor

usar la base B.

De momento no estudiaremos como obtener la base apropiada para una transformación

lineal, pero veremos este tema en seccione posteriores.

Ahora demostraremos el teorema que nos da conocimiento sobre la discusión que hemos

tenido.

TEOREMA (La ecuación de una aplicación lineal y la matriz asociada a una aplicación lineal

dadas las bases B y C): Sea T: V → V’ una aplicación lineal entre dos espacios vectoriales V y

V’ de dimensión finita n y m respectivamente. Sean B = {𝑣1, …, 𝑣𝑛}, C = {𝑣′1, …, 𝑣′𝑚}, bases

de V y V’ respectivamente. Definimos la matriz [𝑇]𝐶←𝐵, asociada a T con respecto a las bases

B y C, de la siguiente manera:

217

{𝑇(𝑣1) = 𝑎11⦁𝑣′1 +⋯+ 𝑎𝑚1⦁𝑣′𝑚

…𝑇(𝑣𝑛) = 𝑎1𝑛⦁𝑣′1 +⋯+ 𝑎𝑚𝑛⦁𝑣′𝑚

, por lo que (𝑇(𝑣1) … 𝑇(𝑣𝑛)) =

(𝑣′1 … 𝑣′𝑚)⦁(𝑎11 … 𝑎1𝑛…𝑎𝑚1

……

…𝑎𝑚𝑛

) = T(B) = C⦁[𝑇]𝐶←𝐵 (1),

donde T(B) y C representan matrices de vectores.

Sean x de V e y de V’ vectores con las siguientes coordenadas:

x = 𝑥1⦁𝑣1 + … + 𝑥𝑛⦁𝑣𝑛 o x = (𝑣1 … 𝑣𝑛)⦁(

𝑥1⋮𝑥𝑛),

y = T(x) = 𝑦1⦁𝑣1 + … + 𝑦𝑚⦁𝑣𝑚 o y = T(x) = (𝑣′1 … 𝑣′𝑚)⦁(

𝑦1⋮𝑦𝑛). Entonces, las relaciones entre

las coordenadas de los vectores x e y es la siguiente:

{

𝑦1 = 𝑎11⦁𝑥1 +⋯+ 𝑎1𝑛⦁𝑥𝑛 …

𝑦𝑚 = 𝑎𝑚1⦁𝑥1 +⋯+ 𝑎𝑚𝑛⦁𝑥𝑛 ó (

𝑦1⋮𝑦𝑚) = (

𝑎11 … 𝑎1𝑛…𝑎𝑚1

……

…𝑎𝑚𝑛

)⦁(

𝑥1⋮𝑥𝑛), es decir,

Y = [𝑇]𝐶←𝐵⦁X (2).

DEMOSTRACIÓN: C⦁Y = T(x) = T(B⦁X) = T(B)⦁X = por (1) = C⦁[𝑇]𝐶←𝐵⦁X, lo que implica por ser

C base,

Y = [𝑇]𝐶←𝐵⦁X. □

DEFINICIÓN (Ecuación matricial de una aplicación lineal y matriz asociada a una aplicación

lineal con respecto a las bases B y C): La ecuación (2) del anterior teorema se llama ecuación

matricial de la aplicación lineal T y la matriz [𝑇]𝐶←𝐵 es la matriz asociada a la aplicación lineal

T con respecto a las bases B y C.

Un caso muy importante de la ecuación matricial y la matriz de una aplicación lineal es

cuando ocurre que V = V’, es decir, cuando T es un endomorfismo, entonces lo natural es

considerar la misma base, B y C = B para la matriz [𝑇]𝐶←𝐵 que entonces ocurre que [𝑇]𝐶←𝐵 =

[𝑇]𝐵←𝐵 que se suele notar como [𝑇]𝐵.

EJEMPLO 2: Sea V = 𝐹𝑛 y V’ = 𝐹𝑚, sea T: V → V’ y T = 𝑇𝐴, de modo que T: 𝐹𝑛 → 𝐹𝑚 y T(v) = 𝑇𝐴

(v) = A⦁v. Sea 𝐸𝑛 la base estándar de 𝐹𝑛 y 𝐸𝑚 la base estándar de 𝐹𝑚, entonces, [𝑇]𝐸𝑚←𝐸𝑛

está definida por [𝑇(𝑣)]𝐸𝑚 = [𝑇]𝐸𝑚←𝐸𝑛 ⦁[𝑣]𝐸𝑛 , es decir, [A⦁𝑣]𝐸𝑚 = [𝑇]𝐸𝑚←𝐸𝑛 ⦁[𝑣]𝐸𝑛 , pero

recordemos que [𝑣]𝐸𝑛 = v y [A⦁𝑣]𝐸𝑚 = A⦁v, de modo que A⦁v = [𝑇]𝐸𝑚←𝐸𝑛 ⦁v, por lo que A =

[𝑇]𝐸𝑚←𝐸𝑛 , por lo que la matriz estándar de la transformación lineal 𝑇𝐴 es la matriz de 𝑇𝐴 con

respecto a las bases estándar respectivas. Podemos decir que, al igual que los vectores en las

bases estándar se ven iguales a sí mismos, también, la aplicación lineal que consiste en la

multiplicación por una matriz A se ve igual a sí misma en las bases estándar.

Terminamos esta subsubsección con un resultado importante, es el siguiente.

218

PROPOSICIÓN (Aplicación lineal asociada a una matriz): Toda matriz es la matriz asociada a

una aplicación lineal con respecto a ciertas bases.

DEMOSTRACIÓN: Sea A = (𝑎𝑖𝑗) una matriz de dimensión m×n. Sean V y V’ dos espacios

vectoriales de dimensión finita respectivamente n y m y B = {𝑣1, …, 𝑣𝑛}, C = {𝑣′1, …, 𝑣′𝑚},

bases de V y V’ respectivamente. Entonces, la aplicación lineal T: V → V’ dada por T(𝑣𝑗) =

∑ 𝑎𝑖𝑗⦁𝑖=𝑚𝑖=1 𝑣′𝑖 1 ≤ j ≤ n, esto es, (T(𝑣1) … T(𝑣𝑛)) = (𝑣′1 … 𝑣′𝑚)⦁A, verifica que A = [𝑇]𝐶←𝐵. □

12.9 Cálculo de las dimensiones

En esta subsubsección veremos los aspectos elementales de lo que se llama el teorema

básico del cálculo de las dimensiones relacionado con una aplicación lineal. Sin más

empecemos y veamos que significa todo esto.

TEOREMA: Sea T: V → V’ una aplicación lineal entre dos espacios vectoriales V y V’. Sea W un

complemento de Ker(T), entonces, T: W → Im(T) es un isomorfismo. Es más, por tanto,

codim(Ker(T)) = dim(Im(T)).

DEMOSTRACIÓN: Demostraremos que T: W → Im(T) es inyectiva y suprayectiva.

Es suprayectiva. Sea u de Im(T), entonces, por definición, u = T(v), para algún v de V. Ya que

W es un complemento de Ker(T), V = W + Ker(T), por lo que podemos escribir v = w + v’ con

v’ en Ker(T) y w de W, pero entonces, u = T(v) = T(w + v’) = T(w) + T(v’) = T(w) + 0 = T(w).

Es inyectiva. Sea w de W con T(w) = 0, entonces, w pertenece también a Ker(T), pero como

W es un complemento de Ker(T), esto obliga a que w = 0.

Para finalizar, recordemos que si U es un subespacio, entonces codim(U) = dim(W) con W tal

que V es la suma directa de U y W, por lo que codim(Ker(T)) = dim(W) = dim(Im(T)) ya que

hemos demostrado que W e Im(T) son isomorfos. □

COROLARIO 1 (Primer Teorems de Isomorfía): Sea T: V → V’ una aplicación lineal entre dos

espacios vectoriales V y V’. Entonces, V/Ker(T) es isomorfo a Im(T).

DEMOSTRACIÓN: Sabemos por el teorema de la subsubsección 11.5 que V/Ker(T) es isomorfo

a cualquier suplementario W, de Ker(T), pero hemos demostrado en el teorema anterior que

W es isomorfo que Im(T), por lo que se concluye que V/Ker(T) es isomorfo a Im(T), pero

daremos explícitamente este isomorfismo.

Sea �̅�: V/Ker(T) → Im(T) como sigue. Sea A un elemento de V/Ker(T), de modo que A = t +

Ker(T), para algún t de V. Hagamos �̅�(A) = T(t). Veamos que esta aplicación está bien definida,

es decir no depende de la elección del vector t. Sabemos que si t + Ker(T) = A y B = r + Ker(T)

son iguales se tiene que t – r = u de Ker(T), pues si no ocurre así, A Y B no podrían ser iguales.

De modo que t = r + u con u de Ker(T), y se tiene que T(t) = T(r + u) = T(r) + T(u) = T(r) + 0 =

T(r) por lo que si �̅�(A) = T(r) tenemos que �̅�(A) = �̅�(r + Ker(T)) = �̅�(r + u + Ker(T)) = �̅�(t + Ker(T))

= T(t), por lo que �̅� está bien definida siempre que A y B sean iguales, es decir, �̅� no depende

de la elección de t o r siempre que t= r + u, para algún u de Ker(T). Además, todos los vectores

con la misma imagen, pertenecen al mismo elemento de V/Ker(T), pues si T(t) = T(r),

entonces, T(t – r) = T(t) – T(r) = 0 implica que t = r + (t – r), es decir, t = r + u con u de Ker(T),

219

de modo que A = t + Ker(T) = B = r + Ker(T). Ahora veamos que �̅� es lineal. Sea �̅�(A + B) = �̅�(t

+ Ker(T) + s + Ker(T)) = �̅�(t + s + Ker(T)) = T(t + s) = T(t) + T(s) = �̅�(A) + �̅� (B). Y �̅�(c⦁A) = �̅�(c⦁(t

+ Ker(T))) = �̅�(c⦁t + Ker(T)) = T(c⦁t) = c•T(t) = c⦁�̅�(A), para cualquier c de F. Ahora veamos que

�̅� es inyectiva. Si �̅�(A) = 0 implica que A = 0 + Ker(T) = Ker(T), de modo que A = 0 y no hay otra

posibilidad. Veamos por úlitmo que �̅� es suprayectiva. Para todo t de V existe un A = t +

Ker(T) tal que �̅�(A) = �̅�(t + Ker(T)) = T(t). □

Ahora estamos preparados para ver el corolario principal de esta subsubsección.

COROLARIO 2 (Teorema del cálculo básico de las dimensiones): Sea T: V → V’ una aplicación

lineal entre dos espacios vectoriales V y V’. Entonces, dim(Ker(T)) + dim(Im(T)) = dim V.

DEMOSTRACIÓN: Ya vimos anteriormente que para dos subespacios complementarios, U y

W, dim(U) + dim(W) = V = dim(U) + codim(U), por lo que dim(Ker(T)) + codim(Ker(T)) = dim(V),

pero codim(Ker(T)) = dim(Im(T)) por el teorema de esta subsubsección, por lo que se deduce

lo siguiente: dim(Ker(T)) + codim(Ker(T)) = dim(Ker(T)) + dim(Im(T)) = dim(V). □

El siguiente corolario no es más que la traducción del anterior al lenguaje de matrices. No es

un nuevo resultado, porque ya lo demostramos en la subsubsección 10.4, pero es una nueva

demostración con las herramientas que hemos visto en esta subsubsección.

COROLARIO 3: Sea A una matriz de dimensión m×n. Entonces,

rag(A) + nul(A) = n.

DEMOSTRACIÓN: Claro por el corolario anterior. □

Ahora para terminar, deducimos dos corolarios que nos resumen este tema del cáculo de las

dimensiones y son muy útiles para el futuro como veremos.

COROLARIO 4: Sea T: V → V’ una aplicación lineal, con dim(V) = n y dim(V’) = m. Entonces,

dim(Ker(T)) ≥ n – m y codim(Im(T)) ≥ m – n.

DEMOSTRACIÓN: dim(Ker(T)) = n - dim(Im(T)) ≥ n – m. codim(Im(T)) = m – dim(Im(T)) ≥ m –

n, ya que dim(Im(T)) ≤ n. □

En el siguiente corolario resumimos los resultados del cálculo de dimensiones.

COROLARIO 5: Sea T: V → V’ una aplicación lineal, con dim(V) = n y dim(V’) = m. Se cumple lo

siguiente.

1) Si n > m, entonces, T no es inyectiva.

2) Si n < m, entonces, T no es suprayectiva.

3) Si n = m, entonces lo siguiente es equivalente:

a) T es inyectiva y suprayectiva, es decir, un isomorfismo.

b) T es inyectiva.

c) T es suprayectiva.

DEMOSTRACIÓN: 1) Si n > m, entonces, dim(Ker(T)) > 0. 2) Si n < m, entonces, codim(Im(T))

> 0. 3) Sea k = dim(Ker(T)), i = dim(Im(T)), entonces n = k + i y por tanto, lo siguiente es

equivalente: a) k = 0 y i = n, b) k = 0, c) i = n. □

220

En teoría y práctica, la parte 3) de este corolario es muy importante. Supongamos que

tenemos una aplicación lineal T: V → V’ entre dos espacios vectoriales de la misma dimensión

y queremos saber si es un isomorfismo. Entonces, se supone que debemos demostrar b) y c),

pero este teorema nos dice que solo debemos demostrar una de las dos proposiciones. Pero

es mejor que solo realizar la mitad del trabajo, pues a veces es más fácil demostrar una de

las dos proposiciones, mientras que la otra es difícil, por lo que si demostramos la proposición

fácil tenemos el problema resuelto.

12.10 Núcleo e imagen de una aplicación lineal y matrices

En esta subsubsección veremos como la matriz asociada a una aplicación lineal nos permite

también calcular el núcleo e imagen de esta. Supongamos que T: V → V’ es una aplicación

lineal con dim(V) = n y dim(V’) = m y sea A la matriz asociada a T con respecto a las bases B

de V y C de V’, entonces, sea r = rag(A). Sabemos que las columnas de A son las coordenadas

respecto a C de un sistema de generadores de Im(T) y por tanto, dim(Im(T)) = r. Por otra

parte, un vector x de V de coordenadas x = (𝑥1, … , 𝑥𝑛)𝐵, está en el núcleo de T si y sólo si,

T(x) = 0, o, por tanto, si y sólo si, A⦁X = 0 y, por tanto, esto define unas ecuaciones cartesianas

de Ker(T), a partir del sistema homogéneo cuya matriz de coeficientes es A:

{

𝑎11⦁𝑥1 +⋯+ 𝑎1𝑛⦁𝑥𝑛 = 0𝑎21⦁𝑥1 +⋯+ 𝑎2𝑛⦁𝑥𝑛 = 0…𝑎𝑚1⦁𝑥1 +⋯+ 𝑎𝑚𝑛⦁𝑥𝑛 = 0

,

de estas m ecuaciones, el número de ecuaciones independientes es r = rag(A) y en

consecuencia, dim(Ker(T)) = n – r, por lo que obtenemos otra vez la ecuación para el cálculo

de las dimensiones: dim(Ker(T)) + dim(Im(T)) = dim(V).

De modo que, hasta ahora, tenemos que podemos obtener un sistema de generadores de

Im(T) gracias a la matriz A asociada a la aplicación lineal T, siempre que fijemos un par de

bases B y C de V y V’ respectivamente, también, hemos visto que podemos obtener unas

ecuaciones cartesianas de Ker(T). Ahora veremos cómo podemos obtener una base tanto

para Im(T) como para Ker(T). Puesto que las columnas de A son un sistema de generadores

de Im(T), si calculamos la forma de hermite por columnas de A, las columnas no nulas de ésta

serán una base de Im(T). Además, si al calcular la forma de hermite (por columnas) realizamos

las operaciones elementales (por columnas) sobre la matriz (𝐴𝐼), obtendremos (

𝐻𝑃), donde

P es una matriz regular de orden n con la propiedad de que H = A⦁P. Por tanto, las columnas

no nulas de H forman una base de Im(T), pero las columnas de P que está bajo las columnas

de ceros de H (si hay alguna) forman una base de Ker(T). Esto es así por lo siguiente: Sea 𝐻𝑖

la columna i-ésima de H y 𝑃𝑖 la columna i-ésima de P, entonces ya que H = A⦁P, se tiene que,

para cada i, A⦁𝑃𝑖 = 𝐻𝑖, luego las columnas de P que están bajo las columnas de ceros de H

verifican que A⦁𝑃𝑗 = 0 y por tanto, estas columnas, son las coordenadas de vectores de Ker(T),

además son n – r vectores que son independientes por ser parte de una matriz regular y

además sabemos que dim(Ker(T)) = n – r, por tanto, forman una base de Ker(T).

Veamos un ejemplo para mostrar este algoritmo.

221

EJEMPLO: Consideremos la aplicación lineal T: ℝ3 → ℝ3, dada por f(x, y, z) = (x + z, y, x + 2⦁y

+ z). Entonces, la matriz asociada con respecto a la base canónica es:

(1 0 101

12

01), de modo que

(

1 0 101100

12010

01001)

reducida da

(

1 0 001100

12010

00−101 )

, por lo que

una base de Im(T) es {(1, 0, 1), (0, 1, 2)} y la de Ker(T) es {(-1, 0, 1)}.

Ahora terminamos con un resultado interesante para saber si una aplicación lineal es

inyectiva, suprayectiva o isomorfismo gracias a la matriz asociada.

COROLARIO: Sea T: V → V’ una aplicación lineal con dim(V) = n y dim(V’) = m y sea A la matriz

m×n asociada a T respecto de las bases B y C. Entones, se cumple:

1) T es inyectiva si y sólo si, rag(A) = n.

2) T es suprayectiva si y sólo si, rag(A) = m.

3) T es un isomorfismo si y sólo si, A es cuadrada y regular.

DEMOSTRACIÓN: 1) T es inyectiva si y sólo si, Ker(T) = 0, lo que implica según sabemos que

dim(Im(T)) = dim(V), es decir, rag(A) = n. 2) T es suprayectiva si y sólo si, Im(T) = V’, es decir,

si y sólo si, dim(Im(T)) = dim(V’), es decir rag(A) = m. 3) T es un isomorfismo, si y sólo si, T es

inyectiva y suprayectiva, de modo que n = rag(A) = m, por tanto, n = m y rag(A) = n, por lo

que A es regular. □

12.11 Matriz asociada a una aplicación lineal y cambio de bases

Veamos ahora como están relacionadas las matrices de una misma aplicación lineal con

respecto a distintas bases. Esto será el contenido del siguiente teorema.

TEOREMA (Matrices asociadas a la misma aplicación lineal con respecto a distintas bases):

Sea T: V → V’ una aplicación lineal con dim(V) = n y dim(V’) = m entre dos espacios vectoriales

V y V’ sobre el mismo cuerpo F.

1) Sean B y �̅� bases de V y C, 𝐶̅ bases de V’, entonces se tiene que �̅� = B•P y 𝐶̅ = C•Q, con P

matriz regular de dimensión n×n y Q regular de dimensión m×m, entonces, la relación

entre [𝑇]𝐶̅←�̅� y [𝑇]𝐶←𝐵 es:

[𝑇]𝐶̅←�̅� = 𝑄−1•[𝑇]𝐶←𝐵•P.

2) Dos matrices son equivalentes si y sólo si, son matrices asociadas a la misma aplicación

lineal con respecto a distintas bases.

3) Si V’ = V, por lo que T es un endomorfismo con m = n y con B = C y �̅� = 𝐶̅ lo que implica

que P = Q, entonces, la relación entre [𝑇]�̅� y [𝑇]𝐵 es:

[𝑇]�̅� = 𝑃−1•[𝑇]𝐵•P.

4) Sean dos matrices A y B se dice que A y B son semejantes si existe una matriz regular P

tal que B = 𝑃−1•A•P. Entonces, se cumple que dos matrices son semejantes si y sólo si,

son matrices asociadas al mismo endomorfismo, respecto de distintas bases.

222

DEMOSTRACIÓN: 1) Se tiene lo siguiente: C•[𝑇]𝐶←𝐵•P = T(B) •P = T(B•P) = T(�̅�) = 𝐶̅ •[𝑇]𝐶̅←�̅� =

C•Q•[𝑇]𝐶̅←�̅� , lo que implica que [𝑇]𝐶←𝐵•P = Q•[𝑇]𝐶̅←�̅� , por lo que se obtiene que [𝑇]𝐶̅←�̅� =

𝑄−1•[𝑇]𝐶←𝐵•P.

2) Si A y D son matrices asociadas a la misma aplicación lineal pero con respecto a distintas

bases entonces rag(A) = dim(Im(T)) = rag(D), por lo que ambas matrices son equivalentes.

Para el recíproco, supongamos que las matrices A y D son equivalentes, por tanto, hay

matrices regulares 𝑄−1 y P con D = 𝑄−1•A•P. Consideremos la aplicación lineal T: 𝐹𝑛 → 𝐹𝑚

cuya matriz con respecto a las bases canónicas 𝐸𝑛 de 𝐹𝑛 y 𝐸𝑚 de 𝐹𝑚 es A, tomemos las bases

�̅� de 𝐹𝑛 y 𝐶̅ de 𝐹𝑚, determinadas por ser P la matriz regular de cambio de base de 𝐸𝑛 a �̅� y

por tanto, �̅� = 𝐸𝑛•P y Q tal que 𝐶̅ = 𝐸𝑚•Q, entonces, según hemos visto, la matriz asociada

a T respecto de �̅� y 𝐶̅ es D.

3) Es consecuencia inmediata de 1). 4) es consecuencia inmediata de 1) y 2). □

12.12 Matriz asociada a una aplicación lineal y operaciones definidas en las

aplicaciones y en las matrices

Hemos visto anteriormente, que para una matriz A y su aplicación lineal asociada 𝑇𝐴

debíamos definir las operaciones para las matrices de cierta forma para que tuvieran las

propiedades adecuadas y coincidieran con nuestras operaciones definidas anteriormente

para las matrices. Ahora veremos que para aplicaciones lineales generales la definición de las

operaciones en las matrices es la adecuada y además esto nos permite definir un isomorfismo

entre las aplicaciones lineales y las matrices correspondientes. Veámoslo en los siguientes

teoremas.

TEOREMA 1 (Operaciones en las aplicaciones lineales y sus correspondientes en las matrices):

Sean V, V’, V’’ espacios vectoriales sobre el mismo cuerpo F de dimensiones finitas, sean T,

S: V → V’ y U: V’ → V’’ aplicaciones lineales y B, C y D bases de V, V’ y V’’ respectivamente,

entonces se tiene:

1) [𝑇 + 𝑆]𝐶←𝐵 = [𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵.

2) [r • 𝑇]𝐶←𝐵 = r•[𝑇]𝐶←𝐵 para todo escalar r de F.

3) [U ∘ 𝑇]𝐷←𝐵 = [𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵.

DEMOSTRACIÓN: 1) C•[𝑇 + 𝑆]𝐶←𝐵 = (T + S)(B) = T(B) + S(B) = C•[𝑇]𝐶←𝐵 + C•[𝑆]𝐶←𝐵 =

C•([𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵), lo que implica que [𝑇 + 𝑆]𝐶←𝐵 = [𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵.

2) C•[r • 𝑇]𝐶←𝐵 = r•T(B) = r•(C•[𝑇]𝐶←𝐵) = C•(r•[𝑇]𝐶←𝐵) lo que implica que [r • 𝑇]𝐶←𝐵 =

r•[𝑇]𝐶←𝐵.

3) D•[U ∘ 𝑇]𝐷←𝐵 = (U ∘ 𝑇)(B) = U(T(B)) = U(C•[𝑇]𝐶←𝐵) = U(C)• [𝑇]𝐶←𝐵 = D•[𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵

lo que implica que [U ∘ 𝑇]𝐷←𝐵 = [𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵. □

TEOREMA 2: Sean V, V’ espacios vectoriales sobre el mismo cuerpo F de dimensiones n y m

respectivamente y B y C bases de V y V’ respectivamente. Entonces la siguiente aplicación:

𝜙: Hom(V, V’) → ℳ𝑚×𝑛(F), T → [𝑇]𝐶←𝐵, es un isomorfismo,

y por tanto, dim(Hom(V, V’)) = m•n.

223

Cuando V = V’ y B = C, entonces:

𝜙: EndF(V) →ℳ𝑛(F), T → [𝑇]𝐵 es un isomorfismo de Álgebras

DEMOSTRACIÓN: La aplicación 𝜙 es lineal, según se ve en el teorema anterior, además es

inyectiva y suprayectiva, porque a cada aplicación lineal le corresponde una matriz y cada

matriz corresponde a una aplicación lineal como vimos. Por tanto 𝜙 es un isomorfismo y

dim(Hom(V, V’)) = dim(ℳ𝑚×𝑛(F)) = m•n.

En el caso de que V = V’ y escogemos una única base B = C, se tiene que la composición de

aplicaciones lineales T y S con matrices [𝑇]𝐵 y [𝑆]𝐵 respectivamente tiene por matriz el

producto de esas, es decir: 𝜙(S∘T) = [𝑆]𝐵•[𝑇]𝐵 = 𝜙(S)•𝜙(T) y 𝜙 es un isomorfismo de

álgebras. □

13 Espacio Vectorial Dual

13.1 Definición y la base dual asociada a una base de V

DEFINICIÓN 1 (Espacio dual): El espacio dual, 𝑉∗, de un espacio vectorial V sobre el cuerpo

F es el espacio vectorial 𝑉∗ = Hom(V, F), es decir, el espacio vectorial de las aplicaciones

lineales T: V → F. A estas aplicaciones T se las denomina formas lineales o funcionales

lineales.

Notemos que F es en sí mismo un espacio vectorial, de modo que la definición anterior

tiene sentido y también porque para dos espacios vectoriales V y V’, Hom(V, V’) es un

espacio vectorial sobre F.

DEFINICIÓN 2: Sea B = {𝑣1, 𝑣2, …} una base de un espacio vectorial V, entonces sea 𝐵∗ = {𝑢1∗,

𝑢2∗ , …} es subconjunto de 𝑉∗ tal que 𝑢𝑖

∗(𝑣𝑖) = 1 y 𝑢𝑖∗(𝑣𝑗) = 0, para todo j distinto de i.

De nuevo esta definición tiene sentido. Puesto que B es una base de V, existe una única

aplicación lineal T: V → F que toma los valores que hemos dicho para los elementos de B,

por lo que para cada i, hay una única T: V → F con T(𝑣𝑖) = 1 y T(𝑣𝑗) = 0, para todo j distinto

de i, a esta aplicación lineal la llamamos 𝑢𝑖∗.

LEMA: 1) Para cualquier base B de V, 𝐵∗ es un subconjunto de 𝑉∗ linealmente

independiente.

2) Si V es de dimensión finita, entonces, 𝐵∗ es una base de 𝑉∗.

DEMOSTRACIÓN: 1) Supongamos que 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ = 0, donde este último 0 es la

aplicación lineal 0, entonces, (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ )(v) = 0 para todo v de V, haciendo v = 𝑣𝑖,

para i = 1, …, k se tiene, 0 = (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ )(𝑣𝑖) = 𝑐1•𝑢1∗(𝑣𝑖) + … + 𝑐𝑖•𝑢𝑖

∗(𝑣𝑖) + … +

𝑐𝑘•𝑢𝑘∗ (𝑣𝑖) = 𝑐1•0 + … + 𝑐𝑖•1 + … + 𝑐𝑘•0 = 𝑐𝑖, por lo que 𝐵∗ es linealmente independiente. 2)

Supongamos que V es de dimensión finita n. Sea 𝑢∗ cualquier vector de 𝑉∗. Sea 𝑐𝑖 = 𝑢∗(𝑣𝑖)

para i = 1, …, n, entonces, (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑛

∗ )(𝑣𝑖) = 𝑐𝑖 = 𝑢∗(𝑣𝑖), por lo que 𝑢∗ y 𝑐1•𝑢1∗ + …

+ 𝑐𝑘•𝑢𝑛∗ coinciden en los valores de una base y por tanto se tratan de la misma aplicación

224

lineal, lo que significa que 𝐵∗ es un sistema de generadores de 𝑉∗ y, por tanto, una base de

𝑉∗. □

COROLARIO 1: Si V es de dimensión finita entonces, dim V = dim 𝑉∗ y, por tanto, V y 𝑉∗ son

isomorfos.

DEMOSTRACIÓN: B = {𝑣1, …, 𝑣𝑛} y 𝐵∗ = {𝑢1∗, …, 𝑢𝑛

∗ } tienen el mismo número de elementos.

□

DEFINICIÓN 3 (Base dual de V): Si V es de dimensión finita y B es una base de V, entonces,

la base 𝐵∗ de 𝑉∗ de la definición 2 se la llama la base dual de V.

DEFINICIÓN 4 (Base dual estándar): Ahora definimos un caso especial de la definición 3

anterior. Cuando V = 𝐹𝑛 y escogemos como base de V, la base estándar E = {𝑒1, …, 𝑒𝑛},

entonces, su base dual 𝐸∗ = {𝑒1∗, …, 𝑒𝑛

∗} de (𝐹𝑛)∗, definida según la definición anterior como

𝑒𝑖∗(𝑒𝑗) = 1, si j = i y 𝑒𝑖

∗(𝑒𝑗) = 0, si i es diferente de j, se denomina la base estándar de (𝐹𝑛)∗,

que es, por supuesto, la base dual de la base estándar de V = 𝐹𝑛.

Hagamos ahora una observación muy importante. Según la definición 2, si V es de

dimensión infinita, entonces para la base B, de V, el conjunto 𝐵∗ no es una base de 𝑉∗,

porque si B = {𝑣1, 𝑣2, …} es infinita tenemos la siguiente aplicación lineal, 𝑢∗: V → F, definida

por 𝑢∗(𝑣𝑖) = 1, para todo i. La cual no es una combinación lineal de 𝑢1∗, …, 𝑢𝑘

∗ , para cualquier

k que determinemos, porque la combinación lineal que valdría sería infinita, sería 𝑢1∗ + 𝑢2

∗

+ …, la cual, no es una combinación lineal, puesto que todas las combinaciones lineales son

una suma finita de términos.

COROLARIO 2: Para cualquier espacio vectorial V, éste es isomorfo a un subespacio de 𝑉∗.

DEMOSTRACIÓN: Sea B una base de V y sea 𝐵∗, como en la definición 2 de esta

subsubsección. Sea 𝑈∗ el subespacio de 𝑉∗ que es la envolvente lineal de 𝐵∗, por el lema 1

de esta subsubsección, 𝐵∗ es linealmente independiente, por tanto, es una base de 𝑈∗,

pero entonces, tenemos el isomorfismo T: V → 𝑈∗, definido por T(𝑣𝑖) = 𝑢𝑖∗, para cada i,

según la notación de la definición 2 de esta misma subsubsección. □

Hagamos otra observación importante, aunque V sea de dimensión finita, no existe un

isomorfismo natural entre V y 𝑉∗, por ejemplo, siempre elegida una base B según la

definición 2 de esta subsubsección existe el isomorfismo T: V → 𝑉∗, dado por T(∑𝑐𝑖 • 𝑣𝑖) =

∑𝑐𝑖 • 𝑢𝑖∗, pero depende de la elección de una base. Por eso no hemos utilizado la notación

𝑣∗ para los vectores del espacio dual puesto que se podría sobreentender que para un

vector v de V se podría corresponder otro, 𝑣∗ de V que sería su dual, pero esta

correspondencia no existe.

Sigamos notando que dado una base B = {𝑣1, …, 𝑣𝑛} de un espacio vectorial V de dimensión

finita n, sabemos que existe su base dual 𝐵∗ = {𝑢1∗, …, 𝑢𝑛

∗ }, pero cada 𝑢𝑖∗ no solo depende

de elegir una base y no solo depende de 𝑣𝑖, sino que cada vector de la base B.

Terminemos con un ejemplo de esto que hemos hablado para aclarar del todo las cosas.

EJEMPLO: Sea V = 𝐹2 y sea E su base estándar, E = {𝑒1, 𝑒2} = {(10), (

01)}, entonces, la base

dual de E es la base dual estándar, 𝐸∗ = {𝑒1∗, 𝑒2

∗}, con 𝑒1∗(𝑒1) = 1 y 𝑒1

∗(𝑒2) = 0 y 𝑒2∗(𝑒1) = 0 y

225

𝑒2∗(𝑒2) = 1, de modo que 𝑒1

∗((𝑥𝑦)) = x y 𝑒2

∗((𝑥𝑦)) = y. Pero V también tiene la base B = {(

10),

(1−1)} = {𝑣1, 𝑣1}, entonces, 𝐵∗ = {𝑢1

∗, 𝑢2∗} y se puede verificar que 𝑢1

∗ = 𝑒1∗ + 𝑒2

∗ y 𝑢2∗ = -𝑒2

∗,

esto es, 𝑢1∗((𝑥𝑦)) = x + y y 𝑢2

∗((𝑥𝑦)) = -y. Entonces, lo que queríamos ver es que, a pesar de

que 𝑣1 = 𝑒1, 𝑢1∗ ≠ 𝑒1

∗.

13.2 Bases duales para un espacio vectorial V de dimensión finita

En esta subsubsección vamos a ver algunas propiedades de las bases duales cuando el

espacio vectorial de base, V, es de dimensión finita.

PROPOSICIÓN 1 (Primera propiedad de las bases duales): Si 𝐵∗ es la base dual de B,

entonces, para cada forma lineal 𝑢∗ los elementos de su matriz asociada en la base B como

aplicación lineal que es, coinciden con sus coordenadas en la base 𝐵∗.

DEMOSTRACIÓN: Llamemos A = (𝑎1 𝑎2 … 𝑎𝑛) a la matriz asociada a 𝑢∗ en la base B = {𝑣1, …,

𝑣𝑛}. Entonces, 𝑎𝑖 = 𝑢∗(𝑣𝑖), para cada i = 1, 2, …, n, por otra parte, 𝑢∗ = (𝑏1 𝑏2… 𝑏𝑛)𝐵∗,

entonces, 𝑢∗ = 𝑏1 • 𝑢1∗ + 𝑏2 • 𝑢2

∗ + … + 𝑏𝑛 • 𝑢𝑛∗ y si calculamos 𝑎𝑖 = 𝑢∗(𝑣𝑖) = (𝑏1 • 𝑢1

∗ + 𝑏2 • 𝑢2∗

+ … + 𝑏𝑖 • 𝑢𝑖∗ + … + 𝑏𝑛 • 𝑢𝑛

∗ )( 𝑣𝑖) = 𝑏1 • 𝑢1∗(𝑣𝑖) + 𝑏2 • 𝑢2

∗(𝑣𝑖) + … + 𝑏𝑖 • 𝑢𝑖∗(𝑣𝑖) + … + 𝑏𝑛 • 𝑢𝑛

∗ (𝑣𝑖)

= 𝑏1•0 + … + 𝑏𝑖•1 + … + 𝑏𝑛•0 = 𝑏𝑖. □

DEFINICIÓN 1 (Coordenadas de los vectores duales con respecto a una base B de V): Los

números 𝑏𝑖 de las coordenadas de un vector del espacio dual 𝑢∗ de 𝑉∗ determinados por

𝑏𝑖 = 𝑢∗(𝑣𝑖) con B = {𝑣1, …, 𝑣𝑛} una base de V, se llaman las coordenadas de 𝑢∗ con respecto

a la base B.

PROPOSICIÓN 3 (Valor de un funcional que toma en un vector de V): El valor de 𝑢∗(v) de un

funcional arbitrario 𝑢∗ de 𝑉∗, con coordenadas (𝑎1 𝑎2 … 𝑎𝑛) en el vector v de V, con v =

𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, se expresa con la siguiente fórmula: 𝑢∗(v) = 𝑎1•𝑐1 + … + 𝑎𝑛•𝑐𝑛 (*). Y

recíprocamente, la fórmula (*) nos da un único funcional de coordenadas 𝑢∗ =

(𝑎1 𝑎2 … 𝑎𝑛)𝐵

DEMOSTRACIÓN: 𝑢∗(v) = 𝑢∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑛•𝑢∗(𝑣𝑛) = 𝑎1•𝑐1 + … +

𝑎𝑛•𝑐𝑛. Y recíprocamente, si 𝑢∗ está dado por la fórmula (*) se cumple que 𝑢∗(x + y) = 𝑎1•(𝑥1

+ 𝑦1) + … + 𝑎𝑛•(𝑥𝑛 + 𝑦𝑛) = 𝑎1•𝑥1 + … + 𝑎𝑛•𝑥𝑛 + 𝑎1•𝑦1 + … + 𝑎𝑛•𝑦𝑛 = 𝑢∗(x) + 𝑢∗(y). 𝑢∗(c•x)

= 𝑎1•c•𝑥1 + … + 𝑎𝑛•c•𝑥𝑛 = c•(𝑎1•𝑥1 + … + 𝑎𝑛•𝑥𝑛) = c•𝑢∗(x), por tanto se trata de un

funcional lineal y también se cumple que 𝑢∗(𝑣𝑖) = 𝑎1•0 + … + 𝑎𝑖•1 + … + 𝑎𝑛•0 = 𝑎𝑖. □

Veamos el siguiente ejemplo.

EJEMPLO: Consideremos en ℝ3 la base B = {(1, -1, 1), (-1, 2, -1), (-1, 1, 0)} y calculemos la

base dual de B. Puesto que tenemos que conseguir 3 formas lineales bastará conseguir las

matrices asociadas en la base canónica para la primera, digamos 𝑢1∗, llamaremos (𝑎11 𝑎12

𝑎13) y se tienen que verificar las condiciones: 𝑢1∗(1, -1, 1) = 1, es decir, (𝑎11 𝑎12 𝑎13)•(

1−11)

= 1 y análogamente, (𝑎11 𝑎12 𝑎13)•(−12−1) = 0, (𝑎11 𝑎12 𝑎13)•(

−110) = 0 que se puede resumir

226

en el sistema de ecuaciones: (𝑎11 𝑎12 𝑎13)•(1 −1 −1−11

2−1

10) = (

100), antes de resolverlo

observemos que para los otros vectores de la base dual obtendremos otros 2 sistemas de

ecuaciones, con la misma matriz, es decir podemos resolver los 3 sistemas

simultáneamente de la siguiente manera: (𝑎11 𝑎12 𝑎13𝑎21𝑎31

𝑎22𝑎32

𝑎23𝑎33

)•(1 −1 −1−11

2−1

10) =

(1 0 000

10

01) y por tanto, vemos que el problema se trata de obtener la matriz inversa de la

que tiene por columnas las coordenadas de la base B de V: (1 −1 −1 1 0 0−11

2−1

10

00

10

01)

que nos da: (1 0 0 1 1 100

10

01

1−1

10

01). La solución está en que las formas lineales de la base

son las filas de la matriz obtenida, es decir, 𝑢1∗ tiene coordenadas (1, 1, 1), por lo que 𝑢1

∗(x,

y, z) = x + y + z, 𝑢2∗ tiene coordenadas (1, 1, 0), por lo que 𝑢2

∗(x, y, z) = x + y y 𝑢3∗ tiene

coordenadas (-1, 0, 1), por lo que 𝑢3∗(x, y, z) = -x + z.

DEFINICIÓN 2 (Funcionales coordenadas): Consideremos las n funciones ℎ𝑖: V → F dadas por

lo siguiente, fijada una base de B = {𝑣1, …, 𝑣𝑛}, entonces, cada vector v de V se expresa

como v = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, entonces, ℎ𝑖(v) = 𝑐𝑖. Estas funciones son lineales y se llaman

funcionales coordenadas asociadas a la base B.

En la siguiente proposición vemos que estas funcionales coordenadas no son ni más ni

menos que la base dual de B.

PROPOSICIÓN 3 (Segunda propiedad de las bases duales): Si 𝐵∗ = {𝑢1∗, …, 𝑢𝑛

∗ } es la base dual

de B entonces, dado un vector x de V si x = (𝑐1 𝑐2 … 𝑐𝑛)𝐵, se verifica que 𝑐𝑖 = 𝑢𝑖∗(x).

DEMOSTRACIÓN: Si x = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, con B = {𝑣1, …, 𝑣𝑛}, base de V, entonces, 𝑢𝑖∗(x) =

𝑢𝑖∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢𝑖

∗(𝑣1) + … + 𝑐𝑖•𝑢𝑖∗(𝑣𝑖) + … + 𝑐𝑛•𝑢𝑖

∗(𝑣𝑛) = 𝑐1•0 + … + 𝑐𝑖•1 + … +

𝑐𝑛•0 = 𝑐𝑖. Y ya que ℎ𝑖 y 𝑢𝑖∗ coinciden en una base se tratan del mismo funcional. □

13.3 La relación de dualidad entre V y 𝑉∗

Hay una relación de dualidad entre los vectores de V y los de 𝑉∗, para entender esto veamos

que si escribimos 𝑢∗(v) para dos vectores 𝑢∗ de 𝑉∗ y v de V con la notación siguiente, lo

veremos más claro, 𝑢∗(v) = <𝑢∗|v>. Entonces con esta notación se tiene lo siguiente:

<𝑢∗|𝑣1 + 𝑣2> = <𝑢∗|𝑣1> + <𝑢∗|𝑣2>, <𝑢∗|c•v> = c•<𝑢∗|v>, para todo c de F.

<𝑤1∗ + 𝑤2

∗|v> = <𝑤1∗|v> + <𝑤2

∗|v>, <c•𝑢∗|v> = c•<𝑢∗|v>, para todo c de F.

Por lo que al ver estas simetrías vemos que hay una relación entre los vectores de V y 𝑉∗

que es bilineal, lo cual significa que es lineal para cada argumento de la relación fijado el

otro. Según esta relación, a los vectores de 𝑉∗ se los llama covectores o vectores

covariantes y veremos que significa este nombre para ellos en la siguiente subsubsección.

Ahora definiremos lo que significa todo esto de una manera formal.

227

DEFINICIÓN (Relación de dualidad): Sean dos espacios vectoriales V y W sobre el mismo

cuerpo F y supongamos que se define un número de F para cualquier par de elementos v y

w de V y W respectivamente, con las siguientes propiedades:

1) Para cualquier w de W fijo se cumple que hay una función 𝑓1: v → <v|w> que es lineal,

o sea: <𝑣1 + 𝑣2|w> = <𝑣1|w> + <𝑣2|w> y <c•v|w> = c•<v|w>, para todo c de F.

2) Para cualquier v fijo de V se cumple que hay una función 𝑓2: w → <v|w> que también

es lineal: <v|𝑤1 + 𝑤2> = <v|𝑤1> + <v|𝑤2> y <v|c•w> = c•<v|w>, para todo c de F.

3) Para cualquier vector v distinto de 0, existe un vector w tal que <v|w> es distinto de 0

y para cualquier vector w distinto de 0, existe un vector v tal que <v|w> es distinto de

0.

Las condiciones 1) y 2) se llaman condiciones de bilinealidad mientras que la 3) se llaman

condiciones de no singularidad.

Cualquier función <*|*>: v, w → <v|w> con v de V y w de W y <v|w> de F con las

propiedades 1), 2) y 3) se llama pareado e incluso un producto escalar y a los espacios V y

W se los llama duales uno del otro.

PROPOSICIÓN: Todo espacio vectorial V es dual de su espacio de funcionales lineales 𝑉∗.

DEMOSTRACIÓN: Definiendo <𝑢∗|v> = 𝑢∗(v) las propiedades 1) y 2) son evidentes lo único

que nos falta es la 3). Si 𝑢∗ es distinto de 0, por definición esto significa que hay un vector

v de V con 𝑢∗(v) = <𝑢∗|v> distinto de cero. Además, si v es distinto de 0, entonces, en una

expresión con respecto a una base v = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛 hay algún 𝑐𝑖 = ℎ𝑖 distinto de 0 de

modo que ℎ𝑖(v) = <ℎ𝑖|v> es distinto de 0. □

Para terminar esta subsubsección, veamos de nuevo la relación de simetría que hay entre

vectores de V y 𝑉∗. 𝑢∗(v) = <𝑢∗|v> = 𝑢∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑛•𝑢∗(𝑣𝑛) =

ℎ1(v)•𝑢∗(𝑣1) + … + ℎ𝑛(v)• 𝑢∗(𝑣𝑛) = <ℎ1|v>•<𝑢∗|𝑣1> + … + <ℎ𝑛|v>•<𝑢∗|𝑣𝑛> =

<𝑢1∗|v>•<𝑢∗|𝑣1> + … + <𝑢𝑛

∗ |v>•<𝑢∗|𝑣𝑛> (*). Donde señalamos que las coordenadas de un

vector o covector, fijada una base B = {𝑣1, …, 𝑣𝑛}, se obtiene haciendo el producto escalar

del vector o covector con cada uno de los vectores de su base dual y que el producto escalar

de un vector con un covector según vemos en la formula (*), se obtiene realizando la suma

del producto de sus respectivas coordenadas fijada una base B de V.

13.4 Cambio de coordenadas de un covector en un cambio de la base de V

En esta subsubsección vamos a ver que la matriz del cambio de bases de los vectores de

𝑉∗, fijadas dos bases de 𝑉∗, se relaciona con la matriz de cambio de bases del espacio

vectorial V, en concreto, la relación entre una y otra es que son la inversa traspuesta de la

otra. Sin más demostraremos este hecho.

PROPOSICIÓN (Base dual y cambio de base): Sea V un espacio vectorial sobre el cuerpo F,

de dimensión finita, n. Sean B = {𝑣1, …, 𝑣𝑛}, y B’ = {𝑣′1, …, 𝑣′𝑛}, bases de V y sea B’ = B•P,

con P matriz regular cuadrada de dimensión n, tal que P = (𝑎𝑖𝑗), entonces se tiene que 𝐵′∗

= 𝐵∗•(𝑃−1)𝑡.

228

DEMOSTRACIÓN: Sean 𝐵∗ = {𝑢1∗, …, 𝑢𝑛

∗ } y 𝐵′∗ = {𝑢′1∗ , …, 𝑢′𝑛

∗ } las bases de 𝑉∗, duales de B y

B’, respectivamente, y escribamos 𝐵′∗ = 𝐵∗•Q, con Q = (𝑐𝑖𝑗) regular cuadrada de dimensión

n, entonces, se tiene, para cada 1 ≤ i, j ≤ n, que 𝛿𝑖𝑗 = 𝑢′𝑖∗(𝑣′𝑗) = (𝑐1𝑖•𝑢1

∗ + … + 𝑐𝑛𝑖•𝑢𝑛∗ )( 𝑎1𝑗•𝑣1

+ … + 𝑎𝑛𝑗•𝑣𝑛) = 𝑐1𝑖•𝑎1𝑗 + … + 𝑐𝑛𝑖•𝑎𝑛𝑗 lo que es el producto de la fila i de 𝑄𝑡, por la columna

j de P, es decir esto es equivalente a que 𝐼𝑛 = 𝑄𝑡•P y buscando la traspuesta de esta

ecuación se tiene que 𝐼𝑛 = 𝑃𝑡•Q, de modo que Q = (𝑃𝑡)−1 = (𝑃−1)𝑡. □

Para terminar esta subsubsección veamos un ejemplo.

EJEMPLO: Sean las formas lineales 𝑢1∗ , 𝑢2

∗ , 𝑢3∗ : ℝ3 → ℝ, dadas por 𝑢1

∗(x, y, z) = x + y + z, 𝑢2∗(x,

y, z) = x + y, 𝑢3∗(x, y, z) = x. Vamos a ver que forman una base del espacio dual y esto lo

demostraremos viendo que son 3 vectores linealmente independientes, para ello veremos

sus coordenadas en una base y comprobaremos que las coordenadas forman una matriz de

rango 3. Por otra parte, conocemos las coordenadas de estos covectores pues, usando la

primera propiedad de las bases duales, la matriz asociada a cada uno de ellos en la base

canónica son las coordenadas de cada uno de ellos en la base dual de la base canónica. Por

tanto, las matrices asociadas a cada covector son: 𝑢1∗ → (1 1 1), 𝑢2

∗ → (1 1 0), 𝑢1∗ → (1 0 0) y

la matriz que formamos con cada una de las coordenadas en filas es: (1 1 111

10

00) cuyo

determinante es -1, por lo cual sabemos que los covectores dados son base y también que

la matriz anterior es regular y tiene inversa. Para encontrar la base dual de ésta, solo

tenemos que hallar la matriz inversa de ésta y las columnas de la matriz serán las

coordenadas de los vectores base, calculemos la inversa:

(1 1 1 1 0 011

10

00

00

10

01) → (

0 0 1 1 −1 001

10

00

00

10

−11) → (

1 0 0 0 0 100

10

01

01

1−1

−10).

Por tanto, la base que buscamos es {(0, 0, 1), (0, 1, -1), (1, -1, 0)}.

13.5 El espacio bidual 𝑉∗∗ de V

Puesto que 𝑉∗ es un espacio vectorial sobre el cuerpo F, podemos considerar tomar el dual

de éste, es decir, (𝑉∗)∗ que lo notaremos como 𝑉∗∗, de hecho, este espacio existe y está

bien definido, por supuesto.

DEFINICIÓN (El espacio 𝑉∗∗, bidual de V): Sea V un espacio vectorial sobre el cuerpo F y sea

𝑢∗ un funcional cualquiera de 𝑉∗, consideremos el espacio vectorial de los funcionales h de

(𝑉∗)∗ tales que sus argumentos son funcionales lineales, 𝑢∗, del espacio V y sus valores son

números del cuerpo F, es decir h: 𝑢∗ → h(𝑢∗) donde 𝑢∗ es de 𝑉∗ y h(𝑢∗) es de F. Al espacio

vectorial de todos estos funcionales h se le llama espacio bidual de V y se le nota como 𝑉∗∗.

COROLARIO: 1) V es isomorfo a un subespacio de 𝑉∗∗.

2) Si V es de dimensión finita, entonces, V es isomorfo a 𝑉∗∗.

DEMOSTRACIÓN: 1) V es isomorfo a un subespacio de 𝑉∗, como ya sabemos, pero aplicando

este hecho de nuevo a 𝑉∗, 𝑉∗ es isomorfo a un subespacio de (𝑉∗)∗, por lo que V es

229

isomorfo a un subespacio de 𝑉∗∗. 2) Si V es finito dimensional, V es isomorfo a 𝑉∗, por tanto,

𝑉∗ es isomorfo a 𝑉∗∗ y, por tanto, V es isomorfo a 𝑉∗∗. □

Nos podemos hacer la pregunta, en concreto para espacios vectoriales V de dimensión

finita, si hemos de considerar más subespacios duales, por ejemplo (𝑉∗∗)∗, etc, pero

veremos que no es necesario, bastan dos V y 𝑉∗, puesto que podemos identificar V con 𝑉∗∗.

Fijemos un vector v de V, para cualquier funcional 𝑢∗ de 𝑉∗ le asociamos el número 𝑢∗(v),

de esta forma definimos una función 𝜌𝑣, tal que 𝜌𝑣: 𝑉∗ → F, que es lineal, como vamos a

comprobar, y que, por tanto, pertenece a 𝑉∗∗. Veamos:

𝜌𝑣(𝑢1∗ + 𝑢2

∗) = (𝑢1∗ + 𝑢2

∗)(v) = 𝑢1∗(v) + 𝑢2

∗(v) = 𝜌𝑣(𝑢1∗) + 𝜌𝑣(𝑢2

∗)

𝜌𝑣(c•𝑢∗) = (c•𝑢∗)(v) = c•𝑢∗(v) = c•𝜌𝑣(𝑢∗).

Más aún, para cada vector v, tenemos un funcional 𝜌𝑣 de 𝑉∗∗, de modo que tenemos una

función h: V → 𝑉∗∗ con h(v) = 𝜌𝑣, para todo v de V y que se trata de una función lineal como

vamos a ver:

h(𝑣1 + 𝑣2)(𝑢∗) = 𝜌𝑣1+ 𝑣2(𝑢∗) = 𝑢∗(𝑣1 + 𝑣2) = 𝑢∗(𝑣1) + 𝑢∗(𝑣2) = 𝜌𝑣1(𝑢∗) + 𝜌𝑣2(𝑢∗) =

h(𝑣1)(𝑢∗) + h(𝑣2)(𝑢∗) = (h(𝑣1) + h(𝑣2))( 𝑢∗),

h(c•v)(𝑢∗) = 𝜌𝑐•𝑣(𝑢∗) = 𝑢∗(c•v) = c•𝑢∗(v) = c•𝜌𝑣(𝑢∗) = c•((h(v))(𝑢∗)) = ((c•h)(v))(𝑢∗).

Pero, además, esta función es biyectiva como demostramos ahora y, por tanto, es un

isomorfismo entre V y 𝑉∗∗.

PROPOSICIÓN 1 (Isomorfismo canónico entre V y 𝑉∗∗): Para un espacio vectorial cualquiera

la función h definida anteriormente es inyectiva. Si V es de dimensión finita, la función h

definida anteriormente es biyectiva y, por tanto, un isomorfismo. A este isomorfismo se le

llama isomorfismo canónico entre V y 𝑉∗∗ (para espacios V de dimensión finita).

DEMOSTRACIÓN: Primero demostramos que h es inyectiva. Sea v un vector del núcleo de

h, por lo que h(v) = 𝜌𝑣 = 0, lo que implica que 𝜌𝑣(𝑢∗) = 0 para toda 𝑢∗ de 𝑉∗, es decir, que

𝑢∗(v) = 0 para toda 𝑢∗ de 𝑉∗. Pero esto implica que v es cero, por lo que Ker(h) = {0}.

Ahora veamos que h es suprayectiva para el caso de que V es de dimensión finita. Para

espacios vectoriales de dimensión finita se tiene que dimV = dim(Im(T)) + dim(Ker(T)) para

una aplicación lineal T, de modo que para h, dim V = n = dim(Im(h)) = dim 𝑉∗∗, por lo que h

es suprayectiva. □

Notemos que el isomorfismo canónico tiene una propiedad que lo distingue de otros

isomorfismos de V en 𝑉∗∗. Esta es que se cumple que <h(v)|𝑢∗> = <𝑢∗|v>. Esto lo podemos

ver de la siguiente manera: <h(v)|𝑢∗> = (h(v))(𝑢∗) = 𝜌𝑣(𝑢∗) = 𝑢∗(v) = <𝑢∗|v>. También se

considera que debido a este isomorfismo natural entre V y 𝑉∗∗ sin dependencia de bases u

otros elementos ajenos, se puede identificar cada vector de V con uno de 𝑉∗∗ de forma

natural sin depender de haber escogido una base y considerar que estos dos espacios son

equivalentes y pudiendo sustituir los vectores de V por elementos de 𝑉∗∗ que actúan sobre

funciones 𝑢∗ de 𝑉∗. Lo que acentúa más la dualidad y hace más real la notación siguiente:

𝑢∗(v) = (h(v))(𝑢∗) = <𝑢∗|v> = <h(v)|𝑢∗> = <v|𝑢∗> = v(𝑢∗).

230

También podemos demostrar que a la base de V le corresponde, en este isomorfismo

canónico, una base de 𝑉∗∗ que no es, ni más ni menos, que la base dual de la base dual de

V. Veámoslo en la siguiente proposición.

PROPOSICIÓN 2: El isomorfismo canónico h: V → 𝑉∗∗, (para espacios vectoriales V de

dimensión finita) transforma una base B de V en la base 𝐵∗∗, dual de la base dual 𝐵∗ de B.

DEMOSTRACIÓN: Sea 𝐵∗ = {𝑢1∗, …, 𝑢𝑛

∗ }, la base dual de B = {𝑣1, …, 𝑣𝑛} y sea 𝐵∗∗ = {𝑢1∗∗, …,

𝑢𝑛∗∗}, la base dual de 𝐵∗. Sea 𝑢𝑗

∗∗ = h(𝑢𝑗) = 𝜌𝑢𝑗, para algún vector 𝑢𝑗 de V, entonces, se cumple

que 𝜌𝑢𝑗(𝑢𝑖∗) = 𝑢𝑗

∗∗(𝑢𝑖∗) = 𝛿𝑖,𝑗 = 𝑢𝑖

∗(𝑣𝑗) = 𝜌𝑣𝑗(𝑢𝑖∗), de modo que 𝑢𝑗 = 𝑣𝑗, que era lo que


13.6 Complementos ortogonales o anuladores I

DEFINICIÓN 1 (Complemento ortogonal o anulador en 𝑉∗ de un conjunto de vectores S de

V): Sea S un subconjunto de V, se define el complemento ortogonal o anulador del conjunto

S en el espacio dual 𝑉∗ y se nota así 𝑆⊥, como todos los covectores del espacio dual de V

que valgan 0 en todos los vectores de S, es decir: 𝑆⊥ = {𝑢∗ de 𝑉∗ | para todo v de S, 𝑢∗(v) =

0}.

Veamos una seria de propiedades básicas de estos complementos ortogonales.

PROPOSICIÓN 1: La operación de obtener el ortogonal en 𝑉∗, de un conjunto S de V tiene


1) 𝑆⊥ es un subespacio de 𝑉∗.

2) S ⊆ U implica que 𝑈⊥ ⊆ 𝑆⊥.

3) (𝐿(𝑆))⊥ = 𝑆⊥, donde L(S) es la envolvente lineal de S.

4) (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ = ⋂ 𝑆𝑖⊥

𝑖∈𝐼 , con I un conjunto de índices.

DEMOSTRACIÓN: 1) Sean 𝑢1∗, 𝑢2

∗ covectores de 𝑆⊥, esto significa que para todo vector v de

S se tiene que 𝑢1∗(v) = 0 y 𝑢2

∗(v) = 0, de modo que (𝑢1∗ + 𝑢2

∗)(v) = 𝑢1∗(v) + 𝑢2

∗(v) = 0 + 0 = 0, por

lo que 𝑢1∗ + 𝑢2

∗ es de 𝑆⊥. Además, si c es de F se cumple que (c•𝑢∗)(v) = c•𝑢∗(v) = c•0 = 0,

para algún 𝑢∗ de 𝑆⊥, por lo que c•𝑢∗ es de 𝑆⊥, lo que implica que 𝑆⊥ es un subespacio de

𝑉∗.

2) Sea S ⊆ U, si 𝑢∗ es de 𝑈⊥ entonces, 𝑢∗(v) = 0 para todo v de U, pero como S ⊆ U esto

implica que 𝑢∗(z) = 0, para todo z de S, de modo que 𝑢∗ es de 𝑆⊥ y tenemos que 𝑈⊥ ⊆ 𝑆⊥.

3) L(S) = {v = 𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘, para 𝑣1, …, 𝑣𝑘 de S, 𝑐1, …, 𝑐𝑘 de F}, por lo que si 𝑢∗ es de

𝑆⊥ se tiene que 𝑢∗(v) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑘•𝑢∗(𝑣𝑘) = 0, por lo que 𝑆⊥ ⊆ (L(S))⊥, pero hemos

visto en el apartado 2) anterior que si S ⊆ U, entonces, 𝑈⊥ ⊆ 𝑆⊥, pero S ⊆ L(S), por lo que

(L(S))⊥ ⊆ 𝑆⊥, estas dos inclusiones de conjuntos hacen que (𝐿(𝑆))⊥ = 𝑆⊥.

4) Sea v de ⋃ 𝑆𝑖𝑖∈𝐼 , entonces, v pertenece a 𝑆𝑖, para algún i, por lo que 𝑢∗ es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥

si 𝑢∗(v) = 0, para todo v de ⋃ 𝑆𝑖𝑖∈𝐼 , por lo que 𝑢∗ pertenece a 𝑆𝑖⊥, para todo i de I, por lo

que 𝑢∗ pertenece a ⋂ 𝑆𝑖⊥

𝑖∈𝐼 y así hemos demostrado que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ ⊆ ⋂ 𝑆𝑖⊥

𝑖∈𝐼 . Pero si 𝑢∗

pertenece a ⋂ 𝑆𝑖⊥

𝑖∈𝐼 , entonces, 𝑢∗ pertenece a 𝑆𝑖⊥, para todo i de I, por lo que 𝑢∗(v) = 0,

231

para todo v de 𝑆𝑖 y para todo i de I, por lo que si v es de 𝑆𝑖 para algún i de I, entonces, 𝑢∗(v)

= 0, por lo que 𝑢∗ pertenece a (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, lo que demuestra que ⋂ 𝑆𝑖⊥

𝑖∈𝐼 ⊆ (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, por

lo que con las dos inclusiones hemos demostrado lo que queríamos que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ =

⋂ 𝑆𝑖⊥

𝑖∈𝐼 . □

Ahora giramos la rueda un poco más y definimos los complementos ortogonales o

anuladores de subconjuntos de covectores, de modo que resultan subespacios de V como

veremos.

DEFINICIÓN 2 (Complemento ortogonal o anulador en V de un conjunto de vectores S de

𝑉∗): Sea S un subconjunto de funcionales lineales en 𝑉∗, el espacio dual de V. Definimos el

complemento ortogonal o anulador 𝑆⊥ de S en V como el conjunto de todos los vectores v

de V tal que si 𝑢∗ es de S, 𝑢∗(v) = 0, es decir, para todo 𝑢∗ de S.

Pero ahora, observemos que podríamos haber dado otra definición del complemento

ortogonal de un subconjunto S de 𝑉∗, pues si consideramos a S como espacio vectorial, al

que aplicar la definición 1 anterior de esta subsubsección obtendríamos que 𝑆⊥ podría ser

el subconjunto de vectores 𝑣∗∗ de 𝑉∗∗ tal que cumple que si 𝑢∗ es de S, entonces, 𝑣∗∗(𝑢∗) =

0, para todo 𝑢∗ de 𝑉∗. Pero para V de dimensión finita, una vez más se cumple nuestra

observación de que los vectores del bidual de V se corresponden con los vectores de V, de

modo que podemos considerarlos el mismo espacio vectorial, pues vamos a ver ahora

mismo, que el complemento ortogonal de un conjunto S de covectores de 𝑉∗ en V, según

la definición 2 que hemos dado en esta subsubsección, se corresponde por la aplicación h

de V en 𝑉∗∗ con el complemento ortogonal de S en 𝑉∗∗. Veámoslo en la siguiente

proposición.

PROPOSICIÓN 2: Sea h: V → 𝑉∗∗ el isomorfismo canónico de V en 𝑉∗∗ y sea S un subconjunto

de elementos de 𝑉∗, entonces, si definimos 𝑆⊥ como el complemento ortogonal de S en V,

según la definición 2 de esta subsubsección y llamamos a 𝑆⊺ al complemento ortogonal de

S en 𝑉∗∗ según la definición 1 de esta subsubsección, ocurre que h(𝑆⊥) = 𝑆⊺.

DEMOSTRACIÓN: Sea v un vector de V y sea h(v) = 𝜌𝑣, entonces, 𝑆⊺ = {𝜌𝑣 de 𝑉∗∗ | 𝜌𝑣(𝑢∗) =

0 para todo 𝑢∗ de S} = {𝜌𝑣 de 𝑉∗∗ | 𝑢∗(v) = 0, para todo 𝑢∗ de S} que se corresponde por h,

con {v de V | 𝑢∗(v) = 0, para todo 𝑢∗ de S} = 𝑆⊥ según la definición 2 de esta subsubsección.

□

Por tanto, vemos que esta relación de ortogonalidad es una relación de doble sentido.

Conjuntos o subespacios de V determinan subespacios de 𝑉∗ y por otra parte, conjuntos o

subespacios de 𝑉∗ determinan subespacios de V.

Ahora también veremos que las propiedades que cumplía 𝑈⊥, para un conjunto U de

vectores v de V, también se cumplen para 𝑆⊥ según la definición 2 de complemento

ortogonal en V, de esta subsubsección, siendo S en este caso un conjunto de elementos de

𝑉∗.

PROPOSICIÓN 3: La operación de obtener el ortogonal en V, de un conjunto S, de 𝑉∗ tiene


1) 𝑆⊥ es un subespacio de V.

232

2) S ⊆ U implica que 𝑈⊥ ⊆ 𝑆⊥.

3) (𝐿(𝑆))⊥ = 𝑆⊥, donde L(S) es la envolvente lineal de S.

4) (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ = ⋂ 𝑆𝑖⊥

𝑖∈𝐼 , con I un conjunto de índices.

DEMOSTRACIÓN: 1) Sean 𝑣1, 𝑣2 de 𝑆⊥ y sea 𝑢∗ de S, entonces, 𝑢∗(𝑣1 + 𝑣2) = 𝑢∗(𝑣1) + 𝑢∗(𝑣2)

= 0 + 0 = 0, por lo que 𝑣1 + 𝑣2 pertenece a 𝑆⊥. Ahora sea c de F, v de 𝑆⊥ y 𝑢∗ de S, entonces

𝑢∗(c•v) = c•𝑢∗(v) = c•0 = 0, por lo que c•v es de 𝑆⊥, por lo que 𝑆⊥ es un subespacio de V.

2) Sea v de 𝑈⊥, entonces si 𝑢∗ pertenece a S, también pertenece a U, por lo que 𝑢∗(v) = 0

y, por tanto, v es de 𝑆⊥.

3) L(S) = {𝑢∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ | con 𝑢1∗, …, 𝑢𝑘

∗ de S, 𝑐1, …, 𝑐𝑘 de F}, por lo que para v de

𝑆⊥, 𝑢∗(v) = 𝑐1•𝑢1∗(v) + … + 𝑐𝑘•𝑢𝑘

∗ (v) = 0, por lo que 𝑆⊥ ⊆ (𝐿(𝑆))⊥. Pero según 2) anterior,

W ⊆ U implica que 𝑈⊥ ⊆ 𝑊⊥, pero S ⊆ L(S), por lo que (𝐿(𝑆))⊥ ⊆ 𝑆⊥, y, por tanto, (𝐿(𝑆))⊥

= 𝑆⊥.

4) Si v es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ entonces, 𝑢∗(v) = 0, para todo 𝑢∗ de 𝑆𝑖 y para todo i de I, entonces,

v es de 𝑆𝑖⊥ y para todo i de I, por lo que v es de ⋂ 𝑆𝑖

⊥𝑖∈𝐼 , con lo que hemos demostrado

que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ ⊆ ⋂ 𝑆𝑖⊥

𝑖∈𝐼 . Por otra parte, si v es de ⋂ 𝑆𝑖⊥

𝑖∈𝐼 entonces, v es de 𝑆𝑖⊥, para

todo i de I, lo que significa que 𝑢∗(v) = 0, para todo 𝑢∗ de 𝑆𝑖 y para todo i de I, lo que implica

que 𝑢∗(v) = 0 con 𝑢∗ de ⋃ 𝑆𝑖𝑖∈𝐼 , con lo que, v es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ y hemos demostrado que

⋂ 𝑆𝑖⊥

𝑖∈𝐼 ⊆ (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, por lo que, uniendo las dos inclusiones se tiene que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ =

⋂ 𝑆𝑖⊥

𝑖∈𝐼 , como queríamos demostrar. □

EJEMPLO: En ℝ4 consideramos U = L({1, -1, 0, 1}, (1, 1, -1, 0), (2, 0, -1, 1)}) y tratamos de

calcular 𝑈⊥. En primer lugar, observemos que el sistema de generadores que se dan no es

una base, porque el tercer vector es una combinación lineal de los dos primeros, es su suma,

por lo que una base de U es {𝑣1 = (1, -1, 0, 1), 𝑣2 = (1, 1, -1, 0)} y puesto que U = L(𝑣1, 𝑣2),

entonces, 𝑈⊥ = {𝑣1, 𝑣2}⊥. Por tanto, para que una forma lineal 𝑢∗ cuya matriz asociada en

la base canónica sea (𝑎1 𝑎2 𝑎3 𝑎4) esté en 𝑈⊥ es necesario y suficiente que anule a 𝑣1 y a

𝑣2, es decir tiene que cumplir que:

(𝑎1 𝑎2 𝑎3 𝑎4)•(

1−101

) = 0 y (𝑎1 𝑎2 𝑎3 𝑎4)•(

11−10

) = 0 lo que nos produce el sistema de

cartesianas siguiente: {𝑎1 − 𝑎2 + 𝑎4 = 0𝑎1 + 𝑎2 − 𝑎3 = 0

.

Dada la base canónica E con la que estamos trabajando podemos considerar la base dual

𝐸∗ y sabemos por la primera propiedad de las bases duales que las coordenadas de 𝑢∗ en

su base correspondientes son las mismas que los coeficientes de la matriz asociada a la

forma en la base de V, considerada una aplicación lineal, es decir, que las ecuaciones

anteriores también son las cartesianas de 𝑈⊥ con relación a la base dual 𝐸∗. Para obtener

la base de 𝑈⊥ ya sabemos que tenemos que resolver el sistema para obtener las ecuaciones

paramétricas y de ahí, la base. De modo que procedemos de la siguiente manera:

{𝑎1 − 𝑎2 + 𝑎4 = 0𝑎1 + 𝑎2 − 𝑎3 = 0

→ {𝑎1 − 𝑎2 + 𝑎4 = 0

2 • 𝑎2 − 𝑎3 − 𝑎4 = 0 → {

𝑎1 = (1/2) • 𝑎3 − (1/2) • 𝑎4 𝑎2 = (1/2) • 𝑎3 + (1/2) • 𝑎4

,

233

Lo que significa que:

{

𝑎1 = (

1

2) • 𝛼 − (

1

2) • 𝛽

𝑎2 = (1

2) • 𝛼 + (

1

2) • 𝛽

𝑎3 = 𝛼𝑎4 = 𝛽

→

{

𝑎1 = (

1

2) • 𝛼 − (

1

2) • 𝛽

𝑎2 = (1

2) • 𝛼 + (

1

2) • 𝛽

𝑎3 = 1 • 𝛼 + 0 • 𝛽𝑎4 = 0 • 𝛼 + 1 • 𝛽

, por lo que

Podemos obtener como base del subespacio con respecto a la base 𝐸∗, los vectores de

coordenadas: {(1, 1, 2, 0)𝐸∗, (−1, 1, 0, 2)𝐸∗}, es decir, las formas siguientes:

{f(x, y, z, t) = x + y + 2•z, g(x, y, z, t) = -x + y + 2•t}.

13.7 Complementos ortogonales o anuladores II

Ahora veamos la relación que existe entre las dos definiciones formales que hemos dado

de los complementos ortogonales para espacios vectoriales de dimensión finita, tanto de

un subconjunto S de V con su ortogonal en 𝑉∗, como de un subconjunto U de 𝑉∗ con su

ortogonal en V.

PROPOSICIÓN 1: Sea V un espacio vectorial de dimensión finita y 𝑉∗ su dual y sean U ⊆ V y

W ⊆ 𝑉∗. Entonces se cumple que la condición W = 𝑈⊥, es la misma que U = 𝑊⊥. Lo cual se

puede formular de otra manera:

a) En el caso de que U sea subespacio de V y W subespacio de 𝑉∗, entonces: (𝑈⊥)⊥ = U y

(𝑊⊥)⊥ = W.

b) En el caso de que U sea solamente un subconjunto de V y W de 𝑉∗, entonces, (𝑈⊥)⊥ =

L(U) y (𝑊⊥)⊥ = L(W).

DEMOSTRACIÓN: i) Supongamos que W = 𝑈⊥, entonces, para todo 𝑢∗ de W y todo v de U

se cumple que 𝑢∗(v) = 0, pero por definición, 𝑊⊥ es el subespacio de V de los v tales que

𝑢∗(v) = 0 para todo 𝑢∗ de W, de modo que si v es de U entonces también es de 𝑊⊥ y así

hemos demostrado que U ⊆ 𝑊⊥. Ahora debemos probar que 𝑊⊥ ⊆ U con lo que

tendríamos que W = 𝑈⊥ implica que U = 𝑊⊥. Aún así para demostrar el teorema completo,

nos faltaría demostrar que U = 𝑊⊥ implica W = 𝑈⊥. Supongamos que U ⊂ 𝑊⊥ con la

inclusión estricta, por lo que hay un vector x de 𝑊⊥ que no pertenece a U, esto implica que

hay un funcional f, con f(v) = 0 para todo v de U, pero que f(x) no es 0, pero esto implica

una contradicción, pues hemos supuesto que x es de 𝑊⊥ y esto implica que si g es de W,

entonces g(x) = 0, pero hemos afirmado que existe un f de W con f(x) ≠ 0 puesto que si f(v)

= 0 para todo v de U, entonces f es de W (pues suponemos que W = 𝑈⊥) y por tanto hemos

demostrado que U = 𝑊⊥.

ii) Sea U = 𝑊⊥, entonces, para todo v de U y todo 𝑢∗ de W se tiene que 𝑢∗(v) = 0, pero por

definición, 𝑈⊥ es el subespacio de 𝑉∗, de los covectores que son ‘perpendiculares’ a todos

los vectores de U, por lo que se cumple que W ⊆ 𝑈⊥. Por lo que nos queda probar la

inclusión 𝑈⊥ ⊆ W. Supongamos que se cumple la inclusión estricta W ⊂ 𝑈⊥, por lo que hay

un covector g de 𝑈⊥, pero tal que g no es de W. Pero sabemos que esto supone que existe

un funcional µ en 𝑉∗∗ tal que µ(f) = 0 para todo f de W pero que no es cero en g. Siendo h

es isomorfismo canónico entre V y 𝑉∗∗ podemos obtener el vector v tal que v es de U y v =

234

ℎ−1(µ) (tiene que ser v de U, porque si < µ|f> = <h(v)|f> = <f|v> = 0, para todo f de W, pues

estamos suponiendo que U = 𝑊⊥, lo cual implica que si para todos los f de W f(z) = 0

entonces z es de U) y sabemos que <µ|g> = <h(v)|g> = <g|v> ≠ 0 lo cual está en

contradicción de que g es de 𝑈⊥, pues si g es de 𝑈⊥, tendría que ser g(v) = 0 y por tanto,

esta contradicción demuestra que W = 𝑈⊥ y por tanto, que U = 𝑊⊥ implica que W = 𝑈⊥ y

por tanto, esto termina la demostración de la proposición. □

Ahora demostraremos la siguiente proposición importante sobre la dimensión de los

subespacios ortogonales para el caso de que el espacio vectorial V sea de dimensión finita.

PROPOSICIÓN 2: En el caso de que V sea un espacio vectorial de dimensión finita, dim V =

n, para un subespacio U de V o para un subespacio U de 𝑉∗, se cumple la siguiente igualdad:

dim U + dim 𝑈⊥ = dim V = dim 𝑉∗.

DEMOSTRACIÓN: Si suponemos que se cumple la proposición para un subespacio U de V,

también se cumplirá para un espacio W de 𝑉∗ pues solo hace falta sustituir U por 𝑊⊥ y, por

tanto, demostraremos el caso en el que la fórmula se cumple para un subespacio U de V.

Sea dim V = n, dim U = s y {𝑣1, …, 𝑣𝑠} una base de U a la que ampliamos hasta ser una base

de V, {𝑣1, …, 𝑣𝑛} y la cual determina una base de 𝑉∗, {𝑢1∗, …, 𝑢𝑛

∗ }. Sea x de U, entonces las

últimas n – s coordenadas, 𝑐𝑠+1, …, 𝑐𝑛 de x, con respecto a la base de V que hemos escogido

son 0. Sea 𝑢∗ de 𝑈⊥, por lo que 𝑢∗(x) = 𝑓1•𝑐1 + … + 𝑓𝑠•𝑐𝑠 = 0 con 𝑓𝑖 coordenadas de 𝑢∗ en la

base de 𝑉∗, determinada por la de V. Esta ecuación es válida para todas las coordenadas

posibles 𝑐1, …, 𝑐𝑠, lo que implica que 𝑓1, …, 𝑓𝑠, son cero, pero las n – s coordenadas 𝑓𝑠+1, …,

𝑓𝑛, son arbitrarias, lo cual quiere decir que 𝑈⊥ es la envolvente lineal de los vectores {𝑢𝑠+1∗ ,

…, 𝑢𝑛∗ }, por lo que dim U = s y dim 𝑈⊥ = n – s. □

COROLARIO: Se tienen las siguientes fórmulas:

1) {0}⊥ = V, (𝑉∗)⊥ = {0}.

2) {0}⊥ = 𝑉∗, 𝑉⊥ = {0}

DEMOSTRACIÓN: Son inmediatas dada la proposición 2 anterior. □

Veamos ahora que un sistema de ecuaciones que determinan un subespacio U, de V puede

obtenerse a partir de un conjunto de covectores S de 𝑉∗, por lo que, los subespacios de V

no solo vienen dados por envolventes lineales de vectores de V sino también, por

complementos ortogonales de covectores.

En coordenadas ya sabemos que cada covector tiene la siguiente expresión: 𝑢𝑖∗(v) = 𝑎𝑖1•𝑐1

+ … + 𝑎𝑖𝑛•𝑐𝑛, de modo que un conjunto de covectores determina el siguiente sistema

homogéneo cuando hacemos 𝑢1∗(v) = 0, …, 𝑢𝑚

∗ (v) = 0, de modo que U = Ker(𝑢1∗) ∩ … ∩

Ker(𝑢𝑚∗ ):

{𝑎11 • 𝑥1 +⋯+ 𝑎1𝑛 • 𝑥𝑛 = 0

…𝑎𝑚1 • 𝑥1 +⋯+ 𝑎𝑚𝑛 • 𝑥𝑛 = 0

.

235

Según la proposición 2 anterior de esta subsubsección, la dimensión de este subespacio es

n – r, con r la dimensión de la envolvente lineal de S, dim 𝑆⊥ = dim V – dim L(S), pero resulta

que r es también el rango de la matriz de coeficientes.

Terminamos esta subsubsección con una proposición muy interesante.

PROPOSICIÓN 3: Para un espacio vectorial V de dimensión finita y para una familia de

subsepacios de este o del dual se cumple lo siguiente:

1) (∑ 𝑈𝑖𝑖∈𝐼 )⊥ = ⋂ (𝑈𝑖)⊥

𝑖∈𝐼 .

2) (⋂ 𝑈𝑖𝑖∈𝐼 )⊥ = ∑ (𝑈𝑖)⊥

𝑖∈𝐼 .

Para subespacios E y F de 𝑉∗ se cumple:

3) U⨁W = V implica que 𝑈⊥⨁𝑊⊥ = 𝑉∗.

4) E⨁F = 𝑉∗ implica que 𝐸⊥⨁𝐹⊥ = V.

DEMOSTRACIÓN: 1) La suma de subespacios es la envolvente lineal de su unión, por lo que

si aplicamos la proposición 13.6.1 apartado 4) obtenemos el resultado.

2) Viene de 1) si sustituimos 𝑈𝑖 por 𝑈𝑖⊥, pues se obtiene lo siguiente:

(∑ (𝑈𝑖)⊥

𝑖∈𝐼 )⊥ = ⋂ ((𝑈𝑖)⊥)⊥𝑖∈𝐼 = ⋂ 𝑈𝑖𝑖∈𝐼 ,

Y se obtiene el resultado aplicando el complemento ortogonal a ambos lados de la igualdad.

3) Supongamos U⨁W = V, esto significa que U + W = V y U ∩ W = {0}, lo que implica que 𝑈⊥

∩ 𝑊⊥ = (𝑈 +𝑊)⊥ = 𝑉⊥ = {0} y 𝑈⊥ + 𝑊⊥ = (𝑈 ∩𝑊)⊥ = {0}⊥ = 𝑉∗; por lo que 𝑈⊥⨁𝑊⊥ =

𝑉∗.

4) Se demuestra de la misma manera que 3). □

13.8 La aplicación lineal dual I

En esta subsubsección dada una aplicación lineal T: V → V’ vamos a definir su aplicación

lineal dual, una aplicación 𝑇∗: (𝑉′)∗ → 𝑉∗ (obsérvese que 𝑇∗ va de (𝑉′)∗ a 𝑉∗) y estudiar sus

propiedades principales.

DEFINICIÓN (Aplicación dual de una dada): Sea T: V → V’ una aplicación lineal dada y sean

v de V y 𝑥∗ de (𝑉′)∗, entonces la aplicación 𝑇∗: (𝑉′)∗ → 𝑉∗, dual de T se define de la siguiente

manera: (𝑇∗(𝑥∗))(v) = 𝑥∗(T(v)).

Antes de nada, examinemos un poco esta definición para entenderla mejor. Primero

comenzamos con un elemento 𝑥∗ de (𝑉′)∗, de modo que 𝑥∗: V’ → F es un funcional lineal

dual de los vectores de V’. Entonces, la aplicación dual de T nos da un funcional 𝑇∗(𝑥∗) que

es un elemento de 𝑉∗, es decir, 𝑇∗(𝑥∗): V → F, de modo que este funcional actúa sobre

elementos de V y en la fórmula de la definición, el valor de (𝑇∗(𝑥∗))(v) se halla con el valor

de 𝑥∗, sobre el elemento T(v) de V’ asociado a v por T.

En la siguiente proposición vemos unas propiedades básicas de 𝑇∗.

PROPOSICIÓN 1: Sea T: V → V’ una aplicación lineal, entonces, se cumple lo siguiente:

236

1) T es inyectiva si y solo si, 𝑇∗ es suprayectiva.

2) T es suprayectiva, si y solo si 𝑇∗ es inyectiva.

3) T es un isomorfismo, si y solo si, 𝑇∗ es un isomorfismo.

DEMOSTRACIÓN: 1) Supongamos que T es inyectiva, sea B una base de V, B = {𝑣1, 𝑣2, …},

entonces, C = T(B) = {𝑤1, 𝑤2, …} es un conjunto linealmente independiente de V’, de modo

que se puede extender a una base de V’, {𝑤1, 𝑤2, …}∪{𝑤′1, 𝑤′2, …}. Ahora sea 𝑢∗ un

elemento arbitrario de 𝑉∗ y definamos un elemento 𝑥∗ de (𝑉′)∗, dado por 𝑥∗(𝑤𝑖) = 𝑢∗(𝑣𝑖)

y 𝑥∗(𝑤′𝑗) = 0. Entonces ocurre que, (𝑇∗(𝑥∗))(𝑣𝑖) = 𝑥∗(𝑇(𝑣𝑖)) = 𝑥∗(𝑤𝑖) = 𝑢∗(𝑣𝑖), de modo que

𝑇∗(𝑥∗) tiene el mismo valor que 𝑢∗ en una base de B de V y por tanto son el mismo covector,

es decir, 𝑇∗(𝑥∗) = 𝑢∗.

Ahora supongamos que T no es inyectiva, entonces existe un vector 𝑣0 distinto de 0 tal que

T(𝑣0) = 0, entonces, para cualquier 𝑥∗ de (𝑉′)∗, se tiene que (𝑇∗(𝑥∗))(𝑣0) = 𝑥∗(T(𝑣0)) = 𝑥∗(0)

= 0. Pero como hemos visto, para cualquier, 𝑣0 distinto de 0, en V hay un 𝑢0∗ en 𝑉∗, con

𝑢0∗(𝑣0) = 1 que no es 0 por lo que no se puede tener 𝑇∗(𝑥∗) = 𝑢0

∗ , por lo que 𝑇∗ no es

suprayectiva.

2) Supongamos que T es suprayectiva y sea 𝑥∗ de (𝑉′)∗ con 𝑇∗(𝑥∗) = 0. Queremos

demostrar que 𝑥∗ tiene que ser 0. Entonces supongamos que 𝑇∗(𝑥∗) = 0, por lo que ocurre

que 0 = (𝑇∗(𝑥∗))(v) = 𝑥∗(T(v)) para todo v de V. Ahora sea w de V’, y puesto que T es

suprayectiva, existe un v tal que w = T(v) y entonces, 𝑥∗(w) = 𝑥∗(T(v)) = 0 y puesto que esto

se cumple para todo w, ha de ser 𝑥∗ = 0.

Ahora supongamos que T no es suprayectiva. Entonces Im(T) es un subespacio propio de

V’. Tenga Im(T) la siguiente base, {𝑤1, 𝑤2, …}, extendámosla a una base de V’, {𝑤1, 𝑤2,

…}∪{𝑤′1, 𝑤′2, …} Sea 𝑥0∗ un elemento de (𝑉′)∗ definido por 𝑥0

∗(𝑤𝑖) = 0 y 𝑥0∗(𝑤′𝑗) = 1. Como

hay por lo menos un 𝑤′𝑗 que cumpla esto, 𝑥0∗ resulta que no es 0. Pero entonces, para

cualquier v se cumple que, (𝑇∗(𝑥0∗))(v) = 𝑥0

∗(T(v)) = 0, puesto que w = T(v), está en Im(T) y

por tanto, w = ∑𝑐𝑖•𝑤𝑖 y por tanto, 𝑥0∗(w) = ∑𝑐𝑖•𝑥0

∗(𝑤𝑖) = 0. Entonces, 𝑇∗(𝑥0∗) = 0, pero 𝑥0

∗

no es cero, por lo que 𝑇∗ no es inyectiva.

3) Puesto que una transformación lineal es isomorfismo si y solo si es biyectiva, es decir,

inyectiva y suprayectiva al mismo tiempo, se cumple que 1) y 2) implican esta afirmación.

□

Terminamos esta subsección demostrando otra relación entre T y 𝑇∗ en concreto el

siguiente cálculo de dimensiones.

PROPOSICIÓN 2: Sea T: V → V’ una aplicación lineal, entonces, se cumple lo siguiente:

dim Im(T) = dim Im(𝑇∗) y codim Ker(T) = codim Ker(𝑇∗)

DEMOSTRACIÓN: Puesto que para cualquier aplicación lineal la codimensión de su núcleo

es la dimensión de la imagen, la segunda afirmación es consecuencia de la primera, por lo

que procedemos a demostrar la primera afirmación.

Sea 𝑉1 = Ker(T). Entonces 𝑉1 es un subespacio de V, sea 𝑉2 cualquier complemento de 𝑉1,

es decir, V = 𝑉1⨁𝑉2. Sea 𝑊2 = Im(T), por tanto, 𝑊2 es un subespacio de V’. Sea 𝑊1 el

complemento de 𝑊2 en V’, de modo que V’ = 𝑊1⨁𝑊2.

237

Sea 𝐵2 = {𝑣1, 𝑣2, …} una base de 𝑉2 y sea 𝐵1 = {𝑣1̃, 𝑣2̃, … } una base de 𝑉1 = Ker(T), entonces,

B = 𝐵1 ∪ 𝐵2 es una base de V.

Ya vimos que T: 𝑉2 → 𝑊2 es un isomorfismo y por tanto, 𝐶2 = T(𝐵2) es una base de 𝑊2 y por

tanto, 𝑤1 = T(𝑣1), 𝑤2 = T(𝑣2) implica que 𝐶2 = {𝑤1, 𝑤2, …} es una base de 𝑊2 = Im(T). Sea 𝐶1

= {𝑤1̃, 𝑤2̃, … } una base de 𝑊1, de modo que C = 𝐶1 ∪ 𝐶2 es una base de V’.

Sea 𝑢𝑖∗ de 𝑉∗ definida por 𝑢𝑖

∗(𝑣𝑖) = 1, 𝑢𝑖∗(𝑣𝑗) = 0 si j ≠ i, 𝑢𝑖

∗(𝑣�̃�) = 0 para todo j. Y de igual

manera definimos 𝑥𝑖∗ de (𝑉′)∗ como 𝑥𝑖

∗(𝑤𝑖) = 1, 𝑥𝑖∗(𝑤𝑗) = 0 si j ≠ i, 𝑥𝑖

∗(𝑤�̃�) = 0, para todo j.

Queremos demostrar que 𝑇∗(𝑥𝑖∗) = 𝑢𝑖

∗, para cada i. Para ver esto verifiquemos que dan el

mismo valor para una base de V. Escojamos la base B. Por un lado, (𝑇∗(𝑥𝑖∗))(𝑣𝑖) = 𝑥𝑖

∗(T(𝑣𝑖))

= 𝑥𝑖∗(𝑤𝑖) = 1 = 𝑢𝑖

∗(𝑣𝑖) y para j ≠ i, (𝑇∗(𝑥𝑖∗))(𝑣𝑗) = 𝑥𝑖

∗(T(𝑣𝑗)) = 𝑥𝑖∗(𝑤𝑗) = 0 = 𝑢𝑖

∗(𝑣𝑗) y para cualquier

j, (𝑇∗(𝑥𝑖∗))(𝑣�̃�) = 𝑥𝑖

∗(T(𝑣�̃�) = 𝑥𝑖∗(0) = 0 = 𝑢𝑖

∗(𝑣�̃�). Pero 𝐵2 = {𝑣1, 𝑣2, …} es un conjunto de vectores

linealmente independientes, de modo que sabemos que 𝐶2∗ = {𝑢1

∗, 𝑢2∗ , … } es un conjunto de

covectores linealmente independiente también.

Supongamos que 𝐵2 tiene un número finito de elementos, 𝐵2 = {𝑣1, …, 𝑣𝑘} de modo que

𝐶2∗ = {𝑢1

∗, …, 𝑢𝑘∗ } también tiene k elementos. Queremos demostrar que 𝐶2

∗ genera Im(𝑇∗). Si

es así entonces, 𝐶2∗ también es una base de Im(𝑇∗), pero entonces, k = dim 𝑉2 = dim 𝑊2 =

dim Im(T) y k = dim Im(𝑇∗), de modo que dim Im(T) = dim Im(𝑇∗).

Para probar esto, consideremos cualquier 𝑢∗ de Im(𝑇∗), entonces, 𝑢∗ = 𝑇∗(𝑥∗), para algún

𝑥∗ de (𝑉′)∗. Definamos 𝑐1, …, 𝑐𝑘 por 𝑐𝑖 = 𝑢∗(𝑣𝑖), i = 1, …, k, sea 𝑡∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ .

Notemos que 𝑡∗ está bien definido puesto que 𝐶2∗ es finito y la suma que lo define es finita.

Ahora veamos: 𝑡∗(𝑣𝑖) = (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗ )(𝑣𝑖) = 𝑐1•𝑢1∗(𝑣𝑖) + … + 𝑐𝑖•𝑢𝑖

∗(𝑣𝑖) + … + 𝑐𝑘•𝑢𝑘∗ (𝑣𝑖)

= 𝑐𝑖 = 𝑢∗(𝑣𝑖). De modo que 𝑡∗ = 𝑢∗ en los elementos de la base 𝐵2. También, 𝑡∗(𝑣�̃�) = (𝑐1•𝑢1∗

+ … + 𝑐𝑘•𝑢𝑘∗ )(𝑣�̃�) = 0, pues, (𝑢𝑖

∗)(𝑣�̃�) = 0 para todo i y j y, puesto que 𝑉1 = Ker(T), 𝑢∗(𝑣�̃�) =

(𝑇∗(𝑥∗))(𝑣�̃�) = 𝑥∗(T(𝑣�̃�)) = 𝑥∗(0) = 0. Por tanto, 𝑡∗ = 𝑢∗ en todos los elementos de la base 𝐵1.

Así que, 𝑡∗ = 𝑢∗ en todos los elementos de la base B, por tanto, 𝑢∗ = 𝑡∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘

∗

y por tanto, 𝐶2∗ genera Im(𝑇∗).

En el caso de que 𝐵2 tiene infinitos elementos, entonces, 𝐶2∗ también tiene infinitos

elementos, por lo que Im(𝑇∗) contiene un conjunto infinito linealmente independiente con

lo que dim Im(𝑇∗) = ∞, pero decir que 𝐵2 tiene un número infinito de elementos, es decir

que dim 𝑉2 = ∞, pero T: 𝑉2 → 𝑊2 = Im(T), es un isomorfismo, por lo que dim 𝑊2 = ∞, por lo

que en este caso también se cumple que dim Im(T) = dim Im(𝑇∗). □

13.9 La aplicación dual II

COROLARIO: Sea T: V → V’ una aplicación lineal de un espacio vectorial V de dimensión finita

en otro V’ también de dimensión finita, entonces se cumple lo siguiente:

dim Ker(T) = codim Im(𝑇∗).

dim Ker(𝑇∗) = codim Im(T).

238

DEMOSTRACIÓN: Sea dim V = n y dim V’ = m, entonces dim 𝑉∗ = n y dim (𝑉′)∗ = m. Sea r =

dim Im(T) = dim Im(𝑇∗), entonces, sabemos que n – r = dim Ker(T) = codim Im(𝑇∗) y m – r =

dim Ker(𝑇∗) = codim Im(T). □

Terminamos esta subsubsección con dos proposiciones, la segunda de cierta importancia.

PROPOSICIÓN 1: Sea T: V → V’ una aplicación lineal y sea 𝑇∗ su dual, entonces se cumple:

(𝐼𝑚(𝑇))⊥ = Ker(𝑇∗), (𝐼𝑚(𝑇∗))⊥ = Ker (T).

Si los espacios vectoriales V y V’ son finitos también se cumple lo siguiente:

(𝐾𝑒𝑟(𝑇))⊥ = Im(𝑇∗), (𝐾𝑒𝑟(𝑇∗))⊥ = Im(T).

DEMOSTRACIÓN: (𝐼𝑚(𝑇))⊥ = {𝑤∗ de (𝑉′)∗|𝑤∗(v) = 0, para todo v de Im(T)} = {𝑤∗ de (𝑉′)∗|

𝑤∗(T(u)) = 0, para todo u de V} = {𝑤∗ de (𝑉′)∗| (𝑇∗(𝑤∗))(u) = 0, para todo u de V} = {𝑤∗ de

(𝑉′)∗|𝑇∗(𝑤∗) = 0} = Ker(𝑇∗).

(𝐼𝑚(𝑇∗))⊥ = {v de V | 𝑢∗(v) = 0 para todo 𝑢∗ de Im(𝑇∗)} = {v de V | (𝑇∗(𝑤∗))(v) = 0 para todo

𝑤∗ de (𝑉′)∗} = {v de V | 𝑤∗(T(v)) = 0 para todo 𝑤∗ de (𝑉′)∗} = {v de V | T(v) es de ((𝑉′)∗)⊥

y T(v) = {0}} = Ker (T).

Por otra parte, si las dimensiones son finitas se tiene que: Ker(T) = ((𝐾𝑒𝑟(𝑇))⊥)⊥ =

(𝐼𝑚(𝑇∗))⊥ y también, Ker(𝑇∗) = ((𝐾𝑒𝑟(𝑇∗))⊥)⊥ = (𝐼𝑚(𝑇))⊥. □

PROPOSICIÓN 2: 1) Sean 𝑇1: V → V’, 𝑇2: V → V’ aplicaciones lineales y sean 𝑐1, 𝑐2 escalares

de F, entonces, (𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)∗ = 𝑐1 • 𝑇1

∗ + 𝑐2 • 𝑇2∗.

2) Sea I: V → V (i) la transformación identidad, entonces, 𝐼∗ = I, la transformación identidad

I: 𝑉∗ → 𝑉∗ (ii). Nótese que en las definiciones (i) y (ii) utilizamos el mismo símbolo, I, para

distintas transformaciones identidad: en (i), es la aplicación lineal identidad del espacio

vectorial V y en (ii), la aplicación lineal de su espacio vectorial dual con respecto a V, es decir

del espacio 𝑉∗.

3) Sean T: V → V’ y S: V’ → V’’, aplicaciones lineales, entonces, (𝑆 ∘ 𝑇)∗ = 𝑇∗ ∘ 𝑆∗.

4) Sea T: V → V’ una aplicación lineal, supongamos que T y 𝑇∗ son ambas invertibles,

entonces, (𝑇∗)−1 = (𝑇−1)∗.

DEMOSTRACIÓN: 1) Sea 𝑥∗ cualquier elemento de (𝑉′)∗, entonces por las propiedades de

las transformaciones lineales se tiene que: (𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)∗(𝑥∗) = 𝑥∗(𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)

= 𝑐1•𝑥∗(𝑇1) + 𝑐2•𝑥∗(𝑇2) = 𝑐1•𝑇1∗(𝑥∗) + 𝑐2•𝑇2

∗(𝑥∗).

2) Por definición de 𝐼∗, para cualquier 𝑥∗ de (𝑉′)∗, 𝐼∗(𝑥∗) = 𝑥∗(I) = 𝑥∗ = I(𝑥∗).

3) Por definición de (𝑆 ∘ 𝑇)∗, para cualquier 𝑥∗ de (𝑉′)∗, (𝑆 ∘ 𝑇)∗(𝑥∗) = 𝑥∗(𝑆 ∘ 𝑇) = (𝑥∗(S))(T)

= 𝑇∗(𝑥∗(S)) = 𝑇∗(𝑆∗(𝑥∗)) = (𝑇∗ ∘ 𝑆∗)(𝑥∗).

4) (𝑇∗)−1 es definido por las ecuaciones (𝑇∗)−1 ∘ 𝑇∗ = I y 𝑇∗ ∘ (𝑇∗)−1 = I, pero por 2) y 3)

tenemos que I = 𝐼∗ = (𝑇 ∘ 𝑇−1)∗ = (𝑇−1)∗ ∘ 𝑇∗ y I = 𝐼∗ = (𝑇−1 ∘ 𝑇)∗ = 𝑇∗ ∘ (𝑇−1)∗, por lo que

se tiene que (𝑇∗)−1 = (𝑇−1)∗. □

239

13.10 La aplicación lineal dual y la matriz traspuesta

Recordemos que si A = (𝑎𝑖𝑗) es una matriz de dimensión m×n, su traspuesta, 𝐴𝑡 = B = (𝑏𝑖𝑗)

es la matriz de dimensión n×m, tal que 𝑏𝑗𝑖 = 𝑎𝑖𝑗, para cada i = 1, …, m, j = 1, …, n. Es decir,

𝐴𝑡 se obtiene cambiando las filas de A y haciéndolas las columnas de 𝐴𝑡 y viceversa,

cogiendo las columnas de A y haciéndolas las filas de 𝐴𝑡, es decir, la primera fila de 𝐴𝑡 es la

primera columnas de A y así con la segunda y la tercera, etc.

Ahora supongamos que tenemos una aplicación lineal T: V → V’, donde V y V’ son espacios

vectoriales de dimensión finita y escogemos una base B de V y C de V’, entonces, tenemos

que existe una matriz P que es la matriz de esta aplicación lineal con respecto a las bases B

y C, es decir, P = [𝑇]𝐶←𝐵.

Entonces, ahora consideremos la aplicación dúal, 𝑇∗: (𝑉′)∗ → 𝑉∗ y escogemos las bases

duales 𝐶∗ de (𝑉′)∗ y 𝐵∗ de 𝑉∗. Entonces, esta aplicación lineal también tiene una matriz

con respecto a las bases 𝐶∗ y 𝐵∗, Q = [𝑇∗]𝐵∗←𝐶∗.

TEOREMA: Sea P = [𝑇]𝐶←𝐵 la matriz de dimensión m×n P = (𝑝𝑖𝑗) y sea Q = [𝑇∗]𝐵∗←𝐶∗ la matriz

de dimensión n×m, Q = (𝑞𝑖𝑗), entonces ocurre que Q = 𝑃𝑡.

DEMOSTRACIÓN: Sea P = (𝑝𝑖𝑗) y Q = (𝑞𝑖𝑗), sean B = {𝑣1, …, 𝑣𝑛}, C = {𝑤1, …, 𝑤𝑚}, 𝐵∗ = {𝑢1∗, …,

𝑢𝑛∗ } y 𝐶∗ = {𝑥1

∗, …, 𝑥𝑚∗ }. Por definición de 𝑇∗, para cada i y j s tiene que 𝑇∗(𝑥𝑖

∗)(𝑣𝑗) = 𝑥𝑖∗(T(𝑣𝑗)).

Ahora recordemos que [𝑇]𝐶←𝐵 = ([T(𝑣1)]𝐶 [T(𝑣2)]𝐶 … [T(𝑣𝑛)]𝐶, de modo que [T(𝑣𝑗)]𝐶 es

la columna j de esta matriz, [T(𝑣𝑗)]𝐶 = (

𝑝1𝑗𝑝2𝑗⋮𝑝𝑚𝑗

), es decir, T(𝑣𝑗) = ∑ 𝑝𝑘𝑗𝑘 •𝑤𝑘 y entonces,

𝑇∗(𝑥𝑖∗)(𝑣𝑗) = 𝑥𝑖

∗(T(𝑣𝑗)) = 𝑥𝑖∗(∑ 𝑝𝑘𝑗𝑘 •𝑤𝑘) = 𝑝𝑖𝑗 puesto que 𝑥𝑖

∗(𝑤𝑘) = 1 si i = k y 𝑥𝑖∗(𝑤𝑘) = 0 si i ≠

k. También recordemos que [𝑇∗]𝐵∗←𝐶∗ = ([𝑇∗(𝑥1∗)]𝐵∗ [𝑇

∗(𝑥2∗)]𝐵∗ … [𝑇∗(𝑥𝑚

∗ )]𝐵∗, por lo que,

[𝑇∗(𝑥𝑖∗)]𝐵∗ es la columna i de esta matriz, [𝑇∗(𝑥𝑖

∗)]𝐵∗ = (

𝑞1𝑖𝑞2𝑖⋮𝑞𝑛𝑖

), esto es, 𝑇∗(𝑥𝑖∗) = ∑ 𝑞𝑘𝑖𝑘 •𝑢𝑘

∗

y, entonces, 𝑇∗(𝑥𝑖∗)(𝑣𝑗) = (∑ 𝑞𝑘𝑖𝑘 •𝑢𝑘

∗ )(𝑣𝑗) = 𝑞𝑗𝑖, porque, 𝑢𝑘∗ (𝑣𝑗) = 1 si k = j y 𝑢𝑘

∗ (𝑣𝑗) = 0 si k ≠

j. Por tanto, se tiene que 𝑝𝑖𝑗 = 𝑞𝑗𝑖, para todo i y j. □

EJEMPLO: Ahora consideremos el caso en el que V = 𝐹𝑛 y V’ = 𝐹𝑚 B = 𝐸𝑛, la base estándar

de 𝐹𝑛 y C = 𝐸𝑚, la base estándar de 𝐹𝑚. Entonces, 𝐵∗ = 𝐸𝑛∗ , la base estándar de (𝐹𝑛)∗ y 𝐶∗

= 𝐸𝑚∗ , la base estándar de (𝐹𝑚)∗. Recordemos que la matriz estándar de T: 𝐹𝑛 → 𝐹𝑚, es

[𝑇]𝐸𝑚←𝐸𝑛. Entonces definimos como la matriz estándar de 𝑇∗: (𝐹𝑚)∗ → (𝐹𝑛)∗, la matriz,

[𝑇∗]𝐸𝑛∗←𝐸𝑚∗ . Por lo que vemos que, si T tiene de matriz estándar A, entonces, 𝑇∗ tiene de

matriz estándar, 𝐴𝑡.

Ahora redemostraremos, gracias a todos los resultados que hemos obtenido, las

propiedades de la trasposición de matrices.

LEMA (Propiedades de la trasposición de matrices):

1) Si A y B son matrices de las mismas dimensiones, entonces, (𝐴 + 𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡.

2) Si A es una matriz y c un escalar de F, entonces, (𝑐 • 𝐴)𝑡 = c•𝐴𝑡.

240

3) Si A y B son matrices que se puedan multiplicar, entonces. (𝐴 • 𝐵)𝑡 = 𝐵𝑡•𝐴𝑡.

4) La matriz A es invertible si y solo si, la matriz 𝐴𝑡 es invertible y entonces, se cumple que,

(𝐴𝑡)−1 = (𝐴−1)𝑡.

DEMOSTRACIÓN: 1) [(𝑇 + 𝑆)∗]𝐵∗←𝐶∗ = [(𝑇)∗ + (𝑆)∗]𝐵∗←𝐶∗ = [𝑇∗]𝐵∗←𝐶∗ + [𝑆∗]𝐵∗←𝐶∗.

2) [(𝑐 • 𝑇)∗]𝐵∗←𝐶∗ = [𝑐 • 𝑇∗]𝐵∗←𝐶∗ = c•[𝑇∗]𝐵∗←𝐶∗.

3) [(𝑇 ∘ 𝑆)∗]𝐵∗←𝐷∗ = [𝑆∗ ∘ 𝑇∗]𝐵∗←𝐷∗ = ([𝑆∗]𝐵∗←𝐶∗)•([𝑇∗]𝐶∗←𝐷∗).

4) [𝐼∗]𝐵∗←𝐵∗ = [(𝑇 ∘ 𝑇−1)∗]𝐵∗←𝐵∗ = [(𝑇−1)∗ ∘ 𝑇∗]𝐵∗←𝐵∗ = ([(𝑇−1)∗]𝐵∗←𝐵∗)•( [𝑇∗]𝐵∗←𝐵∗), de

modo que ([𝑇∗]𝐵∗←𝐵∗)−1 = [(𝑇−1)∗]𝐵∗←𝐵∗. Pero todos estos cálculos se deben a la

proposición 2 de la subsubsección anterior. □

Por último daremos una redemostración de la proposición que hace posible la definición

del rango de una matriz, es decir la siguiente proposición.

COROLARIO: Para cualquier matriz A, dim EF(A) = dim EC(A).

DEMOSTRACIÓN: Tengo T como matriz estándar, A, de modo que 𝑇∗, tiene la matriz

estándar 𝐴𝑡. La dimensión de EC(A) = dim Im(T). Por otra parte, la dim EC(𝐴𝑡) = dim Im(𝑇∗).

Pero sabemos que dim Im(T) = dim Im(𝑇∗). Y sabemos que dim EC(𝐴𝑡) = dim EF(A), por lo

que dim EC(A) = dim EF(A). □

Documents

Álgebra Lineal: Una introducción un tanto Exhaustiva Parte I