Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
Álgebra Lineal:
Una introducción un tanto Exhaustiva
Parte I
Carlos
2
3
Tabla de contenido Prólogo ...................................................................................................................................... 8
Sección I Preliminares ............................................................................................................. 10
1 Primeros preliminares ................................................................................................. 11
1.1 Las proposiciones matemáticas y el cálculo o álgebra proposicional ................. 11
1.2 Métodos de demostración en matemáticas ....................................................... 14
1.3 Introducción a los conjuntos ............................................................................... 15
1.4 Breve mención a la teoría axiomática de conjuntos ........................................... 16
1.5 Introducción a las funciones ............................................................................... 17
1.6 El concepto de relación en uno o entre dos o más conjuntos ............................ 19
1.7 Profundizando un poco en el concepto de función ............................................ 20
1.8 Relaciones de equivalencia ................................................................................. 22
1.9 Relaciones de orden, parcial, total, estricta o fuerte y lineal ............................. 25
1.10 Definición preliminar del sumatorio simple ........................................................ 27
1.11 La demostración por inducción ........................................................................... 28
1.12 Estructuras algebraicas ....................................................................................... 29
1.13 La relación de extensión entre una estructura algebraica y otra ....................... 34
1.14 Isomorfismo de estructuras algebraicas ............................................................. 35
1.15 Casos importantes de estructuras algebraicas que vamos a ver en el libro ....... 38
1.16 Estructura algebraica de Cuerpo o Campo .......................................................... 40
2 Construcción axiomática de los números naturales, fundamento del método de
demostración por inducción y las definiciones por recurrencia ......................................... 42
2.1 Introducción ........................................................................................................ 42
2.2 Propiedades de los números naturales ............................................................... 42
2.3 Los axiomas de Peano de los números naturales ............................................... 43
2.4 Los números naturales pueden ser definidos en función de la teoría axiomática
de conjuntos .................................................................................................................... 45
2.5 Definiciones recursivas o por recurrencia ........................................................... 46
2.6 La operación binaria de la suma en los números naturales ................................ 49
2.7 Propiedades de la suma en los números naturales ............................................ 51
2.8 La relación de orden lineal (total) en los números naturales y los principios de
inducción ......................................................................................................................... 53
2.9 La operación del producto o multiplicación de los números naturales .............. 55
2.10 Definición rigurosa, por recurrencia, de las sumatorias ..................................... 58
4
2.11 Demostraciones por inducción (Repetición) ....................................................... 59
2.12 Definición rigurosa del Productorio de una sucesión de números ..................... 61
Sección II Sistemas de ecuaciones lineales, matrices y determinantes .................................. 63
3 Sistemas de Ecuaciones lineales ................................................................................. 64
3.1 Ecuaciones lineales .............................................................................................. 64
3.2 Sistemas de ecuaciones lineales ......................................................................... 64
3.3 Discusión de un sistema lineal ............................................................................ 65
3.4 Método de resolución de un sistema lineal de Gauss y de Gauss-Jordan .......... 65
4 Matrices. Transformaciones elementales ................................................................... 69
4.1 Matrices ............................................................................................................... 69
4.2 Matrices diagonales y triangulares ..................................................................... 71
4.3 Matrices escalonadas reducidas ......................................................................... 72
4.4 Transformaciones elementales y forma normal de Hermite .............................. 73
4.5 Rango de una matriz ........................................................................................... 74
4.6 Matrices y sistemas de ecuaciones ..................................................................... 75
5 Operaciones con matrices ........................................................................................... 78
5.1 Suma de matrices ................................................................................................ 78
5.2 Producto de un escalar por una matriz ............................................................... 79
5.3 Matrices y sistemas de nuevo. La solución de cualquier sistema de ecuaciones
es la suma de una solución particular mas la solución general del sistema homogéneo
asociado .......................................................................................................................... 80
5.4 Producto de matrices .......................................................................................... 83
5.5 División de una matriz en bloques o matrices particionadas y producto de
matrices particionadas .................................................................................................... 88
5.6 Matriz traspuesta ................................................................................................ 91
5.7 Propiedades del rango y de la traza .................................................................... 93
6 Matrices regulares ....................................................................................................... 94
6.1 Matrices Elementales .......................................................................................... 94
6.2 Matriz Inversa, Matrices Regulares ..................................................................... 97
6.3 Cálculo de la matriz Inversa .............................................................................. 100
6.4 Matrices equivalentes ....................................................................................... 102
6.5 Relaciones de equivalencia en las matrices ...................................................... 105
7 Determinantes........................................................................................................... 106
7.1 Permutaciones .................................................................................................. 106
7.2 Ciclos y descomposición de una permutación en ciclos disjuntos .................... 108
5
7.3 Permutaciones pares e impares y el signo de una permutación ...................... 109
7.4 Definición del determinante de una matriz cuadrada ...................................... 110
7.5 Expresión del determinante en función de los coeficientes de la matriz ......... 112
7.6 Más propiedades de los determinantes ............................................................ 116
7.7 Desarrollo del determinante por una fila o columna ........................................ 118
7.8 La regla de Laplace ............................................................................................ 121
7.9 Cálculo de la matriz inversa por medio de determinantes ............................... 122
7.10 Relación entre el determinante y el rango de una matriz ................................ 123
7.11 La relación entre determinantes y sistemas de ecuaciones, regla de Cramer.. 125
Sección III Espacios vectoriales ............................................................................................. 128
8 Introducción .............................................................................................................. 129
8.1 Vectores geométricos fijos y su suma ............................................................... 129
8.2 Vectores geométricos fijos y el producto por un escalar .................................. 131
8.3 Sistemas de Coordenadas para vectores geométricos fijos .............................. 132
8.4 El espacio afín n-dimensional y el espacio vectorial 𝐹𝑛, con F un cuerpo
cualquiera ...................................................................................................................... 135
9 Espacios Vectoriales. Bases ....................................................................................... 137
9.1 Definición y ejemplos ........................................................................................ 137
9.2 Primeras propiedades de los espacios vectoriales ............................................ 139
9.3 Dependencia lineal e independencia lineal....................................................... 140
9.4 Sistema de generadores de un espacio vectorial .............................................. 144
9.5 Bases de un espacio vectorial I.......................................................................... 146
9.6 Bases de un espacio vectorial II......................................................................... 149
9.7 Coordenadas de un vector respecto de una base ............................................. 151
9.8 Coordenadas y dependencia lineal ................................................................... 152
9.9 Cambio de base y de coordenadas de un vector .............................................. 153
10 Subespacios Vectoriales ........................................................................................ 155
10.1 Definición y Ejemplos ........................................................................................ 155
10.2 Subespacio generado por un conjunto de vectores.......................................... 157
10.3 Subespacio nulo, subespacio de filas y de columnas de una matriz ................. 158
10.4 Redefinición del rango de una matriz ............................................................... 160
10.5 Cálculo de la dimensión y una base de EC(A) y EF(A) para una matriz A .......... 162
10.6 Ecuaciones cartesianas y paramétricas de un subespacio I .............................. 164
10.7 Ecuaciones cartesianas y paramétricas de un subespacio II ............................. 166
6
10.8 Ecuaciones cartesianas y paramétricas de un subespacio III ............................ 169
10.9 Último repaso: Ecuaciones cartesianas y relaciones con la dimensión del
subespacio ..................................................................................................................... 171
10.10 Intersección de subespacios.......................................................................... 172
10.11 Suma de subespacios .................................................................................... 173
10.12 Fórmula de las dimensiones de los subespacios ........................................... 174
10.13 Suma directa de subespacios y subespacios complementarios o
suplementarios .............................................................................................................. 175
10.14 Más sobre espacios suplementarios I ........................................................... 178
10.15 Mas sobre espacios suplementarios II .......................................................... 179
10.16 Subespacios afines ........................................................................................ 181
10.17 Espacio vectorial cociente ............................................................................. 184
Sección IV Aplicaciones lineales ............................................................................................ 188
11 Aplicaciones lineales. Definición, ejemplos, propiedades y conceptos esenciales
189
11.1 Definición y Ejemplos ........................................................................................ 189
11.2 El espacio vectorial de las aplicaciones lineales entre dos espacios vectoriales V
y V’ 191
11.3 Isomorfismos I, Preparando el terreno ............................................................. 193
11.4 Isomorfismos II .................................................................................................. 196
11.5 Isomorfismos III. Muestra de varios Isomorfismos ........................................... 198
11.6 Isomorfismos IV ................................................................................................. 200
11.7 Núcleo e Imagen de una aplicación lineal ......................................................... 202
12 Aplicaciones lineales y matrices ............................................................................ 205
12.1 Matriz estandar asociada a una aplicación lineal de 𝐹𝑛 en 𝐹𝑚 ....................... 205
12.2 Suma de matrices y producto de una matriz por un escalar ............................ 207
12.3 Producto de matrices y algebra de matrices ..................................................... 208
12.4 Matriz inversa de otra ....................................................................................... 210
12.5 Algoritmo para calcular la inversa de una matriz redefinido ............................ 211
12.6 Nueva perspectiva del cambio de coordenadas ............................................... 212
12.7 Propiedades de los cambios de base y formas prácticas de realizarlos ............ 214
12.8 Matriz asociada a una aplicación lineal entre dos espacios vectoriales generales
sobre el mismo cuerpo F ............................................................................................... 215
12.9 Cálculo de las dimensiones ............................................................................... 218
12.10 Núcleo e imagen de una aplicación lineal y matrices ................................... 220
7
12.11 Matriz asociada a una aplicación lineal y cambio de bases .......................... 221
12.12 Matriz asociada a una aplicación lineal y operaciones definidas en las
aplicaciones y en las matrices ....................................................................................... 222
13 Espacio Vectorial Dual ........................................................................................... 223
13.1 Definición y la base dual asociada a una base de V .......................................... 223
13.2 Bases duales para un espacio vectorial V de dimensión finita.......................... 225
13.3 La relación de dualidad entre V y 𝑉 ∗................................................................ 226
13.4 Cambio de coordenadas de un covector en un cambio de la base de V .......... 227
13.5 El espacio bidual 𝑉 ∗∗ de V ............................................................................... 228
13.6 Complementos ortogonales o anuladores I ...................................................... 230
13.7 Complementos ortogonales o anuladores II ..................................................... 233
13.8 La aplicación lineal dual I ................................................................................... 235
13.9 La aplicación dual II ........................................................................................... 237
13.10 La aplicación lineal dual y la matriz traspuesta ............................................. 239
8
Prólogo Quisiera hacer ciertas consideraciones antes de empezar.
Este libro es el resultado de poner conocimientos de libros que tengo en formato
apuntes, ebook formato pdf, por conveniencia mía para estudiar los temas que presento
pero que también creo que pueden ser de utilidad para los lectores de los mismos.
Se presenta en una primera parte porque el procesador de textos que utilizo que es
Word da problemas con cierto número de páginas acumuladas, por lo que he
considerado que sería conveniente dividir el libro original en 2 partes. La verdad es que
se puede considerar la segunda parte mas interesante que la primera, pero estudiar la
primera es obligatorio para la segunda. La segunda parte todavía no está preparada.
Las características de este ebook son tales que es conveniente que se lean todos o casi
todas las secciones, subsecciones y subsubsecciones en orden para el entendimiento del
mismo, pues como ocurre con todos los textos de matemáticas el conocimiento se va
sumando en progresión según se avanza y lo posterior necesita de lo anterior. Por lo que
si no eres un lector que le gusten las matemáticas o tienes mucha prisa por buscar
ciertos resultados quizás no te vaya a gustar este libro.
Por tanto, ármese el lector de valor y léalo como se indica y sabiendo que si no te gustan
las matemáticas no vas a poder avanzar mucho. Lo siento este libro es así y lo he escrito
con mucho amor por las matemáticas por lo que este es el resultado. Si a pesar de todo
tienes éxito con el libro o te gusta, lo he escrito como un compendio de resultados
intentando ser exhaustivo para una introducción y que se pueda utilizar como material
de referencia.
El libro no requiere ningún conocimiento previo, aunque sí amor por las matemáticas y
una cierta madurez en el razonamiento deductivo que se irá adquiriendo poco a poco
con el tiempo si quieres aprender matemáticas de forma consistente leyendo libros.
Por tanto, quiero explicar a qué público va dedicado este libro:
1) Para repaso y profundización de estudiantes de primeros cursos universitarios que
tengan la curiosidad de profundizar quizás en las vacaciones.
2) Para todo aquel que quiera aprender matemáticas desde el principio, en concreto
el tema del álgebra lineal, con cierto grado de rigor (nivel universitario).
3) Como consulta de ciertos temas fundamentales por matemáticos más avanzados.
Queremos pedir disculpas a los matemáticos profesionales o más avanzados el nivel no
muy alto, de introducción, que presenta el libro.
Considero personalmente que el tema que trata este libro una introducción al álgebra
lineal es un tema bonito, sencillo y bastante fácil, por lo que quiero animar al lector que
se vea interesado en repasar y estudiar profundamente el libro que no lo encontrará
difícil, salvo quizás algunas demostraciones y quizás más en el tema del espacio dual.
Recomiendo que se lea el libro una vez rápidamente para determinar precisamente el
total de los temas que se tratan; quizás esta primera vez sin comprender bien las
9
demostraciones y luego, leerlo otra vez, más en profundidad, tratando de comprender
las demostraciones y el significado de todos los conceptos y temas que se tratan y como
se tratan.
No es un libro lo completo que quería porque he querido hacer una versión ligera para
publicarlo en internet los más rápido posible. Mi deseo es escribir otro más avanzado y
completo en el futuro donde me gustaría tratar todas las formas canónicas principales
(Smith, racional, generalizada de Jordan y de Jordan) y algoritmos para hallarlas a ellas,
así como a las bases que las determinan.
Así como está el ebook, no tiene ejercicios, pero me gustaría en sucesivas versiones
proveerlo de ellos, así como de sus soluciones.
Por último, quiero pedir disculpas si hay algún error, no se asuste el lector, puede
preguntarme en el email que dejaré si algo no se ha entendido e iré corrigiendo los
errores que pueda encontrar en repasos que haga al libro.
10
Sección I Preliminares
11
1 Primeros preliminares
1.1 Las proposiciones matemáticas y el cálculo o álgebra proposicional
Las matemáticas trabajan con proposiciones que son un tipo de enunciados de los que
se puede decidir si son ciertos o falsos. Si tenemos una o más proposiciones podemos
crear a partir de ellas otras proposiciones más complejas, y es más, podemos determinar
el valor de verdad (verdadero o falso) si sabemos el de las proposiciones que la
componen. Para todo esto debemos conocer como formar proposiciones más complejas
a partir, de otras componentes. En matemáticas hay 5 operadores (operadores lógicos)
que permiten construir proposiciones compuestas a partir de otras componentes. Estos
son los siguientes:
DEFINICIÓN: A partir de dos proposiciones A y B se puede construir la proposición A ó B,
por medio del operador lógico o, llamado también disyunción, que es verdadera cuando
A o B, al menos una, es verdadera. Es decir que solo será falsa si ambas A y B son falsas.
El operador o tiene la siguiente tabla de verdad, que se deduce de su significado:
A B A ó B
V V V
V F V
F V V
F F F
Si unimos más de dos proposiciones por varios operadores o y solo por ellos (habría
muchas maneras de hacerlo y todas equivalentes), no es necesario que pongamos la
tabla de verdad, pero el único modo de hacer falsa la proposición resultante es que
todas las proposiciones componentes o unidas sean falsas al mismo tiempo. En cuanto
haya una verdadera la proposición compuesta será verdadera.
La siguiente conectiva (operador lógico que une dos proposiciones) a tratar es y.
DEFINICIÓN: A partir de dos proposiciones A, B se puede construir la proposición A y B,
por medio del operador lógico y, llamada también conjunción, la cual, es verdadera
solamente cuando las dos proposiciones son verdaderas a la vez. Por lo cual, podemos
ver que su tabla de verdad es la siguiente:
A B A y B
V V V
12
V F F
F V F
F F F
Si unimos más de dos proposiciones solamente con operadores y, se puede deducir que
la única forma en que el resultado sea verdadero es que todas las proposiciones
componentes sean verdaderas. En cuanto una de las proposiciones componentes sea
falsa, la compuesta de ellas será falsa.
El siguiente operador lógico es el más fácil, se trata de la negación.
DEFINICIÓN: Dada una proposición A se puede construir la negación de esta, consistente
en negarla, de esta manera: no A, la cual es verdadera si A es falsa, y es falsa, si A es
verdadera. Con lo cual, la tabla de verdad es muy fácil.
A no A
V F
F V
El siguiente operador lógico es importantísimo, se trata de la implicación.
DEFINICIÓN: Dada las proposiciones A y B se puede construir la proposición A implica B,
por medio del operador lógico implica, que es la implicación o consecuencia lógica, y se
trata de una proposición falsa, solo si A es verdadera, pero B es falsa, de modo que si A
es falsa la proposición A implica B será verdadera, como podemos ver en la tabla de
verdad de la implicación:
A B A implica B
V V V
V F F
F V V
F F V
Es fácil ver por qué este operador es tan importante en matemáticas, esto es porque las
matemáticas se basan en la demostración de teoremas, que es llegar a una verdad o
proposición partiendo de otra. Esta cadena evidentemente consiste en una implicación
de la primera proposición hacia la conclusión y sabremos que la conclusión será
verdadera si demostramos la implicación, ya que tenemos como demostrada o
verdadera la primera proposición. Aquí también vemos la importancia de las tablas de
verdad, ya que en la tabla de verdad de la implicación que acabamos de ver, si la
implicación es verdadera, no está permitido que la conclusión sea falsa si la primera
proposición es verdadera (porque si esto fuera así la implicación sería falsa), por lo que
nos aseguramos de que la conclusión es verdadera sabiendo que la implicación es
verdadera y la premisa también.
13
Quizás nos parezca raro asignar el valor verdadero a una implicación donde la premisa
o primera proposición, es falsa, pero veamos porque debe ser así, pongamos 2 ejemplos:
a) Si la primera proposición es falsa no podemos dar un contraejemplo, que consiste
en ver que la conclusión es falsa con un ejemplo o caso verdadero (Cosa muy
importante cuando queremos demostrar que una implicación es falsa si sabemos la
verdad de la premisa, con el hecho de encontrar un ejemplo en contra se prueba la
falsedad de la implicación). Por ejemplo, consideremos la implicación “los españoles
son madrileños” tiene forma de implicación si decimos que A, “Soy español” implica
B, “soy madrileño”. Podemos demostrar que esta implicación es falsa si utilizamos
la proposición “soy valenciano”, esta proposición es un contraejemplo de la
implicación porque se cumple que “soy español”, A, pero no “soy madrileño”, B (o
sea se cumple que no B). Si damos un contraejemplo, supuesta la verdad de la
premisa, la implicación (que queremos demostrar o suponemos cierta, es decir la
verdad de la implicación) sería falsa según la tabla de verdad de la implicación. Pero
si la primera proposición, o premisa, es falsa, ya el contraejemplo no funciona (es
decir, el contraejemplo no demuestra la falsedad de la implicación), por lo que es
natural suponer la verdad de la implicación cuando la premisa es falsa.
b) Veamos otro caso más claro, supongamos que la implicación A implica B está
compuesta de A “n es divisible por 6” y B “n es divisible por 3”. Debería estar clara
la implicación A implica B, es decir “n es divisible por 6” implica que “n es divisible
por 3”, pero supongamos que n = 9, entonces ocurre que A es falsa, pero B es
verdadera (y deseamos que la implicación se siga considerando verdadera), además
en el caso n = 8, tanto A como B son falsas, aun así, sostenemos que A implica B
tiene que ser verdadero, lo cual ilustra la tabla de verdad de la implicación en los
casos en los que teníamos dudas.
Todavía nos queda decir unas cuantas cosas en cuanto a la implicación. Si A implica B
también se dice que ‘Si A entonces B’, y también que ‘A es suficiente para B’ o que ‘B es
necesaria para A’. También se dice que ‘A se cumple solo si B se cumple’, es decir ‘A solo
si B’.
Nos queda un último punto a considerar en cuanto a la implicación. La proposición
recíproca de A implica B, es B implica A. Es importante darse cuenta de que si una
proposición es cierta no quiere decir que su recíproca sea cierta también, por ejemplo,
si tu “vives en Madrid” A, entonces, “vives en España” B (A implica B), pero si vives en
España no implica que vivas en Madrid, puedes vivir en Gijón, por ejemplo, por tanto la
recíproca de A implica B, es decir, B implica A, no es cierta en general, aunque sepamos
que se cumple, A implica B. Cuando esto ocurre, es decir, cuando son ciertas tanto A
implica B, como B implica A, se dice que las proposiciones A y B son equivalentes. Lo que
nos lleva al último operador lógico.
DEFINICIÓN: Dadas las proposiciones A y B se puede construir la proposición A equivale
a B que se puede definir en función de la implicación y la conjunción, como A implica B
y B implica A. Otras formas de decir que dos proposiciones son equivalentes es decir que
A es necesario y suficiente para B, o que A si y solo si B. Si escribiéramos una tabla de
verdad compuesta de A implica B y B implica A, veríamos (como lo vamos a definir ahora
14
mismo) que si dos proposiciones son equivalentes tienen que tener el mismo valor de
verdad, es decir ambas verdaderas o ambas falsas, de modo que la tabla de verdad de
la equivalencia es la siguiente:
A B A equivale a B
V V V
V F F
F V F
F F V
1.2 Métodos de demostración en matemáticas
Será útil basados en nuestro conocimiento del operador lógico implicación (o
consecuencia lógica), ver como se procede habitualmente en matemáticas para hacer
demostraciones de proposiciones, que no son otra cosa más que implicaciones.
Consideramos esto útil porque nos ayudará en el futuro a comprender las
demostraciones y tener pistas de cómo hacer nosotros nuestras demostraciones en los
ejercicios.
1) Prueba directa: Este método es el más fácil. Suponemos la proposición A y
obtenemos la proposición B. Es fácil de describir, pero las demostraciones directas
no hay que suponer que sean fáciles de hacer. Si no logramos hacer una
demostración directa, entonces habrá que probar con las siguientes formas.
2) Probar la contrarecíproca: La proposición contrarecíproca de A implica B es (no B)
implica (no A) y se trata de dos proposiciones equivalentes, de ahí que si se
demuestra una se obtiene la otra. O dicho de nuevo, si no podemos hacer una
demostración directa, probar la contrarecíproca puede dar resultado. Para ver que
estas dos proposiciones son equivalentes podemos construir una tabla de verdad,
pero es más fácil si pensamos lo siguiente: ¿Cuándo es A implica B falso? Solo si A es
verdadero y B falso, y ¿Cuándo es (no B) implica (no A) falsa? Solo cuando no B es
verdadero y no A falso, es decir, cuando B es falsa y A verdadera, es decir, estamos
en las mismas circunstancias.
3) Prueba por contradicción: Es un principio lógico que, si al suponer una proposición
se llega a una contradicción, entonces la proposición que se suponía ha de ser por
fuerza falsa, de ahí que también si queremos demostrar la proposición A podemos
utilizar el principio anterior de la siguiente manera: Supongamos no A, entonces si
llegamos a una contradicción tendrá que ser no A falsa, es decir A verdadera.
4) Prueba por Casos: A veces, queremos demostrar una proposición según la
implicación A implica B y se dan una serie de casos diferentes o posibilidades,
entonces, si separamos los distintos casos y tratamos de demostrar que B se deduce
siempre en todos los casos, habremos conseguido lo que nos proponíamos.
15
Pongamos un ejemplo: Si en el transcurso de la demostración de una propiedad de
los números reales se dan las 3 posibilidades siguientes, que los números sean
menores de 5, que el número sea 5 o que los números sean mayores que 5, quizás
sea buena idea mirar cada caso y concluir en todos, la propiedad de los números
reales que queremos demostrar, entonces estaremos seguros de que la propiedad
es cierta porque no hay más casos por comprobar. A veces ordenarse de esta
manera en las demostraciones es muy útil y también es muy común, por eso hemos
descrito este método.
5) Demostración por inducción: La demostración por inducción es muy importante
para demostrar una proposición de los números naturales o que puede depender
de cada número natural n. Es tan importante que dedicamos una de las siguientes
subsecciones a ella.
1.3 Introducción a los conjuntos
Necesitamos repasar algunos conceptos sobre los conjuntos. No definiremos lo que es
un conjunto formalmente porque es una noción primaria de modo que nos limitaremos
a definirlos informalmente. Los conjuntos son fundamentales en matemáticas porque
son la piedra angular en donde descansan todos los conceptos matemáticos, es decir,
que todos los conceptos matemáticos se pueden definir en términos de conjuntos.
Diremos que un conjunto es una colección de entes u objetos llamados miembros o
elementos del conjunto y la noción de pertenencia de un elemento con respecto a un
conjunto es tan intuitiva y primaria que no la definiremos, pero la notaremos así:
notamos “a pertenece al conjunto A” de este modo a∈A. Si a no es elemento del
conjunto A lo notaremos así a∉A
Si un conjunto posee pocos elementos se pueden listar en su definición, así, A = {a, b, c},
define un conjunto cuyos elementos son a, b y c. Si se trata de un conjunto con muchos
elementos o infinitos debemos definirlos de otra manera, como, por ejemplo, dando
una propiedad que comparten todos sus elementos, así B = {x∈ℝ: 2 ≤ x ≤ 3} es la forma
de definir el intervalo de números reales comprendido entre 2 y 3 (con 2 y 3 incluidos).
DEFINICIÓN: Un subconjunto S de un conjunto A es un conjunto tal que cada elemento
de S pertenece a A. Esto simbólicamente se escribe y para las demostraciones, se trata
de esta manera: s∈S implica s∈A. Si S es un subconjunto de A se nota S ⊆ A o A ⊇ S.
Dado S ⊆ A, si sabemos que A posee elementos que S no posee, porque hasta este
punto, aunque S ⊆ A podría ser que S = A, pero si sabemos que hay elementos de A que
no posee S escribimos S ⊂ A o A ⊃ S.
Para dos conjuntos S y A definimos que S = A si poseen exactamente los mismos
elementos y esto para las demostraciones se simboliza así: S ⊆ A y también, A ⊆ S. Es
decir, que para demostrar que dos conjuntos son iguales hay que demostrar las dos
inclusiones.
16
DEFINICIÓN: Dados dos conjuntos A y B se puede definir la unión de ellos que se nota
así: A ∪ B, y que se trata del conjunto cuyos elementos son los de A y B juntos o
expresado simbólicamente A ∪ B = {x : xϵA ó xϵB}.
DEFINICIÓN: Dados dos conjuntos A y B se puede definir la intersección de ellos que se
nota así: A ∩ B y que se trata del subconjunto de A y B que posee exactamente los
elementos comunes de A y B o expresado simbólicamente A ∩ B = {x: xϵA y xϵB}.
DEFINICIÓN: Dado un conjunto grande de conjuntos que puede ser infinito, notados
de la siguiente manera: 𝐴𝑖, se puede definir su unión o su intersección, de la siguiente
manera: La unión ⋃ 𝐴𝑖𝑖 = {x: ꓱ i tal que xϵ𝐴𝑖}; la intersección ⋂ 𝐴𝑖𝑖 = {x: ꓯi xϵ𝐴𝑖}.
DEFINICIONES: Si A y B son conjuntos el conjunto de elementos de A que no están B se
define como el conjunto diferencia de A menos B y es denotado como A – B. Si B ⊆ A,
entonces, A – B se llama el complemento de B en A. Si Consideramos a A como un
subconjunto de uno más grande, U, que se llama el universal de una serie de conjuntos,
entonces U – A se llama el complemento de A y se denota como 𝐴𝐶.
Nos queda por definir un conjunto.
DEFINICIÓN: Existe el conjunto sin elementos llamado conjunto vacío, notado por Ø, de
modo que la proposición x∈Ø es falsa para cualquier x; y para todo conjunto A, Ø ⊆ A
es siempre verdadera, ya que la proposición “x∈Ø implica x∈A” es siempre verdadera,
puesto que la premisa x∈Ø, es falsa.
1.4 Breve mención a la teoría axiomática de conjuntos
A principios del siglo XX y por diversas razones, se realizó un trabajo de fundamentación
de las matemáticas y en concreto en la teoría de conjuntos, dándoles un formato
axiomático. Nosotros no vamos a ser tan rigurosos en este libro de fundamentar todas
las matemáticas del mismo en la axiomática de conjuntos más utilizada, pero vamos a
recordar en esta humilde subsección los axiomas en los que se fundamentaría nuestro
trabajo si fuésemos tan rigurosos hasta el extremo de comenzar con los axiomas de la
teoría de conjuntos que fundamentaría esta teoría (la teoría de conjuntos) que es la base
de todo este libro.
Asumiendo como hace la teoría axiomática de conjuntos como no definidos los
conceptos primitivos que son los de conjunto, elemento perteneciente a un conjunto y
pertenencia de un elemento al conjunto, como por ejemplo en la sentencia a∈ 𝐴, donde
a es un elemento, A un conjunto y el símbolo ∈, la relación de pertenencia, vamos sin
más a listar los axiomas de la teoría de conjuntos más aceptada que servirían de base a
este libro:
1) Axioma de extensionalidad: Dos conjuntos son iguales si tienen los mismos
elementos.
2) Axioma del conjunto vacío: Existe el conjunto vacío ∅, es decir el conjunto al que no
pertenece ningún elemento.
17
3) Axioma de especificación: Dado un conjunto A y una sentencia matemática o
propiedad P, existe un conjunto cuyos elementos son los elementos de A tales que
cumplan la propiedad P.
4) Axioma del par: Dados dos conjuntos A y B, existe otro conjunto C cuyos elementos
son precisamente A y B.
5) Axioma de la unión: Dado un conjunto A cuyos elementos son conjuntos, existe otro
conjunto B, cuyos elementos son los elementos que pertenezcan a algún conjunto
de A, es decir, sea C algún conjunto elemento de A, si x es un elemento C, entonces,
x pertenece a B.
6) Axioma de partes: Dado un conjunto de A existe otro conjunto cuyos elementos son
todos los subconjuntos de A.
7) Axioma de infinitud: Existe un conjunto A con la propiedad de que el conjunto vacío
∅ pertenece a él y siempre que un elemento b pertenece a A, entonces, también
pertenece a A el conjunto {b} como elemento (que no es lo mismo que decir que b
pertenece a A).
Quizás haya que aclarar en el axioma 6 un concepto no definido. Se puede definir en 6
el concepto de subconjunto: B es subconjunto de A si ocurre que un elemento x
pertenece a B implica siempre, que x pertenece a A (es decir, que todo elemento de B
pertenece a A).
Como mencionaremos en la subsección dedicada a los axiomas de Peano de los números
naturales (que son los axiomas con los que fundamentar rigurosamente los números
naturales como veremos), con estos axiomas de conjuntos se pueden demostrar
precisamente los axiomas de Peano, hecho que, aunque no sea arduo ni mucho menos,
no demostraremos en este libro.
1.5 Introducción a las funciones
El concepto de función seguro que es familiar al lector, pero lo introduciremos para
seguir una línea lógica en la argumentación y ser completos. Seguro que el lector
conocerá de sus estudios las funciones numéricas, como por ejemplo f(x) = 𝑥2, que se
supone implícitamente que es una función de números reales. A cada valor de x, el cual
es cualquier número real se le asigna su cuadrado, así por ejemplo x = 4 produce f(x) =
16. Parece sencillo, pero hay algunos detalles que tenemos que tratar para ser
completos.
DEFINICIÓN: Una función de un conjunto A, a otro B (donde A y B pueden ser cualquier
tipo de conjuntos, no necesariamente numéricos) es una regla que asigna a cada
elemento de A, x, un elemento de B, f(x), pero solo un elemento de B (este detalle es
crucial). Se nota como hemos visto f(x) al valor de x, es decir al valor que f asigna a x para
cada x, y simbólicamente una función f de A a B se simboliza así: f: A ↦ B. Además, hay
más terminología, la cual también es importante. Se dice que A es el dominio de f y B el
codominio. Además, todo y, tal que y = f(x) para algún x pertenece a un conjunto que se
llama el rango de f, que a veces, no tiene por qué coincidir con el codominio. Así, en el
ejemplo anterior de f(x) = 𝑥2, el dominio de f sería el conjunto de los números reales, ℝ,
18
mientras que el codominio podría ser y el rango de f, sería el conjunto de los números
reales positivos, añadiendo 0. Pero he aquí que en la definición de una función se admite
esta sutileza, el codominio de la función anterior podría ser también todo ℝ, porque la
función asigna a cada x un número real, aunque sabemos que solo le asignará un número
positivo, ó 0. Para tratar esta ambigüedad se considera que se trata de dos funciones
distintas, ya que tienen diferentes codominios, por lo que vemos que la determinación
del dominio y codominio es una parte importante en la definición de una función.
Vemos ahora una operación familiar en el conjunto de las funciones (consideramos
definido un tipo de funciones) que también es conocida por el lector, se trata de la
composición de funciones. Veamos el siguiente ejemplo: sea h(x) = 𝑠𝑒𝑛2(x). Esto, ¿qué
significa?, es una definición por pasos, primero calculamos el sen(x) y luego hayamos su
cuadrado. Entonces si f(x) = sen(x) y g(y) = 𝑦2, tenemos que h(x) = g(f(x)). ¿Comprende
el lector lo que queremos decir? Hagamos la definición en general:
DEFINICIÓN: Si tenemos dos funciones f y g con las siguientes características:
f: A ↦ B, g: B ↦ C (nótese que el codomino de f coincide con el dominio de g), la
composición de f y g, o su función compuesta, es la siguiente función h, notada como h
= g○f, h: A ↦ C, tal que h(x) = g(f(x)), para todo x de A. Es fácil, primero se calcula f y del
resultado, se calcula g y todo junto, define una nueva función.
La siguiente propiedad de la composición de funciones es muy importante y vamos a
mostrarla en el siguiente teorema.
TEOREMA 1.5.1: Sean f, g y h funciones definidas de la siguiente manera, f: A ↦ B, g: B
↦ C, h: C ↦ D, entonces (h○g)○f = h○(g○f) y simplemente se notará como h○g○f.
DEMOSTRACIÓN: El dominio de (h○g)○f y h○(g○f) es A, entonces, para todo x de A se
tiene que ((h○g)○f)(x) = (h○g)(f(x)) = h(g(f(x))) = h((g○f)(x)) = (h○(g○f))(x). □
Ahora, veamos dos detalles que nos interesan de las funciones. Para la función anterior,
f(x) = 𝑥2, dado un valor de f(x), por ejemplo, f(4) = 16, ¿habrá otro valor x = z, tal que f(z)
= 16? Esta es una pregunta que tiene mucha importancia, como veremos a lo largo del
libro. Pues bien, vemos que para x = -4 también f(-4) = 16, de modo que f(4) = f(-4) = 16.
Volveremos sobre esto inmediatamente.
Hay otro detalle que nos interesa. Si definimos como codominio de f(x) = 𝑥2, los números
reales positivos, ¿cada número positivo, incluido 0, es el valor de la función f(x) para
algún número x del dominio? La respuesta es que sí, pero si definimos como codominio
de esta regla f, a todo ℝ, sabemos que los números negativos no son asignados a ningún
número del dominio, ya que el cuadrado de cualquier número es positivo. Por estos dos
detalles son pertinentes estas definiciones que siguen:
DEFINICIÓN: La función f: A ↦ B se dice que es inyectiva o uno-a-uno si solo un valor del
domino de f se asignan a un valor f(x), es decir solo un valor x se corresponde con f(x) o
expresado más técnicamente si f(x) = f(y) implica que x = y.
19
La función f se dice suprayectiva si a todo elemento y, del codomino B, le corresponde
un elemento x (pueden ser varios) del domino A, tal que f(x) = y, o dicho de otra manera,
si el codominio coincide con el rango.
La función f se dice que es biyectiva o una correspondencia uno-a-uno si es inyectiva y a
la vez, suprayectiva.
Para ilustrar estas definiciones veamos un ejemplo:
EJEMPLO: Representamos la correspondencia f(x) = y con una flecha que va de x a y:
A f B
a j
b k
c l
Por lo tanto, tenemos que f(a) = f(b) = j y a k, del codominio B, no lo corresponde ningún
elemento del dominio A, por lo que, en este ejemplo, la función f no es ni inyectiva, ni
suprayectiva.
1.6 El concepto de relación en uno o entre dos o más conjuntos
Ya hemos visto que dada una función f: A ↦ B y para un elemento a de A, solo existe un
valor f(a) de B, en términos de flechas solo sale una flecha del elemento a hacia f(a).
Entonces nos preguntamos: ¿No se puede generalizar esta idea y permitir objetos
matemáticos, tales que, asocien a un elemento a de A, varios otros elementos de B? La
respuesta es que tales objetos si existen ya en matemáticas y se llaman relaciones. Para
la definición de estas, hace falta definir antes los pares ordenados y su generalización,
las n-tuplas.
DEFINICIÓN: Se define un par ordenado de dos elementos a y b, notado como (a, b), a
un conjunto especial de solo los elementos a y b, pero donde el orden importa; no es lo
mismo el par ordenado (a, b) que el par (b, a). Más técnicamente, dos pares ordenados
(a, b), (c, d) son iguales si se cumple que a = c y b = d. Por tanto, veamos como ejemplo,
que como decíamos antes, si a y b son distintos, el par (a, b) no es lo mismo que el par
(b, a), pues si fueran iguales, se tendría que cumplir que a = b y b = a, condición
redundante que hemos supuesto que no se cumplía. Ahora veamos como generalizar
esta noción de par ordenado, a la de n-tupla ordenada. Se define la n-tupla ordenada
(𝑎1, 𝑎2, …, 𝑎𝑛) como un conjunto especial de los n elementos 𝑎1, …, 𝑎𝑛, donde n es un
número natural, donde técnicamente, si dos n-tuplas, (𝑎1, 𝑎2, …, 𝑎𝑛), (𝑏1, 𝑏2, …, 𝑏𝑛), son
iguales, se tiene que cumplir que 𝑎1 = 𝑏1, 𝑎2 = 𝑏2, …, 𝑎𝑛 = 𝑏𝑛.
Ahora, si A y B son dos conjuntos, el producto cartesiano de A y B, notado como A×B, es
el conjunto de todos los pares ordenados (a, b), con a un elemento cualquiera, de A y b
un elemento cualquiera de B. De manera similar, el producto cartesiano de n conjuntos
𝐴1, …, 𝐴𝑛, notado por 𝐴1× … ×𝐴𝑛, es el conjunto de todas las n-tuplas ordenadas, (𝑎1,
𝑎2, …, 𝑎𝑛), donde, 𝑎1 es un elemento de 𝐴1, …, 𝑎𝑛 es un elemento de 𝐴𝑛 o dicho más
resumidamente 𝑎𝑖 es un elemento de 𝐴𝑖, con 1 ≤ i ≤ n. Si 𝐴𝑖 = A, es decir, todos los
20
conjuntos del producto cartesiano son uno mismo, A, este producto cartesiano
normalmente se nota como 𝐴𝑛.
Ahora podemos definir los conceptos de relación entre conjuntos: Una relación entre
dos conjuntos A y B es simplemente un subconjunto del producto cartesiano A×B. Una
relación en A es un subconjunto del producto cartesiano A×A. Similarmente, una
relación n-aria entre n conjuntos 𝐴1, …, 𝐴𝑛, es un subconjunto del producto cartesiano
𝐴1× … ×𝐴𝑛 y, finalmente, una relación n-aria en A, es un subconjunto de 𝐴𝑛.
EJEMPLO: Como ejemplo, definimos la relación R en el conjunto A = {1, 2, 3, 4, 5, 6, 7, 8}
de la siguiente manera: el par (a, b) pertenece a la relación, lo cual se simboliza así, aRb,
sí y solo sí a < b y a divide b. De esta manera, se obtienen los siguientes pares de la
relación R: (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (1, 7), (1, 8), (2, 4), (2, 6), (2, 8), (3, 6), (4, 8).
Comentamos que, por ejemplo, (3, 3) no pertenece a la relación, porque 3 se divide a sí
mismo, pero 3 no es menor que sí mismo.
Si ahora dibujáramos un diagrama de flechas veríamos que del elemento 1, salen 7
flechas, del elemento 2, tres flechas, de los elementos 3 y 4, solo sale 1 y de los
elementos 6, 7 y 8, no sale ninguna.
Para terminar, queremos definir lo que es una función, como se haría rigurosamente en
la teoría de conjuntos.
DEFINICIÓN: Una función f, de un dominio A, a un codominio B, es un conjunto de pares
ordenados (a, b), tales que a pertenece a A y b a B, (un subconjunto del producto
cartesiano A×B), de manera que no hay ningún par en la función f, (a, c), con b diferente
de c, es decir, si (a, b) y (a, c) pertenecen a la función, entonces b = c, de modo que, al
mismo elemento a de A no le corresponden diferentes elementos b y c de B. También
se puede definir función como una relación (binaria) entre A y B que cumple la condición
anterior.
1.7 Profundizando un poco en el concepto de función
Hay una función muy especial de entre todas las que pueden construirse de un conjunto
A en sí mismo. Se llama la función identidad y se nota como 𝐼𝐴. Si A está claro en la
discusión, esta función se nota simplemente como I.
DEFINICIÓN: Se llama función identidad en A y se nota por 𝐼𝐴 o simplemente por I, si A
está claro en el contexto, a la función 𝐼𝐴: A ↦ A, tal que 𝐼𝐴(x) = x, es decir, que asigna a
cada elemento de A, consigo mismo.
Otra de las preguntas que nos haremos de una función f: A ↦ B, es si hay una función g,
g: B ↦ A, tal que, si y = f(x) para cada x, g(y) = x, para cada y, pero esto si lo pensamos
un momento, quizás no pueda darse si f(𝑥𝑎) = f(𝑥𝑏) = z por ejemplo, pues para g(z) no
tenemos un valor único como lo exige la definición de función. Entonces, ahora está
claro que si f es inyectiva no hay impedimentos para que la función g exista.
Demostrémoslo en el siguiente teorema.
TEOREMA 1: Sea f una función f: A ↦ B, entonces existe otra función g: C ↦ A, tal que,
si y = f(x) para cada x, g(y) = x, para cada y, sí y solo sí, f es inyectiva. Si esto ocurre, el
dominio de g es el rango de f y el rango de g es el dominio de f.
21
DEMOSTRACIÓN:
a) Supongamos que g(y) no tiene un valor único (esto no es tan raro, puede darse si consideramos que g como función que queremos investigar, es primero una relación o un subconjunto del producto cartesiano C×A) de modo que g(y) = x y g(y) = z, por lo tanto, no sería una función según lo exige su definición, pero entonces, f(x) = f(z) = y y, por tanto, f no es inyectiva, contradicción, de modo que si f es inyectiva, g es una función bien definida.
b) Supongamos que f(x) = f(z) = y, pero entonces g(y) no está bien definida y no puede ser una función, por lo que tiene que ser x = z y, por tanto, f es inyectiva si g está bien definida como función.
Pero veamos ahora, que, si z no está en el rango de f, no es posible que g(z) = x, para
algún x, de modo que si z no está en el rango de f no puede pertenecer al domino de g.
Pero veamos que, si z pertenece al rango de f, entonces f(x) = z para algún x del dominio
de f, de modo que g(z) = x y g está definida en z, o sea que z pertenece al dominio de g.
Por último, x pertenece al rango de g si existe un y tal que f(x) = y, de modo que x
pertenece al dominio de f, por tanto, el rango de g es el dominio de f. □
DEFINICIÓN: Sea f una función f: A ↦ B, inyectiva, entonces, la función g: B ↦ A, tal
que, si y = f(x) para cada x, g(y) = x, se llama inversa de f y se nota como 𝑓−1 = g.
Nos quedan todavía 4 teoremas sencillos acerca de las funciones, sus compuestas y sus
inversas, que nos serán de utilidad más adelante y darán más luz al concepto de función.
Vamos ahora mismo a por ellos.
TEOREMA 2: Sea f una función f: A ↦ B, y g, g: B ↦ C, se cumple lo siguiente:
1) Si g○f es inyectiva, entonces f es inyectiva.
2) Si g○f es suprayectiva, entonces g es suprayectiva.
DEMOSTRACIÓN:
1) Sea g○f inyectiva y f(x) = f(u) entonces, (g○f)(u) = g(f(u)) = g(f(x)) = (g○f)(x), de modo que x = u, por ser g○f inyectiva.
2) Sea g○f suprayectiva y z pertenece a C, entonces existe un x en A, tal que (g○f)(x) = z, así que si y = f(x), g(y) = g(f(x)) = (g○f)(x) = z, entonces, para todo z de C, existe un y de B, tal que g(y) = z. □
Veamos otro teorema que nos da un criterio muy simple para la biyectividad.
TEOREMA 3: Sea f una función f: A ↦ B. Si existen dos funciones g y h, g, h: B ↦ A, tales
que a) g○f = 𝐼𝐴, y b) f○h = 𝐼𝐵, entonces f es biyectiva y g = h = 𝑓−1.
DEMOSTRACIÓN: Como 𝐼𝐴 es inyectiva, por a) y 1) del teorema anterior, f es inyectiva.
Ahora por b) y 2) del teorema anterior f también es suprayectiva, por ser 𝐼𝐵 suprayectiva.
Sea y de B y x = 𝑓−1(y), entonces, i) 𝑓−1(y) = x = 𝐼𝐴(x) = g(f(x)) = g(y), también ii) f(x) = y
= 𝐼𝐵(y) = f(h(y)), pero iii) 𝑓−1(y) = x y de las ecuaciones anteriores ii) x = h(y), por ser f
inyectiva, de modo que , de i), ii) y iii) tenemos que g(y) = 𝑓−1(y) = h(y). □
22
En el siguiente teorema vemos las características de las funciones inversas de una
biyección.
TEOREMA 4: Si f es una biyección, f: A ↦ B, entonces, 𝑓−1 es una biyección 𝑓−1: B ↦ A
y se cumple lo siguiente: a) 𝑓−1○f = 𝐼𝐴, b) f○𝑓−1 = 𝐼𝐵 y c) (𝑓−1)−1 = f.
DEMOSTRACIÓN: a) Si x pertenece a A y y = f(x), entonces, 𝑓−1(y) = x, de modo que
(𝑓−1○f)(x) = 𝑓−1(f(x)) = 𝑓−1(y) = x, por tanto, 𝑓−1○f = 𝐼𝐴. b) Sea y de B y x = 𝑓−1(y),
entonces, y = f(x) y (f○𝑓−1)(y) = f(𝑓−1(y)) = f(x) = y, y, por tanto, f○𝑓−1 = 𝐼𝐵. c) De estas
ecuaciones y del teorema anterior aplicado a 𝑓−1, se concluye que 𝑓−1 es una biyección
y que (𝑓−1)−1 = f. □
Nuestro último teorema trata de la inversa de una composición, veámoslo.
TEOREMA 5: Si f es una biyección, f: A ↦ B y g es una biyección, g: B ↦ C, entonces, g○f
es una biyección, g○f: A ↦ C y (g ○ f )−1 = 𝑓−1○𝑔−1.
DEMOSTRACIÓN: Primero notemos que puesto que 𝑔−1 es una función 𝑔−1: C ↦ B, así
como, 𝑓−1: B ↦ A, según nuestro teorema anterior; entonces, 𝑓−1○𝑔−1 es una
función bien definida, 𝑓−1○𝑔−1: C ↦ A. Entonces, por el teorema anterior y el de una
subsección anterior, teorema 1.5.1, referente a la composición de 3 funciones: a)
(𝑓−1○𝑔−1)○(g○f) = 𝑓−1○[𝑔−1○(g○f)] = 𝑓−1○[(𝑔−1○g)○f)] = 𝑓−1○(𝐼𝐵○f) = 𝑓−1○f = 𝐼𝐴.
b) (g○f)○(𝑓−1○𝑔−1) = g○[f○(𝑓−1○𝑔−1)] = g○[(f○𝑓−1)○𝑔−1)] = g○(𝐼𝐵○𝑔−1) = g○𝑔−1 =
𝐼𝐶. Ahora, por el teorema anterior 1.7.3, g○f es una biyección y (g ○ f )−1 = 𝑓−1○𝑔−1.
□
1.8 Relaciones de equivalencia
Vamos ahora, a ver una clase de relaciones muy importantes, las relaciones de
equivalencia, para lo que emplearemos un ejemplo de una de ellas:
EJEMPLO: Sea A el conjunto de los números enteros, simbolizado por ℤ. Definimos en A
la relación R de ejemplo, de la siguiente manera: aRb, si y solo si a – b es divisible por 4.
aRb también se expresa diciendo que a es congruente con b módulo 4 y se simboliza de
la siguiente manera, a ≡ b mod 4. Esto se puede generalizar y definir la relación de
congruencia módulo un número entero m cualquiera. En el caso trivial de m = 1, ocurre
que todos los números son congruentes entre sí mod 1 (esto es fácil de ver ya que a – b,
sean cuales sean a, b, es divisible por 1, como sucede con cualquier número). Si
tomamos m = -k con k positivo, es decir, m negativo, tenemos la misma relación que m
= k, ya que a – b es divisible por -k cuando lo es por k y viceversa.
Para comprender mejor esta relación de equivalencia demostraremos que aRb o a ≡ b
mod 4, ocurre cuando ambos números a y b tienen el mismo resto al dividirlo por 4.
Demostrémoslo: Si a = s4 + z (o sea, tiene resto z al dividir por 4) y b = 4t + z, entonces a
– b = 4(s + t), ya que el resto desaparece al restar y vemos que aRb. Y a la inversa si a –
b = 4s (es decir, aRb) y b = 4t + z, entonces de a – b = 4s obtenemos, despejando a, a =
4s + 4t + z = 4(s + t) + z y por tanto a también tiene el resto z como b.
Ahora examinemos las propiedades de esta relación R:
23
1) Se dice que es reflexiva, porque según la definición de la propiedad reflexiva de una relación ocurre cuando aRa. Esto ocurre con nuestra relación ya que a tiene el mismo resto que el mismo al dividirlo por 4.
2) Se dice que es simétrica ya que esto se cumple por definición si aRb implica bRa. Y vemos que evidentemente esto ocurre: si a tiene el mismo resto que b al dividirlo por 4 entonces evidentemente, b tiene el mismo resto que a.
3) Se dice que es transitiva ya que, si aRb y bRc implica aRc. Si a tiene resto z al dividirlo por 4 y b también, entonces si b tiene el mismo resto que c, esto quiere decir que z también es el resto de c y por tanto aRc.
Ahora llegamos a donde queríamos llegar para definir una relación de equivalencia:
DEFINICIÓN: Se dice que una relación R es de equivalencia si tiene las propiedades de
reflexividad, simétrica y transitiva. A la clase o conjunto, de todos los elementos
equivalentes con a, notada como S(a) se le llama clase de equivalencia de a.
Veamos las clases de equivalencia de nuestra relación de ejemplo R congruencia mod 4.
Tendremos una clase de equivalencia cuando los números pertenecientes a ella tengan
un mismo resto al dividirlo por 4 y habrá tantas clases como restos diferentes se pueden
obtener al dividir por 4. Estos son 0, 1, 2 y 3. De modo que las clases de equivalencia
serán S(0), S(1), S(2) y S(3). Veamos algún elemento correspondiente a estas clases para
cada una:
S(0) = {…, -8, -4, 0, 4, 8, …},
S(1) = {…, -7, -3, 1, 5, 9, …}
S(2) = {…, -6, -2, 2, 6, 10, …}
S(3) = {…, -5, -1, 3, 7, 11, …}.
Y quizás el lector no se haya percatado de ello, pero cualquier número entero cae dentro
de una de estas 4 clases. Y también ocurre que estas clases de equivalencia o conjuntos
no comparten ningún elemento en común. Se dice que producen o son una partición en
el conjunto A.
DEFINICIÓN: Se llama partición de un conjunto A, a una serie de clases o subconjuntos
de A tales que todo elemento de A pertenece a una de estas clases y éstas no tienen
ningún elemento en común es decir se dice que son disjuntas.
Ahora demostremos que una relación de equivalencia en un conjunto A produce una
partición en A.
TEOREMA: Las clases de equivalencia de una relación de equivalencia en A consisten o
son una partición en A. También, a partir de cualquier partición se puede construir una
relación de equivalencia R, consistente en que aRb si a y b pertenecen a un mismo
conjunto en los que queda partido el conjunto total A.
DEMOSTRACIÓN:
24
a) Todo elemento de A pertenece a una clase de equivalencia. Esto es así porque la relación de equivalencia es reflexiva aRa, de modo que, a pertenece a S(a).
b) Veamos ahora que dos clases de equivalencia S(a), S(b) son disjuntas si son diferentes. Hay 2 casos:
i) b es equivalente a a, de modo que demostramos que S(a) = S(b), pues si cRb, también ocurre que bRc por simetría, pero teníamos que aRb y por transitividad, aRc y por tanto, todo elemento de S(b) es elemento de S(a). De la misma manera, si c pertenece a S(a) ocurre que cRa, pero también teníamos que bRa pero por simetría, aRb y por transitividad cRb, de modo que todo elemento de S(a) también pertenece a S(b).
ii) b no es equivalente a a, entoces demostramos que S(a) ∩ S(b) = Ø, pues si hay un elemento c en común a S(a) y S(b), entonces cRa y cRb, pero por simetría, si cRa, también aRc y con cRb tendríamos que aRb lo cual, estamos suponiendo que no ocurre, por lo que por contradicción, S(a) y S(b) no comparten ningún elemento.
Inversamente, sea S(z) el conjunto que constituye la partición de A, que como vemos,
depende de cada elemento z de A. Como dijimos en el enunciado del teorema, definimos
una relación R en A de la siguiente manera: aRb si a y b pertenecen al mismo conjunto
S(a) = S(b). Entonces es fácil ver que esta relación es de equivalencia, solo tenemos que
ver que esta relación cumple las 3 propiedades características de las relaciones de
equivalencia:
i) R es reflexiva: Como S(z) es una partición todo elemento a de A, está en uno de los conjuntos S(z), digamos evidentemente, S(a), pero si a pertenece a un conjunto S(a), ocurre que aRa.
ii) R es simétrica: Si aRb, entonces a y b pertenecen a S(a) = S(b), de modo que bRa también se cumple evidentemente.
iii) R es transitiva: Si aRb, S(a) = S(b) y si bRc, entonces S(a) = S(b) = S(c), de modo que aRc. □
EJEMPLO: Veamos una clase de equivalencia que conocemos bien: la igualdad en
cualquier conjunto A. aRb es por definición a = b. Es de equivalencia evidentemente,
porque tiene las 3 propiedades requeridas:
1) Reflexiva: a = a
2) Simétrica a = b implica b = a
3) Transitiva a = b y b = c implica a = c
No hace falta pensar mucho para darse cuenta de que las clases de equivalencia de esta
relación son los conjuntos de un único elemento de A, es decir S(a) = {a}, para cualquier
a.
25
1.9 Relaciones de orden, parcial, total, estricta o fuerte y lineal EJEMPLO: Sea A el conjunto de los 12 primeros números naturales A = {1, 2, …, 12}.
Definimos una relación R en A de la siguiente manera: aRb si a divide a b. La relación
tiene las siguientes propiedades:
1) R es reflexiva ya que aRa porque para cualquiere a, a se divide a sí mismo
2) R es antisimétrica, lo que significa que si aRb y bRa, entonces a = b (si a divide a b, entonces también, se cumple que a ≤ b, por lo que también, como b divide a, según suponemos, b ≤ a, por lo que por fuerza a = b)
3) R es transitiva aRb y bRc implica aRc, ya que si a divide b y b divide c, c es un múltiplo de b y por tanto, es dividido por a.
DEFINICIÓN: Una relación R que es reflexiva, antisimétrica y transitiva se llama orden
parcial. También se llama a R orden total si, además, de dos elementos de A, a y b, se
puede decir que aRb o bRa. En este caso, se dice que A está totalmente ordenado por R.
EJEMPLOS: Conocemos un orden parcial muy común en los conjuntos de números, por
ejemplo, sea A el conjunto de los números enteros, entonces, el orden parcial más
conocido del lector es la relación de orden ≤ en A. Veamos que, en efecto, es un orden
parcial: Es reflexiva pues a ≤ a, es antisimétrica pues a ≤ b y b ≤ a implica que a = b y en
efecto, es transitiva, ya que a ≤ b y b ≤ c implica que a ≤ c. Es más, la relación ≤ en A es
un orden total, ya que para todo a, b de A se tiene que a ≤ b o b ≤ a. En cambio, la
relación R del primer ejemplo de esta subsección no es total, ya que hay elementos, por
ejemplo 3 y 7, que no se tiene ni 3R7, ni 7R3.
DEFINICIÓN: Una relación R se llama relación de orden estricto o fuerte si se cumplen las
siguientes 2 propiedades:
1) Si aRb entonces no bRa
2) R es transitiva
A las relaciones de orden parcial se las suele representar con el símbolo ≤, y las
relaciones de orden estricto con <.
Ahora veamos que hay una relación natural entre una relación de orden parcial ≤ y el
siguiente orden estricto que notaremos normalmente como < y que se forma de la
siguiente manera: a < b si a ≤ b y a ≠ b.
Primero veamos que este orden es un orden estricto y luego veremos cuál es la relación
natural entre estos dos órdenes de manera que uno es asociado del otro.
TEOREMA: La relación < definida de la siguiente manera a partir de un orden parcial ≤,
a < b si a ≤ b y a ≠ b es un orden estricto.
DEMOSTRACIÓN: Tenemos que comprobar las dos propiedades de los órdenes estrictos.
1) Si a < b entonces no b < a. Supongamos que a < b, entonces a ≤ b y a ≠ b, si ocurriera b < a, entonces, también b ≤ a y por la propiedad antisimétrica de ≤, tendríamos que
26
a = b, pero hemos supuesto que a < b lo que implica que a ≠ b, contradicción que nos dice que no se cumple b < a.
2) < es transitiva. Supongamos que a < b y b < c, de modo que a ≤ b, a ≠ b, b ≤ c y b ≠ c, por la propiedad transitiva de ≤, a ≤ c, pero si a = c, entonces también tendría que cumplirse que b ≤ a, pero hemos supuesto que a < b por lo que a ≤ b y por la propiedad antisimétrica de ≤, a = b, contradicción con la relación a < b, por lo que se cumple que a ≤ c y a ≠ c, por lo que a < c y < es transitiva como queríamos demostrar. □
Consideremos ahora esta otra proposición que es simétrica con el anterior teorema, si
definimos el orden parcial ≤, a partir de un orden estricto <, de la siguiente manera:
a ≤ b, si y solo si, a < b o a = b, entonces la relación ≤, es un orden parcial. Demostrémoslo.
TEOREMA: La relación ≤ definida de la siguiente manera a partir de un orden estricto <,
a ≤ b si y solo si, a < b o a = b es un orden parcial.
DEMOSTRACIÓN: Se tienen que verificar las 3 propiedades que definen un orden parcial:
a) a ≤ a. Traducido a su definición esto significa que a < a o a = a, lo cual, se verifica.
b) a ≤ b y b ≤ a implica que a = b. Traducido a su definición tenemos a < b o a = b y también, b < a o a = b, pero según esta proposición no puede ser a < b o b < a porque llegamos a las contradicciones de que (a < b y b < a) o (a < b y a = b) o (b < a y también, a = b) contradictorias por las propiedades del orden estricto, la única posibilidad de que se cumpla esa proposición consiste en que a = b.
c) Puesto que el orden estricto < es transitivo, al igual que la relación de igualdad =, tenemos que ≤ es transitivo. Este argumento no es un paso obvio, hay que pensar las posibilidades, pero al final se cumple el argumento. □
Ahora veamos la relación natural entre ≤ y <. Decimos que hay una relación natural
porque dado un orden, también se cumple el otro, es más un orden es natural al otro n
el sentido del siguiente teorema.
TEOREMA: Si tenemos un orden parcial ≤ al construir su estricto asociado, <, si
construimos a partir de éste, su parcial asociado como a ≪ b si a < b o a = b, entonces
tenemos que ≪ es el mismo orden que ≤. Y viceversa, si partimos de un orden estricto
< y construimos su parcial asociado ≤, al construir a partir de este su estricto asociado
como a ≪ b si a ≤ b y a ≠ b, entonces tenemos que hemos construido el estricto inicial,
es decir que < es ≪. Por lo que dado un orden parcial ≤ hay un único orden estricto
asociado y natural a él y dado un orden estricto, hay un único parcial asociado y natural
a él.
DEMOSTRACIÓN:
a) Sea dado un orden parcial ≤ y construyamos su estricto asociado < y a partir de este estricto construyamos su parcial asociado que le llamaremos ≪, veamos que si se da que a ≤ b, también se da que a ≪ b y viceversa, si a ≪ b, también se da que a ≤ b.
27
Sea a ≤ b, ¿es a < b o a = b? Si a < b, se da a ≤ b y a ≠ b, si añadimos a esta condición
‘o a = b’, ocurre que si a ≤ b entonces para los dos casos i) si a ≠ b, por tablas de
verdad se da a ≪ b verdadero y ii) si a = b, también a ≪ b es verdadero.
Ahora sea a ≪ b, ¿es a ≤ b? Veamos, se cumple que (a ≤ b y a ≠ b) o a = b (*), si a =
b entonces también a ≤ b pues se reduciría a a ≤ a, que se cumple por la propiedad
reflexiva de ≤, si a ≠ b, para que se cumpla (*) forzosamente tiene que darse a ≤ b.
b) Sea dado el orden estricto <, construyamos su orden parcial asociado ≤ y a partir de éste, su estricto asociado de la siguiente manera a ≪ b, si a ≤ b y a ≠ b.
Sea a < b, ¿es a ≪ b? Veamos, si a < b entonces, (a < b o a = b) y a ≠ b; si a = b,
también se cumple b < a (sí, porque es a < a) lo que está en contradicción con el
orden estricto <, por lo que a ≠ b y dado esto se cumple a ≪ b ya que se cumple su
tabla de verdad.
Ahora, sea a ≪ b, ¿Se da a < b? Veamos, se da (a < b o a = b) y a ≠ b, lo cual implica
trivialmente que a < b. □
Ahora definimos lo que es un orden lineal:
DEFINICIÓN: Sea un orden R, parcial ≤ o estricto <, con lo que se dan sus respectivos
asociados, se dice que ≤ o < son un orden lineal cuando para cada a, b de R se cumple
una y solo una de las siguientes condiciones: a < b, b < a o a = b.
1.10 Definición preliminar del sumatorio simple
Usaremos un símbolo para representar una expresión que se suma más allá de 2 veces
en el caso de que el operador suma sea asociativo, es decir, que aplicar el operador
suma en más de dos sumandos nos dé un único resultado independientemente de cómo
realicemos la suma, es decir cómo agrupemos 2 a 2 los sumandos con paréntesis (pues
consideramos la suma una operación de dos sumandos). Consiste en el símbolo ∑, que
indica la suma de la expresión que hay a su derecha, y que utiliza índices de sumación.
Pongamos el ejemplo más simple: la suma de todos los números naturales menores a
uno dado, por ejemplo, n:
1 + 2 + … + n ≡ ∑ 𝑗𝑗=𝑛𝑗=1 .
Este símbolo con el índice j nos dice que sustituyamos j por los números naturales y los
sumemos, empezando en el valor j = 1 y terminando, en j = n. A veces se usa la siguiente
variante:
1 + 2 + … + n ≡ ∑ 𝑗𝑛𝑗=1 .
Con más rigor, la expresión más general de sumatoria con un índice (luego veremos que
puede haber más de un índice) la expresamos así:
∑ 𝑓(𝑗)𝑗=𝑛𝑗=𝑚 ,
donde f(j) representa una función del índice j, el cuál este último, toma valores
consecutivos de números naturales. Entonces la anterior expresión significa que
sustituimos j = m en la siguiente función obteniendo f(m); si n > m, entonces sustituimos
de nuevo j por j = m + 1, obteniendo f(m + 1) y se lo sumamos a f(m), dando lugar a f(m)
+ f(m + 1) y siguiendo este proceso llegamos a la fórmula:
∑ 𝑓(𝑗)𝑗=𝑛𝑗=𝑚 = f(m) + f(m + 1) + … + f(n),
28
que significa que sustituimos todos los naturales desde m hasta n en j y sumamos las
correspondientes expresiones f(j). Los números m y n se llaman respectivamente el
límite inferior y el límite superior de la suma. La expresión f(j) puede ser una fórmula
matemática como por ejemplo f(j) = 𝑗2, resultando su sumatorio de la siguiente manera:
∑ 𝑗2𝑗=𝑛𝑗=𝑚 = 𝑚2 + (𝑚 + 1)2 + (𝑚 + 2)2 + … + 𝑛2,
o puede representarse como un valor que depende de j que usualmente se representa
de la siguiente manera f(j) = 𝑎𝑗, dando como resultado el siguiente sumatorio:
∑ 𝑎𝑗𝑗=𝑛𝑗=𝑚 = 𝑎𝑚 + 𝑎𝑚+1 + 𝑎𝑚+2 + … + 𝑎𝑛.
Como un ejemplo más: si quisiéramos definir una suma de cantidades indexadas de la
siguiente manera, 𝑥1, 𝑥2, …, 𝑥𝑛, se utilizaría el sumatorio así: ∑ 𝑥𝑗𝑛𝑗=1 .
EJEMPLO 1: Con un índice podemos dar todavía los siguientes ejemplos de sumatorio:
∑ 𝑎𝑗𝑛𝑗=1 • 𝑏𝑗 = 𝑎1 • 𝑏1 + 𝑎2 • 𝑏2 + … + 𝑎𝑛 • 𝑏𝑛,
para cantidades 𝑎1, 𝑎2, … , 𝑎𝑛, 𝑏1, 𝑏2, …, 𝑏𝑛 indexadas con el mismo índice j.
Incluso, para índices libres i, j se puede definir el siguiente sumatorio (en realidad son
muchos sumatorios por cada valor de i y j):
∑ 𝑎𝑖𝑘𝑛𝑘=1 • 𝑏𝑘𝑗 = 𝑎𝑖1 • 𝑏1𝑗 + 𝑎𝑖2 • 𝑏2𝑗 + … + 𝑎𝑖𝑛 • 𝑏𝑛𝑗,
Donde i y j pueden tener valores arbitrarios independientes, pero fijos para cada uno,
dando lugar a una matriz de sumatorios para cada valor de i y j, por ejemplo, i= 1, …,
m, j = 1, …, p. Por ejemplo, sustituyendo i = 2 y j = p se obtiene el elemento siguiente
de la matriz de sumatorios: ∑ 𝑎2𝑘𝑛𝑘=1 • 𝑏𝑘𝑝 = 𝑎21 • 𝑏1𝑝 + 𝑎22 • 𝑏2𝑝 + … + 𝑎2𝑛 • 𝑏𝑛𝑝 y así
para cada valor de i y j en el rango considerado, de modo que se puede entender que
∑ 𝑎𝑖𝑘𝑛𝑘=1 • 𝑏𝑘𝑗 = 𝑐𝑖𝑗, pues cada sumatorio da un número para cada i, j, que lo llamamos
𝑐𝑖𝑗.
1.11 La demostración por inducción
Necesitaremos utilizar la demostración por inducción, de modo que en esta sección de
preliminares la vamos a introducir, para aquellos lectores que no la conozcan. La
demostración por inducción se basa en una propiedad de los números naturales que se
llama el principio de inducción completa.
DEFINICIÓN: (Principio de inducción completa de los números naturales): Sea A un
subconjunto de números naturales que poseen una propiedad. Se demuestra que A es
todo ℕ (o todo el conjunto de números naturales salvo un subconjunto finito de los
primeros números) y, por tanto, que todo el conjunto ℕ posee esa propiedad (o todo el
conjunto ℕ salvo un subconjunto finito de los primeros números), si se cumplen las
siguientes 2 condiciones:
1) 1 (o un número natural n dado de A) cumple la propiedad (hecho que se llama base de la inducción).
2) Si k siendo cualquier número natural (o k ≥ n) cumple la propiedad entonces esto implica que k + 1 también la cumple (hecho que se llama y se cita a la hora de demostrarlo como el paso de la inducción).
Quizás no se haya entendido bien el concepto, queremos decir que si se cumplen estas
dos condiciones (de las cuales, la segunda es una implicación lógica que hay que
29
demostrar, aunque también la primera, pero la primera suele ser más fácil de
demostrar), entonces habremos demostrado que el conjunto A es en realidad ℕ (o todo
el conjunto ℕ, a partir del número n, es decir todo ℕ menos los n-1 primeros) y por tanto
todos los números naturales cumplen la propiedad (o todos a partir de n).
Este es un método de demostración matemática ampliamente utilizado que es fácil de
aceptar, puesto que si, a partir del 1 o de otro número natural n, se cumple una
propiedad y para todos los números naturales posteriores, el hecho de que el anterior
cumpla la propiedad implica que el siguiente también la va a cumplir, entonces
estaremos seguros de que ningún número natural se escapa de cumplir la propiedad (o
ningún número natural a partir de otro dado n).
Otra forma del principio de inducción matemática es reemplazar la condición 2) anterior
por la siguiente:
2’) Para todo número natural j ≤ k (o para todo j con n ≤ j ≤ k) se cumple la propiedad,
entonces, esto implica que se cumple para k + 1.
Es decir, no se cumple la propiedad solo para k sino también, para todo número menor
que k (o todo número j tal que n ≤ j ≤ k, para algún n)
EJEMPLO: Como ejemplo para entender todo esto, vamos a demostrar la siguiente
fórmula para la suma de los n primeros números naturales utilizando el principio de
inducción completa. La fórmula es la siguiente: 1 + 2 + … + n = ∑ 𝑗𝑗=𝑛𝑗=1 =
𝑛•(𝑛+1)
2 .
Entonces para la demostración de esta igualdad damos 2 pasos:
1) Vemos si la fórmula se cumple para 1. Si así no fuera, quizás se cumpliera a partir de
un número m: 1•(1+1)
2 = 1, por lo tanto, la fórmula se cumple para 1.
2) Demostramos que, suponiendo que se cumple para k, entonces, se cumple para k + 1 (también sería lo mismo, si resultase más conveniente expresarlo de esta manera: demostrar que, si se cumple para k - 1 implica que se cumple para k) lo cuál es la parte más interesante y difícil de la demostración: Si suponemos que se cumple para k tenemos entonces, por hipótesis,
1 + ... + k = 𝑘•(𝑘+1)
2,
pero (1 + ... + k) + k + 1 = 𝑘•(𝑘+1)
2 + k + 1,
pero 𝑘•(𝑘+1)
2 + k + 1 =
𝑘•(𝑘+1)+2•(𝑘+1)
2 = (𝑘+2)•(𝑘+1)
2,
sacando factor común k+1, pero (𝑘+2)•(𝑘+1)
2 =
(𝑘+1+1)•(𝑘+1)
2 =
(𝑘+1)•((𝑘+1)+1)
2
reordenando y por tanto, vemos que la fórmula se cumple para k + 1 y por tanto, para
todo número natural, si confiamos en la demostración por inducción.
1.12 Estructuras algebraicas
Vamos a definir lo que son las operaciones binarias y las estructuras algebraicas basadas
en ellas, pero antes de eso definiremos la generalización de estas nociones, porque en
este libro no nos basta con definir las leyes de composición internas u operaciones
30
binarias, sino que también vamos a ver las leyes de composición generales o también
las externas. Sin más pasamos a las definiciones de estas nociones.
DEFINICIÓN: Consideremos 3 conjuntos de la naturaleza que sean, A, B y C. Llamamos
ley de composición a toda función f, definida de la siguiente manera:
f: A×B → C
(a, b) → c= f(a, b),
Donde a∈A, b∈B y c∈C. Si A, B y C son el mismo conjunto A = B = C = E, decimos que
hemos definido una ley de composición interna, u operación binaria en el conjunto E.
Para el caso de que A y C son el mismo conjunto E, es decir, f es de la siguiente forma:
f: E×B → E
(a, b) → c= f(a, b),
Con a∈E, b∈B y c∈E, entonces decimos que f define una ley de composición externa a la
derecha y a los elementos de B se les llama operadores o multiplicadores a la derecha.
Volviendo al caso general, si tanto B como C son iguales a un mismo conjunto E = B = C,
es decir, f es de la siguiente forma:
f: A×E → E
(a, b) → c= f(a, b),
Con a∈A, b∈E y c∈E, entonces, decimos que f es una ley de composición externa a la
izquierda y a los elementos de A, se les llama operadores o multiplicadores a la izquierda.
Y en general no lo definiremos aquí, pero vemos que se podrían definir operaciones no
solo binarias sino unarias, ternarias, etc., es decir, operaciones no en un par ordenado
(a, b) de A×B, sino en un solo conjunto A (para las operaciones unarias), o en la tripleta
(a, b, c) de A×B×C, (para operaciones ternarias) o etc. Nos queda definir estructura
algebraica en su forma general, como 3 conjuntos (A, B, C), donde se ha definido una o
varias leyes de composición.
Por el momento nos referiremos a operaciones binarias y a estructuras algebraicas
donde solo se han definido operaciones binarias.
DEFINICIÓN: Entonces, recapitulando, Sea A un conjunto, una operación binaria en A, es
una función f: A×A ↦ A. Mejor notaremos a f como el símbolo siguiente ○ y al valor de
la función para dos elementos a, b de A, f(a, b), como a○b y se dice que c = a○b es el
producto de a por b.
Pero no trataremos operaciones binarias arbitrarias, normalmente tendrán una serie de
propiedades, como son las siguientes:
DEFINICIÓN: Una operación binaria se dice que es asociativa si, para todo a, b, c de A se
cumple que (a○b)○c = a○(b○c).
Lo bueno de las operaciones asociativas es que nos darán el mismo número cuando los
productos son de más de 3 elementos, siempre que se mantenga el orden de estos, es
31
decir, no importa como asociemos con paréntesis los elementos, que siempre
obtendremos el mismo elemento como producto. Esto es un teorema que requiere
demostración.
TEOREMA 1: El producto de un número arbitrario finito de factores en una operación
binaria asociativa está bien definido, no importando el orden en que se agrupan con
paréntesis los operandos, porque de cualquiera de las formas de agrupar obtenemos el
mismo elemento, aunque sí importa el orden en el que aparecen en las operaciones los
unos con respecto a otros.
DEMOSTRACIÓN: La realizamos por inducción en el número de factores:
1) Para n = 3: a ○ b ○ c = (a ○ b) ○ c = a ○ (b ○ c) según la propiedad asociativa.
2) Suponiendo que se cumple para todo j, con 3 ≤ j ≤ k, se cumple también para k + 1:
Supongamos que producimos con paréntesis dos formas de operar 𝑎1 ○ … ○ 𝑎𝑘+1,
digamos (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑘+1), (𝑎1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1),
suponiendo i < j, obtenemos por hipótesis de inducción lo siguiente:
(𝑎1 ○ … ○ 𝑎𝑗) = (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑗)
(𝑎𝑖+1 ○ … ○ 𝑎𝑘+1 ) = (𝑎𝑖+1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1), de modo que,
(𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑘+1) = (𝑎1 ○ … ○ 𝑎𝑖) ○ (𝑎𝑖+1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1)
= (𝑎1 ○ … ○ 𝑎𝑗) ○ (𝑎𝑗+1 ○ … ○ 𝑎𝑘+1), que por la hipótesis de inducción para n = 3 y para
3 ≤ n ≤ k, se trata del producto de 3 elementos a ○ b ○ c, y no importa las asociaciones
que hagamos para operarlos y por tanto son iguales las dos formas de operar los n
elementos y de esta manera hemos demostrado el teorema por inducción. □
DEFINICIÓN: Una operación binaria se dice que es conmutativa si a○b = b○a, para todo
a, b de A.
Si la operación binaria además de asociativa, es conmutativa, entonces, no importa el
orden en el que se operen n elementos, el resultado será siempre el mismo.
Demostrémoslo.
TEOREMA 2: Para una operación binaria asociativa y conmutativa no importa el orden
en el que se operen n elementos, porque el resultado será siempre el mismo para
cualquier forma de agruparlos y ordenarlos.
DEMOSTRACIÓN: Nota: Para las operaciones binarias conmutativas se suele utilizar la
notación de la suma para la operación, de modo que la utilizaremos en esta
demostración.
Sea µ una función que determina una ordenación del conjunto I = {1, …, n} de los
primeros n números naturales, de modo que µ(j) = k, donde j, k son números naturales
con 1 ≤ j, k ≤ n y µ es una biyección, de modo que define una ordenación en I.
Demostraremos que 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎1 + … + 𝑎𝑛, por inducción sobre el número n
de sumandos:
1) Para n = 2 se cumple 𝑎1 + 𝑎2 = 𝑎2 + 𝑎1, por el axioma de conmutatividad de la suma de la operación binaria.
32
2) Supongamos cierto la aseveración para todo k con 2 ≤ k ≤ n - 1 entonces demostraremos que la propiedad es cierta para n:
Sea r el número de I tal que µ(r) = n, para una ordenación arbitraria µ de I. Se cumplen
3 posibilidades:
1) r = 1, de modo que 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎𝑛 + (𝑎µ(2) + … + 𝑎µ(𝑛)) = ( 𝑎µ(2) + … + 𝑎µ(𝑛))
+ 𝑎𝑛, por las propiedades asociativa generalizada y conmutativa (para dos factores) y aplicando la hipótesis de inducción para k = n-1 obtenemos que 𝑎µ(1) + … + 𝑎µ(𝑛)
= 𝑎1 + … + 𝑎𝑛.
2) r = n ahora la demostración es más fácil aún pues 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎µ(1) + … +
𝑎µ(𝑛−1) + 𝑎𝑛 y de nuevo aplicando la hipótesis de inducción y la propiedad asociativa
generalizada 𝑎µ(1) + … + 𝑎µ(𝑛) = (𝑎1 + … + 𝑎𝑛−1 )+ 𝑎𝑛 = 𝑎1 + … + 𝑎𝑛
3) Para r = k con 1 < k < n la demostración es análoga: 𝑎µ(1) + … + 𝑎µ(𝑛) = 𝑎µ(1) + … +
𝑎µ(𝑘−1) + 𝑎µ(𝑘) + 𝑎𝜇(𝑘+1) + … + 𝑎µ(𝑛) = (𝑎µ(1) + … + 𝑎µ(𝑘−1)) + 𝑎𝑛 + (𝑎𝜇(𝑘+1)+ … +
𝑎µ(𝑛)) = a + (𝑎𝑛 + b) = 𝑎µ(1) + … + 𝑎µ(𝑘−1) + 𝑎𝜇(𝑘+1) + … + 𝑎µ(𝑛) + 𝑎𝑛, por las
propiedades asociativa generalizada y la conmutativa (para dos factores); y ahora, aplicando la hipótesis de inducción y la propiedad asociativa generalizada, llegamos a que 𝑎µ(1) + … + 𝑎µ(𝑛) = (𝑎1 + … + 𝑎𝑛−1) + 𝑎𝑛, como queríamos demostrar. □
Ahora consideraremos como estructura algebraica, un conjunto A con una o dos
operaciones binarias diferentes, que notaremos como + y ○. Normalmente se nota a la
operación conmutativa como +. En el caso de los números, como los números naturales,
enteros, racionales, reales y complejos, las dos operaciones son conmutativas.
DEFINICIÓN: Si la estructura algebraica E, tiene dos operaciones (E, +, ○), una propiedad
muy importante de estas estructuras es la relación entre las dos operaciones. Se dice
que la estructura algebraica E, tiene la propiedad distributiva del producto con respecto
a la suma (más precisamente, propiedad distributiva por la izquierda) si para todo a, b,
c de E, se cumple que a○(b + c) = a○b + a○c.
También se define de forma obvia una propiedad distributiva por la derecha (del
producto con respecto a la suma). Si la estructura algebraica es conmutativa con
respecto al producto, la propiedad distributiva por la izquierda y la derecha coinciden.
También para la propiedad distributiva se cumple una generalización de ella si la
estructura cumple la propiedad asociativa con respecto a la suma (es una generalización
de la propiedad distributiva por la izquierda, para la propiedad distributiva por la
derecha se demuestra igual), lo detallamos en la siguiente proposición:
PROPOSICIÓN 3: Sean u y 𝑎𝑖, con 1 ≤ i ≤ n, de (E, +, •), estructura algebraica de dos
operaciones binarias + y •, donde la operación + es asociativa y • es una operación de
producto distributiva (por la izquierda) con respecto a la suma +, entonces, u•(𝑎1 + 𝑎2 +
… + 𝑎𝑛) = u•𝑎1 + u•𝑎2 + … + u•𝑎𝑛 o expresado de otra manera u•(∑ 𝑎𝑖𝑖=𝑛𝑖=1 ) = ∑ u • 𝑎𝑖
𝑖=𝑛𝑖=1 .
DEMOSTRACIÓN: Lo demostraremos por inducción fuerte en el número de sumandos.
Se cumple para n = 2: u•(𝑎1 + 𝑎2) = u•𝑎1 + u•𝑎2, por la propiedad distributiva.
33
Supongamos que se cumple para 2 ≤ n ≤ k, demostraremos que se cumple para n = k +
1:
u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 ) = u•(𝑎1 + b), con b = ∑ 𝑎𝑖
𝑖=𝑘+1𝑖=2 (podemos hacer esta agrupación por la
propiedad asociativa generalizada demostrada anteriormente), entonces, u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 )
= u•𝑎1 + u•b, por la propiedad distributiva o por el paso de inducción fuerte, pero, u•b
= u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=2 ), donde b consiste en una suma de k sumandos que por hipótesis de
inducción cumple la propiedad distributiva generalizada que estamos considerando,
esto es, u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=2 ) = ∑ u • 𝑎𝑖
𝑖=𝑘+1𝑖=2 , por hipótesis de inducción, de modo que
u•(∑ 𝑎𝑖𝑖=𝑘+1𝑖=1 ) = u•𝑎1+ ∑ u • 𝑎𝑖
𝑖=𝑘+1𝑖=2 = ∑ u • 𝑎𝑖
𝑖=𝑘+1𝑖=1 , que es lo que queríamos
demostrar. □
Ahora definiremos unos elementos muy distinguidos de las operaciones binarias, los
elementos neutros.
DEFINICIÓN: Sea ○ una operación binaria en A, un elemento e es neutro en la operación
binaria, si, para todo a de A se cumple que a○e = e○a = a.
Es un hecho curioso y muy importante notar que, si e es un elemento neutro, es el único
elemento neutro de la operación.
TEOREMA 4: Solo existe un elemento neutro para cada operación binaria.
DEMOSTRACIÓN: Supongamos que e y e’ son elementos neutros de ○, entonces,
e○e’ = e’, por ser e elemento neutro, pero e○e’ = e, por ser e’ elemento neutro; si
observamos las dos igualdades vemos que e’ = e○e’ = e. □
Nos queda un concepto más por definir para las operaciones binarias, en concreto, para
las operaciones binarias con elemento neutro.
DEFINICIÓN: Se dice de un elemento a de una operación binaria con elemento neutro e,
que es invertible si existe un elemento b tal que a○b = b○a = e. Al elemento b que
satisface la definición se dice que es un inverso de a.
Normalmente vamos a tratar con objetos dentro de un conjunto donde se define la
estructura algebraica, que cumplen la propiedad asociativa de modo que nos interesan
las operaciones binarias asociativas. En estas operaciones el inverso de un elemento es
único como lo demostramos a continuación.
TEOREMA 5: Si ○ es una operación binaria asociativa con elemento neutro e, entonces,
para todo a solo existe (en el caso de que exista uno) un elemento inverso notado como
𝑎−1.
DEMOSTRACIÓN: Sean b y c dos elementos inversos de a entonces se cumple lo
siguiente:
a○b = e = b○a, y a○c = e = c○a, entonces, b = b○e = b○(a○c) = (b○a) ○c = e○c = c. □
Si la propiedad no es asociativa este teorema no se tiene por qué cumplir, puede haber
varios inversos para un mismo elemento.
34
Terminamos el concepto de operación binaria con un teorema sobre los elementos
invertibles y en particular sobre los inversos en operaciones binarias asociativas.
TEOREMA 6: Si b es un inverso de a en una operación binaria ○ sobre A con elemento
neutro e, entonces, a es un inverso de b, por tanto, los elementos inversos de una
operación binaria con elemento neutro son a su vez invertibles. En particular, si ○ es
asociativa, el elemento inverso de b es a, 𝑏−1 = a.
DEMOSTRACIÓN: Las dos primeras aseveraciones siguen de la definición de elemento
inverso de a: a○b = b○a = e. En particular, si ○ es asociativa, el elemento inverso de b
como es único, es a, de modo que
(𝑎−1)−1= a. □
1.13 La relación de extensión entre una estructura algebraica y otra
Vamos a tener ocasión en este libro de ver estructuras algebraicas que están contenidas
en otras, como puede ser el ejemplo de que los números racionales están contenidos en
los números reales y éstos en los números complejos. Aunque no trataremos en
profundidad todos los casos que vamos a ver mencionaremos en algunos casos, como
se puede estudiar este fenómeno de restricción de una estructura en otra o de extensión
si miramos en la otra dirección. Sin más, veamos las definiciones que dan los conceptos
adecuados para tratar estos hechos en algunos casos.
DEFINICIÓN 1: Sea D el dominio de una función f y sea B un subconjunto de D. Entonces,
la restricción de f a B y se denota así 𝑓𝐵, en tanto que f es un conjunto de pares
ordenados, se define así: 𝑓𝐵 = {(x, y) de f | x es de B}.
Por tanto, si f es una función de D en F, entonces, 𝑓𝐵 = f∩(B×F) y es evidente que 𝑓𝐵 es
una función también como f, puesto que si f cumple que para todo x solo existe un valor
f(x), también ocurrirá lo mismo con 𝑓𝐵, puesto que ésta última, es un subconjunto de f.
Por tanto, 𝑓𝐵 es una función con dominio B y cuyo rango está contenido en el de f y se
cumple obviamente, que, para todo x de B, 𝑓𝐵(x) = f(x).
DEFINICIÓN 2: Sean f y g funciones con dominio D y B respectivamente, se dice que f es
una extensión de g o que f extiende g si B⊆D y g = 𝑓𝐵.
Ahora vamos con las estructuras algebraicas. Si * es una operación binaria en un
conjunto E y A es un subconjunto de E, ¿ocurrirá que la restricción de * en el A×A es
también una operación binaria? Pues puede ocurrir que sí, pero en otros casos no
ocurrirá puesto que para que se diera este caso, todos los valores de * en A×A tendrían
que estar dentro de A y eso a veces puede no ocurrir para * en E. Por ejemplo, para los
números reales como E, la restricción de la suma a los números irracionales (es decir, en
este caso sea A los irracionales) a veces da un número racional y por tanto no tenemos
una operación binaria de suma en los irracionales. Por tanto, lo que nos interesa son las
restricciones de operaciones binarias * de E a un subconjunto suyo A, que cumplan la
siguiente propiedad: x*y pertenece a A siempre que x, y pertenezcan a A.
35
DEFINICIÓN 3: Sea * una operación binaria en el conjunto E. Un subconjunto A de E es
estable para * o cerrado bajo *, si siempre que x, y sean de A, ocurre que x*y pertenece
a A. Si A es un conjunto estable bajo *, denotaremos la restricción de * a A×A, como ∗𝐴
y se llamará la operación binaria inducida en A por *.
EJEMPLO 1: Los conjuntos de los enteros, racionales y reales son estables bajo la
operación de la suma de los números complejos. Los números enteros, racionales, reales
y complejos distintos de 0 son estables bajo la operación de producto en los números
complejos.
EJEMPLO 2: Si m es un entero positivo, el conjunto de todos sus múltiplos en los enteros
es estable para las operaciones de la suma y producto de los enteros.
DEFINICIÓN 4: Si (E, *) y (A, •) son estructuras algebraicas diremos que (E, *) contiene a
(A, •) en el sentido algebraico o algebraicamente o que (E, *) es una extensión de (A, •)
si A es un subconjunto de E estable bajo * y que • es la operación binaria ∗𝐴 inducida en
A por *. También se tiene que, para dos estructuras algebraicas con dos operaciones
binarias cada una, (E, *, •) y (A, ®, ×) diremos que (E, *, •) contiene algebraicamente a
(A, ®, ×) o que (E, *, •) es una extensión de (A, ®, ×) si A es un subconjunto de E estable
bajo * y bajo • y que ® = ∗𝐴 y × = •𝐴, las operaciones * y • inducidas en A. Y análogamente,
se tendrían que definir las extensiones de estructuras algebraicas con más operaciones
binarias.
1.14 Isomorfismo de estructuras algebraicas
Nos será de utilidad más adelante tener un medio de comparar dos estructuras
algebraicas de manera que podamos decir que en realidad son la misma salvo que
hemos cambiado el nombre de sus elementos. Esto es posible gracias al concepto de
isomorfismo de estructuras algebraicas, que nos garantiza que si dos estructuras
algebraicas son isomorfas se tratarán abstrayendo, de la misma con las mismas
propiedades entre las dos, pero con diferente nombre a sus elementos. Veamos esto de
una forma más rigurosa gracias a las definiciones, los ejemplos y los teoremas
correspondientes.
DEFINICIÓN: Sean (A, ○) y (B, •) dos estructuras algebraicas con sus correspondientes
operaciones binarias, ○, •. Un isomorfismo entre (A, ○) y (B, •) es una biyección f, entre
A y B de forma que se cumple la siguiente propiedad que se llama la propiedad del
homomorfismo: f(a○b) = f(a)•f(b). Si se trata de dos estructuras algebraicas con dos
operaciones binarias cada una, digamos (A, ○, □), (B, •, ×) el isomorfismo es la biyección
f con las propiedades de homomorfismo siguientes: f(a○b) = f(a)•f(b), f(a□b) = f(a)×f(b).
Esto nos garantiza que las estructuras algebraicas son una sola, no son diferentes entre
sí en ningún aspecto, salvo en el nombre o construcción de sus elementos, aunque esto
es un hecho que no demostraremos en profundidad y ha de creer el lector en él. Si
tenemos un isomorfismo de una estructura algebraica en sí misma se dice que tenemos
un automorfismo.
Veamos unos teoremas para dar luz a este concepto.
36
TEOREMA 1: Sean (A, ○), (B, •) y (C, ×) tres estructuras algebraicas con una operación
binaria en ellas y sea f una biyección entre A y B, y g otra entre B y C:
1) La función identidad 𝐼𝐴 es un autormorfismo en (A, ○).
2) La biyección f es un isomorfismo entre (A, ○) y (B, •) sí y solo si, 𝑓−1 es un isomorfismo entre (B, •) y (A, ○).
3) Si f es un isomorfismo entre (A, ○) y (B, •) y g es uno entre (B, •) y (C, ×) entonces, g○f es un isomorfismo entre (A, ○) y (C, ×).
DEMOSTRACIÓN: 1) 𝐼𝐴(a○b) = a○b = 𝐼𝐴(a)○𝐼𝐴(b), esto, con el hecho de que 𝐼𝐴 es una
biyección nos da la prueba que queríamos.
2) Sean c, d elementos de B, entonces, existen a, b elementos de A tales que c = f(a),
d = f(b), entonces,
𝑓−1(c•d) = 𝑓−1(f(a)•f(b)) = 𝑓−1 (f(a○b)) = a○b = 𝑓−1 (c)○𝑓−1 (d).
Ahora, si 𝑓−1 es un isomorfismo de (B, •) en (A, ○), entonces por lo probado, (𝑓−1 )−1
también lo es, de (A, ○) en (B, •), pero del teorema 1.6.4 sabemos que (𝑓−1 )−1 = f.
3) Del teorema 5 de la subsubsección 9 sabemos que g○f es una biyección de A a C,
ahora veamos que (donde el primer símbolo ○, que afecta a las funciones es la
composición de funciones, diferente al producto○, como en a○b) (g○f)(a○b) = g(f(a○b))
= g(f(a)•f(b)) = g(f(a))×g(f(b)) = (g○f)(a)× (g○f)(b), por lo que queda demostrado lo que
pretendíamos. □
Este teorema último es obvio trasladarlo a una estructura algebraica de 2 operaciones
o más. Así sabremos que una estructura algebraica es isomorfa a sí misma, que, si una
estructura algebraica es isomorfa a una segunda, esta última es isomorfa a la primera y
que, si una es isomorfa a una segunda y esta segunda es isomorfa a una tercera,
entonces, la primera es isomorfa a la tercera.
Si dos estructuras algebraicas son isomorfas se tratan en realidad de una misma solo
que cambiando el nombre de los elementos, este hecho no se puede demostrar
simplemente, pero el siguiente teorema tratará de convencer al lector.
TEOREMA 2: Sea f un isomorfismo entre las estructuras algebraicas (A, ○) y (B, •):
1) La operación binaria ○ es asociativa sí y solo si • es asociativa.
2) ○ es conmutativa sí y solo si • es conmutativa.
3) El elemento e de (A, ○) es el elemento neutro de (A, ○), sí y solo sí, f(e) es el elemento neutro de (B, •).
4) El elemento b es un inverso de a en (A, ○), si y solo si, f(b) es un inverso de f(a) en (B, •).
DEMOSTRACIÓN: 1) Sean d, e, h elementos de B, entonces existen a, b, c de A tales que
d = f(a), e = f(b), h = f(c), entonces, (d•e)•h = (f(a)•f(b))•f(c) = (f(a○b))•f(c) = f((a○b)○c)
= f(a○(b○c)) = f(a)•f(b○c) = f(a)•(f(b)•f(c)) = d•(e•h). Inversamente, si • es asociativa en
37
(B, •), 𝑓−1 es un isomorfismo de (B, •) en (A, ○) y por lo demostrado, si • es asociativa,
también ○.
2) Se demuestra igual que la propiedad anterior.
3) Sea e el elemento neutro de (A, ○), entonces, sea a un elemento de A, f(a) = f(a○e) =
f(a)•f(e), de modo que f(e) es el neutro en (B, •).
4) Sabemos que e es el elemento neutro de (A, ○), de modo que si b es el inverso de a
se cumple a○b = b○a = e, ahora, f(a)•f(b) = f(a○b) = f(e) = f(b○a) = f(b)•f(a) y como
sabemos de la parte anterior, f(e) es el elemento neutro de (B, •), de modo que f(a) y
f(b) son inversos uno de otro.
Hasta aquí hemos visto lo que es un isomorfismo de estructuras algebraicas y unos
teoremas que nos muestran su significado (o al menos se trata de eso), ahora veamos
con un ejemplo, como demostrar que dos estructuras algebraicas son isomorfas.
Parecería sencillo, pero para no perdernos, resumamos como hacerlo. Para demostrar
que dos estructuras algebraicas (A, ○) y (B, •), son isomorfas debemos:
1) Mostar la función f que va a definir el isomorfismo.
2) Mostrar que f es inyectiva.
3) Mostrar que f es suprayectiva.
4) Mostrar la propiedad de homomorfismo, es decir que para dos elementos a, b de A se cumple f(a○b) = f(a)•f(b).
EJEMPLO: Demostraremos que la estructura (ℝ, +) y (ℝ+,•), es decir los números reales
bajo la suma es isomorfo a los números reales positivos bajo la multiplicación:
1) Mostremos la función f: f(a) = 10𝑎.
2) Mostremos que f es inyectiva: si f(a) = f(b) entonces, 10𝑎 = 10𝑏, tomando logaritmos, se llega a que a = b.
3) Si c es un elemento de ℝ+, entonces, log(c) = a pertenece a ℝ y 10log (𝑐) = c, de modo que para todo c de ℝ+ hay un elemento a de ℝ tal que, f(a) = c.
4) Para a, b de ℝ se cumple que f(a + b) = 10𝑎+𝑏 = 10𝑎•10𝑏 = f(a)•f(b), por lo que se cumple la propiedad de homomorfismo.
Así que hemos demostrado que f(a) = 10𝑎 es un isomorfismo entre (ℝ, +) y (ℝ+,•). La
correspondiente función 𝑓−1 que es el isomorfismo de (ℝ+,•) a (ℝ, +) es 𝑓−1 (c) = log(c)
= a.
Veremos en lo sucesivo estructuras algebraicas con más de una operación binaria, de
modo que es necesario definir la relación análoga de isomorfismo entre dos estructuras
algebraicas con más de una operación binaria, en concreto nos limitaremos a
estructuras algebraicas con dos o 3 operaciones binarias. Para demostrar que dos
estructuras algebraicas (A, +, ○) y (B, ×, •) son isomorfas se demuestran los 3 pasos
38
anteriores y además se necesitan demostrar las propiedades de homomorfismo que
amplía a la condición 4) anterior:
4’)
i) f(a + b) = f(a) × f(b)
ii) f(a○b) = f(a)•f(b), para todo a, b de A.
Análogamente, para estructuras algebraicas con 3 operaciones binarias u otro tipo de estructuras como veremos en la siguiente subsubsección (por ejemplo, la estructura de álgebra) ya definiremos en su momento como se define el isomorfismo, pero será de una forma parecida.
1.15 Casos importantes de estructuras algebraicas que vamos a ver en el libro
DEFINICIÓN 1 (Grupoide, semigrupo y monoide): Un conjunto A con una operación
binaria ○, en él se llama también grupoide, de modo que si tenemos el par (A, ○), según
las propiedades de ○ se denomina de las siguientes maneras: Consideremos a, b, c de A:
1) Si a○b = b○a, es decir, ○ es conmutativa, el grupoide (A, ○) se dice que es
conmutativo.
2) Si para todo c de A, a○c = b○c implica que a = b, se dice que el grupoide (A, ○) tiene
la propiedad de cancelación.
3) Si (a○b)○c = a○(b○c) es decir, ○ es asociativa, tenemos que (A, ○) es un semigrupo
(que puede ser conmutativo o no, con cancelación o no).
4) Si (A, ○) es un semigrupo y existe e de A tal que a○e = e○a = a, es decir existe un
elemento e, que es elemento neutro entonces, (A, ○) se llama monoide, (que puede
ser conmutativo o no, con cancelación o no).
EJEMPLO 1: Veremos en la siguiente subsección dedicada a los números naturales, que
estos números son una estructura algebraica (ℕ, +, •) con dos operaciones, +, la suma y
•, el producto, en la que (ℕ, +) es un semigrupo con la propiedad de cancelación y (ℕ,
•) es un monoide (con elemento unidad 1) con la propiedad de cancelación también.
Además, también veremos que ℕ tiene un orden total, <, pero esto lo veremos con más
detalle en la siguiente subsección dedicada a los números naturales ℕ.
Vamos a centrarnos en 2 estructuras algebraicas de momento: Los grupos y los anillos.
DEFINICIÓN 2 (Grupo): Llamamos grupo a un conjunto A con una operación binaria ○,
(es decir se trata de una estructura algebraica), tal que se cumplen los siguientes 3
axiomas:
a) La operación ○, es asociativa.
b) Existe el elemento neutro e, para la operación ○ en el grupo.
c) Todo a de A tiene un elemento inverso, que hemos visto que necesariamente será
único en el caso de operaciones binarias asociativas, lo notaremos como 𝑎−1.
Si, además, la operación ○ cumple la propiedad conmutativa se dice que el grupo es
conmutativo o abeliano y ya dijimos que se utiliza el convenio de notar a la operación
39
con la representación de la suma, es decir, la operación se nota como +, reservando la
notación multiplicativa o de producto (○) para el caso general no conmutativo. Tenemos
que aclarar que un grupo es un monoide con inversos para todos sus elementos como
puede reflexionar el lector.
EJEMPLO 2: El conjunto de los números enteros, los racionales, los reales y los complejos
son un grupo con respecto a la operación de la suma. El conjunto de los racionales, reales
y complejos no son un grupo con respecto al producto porque el elemento neutro de la
suma, el 0, no tiene inverso, pero se suele considerar a estos conjuntos excluyendo el 0
y entonces se dice que en el caso de excluir el 0, estos conjuntos (racionales, reales y
complejos) son un grupo con respecto al producto.
DEFINICIÓN 3 (Anillo): Llamamos anillo a un conjunto A en el que se han definido 2
operaciones binarias notadas como + y ○, que lo dotan como una estructura algebraica,
las cuales cumplen los siguientes axiomas:
a) A con respecto a la operación + se trata de un grupo abeliano o conmutativo.
b) Con respecto a la operación de producto se cumplen los siguientes axiomas:
i) El producto ○, es asociativo.
c) Con respecto a la relación entre el producto y la suma:
i) El producto es distributivo por la derecha y por la izquierda con respecto a
la suma, es decir, para todo a, b, c de A se cumple:
a○(b + c) = a○b + a○c,
(a + b)○c = a○c + b○c.
Si el producto tiene elemento neutro 1, se dice que es un anillo con unidad (en este caso,
1 es un elemento único ya que hemos visto que en las operaciones binarias los
elementos neutros son únicos) y si el producto es conmutativo, se dice que el anillo es
conmutativo.
EJEMPLO 3: El conjunto de los números enteros, racionales, reales y complejos son
anillos conmutativos.
Por último, veremos en este libro las estructuras de espacio vectorial y de álgebra cuya
definición damos ahora mismo. La estructura de espacio vectorial la estudiaremos
ampliamente en sucesivas secciones, por lo que no damos aquí su definición.
DEFINICIÓN 4 (Álgebra): Sea (A, +, ∘) un anillo y supongamos que también tenemos una
operación externa F×A → A, (µ, u) → µ•u, por elementos de un cuerpo conmutativo F.
Se dice que A con estas operaciones es un álgebra si se cumple lo siguiente:
1) A es un espacio vectorial sobre F.
2) Para todo µ de F y todo u, v de A se cumple que µ•(u∘v) = (µ•u)∘v.
EJEMPLO 4: Sea X un conjunto cualquiera y A = {f: X → F} el conjunto de aplicaciones de
X en un cuerpo conmutativo F. Definamos las operaciones A×A → A, dada por (f, g) → f
+ g, A×A → A, dada por (f, g) → f∘g, F×A → A, dada por (µ, f) → µ•f, donde, para todo x
de x, (f + g)(x) = f(x) + g(x), (f∘g)(x) = f(x)•g(x) y (µ•f)(x) = µ•f(x), entonces, para estas
definiciones, A es un álgebra sobre F.
40
1.16 Estructura algebraica de Cuerpo o Campo
Sin más, vamos a definir una estructura algebraica básica para la gran parte de nuestro
estudio en el álgebra lineal.
DEFINICIÓN: Sea F un conjunto, se define el cuerpo 𝕂, como un anillo conmutativo con
elemento neutro o unidad para el producto y cuya operación de producto para todo
elemento a de 𝕂, salvo el 0, tiene su correspondiente inverso, 𝑎−1, es decir, el conjunto
F con dos operaciones (internas) + y •, tales que cumplen las siguientes propiedades o
axiomas:
a) Con respecto a la operación +, también llamada suma o adición:
Sean a, b, c elementos de F, se cumple que:
1. a + b = b + c (Propiedad conmutativa de la suma)
2. (a + b) + c = a + (b + c) (Propiedad asociativa de la suma)
3. Existe un elemento notado por 0 de F, tal que a + 0 = 0 + a = a, para todo a de F
(Existencia del elemento neutro para la suma)
4. Para cada a de F existe un elemento -a, tal que a + (-a) = -a + a = 0 (Existencia del
elemento inverso para cada a de F)
De esta manera, F junto a la operación + constituye un grupo conmutativo.
b) Con respecto a la operación •, también llamada producto o multiplicación:
Sean a, b, c elementos de F, se cumple que:
5. a•b = b•a (Propiedad conmutativa del producto)
6. (a•b)•c = a•(b•c) (Propiedad asociativa del producto)
7. Existe un elemento notado por 1 de F, tal que a•1 = 1•a = a, para todo a de F
(Existencia del elemento neutro del producto)
8. Para cada a de F-{0}, existe un elemento notado por 𝑎−1, tal que a•𝑎−1 = 𝑎−1•a = 1
(Existencia del elemento inverso para cada a de F-{0})
Por lo que 𝕂 con respecto a • no es un grupo conmutativo, pero sí lo es 𝕂 -{0} (con
respecto al producto como decimos)
c) La relación entre la suma y el producto:
Sean a, b, c elementos de F, se cumple que:
9. a•(b + c) = a•b + a•c (Propiedad distributiva del producto con respecto a la suma).
Veamos ahora, algunas propiedades importantes que se deducen de los axiomas de
cuerpo.
PROPOSICIÓN 1: Se Cumplen los siguientes resultados consecuencia de los axiomas de
cuerpo:
1) (a + b)•c = a•c + b•c
41
2) El elemento neutro 0 es único
3) El elemento neutro 1 es único
4) El elemento inverso de la suma u opuesto, es único
5) El elemento inverso de la multiplicación es único
6) Si a + b = a + c, entonces b = c
7) a•b = a•c, con a distinto de 0, entonces b = c
8) a + a = a, entonces a = 0
9) -(-a) = a
10) 0•a = a•0 = 0
11) (-a)•b = a•(-b) = -(a•b)
12) (-a)•(-b) = a•b
13) -(a + b) = -a-b
DEMOSTRACIÓN:
1) (a + b)•c = c•(a + b) = c•a + c•b = a•c + c•b.
2) Supongamos que hay otro elemento neutro, llamémoslo 0’, entonces 0 = 0 + 0’ = 0’.
3) De igual forma se demuestra esta propiedad. Sea 1’ el otro elemento neutro de la
multiplicación, entonces, 1 = 1•1’ = 1’.
4) Ya vimos que en operaciones internas asociativas el elemento inverso es único si
existe.
5) Se demuestra de la misma forma que la propiedad anterior.
6) Sea a + b = a + c, entonces sumando -a en ambos lados de la igualdad se tiene:
-a + a + b = -a + a + c, entonces, 0 + b = 0 + c, lo que implica b = c.
7) Se demuestra de la misma forma que la propiedad anterior:
a•b = a•c, entonces multiplicando ambos lados de la igualdad por 𝑎−1, se tiene:
𝑎−1 •a•b = 𝑎−1•a•c = 1•b = 1•c, de modo que b = c.
8) a + 0 = a + a = a, de modo que por 6) 0 = a.
9) -a + a = 0 = -a -(-a) de modo que por 6) o por la unicidad del opuesto a = -(-a).
10) 0•a = (0 + 0) •a = 0•a + 0•a, de modo que por 8) 0 = 0•a.
11) (-a)•b + a•b = (-a + a)•b = 0•b = 0, de modo que (-a)•b = -(a•b). De igual forma se
demuestra que a•(-b) = -(a•b).
12) (-a)•(-b) = -(a•(-b)) = -(-(a•b)) = a•b, por 9)
13) (-a-b) + (a + b) = a – a + b – b = 0, de modo que -a- b = -(a + b). ∆
Nos queda una definición para terminar con esta sección de preliminares.
DEFINICIÓN: Se llama característica del cuerpo 𝕂 al mínimo número natural p > 1, tal
que se cumple lo siguiente con la unidad del cuerpo: 1 + … + 1 = 0, donde en la ecuación
anterior se suman p unidades. Por ser 𝕂 ≠ 0, la característica ha de ser mayor que 1. Si
no existe tal p, es decir, cualquier suma finita de 1 nunca da 0, se dice que la
característica del cuerpo es 0.
42
A nosotros nos interesarán en especial manera la característica de los cuerpos, pero de
hecho se puede definir el concepto de característica de la misma manera para un anillo
con unidad.
2 Construcción axiomática de los números naturales, fundamento del método de
demostración por inducción y las definiciones por recurrencia
2.1 Introducción Los números naturales son conocidos por todos, son los números enteros positivos, por
tanto, sin contar el cero. Damos esta definición informal porque no vamos a definir
rigurosamente los números naturales, de ellos partimos y los consideramos
suficientemente intuitivos.
Los números naturales son útiles para contar, lo cual, es hacer una correspondencia
biunívoca entre un subconjunto finito de los números naturales (desde el 1 al n) y los
elementos de otro conjunto finito, con lo cual podemos saber, ya que los números
naturales están ordenados, la cantidad de elementos que tiene el otro conjunto
(mirando cuál es el último número natural en la correspondencia).
Denotaremos los números naturales con el siguiente símbolo, ℕ, como ya hemos
mencionado rápidamente, una de las propiedades más importantes de los números
naturales es que están ordenados (con un orden total), por lo que, dados dos números
naturales, podremos saber cuál es el mayor y por tanto también el menor entre ellos
dos, suponiendo que son distintos.
En esta subsección demostraremos que todas las propiedades y operaciones que
hacemos con los números naturales (incluyendo las definiciones por recursión) se
deducen de los axiomas de Peano. Éste es nuestro único objetivo, por lo que el lector
que no esté interesado en estos hechos y en este nivel de rigor puede omitir la lectura
de toda esta subsección. Por lo tanto, advertimos a los lectores que no se desanimen si
encuentran difícil esta subsección porque está a un nivel de rigor bastante alto, en
concreto, las subsubsecciones, 2.5 de las definiciones por recurrencia y la 2.10 de la
definición rigurosa del sumatorio, porque intentamos en este libro que sea de lectura
para todos los públicos, incluso para los que se inician en las matemáticas, de modo que
si se salta esta subsección esperamos que encuentren fácil el resto del libro.
2.2 Propiedades de los números naturales Los números naturales son una estructura algebraica con dos operaciones + y • y una
relación de orden total. Las propiedades de ℕ son las siguientes:
a) Con respecto a la suma (ℕ, +):
1) Para todo a, b, c de ℕ se cumple (a + b) + c = a + (b + c) que se llama propiedad asociativa con respecto a la suma.
43
2) Para todo a, b de ℕ se cumple a + b = b + a que es la propiedad conmutativa con respecto a la suma.
3) Para todo a, b y c de ℕ se cumple a + c = b + c si y solo si, a = b, que es la propiedad de cancelación con respecto a la operación binaria de la suma +.
Por lo tanto, (ℕ, +) es un semigrupo conmutativo con la propiedad de cancelación.
b) Con respecto al producto o multiplicación (ℕ, •):
1) Para todo a, b, c de ℕ se cumple (a•b)•c = a•(b•c) que es la propiedad asociativa con respecto al producto.
2) Para todo a, b de ℕ se cumple a•b = b•a, que es la propiedad conmutativa con respecto al producto.
3) Existe el elemento 1 tal que para todo a de ℕ, 1•a = a•1 = a y esta propiedad es la existencia del elemento neutro con respecto a la multiplicación.
4) Para todo a, b y c de ℕ se cumple a•c = b•c si y solo si, a = b, que es la propiedad de cancelación con respecto a la operación binaria del producto o multiplicación •.
Por lo tanto, (ℕ, •) es un monoide conmutativo con la propiedad de cancelación.
c) Con respecto a la relación entre + y • (ℕ, +, •):
1) Para todo a, b, c de ℕ se cumple (a + b)•c = a•c + b•c, lo cual es la propiedad distributiva del producto con respecto a la suma.
d) Con respecto a la relación de orden total se cumple (ℕ, <):
1) < es una relación de orden lineal, es decir, cumple las propiedades de los órdenes estrictos, si a < b entonces, no b < a y es transitiva y además se cumple la ley de tricotomía que dice que solo se cumple una de estas tres posibilidades: a < b, b < a o a = b.
2) Para todo a, b, c de ℕ se cumple a < b si y solo si, a + c < b + c.
3) Para todo a, b, c de ℕ se cumple a < b si y solo si, a•c < b•c.
2.3 Los axiomas de Peano de los números naturales Propondremos los axiomas famosos de Peano para los números naturales y
demostraremos en esta y subsiguientes subsecciones, que, a partir de estos axiomas,
los números naturales cumplen las propiedades citadas en la anterior subsección. En
teoría axiomática de conjuntos los axiomas de Peano de los que partimos, pueden ser
demostrados por otros axiomas más básicos para los conjuntos, pero nosotros no
empezaremos con tan bajo nivel. Sin más, introducimos los axiomas de Peano, cuyo
significado comentaremos en esta subsección.
DEFINICIÓN (Axiomas de Peano de los números naturales):
1. 1 es un número natural.
44
2. Para cada número natural a existe un único natural a’ llamado el sucesor de a. O sea, hay una función sucesor S: a → a’ de los naturales en sí mismos.
3. a’ ≠ 1 para todo número a natural.
4. Para todo natural a, b, “a’ = b’ implica que a = b”, o, en otras palabras, la función sucesor S: a → a’ es inyectiva.
5. Sea A un subconjunto de los naturales: Supongamos que se cumple que i) 1 pertenece a A y ii) para todo a de A, si a es de A implica que a’ es también de A, entonces cumplirse i) y ii) implica que A es todo ℕ.
Estos son los cinco axiomas de Peano, que pensará el lector que, salvo el primero, los
demás no tienen mucho significado, por ello ahora pasamos a comentarlos:
El primero es evidente y no requiere explicación.
2. Para cada número natural a existe un único natural a’ llamado el sucesor de a. O sea, hay una función sucesor S: a → a’ de los naturales en sí mismos.
El número natural a’ es a + 1, de modo que este axioma más los siguientes, nos
ayuda a llegar a nuestro ideal de que la sucesión de números naturales debe ser
infinita, por muy grande que sea un natural a, siempre habrá el siguiente, esta es la
propiedad básica de los números naturales, que es un conjunto infinito cosa que
deja lleno de perplejidad al autor y es uno de los grandes misterios de las
matemáticas.
3. a’ ≠ 1, para todos los naturales a.
Este axioma trata de que, aparte de que 1 sea el primer número natural, que los
números naturales sean una sucesión lineal infinita de números, no circular, como
por ejemplo se daría si 1 = 4’, que más que la noción que deseamos para los números
naturales, sería un bucle de los 4 primeros números, cosa que cumpliría los 2
primeros axiomas, pero que no se adecuaría a nuestros propósitos de definir los
números naturales como una sucesión infinita.
4. Para todo natural a, b, “a’ = b’ implica que a = b”, o, en otras palabras, la función sucesor S: a → a’ es inyectiva.
Este axioma impide que se puedan formar bucles como ocurriría si 2 = 4’ por
ejemplo, pues si así fuera el caso, ocurriría que 1’ = 4’, que implicaría que 1 = 4, cosa
totalmente desafortunada y que se puede demostrar que está en contradicción con
los restantes axiomas, por ejemplo el 3 anterior pues 1 = 4 implica que 1 = 3’. Con
este axioma y los anteriores, tenemos que para todo natural a, hay un sucesor a’
que siempre sigue hacia delante, por lo tanto, este axioma era necesario para
nuestro propósito de definir los números naturales según la noción que poseemos
de ellos.
5. Sea A un subconjunto de los naturales: Supongamos que se cumple que i) 1 pertenece a A y ii) para todo a de A, si a es de A implica que a’ es también de A, entonces cumplirse i) y ii) implica que A es todo ℕ.
Este axioma es el más difícil de explicar, pero resulta muy útil y parece mentira que
sea el último y no necesitemos más axiomas para obtener todos los resultados y
45
propiedades que nos proporcionan los números naturales. Este axioma es el método
de demostración por inducción, pero aparte de eso, este axioma nos libra de otra
posibilidad desafortunada que encierran los anteriores axiomas. Con ellos no
evitaríamos que los números naturales fueran algo de esta naturaleza, por ejemplo,
el conjunto M = {1, 0.5, 2, 1.5, 3, …, etc.}. Pero, si pensamos en el 1 y en toda la
generación infinita de sucesores a partir de él, llamémoslo conjunto A, este axioma
nos asegura que los números naturales no son más que eso, pues ese sería un
conjunto A ⊆ ℕ, pero este axioma nos dice que también se cumple que ℕ ⊆ A, por
lo que no hay más números naturales que esos y nos libramos de las posibilidades
como el conjunto M.
Veamos dos proposiciones básicas de los axiomas de Peano que nos harán estar seguros
de que su definición es buena y que nos serán útiles más adelante.
PROPOSICIÓN 1: Para todo número natural a, a’ ≠ a.
DEMOSTRACIÓN: Sea A = {n de ℕ|n’≠ n}. Por los axiomas 1 y 3, 1 es de A. Sea n de A,
entonces, n’ ≠ n, de modo que (n’)’ ≠ n’, pues por el axioma 4, (n’)’ = n’ implica que n’ =
n. Por lo tanto, suponer que n es de A, implica que n’ es de A, por lo que A = ℕ. □
PROPOSICIÓN 2: Para todo natural a ≠ 1, existe un b único, tal que a = b’.
DEMOSTRACIÓN: Sea A tal que A = {n de ℕ| n = 1 o n = m’ para algún m de ℕ}. Por
definición, 1 pertenece a A. Ahora supongamos que n pertenece a A y n es distinto de 1,
por lo que existe un m tal que n = m’, por lo que n’ = (m’)’ también pertenece a A, por lo
que A = ℕ. Pero más aún, si a = b’ y a = c’, entonces, b’ = c’, por lo que por el axioma 4,
b = c, por lo que se cumple que el b del enunciado del teorema es único. □
2.4 Los números naturales pueden ser definidos en función de la teoría axiomática de conjuntos
No vamos a demostrar en este libro que los axiomas de Peano se pueden probar con los
axiomas de teoría (axiomática) de conjuntos (en concreto juegan especial relevancia en
esta demostración el axioma 2 o del conjunto vacío (véase la subsección 1.4) y el axioma
7 o de infinitud, en los que se postula que el conjunto vacío existe y existe un conjunto
que contiene al vacío y que si contiene un conjunto A, entonces también contiene como
elemento al conjunto cuyo único elemento es A, es decir {A}). Pero de hecho diremos
que es así, los axiomas de Peano se demuestran con la teoría axiomática de conjuntos.
Mencionamos ahora cómo se puede ver esto, pues según el axioma 7, de infinitud, existe
un conjunto que contiene el conjunto vacío ∅, y también {∅} y por tanto {{∅}} y así
sucesivamente. Ahora bien, si definimos el número natural 0 como el elemento ∅, y
definimos el número natural siguiente de un elemento a, de ese conjunto, como
“siguiente de a” (notado como a’), a’ = {a}, vemos que el natural 1 sería {∅}, el 2, como
1’ = {{∅}} y así sucesivamente, y se puede intuir, según el axioma 7, de infinitud, que
existe un conjunto con todos los números naturales y que solo los contenga a ellos,
(designemos este conjunto como A, pero ocurre que esta construcción de los números
naturales comenzaría con el 0 y no el 1, detalle que se puede subsanar fácilmente, pues
46
si queremos demostrar la existencia de los números naturales empezando en el 1 (sin el
0) podemos aplicar el axioma 3, de especificación, al conjunto A de esta manera: = {x de
A| x es distinto de 0}). A pesar de todo esto, no crea el lector que hemos demostrado o
dado la idea de la demostración de la existencia de los números naturales a partir de los
axiomas de la teoría de conjuntos, para ello haría falta tomar en cuenta ciertos detalles
en los que no vamos a entrar en este libro. Además, nos quedaría demostrar que los
números naturales así definidos, cumplen los axiomas de Peano, hecho que ocurre así,
pero que no vamos a demostrar. También deberíamos señalar que no importa como son
definidos los números naturales, lo importante es que cumplan los axiomas de Peano,
pues como sí que vamos a demostrar en toda esta subsección 2, si los elementos de un
conjunto cumplen los axiomas de Peano, entonces con las adecuadas definiciones de las
operaciones binarias de suma y producto y del orden total que los caracteriza, cumplen
todas las propiedades de los números naturales, que es el hecho que nos interesa en
este libro.
2.5 Definiciones recursivas o por recurrencia Los dos objetivos principales de esta subsección 2 de los números naturales y los
axiomas de Peano que los definen son 1, las demostraciones por inducción y 2, las
definiciones recursivas o por recurrencia.
Las definiciones recursivas están presentes en todas las matemáticas, de aquí la
importancia de esta subsubsección y es que ocurre que a veces, necesitamos definir una
función f, f: ℕ → A, de los números naturales a un conjunto arbitrario A, pero no
podemos utilizar una fórmula explícita, porque no la conocemos o por otras razones
como veremos más adelante, entonces lo que sí se puede hacer es definir f(n), n natural,
en función de los anteriores naturales k < n, explicaremos esto mejor en el principio de
definición por recurrencia:
DEFINICIÓN 1 (Principio de Definición por recurrencia): Sea A un conjunto no vacío, para
definir una función por recurrencia en A, f: ℕ → A, es suficiente definir f para m números
naturales con valores en A, 𝑎1, … , 𝑎𝑚, con m < n: f(1) = 𝑎1,, …, f(m) = 𝑎𝑚, y dar una regla
para definir f(n), en función de f(1), f(2), …, f(n-1), los valores explícitos 𝑎1, … , 𝑎𝑚, se
denominan valores iniciales y la relación de f(n) con f(1), f(2), …, f(n-1) se denomina
relación de recurrencia.
Veamos un ejemplo de este principio para entender mejor el concepto y sus detalles.
EJEMPLO 1: La sucesión de Fibonacci es muy famosa y su definición es un ejemplo del
principio de definición por recurrencia: La sucesión de Fibonacci se define para A = ℕ,
sus valores iniciales son f(1) = 1 y f(2) = 1 y la relación de recurrencia es la siguiente para
todo n = ℕ: f(n + 2) = f(n) + f(n + 1), de modo que los primeros números de la sucesión
de Fibonacci son: 1, 1, 2, 3, 5, 8, 13, etc. Es decir, el siguiente número de la sucesión se
calcula sumando los dos anteriores.
Para que quede claro, nosotros no vamos a utilizar el principio de definición por
recurrencia ni demostrarlo, sino que vamos a utilizar una versión más modesta del
47
mismo, lo vamos a llamar de forma análoga, definición por recurrencia y la diferencia
fundamental está en que la relación de recurrencia será solo de n con respecto a n + 1
(o análogamente de n- 1 con respecto a n) y solo habrá un valor inicial, f(1) = b. Para
hacer esto y asegurarnos que la definición de la función existe y da unívocamente un
resultado se formaliza lo anterior de la siguiente manera:
DEFINICIÓN 2 (Definiciones por recurrencia): Sea g una función cualquiera en un
conjunto A, es decir g: A → A, y b, un elemento de A. Se define una función por
recurrencia f, tal que f: ℕ → A con f(1) = b en dos pasos:
1) Se define f(1) = b.
2) Dado f(n), f(n’) = g(f(n)).
Lo que significa este esquema es que para definir f sin tener que definir explícitamente
f(1), f(2), f(3), etc., basta con definir f(1) = b y construir f(n + 1) supuesto que hayamos
calculado ya f(n), que se formaliza con que hay una función g que calcula f(n + 1) a partir
de f(n). Demostramos a continuación, que esto determina una función única que tendrá
la siguiente forma: f(1) = b, f(2) = g(f(1)) = g(b), f(3) = g(f(2)) = g(g(b)), f(4) = g(g(g(b))),
etc.
Antes de ver esta demostración tan interesante e importante, veamos algunos
ejemplos:
EJEMPLOS 2: a) La función f(n) = 2𝑛, en realidad se define recursivamente con f(1) = 2 y
con g(x) = 2•x, es decir, f(n + 1) = 2•f(n), de modo que f(2) = g(f(1)) = g(2) = 2•2 = 22, f(3)
= g(22) = g(g(2)) = 23, como se puede comprobar.
c) La función n•√2, se puede definir como f(1) = √2 y con g(x) = x + √2, pues f(2) =
g(f(1)) = g(√2) = √2 + √2 = 2•√2, f(3) = g(f(2)) = g(2•√2) = 2•√2 + √2 = 3•√2, como
se puede verificar.
Pasamos ahora a la demostración del Teorema de recurrencia o definiciones por
recurrencia:
TEOREMA 1 (Principio de Recursión o Teorema de Iteración o Definiciones por
recurrencia): Toda definición por recurrencia, según hemos visto en la definición
anterior de Definiciones por recurrencia, define de forma unívoca una función f, tal que
f: ℕ → A, con A arbitrario y f(1) = b de A arbitraria y con una función g arbitraria tal que
g: A → A.
DEMOSTRACIÓN: Construiremos la función f(n) como un subconjunto de ℕ×A.
Consideremos la colección C, de subconjuntos B de ℕ×A tales que (1, b) pertenece a B
y que (n’, g(x)) pertenece a B siempre que (n, x) pertenece a B. Por lo menos ℕ×A
pertenece a esta colección, por lo que C no es vacía. Entonces, definimos la intersección
de todos los subconjuntos de C y la llamaremos u. Es evidente que u es un subconjunto
también de ℕ×A que pertenece a C pues por definición, para todo B de C, (1, b)
pertenece a B y (n’, g(x)) pertenece a B siempre que (n, x) pertenezca a B. Por lo tanto,
lo que nos queda por demostrar es, que u es una función, es decir, para todo natural n,
solo existe un elemento x de A tal que (n, x) pertenece a u. Aquí utilizamos el principio
48
de inducción de los números naturales. Sea S el conjunto de naturales tal que (n, x)
pertenece a u para solo un x para cada n diferente, entonces probaremos que 1
pertenece a S y que n’ pertenece a S siempre que n pertenezca a S.
1 pertenece a S, pues si no es este el caso entonces, (1, c) pertenecería a u con c distinto
de b. Consideremos el conjunto u – {(1, c)}, llamémoslo Z. Pero entonces (1, b) pertenece
a Z y ocurre que si (n, x) pertenece a Z también lo hace (n’, g(x)), la razón de esto último
es que n’ no es 1, de modo que Z pertenece a la colección C, lo que contradice que u era
la intersección de todos los B de C.
Sea ahora que n pertenece a S, de modo que, solo existe un único x tal que (n, x)
pertenece a u. Pero si (n, x) pertenece a u, también lo hace (n’, g(x)). Si n’ no pertenece
a S, entonces existe un y tal que (n’, y) pertenece a u con y distinto de g(x). Consideremos
el conjunto X = u – {(n’, y)}. Entonces (1, b) pertenece a este X, ya que 1 es diferente de
n’ y, ocurre que, si (m, t) pertenece a X también pertenece a X, (m’, g(t)). Veámoslo: si
m = n, entonces t = x y (n’, g(x)) ya sabemos que debe pertenecer a X pues y es distinto
de g(x). Si m es distinto de n, entonces (m’, g(t)) pertenece a X porque m’ es distinto de
n’, es decir, X pertenece a C, de modo que obtenemos otra vez una contradicción con la
suposición de que u era la intersección de todo B de C, de modo que, n’ pertenece a S y
por inducción S es ℕ.
Nos quedaría demostrar que la función u está unívocamente definida: Sean 𝑢1 y 𝑢2, dos
funciones que cumplen con la definición de u dada anteriormente. Sea K el siguiente
conjunto K = {n de ℕ| 𝑢1(n) = 𝑢2(n)}. Entonces, 1 pertenece a K, ya que 𝑢1(1) = 𝑢2(1) =
b. Y si n pertenece a K entonces, 𝑢1(n) = 𝑢2(n), por lo que 𝑢1(n’) = g(𝑢1(n)) = g(𝑢2(n)) =
𝑢2(n’), por lo que K es todo ℕ, de modo que 𝑢1 = 𝑢2. □
Necesitaremos una versión generalizada de este teorema para la definición rigurosa,
recursiva, del sumatorio, que se demuestra de la misma manera que el teorema
anterior. Pasamos a continuación a establecer este teorema generalizado.
TEOREMA 2 (Generalización del Principio de Recursión o Teorema de Iteración o
Definiciones por recurrencia): Sea g una función cualquiera, de dos argumentos g(x, y)
de dominio ℕ×A en un conjunto A, es decir g: ℕ×A → A, y b, un elemento de A. Si se
define una función por recurrencia f, tal que f: ℕ → A con f(1) = b en dos pasos:
1) Se define f(1) = b.
2) Dado f(n), f(n’) = g(n, f(n)).
Entonces existe una única función f, dados b de A y g: ℕ×A → A.
DEMOSTRACIÓN: La demostración es igual a la anterior con la excepción de que la
función u tiene los pares ordenados de la siguiente forma: (1, b) pertenece a u y (n’, g(n,
x)) pertenece a u siempre que (n, x) pertenezca a u. □
Ahora queremos hacer una aclaración. Se supone que hemos tratado el tema de las
definiciones por recurrencia porque todos los matemáticos las utilizan en su trabajo, por
lo que para hacer una definición utilizando el principio de recursión o inducción, se
debería utilizar estas definiciones por recurrencia tales como lo hemos establecido
49
nosotros, pero en la realidad muchos matemáticos distan de esta calidad de rigor. Lo
que se suele hacer en la mayoría de las definiciones utilizando el principio de inducción
o recurrencia, es determinar una relación entre el objeto definido de A asociado a n y su
sucesor de A asociado el número n + 1 (o una relación entre el objeto asociado a n- 1
con el asociado a n, que es lo mismo) si especificar rigurosamente la función g exacta,
tal que f(n’) = g(f(n)) o f(n’) = g(n, f(n)) en la versión generalizada que hemos tratado.
Para entender lo que queremos decir veamos un ejemplo.
EJEMPLO 3: Sea la función definida en los números naturales de expresión f(n) = 2𝑛, en
un principio, esta definición parece suficientemente rigurosa, pero para definirla
correctamente, habría que utilizar el principio de definición por recurrencia que hemos
estudiado en esta subsubsección. Pero en lugar de utilizarlo en dos pasos como lo hemos
hecho aquí se suele hacer esta definición menos rigurosa: 21 = 2, 2𝑛+1 = 2•2𝑛, que es
rigurosa y se deduce de la definición correcta, pero con todo rigor debería hacerse de la
siguiente manera, que ya hemos visto en el ejemplo 2: f(1) = 2, g(x) = 2•x, con f(n + 1) =
g(f(n)). Es decir, la definición de g(x) se hace de forma implícita o encubierta.
2.6 La operación binaria de la suma en los números naturales Vamos a definir la operación de suma de forma recursiva, es decir, la vamos a definir
por inducción en el segundo sumando, primero definimos a un número natural
cualquiera a, su suma con 1, es decir, a + 1 y después definiremos la suma de a + c’, en
función de c.
DEFINICIÓN (operación de suma en los números naturales): Para todo número, a,
natural, definimos la siguiente operación binaria +:
1. a + 1 = a’
2. a + c’ = (a + c)’.
Esta definición tiene su justificación, aparte de que, con ella, se cumplen todas las
propiedades de la suma de números naturales que nos enseñaron en el colegio.
Necesitamos definirla así porque es el único medio que tenemos de definirla para todos
los números naturales y como probaremos, el “axioma de inducción” de los números
naturales (es decir el ultimo axioma de Peano o axioma numero 5) nos asegura
precisamente esto, que quedará definida para todos los números naturales. El
argumento para esto es el típico de las demostraciones por inducción: con la primera
propiedad definimos la suma de cualquier natural más el 1, de modo que el número 1
pertenece al conjunto A para los que está definida la suma con a (fijemos un número
natural a), ahora si suponemos definida la suma de a + c para cualquier natural c,
definimos la suma para el siguiente número que es c’, de modo que el conjunto A para
el que está definida la suma es por el axioma de inducción todo ℕ. Y el argumento sigue,
puesto que tenemos la suma definida para 1, es decir a + 1 = a’, a + 2 sería: a + (1)’ = (a
+ 1)’ = (a’)’, de modo que tenemos una forma de calcular a + 2 a partir de a y la operación
siguiente (‘), y siguiendo este proceso, llegaríamos a cualquier a + c que nos permitiría
definir a su vez a + c’, por lo que tendríamos definida la suma para todos los números
50
naturales una vez fijado a, el cual es arbitrario, por lo que definimos la suma a + c para
todo número a, c natural.
El siguiente teorema nos asegura que esta definición es correcta y nos proporciona una
única operación suma que, en posteriores proposiciones en esta subsección, veremos
que cumple con las propiedades de la suma de números que aprendimos en el colegio
o mejor que ya mostramos en la subsección 2.2.
Siendo rigurosos, deberíamos utilizar el principio de la definición por recurrencia, que
se puede aplicar así:
Se particulariza el esquema de recurrencia para la suma, haciendo A = ℕ, b = a’ con a
arbitrario y g = ‘, (es decir la función siguiente ‘, de los axiomas de Peano), de modo que
f se define para un a, arbitrario, y de tal forma que se puede notar f de la siguiente
manera, 𝑓𝑎, y se tiene 𝑓𝑎 (1) = (a + 1) = a’ y 𝑓𝑎(c’) = a + c’ = g(𝑓𝑎 (c)) = g(a + c) = (a + c)’.
Con estas definiciones se puede demostrar el siguiente teorema de la buena definición
de la suma, pero ya habrá comprobado el lector, que esta demostración aplicando así el
principio de definición por recurrencia, es un poco complicada, y por tanto el lector no
se debe preocupar por no comprenderla, pues vamos a realizar otra demostración que
no aplica este principio (de definición por recurrencia) directamente.
TEOREMA: Existe una única operación binaria, +, en ℕ, tal que satisfaga lo siguiente:
Para todo a, c naturales se cumple que
1. a + 1 = a’
2. a + c’ = (a + c)’.
DEMOSTRACIÓN: i) Primero demostraremos que existe una operación binaria +, que
satisface los puntos 1 y 2 anteriores de su definición. Más tarde demostraremos que esa
operación + queda definida únicamente.
Sea A el siguiente subconjunto de ℕ, A = {a de ℕ|a + c se puede definir para todo c
satisfaciendo las condiciones 1 y 2 de su definición}.
a) Demostremos que 1 pertenece a A: Para ello definimos 1 + c = c’, para todo c de ℕ,
de modo que 1 + 1 = 1’ y 1 + c’ = (c’)’ = (1 + c)’, de modo que se satisfacen las condiciones
1 y 2, por lo que 1 es de A.
b) Ahora supongamos que a pertenece a A, para cualquier a de ℕ, de modo que a + c
está definido para todo c de ℕ. Ahora definimos a’ + c = (a + c)’. Entonces, a’ + 1 = (a +
1)’ = (a’)’, por a pertenecer a A, de modo que se cumple la condición 1. También a’ + c’
= (a + c’)’ por definición, pero (a + c’)’ = ((a + c)’)’ pues a pertenece a A y ((a + c)’)’ = (a’ +
c)’, por definición, pero esto significa que a’ cumple la condición 2, por lo que a’
pertenece a A. De modo que por el axioma 5 de Peano, A = ℕ.
ii) Ahora demostraremos la unicidad de la operación + definida por las condiciones 1 y
2. Supongamos que existe otra operación × que cumple 1 y 2 y fijemos a de ℕ, de modo
que sea el conjunto A = {n de ℕ|a + n = a × n}. Entonces: ¨
a)1 pertenece a A, pues a + 1 = a’ = a × 1, por cumplirse 1.
51
b) Sea n de A, entonces, a + n’ = (a + n)’ por cumplirse 2, pero (a + n)’ = (a × n)’ por n
pertenecer a A y (a × n)’ = a × n’ por cumplirse 2, de modo que n’ también pertenece a
A y hemos demostrado que + y × son iguales por ser A = ℕ. □
A partir de ahora, llamaremos n + 1 al sucesor de n, n’, pues así es como se define n + 1
en la definición recursiva de la suma y así resultará más claro a partir de ahora.
2.7 Propiedades de la suma en los números naturales Debido a que la subsubsección anterior nos quedaría muy larga con las propiedades de
la suma además de su definición, consideramos en esta subsección las propiedades de
la suma.
TEOREMA 1: La operación de suma, +, en ℕ, cumple las siguientes leyes:
1. Para todo a, b, c de ℕ se cumple:
(a + b) + c = a + (b + c) que es la ley asociativa de la suma.
2. Para todo a, b de ℕ se cumple:
a + b = b + a que es la ley conmutativa de la suma.
DEMOSTRACIÓN: 1) Sean a, b números naturales fijos pero arbitrarios, definamos el
conjunto A = {c de ℕ|(a + b) + c = a + (b + c)}, entonces, por definición de +, (a + b) + 1 =
(a + b)’ = a + b’ = a + (b + 1), por lo que 1 pertenece a A. Ahora supongamos que c
pertenece a A, entonces, (a + b) + c’ = ((a + b) + c)’ = (a + (b + c))’, ya que c está en A por
hipótesis de inducción, ahora por la definición de suma (a + (b + c))’ = a +(b + c)’, que por
lo mismo, ocurre que a +(b + c)’ = a + (b + c’), por lo que c’ pertenece a A y se tiene que
A = N por inducción.
2) a) Primero demostremos que 1 + a = a + 1, para todo natural a. Sea A = {n de ℕ| n + 1
= 1 + n}, entonces 1 pertenece a A, pues 1 + 1 = 1 + 1 implica que n + 1 = 1 + n, con n =
1. Ahora si n pertenece a A, tenemos que n + 1 = 1 + n, pero (1 + n) + 1 = 1 + (n + 1) por
la ley asociativa, pero la primera igualdad es (n + 1) + 1, pues n pertenece a A, por
hipótesis de inducción, por lo que por la primera propiedad de la suma, n’ + 1 = 1 + n’,
lo que implica que n’ pertenece a A y hemos demostrado que A = ℕ.
b) Ahora supongamos que a + k = k + a para todo a de ℕ. Sea el elemento a + (k + 1) = (a
+ k) + 1, por hipótesis a + (k + 1) = (a + k) + 1 = (k + a) + 1, aplicando asociatividad (k + a)
+ 1 = k + (a + 1) = k + (1 + a) por la parte demostrada en a) y ahora por asociatividad k +
(1 + a) = (k + 1) + a, por lo que a + (k + 1) = (k + 1) + a, por lo que si consideramos el
conjunto A = {k de ℕ| a + k = k + a, para a fijo de ℕ, pero arbitrario} hemos demostrado
que 1 pertenece a A y, suponiendo que k pertenece a A, se demuestra que k’ pertenece
a A, de modo que A = ℕ. □
La próxima proposición será útil para definir la relación de orden de los números
naturales, pero también nos servirá en la última proposición de esta subsección que
tratará de la propiedad de cancelación de la operación de suma.
52
PROPOSICIÓN 1: Sean a, b números naturales, entonces, exactamente solo una de las
siguientes afirmaciones es cierta:
1. a = b
2. a = b + u, para algún natural u
3. a + v = b, para algún natural v.
DEMOSTRACIÓN: a) Primero demostraremos que las afirmaciones 1), 2) y 3) son
incompatibles entre sí. i) 1) y 2) no se pueden dar simultáneamente. Si a = b y a = b + u,
entonces, a = a + u, pero demostramos ahora que por inducción esto no es posible para
ningún número natural a. Sea A el conjunto A = {n de ℕ|n ≠ n + u, para algún u natural},
entonces, 1 + u = u + 1 = u’, pero por el axioma 3) de Peano, 1 ≠ u’, para todo u, por lo
que 1 pertenece a A. Ahora supongamos que n pertenece a A, entonces, n ≠ n + u y
supongamos que n’ = n’ + u = u + n’ = (u + n)’ = (n + u)’, por la definición de suma y la
propiedad conmutativa, por lo que por el axioma 4) de Peano, n = n + u lo cual es una
contradicción y tiene que ser n’ ≠ n’ + u, por lo que n de A implica n’ de A lo cual implica
por inducción que A = ℕ y por tanto, 1) y 2) son incompatibles. ii) 1) y 3) Son
incompatibles, es exactamente la misma demostración anterior cambiando b por a. iii)
2) y 3) son incompatibles. Si se cumple 2) y 3) entonces a = b + u = (a + u) + v = a + (u +
v), de modo que a = a + w con w = u + v, lo cual ya hemos demostrado antes que es
imposible para ningún número natural w.
b) Ahora demostraremos que se tiene que cumplir una de las 3 afirmaciones anteriores.
Sea A = {b de ℕ|alguna de las 3 afirmaciones anteriores tiene que cumplirse}. Sea a un
natural fijo pero arbitrario. Entonces 1 pertenece a A pues a = 1 o si a ≠ 1, por la
proposición 2.3.2 a = u’ para algún natural u, de modo que a = 1 + u según la definición
de la suma, por lo que a = 1 o a = 1 + u, lo que implica que 1 es de A. Ahora
demostraremos que si b es de A entonces implica que b’ pertenece a A. Si b = a,
entonces, b’ = a’ = a + 1, por lo que 3) se cumple para b’, por lo que b’ es de A en este
caso. Si b = a + u, para algún natural u, entonces b’ = (a + u)’ = a + u’, por lo que b’ es de
A en este caso. Por último, si a = b + u, para algún natural u, consideremos 2 subcasos:
i) u = 1, entonces, a = b + 1 = b’, por lo que b’ pertenece a A en este subcaso y ii) u ≠ 1,
entonces ya hemos visto que u = v’, para algún v, de modo que a = b + u = b + v’ = b + (1
+ v) = (b + 1) + v = b’ + v, de modo que b’ es de A, por lo que considerando todos los
casos y subcasos, A = ℕ. □
PROPOSICIÓN 2 (Leyes de cancelación para la suma):
1. a + u ≠ a, para cualquier u natural.
2. “a + x = a + y” implica que “x = y”, para todo a, x, y natural.
DEMOSTRACIÓN: 1) Ya lo demostramos en la proposición anterior.
2) Caso a) x = y + v para algún natural v, entonces, de a + x = a + y implica que a + y + v = a + y, contradiciendo el resultado 1) de esta proposición.
53
Caso b) y = x + w, para algún w natural, entonces, de nuevo, a + x = a + y implica que
a + x = a + x + w, lo cual según 1) de esta proposición no es posible, por lo que solo
queda la posibilidad de que x = y. □
Además de que “a + x = a + y” implica que “x = y”, para todo a, x, y natural, también se
cumple que x = y implica que a + x = a + y, pues esto es evidente porque si x es el mismo
número que y al sumarle un mismo número sea a, nos dará el mismo número a + x = a +
y.
2.8 La relación de orden lineal (total) en los números naturales y los principios de inducción
DEFINICIÓNES: Sean a, b naturales se dice que a es mayor que b y se denota, a > b si
ocurre que a = b + u, para algún u natural. Se dice que a es menor que b y se denota
como a < b, si b = a + v, para algún v natural. Notemos que a < b si y solo si, b > a. Ahora
la proposición 2.7.1 se puede reescribir con esta notación de la siguiente manera y lo
llamaremos teorema 2.8.1 el cual determina una relación de orden lineal total en el
conjunto de los números naturales.
TEOREMA 1 (ley de tricotomía en el conjunto de los números naturales): Dados a, b
naturales, se cumple una y solo una, de las siguientes posibilidades:
1. a = b.
2. a > b.
3. a < b.
Veamos las siguientes proposiciones (observaciones) que nos serán útiles más adelante
y que concede el valor singular del 1 que sabíamos que tenía en nuestro conocimiento
de los números naturales antes de los axiomas de Peano.
PROPOSICIÓN 1: Si a ≠ 1, entonces, 1 < a.
DEMOSTRACIÓN: Si a ≠ 1, sabemos por la proposición 2.3.2 que a = b’, para algún b
natural, de modo que a = b + 1, para algún b natural, según la definición de suma, pero
eso significa que a > 1 o que 1 < a, por la definición de < o >. □
Ya sabemos de nuestro conocimiento de las relaciones de orden que dada una relación
de orden estricta <, su relación de orden parcial asociada ≤ significa lo siguiente: a ≤ b,
si y solo si, a = b o a < b, por lo que usaremos el orden < o ≤ según nos convenga.
PROPOSICIÓN 2: Sean a, b naturales, entonces, a < b si y solo si a + 1 ≤ b.
DEMOSTRACIÓN: a < b implica según la definición que b = a + u, para algún u natural. Si
u = 1, entonces b = a + 1 y se cumple a + 1 ≤ b. Si u ≠ 1, sabemos por la proposición 2.3.2
que u = v’, para algún v, de modo que b = a + u = a + v’ = a + 1 + v, de modo que b > a +
1 y se cumple entonces también en este caso, que a + 1 ≤ b. Ahora a la inversa, si a + 1
≤ b, entonces, si a + 1 = b, se cumple que b > a y si a + 1 < b, entonces existe un natural
54
u tal que (a + 1) + u = b, de modo que a + (1 + u) = b, de modo que a + v = b para v = (1 +
u), de modo que a < b y hemos completado la demostración. □
Ahora veremos una propiedad muy importante de los números naturales relacionada
con el orden que es equivalente al principio de inducción, se llama propiedad de buena
ordenación de los números naturales. Nos permitirá demostrar el principio de inducción
fuerte o segundo principio de inducción que necesitamos muchas veces en las
demostraciones por inducción. Además de esto también nos permitirá demostrar los
principios de inducción especiales que necesitamos en las demostraciones por inducción
cuando el primer caso que se cumple es distinto del número 1, porque no se cumple o
no tiene sentido, en el problema en consideración, asociar al 1 la propiedad que
queremos demostrar.
TEOREMA 1 (propiedad de buena ordenación de los números naturales): Todo
subconjunto A, no vacío, de números naturales tiene un elemento que es el menor de
entre ellos o menor que los demás.
DEMOSTRACIÓN: Sea T = {n de ℕ|n ≤ a, para todo a de A}, entonces, 1 pertenece a T por
la proposición 1 anterior. Ahora para todo a se cumple que a’ > a, por lo que a’ no
pertenece a T, lo que implica que T no es todo ℕ, lo cual contradice el axioma 5 de Peano,
por lo que existe un t de T, tal que t’ no es de T. Ahora aseguramos que este número t
es el mínimo elemento de A. Primero veamos que por definición de T, t ≤ a, para todo a
de A y si t no pertenece a A, entonces, t < a para todo a de A, pero entonces por la
proposición 2 de esta subsección t + 1 ≤ a para todo a de A y esto implica que t’ pertenece
a T lo cual es una contradicción. Por lo que t es de A y t ≤ a para todo a de A, como
queríamos demostrar. □
Ahora veamos la demostración de los 3 principios de inducción fundamentales los cuales
vamos a utilizar en nuestras demostraciones por inducción, y con esto terminamos esta
subsección.
TEOREMA 2 (principio de inducción fuerte o segundo principio de inducción de los
números naturales): Sea A un subconjunto de ℕ tal que:
1. 1 pertenece a A.
2. n pertenece a A siempre que todo m < n pertenezca a A.
Entonces, A = ℕ.
DEMOSTRACIÓN: Sea T = {n de ℕ|n no es de A}. Si T = ∅, habríamos terminado, de modo
que supondremos que T posee algún elemento. Por tanto, por el principio de buena
ordenación de los números naturales T posee un elemento menor que los demás,
llamémoslo t. Por la hipótesis de inducción fuerte 1), t ≠ 1 (pues 1 pertenece a A),
entonces por la proposición 1 de esta subsección 1 < t y es evidente que todos los
números naturales menores que t pertenecen a A de modo que por la hipótesis de
inducción fuerte 2), t pertenece a A, lo cual es una contradicción y entonces T = ∅,o dicho
de otra manera, A = ℕ. □
55
TEOREMA 3 (principio de inducción especial con primer caso distinto de 1): Sea A un
subconjunto de ℕ tal que:
1. m pertenece a A.
2. n’ pertenece a A, si n pertenece a A, para todo n con m ≤ n.
Entonces, A = ℕ - {1, …, m - 1}.
DEMOSTRACIÓN: Supongamos que existe algún p natural con p > m, tal que p no es de
A, sea T = {n de ℕ|n > m y n no es de A}, entonces, T no es vacío ya que p es de T, por lo
que por el principio de buena ordenación, hay un elemento t de T que es menor que los
demás, de modo que t – 1 ≤ m o t – 1 es de A. En el primer caso, t ≤ m + 1 y puesto que
t > m tiene que ser t = m + 1, pero por hipótesis de inducción 2) t es de A, lo cual es una
contradicción. Ahora el caso t – 1 es de A implica que t = (t – 1) + 1 es de A lo cual es otra
contradicción, por lo que no existe ningún p > m que no sea de A. □
TEOREMA 4 (principio de inducción fuerte especial en el caso de que el primer elemento
es distinto de 1): Sea A un subconjunto de ℕ tal que:
1. m pertenece a A.
2. n pertenece a A siempre que todo p < n pertenezca a A, con m ≤ p.
Entonces, A = ℕ- {1, …, m - 1}.
DEMOSTRACIÓN: Es casi igual a la anterior. Supongamos que existe algún q natural con
q > m, tal que q no es de A, sea T = {n de ℕ|n > m y n no es de A}, entonces, T no es vacío
ya que q es de T, por lo que, por el principio de buena ordenación, hay un elemento t de
T que es menor que los demás, de modo que todo p con, m ≤ p < t pertenecen a A, pero
por hipótesis de inducción fuerte 2), t pertenece a A, lo cual es una contradicción, por lo
que no existe ningún q ≥ m que no sea de A. □
2.9 La operación del producto o multiplicación de los números naturales En esta sección definimos una operación más en los números naturales, el producto o
multiplicación, de nuevo lo hacemos de forma recursiva, aunque no utilizaremos como
así hicimos en la ocasión de la suma, el teorema de definición recursiva por resultar
complicado, pero ahora mismo indicamos como podría definirse el producto con ese
teorema.
Sin más definimos la operación de producto en los números naturales.
DEFINICIÓN (operación de producto o multiplicación, •, en los números naturales): Para
todo a natural definimos su producto con otro número natural en los siguientes pasos:
1. a•1 = a.
2. a•c’ = a•c + a.
Para definir esta operación rigurosamente aplicando el principio de la definición recursiva deberíamos hacerlo de la siguiente manera:
56
En este caso tomamos A = ℕ, por supuesto, b = a y g(c) = c + a, con a arbitrario, de modo
que 𝑓𝑎(1) = a•1 = a y 𝑓𝑎(c’) = a•c’ = g(𝑓𝑎(c)) = g(a•c) = 𝑓𝑎(c) + a = a•c + a.
Si el lector siente que utilizar la definición por recurrencia de la forma anterior es difícil
de seguir no se preocupe que realizaremos otra demostración de la existencia del
producto de números naturales que, aunque no sea tan rigurosa, se entiende fácilmente
y es por supuesto una de mostración válida.
A partir de ahora demostraremos que la operación de producto así definida, existe, es
única y cumple con las propiedades que conocemos para ella según la noción que
tenemos de número natural, de modo que habremos construido los números naturales
gracias a los axiomas de Peano y habremos demostrado que cumple con todas las
propiedades que necesitamos para ellos como el fundamento de los otros números que
posteriormente definiremos y vamos a necesitar.
TEOREMA 1: Existe una única operación binaria, producto, •, en los naturales, tal que
cumple las dos propiedades de su definición.
DEMOSTRACIÓN: a) Existencia. Sea A el siguiente conjunto, A = {a de ℕ|a•b satisface las
propiedades 1 y 2 de su definición}. Entonces 1 pertenece a A si definimos 1•c = c, puesto
que 1•1 = 1 y 1•c’ = c’ = c + 1 = 1•c + 1 y entonces se cumplen las propiedades 1 y 2 de
su definición. Ahora supongamos que c está en A de modo que c•d está definido y
cumple las propiedades 1 y 2 de la definición de producto, ahora entonces definimos
c’•d = c•d + d y veamos si c’ está en A. c’•1 = c•1 + 1 = c + 1 = c’, de modo que se cumple
la propiedad 1 del producto. Ahora c’•d’ = c•d’ + d’ = (c•d + c) + d’ = (c•d + c) + (d + 1) =
((c•d + c) + d) + 1 = ((c•d + d) + c) + 1 = (c’•d + c) + 1 = c’•d + c’, por lo que se cumple la
propiedad 2 y vemos que c’ también está en A, de modo que A es todos los números
naturales y la propiedad • tal como la hemos definido existe.
b) Ahora demostremos que hay una única operación • en los números naturales tal
como la hemos definido. Supongamos que hay otra operación ○ tal que cumple 1 y 2 de
la definición, entonces sea A = {n de ℕ|a•n = a○n}. Veamos que 1 pertenece a A: a•1 =
a = a○1. Ahora veamos si n’ pertenece a A cuando n pertenece a A. a•n’ = a•n + a = a○n
+ a = a○n’, por lo que n’ pertenece a A y A es todo ℕ. □
TEOREMA 2 (El producto cumple las propiedades, distributiva del producto con respecto
a la suma por la izquierda y por la derecha, conmutativa y asociativa):
La operación •, definida con las propiedades 1 y 2 cumple las siguientes propiedades:
a) a•(b + c) = a•b + a•c, propiedad distributiva, del producto con respecto a la suma, por la izquierda.
b) (a + b)•c = a•c + b•c, propiedad distributiva, del producto con respecto a la suma, por la derecha.
c) a•b = b•a, propiedad conmutativa del producto.
d) (a•b)•c = a•(b•c), propiedad asociativa del producto.
57
DEMOSTRACIÓN: a) Sea A = {n de ℕ| a•(b + n) = a•b + a•n}. Veamos por inducción que
A es todo ℕ. 1 pertenece a A: a•(b + 1) = a•b’ = a•b + a = a•b + a•1. Ahora supongamos
que n es de A, entonces, a•(b + n) = a•b + a•n. Ahora veamos a•(b + n’) = a•(b + (n + 1))
= a•((b + n) + 1) = a•(b + n)’ = a•(b + n) + a = a•b + a•n + a = a•b + a•n’. De modo que n’
pertenece a A y por tanto, la propiedad distributiva por la izquierda se cumple para todo
número natural a, b y c.
b) Sea A = {n de ℕ| (a + b)•n = a•n + b•n}. Entonces, 1 pertenece a A pues (a + b)•1 = a
+ b = a•1 + b•1. Ahora supongamos que n pertenece a A, ahora, (a + b)•n’ = (a + b)•n +
(a + b) = (a•n + b•n) + (a + b) = (a•n + a) + (b•n + b) = a•n’ + b•n’, de modo que bajo esta
suposición se cumple que también, n’ pertenece a A, de modo que A = ℕ.
c) Sea A = {n de ℕ| a•n = n•a}, entonces, 1 pertenece a A, pues sea B = {n de ℕ| 1•n =
n•1}. Entonces, 1 es de B, pues 1•1 = 1•1 = 1. Ahora supongamos que n es de B,
entonces, 1•n’ = 1•n + 1 = n•1 + 1 = n + 1 = n’ = n’•1, de modo que n’ es de B y B es todo
ℕ. Ahora sea n de A, de modo que a•n = n•a, ahora, a•n’ = a•n + a = n•a + 1•a = (n +
1)•a = n’•a, de modo que n’ pertenece a A, que es todos los naturales.
d) Sean a, b números naturales fijos pero arbitrarios. Sea A el conjunto A = {c de
ℕ|(a•b)•c = a•(b•c)}. Veamos que 1 pertenece a A. (a•b)•1 = a•b = a•(b•1). Ahora
supongamos que c pertenece a A, veamos si c’ pertenece a A. a•(b•c’) = a•((b•c) + b) =
a•(b•c) + a•b = (a•b)•c + a•b = (a•b)•c’, de modo que c’ pertenece a A el cual es todo
ℕ. □
Ahora estamos preparados para demostrar las propiedades de orden que nos faltan por
demostrar, como consecuencia de estas, demostraremos la propiedad de cancelación
para el producto.
PROPOSICIÓN 1: Sean a, b naturales tales que a > b, entonces, para cada natural n, se
cumple lo siguiente:
1. a + n > b + n
2. a•n > b•n.
DEMOSTRACIÓN: 1) a > b significa que a = b + u para algún natural u. De modo que a +
n = b + u + n = b + n + u, de modo que a + n > b + n.
2) De igual modo a•n = (b + u)•n = b•n + (u•n), de modo que a•n > b•n. □
TEOREMA 3 (propiedad de cancelación para el producto):
a•c = b•c implica que a = b.
DEMOSTRACIÓN: Supongamos que a•c = b•c, pero no se cumple que a = b. Entonces,
hay 2 posibilidades: a > b, que por la proposición anterior implica que a•c > b•c, en
contradicción con la hipótesis. O, por el contrario, a < b, lo que implica que a•c < b•c,
que también contradice la hipótesis, por lo que se cumple que a = b. □
También se cumple el recíproco de la propiedad de cancelación, pero lo afirmamos aquí
sin demostración porque es evidente, pues si a es el mismo número que b, es decir a =
58
b, al multiplicarlo por un número sea c, es evidente que se obtiene un número que es él
mismo sea como sea como lo llamemos, es decir a•c = b•c.
TEOREMA 4 (propiedades adicionales del orden <, en los naturales):
1. Para todo a, b, c de ℕ se cumple a < b si y solo si, a + c < b + c.
2. Para todo a, b, c de ℕ se cumple a < b si y solo si, a•c < b•c.
DEMOSTRACIÓN: 1) Ya se demostró en la proposición 1 de esta subsección que a < b
implica que a + c < b + c. Ahora demostramos que a + c < b + c implica que a < b. La
hipótesis es que b + c = a + c + u, de modo que b + c = a + u + c, por la propiedad de
cancelación de la suma tenemos que b = a + u, de modo que b > a.
2) De la misma forma solo queda demostrar que a•c < b•c implica a < b. Si a = b, esto
implicaría que a•c = b•c, en contradicción con la hipótesis. Si a > b, por la proposición 1
de esta subsección, implica que a•c > b•c, otra contradicción, por lo que solo queda la
posibilidad de que a < b. □
A modo de conclusión de estas subsecciones, ya hemos demostrado las propiedades de
la subsección 2.2 gracias a los axiomas de Peano. Si lo cree oportuno el lector, ahora
puede repasar la dicha subsección 2.2 y comprobar que todas las propiedades que
citamos allí han sido demostradas en las siguientes subsecciones hasta concluir con esta.
2.10 Definición rigurosa, por recurrencia, de las sumatorias Ya vimos en la subsubsección 1.10 unas pocas posibilidades del sumatorio simple. La
verdad es que son tantas las variantes que no podemos enumerarlas todas. En esta
subsubsección vamos a dar una definición por recurrencia de un sumatorio básico y
definiremos también (pero no rigurosamente por recurrencia) con un esquema, los
sumatorios múltiples que son muy importantes también.
Los sumatorios simples se basan en una sucesión o función h: ℕ → A, para un conjunto
arbitrario A, cuyo valor para todo i donde esté definido, es h(i), entonces, el sumatorio
consiste en sumar todos los valores de h(i). Para la formalización de esta definición
tenemos que el sumatorio debe cumplir las siguientes propiedades:
1) ∑ ℎ(𝑖)𝑖=1𝑖=1 = h(1)
2) ∑ ℎ(𝑖)𝑖=𝑛+1𝑖=1 = ∑ ℎ(𝑖)𝑖=𝑛
𝑖=1 + h(n+1) = h(n+1) + ∑ ℎ(𝑖)𝑖=𝑛𝑖=1 ,
De modo que, para aplicar la definición por recurrencia (utilizaremos la definición
generalizada por recurrencia), queremos definir una función f, que será el sumatorio de
la función h, tal que:
1) f(1) = h(1) = b
2) f(n+1) = f(n) + h(n + 1) = h(n + 1) + f(n) notaremos esta expresión como (*)
Para esto basta definir para la relación de recurrencia, en el caso generalizada, g(n, x) =
h(n + 1) + x, de modo que según (*), f(n + 1) = g(n, f(n)), como puede comprobar el lector
y se consigue así la condición de la definición generalizada por recurrencia.
59
Hemos definido rigurosamente el sumatorio ∑ ℎ(𝑖)𝑖=𝑛𝑖=1 dada una sucesión finita h(i) que
empieza con el índice i = 1, pero ya vimos en la subsubsección 1.10 que la forma más
utilizada del sumatorio es empezar el índice i en i = k de modo que el sumatorio simple
toma la forma ∑ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 , pero esto se puede deducir en base al sumatorio básico que
hemos definido por recursión de la siguiente manera:
∑ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 = ∑ ℎ(𝑖)𝑖=𝑛
𝑖=1 - ∑ ℎ(𝑖)𝑖=𝑘𝑖=1 ,
Donde en la anterior ecuación la resta significa que quitamos los sumandos de la
sumatoria que se resta y que pueden tener cualquier valor formal irrelevante
arbitrario.
Cuando la sucesión definitoria h, del sumatorio tiene una dependencia de más de una
variable, h(i, j), por ejemplo (2 índices i, j), a veces se quiere sumar toda la sucesión,
entonces, ¿cómo se puede definir una sumatoria que sea para toda la sucesión h(i, j)?
Es decir, queremos definir el sumatorio siguiente: ∑ ℎ(𝑖, 𝑗)𝑖,𝑗 .
Que se formaliza como un sumatorio doble: ∑ ∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
𝑖=𝑛2𝑖=𝑘2
Se procede en dos pasos: se considera el sumatorio interior, cuando i está fijo a un valor,
digamos i = p y se realiza el sumatorio interior cuyo índice es j y después se suma para
cada i = p (realizando la suma en cada caso interior), es decir se hace el sumatorio
exterior:
∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
= ∑ ℎ(𝑝, 𝑗)𝑗=𝑛1𝑗=𝑘1
= h’(p) y
∑ ∑ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
𝑖=𝑛2𝑖=𝑘2
= ∑ ℎ′(𝑝)𝑝=𝑛2𝑝=𝑘2
= ∑ ℎ′(𝑖)𝑖=𝑛2𝑖=𝑘2
.
Podemos utilizar un esquema recursivo que no es rigurosamente una definición por
recurrencia, pero que nos permitirá definir los sumatorios múltiples en general:
1) n = 1: ya hemos definido ∑ ℎ(𝑖)𝑖=𝑝𝑖=𝑘
2) para el caso general n: ∑ …∑ ℎ(𝑖𝑛, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1
𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛
= ∑ ℎ′(𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛
𝑖𝑛)
Con h’(𝑖𝑛) = ∑ …∑ ℎ(𝑖𝑛, 𝑖𝑛−1, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1
𝑖𝑛−1=𝑝𝑛−1𝑖𝑛−1=𝑘𝑛−1
.
2.11 Demostraciones por inducción (Repetición) Vamos a repetir aquí la discusión de las demostraciones por inducción, porque es el sitio
adecuado para hacerlo aunque nos vimos obligados a adelantar esta discusión en la
subsección anterior de primeros preliminares, si ya ha leído esa subsección aquí vamos
a repetir letra por letra lo ya escrito, por tanto, puede el lector saltarse esta
subsubsección.
DEFINICIÓN: (Principio de inducción completa de los números naturales): Sea A un
subconjunto de números naturales que poseen una propiedad. Se demuestra que A es
todo ℕ (o todo el conjunto de números naturales salvo un subconjunto finito de los
primeros números) y, por tanto, que todo el conjunto ℕ posee esa propiedad (o todo el
60
conjunto ℕ salvo un subconjunto finito de los primeros números), si se cumplen las
siguientes 2 condiciones:
a) 1 (o un número natural n dado de A) cumple la propiedad (hecho que se llama base
de la inducción).
b) Si k siendo cualquier número natural (o k ≥ n) cumple la propiedad entonces, esto
implica que k + 1 también la cumple (hecho que se llama y se cita a la hora de
demostrarlo como el paso de la inducción).
Quizás no se haya entendido bien el concepto, queremos decir que si se cumplen estas
dos condiciones (de las cuales, la segunda es una implicación lógica que hay que
demostrar, aunque también la primera, pero la primera suele ser más fácil de
demostrar), entonces habremos demostrado que el conjunto A es en realidad ℕ (o todo
el conjunto ℕ, a partir del número n, es decir todo ℕ menos los n-1 primeros) y por
tanto, todos los números naturales cumplen la propiedad (o todos a partir de n).
Este es un método de demostración matemática ampliamente utilizado que es fácil de
aceptar, puesto que si, a partir del 1 o de otro número natural n, se cumple una
propiedad y para todos los números naturales posteriores, el hecho de que el anterior
cumpla la propiedad implica que el siguiente también la va a cumplir, entonces
estaremos seguros de que ningún número natural se escapa de cumplir la propiedad (o
ningún número natural a partir de otro dado n).
Otra forma del principio de inducción matemática llamada el principio de inducción
fuerte, es reemplazar la condición b) anterior por la siguiente:
b’) Si para todo número natural j ≤ k (o para todo j con n ≤ j ≤ k) se cumple la propiedad,
entonces, esto implica que se cumple para k + 1.
Es decir, no se cumple la propiedad solo para k sino también, para todo número menor
que k (o todo número j tal que n ≤ j ≤ k, para algún n)
EJEMPLO: Como ejemplo para entender todo esto, vamos a demostrar la siguiente
fórmula para la suma de los n primeros números naturales utilizando el principio de
inducción completa. La fórmula es la siguiente: 1 + 2 + … + n = ∑ 𝑗𝑗=𝑛𝑗=1 =
𝑛•(𝑛+1)
2 .
Entonces para la demostración de esta igualdad damos 2 pasos:
a) Vemos si la fórmula se cumple para 1. Si así no fuera, quizás se cumpliera a partir de
un número m: 1•(1+1)
2 = 1, por lo tanto, la fórmula se cumple para 1.
b) Demostramos que, suponiendo que se cumple para k, entonces, se cumple para k +
1 (también sería lo mismo, si resultase más conveniente expresarlo de esta manera:
demostrar que, si se cumple para k - 1 implica que se cumple para k) lo cuál es la parte
más interesante y difícil de la demostración:
Si suponemos que se cumple para k tenemos entonces, por hipótesis,
1+ ... + k = 𝑘•(𝑘+1)
2, pero (1 + ... + k) + k + 1 =
𝑘•(𝑘+1)
2 + k + 1, pero
𝑘•(𝑘+1)
2 + k + 1 =
𝑘•(𝑘+1)+2•(𝑘+1)
2 = (𝑘+2)•(𝑘+1)
2 sacando factor común k+1, pero
(𝑘+2)•(𝑘+1)
2 =
(𝑘+1+1)•(𝑘+1)
2 = (𝑘+1)•((𝑘+1)+1)
2 reordenando, y por tanto, vemos que la fórmula se
cumple para k + 1 y por tanto, para todo número natural, si confiamos en la
demostración por inducción.
61
2.12 Definición rigurosa del Productorio de una sucesión de números Necesitamos definir una notación muy parecida al sumatorio, pero en el caso de que los
números (es importante tener en cuenta que los números cuyo producto vamos a definir
pueden ser de muy diversas clases, incluso números o entes que no conocemos de
momento) no van a tener la propiedad conmutativa solo la asociativa, de manera que
su producto (con la notación que llamaremos productorio) tenga sentido en un orden,
pero que no podamos cambiar el orden en el que se nos dan. Cuando una serie de
números con la propiedad asociativa (si no tienen la propiedad asociativa el producto,
ni la suma de más de dos números están definidos si no se da un orden de agrupación
para el producto sucesivo de los números de dos en dos, es decir, utilizar paréntesis para
definir cómo se realiza la operación que en distintos agrupamientos daría resultados
diferentes) no tienen la propiedad conmutativa, no se suele utilizar la notación de la
suma (+) para la operación, en su lugar se utiliza la notación del producto que se
sobreentiende que no tiene la propiedad conmutativa (•) y la notación análoga para la
operación de una serie de números en este caso es el productorio. Salvo unos pequeños
cambios, procederemos igual que en la definición recursiva del sumatorio, pero en este
caso para el productorio.
Los productorios simples se basan en una sucesión o función h: ℕ → A, para un conjunto
arbitrario A, cuyo valor para todo i donde esté definido, es h(i), entonces, el productorio
consiste en multiplicar todos los valores de h(i). Para la formalización de esta definición
tenemos que el productorio debe cumplir las siguientes propiedades:
1) ∏ ℎ(𝑖)𝑖=1𝑖=1 = h(1)
2) ∏ ℎ(𝑖)𝑖=𝑛+1𝑖=1 = ∏ ℎ(𝑖)𝑖=𝑛
𝑖=1 •h(n+1).
De modo que, para aplicar la definición por recurrencia (utilizaremos la definición
generalizada por recurrencia), queremos definir una función f, que será el productorio
de la función h, tal que:
1) f(1) = h(1) = b
2) f(n+1) = f(n)• h(n + 1), notaremos esta expresión como (*)
Para esto basta definir g(n, x) = x•h(n + 1), de modo que según (*), f(n + 1) = g(n, f(n)),
como puede comprobar el lector y se consigue así la condición de la definición
generalizada por recurrencia.
De igual manera que en el sumatorio, hemos definido rigurosamente el productorio
∏ ℎ(𝑖)𝑖=𝑛𝑖=1 , dada una sucesión finita h(i) que empieza en i = 1, pero ya podemos suponer
que la forma más utilizada del productorio es empezar el índice i en i = k de modo que
el productorio simple toma la forma ∏ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 , pero esto se puede deducir en base al
productorio básico que hemos definido por recursión de la siguiente manera:
∏ ℎ(𝑖)𝑖=𝑛𝑖=𝑘 = ∏ ℎ(𝑖)𝑖=𝑛
𝑖=𝑘 /∏ ℎ(𝑖)𝑖=𝑘−1𝑖=1 ,
62
lo cual significa que quitamos el producto de los k – 1 términos de la sucesión (los
cuales pueden ser formales, sin importancia que se pueden definir arbitrariamente) en
el resultante productorio.
Cuando la sucesión definitoria h, del productorio tiene una dependencia de más de una
variable, h(i, j), por ejemplo (2 índices i, j), a veces se quiere multiplicar toda la sucesión,
entonces, ¿cómo se puede definir un productorio que sea para toda la sucesión h(i, j)?
Es decir, queremos definir el productorio siguiente:∏ ℎ(𝑖, 𝑗)𝑖,𝑗 .
Que se formaliza como un productorio doble: ∏ ∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
𝑖=𝑛2𝑖=𝑘2
Se procede en dos pasos: se considera el productorio interior, cuando i está fijo a un
valor, digamos i = p y se realiza el productorio interior cuyo índice es j y después se
multiplica para cada i = p (realizando el producto en cada caso interior), es decir se hace
el productorio exterior:
∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
= ∏ ℎ(𝑝, 𝑗)𝑗=𝑛1𝑗=𝑘1
= h’(p) y
∏ ∏ ℎ(𝑖, 𝑗)𝑗=𝑛1𝑗=𝑘1
𝑖=𝑛2𝑖=𝑘2
= ∏ ℎ′(𝑝)𝑝=𝑛2𝑝=𝑘2
= ∏ ℎ′(𝑖)𝑖=𝑛2𝑖=𝑘2
Podemos utilizar un esquema recursivo que no es rigurosamente una definición por
recurrencia, pero que nos permitirá definir los productorios múltiples en general:
1) n = 1: ya hemos definido ∏ ℎ(𝑖)𝑖=𝑝𝑖=𝑘
2) para el caso general n: ∏ …∏ ℎ(𝑖𝑛, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1
𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛
= ∏ ℎ′(𝑖𝑛=𝑝𝑛𝑖𝑛=𝑘𝑛
𝑖𝑛)
Con h’(𝑖𝑛) = ∏ …∏ ℎ(𝑖𝑛, 𝑖𝑛−1, … , 𝑖1)𝑖1=𝑝1𝑖1=𝑘1
𝑖𝑛−1=𝑝𝑛−1𝑖𝑛−1=𝑘𝑛−1
.
63
Sección II Sistemas de ecuaciones lineales, matrices y
determinantes
64
3 Sistemas de Ecuaciones lineales
3.1 Ecuaciones lineales
DEFINICIÓN: Sea 𝕂 un cuerpo, una ecuación lineal con coeficientes en 𝕂 es una
expresión de la forma:
𝑎1 • 𝑥1 + 𝑎2 • 𝑥2 +⋯+ 𝑎𝑛 • 𝑥𝑛 = 𝑏 ,
donde los términos 𝑎1, 𝑎2, … , 𝑎𝑛 son elementos conocidos de 𝕂 y se llaman coeficientes;
el término b es de nuevo un elemento también conocido y de 𝕂 y se denomina término
independiente, y por último, 𝑥1, 𝑥2, … , 𝑥𝑛, son símbolos que llamaremos incógnitas.
Debe notarse que en una ecuación lineal no pueden aparecer incógnitas con un
exponente distinto de 1, o el producto de varias incógnitas o funciones de las incógnitas,
como la exponencial, el logaritmo o funciones trigonométricas.
EJEMPLO 1: Las ecuaciones siguientes:
2x + 5y = 0, 3x – y + 7z = 13
Son ecuaciones lineales, mientras que las siguientes no lo son:
2𝑥2 + y = 5, xy + z = 0, sen(x) + y + z = 9.
DEFINICIÓN: Una solución de una ecuación lineal es una asignación de valores a las
incógnitas dentro del cuerpo que estamos considerando, de forma que se verifique la
igualdad.
Así, por ejemplo, para la ecuación 2x + 3y = 5 una solución es x = 1, y = 1, y otra solución
es x = 0 e y = 5/3.
3.2 Sistemas de ecuaciones lineales
DEFINICIÓN: Sea un conjunto de m ecuaciones lineales con las mismas incógnitas:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛
==
𝑏1𝑏2…
𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛
…=
…𝑏𝑚
se le llama sistema de m ecuaciones lineales con n incógnitas. Llamamos solución del
sistema a cada conjunto de valores concretos que tomen las incógnitas digamos:
𝑥1 = 𝑘1, … , 𝑥𝑛 = 𝑘𝑛, que sean solución de todas las ecuaciones al mismo tiempo, es
decir que hagan que se verifiquen todas las ecuaciones al mismo tiempo. Se llama
solución general del sistema al conjunto de todas las soluciones del sistema y se dice
que dos sistemas son equivalentes, si tiene la misma solución general, es decir
exactamente las mismas soluciones.
65
EJEMPLO 2: Consideremos el siguiente sistema:
{𝑥 + 𝑦 = 2𝑥 − 𝑦 = 0
Una solución de este sistema es x = 1, e y = 1 y se comprueba que esta es su única
solución. En cambio, el siguiente sistema:
{𝑥 + 𝑦 = 2𝑥 + 𝑦 = 3
no tiene solución, mientras que por último el sistema siguiente:
{𝑥 + 𝑦 = 22𝑥 + 2𝑦 = 4
tiene entre sus soluciones x = 1, y = 1, x = 0, y = 2 y es más, la solución general del
sistemas es el conjunto { x = λ, y = 2 – λ, con λ cualquier número real}.
3.3 Discusión de un sistema lineal
Según su número de soluciones, se clasifican las soluciones de un sistema lineal del
siguiente modo:
DEFINICIÓN: Un sistema es compatible si tiene alguna solución, compatible determinado
si tiene una única solución, compatible indeterminado si tiene más de una solución, e
incompatible si no tiene ninguna solución.
{𝑆𝑖𝑠𝑡𝑒𝑚𝑎 𝑐𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 {
𝐶𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜𝐶𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜
𝑆𝑖𝑠𝑡𝑒𝑚𝑎 𝑖𝑛𝑐𝑜𝑚𝑝𝑎𝑡𝑖𝑏𝑙𝑒
Al proceso de estudiar a cuál de estos tipos de sistema pertenece uno dado, se lo
llamará discutir un sistema.
A un sistema cuyos términos independientes son todos 0 se dice que es homogéneo:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛
==
00…
𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛
…=
…0
Todo sistema homogéneo admite una solución, la llamada trivial 𝑥1 = 0, … , 𝑥𝑛 = 0,
por tanto es compatible, pero puede que sea indeterminado porque admita más
soluciones o determinado, cuando la única solución es la trivial.
3.4 Método de resolución de un sistema lineal de Gauss y de Gauss-Jordan
En esta subsección vamos a ver cómo resolver un sistema de ecuaciones lineales. El
método tiene la siguiente filosofía: transformar el sistema inicial poco a poco en otros
66
equivalentes más sencillos hasta llegar a un sistema tan sencillo en el que se puedan
obtener las soluciones trivialmente. Veamos el siguiente ejemplo.
EJEMPLO 3: Sea el sistema lineal siguiente:
{
2𝑥 + 2𝑦 + 10𝑧 = 182𝑥 + 3𝑦 + 12𝑧 = 23
2𝑦 + 5𝑧 = 11
Podemos simplificar la primera ecuación dividiéndola por 2, como veremos, esto no
cambia las soluciones del sistema.
{
𝑥 + 𝑦 + 5𝑧 = 92𝑥 + 3𝑦 + 12𝑧 = 23
2𝑦 + 5𝑧 = 11
Ahora restamos la primera ecuación multiplicada por 2 a la segunda y veremos que esto
no cambia las soluciones del sistema.
{
𝑥 + 𝑦 + 5𝑧 = 9𝑦 + 2𝑧 = 52𝑦 + 5𝑧 = 11
Ahora restamos la segunda ecuación multiplicada por 2 a la tercera.
{𝑥 + 𝑦 + 5𝑧 = 9𝑦 + 2𝑧 = 5
𝑧 = 1
Así hemos obtenido lo que se llama un sistema escalonado y podemos seguir dos
caminos: el método de Gauss que consiste en sustituir en la segunda ecuación el valor
de z de la tercera, por lo que la segunda ecuación sería y + 2 = 5, de donde y = 3 y ahora
sustituimos los valores de z e y en la primera, con lo que se obtiene x + 3 + 5 = 9 y de
aquí x = 1 y llegamos así a la solución del sistema. Sin embargo, hay otro camino, que es
el método de Gauss-Jordan, en el que se sigue simplificando el sistema de la siguiente
manera: Restamos la tercera ecuación multiplicada por 2 a la segunda y la tercera
ecuación multiplicada por 5 a la primera, con lo que llegamos al siguiente sistema
equivalente:
{𝑥 + 𝑦 = 4𝑦 = 3
𝑧 = 1
Y seguimos simplificando, finalmente restamos la segunda ecuación a la primera para
obtener:
{𝑥 = 1𝑦 = 3
𝑧 = 1
Entonces, así el sistema muestra la solución. Clarificaremos este ejemplo y
seguidamente demostraremos que las transformaciones que hemos realizado no
alteran la solución del sistema de modo que obtenemos realmente sistemas
equivalentes al aplicarlas.
PROPOSICIÓN 1: Si en un sistema de ecuaciones lineales se intercambian de orden dos
de ellas, se multiplica una de ellas por un número del cuerpo distinto de 0, o se suma a
una de ellas otra multiplicada por un número del cuerpo distinto de 0 se obtiene un
sistema equivalente.
67
DEMOSTRACIÓN: La primera afirmación es evidente, la segunda se debe a que si
escogemos tres elementos del cuerpo a, b, c, con c ≠ 0, dado a = b es cierto si y solo sí
ac = bc. Veamos pues la tercera afirmación. Sea el siguiente sistema:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1… … …𝑎𝑖1𝑥1 +⋯+ 𝑎𝑖𝑛𝑥𝑛 = 𝑏𝑖
… … …𝑎𝑗1𝑥1 +⋯+ 𝑎𝑗𝑛𝑥𝑛 = 𝑏𝑗
… … …𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚
(1)
Ahora, el sistema que obtenemos de sumar la j-ésima ecuación multiplicada por el
número k ≠ 0 a la i-ésima ecuación del sistema anterior será:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1… … …(𝑎𝑖1 + 𝑘𝑎𝑗1)𝑥1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛)𝑥1 = 𝑏𝑖 + 𝑘𝑏𝑗
… … …𝑎𝑗1𝑥1 +⋯+ 𝑎𝑗𝑛𝑥𝑛 = 𝑏𝑗
… … …𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚
(2)
Hemos de probar que ambos sistemas tienen las mismas soluciones. Supongamos que
𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (1) y veamos que también es solución de (2).
Puesto que ambos sistemas solo difieren en la i-ésima ecuación basta ver que 𝑥1 = 𝑐1,
… , 𝑥𝑛 = 𝑐𝑛 verfica la ecuación i-ésima de (2). Pero por ser solución de (1) se tiene lo
siguiente:
𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 = 𝑏𝑖𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛 = 𝑏𝑗
Multiplicando por k la segunda ecuación y sumando se obtiene:
𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 + k(𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛) = 𝑏𝑖 + 𝑘𝑏𝑗
De donde,
(𝑎𝑖1+ 𝑘𝑎𝑗1)𝑐1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛) 𝑐𝑛 = 𝑏𝑖 + 𝑘𝑏𝑗
Es decir, 𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (2). Recíprocamente, si 𝑥1 = 𝑐1, … , 𝑥𝑛 =
𝑐𝑛 es solución de (2) se tiene que
(𝑎𝑖1+ 𝑘𝑎𝑗1)𝑐1 +⋯+ (𝑎𝑖𝑛 + 𝑘𝑎𝑗𝑛) 𝑐𝑛 = 𝑏𝑖 + 𝑘𝑏𝑗
𝑎𝑗1𝑐1 +⋯+ 𝑎𝑗𝑛𝑐𝑛 = 𝑏𝑗
De donde, restando la segunda ecuación multiplicada por k a la primera se
obtiene
𝑎𝑖1𝑐1 +⋯+ 𝑎𝑖𝑛𝑐𝑛 = 𝑏𝑖
Es decir, 𝑥1 = 𝑐1, … , 𝑥𝑛 = 𝑐𝑛, es solución de (1). □
Ahora aclararemos el algoritmo de Gauss-Jordan.
Algoritmo para convertir un sistema en escalonado reducido.
68
Paso 1: Se lleva al primer lugar una ecuación con coeficiente no nulo para la incógnita
𝑥1.
Paso 2: Se divide esta primera ecuación por el coeficiente de 𝑥1, de forma que se tenga
el coeficiente 1 para esta incógnita.
Paso 3: Se elimina esta primera incógnita de las restantes ecuaciones, restándoles la
primera multiplicada por el coeficiente conveniente. Así la primera incógnita solo
aparece en la primera ecuación:
{
𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑎22𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏2… … …𝑎𝑚2𝑥2 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏𝑚
Ahora se deja fija la primera ecuación y se dan los pasos 1, 2 y 3 para las restantes
ecuaciones y la incógnita 𝑥2:
{
𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏′2… … …
𝑎𝑚3𝑥3 +⋯+ 𝑎𝑚𝑛𝑥𝑛 = 𝑏′𝑚
Y repitiendo este proceso llegamos a un sistema escalonado (la primera incógnita de
cada ecuación tiene coeficiente 1 y no aparece en las siguientes). Si apareciera alguna
ecuación del tipo 0 = 0 puede ser eliminada.
{
𝑥1 + 𝑎12𝑥2 +⋯+ 𝑎1𝑛𝑥𝑛 = 𝑏1𝑥2 +⋯+ 𝑎2𝑛𝑥𝑛 = 𝑏′2… … …𝑥𝑟 +⋯+ 𝑎𝑟𝑛𝑥𝑛 = 𝑏′′𝑟
Aún podemos simplificar más. Llamamos incógnitas principales a las incógnitas que
aparecen como primera incógnita en alguna de las ecuaciones, e incógnitas libres o
secundarias a las restantes (si las hay). Cada incógnita principal de una ecuación puede
ser eliminada de las restantes ecuaciones y obtenemos así un sistema de ecuaciones
escalonado reducido (cada incógnita que es la primera de la ecuación no aparece en las
restantes).
Discusión y resolución de sistemas escalonados reducidos.
Veamos los distintos casos de sistemas escalonados reducidos que podemos encontrar:
Caso 1: Si aparece una ecuación del tipo 0 = b, con b ≠ 0, el sistema será incompatible.
Caso 2: Si todas las incógnitas son principales, entonces siendo el sistema escalonado
reducido habrá de ser forzosamente de la siguiente forma:
{
𝑥1 = 𝑏1𝑥2 = 𝑏2… … …𝑥𝑛 = 𝑏𝑛
Y es, por tanto, compatible determinado, con solución 𝑥1 = 𝑏1, …, 𝑥𝑛 = 𝑏𝑛.
Caso 3: Si existen incógnitas libres, entonces las incógnitas principales pueden
despejarse en función de las libres y por tanto, existe una solución del sistema, para
cada elección que se haga de las incógnitas libres. El sistema será entonces compatible
indeterminado y la solución general del sistema se obtendrá asignado un parámetro a
cada una de las incógnitas libres.
EJEMPLO 4: Sea el sistema escalonado reducido siguiente:
{𝑥 + 𝑧 = 1𝑦 + 𝑧 = 1
69
Las incógnitas x e y son principales, mientras que la z es libre, despejando las
incógnitas principales se obtiene:
{𝑥 = 1 − 𝑧𝑦 = 1 − 𝑧
Y, por tanto, la solución general del sistema es x = 1- λ, y = 1 – λ, z = λ, donde λ puede
ser cualquier número real.
El propósito fundamental de esta subsección 3 y de esta subsubsección 3.4 era la
discusión de un sistema de ecuaciones lineales por el método de reducción de Gauss-
Jordan. Esta discusión de los sistemas lineales no la hemos establecido como un
teorema, si hubiera sido así, la siguiente proposición habría sido un corolario, pero como
no lo hemos hecho así, estableceremos la siguiente proposición.
PROPOSICIÓN 2: Los casos posibles del conjunto solución general para un sistema de
ecuaciones lineales se reducen a 3: a) El sistema no tiene solución; b) El sistema tiene
una única solución o c) El sistema tiene infinitas soluciones.
DEMOSTRACIÓN: Los casos a) y b) son evidentes, en la discusión de un sistema lineal
por el método de Gauss-Jordan, hemos visto que éste puede tener una única solución o
ninguna. c) Si el sistema tiene más de una solución entonces, tiene infinitas, pues este
caso se da cuando el sistema tiene alguna incógnita libre que transformándola o
transformándolas, si hay más de una, en parámetros, nos dan infinitas posibilidades
para el conjunto solución general del sistema dependiente de parámetros. □
4 Matrices. Transformaciones elementales
4.1 Matrices
DEFINICIÓN: Dado un cuerpo 𝕂, y dos conjuntos de números naturales consecutivos
empezando en el 1, I = {1, 2, …, m} , J = {1, 2, …, n}, una matriz de orden m×n con
coeficientes en 𝕂, es una función definida en el producto cartesiano de I y J, I×J, de la
siguiente forma:
A: I×J→ 𝕂
(i, j) ↦ 𝑎𝑖𝑗
constituida por m•n elementos de 𝕂 distribuidos en m filas y n columnas, de manera
que denotamos por 𝑎𝑖𝑗 al elemento situado en la fila i y la columna j, correspondiente
al elemento de 𝕂 asociado en la función A, con el par (i, j). De forma reducida se expresa
de la siguiente manera: A = (𝑎𝑖𝑗) y se representa por una tabla de la siguiente manera:
A = (
𝑎11 𝑎12𝑎21 𝑎22
… 𝑎1𝑛… 𝑎2𝑛
⋮ ⋮𝑎𝑚1 𝑎𝑚2
⋱ ⋮… 𝑎𝑚𝑛
)
70
En demostraciones y aplicaciones necesitaremos indicar o poner atención, en el
elemento (o coeficiente) en la fila i y columna j, de la matriz A, matriz A que puede
tratarse de un producto o suma u otra operación de matrices, es decir, por ejemplo A =
B•C, entonces, este elemento lo indicaremos como [𝐴]𝑖𝑗, que tiene sentido para
matrices complejas como A = B•C y, entonces, [𝐴]𝑖𝑗 = [B • C ]𝑖𝑗, donde ahora, la
notación nueva tiene su justificación.
EJEMPLO 1:
A = (1 2 92 7 5
)
es una matriz de orden 2•3, es decir, tiene 2 filas y 3 columnas y 𝑎13 es el elemento que
se encuentra en la primera fila y la tercera columna, es decir: 𝑎13 = 9.
Dos matrices son iguales si son iguales como función, es decir: tienen igual orden y
tienen el mismo valor en cada uno de sus posiciones o elementos.
EJEMPLO 2:
A = (𝑎 2 34 5 6
), B = (1 2 34 5 𝑏
)
las matrices A y B son iguales sólo si a = 1 y b = 6.
A = (1 2 34 5 6
), C = (1 2 340
5 60 0
)
Las matrices A y C son diferentes ya que no son del mismo orden, C tiene una fila más
que A. En términos de su definición como funciones tienen distinto dominio.
DEFINICIÓN: A una matriz con una sola fila la llamaremos matriz fila, e igualmente a una
matriz con una sola columna la llamaremos matriz columna. Llamaremos matriz
cuadrada a todo matriz con igual número de filas que de columnas, es decir, en el caso
de que sea de orden n•n, con n natural.
Al conjunto de todas las matrices de orden m•n con coeficientes en el cuerpo 𝕂, lo
denotaremos por 𝔐m•n(𝕂), para el caso de matrices cuadradas, es decir cuando m = n
escribiremos 𝔐n(𝕂). Así, por ejemplo, 𝔐3(ℝ), denota al conjunto de todas las matrices
cuadradas de orden 3 con coeficientes en el conjunto de los números reales, en cambio,
𝔐2•3(ℚ), denota el conjunto de las matrices de 2 filas y 3 columnas con coeficientes en
el cuerpo de los números racionales.
DEFINICIÓN: Dada una matriz A, llamaremos una submatriz de A, a cada matriz que se
obtenga de ella suprimiendo alguna o algunas, de sus filas o columnas.
71
4.2 Matrices diagonales y triangulares
DEFINICIÓNES: Dada una matriz cuadrada A = (𝑎𝑖𝑗) ϵ 𝔐n(Ƒ) los elementos con el mismo
índice de fila y columna, es decir 𝑎11, 𝑎22, … , 𝑎𝑛𝑛, constituyen su diagonal principal. Se
dice que A es una matriz diagonal, si todos los elementos suyos distintos de los de la
diagonal principal son cero. Simbólicamente se expresa de la siguiente manera: 𝑎𝑖𝑗 = 0
si i ≠ j.
A = (
𝑎11 00 𝑎22
… 0… 0
⋮ ⋮0 0
⋱ ⋮… 𝑎𝑛𝑛
).
A es triangular superior si todos los elementos por debajo de su diagonal principal son
cero. Simbólicamente 𝑎𝑖𝑗 = 0 con i > j. Y triangular inferior si todos los elementos por
encima de su diagonal principal son cero, 𝑎𝑖𝑗 = 0 con i < j.
A = (
𝑎11 𝑎120 𝑎22
… 𝑎1𝑛… 𝑎2𝑛
⋮ ⋮0 0
⋱ ⋮… 𝑎𝑛𝑛
), A = (
𝑎11 0𝑎21 𝑎22
… 0… 0
⋮ ⋮𝑎𝑛1 𝑎𝑛2
⋱ ⋮… 𝑎𝑛𝑛
)
Triangular superior Triangular inferior
Llamaremos matriz identidad de orden n a la matriz cuadrada 𝐼𝑛 que tiene unos en su
diagonal principal y que es cero en las restantes posiciones. Utilicemos un símbolo
llamado delta de Kronecker 𝛿𝑖𝑗, tal que su valor es el siguiente, 𝛿𝑖𝑗 = 1, con i = j, es decir,
𝛿𝑖𝑖 = 𝛿𝑗𝑗 = 1, y 𝛿𝑖𝑗 = 0, si i ≠ j. De modo que 𝐼𝑛 = (𝛿𝑖𝑗). Para más concreción, veamos la
forma de 𝐼4:
𝐼4 = (
1 00 1
0 00 0
0 00 0
1 00 1
).
En la sección de operaciones con matrices, en concreto, la subsección 4.3, justificaremos
porqué llamamos a 𝐼𝑛 matriz unidad, esto es debido a que en la operación que allí
definiremos como el producto de matrices de ciertas dimensiones, 𝐼𝑛 se comporta como
una matriz unidad, es decir un elemento unidad, en concreto, el elemento identidad
para el anillo (𝔐n(𝕂),+,•).
Ya vimos en la subsección 1.8 que en una estructura algebraica con elemento unidad,
este elemento es único. De modo que la matriz identidad 𝐼𝑛 es única para la estructura
algebraica (𝔐n(𝕂),+,•), que resulta ser un anillo no conmutativo si n > 1.
Por último, se llama traza de una matriz cuadrada A y se denota por tr(A), a la suma de
los elementos de su diagonal principal, es decir: tr(A) = 𝑎11 + 𝑎22 + … + 𝑎𝑛𝑛.
72
4.3 Matrices escalonadas reducidas
DEFINICIÓN: Sea A una matriz de dimensión m•n con coeficientes en el cuerpo 𝕂
llamaremos pivote o término líder de una fila o columna de A al primer elemento no nulo
de dicha fila o columna, si hay alguno.
La matriz A se dice escalonada por filas si verifica las 4 condiciones siguientes:
1. Si A tiene filas formadas exclusivamente por ceros (filas nulas), éstas se encuentran
en la parte inferior de la matriz.
2. El pivote de cada fila no nula es 1.
3. El pivote de cada fila no nula está a la derecha del de la fila anterior.
4. Los elementos que aparecen en la misma columna que el pivote y debajo de él son
cero.
Se dice escalonada reducida por filas si además de ser escalonada cumple la siguiente
condición:
5. Todos los elementos de cada columna de los pivotes son cero (salvo el pivote).
EJEMPLO 3: Sean las siguientes matrices donde los pivotes están entre corchetes:
A = (
[2] 0 0 5
00
[1] 0 −2
0 [1] 4
), B = (
[1] 0 0 5
00
[1] 0 −2[1] 1 4
), C = (
[1] 0 0 5
00
[1] 1 −2
0 [1] 4
),
D = (
[1] 0 0 5
00
[1] 0 −20 [1] 4
), E = (
[1] 0 2 0
00
[1] 3 00 0 [1]
),
Entonces vemos que A no es escalonada por filas porque el primer pivote no es el
número 1, B tampoco porque no se cumple la regla 3, el pivote de la fila 3 no está a la
derecha del de la fila 2, en cambio, C si es escalonada pero no reducida, ya que en la
tercera columna deberían ser todos ceros salvo el pivote de la tercera fila; por otra parte,
D y E son escalonadas reducidas.
DEFINICIÓN: De igual manera se definen los conceptos análogos escalonada por
columnas o escalonada reducida por columnas.
Una matriz A es escalonada por columnas si cumple las siguientes reglas:
1. Si A tiene columnas enteramente compuestas por ceros, éstas son las últimas de la
matriz.
2. El pivote de cada columna no nula es 1.
3. El pivote de cada columna no nula está más abajo que el de la anterior.
4. Los elementos de la matriz que aparecen en la misma fila que un pivote de una
columna son todos ceros a su derecha.
73
Es escalonada reducida por columnas si además de ser escalonada por columnas cumple
la siguiente regla:
5. Los elementos de la misma fila del pivote de una columna son todos ceros (salvo el
pivote).
Veamos otro ejemplo de estas definiciones:
EJEMPLO 4: Sean las siguientes matrices cuyos pivotes de cada columna se han puesto
entre corchetes:
F = (
[1] 0 0030
[1]10
00[1]
), G = (
[1] 0 0030
[1]10
[1]01
), H = (
[1] 0 0030
[1]10
0[1]0
),
F es escalonada reducida por columnas, G no es ni escalonada por columnas y H es
escalonada, pero no reducida.
4.4 Transformaciones elementales y forma normal de Hermite
Nos va a interesar transformar cualquier matriz en una escalonada reducida, de forma
que dos matrices que se transforman en la misma forma escalonada reducida se van a
llamar equivalentes. Para ello vamos a considerar las transformaciones especiales que
relacionan una matriz con otra y en concreto una matriz con su escalonada reducida
equivalente. Definimos de ahora en antemano a cualquier elemento del cuerpo en
consideración como escalar.
DEFINICIÓN 1: Se definen como transformaciones elementales de filas a las siguientes:
Tipo I: Intercambiar la posición de 2 filas.
Tipo II: Multiplicar todos los elementos de una fila por un escalar no nulo.
Tipo III: Sumar a una fila otra multiplicada por un escalar.
DEFINICIÓN 2: Diremos que dos matrices A y B son equivalentes por filas y lo denotamos
A ∼𝑓 B si se puede pasar de una a otra por una sucesión de transformaciones
elementales.
Las transformaciones elementales al invertirlas, es evidente que nos dan otra
transformación elemental, de modo que si A ∼𝑓 B también se cumple B ∼𝑓 A. Y si A ∼𝑓
B y B ∼𝑓 C, aplicando a A las transformaciones que nos relacionan A con B seguidas de
las que relacionan B con C obtenemos que A ∼𝑓 C. De modo que la relación ∼𝑓 es una
relación de equivalencia.
PROPOSICIÓN: Para cualesquiera matrices A, B, C de 𝔐m•n(𝕂), se cumplen las
siguientes propiedades que hacen de ∼𝑓 una relación de equivalencia:
1) A ∼𝑓 A
74
2) A ∼𝑓 B es equivalente a que B ∼𝑓 A
3) A ∼𝑓 B y B ∼𝑓 C implica que A ∼𝑓 C.
Ahora enunciamos un resultado que es de mucha utilidad e importancia.
TEOREMA: Toda matriz A es equivalente a una forma escalonada reducida por filas, que,
además, es única, para la matriz A y para todas sus equivalentes por filas.
DEMOSTRACIÓN: Demostraremos primero la posibilidad de obtener una matriz
escalonada reducida por filas para cualquier matriz A, utilizando las 3 transformaciones
elementales. La demostración de la unicidad de la matriz escalonada reducida por filas
la haremos en la subsección 4.6.
Paso 1: Se lleva al primer lugar una fila con el primer coeficiente no nulo. Si no hay
ninguna fila con el primer coeficiente no nulo, se escoge una fila con el segundo
coeficiente no nulo y si tampoco existe se procede con el siguiente coeficiente y así
sucesivamente.
Paso 2: Si esta primera fila tiene como pivote el número a, se multiplica toda ella por el
inverso de a, de forma que obtenga el pivote 1.
Paso 3: A cada una de las siguientes filas se les hace el coeficiente de la columna del
pivote de la primera fila, igual a 0, restándole la primera fila multiplicada por el factor a,
conveniente en cada fila. Así, todas las columnas a la izquierda del pivote de la primera
fila son de ceros y todos los coeficientes por debajo del pivote de la primera fila son
ceros.
Ahora se procede con las siguientes filas dando los pasos 1, 2 y 3 en cada una para
obtener una matriz escalonada.
Finalmente, con el pivote 1 en cada fila se hace 0 el correspondiente coeficiente de cada
fila anterior de la misma columna, obteniendo una matriz escalonada reducida por filas.
□
DEFINICIÓN 3: Dada una matriz A de 𝔐m•n(𝕂), llamaremos forma normal de Hermite
por filas y la denotaremos como 𝐻𝑓, a la única matriz escalonada reducida por filas que
se obtiene de A por transformaciones elementales de filas. De forma equivalente se
define la forma normal de Hermite por columnas, 𝐻𝑐, pero en este caso demostraremos
su unicidad más adelante.
Es necesario destacar el hecho de que se puede llegar a la forma normal de Hermite de
filas o columnas por muchos caminos y no necesariamente uno único.
4.5 Rango de una matriz
DEFINICIÓN 1: Dada una matriz A de 𝔐m×n(𝕂), llamaremos rango de A y lo
denotaremos como rag(A) al número de filas no nulas de su forma normal de Hermite
por filas, o lo que es lo mismo, a su número de pivotes.
PROPOSICIÓN 1: Si A es de orden m×n, entonces rag(A) ≤ min{m, n}.
75
DEMOSTRACIÓN: Por su propia definición rag(A) es menor que el número de filas de A,
es decir rag(A) ≤ m, además, en 𝐻𝑓 no puede haber más filas no nulas que columnas,
pues cada fila no nula tiene un 1 como pivote y si se piensa en ello, se concluye que el
número de pivotes es menor o igual que el número de columnas, pues como máximo
hay tantos pivotes como columnas tiene 𝐻𝑓. □
EJEMPLO: Sea la siguiente matriz:
A = (3 6 −5 01 12 4
2 9−3 1
)
Busquemos la forma normal de Hermite por filas:
(3 6 −5 01 12 4
2 9−3 1
) ∼𝑓 (1 1 2 93 62 4
−5 0−3 1
) ∼𝑓 (1 1 2 90 32 4
−11 −27−3 1
) ∼𝑓
(1 1 2 90 30 2
−11 −27−7 −17
) ∼𝑓 (1 1 2 90 20 3
−7 −17−11 −27
) ∼𝑓 (1 1 2 90 10 3
−7/2 −17/2−11 −27
) ∼𝑓
(1 1 2 90 10 0
−7/2 −17/2−1/2 −3/2
) ∼𝑓 (1 1 2 90 10 0
−7/2 −17/2
1 3) ∼𝑓 (
1 0 11/2 35/2
0 10 0
−7/2 −17/2
1 3
)
∼𝑓 (1 0 0 10 10 0
−7/2 −17/2
1 3) ∼𝑓 (
1 0 0 10 10 0
0 21 3
)
Cuya última matriz es 𝐻𝑓, y, por tanto, el rango de A es 3.
Como observación muy importante para los cálculos, notemos que para determinar el
rango de una matriz no hace falta hallar su forma normal de Hermite por filas, basta con
conseguir una matriz escalonada por filas equivalente, pues el número de filas no nulas
de una matriz escalonada por filas es el mismo que el de su matriz escalonada reducida
por filas.
4.6 Matrices y sistemas de ecuaciones
DEFINICIONES 1: Dado un sistema de m ecuaciones con n incógnitas:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛
==
𝑏1𝑏2…
𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛
…=
…𝑏𝑚
Se llama matriz de coeficientes del sistema a la matriz A de orden m×n siguiente:
A = (
𝑎11 𝑎12𝑎21 𝑎22
… 𝑎1𝑛… 𝑎2𝑛
⋮ ⋮𝑎𝑚1 𝑎𝑚2
⋱ ⋮… 𝑎𝑚𝑛
)
Y llamaremos matriz ampliada del sistema, (A|B) a la matriz de orden m×(n+1) siguiente:
76
(A|B) = (
𝑎11𝑎21
𝑎12𝑎22
⋯𝑎1𝑛𝑎2𝑛
𝑏1𝑏2
⋮ ⋮ ⋱ ⋮ ⋮𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛 𝑏𝑚
).
EJEMPLO 1: El siguiente sistema:
{
2𝑥 + 3𝑦 + 4𝑧𝑥 + 2𝑦
==
06
3𝑦 + 5𝑧 = 1
Tiene la siguiente matriz de coeficientes, A y matriz ampliada, (A|B):
A = (2 3 41 20 3
05), (A|B) = (
2 3 4 01 20 3
0 65 1
).
El siguiente resultado es la aplicación del método de Gauss-Jordan para resolver
sistemas de ecuaciones lineales en función de la matriz ampliada.
PROPOSICIÓN: Dado un sistema de ecuaciones con matriz ampliada (A|B), si H es la
forma normal de Hermite por filas de (A|B), entonces, el sistema cuya matriz es H es un
sistema escalonado reducido equivalente al de partida.
DEMOSTRACIÓN: Puesto que la forma normal de Hermite por filas, H se obtiene de la
matriz ampliada, (A|B) por transformaciones elementales de filas, bastará probar que
las transformaciones elementales no afectan a la solución general del sistema. Pero
pensemos, una transformación elemental del primer tipo solo intercambia las
ecuaciones del sistema; una del segundo tipo, solo multiplica toda la ecuación por un
número; y una del tercer tipo solo suma a una ecuación otra multiplicada por un número
y como vimos en el capítulo anterior estas transformaciones no cambian la solución del
sistema. □
EJEMPLO 2: El siguiente sistema:
{
3𝑥 + 6𝑦 − 5𝑧𝑥 + 𝑦 + 2𝑧
==
09
2𝑥 + 4𝑦 − 3𝑧 = 1
Tiene la siguiente matriz ampliada:
(A|B) = (3 6 −5 01 12 4
2 9−3 1
)
Cuya forma normal de Hermite por filas H, la calculamos en el ejemplo de la subsección
3.5, la cual es:
77
H = (1 0 0 10 10 0
0 21 3
),
Por tanto, el sistema de partida es equivalente al siguiente, es decir, tiene las mismas
soluciones:
{𝑥𝑦
==
12
𝑧 = 3
Por tanto, es un sistema compatible determinado con las soluciones ya vistas.
TEOREMA 1 (Teorema de Rouché-Frobenius): Dado un sistema de m ecuaciones con n
incógnitas con matriz de coeficientes A, y matriz ampliada (A|B) se cumple que:
1. El sistema es compatible si y solo si, rag(A) = rag(A|B).
2. El sistema es compatible determinado si y solo si, rag(A) = rag(A|B) = n.
DEMOSTRACIÓN: Sea H la forma normal de Hermite por filas de (A|B), entonces la forma
normal de Hermite por filas de A, será H’, que se obtiene de H eliminando la última
columna. Como sabemos, el sistema es compatible si y solo si, en su forma escalonada
reducida no aparece ninguna ecuación 0 = b, con b ≠ 0, es decir, si H y H’ tienen el mismo
número de filas no nulas o, lo que es lo mismo, rag(A) = rag(A|B).
Ahora, si rag(A) = rag(A|B) = r, entonces existen r incógnitas principales y el sistema será
compatible determinado si todas las incógnitas son incógnitas principales, es decir, si r
= n. □
TEOREMA 2: La forma escalonada reducida por filas de una matriz es única.
DEMOSTRACIÓN: Ahora demostraremos la unicidad de la forma escalonada reducida
por filas. Demostramos que si no es única llegamos a una contradicción. Supongamos
que existen 2 matrices en forma escalonada reducida por filas A y B, entonces, elijamos
solamente la primera columna, si miramos de izquierda a derecha, que es diferente en
A y B y las columnas de los pivotes correspondientes, para formar las matrices A’ y B’. Es
decir, si, por ejemplo, A y B son de esta forma:
A = (1 2 0 3 500
0 1 4 60 0 0 0
), B = (1 2 0 7 900
0 1 8 90 0 0 0
), entonces,
A’ = (1 0 300
1 40 0
) y B’ = (1 0 700
1 80 0
), en general,
A’ = (𝐼𝑛 ⋮ 𝑎′…0
⋮ …⋮ 0
) ó es de esta forma A’ =
(
𝐼𝑛 ⋮ 0…
0
⋮ …⋮ 1⋮ 0⋮ ⋮ )
,
78
B’ = (𝐼𝑛 ⋮ 𝑏′…0
⋮ …⋮ 0
) ó es de esta forma B’ =
(
𝐼𝑛 ⋮ 0…
0
⋮ …⋮ 1⋮ 0⋮ ⋮ )
.
Observemos que A’ y B’ son equivalentes reducidas por filas pues la eliminación de
columnas no afecta esta característica. Ahora consideremos A’ y B’ como matrices
aumentadas de un sistema de ecuaciones. El sistema de A’ tiene una única solución a’ o
es inconsistente y de igual manera el sistema de B’ tiene la solución única b’ o es
inconsistente. Pero ambos sistemas son equivalentes entonces, a’ = b’ o el sistema es
inconsistente, en ambos casos A’ = B’, lo cual es una contradicción. □
La demostración de la unicidad de la forma escalonada reducida por columnas la
haremos en la subsección 5.6
5 Operaciones con matrices
5.1 Suma de matrices
DEFINICIÓN: Dadas dos matrices de igual orden m×n, A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗), se define su
suma, como la matriz del mismo orden que ellas, m×n, de la siguiente manera:
[A + B] 𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗, es decir, A + B = (
𝑎11 + 𝑏11 𝑎12 + 𝑏12𝑎21 + 𝑏21 𝑎22 + 𝑏22
… 𝑎1𝑛 + 𝑏1𝑛… 𝑎2𝑛 + 𝑏2𝑛
⋮ ⋮𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2
⋱ ⋮… 𝑎𝑚𝑛 + 𝑏𝑚𝑛
),
o sea, la suma de las matrices A y B, es la matriz que en la posición ij, tiene al elemento
𝑎𝑖𝑗 + 𝑏𝑖𝑗, suma de los correspondientes elementos de A y B en la posición ij.
Recordemos que la suma de matrices solo está definida para matrices del mismo orden.
EJEMPLO: (2 30 1
) + (0 13 5
) = (2 + 0 3 + 10 + 3 1 + 5
) = (2 43 6
).
En la siguiente proposición enunciamos y demostramos las propiedades de la suma de
matrices:
PROPOSICIÓN (Propiedades de la suma de matrices): (𝔐m×n(𝕂),+) es un grupo
abeliano o conmutativo, es decir la suma de matrices verifica las siguientes propiedades:
1. Asociativa: A + (B + c) = (A + B) + C, para todo A, B, C de 𝔐m×n(𝕂).
2. Conmutativa: A + B = B + A, para todo A, B de 𝔐m×n(𝕂).
3. Existencia del elemento neutro: Existe 0 en 𝔐m×n(𝕂), tal que A + 0 = 0 + A = A, para
todo A de 𝔐m×n(𝕂).
4. Existencia del elemento inverso o simétrico (u opuesto) para todo A de 𝔐m×n(𝕂):
Para todo A de 𝔐m×n(𝕂), existe -A tal que, -A + A = A + (-A) = 0.
79
DEMOSTRACIÓN: Siendo A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗) y C = (𝑐𝑖𝑗):
1. [A + (B + C)] 𝑖𝑗 = 𝑎𝑖𝑗 + [𝐵 + 𝐶]𝑖𝑗 = 𝑎𝑖𝑗 + (𝑏𝑖𝑗 + 𝑐𝑖𝑗) = (𝑎𝑖𝑗 + 𝑏𝑖𝑗) + 𝑐𝑖𝑗 = [𝐴 + 𝐵]𝑖𝑗
+ 𝑐𝑖𝑗 = [(A + B) + C] 𝑖𝑗, para todo i, j.
2. [A + B ] 𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 = 𝑏𝑖𝑗 + 𝑎𝑖𝑗 = [B + A] 𝑖𝑗, para todo i, j .
3. 0 es la matriz cuyos elementos son todos cero, es decir, [0] 𝑖𝑗 = 0, para todo i, j, por
lo que [A + 0] 𝑖𝑗 = 𝑎𝑖𝑗 + 0 = 0 + 𝑎𝑖𝑗 = [0 + A] 𝑖𝑗 = 𝑎𝑖𝑗, para todo i, j, de modo que, 0
+ A = A + 0 = A.
4. Para A = (𝑎𝑖𝑗), [−A] 𝑖𝑗 = -𝑎𝑖𝑗, de modo que [A + (−A)] 𝑖𝑗 = 𝑎𝑖𝑗 + (-𝑎𝑖𝑗) = -𝑎𝑖𝑗 + 𝑎𝑖𝑗 =
[−A + A)] 𝑖𝑗 = 0, para todo i, j, por lo que A + (-A) = -A + A = 0. □
5.2 Producto de un escalar por una matriz
DEFINICIÓN: Dada una matriz m×n, A = (𝑎𝑖𝑗) y un número de u de 𝕂, también llamado
escalar, definimos el producto de A por u o de u por A, u•A, de la siguiente manera:
[u • A ] 𝑖𝑗 = u•𝑎𝑖𝑗, para todo i, j, es decir, u•A = (
u • 𝑎11 u • 𝑎12 u • 𝑎21 u • 𝑎22
… u • 𝑎1𝑛… u • 𝑎2𝑛
⋮ ⋮ u • 𝑎𝑚1 u • 𝑎𝑚2
⋱ ⋮… u • 𝑎𝑚𝑛
),
o sea, multiplicamos todos los elementos de la matriz A por u, para hallar u•A.
EJEMPLO: Sea la matriz A = (1 0 532
5 −11 0
), entonces, 2•A = (2 • 1 2 • 0 2 • 52 • 32 • 2
2 • 5 2 • (−1)2 • 1 2 • 0
)
= (2 0 1064
10 −22 0
) y (-0.5)•A = (−0.5 0 −2.5−1.5−1
−2.5 0.5−0.5 0
).
En la siguiente proposición enunciamos y demostramos las propiedades del producto de
una matriz por un escalar:
PROPOSICIÓN (Propiedades del producto de una matriz por un escalar): El producto de
una matriz por un escalar cumple las siguientes propiedades:
1. Distributiva respecto de la suma de escalares:
(u + v)•A = u•A + v•A, para todo u, v de 𝕂 y para todo A de 𝔐m×n(𝕂).
2. Distributiva respecto a la suma de matrices:
u•(A + B) = u•A + u•B, para todo u de 𝕂 y para todo A, B de 𝔐m×n(𝕂).
3. Pseudoasociativa:
(u•v)•A = u•(v•A), para todo u, v de 𝕂 y para todo A de 𝔐m×n(𝕂).
4. Ley de identidad:
1•A = A, para todo A de 𝔐m×n(𝕂).
DEMOSTRACIÓN: Sean A = (𝑎𝑖𝑗), B = (𝑏𝑖𝑗), entonces,
1. [(u + v) • A ] 𝑖𝑗 = (u + v)•𝑎𝑖𝑗 = u•𝑎𝑖𝑗 + v•𝑎𝑖𝑗 = [u • A] 𝑖𝑗 + [v • A] 𝑖𝑗 =
[u • A + v • A] 𝑖𝑗, para todo i, j, de modo que, (u + v)•A = u•A + v•A.
80
2. [u • (A + B) ] 𝑖𝑗 = u•[A + B] 𝑖𝑗 = u•(𝑎𝑖𝑗 + 𝑏𝑖𝑗) = u•𝑎𝑖𝑗 + u•𝑏𝑖𝑗 = [u • A] 𝑖𝑗 +
[u • B] 𝑖𝑗 = [u • A + u • B] 𝑖𝑗, para todo i, j, de modo que, u•(A + B) = u•A + u•B.
3. [(u • v) • A ] 𝑖𝑗 = (u•v)• 𝑎𝑖𝑗 = u•(v•𝑎𝑖𝑗) = u•[v • A] 𝑖𝑗 = [u • (v • A)] 𝑖𝑗, para todo i,
j, de modo que, (u•v)•A = u•(v•A).
4. [1 • A] 𝑖𝑗 = 1•𝑎𝑖𝑗 = 𝑎𝑖𝑗 = [A] 𝑖𝑗, para todo i, j, de modo que, 1•A = A. □
COROLARIO: El conjunto de las matrices (𝔐m×n(𝕂), +, •) con la suma y el producto por
escalares de 𝕂 tiene estructura de Espacio vectorial sobre el cuerpo 𝕂.
DEMOSTRACIÓN: Vaya a la sección de espacios vectoriales y dese cuenta de que con las
propiedades de la suma y producto por un escalar vistas anteriormente se cumple que
las matrices 𝔐m×n(𝕂) tienen estructura de espacio vectorial como dice la afirmación
de este corolario. □
5.3 Matrices y sistemas de nuevo. La solución de cualquier sistema de ecuaciones es la
suma de una solución particular mas la solución general del sistema homogéneo
asociado
Para entender mejor lo que queremos describir en esta subsubsección veamos el
siguiente sistema de ecuaciones lineales:
EJEMPLO 1: Sea el siguiente sistema de ecuaciones:
{2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4𝑥 − 𝑧 + 2𝑤 = 0
Lo reducimos Gauss-Jordan en los siguentes pasos:
{
2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4
−𝑦
2− 𝑧 +
5𝑤
2= −2
, {
2𝑥 + 𝑦 − 𝑤 = 4𝑦 + 𝑤 + 𝑢 = 4−𝑧 + 3𝑤 + 𝑢/2 = 0
, {
𝑥 − 𝑤 − 𝑢/2 = 0𝑦 + 𝑤 + 𝑢 = 4−𝑧 + 3𝑤 + 𝑢/2 = 0
La solución general es {(w + u/2, 4 – w – u, 3w + u/2, w, u) | w, u cualquier número
arbitrario real}, pero utilicemos la notación de matrices columna o vectores columna
siguiente:
{
(
𝑥𝑦𝑧𝑤𝑢)
=
(
04000)
+
(
1−1310 )
•w +
(
1/2−11/201 )
•u | w, u cualquier número arbitrario real}.
Fijémonos en que si hacemos w = u = 0, una posible alternativa, nos daría:
(
𝑥𝑦𝑧𝑤𝑢)
=
(
04000)
, que sería una solución particular del sistema.
81
De modo que esta solución general se puede describir como la suma de una solución
particular más la suma de un conjunto infinito de soluciones que cumple ciertas
condiciones como veremos. Notemos también que el conjunto infinito siguiente:
{
(
1−1310 )
•w +
(
1/2−11/201 )
•u | w, u cualquier número arbitrario real} tiene la forma anterior
también salvo que en este caso se podría considerar que la solución particular es
(
𝑥𝑦𝑧𝑤𝑢)
=
(
00000)
, la solución trivial correspondiente a un sistema homogéneo.
Demostraremos el teorema fundamental de esta subsubsección con la ayuda de un lema
sobre la solución general de los sistemas homogéneos.
Para que se entienda el significado y el método del siguiente lema proponemos el
siguiente ejemplo, en el que debe pensar el lector para que le ayude en la demostración
del lema.
EJEMPLO 2: Sea el siguiente sistema de ecuaciones lineales homogéneo en su forma
escalonada:
{𝑥 + 𝑦 + 2𝑧 + 𝑢 + 𝑣 = 0𝑦 + 𝑧 + 𝑢 − 𝑣 = 0
𝑢 + 𝑣 = 0
Empezando con la última ecuación expresemos el término principal en función de las
variables libres, es decir u = -v. Para la siguiente fila sustituyamos el término principal de
la anterior fila por su valor que hemos obtenido, esto da, y + z + (-v) + v = 0 y despejemos
el término principal también en este caso: y = -z + 2v. Y por último y como en cada
ecuación substituyamos con lo conseguido en las ecuaciones anteriores, esto da, x + (-z
+ 2v) + 2z + (-v) + v = 0 y resolviendo el término principal obtenemos, x = -z – 2v. Ahora
queda escribir la solución en forma vectorial o de matrices columna:
(
𝑥𝑦𝑧𝑢𝑣)
=
(
−1−1100 )
•z +
(
−220−11 )
•v, con z, v cualquier número real.
Notemos que no aparece un vector constante porque al pasar las variables libres al lado
derecho de las ecuaciones estas tienen como constante un 0 por ser un sistema
homogéneo.
82
LEMA: Para cualquier sistema homogéneo existen matrices columna (también llamados
vectores columna) 𝛽1, …, 𝛽𝑘, tales que la solución del sistema es de la forma:
{𝑐1•𝛽1 + … + 𝑐𝑘•𝛽𝑘 | con 𝑐1, …, 𝑐𝑘 elementos del cuerpo arbitrarios}, donde k es el
número de variables libres en la forma escalonada del sistema.
DEMOSTRACIÓN: La demostración que vamos a realizar es peculiar. Aunque lo parezca,
no es una demostración que utiliza el principio de inducción completa, sino que se sirve
del mismo mecanismo. Vamos a demostrar que el lema es válido para cualquier número
n de ecuaciones de un sistema lineal, aunque ya advertimos que en realidad no se trata
de una demostración por inducción.
Demostraremos que en la última ecuación de un sistema lineal se puede despejar el
término principal en función de las variables libres y también que se pueden expresar el
término principal de la t + 1 ecuación por encima de la última, en función de las variables
libres, por lo que se demostraría que se puede seguir el proceso para cualquier número
t de ecuación del sistema lineal, es decir, para todas las ecuaciones.
Entonces supongamos que podemos reducir el sistema a otro equivalente escalonado
por el método de Gauss-Jordan. Esto nos puede dar una serie de ecuaciones de la forma
0 = 0 correspondientes a las últimas filas, las cuales ignoraremos.
Consideremos la última ecuación que tenga la forma siguiente:
𝑎𝑚,𝑙𝑚•𝑥𝑙𝑚 + 𝑎𝑚,𝑙𝑚+1•𝑥𝑙𝑚+1 + … + 𝑎𝑚,𝑛•𝑥𝑛 = 0, donde 𝑎𝑚,𝑙𝑚 ≠ 0 y
donde 𝑥𝑙𝑚 significa la incógnita principal o líder.
Esta es la última ecuación por lo que las variables diferentes del término principal son
variables libres, movamos estas al otro lado de la ecuación y dividamos por el coeficiente
principal, 𝑎𝑚,𝑙𝑚, de modo que obtenemos el resultado que esperábamos para la última
ecuación:
𝑥𝑙𝑚 = (-𝑎𝑚,𝑙𝑚+1/𝑎𝑚,𝑙𝑚)•𝑥𝑙𝑚+1 + … + (-𝑎𝑚,𝑛/𝑎𝑚,𝑙𝑚)•𝑥𝑛.
Hay un caso que hay que considerar y es el caso en el que la última ecuación no tenga
términos libres, en este caso 𝑥𝑙𝑚 = 0 y también tiene la forma que queremos pues es la
suma de 0 variables libres.
Ahora asumamos que la proposición se cumple para las últimas t ecuaciones con 0 ≤ t <
m – 1, es decir para la m-ésima ecuación, la (m – 1)-ésima ecuación, etc., y la (m – t)-
ésima, entonces, hemos de demostrar que también se cumple para la (m – (t + 1))-ésima
ecuación. Para esto, sustituyamos las incógnitas principales de las últimas ecuaciones,
𝑥𝑙𝑚, …, 𝑥𝑙𝑚−𝑡 por su expresión en términos de las variables libres. Así como resultado
nos queda la ecuación que estamos considerando con el término principal de esta
manera:
𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1)•𝑥𝑙𝑚−(𝑡+1), con 𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1)≠ 0
y el resto del lado izquierdo de la ecuación como combinaciones de las variables libres.
Entonces lo que nos queda es pasar las variables libres a la derecha de la ecuación y
83
dividirlo por el coeficiente principal 𝑎𝑚−(𝑡+1),𝑙𝑚−(𝑡+1) y así obtenemos la ecuación en la
forma que queríamos, es decir, que podemos parametrizar la solución en términos de
las variables libres. □
Ahora podemos demostrar el teorema de esta subsubsección:
TEOREMA: Para un sistema de ecuaciones lineales y para una solución particular en
forma de vector columna p, la solución general del sistema tiene siempre la forma
siguiente:
{p + h | h es la solución general del sistema homogéneo asociado} =
= {p + 𝑐1•𝛽1 + … + 𝑐𝑘•𝛽𝑘 | con 𝑐1, …, 𝑐𝑘 elementos del cuerpo, arbitrarios},
donde k es el número de variables libres en la forma escalonada del sistema y 𝛽1, …., 𝛽𝑘
son ciertas matrices columna o vectores columnas.
DEMOSTRACIÓN: Según el anterior lema, nos queda por demostrar que toda solución
general tiene la forma p + h, donde p es una solución particular y h es la solución general
del sistema homogéneo asociado. Tenemos que demostrar que toda solución del
sistema cae en la forma descrita y que toda solución de la forma descrita es una solución
del sistema.
Supongamos que un conjunto de valores s, de las incógnitas del sistema es solución del
sistema, entonces s – p es solución del sistema homogéneo asociado, pues para la i-
ésima ecuación tenemos: 𝑎𝑖,1•(𝑠1 - 𝑝1) + … + 𝑎𝑖,𝑛•(𝑠𝑛 - 𝑝𝑛) = (𝑎𝑖,1•𝑠1 + … + 𝑎𝑖,𝑛•𝑠𝑛) –
(𝑎𝑖,1•𝑝1 + … + 𝑎𝑖,𝑛•𝑝𝑛) = 𝑑𝑖 - 𝑑𝑖 = 0. Entonces sea s = p + h, con h = s – p y tiene la forma
requerida.
Ahora veamos que toda solución con la forma p + h, con h solución del sistema
homogéneo asociado es solución del sistema, pero esto es obvio pues para la i-ésima
ecuación del sistema:
𝑎𝑖,1•(𝑝1 + ℎ1) + … + 𝑎𝑖,𝑛•(𝑝𝑛 + ℎ𝑛) = (𝑎𝑖,1•𝑝1 + … + 𝑎𝑖,𝑛•𝑝𝑛) + (𝑎𝑖,1•ℎ1 + … + 𝑎𝑖,𝑛•ℎ𝑛)
= 𝑑𝑖 + 0 = 𝑑𝑖. □
5.4 Producto de matrices
DEFINICIÓN: El producto de 2 matrices A, de dimensión m×p, y B, de dimensión p×n, solo
tiene sentido en estas condiciones, es decir cuando el número de columnas de A es igual
al número de filas de B y en tal caso, su producto A•B = C, siendo C una matriz de
dimensión m×n, es decir del mismo número de filas que A y de columnas que B. Si
definimos el operador fila_i(A) = (𝑎𝑖1, 𝑎𝑖2, …, 𝑎𝑖𝑝), como el operador que asocia a una
matriz A su fila i y columna_j(B) =
(
𝑏1𝑗𝑏2𝑗⋮𝑏𝑝𝑗)
, como el operador que asocia a una matriz B,
84
su columna j y definimos el producto de una matriz fila, d = (𝑑1, 𝑑2, …, 𝑑𝑝), y una matriz
columna, g = (
𝑔1𝑔2⋮𝑔𝑝
) , con el mismo número de elementos, p,
d•g = (𝑑1, 𝑑2, …, 𝑑𝑝)• (
𝑔1𝑔2⋮𝑔𝑝
) = ∑ 𝑑𝑖 ∙ 𝑔𝑖𝑖=𝑝𝑖=1 = 𝑑1•𝑔1 + 𝑑2•𝑔2 + … + 𝑑𝑝•𝑔𝑝,
entonces, en el caso del producto de una matriz A, m×p, y una matriz B, p×n, definimos
el producto de A•B como la matriz C, cuyos elementos en la fila i, y columna j, 𝑐𝑖𝑗, es el
producto de la fila i de A, por la columna j, de B, de modo que si A•B = C, entonces,
[A • B ]𝑖𝑗 = fila_i(A)• columna_j(B) = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑝𝑘=1 = 𝑐𝑖𝑗.
Mostrémoslo de otra manera:
A•B =
(
fila_1(A) • columna_1(B) fila_1(A) • columna_2(B) … fila_1(A) • columna_n(B)
fila_2(A) • columna_1(B) ⋮
fila_m(A) • columna_1(B)
fila_2(A) • columna_2(B) … fila_2(A) • columna_n(B) ⋮ ⋱ ⋮
fila_m(A) • columna_2(B) … fila_m(A) • columna_n(B)
)
,y veamos un ejemplo:
EJEMPLO 1: Consideremos el producto siguiente:
(2 3 10 1 2
)•(0 1 1 230
5 0 11 2 3
),
Se cumple la condición de que el número de columnas de la primera matriz es el mismo
que el de filas de la segunda y tenemos que,
(2 3 10 1 2
)•(0 1 1 230
5 0 11 2 3
) =
(2 ∙ 0 + 3 ∙ 3 + 1 ∙ 0 2 ∙ 1 + 3 ∙ 5 + 1 ∙ 1 2 ∙ 1 + 3 ∙ 0 + 1 ∙ 2 2 ∙ 2 + 3 ∙ 1 + 1 ∙ 30 ∙ 0 + 1 ∙ 3 + 2 ∙ 0 0 ∙ 1 + 1 ∙ 5 + 2 ∙ 1 0 ∙ 1 + 1 ∙ 0 + 2 ∙ 2 0 ∙ 2 + 1 ∙ 1 + 2 ∙ 3
)
=
(9 18 4 103 7 4 7
).
Notemos que el número de filas del producto es el mismo que el de la primera matriz,
mientras que el número de columnas es el de la segunda matriz.
Ahora veremos las propiedades del producto de matrices en la siguiente proposición:
PROPOSICIÓN 1(Propiedades del producto de matrices):
85
El producto de matrices cumple las siguientes propiedades para matrices A, B, C,
adecuadas y u cualquier escalar de 𝕂:
1. Asociativa: (A•B)•C = A•(B•C).
2. Existencia del elemento neutro por la izquierda: Existe una matriz 𝐼𝑚, tal que, 𝐼𝑚•A
= A.
3. Existencia del elemento neutro por la derecha: Existe una matriz 𝐼𝑛, tal que, A• 𝐼𝑛 =
A.
4. Asociativa respecto del producto por escalares: u•(A•B) = (u•A)•B = A•(u•B).
5. Distributiva respecto de la suma por la izquierda: (A + B)•C = A•C + B•C.
6. Distributiva respecto de la suma por la derecha: A•(B + C) = A•B + A•C.
DEMOSTRACIÓN:
1. [(A • B ) • C]𝑖𝑗 = ∑ [A • B ]𝑖𝑙𝑙=𝑛𝑙=1 •𝑐𝑙𝑗 = ∑ ∑ (𝑎𝑖𝑘
𝑘=𝑢𝑘=1 𝑙=𝑛
𝑙=1 •𝑏𝑘𝑙)• 𝑐𝑙𝑗,
[A • (B • C)]𝑖𝑗 = ∑ 𝑎𝑖𝑘 • [B • C ]𝑘𝑗𝑘=𝑢𝑘=1 = ∑ ∑ 𝑎𝑖𝑘
𝑙=𝑛𝑙=1 𝑘=𝑢
𝑘=1 •(𝑏𝑘𝑙• 𝑐𝑙𝑗),
Ahora hay que hacer varias consideraciones: se ve que las expresiones finales de la
derecha contienen los mismos sumandos debido a la propiedad asociativa del
producto de los elementos de 𝕂; la diferencia está en la forma de agruparlos para
las sumas. En la primera expresión fijemos mentalmente cada elemento indexado
por l, entonces para cada l hacemos la suma en k y a los resultados de esta suma
después la hacemos en l. En la segunda expresión, primero fijamos el índice k y
realizamos la suma en l y después según cada resultado para k hacemos la suma en
k, pero es el mismo resultado en ambas expresiones por la propiedad conmutativa
y asociativa de la suma en 𝕂.
2. [𝐼𝑚 • A ]𝑖𝑗 = ∑ 𝛿𝑖𝑘𝑘=𝑚𝑘=1 •𝑎𝑘𝑗 = 𝑎𝑖𝑗, pues 𝛿𝑖𝑘 = 1, con k = i, es decir 𝛿𝑖𝑖 = 1 y 𝛿𝑖𝑘 = 0, para
i ≠ k.
3. [A • 𝐼𝑛 ]𝑖𝑗 = ∑ 𝑎𝑖𝑘𝑘=𝑛𝑘=1 •𝛿𝑘𝑗 = 𝑎𝑖𝑗, pues 𝛿𝑘𝑗 = 1, con k = j, es decir 𝛿𝑗𝑗 = 1 y 𝛿𝑘𝑗 = 0, para
k ≠ j.
4. [𝑢 • (A • B) ]𝑖𝑗 = u•(∑ 𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ 𝑢 • (𝑎𝑖𝑘 •
𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ (𝑢 • 𝑎𝑖𝑘) •
𝑘=𝑛𝑘=1 𝑏𝑘𝑗 =
∑ [𝑢 • A ]𝑖𝑘𝑘=𝑛𝑘=1 •𝑏𝑘𝑗 = ∑ 𝑎𝑖𝑘 • (u •
𝑘=𝑛𝑘=1 𝑏𝑘𝑗) = ∑ 𝑎𝑖𝑘 •
𝑘=𝑛𝑘=1 [𝑢 • B ]𝑘𝑗 = [(𝑢 • A) • B ]𝑖𝑗
= [A • (u • B) ]𝑖𝑗
5. [(A + B ) • C]𝑖𝑗 = ∑ [A + B ]𝑖𝑘𝑘=𝑛𝑘=1 • 𝑐𝑘𝑗 = ∑ (𝑘=𝑛
𝑘=1 𝑎𝑖𝑘 + 𝑏𝑖𝑘)• 𝑐𝑘𝑗 = ∑ (𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑐𝑘𝑗 +
𝑏𝑖𝑘•𝑐𝑘𝑗) = (∑ 𝑎𝑖𝑘 • 𝑘=𝑛𝑘=1 𝑐𝑘𝑗) + (∑ 𝑏𝑖𝑘 •
𝑘=𝑛𝑘=1 𝑐𝑘𝑗) = [A • C ]𝑖𝑗 + [B • C ]𝑖𝑗 = [A • C + B •
C ]𝑖𝑘.
6. Es como la demostración de 5, se deja la demostración al lector. □
En el conjunto de matrices cuadradas de dimensión n, el producto es una operación
interna y por las propiedades anteriores se tiene:
COROLARIO 1: (𝔐n(𝕂), +, •) es un anillo no conmutativo si n > 1.
COROLARIO 2: (𝔐n(𝕂), +, ∘, •) con ∘ el productor por escalares de 𝕂 es un álgebra.
DEMOSTRACIÓN: Repase el lector las propiedades de la suma de matrices, el producto
por escalares del cuerpo 𝕂, las propiedades del producto de matrices y avance hasta la
sección de espacios vectoriales para comprobar la afirmación. O de otra forma, en el
86
corolario de la subsubsección anterior vimos que las matrices con las operaciones de
suma y producto por escalares es un espacio vectorial, ahora hemos visto que con la
suma y el producto interno de matrices es un anillo juntando las dos estructuras se trata
de un álgebra como vimos en la subsubsección de las definiciones de estructuras
algebraicas que íbamos a ver en este libro, en concreto la estructura de álgebra y todas
las demás menos las de espacio vectorial, se vio en la subsubsección 1.14. □
Veamos un ejemplo que prueba la no conmutatividad del producto de matrices:
EJEMPLO 2: Sea A = (3 −1−6 2
), B = (3 −19 −3
), entonces A•B = (9 − 9 −3 + 3
−18 + 18 6 − 6) =
(0 00 0
), en cambio B•A = (9 + 6 −3 − 227 + 18 9 − 6
) = (15 −545 3
).
También, en este ejemplo se ve como el producto de dos matrices distintas de 0 puede
resultar la matriz 0.
Acabamos con un estudio un poco más detallado del producto de matrices en la
siguiente proposición.
PROPOSICIÓN 2: Las siguientes proposiciones son verdaderas para el producto de
matrices:
1. Si f es una matriz fila, f = (𝑓1, 𝑓2, …, 𝑓𝑝) y B una matriz p×n, entonces,
f•B = (f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)).
2. Si f es una matriz fila, f = (𝑓1, 𝑓2, …, 𝑓𝑝) y B una matriz p×n, entonces,
f•B = 𝑓1• fila_1(B) + 𝑓2• fila_2(B) + … + 𝑓𝑝• fila_p(B).
3. Si A es una matriz m×p, y B, p×n, entonces,
fila_i(A•B) =
(fila_i(A)•Columna_1(B), fila_i(A)•Columna_2(B), …, fila_i(A)•Columna_n(B)) =
fila_i(A)•B.
4. Si A es una matriz m×p, y B, p×n, entonces,
A•B = (
fila_1(A) • Bfila_2(A) • B
⋮fila_m(A) • B
).
5. Si A es una matriz m×p, y c una matriz columna, c = (
𝑐1𝑐2⋮𝑐𝑝
), entonces,
A•c = (
fila_1(A) • cfila_2(A) • c
⋮fila_m(A) • c
).
6. Si A es una matriz m×p, y c una matriz columna, c = (
𝑐1𝑐2⋮𝑐𝑝
), entonces,
A•c = columna_1(A)• 𝑐1 + columna_2(A)• 𝑐2 + … + columna_p(A)• 𝑐𝑝.
87
7. Si A es una matriz m×p, y B, p×n, entonces,
columna_j(A•B) = (
fila_1(A) • columna_j(B)fila_2(A) • columna_j(B)
⋮fila_m(A) • columna_j(B)
) = A• columna_j(B).
8. Si A es una matriz m×p, y B, p×n, entonces,
A•B = (A•Columna_1(B), A•Columna_2(B), …, A•Columna_n(B)).
DEMOSTRACIÓN: Todas estas fórmulas son evidentes si observamos la definición
general de producto de matrices que repetimos aquí para su referencia:
A•B = (*) =
(
fila_1(A) • columna_1(B) fila_1(A) • columna_2(B) … fila_1(A) • columna_n(B)
fila_2(A) • columna_1(B) ⋮
fila_m(A) • columna_1(B)
fila_2(A) • columna_2(B) … fila_2(A) • columna_n(B) ⋮ ⋱ ⋮
fila_m(A) • columna_2(B) … fila_m(A) • columna_n(B)
)
1) Según (*) solo hay una fila, por lo que (*) se reduce a lo siguiente:
(f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)),
que es lo que queríamos demostrar.
2) Según 1) tenemos f•B = (f•Columna_1(B), f•Columna_2(B), …, f•Columna_n(B)) =
(𝑓1•𝑏11 + 𝑓2•𝑏21 + … + 𝑓𝑝•𝑏𝑝1, 𝑓1•𝑏12 + 𝑓2•𝑏22 + … + 𝑓𝑝•𝑏𝑝2, …, 𝑓1•𝑏1𝑛 + 𝑓2•𝑏2𝑛 +
… + 𝑓𝑝•𝑏𝑝𝑛) = (𝑓1•𝑏11, 𝑓1•𝑏12, …, 𝑓1•𝑏1𝑛) + (𝑓2•𝑏21, 𝑓2•𝑏22, …, 𝑓2•𝑏2𝑛) + … + (𝑓𝑝•𝑏𝑝1,
𝑓𝑝•𝑏𝑝2, …, 𝑓𝑝•𝑏𝑝𝑛) = 𝑓1• fila_1(B) + 𝑓2• fila_2(B) + … + 𝑓𝑝• fila_p(B).
3) Según (*) si nos fijamos en la fila i obtenemos:
fila_i(A•B) =
(fila_i(A)•Columna_1(B), fila_i(A)•Columna_2(B), …, fila_i(A)•Columna_n(B)) =
Según 1) = fila_i(A)•B.
4) Según 3) si nos fijamos en la fila i, fila_i(A•B) = fila_i(A)•B, pensando que
A•B = (
fila_1(A • B)fila_2(A • B)
⋮fila_m(A • B)
) = (
fila_1(A) • Bfila_2(A) • B
⋮fila_m(A) • B
),
Que era lo que queríamos demostrar.
5) Según (*) nos quedamos con una sola columna, lo que da: (
fila_1(A) • cfila_2(A) • c
⋮fila_m(A) • c
), que era
lo que queríamos demostrar.
88
6) Según 5) tenemos (
fila_1(A) • cfila_2(A) • c
⋮fila_m(A) • c
) = (
𝑎11 • 𝑐1 + 𝑎12 • 𝑐2 +⋯+ 𝑎1𝑝 • 𝑐𝑝𝑎21 • 𝑐1 + 𝑎22 • 𝑐2 +⋯+ 𝑎2𝑝 • 𝑐𝑝
⋮𝑎𝑚1 • 𝑐1 + 𝑎𝑚2 • 𝑐2 +⋯+ 𝑎𝑚𝑝 • 𝑐𝑝
) =
(
𝑎11 • 𝑐1𝑎21 • 𝑐1
⋮𝑎𝑚1 • 𝑐1
) + (
𝑎12 • 𝑐2𝑎22 • 𝑐2
⋮𝑎𝑚2 • 𝑐2
) + … + (
𝑎1𝑝 • 𝑐𝑝𝑎2𝑝 • 𝑐𝑝
⋮𝑎𝑚𝑝 • 𝑐𝑝
) = columna_1(A)• 𝑐1 +
columna_2(A)• 𝑐2 + … + columna_p(A)• 𝑐𝑝, como queríamos demostrar.
7) Según (*) si nos fijamos en la columna j tenemos:
columna_j(A•B) = (
fila_1(A) • columna_j(B)fila_2(A) • columna_j(B)
⋮fila_m(A) • columna_j(B)
) que según 5) es =
= A• columna_j(B), como queríamos demostrar.
8) Según (*) A•B = (columna_1(A•B), columna_2(A•B), …, columna_n(A•B)) =
según 7) = (A• columna_1(B), A• columna_2(B), …, A• columna_n(B)), que era lo
que queríamos demostrar. □
5.5 División de una matriz en bloques o matrices particionadas y producto de matrices
particionadas
DEFINICIÓN: Una matriz particionada o dividida en bloques, es ver a una matriz como si
se hubieran trazados líneas entre sus filas y columnas para considerarla a esta como una
matriz cuyos elementos no son números de 𝕂, sino otras matrices o bloques, y veremos
que esta consideración nos va a facilitar muchos cálculos y va ser muy conveniente.
Por ejemplo, consideremos la siguiente matriz para ver claramente lo que estamos
definiendo:
A =
(
𝑎11 𝑎12 ⋮ 𝑎13 𝑎14
𝑎21𝑎31…𝑎41
𝑎22 ⋮ 𝑎23 𝑎24𝑎32 ⋮ 𝑎33 𝑎34⋯ ⋯ ⋯ ⋯
𝑎42 ⋮ 𝑎43 𝑎44)
,
Entonces, podemos considerar a esta matriz como dividida en 4 bloques o submatrices,
que vamos a notar de la siguiente manera:
A = (𝐴11 𝐴12𝐴21 𝐴22
).
Ahora consideremos otra matriz B cuyo producto con A, A•B, esté bien definido pero
dividida en bloques de la siguiente manera:
B = (𝐵11 𝐵12 𝐵13𝐵21 𝐵22 𝐵23
).
Queremos ver en qué condiciones podemos tener su producto de tal manera que
podamos considerar cada bloque en ambas como elementos, de modo que vamos a ver
89
que se puede definir el producto de estas matrices en función de su producto en bloques
al igual que si fueran elementos, es decir, veamos que es posible y en qué circunstancias
obtenemos que:
A•B = (𝐴11 ∙ 𝐵11 + 𝐴12 ∙ 𝐵21 𝐴11 ∙ 𝐵12 + 𝐴12 ∙ 𝐵22 𝐴11 ∙ 𝐵13 + 𝐴12 ∙ 𝐵23𝐴21 ∙ 𝐵11 + 𝐴22 ∙ 𝐵21 𝐴21 ∙ 𝐵12 + 𝐴22 ∙ 𝐵22 𝐴21 ∙ 𝐵13 + 𝐴22 ∙ 𝐵23
),
Esto no siempre será posible como podemos imaginar, se debe dar la condición de que
cada producto y suma estén bien definidos. Por ejemplo, para que 𝐴11 ∙ 𝐵11 esté bien
definido, el número de columnas de 𝐴11 tiene que ser el mismo que el de filas de 𝐵11. Y
esto ocurre cuando la primera línea que divida las columnas r y r + 1 de A verticalmente,
exactamente se corresponda con la primera línea que divida las correspondientes filas r
y r + 1 de B horizontalmente. Pero lo asombroso es que esta sea toda la condición que
se debe cumplir, siempre que una línea divida las columnas r y r + 1 de A verticalmente,
le debe corresponder una línea que divida las filas r y r + 1 correspondientes de B
horizontalmente, y no importa las líneas que dividan horizontalmente las filas de A ni
líneas que dividan verticalmente las columnas de B.
Precisemos esta discusión en un teorema:
TEOREMA: Se A una matriz m×p, B una matriz p×n, donde m = 𝑚1 + 𝑚2 + … + 𝑚𝑡, p =
𝑝1 + 𝑝2 + … + 𝑝𝑠, n = 𝑛1 + 𝑛2 + … + 𝑛𝑢 y supongamos A y B de la siguiente forma:
A = (
𝐴11 𝐴12 … 𝐴1𝑠𝐴21⋮𝐴𝑡1
𝐴22 … 𝐴2𝑠⋮ ⋱ ⋮
𝐴𝑡2 … 𝐴𝑡𝑠
), B = (
𝐵11 𝐵12 … 𝐵1𝑢𝐵21⋮𝐵𝑠1
𝐵22 … 𝐵2𝑢⋮ ⋱ ⋮
𝐵𝑠2 … 𝐵𝑠𝑢
),
Con particiones de A y B, tales que 𝐴𝑖𝑗 es 𝑚𝑖×𝑝𝑗, mientras que 𝐵𝑖𝑗 es 𝑝𝑖×𝑛𝑗, de forma
que sus productos son posibles, entonces:
A•B = (
𝐶11 𝐶12 … 𝐶1𝑢𝐶21⋮𝐶𝑡1
𝐶22 … 𝐶2𝑢⋮ ⋱ ⋮
𝐶𝑡2 … 𝐶𝑡𝑢
)
tal que, 𝐶𝑖𝑗 = ∑ 𝑘=𝑠𝑘=1 𝐴𝑖𝑘•𝐵𝑘𝑗 que es posible si el número de columnas de 𝐴𝑖𝑘 es igual al
de filas de 𝐵𝑘𝑗.
DEMOSTRACIÓN: Demostraremos este teorema en el caso sencillo de que las matrices
A y B se dividen en pocas filas y pocas columnas porque su generalización es sencilla. De
todas formas, necesitaremos dividir la demostración en 4 casos más sencillos. Sean A
una matriz m×r y B una matriz r×n.
a) Caso 1: Cuando B = (𝐵1 𝐵2 𝐵3), con 𝐵1 una matriz r×𝑡1, 𝐵2 una matriz r×𝑡2 y
𝐵3 una matriz r×𝑡3, entonces,
A•B = A•(𝑏1, … , 𝑏𝑡1 , 𝑏𝑡1+1, … , 𝑏𝑡1+𝑡2 , 𝑏𝑡1+𝑡2+1, … , 𝑏𝑡1+𝑡2+𝑡3) = (A•𝑏1, … , 𝐴 • 𝑏𝑡1 , 𝐴 •
𝑏𝑡1+1, . . . , 𝐴 • 𝑏𝑡1+𝑡2 , 𝐴 • 𝑏𝑡1+𝑡2+1, … , 𝐴 • 𝑏𝑛) = (𝐴 • 𝐵1 𝐴 • 𝐵2 𝐴 • 𝐵3), donde 𝑏𝑖
son las columnas de B y vemos que es fácil generalizar cuando la matriz B no la
dividimos en 3 submatrices columna sino en más de 3.
90
b) Caso 2: Cuando A = (𝐴1𝐴2), con 𝐴1 es una matriz t×r y 𝐴2 una matriz (m-t)×r. Entonces,
A•B =
(
𝑎1⋮𝑎𝑡𝑎𝑡+1⋮𝑎𝑚 )
•B =
(
𝑎1 • 𝐵⋮
𝑎𝑡 • 𝐵𝑎𝑡+1 • 𝐵
⋮𝑎𝑚 • 𝐵 )
= (𝐴1 • 𝐵𝐴2 • 𝐵
), donde 𝑎𝑖 son las filas de A y vemos que
este caso es fácil de generalizar cuando la matriz A no la subdividimos en dos
matrices fila, sino en más de dos.
c) Caso 3: Cuando A = (𝐴1 𝐴2 𝐴3), con 𝐴1 es una matriz m×𝑡1, 𝐴2 una matriz m×𝑡2
y 𝐴3 una matriz m×𝑡3 y B = (𝐵1𝐵2𝐵3
), con 𝐵1 una matriz 𝑡1×n, 𝐵2 una matriz 𝑡2×n y 𝐵3
una matriz 𝑡3×n. Si C = A•B, entonces, 𝑐𝑖𝑗 = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡𝑘=1 = ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗
𝑘=𝑡1𝑘=1 +
∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡1+𝑡2𝑘=𝑡1+1
+ ∑ 𝑎𝑖𝑘 ∙ 𝑏𝑘𝑗𝑘=𝑡1+𝑡2+𝑡3𝑘=𝑡1+𝑡2+1
, por lo que 𝑐𝑖𝑗 es la suma de la entrada (i,
j) de 𝐴1 • 𝐵1, de la entrada (i, j) de 𝐴2 • 𝐵2 y de la entrada (i, j) de 𝐴3 • 𝐵3 y
observemos que 𝐴1 • 𝐵1 es una matriz de m filas y n columnas al igual que 𝐴2 • 𝐵2
y 𝐴3 • 𝐵3, por lo que se pueden sumar, de modo que A•B = (𝐴1 𝐴2 𝐴3)•(𝐵1𝐵2𝐵3
) =
𝐴1 • 𝐵1 + 𝐴2 • 𝐵2 + 𝐴3 • 𝐵3. En este caso también el caso de A con 3 columnas y B
con 3 filas se puede generalizar fácilmente a n entradas.
d) Caso 4: A = (𝐴11 𝐴12 𝐴13 𝐴14𝐴21𝐴31
𝐴22 𝐴23 𝐴24𝐴32 𝐴33 𝐴34
), con 𝐴11 matriz de 𝑠1×𝑡1, 𝐴12, 𝑠1×𝑡2, 𝐴13 𝑠1×𝑡3,
𝐴14, 𝑠1×𝑡4; 𝐴21, 𝑠2×𝑡1, 𝐴22, 𝑠2×𝑡2, 𝐴23 𝑠2×𝑡3, 𝐴24, 𝑠2×𝑡4; 𝐴31 𝑠3×𝑡1, 𝐴32, 𝑠3×𝑡2, 𝐴33
𝑠3×𝑡3, 𝐴34, 𝑠3×𝑡4 y B = (
𝐵11 𝐵12𝐵21𝐵31𝐵41
𝐵22𝐵32𝐵42
), con 𝐵11 matriz de 𝑡1×u, 𝐵12, 𝑡1×(n-u); 𝐵21,
𝑡2×u, 𝐵22, 𝑡2× (n-u); 𝐵31, 𝑡3×u, 𝐵32, 𝑡3× (n-u); 𝐵41, 𝑡4×u, 𝐵42, 𝑡4× (n-u) . Ahora
hagamos 𝐴1 = (𝐴11𝐴21𝐴31
), 𝐴2 = (𝐴12𝐴22𝐴32
), 𝐴3 = (𝐴13𝐴23𝐴33
), 𝐴4 = (𝐴14𝐴24𝐴34
), y 𝐵1 = (𝐵11 𝐵12),
𝐵2 = (𝐵21 𝐵22), 𝐵3 = (𝐵31 𝐵32), 𝐵4 = (𝐵41 𝐵42)por lo que por el caso 3, A•B =
(𝐴1 𝐴2 𝐴3 𝐴4)•(
𝐵1𝐵2𝐵3𝐵4
) = 𝐴1 • 𝐵1 + 𝐴2 • 𝐵2 + 𝐴3 • 𝐵3 + 𝐴4 • 𝐵4 y por los casos
1 y 2, 𝐴1 • 𝐵1 = (𝐴11𝐴21𝐴31
)•𝐵1 = (𝐴11 • 𝐵1𝐴21 • 𝐵1𝐴31 • 𝐵1
) = (𝐴11 • 𝐵11 𝐴11 • 𝐵12𝐴21 • 𝐵11𝐴31 • 𝐵11
𝐴21 • 𝐵12𝐴31 • 𝐵12
) , también,
𝐴2 • 𝐵2 = (𝐴12𝐴22𝐴32
)•𝐵2 = (𝐴12 • 𝐵2𝐴22 • 𝐵2𝐴32 • 𝐵2
) = (𝐴12 • 𝐵21 𝐴12 • 𝐵22𝐴22 • 𝐵21𝐴32 • 𝐵21
𝐴22 • 𝐵22𝐴32 • 𝐵22
), también,
𝐴3 • 𝐵3 = (𝐴13𝐴23𝐴33
)•𝐵3 = (𝐴13 • 𝐵3𝐴23 • 𝐵3𝐴33 • 𝐵3
) = (𝐴13 • 𝐵31 𝐴13 • 𝐵32𝐴23 • 𝐵31𝐴33 • 𝐵31
𝐴23 • 𝐵32𝐴33 • 𝐵32
), y también,
91
𝐴4 • 𝐵4 = (𝐴14𝐴24𝐴34
)•𝐵4 = (𝐴14 • 𝐵4𝐴24 • 𝐵4𝐴34 • 𝐵4
) = (𝐴14 • 𝐵41 𝐴14 • 𝐵42𝐴24 • 𝐵41𝐴34 • 𝐵41
𝐴24 • 𝐵42𝐴34 • 𝐵42
), y por tanto,
(𝐴11 𝐴12 𝐴13 𝐴14𝐴21𝐴31
𝐴22 𝐴23 𝐴24𝐴32 𝐴33 𝐴34
)•(
𝐵11 𝐵12𝐵21𝐵31𝐵41
𝐵22𝐵32𝐵42
) =
(𝐴11 • 𝐵11 + 𝐴12 • 𝐵21 + 𝐴13 • 𝐵31 + 𝐴14 • 𝐵41 𝐴11 • 𝐵12 + 𝐴12 • 𝐵22 + 𝐴13 • 𝐵32 + 𝐴14 • 𝐵42𝐴21 • 𝐵11 + 𝐴22 • 𝐵21 + 𝐴23 • 𝐵31 + 𝐴24 • 𝐵41𝐴31 • 𝐵11 + 𝐴22 • 𝐵21 + 𝐴33 • 𝐵31 + 𝐴34 • 𝐵41
𝐴21 • 𝐵12 + 𝐴22 • 𝐵22 + 𝐴23 • 𝐵32 + 𝐴24 • 𝐵42𝐴31 • 𝐵12 + 𝐴32 • 𝐵22 + 𝐴33 • 𝐵32 + 𝐴34 • 𝐵42
)
donde es fácil generalizar, al caso en el que A tenga un número arbitrario, w bloques
columna, sin importar tampoco el número de bloques fila y el caso en el que B tenga w
bloques fila sin importar el número de bloques columna que tenga. □
EJEMPLO: Como aplicación inmediata de este teorema veremos que es muy útil cuando
las matrices a multiplicar tienen pocos bloques y varios bloques de ellos son de
elementos 0. Consideremos el caso de estas matrices A y B:
A = (𝐴11 ⋮ 0…0
… …
⋮ 𝐴22) =
(
−1 1 ⋮ 0 00…00
−1 ⋮ 0 0… … … …
0 ⋮ 1 10 ⋮ 0 1 )
, B = (𝐵11…𝐼2
) =
(
−1 00…10
−1…01 )
,
entonces,
A•B = (𝐴11 • 𝐵11 + 0 • 𝐼2
…0 • 𝐵11 + 𝐴22 • 𝐼2
) = (𝐴11 • 𝐵11
…𝐴22
) =
(
1 −20…10
1…11 )
.
5.6 Matriz traspuesta
DEFINICIÓN 1: Dada una matriz m×n, A, se define la matriz traspuesta de A, 𝐴𝑇, como la
matriz n×m (nótese que el número de filas de A, m, es el número de columnas de 𝐴𝑇, y
el número de columnas de A, n, es el de filas de 𝐴𝑇) cuyo elemento en la posición i, j, es
decir de la fila i y la columna j, es el elemento 𝑎𝑗𝑖, es decir el elemento de la fila j y
columna i de A. Es decir que las columnas de 𝐴𝑇, son las filas de A y las filas de 𝐴𝑇 son
las columnas de A. Es decir, si
A = (
𝑎11 𝑎12𝑎21 𝑎22
… 𝑎1𝑛… 𝑎2𝑛
⋮ ⋮𝑎𝑚1 𝑎𝑚2
⋱ ⋮… 𝑎𝑚𝑛
) de orden m×n, entonces, 𝐴𝑇 = (
𝑎11 𝑎21𝑎12 𝑎22
… 𝑎𝑚1… 𝑎𝑚2
⋮ ⋮𝑎1𝑛 𝑎2𝑛
⋱ ⋮… 𝑎𝑚𝑛
)
de orden n×m.
EJEMPLO 1: Si A = (1 2 347
5 68 9
), entonces, 𝐴𝑇 = (1 4 723
5 86 9
).
92
PROPOSICIÓN 1 (Propiedades de la trasposición de matrices):
La trasposición de matrices cumple estas 4 primeras propiedades:
1. (𝐴𝑇)𝑇 = A.
2. (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵𝑇.
3. (𝐴 • 𝐵)𝑇 = 𝐵𝑇•𝐴𝑇.
4. (𝑢 • 𝐴)𝑇 = u•𝐴𝑇con u un escalar de 𝕂.
DEMOSTRACIÓN:
1. [(𝐴𝑇)𝑇 ]𝑖𝑗 = [𝐴𝑇 ]𝑗𝑖 = [𝐴 ]𝑖𝑗.
2. [(𝐴 + 𝐵)𝑇 ]𝑖𝑗 = [𝐴 + 𝐵 ]𝑗𝑖 = [𝐴 ]𝑗𝑖 + [𝐵 ]𝑗𝑖 = [𝐴𝑇 ]𝑖𝑗 + [𝐵𝑇 ]𝑖𝑗 = [𝐴𝑇 + 𝐵𝑇]𝑖𝑗.
3. Supongamos A matriz m×p y B matriz p×n, entonces, A•B es una matriz m×n, 𝐴𝑇
es p×m, 𝐵𝑇 es n×p, de modo que (𝐴 • 𝐵)𝑇, está bien definida y es n×m y 𝐵𝑇•𝐴𝑇,
está bien definida y es n×m. Ahora razonamos de la siguiente manera:
[(𝐴 • 𝐵)𝑇 ]𝑖𝑗 = [𝐴 • 𝐵 ]𝑗𝑖 = ∑ [𝐴 ]𝑗𝑘 𝑘=𝑝𝑘=1 •[𝐵 ]𝑘𝑖 = ∑ [𝐴𝑇 ]𝑘𝑗
𝑘=𝑝𝑘=1 •[𝐵𝑇 ]𝑖𝑘 =
∑ 𝑘=𝑝𝑘=1 [𝐵𝑇 ]𝑖𝑘•[𝐴𝑇 ]𝑘𝑗 = [𝐵𝑇 • 𝐴𝑇]𝑖𝑗.
4. [(𝑢 • 𝐴)𝑇 ]𝑖𝑗 = [𝑢 • 𝐴 ]𝑗𝑖 = u•𝑎𝑗𝑖 = u•[𝐴𝑇]𝑖𝑗 = [𝑢 • 𝐴𝑇]𝑖𝑗. □
Por inducción se demuestra el siguiente corolario a la proposición anterior:
COROLARIO 1 (Otras propiedades de la trasposición de una matriz):
La trasposición de matrices cumple las siguientes propiedades:
1. (𝐴1 +⋯+ 𝐴𝑘)𝑇 = 𝐴1
𝑇 + … + 𝐴𝑘𝑇, para k número natural.
2. (𝐴1 • … • 𝐴𝑘)𝑇 = 𝐴𝑘
𝑇 • … • 𝐴1𝑇, para k número natural.
DEMOSTRACIÓN: Se deja al lector como ejercicio de demostración por inducción. □
Hacemos notar en la siguiente proposición la relación que tienen las matrices
escalonadas reducidas con la trasposición de matrices.
PROPOSICIÓN 2:
1. La matriz A es escalonada reducida por columnas si y solo si, 𝐴𝑇 es escalonada
reducida por filas y viceversa.
2. Dos matrices A y B son equivalentes por columnas si y solo si, sus traspuestas son
equivalentes por filas y viceversa.
DEMOSTRACIÓN: 1. Esto resulta claro si pensamos que las columnas de una matriz son
las filas de su traspuesta y viceversa. 2. Esta proposición es consecuencia de la anterior
si pensamos que dos matrices equivalentes por filas o columnas lo son si son
equivalentes (por filas o columnas) con la forma normal de Hermite correspondiente
(por filas o columnas) de ambas. □
COROLARIO 2 (unicidad de la forma escalonada reducida por columnas):
La forma escalonada reducida por columnas de una matriz es única.
93
DEMOSTRACIÓN: Según la proposición anterior una matriz A es escalonada reducida por
columnas si 𝐴𝑇 es escalonada reducida por filas, puesto que 𝐴𝑇 es única también lo es
A pues si hubiera otra matriz B, escalonada reducida por columnas, su transpuesta 𝐵𝑇
sería una forma escalonada reducida por filas diferente de 𝐴𝑇, pero hemos visto que
esta es única. □
Por último, terminamos con unas definiciones y un ejemplo.
DEFINICIONES 2: Sea A una matriz cuadrada, decimos que A es simétrica si ocurre que A
= 𝐴𝑇. Notemos que para que esto ocurra se dará la condición 𝑎𝑗𝑖 = 𝑎𝑖𝑗. También
llamamos a un matriz cuadrada A, antisimétrica si 𝐴𝑇 = -A. Y esto ocurrirá si 𝑎𝑗𝑖 = -𝑎𝑖𝑗,
que para los elementos de la diagonal principal se tiene 𝑎𝑖𝑖 = -𝑎𝑖𝑖, por lo que en el caso
de que los coeficientes de la matriz sean los números reales o complejos implica que
𝑎𝑖𝑖 = 0. Esto es, los elementos de la diagonal en una matriz antisimétrica real o compleja
son todos 0.
EJEMPLO 2: La matriz (1 2 323
2 55 7
) es simétrica, mientras que (1 2 423
2 55 7
) no lo es
puesto que 𝑎31 = 3 ≠ 4 = 𝑎13.
La matriz A = (0 2 −3−23
0 5−5 0
), es antisimétrica ya que 𝐴𝑇 = -A = (0 −2 32−3
0 −55 0
).
5.7 Propiedades del rango y de la traza
Vamos a ver ahora unas propiedades de los rangos y las trazas de una matriz en las
siguientes proposiciones.
PROPOSICIÓN 1: Sean A y B matrices m×n, entonces se cumple lo siguiente:
1. rag(u•A) = rag(A), donde u es un escalar de 𝕂.
2. |rag(A) – rag(B)| ≤ rag(A + B) ≤ rag(A) + rag(B)
DEMOSTRACIÓN:
1. Es evidente ya que u•A se obtiene de A por transformaciones elementales de filas,
en concreto multiplicando cada fila por u y por tanto la forma de Hermite y por tanto
el rango, es el mismo.
2. Sean 𝐻𝐴, 𝐻𝐵, la formas de Hermite por filas de A y B. Veamos:
Rag(A + B) ≤ rag(𝐴 + 𝐵𝐵
), pero aplicando operaciones elementales en (𝐴 + 𝐵𝐵
),
vemos que esta matriz es equivalente a esta otra (𝐴𝐵) y ésta otra es equivalente a
(𝐻𝐴𝐻𝐵), y por tanto,
Rag(A + B) ≤ rag(𝐴 + 𝐵𝐵
) = rag(𝐴𝐵) = rag(
𝐻𝐴𝐻𝐵) ≤ rag(A) + rag(B).
Cuya última desigualdad se justifica porque el rango de una matriz es menor que el
número de filas no nulas que posee.
94
Por otro lado, puesto que A = (A + B) + (-B), rag(A) ≤ rag(A + B) + rag(-B) =
rag(A + B) + rag(B), por lo que rag(A) – rag(B) ≤ rag(A + B).
De B = (A + B) – A, se obtiene que rag(B) – rag(A) ≤ rag(A + B), de modo que por las
propiedades del valor absoluto se obtiene que |rag(A) – rag(B)| ≤ rag(A + B). □
PROPOSICIÓN 2: Dadas dos matrices cuadradas A y B se cumple lo siguiente:
1. tr(A + B) = tr(A) + tr(B).
2. tr(u•A) = u•tr(A), con u escalar de 𝕂.
3. tr(A•B) = tr(B•A).
DEMOSTRACIÓN:
1. Los elementos de la diagonal de A + B son 𝑎11 + 𝑏11, …, 𝑎𝑛𝑛 + 𝑏𝑛𝑛, por lo que
tr(A + B) = (𝑎11 + 𝑏11) + … + (𝑎𝑛𝑛 + 𝑏𝑛𝑛) = (𝑎11 + … + 𝑎𝑛𝑛) + (𝑏11 + … + 𝑏𝑛𝑛) =
= tr(A) + tr(B).
2. tr(u•A) = u•𝑎11 + … + u•𝑎𝑛𝑛 = u•(𝑎11 + … + 𝑎𝑛𝑛) = u•tr(A).
3. Con C = A•B, los elementos de la diagonal de C son:
𝑐11 = 𝑎11 • 𝑏11 + … + 𝑎1𝑛 • 𝑏𝑛1, …, 𝑐𝑛𝑛 = 𝑎𝑛1 • 𝑏1𝑛 + … + 𝑎𝑛𝑛 • 𝑏𝑛𝑛, y por tanto,
tr(A•B) = ∑ 𝑐𝑖𝑖𝑖=𝑛𝑖=1 = ∑ ∑ 𝑎𝑖𝑗
𝑗=𝑛𝑗=1 𝑏𝑗𝑖
𝑖=𝑛𝑖=1 = ∑ ∑ 𝑏𝑗𝑖
𝑖=𝑛𝑖=1 𝑎𝑖𝑗
𝑗=𝑛𝑗=1 = tr(B•A), pues los índices
i, j se recorren para todos los i, j en ambas expresiones. □
6 Matrices regulares
6.1 Matrices Elementales
En esta subsección veremos que realizar transformaciones elementales en una matriz
es lo mismo que multiplicar esa matriz por la derecha o por la izquierda por otra matriz
especial.
DEFINICIÓN 1: Llamaremos matrices elementales por filas de orden n a las matrices
resultantes de aplicar una y solo una, transformación elemental por filas a la matriz
identidad de orden n. Puesto que hay 3 tipos de transformaciones elementales por filas,
habrá también 3 tipos de matrices elementales que a continuación definimos:
Tipo I: Consiste en intercambiar la fila i por la fila j en la matriz identidad, la denotaremos
como 𝐸𝑖𝑗.
Tipo II: Consiste en multiplicar la fila i de la matriz identidad por el escalar k, la
denotaremos por 𝐸𝑖(k).
Tipo III: Consiste en sumar a la fila i de la matriz identidad, la fila j multiplicada por el
escalar k, la denotaremos por 𝐸𝑖𝑗(k).
De modo análogo podemos definir las matrices elementales por columnas:
95
DEFINICIÓN 2: Llamamos matriz elemental por columnas de orden n a la matriz que
resulta de realizar una operación elemental por columnas en la matriz identidad de
orden n. Hay 3 tipos de matrices elementales por columnas:
Tipo I: Consiste en intercambiar la columna i por la columna j en la matriz identidad, la
denotaremos como 𝐹𝑖𝑗.
Tipo II: Consiste en multiplicar la columna i de la matriz identidad por el escalar k, la
denotaremos por 𝐹𝑖(k).
Tipo III: Consiste en sumar a la columna i de la matriz identidad, la columna j multiplicada
por el escalar k, la denotaremos por 𝐹𝑖𝑗(k).
EJEMPLO: Para el orden 4 tenemos las siguientes matrices elementales por filas:
𝐸13 = (
0 0 1 0010
1 0 00 0 00 0 1
), 𝐸3(2) = (
1 0 0 0000
1 0 00 2 00 0 1
), 𝐸24(3) = (
1 0 0 0000
1 0 30 1 00 0 1
),
Para el mismo orden, tenemos las siguientes matrices elementales por columnas:
𝐹13 = (
0 0 1 0010
1 0 00 0 00 0 1
), 𝐹3(2) = (
1 0 0 0000
1 0 00 2 00 0 1
), 𝐹24(3) = (
1 0 0 0000
1 0 00 1 03 0 1
).
Fijémonos en como 𝐸13 = 𝐹13, 𝐸3(2) = 𝐹3(2) y 𝐸24(3) ≠ 𝐹24(3). En cambio, ocurrirá que
𝐸24(3) = 𝐹42(3). Estos hechos los demostraremos en forma general en la siguiente
proposición, después de los 2 siguientes teoremas.
TEOREMA 1: Sea A una matriz de orden m×n y sea E, una matriz elemental por filas de
orden m, entonces:
E•A es la matriz que se obtiene de A aplicando a sus filas la misma transformación que
se aplica a la identidad (de orden m) para obtener E.
DEMOSTRACIÓN: Dividiremos la demostración en 3 casos correspondientes a los 3 tipos
de matrices elementales por filas que existen y utilizaremos como elemento esencial el
caso 3 de la proposición 5.4.2 que dice que fila_i(E•A) = fila_i(E)•A:
1. Matrices de tipo I: Demostraremos que las dos matrices E•A y B, resultado de
intercambiar las filas i y j de A, tienen las mismas filas y por lo tanto son iguales:
a) Para la fila i resulta: fila_i(𝐸𝑖𝑗•A) = fila_i(𝐸𝑖𝑗)•A = fila_j(I)•A = fila_j(A) = fila_i(B).
b) Para la fila j tenemos: fila_j(𝐸𝑖𝑗•A) = fila_j(𝐸𝑖𝑗)•A = fila_i(I)•A = fila_i(A) =
fila_j(B).
c) Para la fila h ≠ i, j tenemos: fila_h(𝐸𝑖𝑗•A) = fila_h(𝐸𝑖𝑗)•A = fila_h(I)•A = fila_h(A)
= fila_h(B).
Por tanto, las filas de 𝐸𝑖𝑗•A y de B coinciden y por tanto las matrices son iguales.
2. Matrices de tipo II:
96
a) Para las filas j ≠ i tenemos: fila_j(𝐸𝑖(𝑘)•A) = fila_j(𝐸𝑖(𝑘))•A = fila_j(I)•A =
fila_j(A) = fila_j(B).
b) Para la fila i tenemos: fila_i(𝐸𝑖(𝑘)•A) = fila_i(𝐸𝑖(𝑘))•A = (k•fila_j(I))•A =
k•fila_i(A) = fila_i(B).
Por tanto, las filas de 𝐸𝑖(𝑘)•A y B son iguales y por tanto las matrices son iguales.
3. Matrices de tipo III:
a) Para las filas diferentes de i tenemos que fila_h(𝐸𝑖𝑗(k)•A) = fila_h(B).
b) Para la fila i tenemos: fila_i(𝐸𝑖𝑗(k)•A) = fila_i(𝐸𝑖𝑗(k))•A = (fila_i(I) + k•fila_j(I))•A
= fila_i(I)•A + k•fila_j(I)•A = fila_i(I•A) + k•fila_j(I•A) = fila_i(A) + k•fila_j(A) =
fila_i(B).
Por lo que vemos que 𝐸𝑖𝑗(k)•A = B, por el mismo argumento que antes. □
De igual manera se obtiene el siguiente teorema referente a las matrices elementales
columna y al producto de estas por A.
TEOREMA 2: Sea A una matriz de orden m×n y sea F una matriz elemental por columnas
de orden n, entonces:
A•F es la matriz que se obtiene de A aplicando a sus columnas la misma transformación
que se aplica a la identidad (de orden n) para obtener F.
DEMOSTRACIÓN: Es una demostración totalmente análoga a la anterior donde ahora
utilizaremos el caso 7 de la proposición 5.4.2 que dice que columna_i(A•F) =
A•columna_i(F):
1. Matrices de tipo I:
a) Para la columna i resulta: columna_i(A•𝐹𝑖𝑗) = A• columna_i(𝐹𝑖𝑗) =
A•columna_j(I) = columna_j(A) = columna_i(B).
b) Para la columna j resulta: columna_j(A•𝐹𝑖𝑗) = A• columna_j(𝐹𝑖𝑗) =
A•columna_i(I) = columna_i(A) = columna_j(B).
c) Para la columna h ≠ i, j se tiene que columna_h(A•𝐹𝑖𝑗) = columna_h(B).
Por lo tanto llegamos a la conclusión de que A•𝐹𝑖𝑗 = B.
2. Matrices de tipo II:
a) Para las columnas j ≠ i tenemos: columna_j(A•𝐹𝑖(𝑘)) = columna_j(B).
b) Para la columna i tenemos: columna_i(A•𝐹𝑖(𝑘)) = A• columna_i(𝐹𝑖(𝑘)) =
A•k•columna_i(I) = k•columna_i(A) = columna_i(B).
Por tanto, A•𝐹𝑖(𝑘) = B.
3. Matrices de tipo III:
a) Para columnas diferentes de i tenemos que columna_h(A•𝐹𝑖𝑗(k)) =
columna_h(B).
b) Para la columna i tenemos: columna_i(A•𝐹𝑖𝑗(k)) = A•columna_i(𝐹𝑖𝑗(k)) =
A•(columna_i(I) + k•columna_j(I)) = A•columna_i(I) + k•A•columna_j(I) =
columna_i(A) + k•columna_j(A) = columna_i(B).
97
Por lo que, de nuevo, A•𝐹𝑖𝑗(k) = B y hemos demostrado el teorema. □
Como consecuencia de los teoremas 1 y 2 llegamos a este corolario importante
teóricamente:
COROLARIO: Sea A una matriz m×n, H su forma normal de Hermite por filas y C su forma
normal de Hermite por columnas, entonces:
1. H = 𝐸𝑘•𝐸𝑘−1•…•𝐸1•A, para algunas matrices elementales por filas, 𝐸1, …, 𝐸𝑘 de
orden m.
2. C = A•𝐹1•𝐹2•…•𝐹𝑠, para algunas matrices elementales por columnas, 𝐹1, 𝐹2, …,
𝐹𝑠, de orden n.
Ahora para terminar demostraremos la relación que tienen las matrices elementales por
filas con las matrices elementales por columnas:
PROPOSICIÓN: Se cumplen las siguientes igualdades:
1. 𝐹𝑖𝑗 = (𝐸𝑖𝑗) 𝑡 = 𝐸𝑖𝑗.
2. 𝐹𝑖(k) = (𝐸𝑖(k)) 𝑡 = 𝐸𝑖(k).
3. 𝐹𝑖𝑗(k) = (𝐸𝑖𝑗(k)) 𝑡 = 𝐸𝑗𝑖(k).
DEMOSTRACIÓN:
1. Sea una matriz A cualquiera, m×n, entonces, 𝐸𝑖𝑗•A intercambia i por la j de A, pero
pasando a la traspuesta, (𝐸𝑖𝑗 • A )𝑡 = 𝐴𝑡•𝐸𝑖𝑗
𝑡 ocurre que esta matriz es el resultado
de intercambiar la columna i por la j en 𝐴𝑡, por lo que 𝐹𝑖𝑗 = (𝐸𝑖𝑗) 𝑡, pero como vamos
a ver en los ejemplos siguientes, (𝐸𝑖𝑗) 𝑡 = 𝐸𝑖𝑗 = 𝐹𝑖𝑗.
2. 3. Se obtienen aplicando el mismo argumento anterior. □
EJEMPLO 3: Fijémonos en el orden n = 4. Entonces:
𝐸13 = (
0 0 1 0010
1 0 00 0 00 0 1
), 𝐹13 = (
0 0 1 0010
1 0 00 0 00 0 1
),
𝐸3(2) = (
1 0 0 0000
1 0 00 2 00 0 1
), 𝐹3(2) = (
1 0 0 0000
1 0 00 2 00 0 1
),
𝐸24(3) = (
1 0 0 0000
1 0 30 1 00 0 1
), 𝐹24(3) = (
1 0 0 0000
1 0 00 1 03 0 1
), 𝐹42(3) = (
1 0 0 0000
1 0 30 1 00 0 1
).
6.2 Matriz Inversa, Matrices Regulares
DEFINICIÓN 1: Sean A, B de 𝔐n(𝕂), se dice que B es la matriz inversa de A, si A•B = B•A
= 𝐼𝑛. Diremos que la matriz A es invertible si existe una matriz inversa de A.
Veamos que no toda matriz tiene inversa en el siguiente ejemplo.
98
EJEMPLO 1: La matriz A = (1 00 0
) no puede tener inversa puesto que al multiplicarla por
cualquier otra matriz cuadrada de orden 2 se tiene lo siguiente:
(1 00 0
)•(𝑎 𝑏𝑐 𝑑
) = (𝑎 𝑏0 0
), que no puede ser nunca la identidad.
LEMA 1: Una matriz invertible A de 𝔐n(𝕂) tiene una única inversa.
DEMOSTRACIÓN: Si A tuviese dos inversas B, C, entonces, A•B = B•A = A•C = C•A = I, de
modo, que tendríamos: B = B•I = B•(A•C) = (B•A)•C = I•C = C. □
DEFINICIÓN 2: Dada una matriz invertible A de 𝔐n(𝕂), a la inversa de A la denotaremos
como 𝐴−1.
EJEMPLO 2: La matriz A = (1 11 2
) es invertible y su inversa es 𝐴−1 = (2 −1−1 1
), ya que,
(1 11 2
)•(2 −1−1 1
) = (1 00 1
) y (2 −1−1 1
)•(1 11 2
) = (1 00 1
) .
PROPOSICIÓN 1: Dadas A, B, 𝐴1, …, 𝐴𝑛, de 𝔐n(𝕂) se verifica lo siguiente:
1. Si A y B son invertibles, entonces, A•B es invertible y su inversa es (A • B)−1 =
B−1•A−1.
2. Si 𝐴1, …, 𝐴𝑛 son invertibles, entonces, 𝐴1•…• 𝐴𝑛 es invertible y (𝐴1 • … • 𝐴𝑛)−1 =
𝐴𝑛−1•…•𝐴1
−1.
3. Si A es invertible, entonces, 𝐴𝑡 es invertible y (𝐴𝑡)−1 = (𝐴−1)𝑡.
DEMOSTRACIÓN:
1. Si A y B son invertibles, entonces, (A•B)•( B−1•A−1) = A•(B•B−1)•A−1 = A•I•A−1 =
I, y también, ( B−1•A−1)•( A•B) = B−1•(A−1• A)•B = = B−1•I•B = I.
2. Se deja al lector como ejercicio de la demostración por inducción una vez sabido el
caso anterior.
3. Si A es invertible, entonces, 𝐴𝑡•(𝐴−1)𝑡 = (𝐴−1 • 𝐴)𝑡 = 𝐼𝑡 = I y también, (𝐴−1)𝑡•𝐴𝑡 =
(𝐴 • 𝐴−1)𝑡 = I, con lo que 𝐴𝑡 es invertible y su inversa es (𝐴−1)𝑡. □
LEMA 2: Cada matriz elemental por filas o columnas es invertible y su inversa es otra
matriz elemental de la misma clase.
DEMOSTRACIÓN: Dividamos la demostración en 3 casos:
I. 𝐸𝑖𝑗•𝐸𝑖𝑗 = I y 𝐹𝑖𝑗•𝐹𝑖𝑗 = I, por lo que 𝐸𝑖𝑗−1 = 𝐸𝑖𝑗 y 𝐹𝑖𝑗
−1 = 𝐹𝑖𝑗.
II. 𝐸𝑖(k)• 𝐸𝑖(1/k) = 𝐸𝑖(1/k)• 𝐸𝑖(k) = I y, también, 𝐹𝑖(k)• 𝐹𝑖(1/k) = 𝐹𝑖(1/k)• 𝐹𝑖(k) = I,
por lo que, 𝐸𝑖(k)−1 = 𝐸𝑖(1/k) y 𝐹𝑖(k)
−1 = 𝐹𝑖(1/k).
III. 𝐸𝑖𝑗(k)• 𝐸𝑖𝑗(-k) = 𝐸𝑖𝑗(-k)• 𝐸𝑖𝑗(k) = I y también, 𝐹𝑖𝑗(k)• 𝐹𝑖𝑗(-k) = 𝐹𝑖𝑗(-k)• 𝐹𝑖𝑗(k) = I,
por lo que, (𝐸𝑖𝑗(k))−1 = 𝐸𝑖𝑗(-k) y (𝐹𝑖𝑗(k))
−1 = 𝐹𝑖𝑗(-k). □
Ahora veremos un teorema importante después de una conveniente definición.
DEFINICIÓN 3: Se dice que A es regular por la derecha si B•A = 0 implica que B = 0. Y se
dice que A es regular por la izquierda si A•B = 0 implica que B = 0.
99
TEOREMA: Para una matriz cuadrada A de 𝔐n(𝕂), las siguientes afirmaciones son
equivalentes:
a) A es invertible.
b) A es regular por la derecha
b’) A es regular por la izquierda
c) rag(A) = n
d) La forma de Hermite por filas de A es la indentidad
d’) La forma de Hermite por columnas de A es la identidad
e) A es un producto de matrices elementales
DEMOSTRACIÓN:
a) Implica b): Si A es invertible y B•A = 0, entonces, multiplicando por 𝐴−1 por la
derecha en la igualdad queda (B•A)• 𝐴−1 = B = 0.
b) Implica c): Supongamos que rag(A) < n y sea H la forma de Hermite por filas de A.
Entonces, la última fila de H será de ceros y consideremos la siguiente matriz:
D =
(
0 0 … 0 00⋮00
0 … 0 0⋮ ⋱ ⋮ ⋮0 … 0 00 … 0 1)
, compuesta enteramente de ceros salvo en la posición
[𝐷]𝑛𝑛, entonces es evidente que D•H = 0, pero H = 𝐸𝑘•…•𝐸1•A, para ciertas
matrices elementales, 𝐸1,…, 𝐸𝑘 y por tanto, 0 = D•H = (D•𝐸𝑘•…•𝐸1)•A y tenemos
por tanto una matriz B = D•𝐸𝑘•…•𝐸1, distinta de 0 de forma que B•A = 0. Lo cual es
una contradicción con la hipótesis b). Notemos que B ≠ 0 es una consecuencia de
que 𝐸𝑘•…•𝐸1 es invertible y por tanto, regular por la derecha.
c) Implica d): Si rag(A) = n la forma normal de Hermite, H, será una matriz escalonada
reducida de orden n×n con n pivotes 1 cada uno a la derecha del anterior y por tanto
no hay otra posibilidad salvo que H se la identidad.
d) Implica e): Si la forma normal de Hermite de A es la identidad, entonces, I =
𝐸𝑘•…•𝐸1•A; multiplicando esta ecuación por la izquierda por A obtenemos A =
A•𝐸𝑘•…•𝐸1•A, de modo que también A•𝐸𝑘•…•𝐸1 = I (por ser la matriz identidad I
única) y podemos decir que 𝐸𝑘•…•𝐸1 = 𝐴−1, con lo que A = 𝐸1−1•…•𝐸𝑘
−1 es un
producto de matrices elementales, ya que la inversa de una matriz elemental es otra
matriz elemental.
e) Implica a): Si A es un producto de matrices elementales entonces A es una matriz
invertible al ser un producto de matrices invertibles.
Ahora demostremos las implicaciones a) implica b’) implica c) implica d’) implica e).
a) Implica b’) Si A es invertible y A•B = 0, entonces, multiplicando por 𝐴−1 por la
izquierda en la igualdad anterior, tenemos, 𝐴−1• A•B = I•B = 0, es decir, B = 0.
100
b’) implica c). Supongamos que rag(A) < n y sea H’ la forma normal de Hermite por filas
de A, entonces (𝐻′)𝑇 = H es la forma de Hermite por columnas de A. Entonces, la última
columna de H será de ceros y consideremos la siguiente matriz:
D =
(
0 0 … 0 00⋮00
0 … 0 0⋮ ⋱ ⋮ ⋮0 … 0 00 … 0 1)
, compuesta enteramente de ceros salvo en la posición[𝐷]𝑛𝑛,
entonces es evidente que H•D = 0, pero H = A•𝐸1•…•𝐸𝑘, para ciertas matrices
elementales, 𝐸1,…, 𝐸𝑘 y por tanto, 0 = H•D = (A•𝐸1•…•𝐸𝑘)•D y tenemos por tanto, una
matriz B = 𝐸1•…•𝐸𝑘•D, distinta de 0 de forma que A•B = 0. Lo cual es una contradicción
con la implicación de a) a b’). Notemos que B ≠ 0 es una consecuencia de que 𝐸1•…•𝐸𝑘
es invertible y, por tanto, regular por la izquierda.
c) implica d’). Si rag(A) = n la forma normal de Hermite por filas, H’, será una matriz
escalonada reducida de orden n×n con n pivotes 1 cada uno a la derecha del anterior y
por tanto no hay otra posibilidad salvo que H’ se la identidad, de modo que (𝐻′)𝑇 = H
que es la forma de Hermite por columnas de A, también es la identidad.
d’) implica e). Si la forma normal de Hermite por filas de A es la identidad, entonces, I =
𝐸𝑘•…•𝐸1•A, de modo que 𝐼𝑇 = I = A• 𝐸1𝑇•…•𝐸𝑘
𝑇; multiplicando esta ecuación por la
derecha por A obtenemos A = A• 𝐸1𝑇•…•𝐸𝑘
𝑇•A, de modo que también 𝐸1𝑇•…•𝐸𝑘
𝑇•A
= I (por ser la matriz identidad I única) y podemos decir que 𝐸1𝑇•…•𝐸𝑘
𝑇= 𝐴−1, con lo
que A = (𝐸𝑘𝑇)−1•…•(𝐸1
𝑇)−1 es un producto de matrices elementales, ya que la inversa
y la transpuesta de una matriz elemental es otra matriz elemental. □
DEFINICIÓN 4: Gracias al teorema anterior podemos identificar el concepto de matriz
invertible con el de matriz regular. Una matriz que no sea regular se llamará singular.
Veamos ahora el siguiente interesante corolario del teorema anterior el cuál dice que
para saber si una matriz A es regular solo es necesario saber que existe una matriz B que
cumple solamente una de estas dos condiciones o que A•B = I o que B•A = I, es decir,
que basta una de las dos condiciones para que se cumpla la otra.
COROLARIO: Sean A, B matrices n×n tales que A•B = I, entonces A es invertible y B = 𝐴−1.
DEMOSTRACIÓN: Comprobamos la condición b) del teorema anterior:
Sea X•A = 0, entonces, X = X•I = X•(A•B) = (X•A)•B = 0•B = 0. Por tanto, A es regular por
la derecha, por lo que A es invertible, si 𝐴−1 es su inversa se cumple, A•B = I y
multiplicando por la izquierda por 𝐴−1 en la anterior igualdad se tiene, 𝐴−1 •(A•B) =
𝐴−1•I, lo que implica que B = 𝐴−1. □
6.3 Cálculo de la matriz Inversa
Como consecuencia de las subsecciones 6.1 y 6.2 tenemos el siguiente útil corolario cuya
utilidad se podrá comprobar enseguida.
101
COROLARIO: Sea A una matriz m×n y sea H su forma normal de Hermite por filas,
entonces, existe una matriz regular Q de 𝔐𝑚(𝕂), de forma que H = Q•A.
DEMOSTRACIÓN: Esto es consecuencia del Teorema 6.1.1, del lema 6.2.2 y del teorema
6.2.1, pues con estas proposiciones sabemos que H = 𝐸𝑘•…•𝐸1•A y entonces se tiene
que Q = 𝐸𝑘•…•𝐸1 que es una matriz regular. □
Ahora veamos que Q = 𝐸𝑘•…•𝐸1 se puede calcular aplicando a la matriz identidad las
mismas transformaciones que le aplicamos a A para obtener H. Entonces si ampliamos
A con la matriz identidad:
(A|I) = (
𝑎11 𝑎12 … 𝑎1𝑛 ⋮ 1 0 … 0𝑎21⋮
𝑎𝑚1
𝑎22 … 𝑎2𝑛 ⋮ 0 1 … 0⋮ ⋱ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮
𝑎𝑚2 … 𝑎𝑚𝑛 ⋮ 0 0 … 1
),
y por medio de transformaciones elementales por filas obtenemos H en la parte
izquierda, en la parte derecha tendremos Q.
EJEMPLO 1: Sea la matriz A = (1 2 0 111
1 2 00 2 1
), entonces,
(A|I) = (1 2 0 1 ⋮ 1 0 011
1 2 0 ⋮ 0 1 00 2 1 ⋮ 0 0 1
), → (1 2 0 1 ⋮ 1 0 001
−1 2 −1 ⋮ −1 1 00 2 1 ⋮ 0 0 1
), →
(1 2 0 1 ⋮ 1 0 001
−1 2 −1 ⋮ −1 1 0−2 2 0 ⋮ −1 0 1
), → (1 2 0 1 ⋮ 1 0 000
1 −2 1 ⋮ 1 −1 0−2 2 0 ⋮ −1 0 1
), →
(1 2 0 1 ⋮ 1 0 000
1 −2 1 ⋮ 1 −1 00 −2 2 ⋮ 1 −2 1
), → (
1 2 0 1 ⋮ 1 0 0
00
1 −2 1 ⋮ 1 −1 0
0 1 −1 ⋮ −1
21 −
1
2
), →
(
1 2 0 1 ⋮ 1 0 0
00
1 0 −1 ⋮ 0 1 −1
0 1 −1 ⋮ −1
21 −
1
2
), → (
1 0 0 3 ⋮ 1 −2 2
00
1 0 −1 ⋮ 0 1 −1
0 1 −1 ⋮ −1
21 −
1
2
),
por lo que la forma de Hermite por filas de A es H = (1 0 0 300
1 0 −10 1 −1
) y
Q = (
1 −2 20
−1
2
1 −1
1 −1
2
) y se tiene que
Q•A = (
1 −2 20
−1
2
1 −1
1 −1
2
)•(1 2 0 111
1 2 00 2 1
) = (1 0 0 300
1 0 −10 1 −1
) = H.
Ahora viene la consecuencia que titula esta subsección: en el caso de que A sea regular
su forma normal de Hermite por filas es la identidad y el corolario anterior dice que Q•A
102
= I, por lo que Q = 𝐴−1 y por tanto, hemos obtenido un método sencillo para calcular la
inversa de una matriz regular.
EJEMPLO 2: Sea la matriz A = (1 2 323
3 44 6
), entonces,
(A|I) = (1 2 3 ⋮ 1 0 023
3 4 ⋮ 0 1 04 6 ⋮ 0 0 1
) , → (1 2 3 ⋮ 1 0 003
−1 −2 ⋮ −2 1 04 6 ⋮ 0 0 1
), →
(1 2 3 ⋮ 1 0 000
−1 −2 ⋮ −2 1 0−2 −3 ⋮ −3 0 1
), → (1 2 3 ⋮ 1 0 000
1 2 ⋮ 2 −1 0−2 −3 ⋮ −3 0 1
), →
(1 2 3 ⋮ 1 0 000
1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1
), → (1 0 −1 ⋮ −3 2 000
1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1
), →
(1 0 0 ⋮ −2 0 100
1 2 ⋮ 2 −1 00 1 ⋮ 1 −2 1
), → (1 0 0 ⋮ −2 0 100
1 0 ⋮ 0 3 −20 1 ⋮ 1 −2 1
),
por lo que, 𝐴−1 = (−2 0 101
3 −2−2 1
).
6.4 Matrices equivalentes
Recordemos ahora en las siguientes líneas y lemas el concepto de matrices equivalentes
por filas y columnas. Sabemos que dos matrices A y B son equivalentes por filas y se
denota así A ~𝑓 B, si se puede pasar de una a otra por transformaciones elementales de
filas. De la misma manera, A y B son equivalentes por columnas, A ~𝑐 B, si se puede
pasar de una a otra por transformaciones elementales de columnas.
LEMA 1: Dadas matrices A, B, m×n, las siguientes afirmaciones son equivalentes:
1. A y B son equivalentes por filas.
2. A y B tienen la misma forma normal de Hermite por filas.
3. Existe una matriz regular Q de 𝔐𝑚(𝕂) tal que B = Q•A.
DEMOSTRACIÓN:
1) Es equivalente a 2) Esto es el teorema 4.4.1.
1) Es equivalente a 3) A ~𝑓 B si y solo si, B se obtiene de A por transformaciones
elementales de filas o lo que es equivalente, existen matrices elementales por filas,
𝐸1, …, 𝐸𝑘, tales que B = 𝐸𝑘•…•𝐸1•A, por tanto, B = Q•A, con Q regular y Q = 𝐸𝑘•…•𝐸1
(Q es regular ya que una matriz que es el producto de matrices elementales es
regular), además si B = Q•A con Q regular, entonces A ~𝑓 B, pues toda matriz regular
es producto de matrices elementales. □
LEMA 2: Dadas matrices A, B, m×n, las siguientes afirmaciones son equivalentes:
1. A y B son equivalentes por columnas.
103
2. A y B tienen la misma forma normal de Hermite por columnas.
3. Existe una matriz regular P de 𝔐𝑛(𝕂) tal que B = A•P.
DEMOSTRACIÓN:
1) Es equivalente a 2) Es consecuencia del lema anterior y la proposición 5.6.2.
1) Es equivalente a 3) A ~𝑐 B, si y solo si, B se obtiene de A por transformaciones
elementales de columnas, o lo que es equivalente, existen matrices elementales por
columnas 𝐹1, …, 𝐹𝑘, tales que B = A•𝐹1•…•𝐹𝑘, de modo que B = A•P, con P = 𝐹1•…•𝐹𝑘
y sabemos que P es regular por ser producto de matrices regulares, además, si B =
A•P, para alguna matriz regular P, entonces, B se obtiene de A por sucesión de
transformaciones elementales, ya que cualquier matriz regular P es producto de
matrices elementales. □
Ahora veamos que hay una relación de equivalencia más general entre matrices que la
equivalencia por filas o columnas.
DEFINICIÓN: Se dice que dos matrices A y B m×n son equivalentes y se nota así: A ~ B, si
B se puede obtener de A por transformaciones elementales de filas y columnas. Por
tanto, dos matrices equivalentes por filas son equivalentes y dos matrices equivalentes
por columnas son equivalentes, pero el recíproco no es cierto: dos matrices equivalentes
pueden no ser equivalentes por filas ni equivalentes por columnas.
PROPOSICIÓN 1: La equivalencia de matrices según la definición anterior, es una relación
de equivalencia en el conjunto de matrices m×n. Además, dos matrices A, B m×n son
equivalentes si y solo si, existen matrices regulares Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), tales
que B = Q•A•P.
DEMOSTRACIÓN: Primero demostremos la segunda afirmación. Si A ~ B, entonces, B se
obtiene de A por sucesión de transformaciones elementales de filas y columnas, y por
tanto, B = 𝐸𝑘•…•𝐸1•A•𝐹1•…•𝐹𝑘, para ciertas matrices elementales por filas, 𝐸1, …, 𝐸𝑘
y ciertas matrices elementales por columnas, 𝐹1, …, 𝐹𝑘, por tanto, haciendo Q =
𝐸𝑘•…•𝐸1 y P = 𝐹1•…•𝐹𝑘, entonces, B = Q•A•P para ciertas matrices regulares Q y P de
sabidas dimensiones Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂). Por otra parte, si B = Q•A•P, para
ciertas matrices regulares, Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), como toda matriz regular es
producto de matrices elementales, sean Q = 𝐸𝑘•…•𝐸1 y P = 𝐹1•…•𝐹𝑘, entonces, B =
Q•A•P = 𝐸𝑘•…•𝐸1•A•𝐹1•…•𝐹𝑘 se obtiene de A por transformaciones elementales de
filas y columnas.
Para la primera afirmación, veamos que la relación de equivalencia entre matrices es
una relación de equivalencia:
1. A ~ A, pues A = 𝐼𝑚•A•𝐼𝑛, con 𝐼𝑚, 𝐼𝑛 matrices indentidad que son regulares.
2. A ~ B implica que B ~ A, pues si B = Q•A•P para matrices regulares Q y P, entonces
multiplicando esta igualdad por la izquierda por 𝑄−1 y por la derecha por 𝑃−1,
tenemos, 𝑄−1 •B•𝑃−1 = A, donde sabemos que la inversa de una matriz regular es
una matriz regular.
104
3. A ~ B y B ~ C, entonces, A ~ C, pues si B = Q•A•P y C = Q’•B•P’, entonces C =
Q’•Q•A•P•P’, siendo Q’•Q, P•P’ matrices regulares ya que son producto de
matrices regulares.
Por tanto, hemos visto que la equivalencia de matrices cumple las propiedades reflexiva,
simétrica y transitiva, por lo que es una relación de equivalencia. □
PROPOSICIÓN 2: Dada una matriz A m×n, el rango de A es r si y solamente si, A es
equivalente a la matriz J = (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
).
DEMOSTRACIÓN: Sea H la forma normal de Hermite por filas de A. Entonces, H tiene r
filas no nulas, y aplicando transformaciones elementales de columnas, es evidente que
se puede obtener la matriz J.
Recíprocamente, supongamos que A es equivalente a J, entonces A se puede obtener
de J aplicando transformaciones elementales por columnas primero y por filas después.
El rango de J es evidentemente r y cualquier matriz que se obtenga de J aplicando
transformaciones elementales de columnas tendrá rango r, pues los pivotes se
mantendrán en las transformaciones elementales por columnas, con lo que seguirá
habiendo r filas no nulas y finalmente puesto que las transformaciones elementales por
filas no afectan al rango tendremos que rag(A) = r. □
TEOREMA: Dos matrices de igual orden son equivalentes si y solo si, tienen igual rango.
DEMOSTRACIÓN: Llamemos r = rag(A) y s = rag(B), entonces,
A ~ (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
) y B ~ (𝐼𝑠 ⋮ 0…0
⋮ …⋮ 0
),
por tanto, A ~ B es equivalente a que (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
) ~ (𝐼𝑠 ⋮ 0…0
⋮ …⋮ 0
), lo cual solo puede
ocurrir si r = s. □
COROLARIO: Para toda matriz m×n se verifica que rag(A) = rag(𝐴𝑡), por lo que el rango
de una matriz es tanto su número de filas no nulas en la forma normal de Hermite por
filas, como su número de columnas no nulas en su forma normal de Hermite por
columnas.
DEMOSTRACIÓN: Sea r = rag(A), entonces, A es equivalente a J = (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
), matriz
m×n, de modo que J = Q•A•P. Así 𝐴𝑡 es equivalente a 𝐽𝑡 = 𝑃𝑡•𝐴𝑡•𝑄𝑡 que es una matriz
n×m de la forma 𝐽𝑡 = (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
), por lo que rag(A) = rag(𝐴𝑡). □
PROPOSICIÓN 3: Dadas las matrices A, m×p y B, p×n se cumple que
rag(A•B) ≤ min { rag(A), rag(B) }.
105
DEMOSTRACIÓN: Sea r = rag(A), s = rag(B) y sea H la forma normal de Hermite por filas
de A y C la forma normal de Hermite por columnas de B. Entonces existe matrices
regulares Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂) tales que H = Q•A y C = B•P. Entonces, H•C =
Q•A•B•P es una matriz equivalente a A•B y por tanto, rag(H•C) = rag(A•B), pero H•C
tiene como máximo r filas no nulas y s columnas no nulas y por tanto, rag(A•B) ≤ min{r,
s} = min { rag(A), rag(B) }.□
6.5 Relaciones de equivalencia en las matrices
En esta subsección vamos a repasar las relaciones de equivalencia de matrices que
hemos visto y vamos a adelantar las relaciones de equivalencia que vamos a ver en el
futuro en esta parte del libro, en concreto entre las relaciones de equivalencia que
hemos visto y las que vamos a ver suman 5 de ellas. Las 3 primeras ya las hemos visto,
son estas 3:
1. Equivalencia por filas entre dos matrices m×n:
Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existe
una matriz regular Q de 𝔐𝑚(𝕂), tal que: B = Q•A. Ya hemos demostrado que se
trata de una relación de equivalencia entre las matrices m×n.
2. Equivalencia por columnas entre dos matrices m×n:
Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existe
una matriz regular P de 𝔐𝑛(𝕂), tal que B = A•P. Y ya vimos también que se trata de
una relación de equivalencia entre las matrices m×n.
3. Equivalencia entre dos matrices m×n:
Se da cuando entre una matriz B y una matriz A, las dos de dimensión m×n, existen
dos matrices regulares, Q de 𝔐𝑚(𝕂) y P de 𝔐𝑛(𝕂), tales que B = Q•A•P. También
vimos que se trata de una relación de equivalencia entre las matrices de dimensión
m×n.
Ahora adelantamos que vamos a ver en esta parte del libro, 2 relaciones de equivalencia
más:
4. La relación de congruencia entre dos matrices cuadradas A y B de la misma
dimensión n×n, consiste en que existe una matriz regular P de 𝔐𝑛(𝕂), tal que B =
P•A•𝑃𝑡. Demostraremos en la proposición siguiente que se trata de una relación de
equivalencia en las matrices de 𝔐𝑛(𝕂).
5. La relación de similaridad entre dos matrices cuadradas A y B de la misma dimensión
n×n, consiste en que existe una matriz regular P de 𝔐𝑛(𝕂), tal que B = P•A•𝑃−1.
Ahora mismo demostraremos que se trata de una relación de equivalencia en las
matrices de 𝔐𝑛(𝕂).
Sin más, ahora enunciamos y demostramos la siguiente proposición que termina con
esta corta subsección:
PROPOSICIÓN: La relación de congruencia en matrices de 𝔐𝑛(𝕂) es una relación de
equivalencia, como también ocurre para la relación de similaridad en matrices de
𝔐𝑛(𝕂).
106
DEMOSTRACIÓN: I Congruencia: Tenemos que demostrar que la congruencia de
matrices de 𝔐𝑛(𝕂) se trata de una relación reflexiva, simétrica y transitiva:
a) Reflexiva: A = 𝐼𝑛•A•( 𝐼𝑛)𝑡 = 𝐼𝑛•A•𝐼𝑛 = A.
b) Simétrica: Si B = P•A•𝑃𝑡, entonces, multiplicando la igualdad anterior por 𝑃−1 por
la izquierda y por ( 𝑃𝑡)−1 por la derecha obtenemos que 𝑃−1•B•( 𝑃𝑡)−1 = A, pero
ya hemos visto que ( 𝑃𝑡)−1 = ( 𝑃−1)𝑡, por lo que la expresión anterior queda A =
𝑃−1•B•( 𝑃−1)𝑡 y evidentemente, 𝑃−1 es regular, por lo que A es congruente con B.
c) Transitiva: Si B = P•A•𝑃𝑡 y C = Q•B•𝑄𝑡, entonces C = Q•P•A•𝑃𝑡•𝑄𝑡, pero 𝑃𝑡•𝑄𝑡 =
(𝑄 • 𝑃)𝑡, por lo que C = (Q•P)•A•(𝑄 • 𝑃)𝑡 y puesto que Q y P son regulares también
lo es Q•P, por lo que C es congruente con A.
II Similaridad:
a) Reflexiva: A = 𝐼𝑛•A•( 𝐼𝑛)−1 = 𝐼𝑛•A•𝐼𝑛 = A.
b) Simétrica: Si B = P•A•𝑃−1, entonces multiplicando la anterior expresión por 𝑃−1 por
la izquierda y por P por la derecha tenemos 𝑃−1•B•P = A = 𝑃−1•B•( 𝑃−1)−1, y
considerando que 𝑃−1 es evidentemente regular si lo es P, entonces, A es similar a
B.
c) Transitiva: Si B = P•A•𝑃−1 y C = Q•B•𝑄−1, entonces, C = Q•P•A•𝑃−1•𝑄−1, pero ya
sabemos que 𝑃−1•𝑄−1 = (Q • P)−1, por lo que C = (Q•P)•A•(Q • P)−1 y es evidente
que Q•P es una matriz regular, por lo que C es similar a A. □
7 Determinantes
7.1 Permutaciones
Tenemos una idea de que una permutación es un ordenamiento de una serie de
elementos de un conjunto. Pongamos como ejemplo el conjunto de los primeros 5
números naturales. Sea A = {1, 2, 3, 4, 5}, entonces una permutación de A podría ser por
ejemplo, {4, 2, 5, 3, 1}, pero la idea que es más natural y más conveniente para nuestros
propósitos es la idea de que una permutación es una función biyectiva de un conjunto
en sí mismo, como puede ser el ejemplo siguiente: α = (1 2 3 4 54 2 5 3 1
), donde la fila
de abajo, que es la permutación según la consideramos en nuestro primer concepto,
ahora se trata de los valores correspondientes a cada elemento de la parte de arriba
según la función α, es decir, la permutación α, de modo α(1) = 4, α(2) = 2 y así
sucesivamente. Esta idea de las permutaciones nos es más conveniente porque
podemos definir la composición de permutaciones más naturalmente como
composición de funciones, para ello habremos de demostrar que la composición de dos
permutaciones sigue siendo una permutación. Para esto haremos una definición
rigurosa y demostraremos la proposición correspondiente.
DEFINICIÓN (Permutación de un conjunto): Sea A un conjunto cualquiera, definimos
permutación del conjunto A como una función biyectiva de ese conjunto en sí mismo. Al
107
conjunto de todas las permutaciones del conjunto A se le nota como 𝑆𝐴. Se define la
composición de permutaciones, por ejemplo, β○α como la operación de composición de
una después de otra como funciones que son. En una composición de permutaciones
entenderemos que primero se aplica la que está a la derecha y después la que está a la
izquierda, de modo que si a pertenece a A, (β○α)(a) = β(α(a)).
PROPOSICIÓN 1 (La composición de permutaciones es una operación interna en el
conjunto de permutaciones de un conjunto A): Sean las permutaciones α y β de 𝑆𝐴,
entonces, la composición de ellas, β○α, es otra permutación, es decir pertenece a 𝑆𝐴,
por lo que la composición de permutaciones constituye una operación interna de 𝑆𝐴.
DEMOSTRACIÓN: Solamente debemos demostrar que la composición de dos funciones
biyectivas de un conjunto A es otra función biyectiva. Debemos demostrar que es a)
inyectiva: (β○α)(a) = (β○α)(b) implica que β(α(a)) = β(α(b)), pero como β es inyectiva se
cumple que α(a) = α(b), pero como α es inyectiva se cumple que a = b, por lo que β○α
es inyectiva. Tenemos que demostrar b) que a su vez β○α es suprayectiva. Sea a de A,
como β es suprayectiva existe un a’ tal que a = β(a’), a su vez para a’ existe un a’’ tal que
a’ = α(a’’), pues α es suprayectiva también, pero entonces a = β(a’) = β(α(a’’)), por lo que
para a de A, existe un a’’ para el que a = (β○α)(a’’), por lo que β○α es también
suprayectiva y por tanto biyectiva, que era lo que queríamos demostrar. □
A partir de ahora vamos a considerar las permutaciones de un conjunto de números
sucesivos naturales empezando por el 1. Si se trata de los n primeros números, al
conjunto de las permutaciones de esos números lo notaremos como 𝑆𝑛. También vamos
a trabajar con las permutaciones con la notación de la doble fila. Veamos un ejemplo.
EJEMPLO: Sea A = {1, 2, 3, 4, 5} y sea α = (1 2 3 4 54 2 5 3 1
), de modo que α(1) = 4, α(2)
= 2 y así sucesivamente y sea β = (1 2 3 4 53 5 4 2 1
), entonces,
α○β = (1 2 3 4 54 2 5 3 1
)○(1 2 3 4 53 5 4 2 1
) = (1 2 3 4 55 1 3 2 4
), pues (α○β)(1) =
α(β(1)) = α(3) = 5 y así sucesivamente.
Veamos ahora las propiedades de las permutaciones y su producto que las
necesitaremos en nuestra exposición de los determinantes.
PROPOSICIÓN 2 (Las propiedades de la composición de permutaciones): Sea A un
conjunto cualquiera, no necesariamente el conjunto de los primeros n números
naturales, y α, β y µ permutaciones de 𝑆𝐴, entonces, la composición de permutaciones
cumple las siguientes propiedades, que conceden a 𝑆𝐴 las propiedades de la estructura
algebraica de un grupo:
a) α○(β○µ) = (α○β)○µ, que es la propiedad asociativa.
b) Exsiste una permutación i, tal que i(a) = a para todo a de A tal que para toda
permutación α, cumple que i○α = α○i = α, que es la existencia de elemento neutro.
c) Para toda permutación α existe otra, α−1, tal que α○α−1 = α−1○α = i, existencia del
elemento inverso.
108
DEMOSTRACIÓN: a) Ya demostramos en la subsección de preliminares que la
composición de funciones es asociativa, por lo que también lo es la composición de
funciones biyectivas. b) Es evidente que la permutación i tal como está definida es
biyectiva y se comporta como elemento neutro. c) Para toda permutación α tal que a’ =
α(a), la permutación α−1 tal que α−1(a’) = a, para todo a, a’ de A cumple las propiedades
de la permutación inversa de α, comprobémoslo: i(a) = a = α−1(a’) = α−1(α(a)) =
(α−1○α)(a) y también i(a’) = a’ = α(a) = α(α−1(a’)) = (α−1○α)(a’). □
7.2 Ciclos y descomposición de una permutación en ciclos disjuntos
DEFINICIÓN: Sea a de A y α de 𝑆𝐴, entonces α fija a si α(a) = a y α mueve a si α(a) ≠ a.
DEFINICIÓN: Sean 𝑖1, 𝑖2, …, 𝑖𝑟 distintos números naturales entre 1 y n, si α fija todos los
restantes elementos n – r y si α(𝑖1) = 𝑖2, α(𝑖2) = 𝑖3, …, α(𝑖𝑟) = 𝑖1, entonces, α es un r-ciclo
o un ciclo de longitud r. Denotaremos a α como (𝑖1 𝑖2 … 𝑖𝑟). A los ciclos de longitud 2 los
llamaremos trasposiciones. Un ciclo de longitud 1 deja fijo ese elemento a veces es
conveniente suprimir los ciclos de longitud 1.
EJEMPLO 1: (1 2 3 4 52 3 4 5 1
) = (1 2 3 4 5), (1 2 3 4 55 1 4 2 3
) = (1 5 3 4 2),
(1 2 3 4 52 3 1 4 5
) = (1 2 3)○(4)○(5) = (1 2 3).
EJEMPLO 2: La multiplicación de permutaciones con la notación de los ciclos es un poco
liosa por eso veamos un ejemplo: Sea µ = α○β, con α = (1 2) y β = (1 3 4 2 5). Entonces,
µ(1) = (α○β)(1) = α(β(1)) = α(3) = 3, después, µ(3) = α(β(3)) = α(4) = 4, µ(4) = α(β(4)) =
α(2) = 1, llegados de nuevo a 1, ahora buscamos µ(2), pues 2 es el menor número para
el cuál no hemos buscado su valor de µ(2) = α(β(2)) = α(5) = 5 y queda µ(5) = α(β(5)) =
α(1) = 2, por lo que (1 2)○(1 3 4 2 5) = (1 3 4)○(2 5). Los últimos ciclos en la expresión
anterior se dicen que son disjuntos.
DEFINICIÓN: Dos permutaciones α, β son disjuntas si para todo a de A tal que α mueve
a, entonces, β lo deja fijo y viceversa, para todo a que β mueve, α lo deja fijo, pero puede
suceder que un elemento b de A que deja fijo α también lo deje fijo β. Un conjunto de
varias permutaciones es disjunto si son disjuntas las permutaciones del conjunto dos a
dos.
PROPOSICIÓN: Toda permutación α de 𝑆𝑛 es un ciclo o producto de ciclos disjuntos.
DEMOSTRACIÓN: La hacemos por inducción en el número de elementos k que mueve α.
Si α no mueve ningún número k = 0, entonces es la permutación identidad que podemos
considerarla un ciclo o un producto de n ciclos de longitud 1 disjuntos. Sea k > 0, sea 𝑖1
un número movido por α, definamos 𝑖2 como 𝑖2 = α(𝑖1), 𝑖3 = α(𝑖2), …, 𝑖𝑟+1 = α(𝑖𝑟), donde
r es el menor número tal que 𝑖𝑟+1 ∈ {𝑖1, 𝑖2, …, 𝑖𝑟}, es decir, que 𝑖𝑟+1 es uno de los
números {𝑖1, 𝑖2, …, 𝑖𝑟}, que por tanto se repite. Observemos que la lista de r números
tiene que ser menor o igual que n, es decir que para r > n tiene que haber alguna
repetición. Decimos que α(𝑖𝑟) = 𝑖1, pues en caso contrario, α(𝑖𝑟) = 𝑖𝑗 para j ≥ 2, pero
α(𝑖𝑗−1) = 𝑖𝑗, de modo que α no sería inyectiva lo cual es una contradicción. Sea β el ciclo
109
β = (𝑖1 𝑖2 … 𝑖𝑟). Si r = n, entonces α = β. Si r < n, sea Y el conjunto de números que deja
fijo β. Ya que α(Y) = Y hay una permutación α’(Y) = α(Y) = Y que deja fijo el conjunto {𝑖1,
𝑖2, …, 𝑖𝑟}, y con m = n – r, siendo m el número de elementos de Y, por lo tanto con m ≤
n - 2, α = β○α’, con β y α’ disjuntos, de modo que por hipótesis de inducción (α’ mueve
menos números que α) α’ es un ciclo o producto de ciclos disjuntos lo cual prueba la
proposición pues β = (𝑖1 𝑖2 … 𝑖𝑟) es un ciclo disjunto con los ciclos de α’. □
7.3 Permutaciones pares e impares y el signo de una permutación
PROPOSICIÓN 1: Todo ciclo es producto de trasposiciones.
DEMOSTRACIÓN: Siempre podemos hacer la siguiente descomposición de un ciclo:
(𝑎1, 𝑎2, …, 𝑎𝑚) = (𝑎1, 𝑎2)○ (𝑎2, 𝑎3)○…○(𝑎𝑚−2, 𝑎𝑚−1)○(𝑎𝑚−1, 𝑎𝑚). □
COROLARIO 1: Toda permutación es producto de trasposiciones.
DEMOSTRACIÓN: Esto se sigue de la proposición 7.2.1 y de la proposición anterior. □
EJEMPLO: a) (1 2 3 4 5 6 74 1 7 5 2 6 3
) = (1, 4, 5, 2)○(3, 7) = (1, 4)○(4, 5)○ (5, 2)○(3, 7).
b) I = (1, 2)○(1, 2) = (1, 2)○(1, 2)○(3, 4)○(3, 4) = (3, 4)○(3, 4).
Por tanto, la permutación identidad I y cualquier permutación, puede ser producto de
muchas formas de solo trasposiciones, pero vamos a ver inmediatamente que este
producto para una permutación en concreto, solo puede ser o par o impar y esta paridad
nunca cambia.
PROPOSICIÓN 2: La permutación identidad no se puede expresar como un producto
impar de trasposiciones, es decir siempre se expresa como un producto par de
trasposiciones.
DEMOSTRACIÓN: Sea la expresión siguiente: P = ∏ (𝑗 − 𝑖)𝑖,𝑗 , con 1 ≤ i < j ≤ n. Si
permutamos las i, j según una trasposición obtenemos la misma expresión con signo
contrario. Veamos por qué ocurre esto. Sea α una permutación de {1, 2, …, n}, escribimos
αP = ∏ (α(𝑗) − α(𝑖))𝑖,𝑗 . En caso de que α = (h, k), h < k, ¿cuáles son los factores de αP?,
pensemos:
a) Si i, j son diferentes de h, k, α(𝑗) − α(𝑖) = j – i;
b) Si i < h < k, el factor h – i de P pasa a ser k – i en αP, el factor k – i de P pasa a ser
ahora, h – i en αP, por lo tanto, solo cambia la posición de los factores en el producto,
pero no hay cambio de signo;
c) Si h < k < j, el factor j – h de P pasa a ser j – k en αP, y el factor j – k pasa a ser j – h
en αP, por tanto, igual que en el caso anterior solo hay cambio de posición y no de
signo;
d) Si h < i < k, el factor i – h de P pasa a ser i – k, en αP, y el factor k – i, pasa a ser h – i
en αP, por lo que ahora hay cambio de posición y de signo, pero el signo cambia 2
veces, por lo que el producto no cambia;
110
e) Si i = h < k = j, el factor k – h de P pasa a ser h – k en αP, y este es el único cambio de
signo que afecta al producto.
Por lo tanto, αP = -P. Pero supongamos ahora que I = 𝛽𝑛○…○𝛽2○𝛽1, donde 𝛽𝑖 son todas
trasposiciones, apliquemos a P sucesivamente las trasposiciones 𝛽1, 𝛽2, …, 𝛽𝑛,
obtendremos (−1)𝑛P, pero aplicar estas trasposiciones sucesivamente es lo mismo que
aplicar la identidad por lo que (−1)𝑛P = P, por tanto, es obligatorio que n sea par. □
COROLARIO 2: Si α = ρ𝑟○…○ρ2○ρ1 = τ𝑡○…○τ2○τ1 son dos descomposiciones de la
permutación α como producto de trasposiciones, entonces, r y t tienen la misma
paridad.
DEMOSTRACIÓN: Multiplicando los dos productos por ρ1 a la derecha y teniendo en
cuenta que ρ1○ρ1 = I, se tiene ρ𝑟○…○ρ2 = τ𝑡○…○τ2○τ1○ρ1. Multiplicando
sucesivamente por ρ2, …, ρ𝑟−1, ρ𝑟, obtenemos, τ𝑡○…○τ2○τ1○ρ1○ρ2○…○ρ𝑟 = I. Entonces
la proposición anterior nos dice que t + r es par, por lo que t y r tienen la misma paridad.
□
DEFINICIÓN: Una permutación se llama par si se descompone en producto par de
trasposiciones y es impar si se descompone en producto impar de trasposiciones.
Por tanto, el producto de permutaciones sigue la regla de los signos según su paridad,
es decir, el producto de dos pares es par, así como el producto de dos impares, y es
impar el producto de una par y una impar, por lo que podemos definir el signo de una
permutación de la siguiente manera:
DEFINICIÓN: Se define la aplicación signo: ε: 𝑆𝑛 → {1, -1}, tal que:
ε(α) = 1, si α es par,
ε(α) = -1, si α es impar.
Y es evidente que se cumple que ε(I) = 1 y ε(α○β) = ε(α)•ε(β) (se deduce esto por la regla
de que la suma de un numero par y un número impar es impar mientras que la suma de
2 números pares o dos impares es par y para el producto de -1 y 1 ocurre los mismo, el
producto de 1 y 1 es 1 y el de -1 y -1 es 1, mientras que el producto de 1 y -1 es -1), por
lo que se deduce que ε(α) = ε(𝛼−1), puesto que ε(α○𝛼−1) = ε(α)•ε(𝛼−1) = 1, por lo que
ε(α) y ε(𝛼−1) son los dos 1 o los dos -1, además, por la proposición 1 de esta subsección
si (𝑎1, 𝑎2, …, 𝑎𝑚) es un ciclo de orden m, entonces, se tiene que ε (𝑎1, 𝑎2, …, 𝑎𝑚) =
(−1)𝑚−1.
Ahora ya estamos preparados para definir los determinantes de una matriz cuadrada,
cosa que haremos en la siguiente subsección.
7.4 Definición del determinante de una matriz cuadrada
Para esta subsección consideraremos las matrices como un conjunto ordenado de
columnas:
111
A = (
𝑎11 𝑎12 … 𝑎1𝑛𝑎21⋮
𝑎𝑚1
𝑎22 … 𝑎2𝑛⋮ ⋱ ⋮
𝑎𝑚2 … 𝑎𝑚𝑛
) = (𝑎1 𝑎2 … 𝑎𝑛), con 𝑎𝑖 = (
𝑎1𝑖𝑎2𝑖⋮𝑎𝑚𝑖
).
DEFINICIÓN: Llamamos determinante de una matriz cuadrada A, de dimensión n×n, a
una función de las matrices cuadradas en el cuerpo 𝕂, constituyente de los elementos
de la matriz: det: A → det A ∈ 𝕂 tal que cumpla las siguientes condiciones:
1) Es multilineal, es decir:
i) que si una columna i de la matriz, es suma de dos columnas, el determinante es
la suma de los determinantes de cada una de las matrices en que se
descompone la primera matriz si formamos dos matrices con todas las columnas
iguales salvo la i-ésima que toma el valor de una y otra columna en la suma en
la que se descompone la columna i-ésima en la primera matriz, es decir:
det(𝑎1 ⋯ 𝑎′𝑖 + 𝑎′′𝑖 … 𝑎𝑛) = det(𝑎1 ⋯ 𝑎′𝑖 … 𝑎𝑛) + det(𝑎1 ⋯ 𝑎′′𝑖 … 𝑎𝑛)
ii) y si una columna es producto de un escalar por otra columna, entonces, el
determinante de esa matriz es el producto del escalar por el determinante de la
matriz con esa otra columna sin el producto por el escalar, es decir:
det(𝑎1 ⋯ 𝑐 • 𝑎𝑖 … 𝑎𝑛) = c•det(𝑎1 ⋯ 𝑎𝑖 … 𝑎𝑛).
2) Es alternada, es decir que el determinante de una matriz cambia de signo al cambiar
entre sí dos columnas, o en símbolos:
det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = - det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛).
3) El determinante de la matriz unidad de dimensión n×n vale la unidad del cuerpo:
det 𝐼𝑛 = 1.
También se nota al determinante de esta otra manera: det A = |
𝑎11 𝑎12 … 𝑎1𝑛𝑎21⋮𝑎𝑛1
𝑎22 … 𝑎2𝑛⋮ ⋱ ⋮
𝑎𝑛2 … 𝑎𝑛𝑛
|.
Más adelante demostraremos la existencia de tal función, pues a primera vista no se
puede saber si una tal función puede existir con esas propiedades. De momento,
podemos demostrar una serie de proposiciones sobre propiedades del determinante
que debe tener según su definición.
PROPOSICIÓN 1: Sea A = (𝑎1 𝑎2 … 𝑎𝑛) una matriz n×n:
a) Si una de las columnas de A, 𝑎𝑖 = 0, el vector columna cuyos todos los elementos
son 0, entonces, det A = 0.
b) Si dos columnas de A son iguales 𝑎𝑖 = 𝑎𝑗, con i ≠ j, entonces, det A = 0, siempre que
en el cuerpo 𝕂, 1 + 1 ≠ 0, es decir tenga característica distinta de 2.
c) El determinante no cambia de valor si a una columna le sumamos una combinación
lineal de las otras.
DEMOSTRACIÓN:
a) det A = det (𝑎1 … 0→ … 𝑎𝑛) = det(𝑎1 … 0 ∙
0→ … 𝑎𝑛) =
= 0•det (𝑎1 … 0→ … 𝑎𝑛) = 0.
112
b) det (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = -det (𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛), lo que
implica que 2•det (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) =
= 2•det (𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) = 0,
por lo que det (𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) = 0.
c) det A = det (𝑎1 … 𝑎𝑖 + ∑ µ𝑗 • 𝑎𝑗𝑗≠i … 𝑎𝑛) =
= det (𝑎1 … 𝑎𝑖 … 𝑎𝑛) + ∑ µ𝑗 •𝑗≠i det (𝑎1 … 𝑎𝑗 … 𝑎𝑗 … 𝑎𝑛), pero el
sumando del sumatorio es una suma de 0, pues se trata de determinantes con la
columna 𝑎𝑗 repetida. □
PROPOSICIÓN 2: Sea A una matriz cuadrada, entonces:
a) det A•𝐹𝑖𝑗 = -det A, con 𝐹𝑖𝑗 una matriz elemental por columnas de tipo I, es decir que
intercambia dos columnas.
b) det A•𝐹𝑖(k) = k•det A, siendo 𝐹𝑖(k) una matriz elemental por columnas de tipo II, es
decir, la matriz que multiplica a una columna por la constante k.
c) det A•𝐹𝑖𝑗(k) = det A, siendo 𝐹𝑖𝑗(k) una matriz elemental por columnas de tipo III, es
decir, la matriz que suma a la columna i, la j multiplicada por la constante k.
d) En particular: det 𝐹𝑖𝑗 = -1, det 𝐹𝑖(k) = k y det 𝐹𝑖𝑗(k) = 1, cuando cambiamos A por la
matriz identidad de orden n, 𝐼𝑛.
e) Por lo tanto si F es una matriz elemental sin considerar su naturaleza se cumple lo
siguiente: det (A•F) = (det A)• (det F)
DEMOSTRACIÓN: a), b) y c) son evidentes según la proposición anterior y la definición
del determinante, d) también lo es, si aplicamos a), b) y c) anteriores sustituyendo la
matriz A por la identidad 𝐼𝑛; e) resulta de la aplicación de los demás casos. □
PROPOSICIÓN 3: Sea A = (𝑎1 𝑎2 … 𝑎𝑛) una matriz n×n y sea α una permutación de
𝑆𝑛, entonces det (𝑎α(1) 𝑎α(2) … 𝑎α(𝑛)) = ε(α)•det (𝑎1 𝑎2 … 𝑎𝑛), siendo ε(α)
el signo de la permutación α.
DEMOSTRACIÓN: Sea α = ρ𝑟○…○ρ2○ρ1 una descomposición de α en producto de
trasposiciones, de modo que α se obtiene de la identidad, al multiplicar esta un número
par o impar, pero solo uno de estos dos números: par o impar de trasposiciones. De
modo que para obtener la matriz (𝑎α(1) 𝑎α(2) … 𝑎α(𝑛)) hemos tenido que aplicar
a sus columnas un número par o impar, pero un numero con una sola paridad de
trasposiciones correspondiente a si α es par o impar. Pero al aplicar una trasposición en
las que se descompone α a las columnas de la matriz A cambiamos el determinante de
esta de signo, de modo que si aplicamos un número par de trasposiciones nos queda el
determinante igual al de A y si aplicamos un número impar de trasposiciones a la matriz
A, el determinante cambia de signo. Este razonamiento demuestra la proposición. □
7.5 Expresión del determinante en función de los coeficientes de la matriz
Veremos como la definición del determinante que hemos dado nos lleva a una expresión
precisa, aunque compleja, de su valor con la cual podremos hacer cálculos. Pero antes
de deducir la fórmula general vamos a ver los casos particulares de matrices con
dimensión n = 1, 2 y 3, para hacernos una idea de esta expresión que podremos
113
generalizar para cualquier valor de n. Mas adelante también demostraremos que esta
expresión cumple las propiedades de la definición, por lo que estas propiedades de su
definición lo determinan unívocamente.
EJEMPLOS: Deduzcamos el valor del determinante de las matrices de orden 1, 2 y 3:
a) Orden 1: La matriz identidad es 𝐼1 = (1). Por definición det 𝐼1 = 1. Sea una matriz
cualquiera A, en esta dimensión adquiere la forma A = (a) = (a•1), por la propiedad
de multilinearidad det A = a•det (1) = a•1 = a.
b) Orden 2: Para una matriz general de orden 2, A, podemos escribir cada columna
descompuesta de la siguiente manera: 𝑎𝑗 = (𝑎1𝑗𝑎2𝑗
) = 𝑎1𝑗•(10) + 𝑎2𝑗•(
01) = 𝑎1𝑗•𝑒1 +
𝑎2𝑗•𝑒2, con 𝑒1 = (10), 𝑒2 = (
01). Ahora aplicamos la propiedad multilineal y alternada
para obtener:
det A = det(𝑎11•𝑒1 + 𝑎21•𝑒2 𝑎12•𝑒1 + 𝑎22•𝑒2 ) = 𝑎11•det(𝑒1 𝑎12•𝑒1 + 𝑎22•𝑒2 ) +
+ 𝑎21•det(𝑒2 𝑎12•𝑒1 + 𝑎22•𝑒2 ) = 𝑎11•𝑎12•det(𝑒1 𝑒1) + 𝑎11•𝑎22•det(𝑒1 𝑒2 ) +
𝑎21•𝑎12•det(𝑒2 𝑒1) + 𝑎21•𝑎22•det(𝑒2 𝑒2 ) = 𝑎11•𝑎22 - 𝑎21•𝑎12.
c) Orden 3: En orden 3 descomponemos la columnas de nuevo de la siguiente manera:
𝑎𝑗 = (
𝑎1𝑗𝑎2𝑗𝑎3𝑗
) = 𝑎1𝑗•𝑒1 + 𝑎2𝑗•𝑒2 + 𝑎3𝑗•𝑒3, con 𝑒1 = (100), 𝑒2 = (
010), 𝑒3 = (
001) y dejando
los cálculos en manos del lector se obtiene la siguiente expresión para el
determinante:
det A = 𝑎11•𝑎22•𝑎33 + 𝑎21•𝑎32•𝑎13 + 𝑎31•𝑎12•𝑎23 - 𝑎31•𝑎22•𝑎13 - 𝑎21•𝑎12•𝑎33 –
- 𝑎11•𝑎32•𝑎23.
El orden del determinante es el siguiente no importando la dimensión de la matriz:
Se obtiene una suma del producto de elementos de la matriz tomando en cada
producto un elemento de cada fila y de cada columna estando en cada producto
todas las filas y todas las columnas y se obtiene la suma de todos los productos
posibles con la salvedad de que el signo de cada sumando puede ser positivo o
negativo. Para ver cuando un sumando se suma o se resta veremos la expresión
exacta del determinante en el siguiente teorema.
TEOREMA 1: Sea A una matriz cuadrada de orden n entonces el determinante de A es la
suma de todos los productos de n elementos de la matriz escogidos de tal manera que,
en cada producto, aparezcan elementos de cada fila y cada columna; si los ordenamos
según las columnas, el índice de la fila de cada elemento aparece según cada
permutación de 𝑆𝑛 y el signo del producto lo determina el signo de la permutación
correspondiente a las filas. Expresado simbólicamente se entiende mejor:
det A = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛.
114
DEMOSTRACIÓN: La demostración sigue el patrón de la discusión previa al teorema sea
la columna 𝑎𝑗 = (
𝑎1𝑗𝑎2𝑗⋮𝑎𝑛𝑗
) = 𝑎1𝑗•(
10⋮0
) + 𝑎2𝑗•(
01⋮0
) + … + 𝑎𝑛𝑗•(
00⋮1
) = 𝑎1𝑗•𝑒1 + 𝑎2𝑗•𝑒2 + … +
+ 𝑎𝑛𝑗•𝑒𝑛. Con esta construcción se tiene,
det (𝑎1 … 𝑎𝑛) = det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1
𝑎2 … 𝑎𝑛) = det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1
∑ 𝑎𝑗22 • 𝑒𝑗2𝑛𝑗2
𝑎3 … 𝑎𝑛) =
det (∑ 𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1
… ∑ 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛𝑛𝑗𝑛
) = ∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1
∑ 𝑎𝑗22 • 𝑒𝑗2𝑛𝑗2
… ∑ 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛𝑛𝑗𝑛
) =
∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1,𝑗2
𝑎𝑗22 • 𝑒𝑗2 ∑ 𝑎𝑗33 • 𝑒𝑗3𝑛𝑗3
… ∑ 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛𝑛𝑗𝑛
) = … =
= ∑ det (𝑎𝑗11 • 𝑒𝑗1𝑛𝑗1,…,𝑗𝑛
… 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) = ∑ 𝑎𝑗11 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛
𝑎𝑗22 • 𝑒𝑗2 … 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) =
∑ 𝑎𝑗11 • 𝑎𝑗22 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛
𝑒𝑗2 𝑎𝑗33 • 𝑒𝑗3 … 𝑎𝑗𝑛𝑛 • 𝑒𝑗𝑛) = … =
= ∑ 𝑎𝑗11 • … • 𝑎𝑗𝑛𝑛 • det (𝑒𝑗1𝑛𝑗1,…,𝑗𝑛
… 𝑒𝑗𝑛).
En det (𝑒𝑗1… 𝑒𝑗𝑛) los índices 𝑗𝑖 pueden tomar valores arbitrarios de 1 hasta n, pero cada
elemento del sumando se anulará cuando 𝑗𝑟 = 𝑗𝑡. Por tanto, quedarán solo los elementos
del sumando cuyos valores de 𝑗𝑖 para los distintos 𝑗𝑖, sean permutaciones de 𝑆𝑛. Sea σ
la siguiente permutación: σ = (1 … 𝑛𝑗1 … 𝑗𝑛
), entonces, se tiene que:
det (𝑎1 … 𝑎𝑛) =
∑ • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛σ∈𝑆𝑛 •det(𝑒𝜎(1)…𝑒𝜎(𝑛)) =
= ∑ 휀(𝜎) • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛σ∈𝑆𝑛 •det(𝑒1…𝑒𝑛) =
∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑛)𝑛. □
Ahora demostraremos que esta expresión para el determinante cumple con las
propiedades de la definición.
TEOREMA 2: Existe una y solo una aplicación determinante, para cada matriz cuadrada
A, de orden n, que cumple con las propiedades de la definición del determinante.
DEMOSTRACIÓN:
a) Si una columna es suma de dos, el determinante es suma de los dos determinantes
que se forman al separar los sumandos de la columna:
Sea 𝑎𝑗 = 𝑎′𝑗 + 𝑎′′𝑗, entonces:
det(𝑎1 … 𝑎𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • (𝑎′𝜎(𝑗)𝑗 + 𝑎′′𝜎(𝑗)𝑗) • … • 𝑎𝜎(𝑛)𝑛 =
115
∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 +
+ ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
det(𝑎1… 𝑎′𝑗 … 𝑎𝑛) + det(𝑎1… 𝑎′′𝑗 … 𝑎𝑛).
b) Si una columna es el producto de otra por un escalar c, entonces, el determinante
es el producto del escalar por el determinante que resulta con la columna sin el
producto por el escalar:
Sea 𝑎𝑗 = c•𝑎′𝑗, entonces,
det(𝑎1 … 𝑎𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑐 • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
c•∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎′𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛,
por la propiedad distributiva generalizada del cuerpo.
c) Si intercambiamos dos filas del determinante, el determinante cambia de signo:
Primero demostremos que si dos filas son iguales el determinante es 0.
det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) =
∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑖)𝑖 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
Por otro lado,
∑ 휀(σ ○ β)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =
= 휀(β)• ∑ 휀(σ)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =
= -∑ 휀(σ)σ○β∈𝑆𝑛 • 𝑎(σ○β)(1)1 • … • 𝑎(σ○β)(𝑖)𝑖 • … • 𝑎(σ○β)(𝑗)𝑗 • … • 𝑎(σ○β)(𝑛)𝑛 =
= -∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎(1)1 • … • 𝑎𝜎(𝑖)𝑖 • … • 𝑎𝜎(𝑗)𝑗 • … • 𝑎𝜎(𝑛)𝑛 =
= - det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) si 𝑎𝑖 = 𝑎𝑗, porque 𝑎(σ○β)(𝑖)𝑖 = 𝑎(σ○β)(𝑗)𝑗
y 𝑎(σ○β)(𝑘)𝑘 = 𝑎𝜎(𝑘)𝑘, con k ≠ i, j y con α = σ○β, β es la trasposición β = (i j) y α recorre todas las
permutaciones (de 𝑆𝑛) si σ recorre todas las permutaciones y σ○β = σ, salvo en el caso de los
índices i y j donde no importa que sean diferentes en esos casos pues los elementos a los que
se aplican son iguales.
De modo que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = - det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) si 𝑎𝑖 = 𝑎𝑗, por lo que
2• det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = 0, lo que implica en todos los cuerpos de característica
116
distinta de 2, que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = 0
Ahora veremos que la propiedad anterior determina que el determinante cambie de
signo al cambiar dos columnas entre sí.
Tenemos que 0 = det(𝑎1 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) =
= det(𝑎1 … 𝑎𝑖 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑖+𝑎𝑗 … 𝑎𝑛) =
= det(𝑎1 … 𝑎𝑖 … 𝑎𝑖 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) +
+ det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛) = 0 + 0 + det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) + det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛),
por lo que det(𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) = -det(𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛)
d) El determinante de la matriz unidad det 𝐼𝑛 = 1:
En 𝐼𝑛 los únicos elementos distintos de 0 son los de la diagonal principal cuyo producto
es el único producto que aparece en la expresión del determinante según los
coeficientes de la matriz (puesto que todos los demás productos en el sumando
contienen al menos un 0). La conclusión se obtiene si sabemos que estos elementos son
1 cuyo producto es 1. □
7.6 Más propiedades de los determinantes
Sin más vamos a demostrar seguidamente, ciertas proposiciones con referencia a los
determinantes.
PROPOSICIÓN 1: El determinante de una matriz coincide con el determinante de su
traspuesta.
DEMOSTRACIÓN:
det 𝐴𝑡 = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • [𝐴𝑡]𝜎(1)1 • … • [𝐴𝑡]𝜎(𝑛)𝑛 =
= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • [𝐴]1𝜎(1) • … • [𝐴]𝑛𝜎(𝑛) = ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎1𝜎(1) • … • 𝑎𝑛𝜎(𝑛) =
= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎−1(𝜎(1))𝜎(1) • … • 𝑎𝜎−1(𝜎(𝑛))𝜎(𝑛) =
Ordenando los productos para que los índices de las columnas queden siempre
ordenados (con el orden de la permutación identidad, es decir) en todos los productos
queda,
= ∑ 휀(𝜎)𝜎∈𝑆𝑛 • 𝑎𝜎−1(1)1 • … • 𝑎𝜎−1(𝑛)𝑛 =
Pero como el signo de una permutación es el mismo que el de la inversa tenemos
= ∑ 휀(𝜎−1)𝜎∈𝑆𝑛 • 𝑎𝜎−1(1)1 • … • 𝑎𝜎−1(𝑛)𝑛 = det A
117
Finalmente, ya que a toda permutación le corresponde una y solo una inversa, si
recorremos todos los miembros del sumando para las permutaciones de 𝑆𝑛, ocurrirá
que 𝜎−1 recorrerá también todo 𝑆𝑛. □
COROLARIO 1: Todas Las propiedades del determinante correspondiente a las filas es
también una propiedad correspondiente a las columnas.
DEMOSTRACIÓN: Toda propiedad de las filas de 𝐴𝑡 es una propiedad de las columnas de
A y viceversa, por lo que podemos demostrar una propiedad del determinante para las
filas o columnas de 𝐴𝑡 y resultará una propiedad del determinante para las columnas o
filas correspondientemente de A. □
En la subsubsección 7.4 hemos demostrado que si F es una matriz elemental sin
considerar su naturaleza, se cumple lo siguiente: det (A•F) = (det A)• (det F), gracias a la
proposición 1 de esta subsección se cumple el corolario correspondiente a la relación
entre el determinante de una matriz y el del producto de esta por una matriz elemental
por filas.
COROLARIO 2: Si E es una matriz elemental por filas sin considerar en detalle de qué tipo
de matriz elemental por filas se trata y A una matriz cualquiera, se cumple lo siguiente:
det(E•A) = (det E)•(det A).
DEMOSTRACIÓN:
det(E•A) = det ((E • A)𝑡) = det((A)𝑡 • (E)𝑡) = det((A)𝑡 • 𝐹) = (det (A)𝑡) • (det F) =
(det A)•(det E),
para alguna matriz elemental por columnas F (exactamente para F = 𝐸𝑡). □
PROPOSICIÓN 2: Una matriz es invertible si y solo si, su determinante es distinto de 0.
DEMOSTRACIÓN: Si una matriz A es invertible se puede expresar como producto de
matrices elementales A = 𝐸1•…•𝐸𝑘, de modo que det A = (det 𝐸1)•…•(det 𝐸𝑘), con det𝐸1
≠ 0, … det𝐸𝑘 ≠ 0, por lo que det A ≠ 0.
Si A no es invertible debe ocurrir por fuerza, que por transformaciones elementales de
filas o columnas se llegue a una matriz que tenga una fila de ceros, pues si no fuera así,
su forma normal de Hermite por filas o columnas sería la identidad y obtendríamos una
contradicción con que 𝐸1•…•𝐸𝑘•A = 𝐼𝑛, la matriz identidad, forma de Hermite de A,
porque entonces, A tendría inversa, contrario a la suposición. De modo que 𝐸1•…•𝐸𝑘•A
por ejemplo, si calculamos su forma de Hermite por filas, y tiene una fila de ceros y por
tanto el determinante es 0, pero det(𝐸1• •…•𝐸𝑘•A) = (det 𝐸1)•…•(det 𝐸𝑘)•(det A) = 0
por lo que a la fuerza, det A = 0. □
PROPOSICIÓN 3: Sean A y B matrices cuadradas cualesquiera de la misma dimensión,
entonces,
det (A•B) = (det A)•(det B).
118
DEMOSTRACIÓN: Si A es invertible, entonces, A = 𝐸1•…•𝐸𝑘, como producto de matrices
elementales, entonces, det (A•B) = (det 𝐸1)•…•(det 𝐸𝑘)•(det B) =
= (det A)•(det B), según las proposiciones anteriores.
Si A no es invertible, entonces det A = 0, por lo que existen matrices 𝐸1,…, 𝐸𝑘, tales que
𝐸1•…•𝐸𝑘•A = C tiene una fila de ceros, por lo que C•B también tiene una fila de ceros y
det (C•B) = 0 = det (𝐸1•…•𝐸𝑘•A•B) lo que implica que det (A•B) = 0 = (det A)•(det B). □
COROLARIO 3: Se cumple lo siguiente: det(𝐴−1) = 1/det(A).
DEMOSTRACIÓN: 1 = det(𝐼𝑛) = det(A•𝐴−1) = det(A)• det(𝐴−1), por lo que se deduce la
proposición. □
7.7 Desarrollo del determinante por una fila o columna
En esta subsección vamos a ver un modo de obtener el determinante de una matriz
cuadrada de modo recurrente, el resultado no va a ser el mejor modo de calcular un
determinante, salvo para la dimensión de la matriz baja (n = 2 o 3), pero es un resultado
valioso teóricamente.
DEFINICIONES 1: Se llama menor de orden k de una matriz A m×n con k ≤ min{m, n} a
una matriz cuadrada de orden k, obtenida con los coeficientes de A situados en k filas y
k columnas de A que fijemos. Se llama menor adjunto de un coeficiente 𝑏𝑖𝑗 de una matriz
cuadrada B, al menor que resulta de suprimir la fila i y la columna j de la matriz B, lo
denotaremos como 𝐵𝑖𝑗, es decir, con el mismo símbolo para el coeficiente de B a partir
del cual se obtiene el menor adjunto, pero con letra mayúscula en lugar de minúscula.
EJEMPLOS 1: Sea A = (1 1 2 12 3 0 0−1 1 1 5
), B = (
1 1 2 12 3 0 0−1−1
19
1 50 −8
), entonces, fijando las
filas {2, 3} y las columnas {1, 3} de A, obtenemos el menor de orden 2, M, siguiente:
M = (2 0−1 1
) y fijando las filas {1, 3, 4} y las columnas {1, 2, 4} obtenemos un menor de
orden 3 de B, que es el menor adjunto de 𝑏23,
𝐵23 = (1 1 1−1 1 5−1 9 −8
).
DEFINICIONES 2: Definamos la siguiente aplicación: D: 𝔐n(𝕂) → 𝕂 de forma recurrente
para cada n, de la siguiente manera:
1) Para k = 1, A = (𝑎11), D(A) = 𝑎11,
2) Para D definida para k = n – 1, definimos para k = n de la siguiente manera:
D(A) = 𝑎11•D(𝐴11) + … + (−1)𝑗+1•𝑎1𝑗•D(𝐴1𝑗) + … + (−1)𝑛+1•𝑎1𝑛•D(𝐴1𝑛) =
∑ (−1)𝑗+1 • 𝑎1𝑗 • D(𝐴1𝑗)𝑛𝑗=1 .
119
Llamamos a la función D así obtenida desarrollo del determinante por la primera fila y
veremos que elegir una fila u otra no determina el valor del determinante. Además, si
llamamos adjunto de un coeficiente 𝑎𝑖𝑗 de una matriz cuadrada A y lo simbolizamos, de
la siguiente manera: Ad(𝐴)𝑖𝑗 = (−1)𝑖+𝑗•D(𝐴𝑖𝑗), se tiene una nueva definición de la
aplicación D(A):
1) D(a) = a
2) D(A) = ∑ 𝑎1𝑗 • Ad(𝐴)1𝑗 𝑛𝑗=1 .
EJEMPLOS 2: Para matrices de orden 2 tenemos lo siguiente: D(𝑎11 𝑎12𝑎21 𝑎22
) =
= 𝑎11•D(𝑎22) - 𝑎12•D(𝑎21) = 𝑎11•𝑎22 - 𝑎12•𝑎21;
Para matrices de orden 3 se tiene: D(
𝑎11 𝑎12 𝑎13𝑎21 𝑎22 𝑎23𝑎31 𝑎32 𝑎33
) = 𝑎11•D(𝑎22 𝑎23𝑎32 𝑎33
) –
𝑎12•D(𝑎21 𝑎23𝑎31 𝑎33
) + 𝑎13•D(𝑎21 𝑎22𝑎31 𝑎32
) = 𝑎11•(𝑎22•𝑎33 - 𝑎32•𝑎23) –
-𝑎12•(𝑎21•𝑎33 - 𝑎31•𝑎23) + 𝑎13•(𝑎21•𝑎32 - 𝑎31•𝑎22) =
= 𝑎11•𝑎22•𝑎33 + 𝑎31•𝑎12•𝑎23 + 𝑎21•𝑎32•𝑎13 - 𝑎11•𝑎32•𝑎23 - 𝑎21•𝑎12•𝑎33 -
𝑎31•𝑎22•𝑎13.
Por lo que vemos que se tratan precisamente de los determinantes para las
matrices (cuadradas) de orden 2 y 3.
EJEMPLOS 3: Demostraremos en el siguiente teorema que la aplicación D es el
determinante, por ahora con esta información se pueden calcular muy bien los
determinantes de matrices de orden bajos (sobre todo si hay elementos 0):
a) |3 0 01 1 09 5 8
| = 3•|1 05 8
| = 3•1•8 = 24.
b) |
3 1 0 40 1 0 101
52
−8 −3−1 2
| = 3•|1 0 15 −8 −32 −1 2
| - 1•|0 0 10 −8 −31 −1 2
| - 4•|0 1 00 5 −81 2 −1
| = 3•(-8) –
1•(8) - 4•(-8) = 0.
TEOREMA: La aplicación D antes definida recursivamente coincide con la aplicación
determinante.
DEMOSTRACIÓN: Con el trabajo hecho anteriormente en esta subsección 7 se
demuestra este teorema comprobando las propiedades que definen a la aplicación
determinante y que valga la redundancia, lo determinan. Lo demostraremos por
inducción suponiendo que la propiedad se cumple para k = n – 1 y sabiendo que para k
= 1, 2 y 3 se cumple que la aplicación D es la misma que el determinante.
a) Propiedad multilineal:
120
i) Sea A una matriz una de cuyas columnas sea la suma de las de otras dos
matrices que poseen las restantes columnas iguales, es decir, sea:
A = (𝑎1 … 𝑎′𝑖 + 𝑎′′𝑖 … 𝑎𝑛), A’ = (𝑎1 … 𝑎′𝑖 … 𝑎𝑛),
A’’ = (𝑎1 … 𝑎′′𝑖 … 𝑎𝑛), entonces, Ad(𝐴)1𝑖 = Ad(𝐴′)1𝑖 = Ad(𝐴′′)1𝑖, mientras
que Ad(𝐴)1𝑘 = Ad(𝐴′)1𝑘 + Ad(𝐴′′)1𝑘, con k ≠ i, por hipótesis de inducción.
Por lo que,
D(A) = ∑ 𝑎1𝑗 • Ad(𝐴)1𝑗 𝑛𝑗=1 = (∑ 𝑎1𝑘 • (Ad(𝐴′)1𝑘 + Ad(𝐴′′)1𝑘)
𝑛𝑘≠𝑖 ) +
(𝑎′1𝑖 + 𝑎′′1𝑖)• Ad(𝐴)1𝑖 = (∑ 𝑎1𝑘 • Ad(𝐴′)1𝑘𝑛𝑘≠𝑖 + 𝑎′1𝑖• Ad(𝐴′)1𝑖) +
(∑ 𝑎1𝑘 • Ad(𝐴′′)1𝑘𝑛𝑘≠𝑖 + 𝑎′′1𝑖• Ad(𝐴′′)1𝑖) = D(A’) + D(A’’).
ii) Sea ahora A = (𝑎1 … 𝑎𝑖 … 𝑎𝑛), B = (𝑎1 … 𝛽 • 𝑎𝑖 … 𝑎𝑛), entonces se tiene que:
Ad(𝐴)1𝑖 = Ad(𝐵)1𝑖 y Ad(𝐵)1𝑘 = β• Ad(𝐴)1𝑘, con k ≠ i, por hipótesis de
inducción. Por tanto: D(B) = (∑ 𝑎1𝑘 • Ad(𝐵)1𝑘𝑛𝑘≠𝑖 ) + (β•𝑎1𝑖)•Ad(𝐵)1𝑖 =
(∑ 𝑎1𝑘 • β • Ad(𝐴)1𝑘𝑛𝑘≠𝑖 ) + (β•𝑎1𝑖)•Ad(𝐴)1𝑖 = β•D(A).
b) Propiedad alternada:
Sea A = (𝑎1 … 𝑎𝑖 … 𝑎𝑗 … 𝑎𝑛) y B = (𝑎1 … 𝑎𝑗 … 𝑎𝑖 … 𝑎𝑛), entonces, por hipótesis de
inducción, Ad(𝐵)1𝑘 = - Ad(𝐴)1𝑘, con k ≠ i, j. Por otra parte, las columnas del menor
𝐴1𝑖 coinciden con las del 𝐵1𝑗, salvo la 𝑎𝑗, que en 𝐴1𝑖, ocupan el lugar (j - 1) (puesto
que hemos eliminado la columna 𝑎𝑖) y en 𝐵1𝑗 que ocupa el lugar i. Por lo que
podemos pasar de 𝐴1𝑖 a 𝐵1𝑗 haciendo j – i – 1 intercambios de posición. Por hipótesis
de inducción cada intercambio cambia el signo de modo que se tiene lo siguiente:
Ad(𝐴)1𝑖 = (−1)1+𝑖•det(𝐴1𝑖) = (−1)1+𝑖•((−1)𝑗−𝑖−1•det(𝐵1𝑗)) =
= -(−1)𝑗−1•det(𝐵1𝑗) = - Ad(𝐵)1𝑗. Análogamente se obtiene que Ad(𝐴)1𝑗 =
- Ad(𝐵)1𝑖, por lo que D(A) = (∑ 𝑎1𝑘 • Ad(𝐴)1𝑘)𝑛𝑘≠𝑖,𝑗 + 𝑎1𝑖 • Ad(𝐴)1𝑖 +
+ 𝑎1𝑗 • Ad(𝐴)1𝑗 = = (∑ 𝑎1𝑘 • (−Ad(𝐵)1𝑘))𝑛𝑘≠𝑖,𝑗 + 𝑎1𝑖 • (−Ad(𝐵)1𝑗) +
𝑎1𝑗 • (−Ad(𝐴)1𝑖) = - D(B).
c) Es claro que D(𝐼𝑛) = 1•D(Ad(𝐼𝑛)11) = D(𝐼𝑛−1) = 1. □
En la siguiente proposición veremos que no importa que fila escojamos para desarrollar
el determinante, demostraremos que podemos desarrollar el determinante por
cualquier fila. Y en la siguiente proposición veremos que también se puede desarrollar
el determinante por cualquier columna.
PROPOSICIÓN 1: Escojamos una fila j cualquiera de la matriz A de dimensión n×n,
entonces, det(A) = 𝑎𝑗1• Ad(𝐴)𝑗1 + … + 𝑎𝑗𝑖• Ad(𝐴)𝑗𝑖 + … + 𝑎𝑗𝑛• Ad(𝐴)𝑗𝑛. Esta expresión
se conoce como desarrollo del determinante por la j-ésima fila.
DEMOSTRACIÓN: Sea B la matriz obtenida de A cambiando la fila j a la primera posición,
entonces: 𝐵1𝑖 = 𝐴𝑗𝑖, de donde, Ad(𝐵)1𝑖 = (−1)𝑗−1• Ad(𝐴)𝑗𝑖 y por tanto,
det(A) = (−1)𝑗−1•det(B) = (−1)𝑗−1•(𝑏11• Ad(𝐵)11 + … + 𝑏1𝑖• Ad(𝐵)1𝑖 + … +
+ 𝑏1𝑛• Ad(𝐵)1𝑛) = 𝑎𝑗1• Ad(𝐴)𝑗1 + … + 𝑎𝑗𝑖• Ad(𝐴)𝑗𝑖 + … + 𝑎𝑗𝑛• Ad(𝐴)𝑗𝑛. □
PROPOSICIÓN 2: Fijada una columna j cualquiera de una matriz cuadrada A de orden n,
se tiene: det(A) = 𝑎1𝑗• Ad(𝐴)1𝑗 + … + 𝑎𝑖𝑗• Ad(𝐴)𝑖𝑗 + … + 𝑎𝑛𝑗• Ad(𝐴)𝑛𝑗. Esta expresión
se conoce como desarrollo del determinante por la j-ésima columna.
121
DEMOSTRACIÓN: Sabemos que det(A) = det(𝐴𝑡) y la expresión de la proposición es el
desarrollo por la j-ésima fila de 𝐴𝑡. □
COROLARIO: El determinante de una matriz triangular (superior o inferior) es el producto
de los elementos de su diagonal principal.
DEMOSTRACIÓN: Demostraremos este corolario para el caso de una matriz triangular
superior y lo haremos por inducción en el número k del orden de la matriz.
a) Caso k = 2, el caso de una matriz de una fila y columna es trivial y no hay nada que
decir. En el caso de que la matriz A sea de dimensión 2×2, entonces A = (𝑎11 𝑎120 𝑎22
),
pues hemos convenido en que es una matriz triangular superior. En este caso, si
desarrollamos el determinante por la primera columna se tiene:
Det A = 𝑎11•𝑎22 - 0•𝑎12 = 𝑎11•𝑎22, por lo que se cumple el corolario en este caso.
b) Caso k = n, supuesto cierto para k = n – 1. Entonces la matriz A es de la siguiente
forma:
A = (
𝑎11 𝑎12 … 𝑎1𝑛0⋮0
𝑎22⋮0
…⋱…
𝑎2𝑛⋮𝑎𝑛𝑛
)
Desarrollando el determinante por la primera columna, tenemos que det A =
𝑎11•Adj(A)11 = 𝑎11•det A’ = 𝑎11•𝑎22• … •𝑎𝑛𝑛, por hipótesis de inducción en los
determinantes de dimensión k = n – 1, para matrices triangulares superiores, y
donde A’ es la matriz que resulta de A eliminando la primera fila y columna, es decir,
el menor adjunto del elemento 𝑎11 de A y que es triangular superior, al igual que A.
Para las matrices triangulares inferiores se demuestra de la misma manera
desarrollando los determinantes por la primera fila en lugar del desarrollo por la primera
columna como hemos hecho en el caso de matrices triangulares superiores. □
7.8 La regla de Laplace
Esta pequeña subsección está dedicada a esta regla importante para calcular
determinantes con una configuración especial. Sin más enunciamos y demostramos la
proposición.
PROPOSICIÓN (Regla de Laplace): Sea A = (𝐵 ⋮ 0⋯ ⋯ ⋯𝑀 ⋮ 𝐶
), con [𝐵]𝑖𝑗 = 𝑏𝑖𝑗, [𝐶]𝑖𝑗 = 𝑐𝑖𝑗,
matrices cuadradas de orden k y h respectivamente y [𝑀]𝑖𝑗 = 𝑚𝑖𝑗 una matriz de orden
h×k, entonces se cumple que:
det(A) = det(B)• det(C).
También se cumple que para una matriz A = (𝐵 ⋮ 𝑀⋯ ⋯ ⋯0 ⋮ 𝐶
), con [𝐵]𝑖𝑗 = 𝑏𝑖𝑗, [𝐶]𝑖𝑗 = 𝑐𝑖𝑗,
matrices cuadradas de orden k y h respectivamente y [𝑀]𝑖𝑗 = 𝑚𝑖𝑗 una matriz de orden
k×h,
122
det(A) = det(B)• det(C).
DEMOSTRACIÓN: Procederemos por inducción sobre el número k desarrollando el
determinante de A, para la primera proposición por la primera fila. Si k = 1 se tiene:
det(𝑏11 ⋮ 0⋯ ⋯ ⋯𝑀 ⋮ 𝐶
) = 𝑏11•det(C).
Supongamos el enunciado cierto para k – 1, entonces, para k se tiene:
det(A) = det
(
𝑏11 … 𝑏1𝑘 ⋮ 0 ⋯ 0⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮𝑏𝑘1⋯𝑚11
⋮𝑏ℎ1
…⋯⋯⋱⋯
𝑏𝑘𝑘⋯𝑚1𝑘
⋮𝑏ℎ𝑘
⋮⋯⋮⋮⋮
0⋯𝑐11⋮𝑐ℎ1
⋯⋯⋯⋱⋯
0⋯𝑐1ℎ⋮𝑐ℎℎ)
=
𝑏11•𝐴𝑑(𝐴)11 + … + 𝑏1𝑘•𝐴𝑑(𝐴)1𝑘.
Pero 𝐴𝑑(𝐴)1𝑗 = (−1)1+𝑗•det(𝐴1𝑗) = (−1)1+𝑗•det(𝐵1𝑗)•det(C) = 𝐴𝑑(𝐵)1𝑗•det(C), por
hipótesis de inducción y para j = 1, …, k, de donde:
det(A) = (𝑏11 • 𝐴𝑑(𝐵)11 + … + 𝑏1𝑘 • 𝐴𝑑(𝐵)1𝑘) •det(C) = det(B) •det(C).
Haciendo el desarrollo del determinante de A en el segundo caso por la primera columna
se obtiene de igual manera el segundo caso. □
7.9 Cálculo de la matriz inversa por medio de determinantes
Hay una fórmula precisa para calcular la matriz inversa de una dada. Esta fórmula será
de interés sobre todo teórico pues el cálculo de la matriz inversa por medio del algoritmo
de Gauss, discutido en la subsección 6.3, es mucho más rápido que utilizar esta fórmula.
Esta subsección está dedicada a presentar y demostrar esta fórmula importante.
DEFINICIÓN: Dada una matriz cuadrada A, de orden n, llamamos matriz adjunta a la que
resulta de sustituir cada elemento por su adjunto asociado y la notaremos como 𝐴∗, de
modo que, por definición, [𝐴∗]𝑖𝑗 = Ad(𝐴)𝑖𝑗.
EJEMPLO 1: Si A = (1 2 32 3 43 4 6
), entonces, 𝐴∗ = (2 0 −10 −3 2−1 2 −1
).
PROPOSICIÓN: Sea A una matriz cuadrada de orden n y sea 𝐴∗ la matriz adjunta de A,
entonces,
A•(𝐴∗) 𝑡 = det(A)• 𝐼𝑛.
DEMOSTRACIÓN: Sea C = A•(𝐴∗) 𝑡, de modo que [𝐶]𝑖𝑗 = 𝑐𝑖𝑗, por lo tanto, cada elemento
de C es el producto de la la fila correspondiente de A por la columna correspondiente
de (𝐴∗) 𝑡, por definición de producto de matrices, de modo que resulta:
123
𝑐𝑖𝑗 = 𝑎𝑖1• Ad(𝐴)𝑗1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑗𝑛.
Para i = j se tiene: 𝑐𝑖𝑖 = 𝑎𝑖1• Ad(𝐴)𝑖1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑖𝑛 = det(A), para todo i, puesto
que es el desarrollo del determinante de A por la i-ésima fila, para cada i.
Para i ≠ j, 𝑐𝑖𝑗 = 𝑎𝑖1• Ad(𝐴)𝑗1 + … + 𝑎𝑖𝑛• Ad(𝐴)𝑗𝑛 = 0, pues es el desarrollo del
determinante de una matriz por la fila j, con los elementos de la fila i, es decir, como si
la matriz tuviera dos filas iguales en las posiciones i y j. Por tanto, tenemos:
A•(𝐴∗) 𝑡 = (
det(A) 0 … 00 det(A) … 0⋮0
⋮0
⋱…
⋮det(A)
). □
Ahora se obtiene inmediatamente el siguiente resultado deseado.
TEOREMA: Si la matriz A cuadrada, de orden n es regular, entonces:
𝐴−1 = (1/det(A))•(𝐴∗) 𝑡.
DEMOSTRACIÓN: Si A es regular, entonces sabemos que det(A) ≠ 0, por lo que en la
fórmula de la proposición anterior podemos pasar este número (det(A)) al otro la do de
la igualdad dividiendo: A•(𝐴∗) 𝑡•(1/det(A)) = 𝐼𝑛, de lo que se deduce que,
(𝐴∗) 𝑡•(1/det(A)) = 𝐴−1. □
EJEMPLO 2: Veamos la matriz del ejemplo anterior, ejemplo 1:
A = (1 2 32 3 43 4 6
) y 𝐴∗ = (2 0 −10 −3 2−1 2 −1
).
𝐴−1 = (1/det(A))•(𝐴∗) 𝑡 = (1/-1)• (2 0 −10 −3 2−1 2 −1
) = (−2 0 10 3 −21 −2 1
), como se puede
comprobar haciendo (1 2 32 3 43 4 6
)•(−2 0 10 3 −21 −2 1
) = 𝐼3.
7.10 Relación entre el determinante y el rango de una matriz
Vamos a ver en un teorema, la relación que hay entre el rango de una matriz y el
determinante o mejor dicho, la relación del rango con los determinantes de los menores
que se pueden formar con la matriz. Pero primero vamos a establecer el siguiente lema.
LEMA: Si la matriz A de orden m×n tiene un menor de orden r con determinante distinto
de 0 y todos sus menores de orden superior tienen determinante 0, lo mismo es cierto
para el producto de A por la izquierda, por cualquier matriz elemental de filas o su
producto por la derecha, por cualquier matriz elemental de columnas.
DEMOSTRACIÓN: El argumento es un poco arduo o duro de pensar en un primer
momento, pero si el lector persiste lo comprenderá fácilmente.
124
𝐸𝑖𝑗•A tiene los mismos menores que A salvo con dos de sus filas permutadas, de modo
que si la propiedad es cierta para A también lo será para 𝐸𝑖𝑗•A, pues quizás el único
cambio en el determinante de los menores sea su cambio de signo.
𝐸𝑖(ρ)•A tiene los mismos menores que A salvo con una de sus filas multiplicada por ρ,
de modo que si la propiedad es cierta para A también lo será para 𝐸𝑖(k)•A, pues quizás,
el único cambio en los menores del determinante es multiplicar a estos por el número
k.
𝐸𝑖𝑡(ρ)•A coincide con la matriz A salvo en que a la fila i se le ha sumado la t multiplicada
por el escalar ρ. Por tanto, los menores de 𝐸𝑖𝑡(ρ)•A son menores de A en los que
posiblemente, a una fila se le ha sumando otra multiplicada por ρ salvo aquellos
menores en los que no aparece la fila t pero sí la fila i. Pensemos en esta expresión de
los determinantes:
||
𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮
𝑎𝑖𝑗1 + 𝜌 • 𝑎𝑡𝑗1⋮
𝑎𝑖𝑘𝑗1
…
…
𝑎𝑖𝑗𝑘 + 𝜌 • 𝑎𝑡𝑗𝑘⋮
𝑎𝑖𝑘𝑗𝑘
|| = ||
𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮𝑎𝑖𝑗1⋮
𝑎𝑖𝑘𝑗1
…
…
𝑎𝑖𝑗𝑘⋮
𝑎𝑖𝑘𝑗𝑘
|| + ρ•|
|
𝑎𝑖1𝑗1 … 𝑎𝑖1𝑗𝑘⋮ ⋮𝑎𝑡𝑗1⋮
𝑎𝑖𝑘𝑗1
…
…
𝑎𝑡𝑗𝑘⋮
𝑎𝑖𝑘𝑗𝑘
||.
Si todos los menores de A de orden k > r tienen determinante 0, los de 𝐸𝑖𝑡(ρ)•A también
lo tendrán.
i) Si un menor de orden r de A tiene determinante distinto de 0 y no contiene la
fila i, hay un menor de orden r de 𝐸𝑖𝑡(ρ)•A con determinante distinto de 0.
ii) Si un menor de orden r de A tiene determinante distinto de 0 y contiene las filas
i y t, hay un menor de orden r de 𝐸𝑖𝑡(ρ)•A con determinante distinto de 0 pues
según la descomposición de la ecuación anterior el determinante, segundo
sumando del lado derecho, tiene dos filas iguales (las de índice t e i) y por tanto
su valor (el del determinante de este segundo sumando) es 0.
iii) Si los únicos menores de A de orden r con determinante distinto de 0 contienen
la fila i, pero no la t, en la expresión anterior, el segundo determinante de la
derecha es 0 y por tanto, los menores de 𝐸𝑖𝑡(ρ)•A de orden r con la fila i, pero
no la t, tienen el mismo determinante que los menores de A con las mismas filas
y en particular, uno de ellos tiene determinante distinto de 0.
Los mismos argumentos, cambiando filas por columnas, demuestran que el producto
por la derecha por una matriz elemental por columnas no cambia el rango. □
Ahora estamos preparados para formular nuestro teorema de la relación entre el rango
de una matriz y los determinantes de sus menores.
TEOREMA: Sea A una matriz m×n, entonces el rango de A coincide con el mayor orden
de sus menores con determinante distinto de 0.
DEMOSTRACIÓN: Sea r = rag(A) y sea H la forma de Hermite por filas de A, entonces, H
contiene un menor regular de orden r (el que contiene los r pivotes) y puesto que H
contiene exactamente r filas no nulas todo menor de H de orden r + 1 es singular. Según
125
el lema anterior esta propiedad se mantiene multiplicando por matrices elementales de
filas de modo qua A también lo cumple. □
EJEMPLO: Consideremos la matriz A siguiente:
A = (3 6 5 91 1 2 41 −2 3 7
), por tanto, rag(A) ≤ 3.
Los distintos menores de orden 3 obtenidos de A tienen todos determinante 0:
|3 6 51 1 21 −2 3
| = |3 6 91 1 41 −2 7
| = |3 5 91 2 41 3 7
| = |6 5 91 2 4−2 3 7
| = 0,
por lo que rag(A) ≤ 2. Tomando menores de orden 2 hay uno con determinante no nulo:
|3 61 1
| = -3, luego rag(A) = 2.
Tenga en cuenta el lector que el cálculo del rango por este método es sobre todo útil
cuando se trata de calcular el rango de una matriz dependiente de algún parámetro en
sus coeficientes y se aplica, por tanto, a la discusión de sistemas dependientes de
parámetros.
7.11 La relación entre determinantes y sistemas de ecuaciones, regla de Cramer
Dado un sistema de ecuaciones:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛
==
𝑏1𝑏2…
𝑎𝑚1𝑥1 +⋯+ 𝑎𝑚𝑛𝑥𝑛
…=
…𝑏𝑚
Si denotamos por A, a la matriz de coeficientes y por X y B, a la matriz de incógnitas y a
la matriz de términos independientes respectivamente, es decir:
X = (
𝑥1⋮𝑥𝑛), B = (
𝑏1⋮𝑏𝑚
),
el sistema se expresa de esta forma maravillosa y concisa, compruébelo el lector:
A•X = B.
DEFINICIÓN: Diremos que el sistema anterior es un sistema de Cramer si A es una matriz
cuadrada (es decir, el sistema tiene el mismo número, de ecuaciones y de incógnitas) y
además A es regular.
Por tanto, sabemos que todo sistema de Cramer tiene una solución única (es compatible
y determinado), según el teorema de Rouché-Frobenius. Gracias al trabajo que hemos
desarrollado sobre los determinantes hay una forma de computar la solución de los
sistemas de Cramer que vemos en el siguiente Teorema:
126
TEOREMA (Regla de Cramer): Dado un sistema de Cramer:
{
𝑎11𝑥1 +⋯+ 𝑎1𝑛𝑥𝑛𝑎21𝑥1 +⋯+ 𝑎2𝑛𝑥𝑛
==
𝑏1𝑏2…
𝑎𝑛1𝑥1 +⋯+ 𝑎𝑛𝑛𝑥𝑛
…=
…𝑏𝑛
,
la solución única de él es la siguiente:
𝑥1 = (1/det(A))•|𝑏1 𝑎12 … 𝑎1𝑛⋮ ⋮ ⋱ ⋮𝑏𝑛 𝑎𝑛2 … 𝑎𝑛𝑛
|, …, 𝑥𝑛 = (1/det(A))•|𝑎11 𝑎12 … 𝑏1⋮ ⋮ ⋱ ⋮𝑎𝑛1 𝑎𝑛2 … 𝑏𝑛
|.
DEMOSTRACIÓN: Expresando el sistema en la forma A•X = B, puesto que A es regular
tiene inversa y podemos multiplicar ambos miembros de la igualdad por 𝐴−1, por lo que
queda X = 𝐴−1•B. Ahora, utilizando la expresión de la inversa de una matriz A, que
hemos aprendido en esta subsección se tiene:
(
𝑥1⋮𝑥𝑖⋮𝑥𝑛)
= (1/det(A))•
(
𝐴𝑑(𝐴)11 𝐴𝑑(𝐴)21 … 𝐴𝑑(𝐴)𝑛1⋮ ⋮ ⋱
𝐴𝑑(𝐴)1𝑖⋮
𝐴𝑑(𝐴)1𝑛
𝐴𝑑(𝐴)2𝑖⋮
𝐴𝑑(𝐴)2𝑛
…⋱…
𝐴𝑑(𝐴)𝑛𝑖
𝐴𝑑(𝐴)𝑛𝑛)
•(𝑏1⋮𝑏𝑛
).
Por lo que para cada 𝑥𝑖 se tiene la fórmula:
𝑥𝑖 = (1/det(A))•(𝑏1•𝐴𝑑(𝐴)1𝑖 + … + 𝑏𝑛•𝐴𝑑(𝐴)𝑛𝑖) = (1/det(A))•|
𝑎11 … 𝑏1 … 𝑎1𝑛𝑎21 … 𝑏2 … 𝑎2𝑛⋮𝑎𝑛1
⋱…
⋮𝑏𝑛
⋱…
⋮𝑎𝑛𝑛
|
pues se puede pensar la fórmula anterior como el desarrollo por la i-ésima columna del
determinante de A con la i-ésima columna sustituida por la columna de los términos
independientes, es decir la matriz B. □
EJEMPLO: Sea el sistema:
{
2𝑥 + 𝑦 + 𝑧 = 1𝑥 + 2𝑦 + 𝑧 = 2
𝑥 + 𝑦 + 2𝑧 = 3.
La matriz de coeficientes es:
A = (2 1 11 2 11 1 2
), con det(A) = 4,
por lo que es regular y estamos en el caso de un sistema de Cramer cuyas soluciones son
las siguientes:
x = (1/4)•|1 1 12 2 13 1 2
| = (1/4)•(-2) = -(1/2),
127
y= (1/4)•|2 1 11 2 11 3 2
| = (1/4)•2 = ½
z = (1/4)•|2 1 11 2 21 1 3
| = (1/4)•6 = 3/2.
Pues bien, aquí acaba esta primera sección de Sistemas de Ecuaciones, Matrices y
Determinantes. La siguiente de este libro de Álgebra Lineal estará dedicada a Espacios
Vectoriales.
128
Sección III Espacios vectoriales
129
8 Introducción
8.1 Vectores geométricos fijos y su suma
Consideremos el espacio ordinario tridimensional (Afín) euclidiano como un conjunto de
puntos S, donde no vamos a definir lo que es una recta, un segmento y la longitud de éste,
si no que los damos como conocidos, entonces vamos a hacer la siguiente definición de
vector:
DEFINICIÓN 1 (Vector fijo): Sea un par de puntos A, B, definimos como vector fijo, v = 𝐴𝐵⃗⃗⃗⃗ ⃗, al
par ordenado de los puntos A, B, por lo que este elemento tiene como propiedades las
siguientes:
a) Dirección de v: La de la recta que pasa por sus puntos, A, B.
b) Extemos de v: que son los puntos A, B, donde A se denomina punto de aplicación y B,
extremo de v, o A, inicio del vector v y B, final del mismo.
c) Sentido de v: De A hacia B, como lo define el par ordenado de puntos que es.
d) Longitud, o módulo de v: Como la longitud del segmento de recta que determinan los
dos puntos A, B, y que notaremos como ‖𝑣‖, una vez fijada una unidad de medida.
Ahora introduciremos otras notaciones convenientes:
Notaremos por 𝑊3, el conjunto de todos los vectores fijos del espacio S, es decir, definimos
𝑊3 = {𝐴𝐵⃗⃗⃗⃗ ⃗ | A, B de S} y por 𝑉𝐴3, el conjunto de todos los vectores fijos de punto de aplicación
un mismo punto, es decir, 𝑉𝐴3 = {𝐴𝐵⃗⃗⃗⃗ ⃗ | B de S}, de modo que tenemos la siguiente relación
𝑊3 = ⋃ 𝑉𝐴3
𝐴∈𝑆 .
PROPOSICIÓN 1: Fijado un punto O, entonces, hay una biyección entre 𝑉𝑂3 y S.
DEMOSTRACIÓN: Cada punto B de S determina un único vector 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 y cada vector 𝑂𝐵⃗⃗ ⃗⃗ ⃗,
de 𝑉𝑂3 determina un único punto, B, de S. □
Ahora nos referiremos a 𝑉𝑂3 una vez que hemos fijado un punto O, cualquiera y vamos a
definir la operación de suma en este conjunto.
DEFINICIÓN 2 (Suma de dos vectores fijos en el conjunto 𝑉𝑂3): Definimos la suma de dos
vectores fijos, 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 como el vector 𝑂𝐶⃗⃗⃗⃗ ⃗, tal que es la diagonal del paralelogramo
formado por los vectores 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗, a esta operación se llama regla del paralelogramo. Es fácil
de entender si observamos la figura siguiente:
130
PROPOSICIÓN 2: La suma 𝑂𝐶⃗⃗⃗⃗ ⃗ de dos vectores fijos, 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ de 𝑉𝑂3 se puede obtener como
el lado del triangulo 𝑂𝐶⃗⃗⃗⃗ ⃗, constituido (el triángulo) de los lados 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝐴𝐶⃗⃗⃗⃗ ⃗, de modo que la suma
de dos vectores se puede realizar transportando paralelamente el segundo sumando,
haciendo coincidir el punto de aplicación de éste en el extremo final del primero y el lado
𝑂𝐶⃗⃗⃗⃗ ⃗ está formado por el punto de aplicación del primer vector y su extremo final es el final
del segundo, o de otro modo, como constituido por los lados 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝐵𝐶⃗⃗⃗⃗ ⃗ y 𝑂𝐶⃗⃗⃗⃗ ⃗. De modo que la
suma de dos vectores 𝑂𝐴⃗⃗⃗⃗ ⃗ y 𝑂𝐵⃗⃗ ⃗⃗ ⃗ se puede expresar más convenientemente como 𝑂𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ +
𝐴𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝐵𝐶⃗⃗⃗⃗ ⃗, que se denomina como regla del triángulo en contraposición de la regla del
paralelogramo anterior.
DEMOSTRACIÓN: Mostramos de nuevo la figura anterior y vemos que en el paralelogramo
formado por 𝑂𝐴⃗⃗⃗⃗ ⃗ y 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝑂𝐵⃗⃗ ⃗⃗ ⃗ es semejante a 𝐴𝐶⃗⃗⃗⃗ ⃗ y, por otra parte, 𝐵𝐶⃗⃗⃗⃗ ⃗ es semejante a 𝑂𝐴⃗⃗⃗⃗ ⃗, por
lo que es cierto que 𝑂𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐶⃗⃗⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝐵𝐶⃗⃗⃗⃗ ⃗, según sendas reglas del triángulo. □
La regla del triángulo es más conveniente como veremos y con ella se entiende mejor la
suma de dos vectores que son colineales, que se divide en dos casos: el primero cuando los
dos vectores colineales tienen el mismo sentido y el segundo cuando tienen sentido
contrario, en ambos casos la suma se puede realizar según la regla del triángulo especial,
transportando el punto de aplicación del segundo sumando al final del primero y el vector
suma resultará en el segmento que une el punto de aplicación del primero hacia el final del
segundo (que ha sido transportado) y todo esto realizado en la misma recta.
PROPOSICIÓN 3: Con la suma así definida se cumple que (𝑉𝑂3, +) es un grupo abeliano.
DEMOSTRACIÓN: Comprobamos las 4 propiedades de la suma que la constituyen un grupo
abeliano:
a) Propiedad asociativa: Según la regla del triángulo: 𝑂𝐷⃗⃗⃗⃗⃗⃗ = (𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐶⃗⃗⃗⃗ ⃗) + 𝐶𝐷⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + (𝐴𝐶⃗⃗⃗⃗ ⃗ +
𝐶𝐷⃗⃗⃗⃗ ⃗)
131
b) Existencia de elemento neutro: Se define el elemento neutro como un vector especial
𝑂𝑂⃗⃗⃗⃗⃗⃗ que tiene longitud 0 y su dirección y sentido no están definidos, este vector cumple
que 𝑂𝑂⃗⃗⃗⃗⃗⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝑂⃗⃗⃗⃗⃗⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝐴𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝐴⃗⃗⃗⃗ ⃗.
c) Existencia del elemento opuesto para cada vector 𝑂𝐴⃗⃗⃗⃗ ⃗: Este elemento opuesto 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ = -
𝑂𝐴⃗⃗⃗⃗ ⃗ es el vector en la misma dirección que 𝑂𝐴⃗⃗⃗⃗ ⃗ y del mismo módulo, pero con el punto
A’ en el lado opuesto de A con respecto a O, de modo que 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ = 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗ = 𝑂𝑂⃗⃗⃗⃗⃗⃗ .
d) Propiedad conmutativa: Ya sea por la regla del triángulo o por la del paralelogramo se
cumple que 𝑂𝐴⃗⃗⃗⃗ ⃗ + 𝑂𝐵⃗⃗ ⃗⃗ ⃗ = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ + 𝑂𝐴⃗⃗⃗⃗ ⃗.□
8.2 Vectores geométricos fijos y el producto por un escalar
Ahora vamos a definir otra operación entre los vectores y los números reales, que
llamaremos escalares, a diferencia de los vectores.
DEFINICIÓN (Producto de un vector por un escalar): Dado un vector v = 𝑂𝐴⃗⃗⃗⃗ ⃗ y un número real
α, llamado escalar, se puede definir el producto de α•v = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ que será otro vector de 𝑉𝑂3, de
la siguiente manera:
a) O, A, B están en la misma recta.
b) Si α > 0, v y α•v tienen la misma orientación, pero si α < 0, v está a un lado de O, mientras
que α•v apunta en el sentido opuesto.
c) ‖α • v‖ = |α|•‖v‖.
Ahora sin más veamos las propiedades de esta operación.
PROPOSICIÓN (Propiedades del producto de un vector por un escalar): Sean, α, µ escalares
reales y u, v vectores fijos de 𝑉𝑂3, entonces se cumplen las siguientes propiedades:
a) α•(u + v) = α•u + α•v.
b) (α + µ)•v = α•v + µ•v.
c) α•(µ•v) = (α•µ)•v.
d) 1•v = v.
DEMOSTRACIÓN:
a) Esto se demuestra por el teorema de la geometría euclidiana elemental conocido por
primer teorema de Tales, que dice quedos triángulos semejantes tienen sus lados
proporcionales. Veamos la imagen siguiente:
132
El triángulo 𝑂𝐴⃗⃗⃗⃗ ⃗, 𝐴𝐶⃗⃗⃗⃗ ⃗, 𝑂𝐶⃗⃗⃗⃗ ⃗ es semejante al 𝑂𝐴′⃗⃗⃗⃗⃗⃗ ⃗, 𝐴′𝐶′⃗⃗⃗⃗⃗⃗⃗⃗ , 𝑂𝐶′⃗⃗ ⃗⃗ ⃗⃗ que en la figura se llaman 𝜆•a,
𝜆•b y 𝜆•(a + b), por lo que los lados a, 𝜆•a y b, 𝜆•b son semejantes respectivamente con la
misma razón de semejanza que es 𝜆, por lo que se cumple que 𝜆•(a + b) = 𝜆•a + 𝜆•b. De la
misma forma se habría podido demostrar esta propiedad con los triángulos 𝑂𝐵⃗⃗ ⃗⃗ ⃗, 𝐵𝐶⃗⃗⃗⃗ ⃗, 𝑂𝐶⃗⃗⃗⃗ ⃗ y
𝑂𝐵′⃗⃗⃗⃗⃗⃗ ⃗, 𝐵′𝐶′⃗⃗⃗⃗⃗⃗ ⃗⃗ , 𝑂𝐶′⃗⃗ ⃗⃗ ⃗⃗ que también son semejantes.
b) Hay que dividir la demostración en 4 casos:
i) α > 0 y µ > 0, en este caso el sentido del primer miembro coincide con el de v,
pues α + µ > 0, también el sentido del segundo miembro coincide con el de v,
pues α•v y µ•v coinciden en sentido con v. El módulo del primer miembro vale
|α + µ|•‖v‖ = (|α| + |µ|)•‖v‖ = |α|•‖v‖ + |µ|•‖v‖, el del segundo por ser dos
vectores del mismo sentido: ‖α • v + µ • v‖ = ‖α • v‖ + ‖µ • v‖ = |α|•‖v‖ +
|µ|•‖v‖.
ii) α < 0 y µ < 0, en este caso se razón igual que en el anterior salvo que todos los
vectores tienen el sentido opuesto al de v.
iii) α > 0 y µ < 0, con |α| > |µ|. En este caso el sentido del primer vector coincide
con el de v pues α + µ > 0 y el sentido del segundo miembro también coincide
con el de v, pues ‖α • v‖> ‖µ • v‖, por ser |α| > |µ|. El módulo del primer
miembro vale |α + µ|•‖v‖ = (|α| - |µ|)•‖v‖ = |α|•‖v‖ - |µ|•‖v‖ y el del segundo,
por ser ‖α • v‖> ‖µ • v‖: ‖α • v + µ • v‖ = ‖α • v‖ - ‖µ • v‖ = |α|•‖v‖ - |µ|•‖v‖.
iv) α < 0 y µ > 0, con |α| > |µ|. En este caso el sentido del primer miembro es distinto
al de v, pues α + µ < 0 y el del segundo miembro también es distinto pues
‖α • v‖> ‖µ • v‖ y α•v tiene sentido distinto a v. La relación de los módulos es
la misma que en el caso anterior.
c) Hay que distinguir otros 4 casos:
i) α > 0 y µ > 0, en este caso el sentido del primer miembro coincide con el de v,
pues µ > 0, y por tanto, µ•v tiene el mismo sentido que v y por tanto, α•(µ•v)
también. El segundo miembro también tiene el mismo sentido que v por ser α•µ
> 0. En cuanto a los módulos más tarde lo veremos.
ii) Consideremos los casos α > 0 y µ < 0, y α < 0 y µ > 0 en ambos casos, los dos
miembros de la igualdad tienen sentido distinto al de v.
iii) α < 0 y µ < 0, en ambos miembros de la igualdad el sentido es el mismo que el
de v.
En cuanto a los módulos se cumple lo siguiente: ‖α • (µ • v)‖ = |α|•‖µ • v‖ = |α| •
|µ|•‖v‖ = |α • µ|•‖v‖ = ‖(α • µ) • v)‖.
d) Esta propiedad es evidente, pues 1•v tiene el mismo sentido que v y el módulo ‖1 • v‖
= |1|•‖v‖ = ‖v‖. □
8.3 Sistemas de Coordenadas para vectores geométricos fijos
Sin más vamos a definir los conceptos de sistemas de coordenadas para una recta, un plano
y el espacio tridimensional.
133
DEFINICIÓN: Sea una recta r, un sistema de coordenadas en ella, notado por Λ, se define
eligiendo un punto de ella, O, y un vector, 𝑖 , 𝑂𝐸⃗⃗⃗⃗ ⃗, donde E es otro punto de r distinto de O.
El punto O se denomina origen de coordenadas y el vector 𝑖 se denomina vector de la base,
cuya longitud puede ser cualquier número real una vez que hemos definido en r una unidad
de medida.
PROPOSICIÓN 1: Un sistema de coordenadas, Λ, en la recta r define una biyección entre los
puntos de r y los números reales.
DEMOSTRACIÓN: Cualquieras punto P de r determina el vector 𝑂𝑃⃗⃗⃗⃗ ⃗, que a su vez determina
el número x tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 . Y a su vez, cualquier número real x determina un punto P de
la recta de la siguiente manera: 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 . □
DEFINICIÓN: Según la proposición anterior uno dice del punto P que tiene coordenada x, que
se escribirá de la siguiente manera P = (x), con respecto al sistema de coordenadas Λ
denotado también como (O; x) o (O; 𝑖 ).
Ahora definimos lo que es un sistema de coordenadas en un plano α.
DEFINICIÓN: Dado un plano α, se define un sistema de coordenadas en él, notado por Π,
eligiendo un punto O de él y un par de vectores distintos y no colineales 𝑖 = 𝑂𝐸1⃗⃗ ⃗⃗ ⃗⃗ ⃗, 𝑗 = 𝑂𝐸2⃗⃗ ⃗⃗ ⃗⃗ ⃗,
con 𝐸1, 𝐸2, puntos de α y cuya norma de 𝑖 y 𝑗 es arbitraria para cada uno, una vez que hemos
definido una unidad de medida en el plano. El punto O se denomina origen del sistema de
coordenadas y a los vectores 𝑖 , 𝑗 se los llama vectores de la base. El sistema es orientado de
tal manera que el vector 𝑖 coincide con el 𝑗 si realizamos una rotación del mismo en sentido
contrario a las agujas del reloj de ángulo φ, con 0 < φ < π. A la recta determinada por O y 𝐸1,
considerando su orientación (la de 𝑖 ) se denomina eje de abcisas, mientra que a la recta
determinad por O y 𝐸2, con su orientación se denomina eje de ordenadas.
PROPOSICIÓN 2: Un sistema de coordenadas, Π, en un plano α, determina una biyección
entre cada punto de α y cada par ordenado de números reales (x, y).
DEMOSTRACIÓN: Cualquier punto P de α, determina por la regla del paralelogramo, el par
ordenado (x, y), tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 y viceversa cualquier para ordenado de números
reales (x, y) determina un punto P tal que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 por la regla del paralelogramo de
la suma de vectores fijos. □
DEFINICIÓN: Según la proposición anterior, con respecto a Π los números reales x, y se
denominan las coordenadas de P y se denotará como P = (x, y). El sistema coordenado Π se
denotará (O; x, y) o (O; 𝑖 , 𝑗 ).
134
Para definir un sistema de coordenadas en el espacio (afín) tridimensional necesitaremos
elegir un punto O como origen del sistema y 3 puntos más U, V, W de tal manera que los 4
puntos (incluyendo el O) no estén en el mismo plano, o lo que es equivalente, dados dos
vectores formados por O y dos de los otros puntos determinan (estos vectores) un plano
donde no está el otro cuarto punto.
DEFINICIÓN (terna de vectores orientada según la mano derecha): Una terna ordenada de
vectores fijos (u, v, w) se dice orientada según la mano derecha si los tres ángulos que
determinan esos 3 vectores, es decir los ángulos 𝑢�̂�, 𝑣�̂�, 𝑤�̂�, orientados en ese orden de
manera que si rotamos el primer vector que forma cada ángulo en sentido contrario a las
manecillas del reloj coincidirá con el segundo, sus ángulos son menores que π y distintos del
ángulo nulo.
DEFINICIÓN (Sistema de coordenadas para el espacio (afín) tridimensional S): Un sistema de
coordenadas ∑ para el espacio S se define cuando se elige un punto O llamado origen de
coordenadas y 3 vectores fijos distintos del vector nulo y no contenidos en el mismo plano,
𝑖 = 𝑂𝐴⃗⃗ ⃗⃗ ⃗, 𝑗 = 𝑂𝐵⃗⃗ ⃗⃗ ⃗ y �⃗� = 𝑂𝐶⃗⃗⃗⃗ ⃗, tales que (𝑖 , 𝑗 , �⃗� ) sea una terna de vectores orientada según la
mano derecha. Los vectores 𝑖 , 𝑗 , �⃗� se llaman vectores de la base y las rectas determinadas
por O e 𝑖 , 𝑗 , �⃗� junto con su orientación se llaman respectivamente eje de las abcisas, de las
ordenadas y de las cotas.
PROPOSICIÓN 3: Dado un sistema de coordenadas ∑ en el espacio S se define una biyección
entre los puntos de S y las ternas de coordenadas (x, y, z).
DEMOSTRACIÓN: Dado un punto P de S el sistema de coordenadas para el vector fijo 𝑂𝑃⃗⃗⃗⃗ ⃗ se
determina unívocamente una terna de coordenadas (x, y, z) de tal manera que 𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 +
y•𝑗 + z•�⃗� . Y recíprocamente, dado una terna (x, y, z) determina únicamente el punto P con
𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 + z•�⃗� . □
DEFINICIÓN: Según el teorema anterior para cada punto P los valores (x, y, z) con el vector
𝑂𝑃⃗⃗⃗⃗ ⃗ = x•𝑖 + y•𝑗 + z•�⃗� que determinan se llaman coordenadas de P o componentes de 𝑂𝑃⃗⃗⃗⃗ ⃗ y
se nota P = (x, y, z). Además, al sistema de coordenadas ∑ se lo nota como ∑ = (O; 𝑖 , 𝑗 , �⃗� ) =
(O; x, y, z).
Para acabar esta subsubsección nos queda una proposición muy interesante cuyas
consecuencias desarrollaremos en la subsubsección siguiente.
PROPOSICIÓN 4: Consideremos los vectores v = x•𝑖 + y•𝑗 + z•�⃗� y w = x’•𝑖 + y’•𝑗 + z’•�⃗� con
respecto al sistema de coordenadas ∑ = (O; 𝑖 , 𝑗 , �⃗� ) y un escalar µ real. Entonces se tiene:
a) v + w = (x + x’)•𝑖 + (y + y’)•𝑗 + (z + z’)•�⃗� .
b) µ•v = (µ•x)•𝑖 + (µ•y)•𝑗 + (µ•z)•�⃗� .
DEMOSTRACIÓN: a) Sea v + w = (x•𝑖 + y•𝑗 + z•�⃗� ) + (x’•𝑖 + y’•𝑗 + z’•�⃗� ), por las propiedades
que demostramos para la suma y el producto por un escalar se cumple que v + w = (x•𝑖 +
x’•𝑖 ) + (y•𝑗 + y’•𝑗 ) + (z•�⃗� + z’•�⃗� ) = (x + x’)•𝑖 + (y + y’)•𝑗 + (z + z’)•�⃗� . b) Esta proposición se
sigue de las propiedades del producto de vectores por escalares. □
135
8.4 El espacio afín n-dimensional y el espacio vectorial 𝐹𝑛, con F un cuerpo cualquiera
Hemos visto en subsubsecciones anteriores que dado un sistema de referencia ∑ = (O; 𝑖 , 𝑗 ,
�⃗� ) del espacio afín tridimensional S, a cada vector 𝑂𝑃⃗⃗⃗⃗ ⃗ le corresponde un punto de P al cual
le corresponde una terna de coordenadas (números reales) notándolo así P = (x, y, z), de
modo que si tenemos un par de puntos P y P’ de coordenadas P = (x, y, z), P’ = (x’, y’, z’) que
se corresponden con los vectores 𝑂𝑃⃗⃗⃗⃗ ⃗ y 𝑂𝑃′⃗⃗⃗⃗⃗⃗ ⃗ y los sumamos 𝑂𝑃⃗⃗⃗⃗ ⃗ + 𝑂𝑃′⃗⃗⃗⃗⃗⃗ ⃗ = 𝑂𝐶⃗⃗⃗⃗ ⃗ al punto C le
corresponde la terna C = (x + x’, y + y’, z + z’) y si multiplicamos a 𝑂𝑃⃗⃗⃗⃗ ⃗ por un escalar µ, µ•𝑂𝑃⃗⃗⃗⃗ ⃗
= 𝑂𝑄⃗⃗⃗⃗⃗⃗ , al punto Q le corresponde la terna Q = (µ•x, µ•y, µ•z). Esto nos sugiere una
generalización del espacio afín S de 3 dimensiones a unos vectores posibles de un espacio
de dimensión cualquiera finita n si consideramos esos vectores como las n-tuplas (𝑥1, 𝑥2, …,
𝑥𝑛), que obtendríamos al fijar un sistema de coordenadas en ese espacio para cada vector
𝑂𝑃⃗⃗⃗⃗ ⃗, de modo que tendríamos la correspondencia 𝑂𝑃⃗⃗⃗⃗ ⃗ ↔ P ↔ (𝑥1, 𝑥2, …, 𝑥𝑛), notándolo así
P = (𝑥1, 𝑥2, …, 𝑥𝑛). Y podríamos generalizar más aún, si en vez de n-tuplas de números reales,
tuviéramos n-tuplas de elementos de cualquier cuerpo no necesariamente del cuerpo de los
reales, de modo que dado un cuerpo F cualquiera, las n-tuplas P = (𝑎1, 𝑎2, …, 𝑎𝑛) con 𝑎𝑖, 1
≤ i ≤ n, cualquier elemento de F, serían puntos de un espacio abstracto que llamaremos
espacio vectorial 𝐹𝑛.
DEFINICIÓN (Espacio vectorial 𝐹𝑛, con F cualquier cuerpo): El espacio vectorial 𝐹𝑛 consiste
de vectores v = (
𝑎1𝑎2⋮𝑎𝑛
) con elementos 𝑎1, 𝑎2, …, 𝑎𝑛 cualesquiera de F llamadas componentes
o coeficientes de v y con dos operaciones:
a) Para 2 vectores v = (
𝑎1𝑎2⋮𝑎𝑛
), w = (
𝑏1𝑏2⋮𝑏𝑛
) su suma se define como v + w = (
𝑎1 + 𝑏1𝑎2 + 𝑏2
⋮𝑎𝑛 + 𝑏𝑛
).
b) Para un vector v = (
𝑎1𝑎2⋮𝑎𝑛
) y un escalar (un elemento de F), µ el producto exterior, µ•v =
(
µ • 𝑎1µ • 𝑎2⋮
µ • 𝑎𝑛
). A la suma se le llama también adición y al producto exterior, producto
escalar.
También se define que dos vectores v = (
𝑎1𝑎2⋮𝑎𝑛
), w = (
𝑏1𝑏2⋮𝑏𝑛
) son iguales, v = w, si se cumple la
igualdad como n-tuplas, es decir, 𝑎1 = 𝑏1, 𝑎2 = 𝑏2, …, 𝑎𝑛 = 𝑏𝑛.
Ahora veremos que este espacio vectorial así construido tiene las mismas propiedades que
el espacio 𝑉𝑂3 de vectores geométricos fijos, dado un punto O del espacio.
136
PROPOSICIÓN 1: La suma de vectores y el producto por un escalar en 𝐹𝑛 cumplen las
siguientes propiedades:
1) Dados dos vectores v, w, v + w = w + v.
2) Dados 3 vectores u, v, w, (u + v) + w = u + (v + w).
3) Existe el vector 0 tal que dado un vector cualquiera v se cumple v + 0 = 0 + v = v.
4) Para todo vector v, existe el vector -v, tal que, v + (-v) = -v + v = 0.
5) Para cualquier escalar c y vectores u, v se cumple que c•(u + v) = c•u + c•v.
6) Para cuales quiera escalares c, d y cualquier vector v se cumple que (c + d)•v = c•v + d•v.
7) Para cualesquiera escalares c, d y cualquier vector v, se cumple que (c•d)•v = c•(d•v).
8) Para cualquier vector v se cumple que 1•v = v.
DEMOSTRACIÓN: Son comprobaciones rutinarias que se deducen de las propiedades del
cuerpo F, por lo que dejamos su demostración al lector, pero tenemos que notar que el
vector 0 de 3) es 0 = (
00⋮0
), es decir el vector 0 es el que tiene por todas sus componentes el
0 del cuerpo y el vector -v de 4) dado v = (
𝑎1𝑎2⋮𝑎𝑛
), es el siguiente, -v = (
−𝑎1−𝑎2⋮
−𝑎𝑛
). □
Hay todavía 4 propiedades importantes más que las mostramos aparte de las anteriores
porque en la definición axiomática de los espacios vectoriales que daremos más adelante,
se deducen de las anteriores, aunque en el espacio 𝐹𝑛 se pueden demostrar directamente
por las propiedades del cuerpo F.
PROPOSICIÓN 2:
9) Para cualquier vector v, entonces 0•v = 0, donde el primer cero es el elemento neutro
de la suma en el cuerpo y el segundo cero es el elemento neutro de la suma de vectores
en 𝐹𝑛.
10) Si 0 es el vector 0 de 𝐹𝑛, entonces, para cualquier escalar c, c•0 = 0.
11) Sea v cualquier vector, entonces, (-1)•v = -v.
12) Sean c y v cualquier escalar y vector respectivamente entonces, c•v = 0 implica que c =
0 o v = 0.
DEMOSTRACIÓN: Se deja al lector. □
En esta subsección hemos visto varios objetos (Los vectores geométricos fijos y el espacio
vectorial 𝐹𝑛) que tienen una serie de propiedades en común, por lo que nos han servido
como introducción al concepto abstracto de espacio vectorial que veremos que tiene
muchos mas ejemplos o casos dispares, todos con las mismas propiedades que permiten su
estudio en conjunto. Puesto que hay una diferencia substancial entre los ejemplos, los
espacios vectoriales de dimensión finita y los espacios vectoriales de dimensión infinita,
nosotros nos centraremos en los espacios de dimensión finita.
137
9 Espacios Vectoriales. Bases
9.1 Definición y ejemplos
DEFINICIÓN (Espacio Vectorial): Sea F un cuerpo y V un conjunto no vacío; diremos que V
es un espacio vectorial sobre F (o F-espacio vectorial) si:
a) En V hay definida una operación interna, que denotaremos por +, de forma que (V, +)
es un grupo abeliano, es decir, verifica las siguientes propiedades:
1) Asociativa: (u + v) + w = u + (v + W), para todo u, v, w de V.
2) Conmutativa: u + v = v + u, para todo u, v de V.
3) Existencia de elemento neutro: Existe un elemento 0 de V tal que 0 + v = v + 0, para
todo v de V.
4) Existencia de elemento opuesto: Para todo v de V existe un -v de V tal que v + (-v) =
-v + v = 0.
b) En V hay definida una operación externa (ley de composición externa) de F en V que
denotaremos por •, que verifica lo siguiente:
1) a•(u + v) = a•u + a•v, para todo a de F y todo u, v de V.
2) (a + b)•u = a•u + b•v, para todo a, b de F y todo u de V.
3) a•(b•u) = (a•b)•u, para todo a, b de F y todo u de V.
4) 1•u = u, para todo u de V.
Los elementos del espacio vectorial V se denominan vectores y a los elementos de cuerpo F
los denominamos escalares. A la operación externa la denominamos producto por escalares.
EJEMPLO 1: 𝔐m•n(F) es un espacio vectorial sobre F con las operaciones de suma de
matrices y producto por escalares de F definidas en la sección anterior dedicada a las
matrices y sistemas lineales.
EJEMPLO 2: El cuerpo F puede considerarse como espacio vectorial sobre sí mismo
considerando el producto por escalares como el producto de elementos del cuerpo. Más
generalmente ya hemos visto que si consideramos el producto cartesiano de F consigo
mismo n veces: 𝐹𝑛 = {(
𝑥1 𝑥2⋮𝑥𝑛
) | 𝑥𝑖 de F, para todo i = 1, 2, …, n} podemos dotarlo de estructura
de espacio vectorial sobre F si definimos las siguientes operaciones:
(
𝑥1 𝑥2⋮𝑥𝑛
) + (
𝑦1 𝑦2⋮ 𝑦𝑛
) = (
𝑥1 + 𝑦1 𝑥2 + 𝑦2
⋮𝑥𝑛 + 𝑦𝑛
),
k•(
𝑥1 𝑥2⋮𝑥𝑛
) = (
k • 𝑥1 k • 𝑥2⋮
k • 𝑥𝑛
), con k de F.
Si definimos como 𝐹0 = {0} y la suma 0 + 0 = 0 con -0 = 0 y la multiplicación por un escalar c
de F como c•0 = 0, vemos que este conjunto también es un espacio vectorial.
138
EJEMPLO 3: Sea V el conjunto de vectores v = (
𝑎1𝑎2𝑎3⋮
), con 𝑎1, 𝑎2, 𝑎3,… infinitos elementos de
F, donde hay un 𝑎𝑖, para cada natural i. Definamos la suma en V como (
𝑎1𝑎2𝑎3⋮
) + (
𝑏1𝑏2𝑏3⋮
) =
(
𝑎1 + 𝑏1𝑎2 + 𝑏2𝑎3 + 𝑏3
⋮
) y la multiplicación por un escalar c de F como c•(
𝑎1𝑎2𝑎3⋮
) = (
𝑐 • 𝑎1𝑐 • 𝑎2𝑐 • 𝑎3⋮
). El vector 0 es
definido como 0 = (
000⋮
) y para cada v = (
𝑎1𝑎2𝑎3⋮
), el vector -v = (
−𝑎1−𝑎2−𝑎3⋮
), entonces se puede
comprobar que este conjunto es un espacio vectorial y se denota como V = 𝐹∞∞.
EJEMPLO 4: Definamos V como los vectores v = (
𝑎1𝑎2𝑎3⋮
), con 𝑎1, 𝑎2, 𝑎3,… elementos de F
donde solo hay un número finito de 𝑎𝑖 ≠ 0. Definimos la suma de vectores, el producto por
un escalar de F, el 0 y para todo v el -v de la misma forma que en el ejemplo 3 anterior. Está
claro que si u y v pertenecen a V tienen los dos un número finito de 𝑎𝑖 ≠ 0, por lo que a su
suma y producto por un escalar le ocurre lo mismo y también cumplen lo mismo el vector 0
y para todo v, el -v, por lo que este conjunto V así definido también es un espacio vectorial,
como se puede comprobar y es denotado como v = 𝐹∞.
EJEMPLO 5: Para cada n natural sea V = {(𝑎1, 𝑎2, …, 𝑎𝑛) | con 𝑎𝑖 de F para cada i = 1, …, n}
con adición y multiplicación por un escalar realizada para cada componente similarmente al
ejemplo 2, y con el vector 0 = (0, 0, …, 0) y para cada v = (𝑎1, 𝑎2, …, 𝑎𝑛) se define el vector -
v = (-𝑎1, -𝑎2, …, -𝑎𝑛) , entonces, V así definido es un espacio vectorial, que denotaremos
como (𝐹𝑛)𝑡 . Para n = 0 definimos 𝐹0 = {0} = (𝐹0)𝑡.
Similarmente al ejemplo 3 definimos (𝐹∞∞)𝑡 = {(𝑎1, 𝑎2, 𝑎3, …) | con 𝑎𝑖 de F para cada natural
i} y se comprueba que es un espacio vectorial.
Y Similarmente al ejemplo 4 definimos (𝐹∞)𝑡 = {(𝑎1, 𝑎2, 𝑎3, …) | con 𝑎𝑖 ≠ 0 de F para un
número finito de i} y se comprueba que es un espacio vectorial.
EJEMPLO 6: a) Sea P(F) = {polinomios en una indeterminada x con coeficientes en F} = {𝑎0 +
𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛 | 𝑎1, 𝑎2, …, 𝑎𝑛 de F} donde definimos la adición de sus elementos
de la siguiente manera: (𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛) + (𝑏0 + 𝑏1•x + 𝑏2•𝑥2 + … + 𝑏𝑛•𝑥𝑛)
= (𝑎0 + 𝑏0) + (𝑎1 + 𝑏1)•x + (𝑎2 + 𝑏2)•𝑥2 + … + (𝑎𝑛 + 𝑏𝑛)•𝑥𝑛 y la multiplicación por un escalar
c de F como c•(𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛) = c•𝑎0 + c•𝑎1•x + c•𝑎2•𝑥2 + … + c•𝑎𝑛•𝑥𝑛.
El polinomio 0 es el polinomio con todos sus coeficientes el 0 y -(𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … +
𝑎𝑛•𝑥𝑛) = (-𝑎0) + (−𝑎1)•x + (-𝑎2)•𝑥2 + … + (-𝑎𝑛)•𝑥𝑛. Entonces con estas definiciones se
comprueba que P(F) es un espacio vectorial.
139
b) Si definimos el grado de un polinomio distinto del 0 como la potencia más alta de x que
aparece en el polinomio, es decir que si el polinomio es 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑛•𝑥𝑛 con
𝑎𝑛 ≠ 0, entonces, el grado del polinomio es n. Entonces para cualquier d mayor o igual que
0, sea 𝑃𝑑(F) = {polinomios con coeficientes en F de grado máximo d}, se comprueba que
𝑃𝑑(F) es un espacio vectorial.
EJEMPLO 7: a) Sea X cualquier conjunto y sea V = {f: X → F}, es decir el conjunto de las
funciones definidas en X con valores en F. Definimos la suma de dos funciones f + g como (f
+ g)(x) = f(x) + g(x) para cada x de X y el producto de una función f por un escalar c, de F como
(c•f)(x) = c•f(x), para cada x de X. También definimos la función 0 como 0(x) = 0 para cada x
de X y la función -f para cada f como (-f)(x) = -f(x) para cada x de X, entonces V así definido
se comprueba que es un espacio vectorial sobre F.
b) Más general sea X cualquier conjunto y W un espacio vectorial sobre F, definamos V = {f:
X → W} y definamos la suma y multiplicación por un escalar y el elemento 0 y -f para todo f
como en el caso a) anterior entonces se comprueba que V así definido es un espacio vectorial
sobre F.
EJEMPLO 8: Ya lo hemos visto pero lo recalcamos aquí que existe el espacio vectorial con un
solo elemento que ha de ser el 0 y definimos la suma de dos elementos de este espacio como
0 + 0 = 0 y el producto por un escalar c, de F como c•0 = 0, entonces se comprueba que este
conjunto es un espacio vectorial al que se le llama espacio vectorial 0 o trivial.
Nos gustaría, para terminar, hacer una aclaración. Para un mismo conjunto V se pueden
tener 2 estructuras de espacio vectorial diferentes, por ejemplo los números complejos,
notémoslos por V, pueden considerarse un espacio vectorial con respecto al cuerpo de el
mismo, considerando el producto ordinario en los complejos como el producto por un
escalar siendo los números complejos, tanto los elementos de V, como los escalares del
espacio vectorial, pero también se puede considerar los complejos como un espacio
vectorial con respecto a los números reales como escalares y veremos más adelante, que
son dos espacios vectoriales diferentes. Por lo tanto, al definir o considerar un espacio
vectorial V, debemos tener claro a cuál de los posibles nos estamos refiriendo en caso de
posible confusión.
9.2 Primeras propiedades de los espacios vectoriales
Esta subsubsección constará solo de una proposición, la siguiente:
PROPOSICIÓN (Primeras propiedades de un espacio vectorial): Sea V un espacio vectorial
sobre el cuerpo F, para a, b de F y u, v de V se cumple:
1) El elemento 0 es único en V, es decir hay un solo elemento 0 de V con la propiedad de
que 0 + u = u + 0 = u, para todo u de V.
2) Para todo u de V hay un único vector -u, tal que -u + u = u + (-u) = 0.
3) Si existe un vector v con la propiedad de que para un vector u ocurre que u + v = u o v
+ u = u, entonces v = 0.
4) 0•u = 0
5) a•0 = 0
140
6) si a•v = 0, entonces a = 0 o v = 0
7) (-1) •v = -v
8) –(a•v) = (-a) •v = a•(-v)
9) a•(u – v) = a•u - a•v
10) (a – b) •u = a•u - b•u
11) a•u = b•u y u es diferente de 0, entonces, a = b
12) a•u = a•v y a es distinto de 0, entonces u = v
DEMOSTRACIÓN: 1) y 2) Ya se demostraron en la subsubsección 1.11 de las estructuras
algebraicas.
3) Se cumple lo siguiente: v + u = u, (v + u) + (-u) = 0, v + (u – u) = 0, v + 0 = 0, v = 0, la
otra demostración es igual.
4) 0•v = (0 + 0) •v = 0•v + 0•v, de modo que por 3) anterior, deducimos que 0•v = 0.
5) a•0 = a•(0 + 0) = a•0 + a•0, por lo que por 3) a•0 = 0.
6) Si a•v = 0 y a es diferente de 0, existe 𝑎−1, tal que, 𝑎−1•a•v = 1•v = 𝑎−1•0 = 0, de
modo que v = 0.
7) (-1) •v + v = (-1 + 1) •v = 0•v = 0 y por otra parte, v + (-1) •v = (1 - 1) •v = 0•v = 0.
8) a•v + (-a•v) = (a – a) •v = 0•v, de modo que (-a)•v = -(a•v). De la misma manera,
a•v + a•(-v) = a•(v – v) = a•0 = 0.
9) a•(u – v) = a•(u + (– v)) = a•u + a•(-v) = a•u - a•v.
10) (a – b) •u = (a + (-b)) •u = a•u - b•u.
11) a•u = b•u implica que a•u - b•u = 0 = (a-b)•u, lo que implica que a - b = 0, es decir,
a = b.
12) a•u = a•v, esto implica que a•u - a•v = 0 = a•(u – v) lo que implica que u – v = 0, es
decir, u = v. □
9.3 Dependencia lineal e independencia lineal
Sin más, empezamos esta subsubsección tan importante definiendo conceptos:
DEFINICIÓN 1 (Combinación lineal, en el caso de un número finito de vectores):
1) Sea S = {𝑣1, …, 𝑣𝑘}, un conjunto finito de vectores de un espacio vectorial, V, entonces,
para cualesquiera escalares 𝑐1, …, 𝑐𝑘, v = ∑ 𝑐𝑖 • 𝑣𝑖𝑘𝑖=1 = 𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘, es una
combinación lineal de vectores en S.
2) Si el conjunto de vectores S es el conjunto vacío, entonces por definición, el vector 0 en
V es la única combinación lineal de los vectores de S.
DEFINICIÓN 2 (Combinación lineal, en el caso de un número infinito de vectores): sea S = {𝑣1,
𝑣2, …} una familia arbitraria de vectores (que puede ser infinita) del espacio vectorial V,
entonces una combinación lineal con los escalares 𝑐1, 𝑐2, …, es una suma ∑𝑐𝑘 • 𝑣𝑘 = 𝑐1•𝑣1
+ 𝑐2•𝑣2 + …, en donde es obligatorio que todos los escalares 𝑐𝑘, salvo un número finito, sean
cero.
DEFINICIÓN 3 (Combinación lineal trivial): En el caso de que, en las definiciones anteriores,
𝑐𝑖 = 0, para todo i se dirá que la combinación lineal es la trivial. Si ocurre lo contrario, es
141
decir, 𝑐𝑖≠ 0 para algún i, la combinación lineal se dirá no trivial. En el caso 2) de la definición
1, es decir cuando S es vacío, la única combinación posible es la trivial.
LEMA (Valor de la combinación trivial): Una combinación lineal trivial, siempre tiene el valor
de 0.
DEMOSTRACIÓN: Para el caso de S vacío por definición se cumple el lema. Para S no vacío,
si 𝑐𝑖 = 0, para todo i, se cumple que v = 0•𝑣1 + 0•𝑣2 + … = 0 + 0 + … = 0. □
DEFINICIÓN 4 (Conjunto de vectores linealmente independientes, caso finito e infinito): Sea
S un conjunto arbitrario de vectores de un espacio vectorial V, S es linealmente
independiente, si la única combinación lineal de ellos que es 0 es la trivial, es decir, para
cualquier combinación lineal de S = {𝑣1, 𝑣2, …}, 𝑐1•𝑣1 + 𝑐2•𝑣2 + … = 0 implica que 𝑐𝑖 = 0, para
todo i.
DEFINICIÓN 5 (Conjunto de vectores linealmente dependientes, caso finito e infinito): Un
conjunto de vectores S = {𝑣1, 𝑣2, …}, es linealmente dependiente si no es linealmente
independiente, es decir, hay alguna combinación lineal de ellos, 𝑐1•𝑣1 + 𝑐2•𝑣2 + … = 0, con
𝑐𝑖≠ 0 para algún i.
EJEMPLO 1: Sean los siguientes vectores de 4, es decir las 4-tuplas de los números reales,
u = (1, 2, 0, 0) y v = (0, 0, 1, 0), entonces el vector (2, 4, 3, 0) es combinación lineal de u y v,
puesto que (2, 4, 3, 0) = 2•u + 3•v, como se puede comprobar. Pero (0, 0, 0, 1) no puede ser
combinación lineal de u y v, puesto que el último componente de cualquier combinación
lineal de u y v es siempre 0.
EJEMPLO 2: Sea el espacio vectorial 𝑃2(), es decir los polinomios con coeficientes en los
reales de grado menor o igual a 2. Consideremos lo vectores p(x) = 𝑥2 + x + 1, q(x) = 2•x + 1
y r(x) = 𝑥2 + 1. Veamos si son linealmente dependientes o independientes:
Sea la combinación lineal arbitraria a•p(x) + b•q(x) + c•r(x) = 0, entonces se cumple que,
0 = a•(𝑥2 + x + 1) + b•(2•x + 1) + c•(𝑥2 + 1) = a•𝑥2 + a•x + a + 2•b•x + b + c•𝑥2 + c =
= (a + c) •𝑥2 + (a + 2•b)•x + (a + b + c) = 0.
De donde se obtiene el siguiente sistema homogéneo:
{𝑎 + 𝑐 = 0
𝑎 + 2 • 𝑏 = 0𝑎 + 𝑏 + 𝑐 = 0
Que se puede comprobar que es compatible determinado con solución única a = 0, b = 0 y c
= 0, lo que significa que la única manera en que la combinación lineal genérica es 0 es que
los coeficientes sean los 3, 0, por lo que el conjunto de vectores (polinomios) dado es
linealmente independiente.
Para el próximo ejemplo debemos hacer unos comentarios interesantes. Ya vimos en la
subsubsección 7.11, que dado un sistema de ecuaciones, S, se puede considerar éste como
una ecuación, entre el producto de la matriz de coeficientes, A, y la matriz columna de las
incógnitas, X, con una matriz columna, B, por tanto, dado S, tenemos la ecuación A•X = B: el
142
producto A•X, que recalcamos, es el producto de una matriz rectangular con una matriz
columna es igual a una matriz columna, B. Pero también vimos en la subsubsección 5.3, en
concreto en la proposición 2 apartado 5) que el producto de una matriz con una columna,
es lo mismo que la combinación lineal de cada columna de la matriz con su componente
asociado 𝑥𝑖, de la matriz columna, X, como coeficiente de la combinación lineal, de modo
que un sistema de ecuaciones es un problema que busca hallar qué coeficientes son los
necesarios para expresar el vector columna B como combinación lineal de las columnas de
la matriz de coeficientes considerados a su vez vectores columna. Si el sistema es compatible
y determinado, obtendremos los coeficientes necesarios, si es compatible indeterminado
obtendremos un conjunto de coeficientes dependientes de parámetros que expresan que
hay muchas posibilidades, infinitas, no solo una. Y si el sistema es incompatible, entonces,
es imposible expresar el vector B como combinación lineal de las columnas de la matriz
considerados como vectores. Si B = 0, el vector columna nulo, el sistema de ecuaciones sería
homogéneo, entonces el sistema es un problema que trata de hallar los coeficientes que son
necesarios para obtener cero como combinación lineal de las columnas de la matriz, de
modo que estamos buscando si éstas columnas, son un conjunto linealmente dependiente
y si el sistema es compatible determinado sacamos la conclusión de que el conjunto de las
columnas de la matriz del sistema es linealmente independiente. Notemos que si el sistema
es compatible indeterminado habrá muchas posibilidades para que el conjunto de las
columnas de la matriz sea linealmente dependiente, es decir habrá infinitas formas
dependientes de parámetros de obtener una combinación lineal de resultado el vector cero.
De modo que ya sabemos cómo utilizar los sistemas de ecuaciones para determinar los
coeficientes de dependencia lineal, los coeficientes que producen un vector como
combinación lineal de otros, si es posible, y si ciertos vectores son linealmente dependientes
o independientes, siempre que los vectores sean elementos de 𝐹𝑛, siendo F un cuerpo
cualquiera. Como debemos proceder es considerar esos vectores como vectores columna y
agruparlos para formar la matriz de coeficientes de un sistema y después aplicar los
conocimientos que tenemos en la discusión de un sistema para responder las preguntas que
nos hacemos, según la discusión del párrafo anterior. Veamos un ejemplo:
EJEMPLO 3: Estudiemos si el siguiente conjunto de vectores de 3 es linealmente
dependiente o independiente: {(1, 0, 1), (1, 1, 0), (1, 1, 1), (1, 2, 1)}.
Según los párrafos inmediatamente anteriores a este ejemplo, dado el sistema homogéneo
A•X = 0, es equivalente a la siguiente ecuación: Columna_1 (A)• 𝑥1 + Columna_2 (A)• 𝑥2 + …
+ Columna_n (A)• 𝑥𝑛 = 0, de modo que se trata de ver que combinaciones lineales de las
columnas son el vector 0, es decir, si el conjunto de vectores columnas es linealmente
dependiente o no. Por tanto, si disponemos los vectores del ejemplo en forma de columnas
y los agrupamos como un sistema de ecuaciones su matriz asociada será la formada por los
vectores como columnas, es decir, tenemos que discutir el siguiente sistema homogéneo
cuya matriz de coeficientes es la siguiente:
(1 1 1 101
10
11
21),
143
Este sistema sería determinado si el rango fuera 4, pero esto es imposible, ya que la matriz
de coeficientes solo tiene 3 filas, por lo que el rango a lo máximo es 3, de modo que ya
podemos concluir que los vectores son linealmente dependientes. Veamos que existe una
submatriz cuyo determinante es distinto de 0, se trata por ejemplo de la esquina superior
izquierda:
(1 1 101
10
11), cuyo determinante es 1.
Esto nos dice que el conjunto de estos vectores es linealmente independiente, puesto que
su sistema homogéneo asociado sería compatible determinado.
Veamos ahora, algunas propiedades de los conjuntos linealmente dependientes e
independientes en las 2 proposiciones siguientes.
PROPOSICIÓN 1: Sea V un espacio vectorial sobre F, entonces se cumple que:
1) Si 0 pertenece a {𝑣1, …, 𝑣𝑛}, entonces, {𝑣1, …, 𝑣𝑛} es linealmente dependiente.
2) {𝑣1} es linealmente independiente si y sólo si, 𝑣1 ≠ 0.
3) Si {𝑣1, …, 𝑣𝑛} es linealmente dependiente, entonces, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟}, es
linealmente dependiente.
4) Si {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente independiente, entonces, {𝑣1, …, 𝑣𝑛} es
linealmente independiente.
DEMOSTRACIÓN: 1) Digamos que 𝑣1 = 0, entonces, 1•𝑣1 + 0•𝑣2 + … + 0•𝑣𝑛 = 0, donde el
único coeficiente distinto de 0 es el del vector 𝑣1 = 0, es una combinación lineal distinta de
la trivial e igual a 0, por lo que se demuestra que {𝑣1, …, 𝑣𝑛} es linealmente dependiente.
2)Según 1), {0} es linealmente dependiente, de modo que {𝑣1} es linealmente independiente
solo si 𝑣1 ≠ 0. Además, sabemos que si 𝑣1 ≠ 0, a•𝑣1 = 0, solo si a = 0, de modo que si 𝑣1 ≠ 0,
{𝑣1} es linealmente independiente.
3) Sea 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0 con no todos los 𝑎𝑖 = 0, de modo que {𝑣1, …, 𝑣𝑛} es
linealmente dependiente, entonces, 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 + 0 • 𝑣𝑛+1 + … + 0 • 𝑣𝑛+𝑟 = 0
con no todos los 𝑎𝑖 = 0, por tanto, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente dependiente.
4) Si {𝑣1, …, 𝑣𝑛} fuera linealmente dependiente por el punto anterior, {𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …,
𝑣𝑛+𝑟} sería también linealmente dependiente, de modo que encontraríamos una
contradicción, por lo que 𝑣1, …, 𝑣𝑛, 𝑣𝑛+1, …, 𝑣𝑛+𝑟} es linealmente independiente implica
que {𝑣1, …, 𝑣𝑛} también lo es. □
Ahora demostraremos la siguiente importante proposición:
PROPOSICIÓN 2: Un conjunto de vectores {𝑣1, …, 𝑣𝑛}, es linealmente dependiente si y sólo
si, uno de los vectores es combinación lineal de los restantes.
DEMOSTRACIÓN: Si {𝑣1, …, 𝑣𝑛}, es linealmente dependiente es porque existe una
combinación lineal 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0 con no todos los 𝑎𝑖 = 0, supongamos que
reordenamos {𝑣1, …, 𝑣𝑛}, de modo que es 𝑎1 ≠ 0, entonces de 𝑎1 • 𝑣1 + … + 𝑎𝑛 • 𝑣𝑛 = 0,
podemos despejar 𝑣1, de modo que 𝑣1 = -𝑎2/𝑎1 • 𝑣2 - … - 𝑎𝑛/𝑎1 • 𝑣𝑛. Recíprocamente, si
144
𝑣1 = 𝑏2 • 𝑣2 + … + 𝑏𝑛 • 𝑣𝑛, se obtiene que 0 = (-1)• 𝑣1 + 𝑏2 • 𝑣2 + … + 𝑏𝑛 • 𝑣𝑛 y vemos que
{𝑣1, …, 𝑣𝑛}, es linealmente dependiente. □
Observemos que el teorema anterior no afirma que cada vector es combinación lineal de los
restantes si el conjunto es linealmente dependiente, es decir, solo podemos asegurar que
uno es combinación lineal de los restantes. Veamos el siguiente ejemplo.
EJEMPLO 4: Sea el conjunto de vectores de 2 siguientes: {(1, 1), (1, 0), (2, 2)}, piense un
poco el lector, porque son linealmente dependientes, es fácil de pensar (2, 2) se puede
expresar como combinación lineal de (1, 1), en cambio, el vector (1, 0) no se puede expresar
como combinación lineal de los otros dos.
Si tenemos un espacio vectorial considerado como otros varios con distintos conjuntos de
escalares, entonces, la dependencia lineal o independencia lineal no solo depende de los
vectores, sino también, de los escalares que consideremos en la estructura de espacio
vectorial. Para entender lo que queremos decir veamos el siguiente ejemplo.
EJEMPLO 5: Los vectores u = (1 + i, 2•i) y v = (1, 1+ i) de 𝐶2, los pares ordenados de
complejos, son linealmente dependientes en 𝐶2, considerando como escalares a los
complejos, mientras que es un conjunto linealmente independiente si consideramos los
escalares como los números reales. Veámoslo: Si consideramos la combinación lineal
siguiente: 𝑧1•(1 + i, 2•i) + 𝑧2•(1, 1 + i) = (0, 0) se llega al siguiente sistema de ecuaciones:
{(1 + 𝑖) • 𝑧1 + 𝑧2 = 0
2 • 𝑖 • 𝑧1 + (1 + 𝑖) • 𝑧2 = 0
Donde la primera ecuación 𝑧2 = -(1 + i)•𝑧1no tiene solución para 𝑧1 y 𝑧2 reales, distinta de la
trivial. En cambio, considerando los escalares como números complejos la segunda ecuación
es la primera multiplicada por (1 + 𝑖), de modo que el sistema tiene infinitas soluciones una
de las cuales es: 𝑧1 = 1, 𝑧2 = -(1 + 𝑖).
9.4 Sistema de generadores de un espacio vectorial
DEFINICIÓN (Sistema de generadores para el caso finito e infinito): Un conjunto de vectores,
S, de un espacio vectorial V, se dice que es un sistema de generadores de V, si todo vector
de V se puede expresar como combinación lineal de los vectores de S. Recordemos que para
el caso infinito la expresión de cada vector de V como combinación lineal de vectores de S
debe ser una combinación lineal de un conjunto finito de vectores de S.
EJEMPLO 1: Sea S = {(1, 1), (1, 0), (1, -1)} es un sistema de generadores de 2. Para
comprobarlo tenemos que plantear este problema: dado un vector (x, y), encontrar
escalares a, b, c tales que: a•(1, 1) + b•(1, 0) + c•(1, -1) = (x, y), el cual se convierte en el
sistema:
{1 • 𝑎 + 1 • 𝑏 + 1 • 𝑐 = 𝑥
1 • 𝑎 − 1 • 𝑐 = 𝑦,
Con incógnitas a, b, c. Vemos que la matriz de coeficientes tiene rango 2 y el rango de la
matriz ampliada no puede ser mayor que 2, por tanto, el sistema es compatible, para
145
cualesquiera valores x, y, por lo que el conjunto S, efectivamente, es un sistema de
generadores de 2.
PROPOSICIÓN 1: Sea S = {𝑢1, 𝑢2, …, 𝑢𝑛}, un sistema de generadores del espacio vectorial V,
si 𝑢𝑖 es combinación lineal de los restantes vectores S, entonces el conjunto de los vectores
que se obtiene de S, eliminando el 𝑢𝑖, es decir S’ = {𝑢1, …, 𝑢𝑖−1, 𝑢𝑖+1, …, 𝑢𝑛}, es también un
sistema de generadores de V.
DEMOSTRACIÓN: Sea 𝑢𝑖 = ∑ 𝑏𝑗𝑗≠𝑖 • 𝑢𝑗 y sabemos que cada vector v, de V se puede expresar
de la siguiente manera: v = 𝑎1•𝑢1 + … + 𝑎𝑖•𝑢𝑖 + … + 𝑎𝑛•𝑢𝑛 = sustituyendo el valor de 𝑢𝑖 en
función de los restantes vectores de S, v = 𝑎1•𝑢1 + … + 𝑎𝑖•(∑ 𝑏𝑗𝑗≠𝑖 • 𝑢𝑗) + … + 𝑎𝑛•𝑢𝑛,
obtenemos, v = (𝑎1 + 𝑎𝑖•𝑏1)• 𝑢1 + (𝑎2 + 𝑎𝑖•𝑏2)• 𝑢2 + … + (𝑎𝑛 + 𝑎𝑖•𝑏𝑛)• 𝑢𝑛, de modo que v
se puede expresar como combinación lineal de los vectores de S’, cualquiera que sea v. □
EJEMPLO 2: En el ejemplo anterior vimos que S = {(1, 1), (1, 0), (1, -1)} era un sistema de
generadores de 2. Pero veamos que el primer vector (1, 1), se puede expresar como
combinación lineal de los otros dos: (1, 1) = 2•(1, 0) + (-1)•(1, -1), luego sabemos que S’ =
{(1, 0), (1, -1)}, sigue siendo un sistema de generadores de 2.
Ahora hagamos notar un hecho acerca de la dependencia o independencia lineal y los
sistemas de generadores. Según la proposición anterior y la proposición 2 de la
subsubsección anterior vemos que los conjuntos de vectores linealmente dependientes son
en cierta manera redundantes, ya que hay más vectores que los necesarios para ser un
sistema de generadores y hay al menos, un vector que se puede expresar en función de los
otros. En cambio, los sistemas linealmente independientes son no redundantes, en el
sentido de que ninguno de ellos se puede expresar como combinación lineal de los otros.
Ahora acabamos con una importante proposición que la utilizaremos en la siguiente
subsubsección.
PROPOSICIÓN 2: Si L = {𝑣1, 𝑣2, …, 𝑣𝑚}, es un conjunto de vectores de V linealmente
independiente y S = {𝑢1, 𝑢2, …, 𝑢𝑠}, un sistema de generadores de V, entonces, m ≤ s.
DEMOSTRACIÓN: La demostración consiste en sustituir los vectores de S por los vectores L
uno a uno en el razonamiento de que los conjuntos así obtenidos serán también sistema de
generadores. Veamos el razonamiento: Puesto que S es un sistema de generadores, también
lo será S∪{𝑣1} es decir, {𝑣1, 𝑢1, 𝑢2, …, 𝑢𝑠}, por otra parte 𝑣1 = 𝑎1•𝑢1 + 𝑎2•𝑢2 + … + 𝑎𝑠•𝑢𝑠, de
modo que, como 𝑣1 no es 0, alguno de los coeficientes 𝑎𝑖 es distinto de 0, digamos sin
perjuicio del razonamiento que 𝑎1 es distinto de 0, de modo que 𝑢1 se puede expresar como
combinación lineal de 𝑆1 = {𝑣1, 𝑢2, …, 𝑢𝑠}, y según la proposición anterior, 𝑆1 también es un
sistema generador de V. Siguiendo con el razonamiento, 𝑣2 = 𝑏1•𝑣1 + 𝑏2•𝑢2 + … + 𝑏𝑠•𝑢𝑠 y
podemos suponer que no todos los escalares desde 𝑏2 a 𝑏𝑠 son cero, puesto que si lo fueran,
podríamos expresar 𝑣2 en función de 𝑣1, pero sabemos que 𝑣1 y 𝑣2 son linealmente
independientes. Supongamos que 𝑏2 es distinto de 0, entonces, por el razonamiento
anterior, obtenemos un conjunto 𝑆2 = {𝑣1, 𝑣2, 𝑢3, …, 𝑢𝑠}, que es un sistema de generadores.
Siguiendo este proceso, llegaremos a agotar el conjunto L o el conjunto S, pero si en el
conjunto linealmente independiente hubiese más de s vectores entonces podríamos
146
expresar 𝑣𝑠+1 en función de los restantes vectores lo cual es una contradicción puesto que
L es un conjunto linealmente independiente. □
9.5 Bases de un espacio vectorial I
DEFINICIÓN (Base de un espacio vectorial finita o infinita): Dado un espacio vectorial V, un
subconjunto B de V es una base de V si se cumple que:
1) B es linealmente independiente.
2) B es un sistema de generadores de V.
TEOREMA (Teorema de la base): Si un espacio vectorial V tiene una base con un número
finito de vectores, entonces todas las bases de V tienen el mismo número finito de vectores.
DEMOSTRACIÓN: Sea B = {𝑣1, 𝑣2, …, 𝑣𝑛} una base de V y sea B’ = {𝑢1, 𝑢2, …, 𝑢𝑚}, otra base
de V. Según la proposición 2 de la subsubsección anterior, ya que B’ es un conjunto
linealmente independiente y B un sistema de generadores, ha de ser m ≤ n. Pero de la misma
manera, al ser B un conjunto linealmente independiente y B’ un sistema de generadores ha
de ser n ≤ m, por lo que m = n. □
DEFINICIÓN (Dimensión finita de un espacio vectorial y dimensión infinita de un espacio
vectorial): Sea V un espacio vectorial que posee una base finita, llamaremos dimensión de V
y lo notaremos así: dim(V), al número finito de vectores de cualquiera de sus bases. Sea un
espacio vectorial V cuyas bases son infinitas, diremos que V es un espacio vectorial de
dimensión infinita y lo notaremos así: dim(V) = ∞.
EJEMPLO 1: Sea 𝐹𝑛 = {(
𝑥1 𝑥2⋮𝑥𝑛
) | 𝑥𝑖 de F, para todo i = 1, 2, …, n}. El conjunto (
10⋮0
), (
01⋮0
), …,
(
00⋮1
), es una base que recibe el nombre de la base canónica de 𝐹𝑛. En efecto, veamos que
es un sistema de generadores: Su matriz asociada al sistema de ecuaciones correspondiente
es:
(
1 0 0 ⋯ 000⋮0
10⋮0
01⋮0
⋯⋯⋱⋯
00⋮1)
,
Como vemos tiene solución para cualquier valor de los términos independientes. Además
también vemos que es sistema lineal homogéneo asociado tiene como solución única la
trivial, por lo que el conjunto es linealmente independiente y por tanto dim(𝐹𝑛) = n.
Por las mismas razones en (𝐹𝑛)𝑡 el conjunto (1, 0, …, 0), (0, 1, …, 0), …, (0, 0, …, 1), llamada
también base canónica, es una base. Por tanto, dim((𝐹𝑛)𝑡) = n.
147
EJEMPLO 2: Sea 𝑃𝑑(F) = {polinomios con coeficientes en F de grado máximo d}. En este
espacio vectorial, el conjunto B = {1, x, 𝑥2, …, 𝑥𝑑} es una base llamada base estandar. En
efecto, se comprueba fácilmente que cualquier polinomio 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑑•𝑥𝑑
es una combinación lineal de los vectores de B. También se comprueba que si un polinomio
p(x) = 𝑎0 + 𝑎1•x + 𝑎2•𝑥2 + … + 𝑎𝑑•𝑥𝑑 = 0, entonces los coeficientes 𝑎𝑖 = 0, para todo i.Por
lo que B es linealmente independiente. Por tanto, dim(𝑃𝑑(F)) = d + 1.
EJEMPLO 3: El espacio vectorial P(F) de todos los polinomios en una indeterminada sobre el
cuerpo F no es de dimensión finita. Pues supongamos por reducción al absurdo que su
dimensión es m, entonces cada conjunto con más de m vectores debería ser linealmente
dependiente como veremos más adelante. En particular el conjunto {1, x, 𝑥2, …, 𝑥𝑚}, de m
+ 1 vectores, debería ser linealmente dependiente, pero ya hemos visto en el ejemplo
anterior que no es así, por lo tanto, llegamos a una contradicción.
EJEMPLO 4: Consideremos en el espacio 𝔐m•n(F), las matrices 𝐴𝑖𝑗 que tienen un uno en la
posición ij y cero en las restantes para cada 1 ≤ i ≤ m, 1 ≤ j ≤ n, entonces el conjunto de todas
estas matrices, llamémoslo B, es una base que se llama base estándar y, como podemos
comprobar, que hay m•n matrices distintas, dim(𝔐m•n(F)) = m•n.
EJEMPLO 5: El espacio vectorial trivial consistente en el elemento 0 únicamente, tiene
dimensión 0, puesto que, aunque el elemento {0}, es un sistema de generadores no es
linealmente independiente.
LEMA: 1) Sea S un conjunto linealmente independiente en V, si u es un vector de V, entonces,
S∪{u} es linealmente independiente si y solo si, u no es combinación lineal de los vectores
de S.
2) Sea S un sistema de generadores de V, y sea un vector u de S, entonces, S – {u} es un
sistema de generadores de V sí y solo sí, u es combinación lineal de S – {u}
DEMOSTRACIÓN: 1) Sea S = {𝑣𝑖}, si u es combinación lineal de S, u = ∑𝑐𝑖 • 𝑣𝑖, entonces,
∑𝑐𝑖𝑣𝑖 – u = 0 es una relación de dependencia en S∪{u}. Ahora supongamos que tenemos
una relación de dependencia en S∪{u}: ∑𝑐𝑖 • 𝑣𝑖 + c•u = 0, no podemos suponer que c = 0,
porque esto implicaría que 𝑐𝑖 = 0 para todo i y no tendríamos una relación de dependencia.
Entonces, u = ∑(−𝑐𝑖/𝑐) • 𝑣𝑖, por lo que u es una combinación lineal de S.
2) Sea S’ = S – {u} = {𝑣𝑖}, si u no es combinación lineal de S’, entonces, S’ no es sistema de
generadores de V. Por otro lado, supongamos que u, es combinación lineal de S’, u = ∑𝑐𝑖 • 𝑣𝑖
y suponemos que S es sistema generador de V, de modo que otro vector w = ∑𝑑𝑖 • 𝑣𝑖 + d•u,
pero entonces, se ve que S’ es un sistema generador de V. □
Veamos ahora una proposición muy interesante que se deriva de la proposición 2 de la
subsección anterior y del lema anterior.
PROPOSICIÓN: Sea V un espacio vectorial de dimensión m y sea S un conjunto de n vectores:
1) Si n > m (quizás n infinito), entonces S es linealmente dependiente.
2) Si n < m entonces, S no es un sistema generador de V.
3) Si n ≠ m, entonces S no es una base de V.
4) Si n = m las siguientes proposiciones son equivalentes:
148
a) S es una base de v.
b) S es linealmente independiente.
c) S es un sistema de generadores de V.
DEMOSTRACIÓN: Suponemos que V tiene una base B de m vectores.
1) Esto es otro enunciado de la proposición 2 de la subsubsección anterior.
2) Si S es un sistema de generadores de V entonces B sería un conjunto de vectores
linealmente independiente y S un conjunto de generadores con n < m, lo cual contradice
la proposición 2 de la subsubsección anterior.
3) Esto es el teorema anterior.
4) Si a) es cierto entonces b) y c) también, por definición.
Supongamos b) cierto. Si S no es un sistema de generadores habría un vector u que no
es combinación lineal de los de S, por lo que S∪{u} sería un conjunto de m + 1 vectores
linealmente independiente, en contradicción con 1). Así que c) es cierto y, por tanto,
también a).
Supongamos c) cierto. Si S no fuera linealmente independiente podríamos obtener un
conjunto de m – 1 vectores generador de V, lo cual es una contradicción con 2), por lo
que b) es cierto y también a). □
Para terminar, veamos un corolario muy importante para la teoría de la siguiente
subsubsección.
COROLARIO: Sea B un conjunto de vectores de un espacio vectorial V, las siguientes
proposiciones son equivalentes:
1) B es una base.
2) B es un conjunto linealmente independiente maximal, es decir, B es linealmente
independiente, pero para cualquier vector u de V, B∪{u} es linealmente dependiente.
3) B es un sistema de generadores de V minimal, es decir, B es sistema de generadores de
V, pero para cualquier vector u, de B, B – {u} no es un sistema generador de V.
DEMOSTRACIÓN: 1) implica 2) y 3): Supongamos que B es una base, entonces todo vector v
de V se puede expresar como combinación lineal de los vectores de B, así que, B∪{v} es
linealmente dependiente, según el lema anterior. También B es linealmente independiente
por lo que para todo vector v de B, v no es combinación lineal de los vectores de B – {v}, así
que, por el lema anterior, B – {v} no es sistema generador de V.
2) implica 1): Supongamos que B es un conjunto linealmente independiente maximal,
entonces B es linealmente independiente. Además, para cualquier vector v de V, B∪{v} es
linealmente dependiente, por lo que por el lema anterior v es combinación lineal de los
vectores de B, por lo que B es sistema generador de V.
3) implica 1): Ahora supongamos que B es un sistema generador minimal, por tanto, B es un
sistema generador de V. Pero para cualquier vector v de B, B - {v} no es sistema generador,
por lo que v no es combinación lineal de B, según el lema anterior, y, por tanto, B es
linealmente independiente según la proposición 2 de la subsubsección 9.3. □
149
Notemos que el corolario y el lema anteriores, valen para conjuntos B y S, infinitos pues en
el razonamiento no hemos supuesto que B o S fuera finito.
9.6 Bases de un espacio vectorial II
Ahora vamos a demostrar dos teoremas importantes que nos dan dos medios para obtener
una base en un espacio vectorial V.
TEOREMA 1: En un espacio vectorial no nulo, de cada sistema de generadores finito puede
extraerse una base.
DEMOSTRACIÓN: Dado un sistema de generadores finito, si es linealmente independiente
ya es una base, por lo que suponemos que no lo es. Por tanto, uno de los vectores se puede
expresar como combinación lineal de los restantes, por lo que se puede eliminar este vector
y seguimos teniendo un sistema de generadores. De nuevo aplicamos este proceso hasta
que tengamos un conjunto linealmente independiente o hasta que lleguemos a un único
vector que sabemos que siempre es linealmente independiente. □
TEOREMA 2 (Teorema de ampliación de la base): Sea V un espacio vectorial de dimensión n
y sea S = {𝑣1, 𝑣2, …, 𝑣𝑠} un conjunto de vectores linealmente independiente, entonces,
existen vectores {𝑣𝑠+1, …, 𝑣𝑛}, tales que {𝑣1, 𝑣2, …, 𝑣𝑠, 𝑣𝑠+1, …, 𝑣𝑛} son una base de V.
DEMOSTRACIÓN: Si el conjunto S ya es sistema de generadores ya tenemos una base, por lo
que vamos a suponer que esto no ocurre. En este caso, se puede elegir un vector v
llamémoslo, 𝑣𝑠+1 = v de V tal que v no es combinación lineal de los vectores de S, por lo que
{𝑣1, 𝑣2, …, 𝑣𝑠, 𝑣𝑠+1} es un conjunto linealmente independiente. Siguiendo este razonamiento
llegamos a un conjunto con n vectores linealmente independiente, puesto que, según el
corolario de la subsección anterior, con menos vectores no puede ser una base. También
sabemos por el corolario anterior o por el teorema de la base de susbsubsección anterior,
que no puede haber un conjunto de vectores linealmente independiente de cardinal mayor
que n y además sabemos también por la proposición de la subsubsección anterior, que si
llegamos a un conjunto linealmente independiente de n vectores éste debe ser base, por lo
que concluimos que hemos obtenido una base de n vectores. □
Queremos hacer notar que con estos dos teoremas tenemos dos modos de construir una
base en un espacio vectorial de dimensión finita. Con el primero nos han de dar un sistema
de generadores de V, pero con el segundo no nos hace falta ningún dato inicial aunque
parezca lo contrario, porque si V no es cero, del conjunto vacío podemos buscar cualquier
vector distinto de cero y este será un conjunto linealmente independiente desde el cual
podemos partir según el teorema 2.
Si juntamos los dos teoremas en uno podrían expresarse de la siguiente manera que lo
haremos en el siguiente corolario.
COROLARIO: Sea V un espacio vectorial de dimensión finita. Sea R en conjunto de vectores
de V linealmente independiente y T un sistema de generadores de V, tales que R ⊆ T,
entonces, siempre existe una base B, tal que R ⊆ 𝐵 ⊆ T. En concreto:
150
1) Si Existe un conjunto linealmente independiente R en V entonces también existe una
base B, con R ⊆ B.
2) Si existe un sistema de generadores T en V entonces existe una base B tal que B ⊆ T.
Para terminar, vamos a ver unos ejemplos y hacer unas consideraciones acerca de los
espacios vectoriales de dimensión infinita.
EJEMPLO 1: Consideremos el espacio vectorial 𝐹∞ = {(𝑎1𝑎2⋮) , 𝑎𝑖 es distinto de cero para solo
un número finito de i}, sea 𝑒𝑖 un vector de 𝐹∞, tal que 𝑎𝑖 = 1 y 𝑎𝑗 = 0 para todo j distinto de
i, entonces, B = {𝑒1, 𝑒2, 𝑒3, …} es una base de 𝐹∞, como podemos comprobar. Pues sea
cualquier combinación lineal de vectores de B (recordemos que las combinaciones lineales
deben ser de conjuntos finitos de B) 𝑐1 • 𝑒1 + 𝑐2 • 𝑒2 + … + 𝑐𝑛 • 𝑒𝑛 = 0, implica que 𝑐𝑖 = 0 para
todo i. Además, también este conjunto es un sistema generador, pues cualquier vector v de
𝐹∞ v = (𝑎1𝑎2⋮) , 𝑎𝑖 es distinto de cero para solo un número finito de i, por lo que habrá un
número finto de vectores de B que puedan expresar v como combinación lineal de ellos.
EJEMPLO 2: Consideremos el espacio vectorial 𝐹∞∞ = {(𝑎1𝑎2⋮)} Si B es el mismo conjunto que
en el ejemplo anterior, entonces B es linealmente independiente, pero no es sistema
generador de 𝐹∞∞, pues cualquier vector de este que tenga un número infinito de
componentes no se puede expresar como combinación lineal (porque las combinaciones
lineales son sumas finitas) de vectores de B. Por lo que según las definiciones que hemos
dado de combinación lineal no sabemos cómo obtener una base para este espacio vectorial.
Entonces, viendo estos ejemplos nos hacemos la pregunta: Dado un espacio vectorial:
¿Existe siempre una base para él? En matemáticas más avanzadas se utiliza un axioma de
teoría de conjuntos que nos permite deducir que siempre existe una base para un espacio
vectorial. Nosotros nos dedicaremos casi exclusivamente a los espacios vectoriales de
dimensión finita, de modo que hemos dicho esto para que el lector se haga una idea de los
problemas que surgen con espacios vectoriales de dimensión infinita, pero no
profundizaremos mucho más, solo diremos que se cumple el siguiente teorema que no
demostraremos, para espacios vectoriales arbitrarios análogo al corolario de esta
subsección:
TEOREMA 3: Sea V un espacio vectorial. Sea R en conjunto de vectores de V linealmente
independiente y T un sistema de generadores de V, tales que R ⊆ T, entonces, siempre existe
una base B, tal que R ⊆ 𝐵 ⊆ T. En concreto:
1) Si Existe un conjunto linealmente independiente R en V entonces también existe una
base B, con R ⊆ B.
2) Si existe un sistema de generadores T en V entonces existe una base B tal que B ⊆ T.
151
9.7 Coordenadas de un vector respecto de una base
Hemos dejado para esta subsubsección un hecho muy importante que ocurre con las bases
y los vectores de un espacio vectorial. Este hecho va a representar una herramienta para el
estudio de los espacios vectoriales que nos permitirá trabajar con cualquier espacio vectorial
V de dimensión finita n utilizando su espacio vectorial equivalente 𝐹𝑛.
PROPOSICIÓN 1: Sea V un espacio vectorial de dimensión finita n y sea B = {𝑣1, 𝑣2, …, 𝑣𝑛}
una base del mismo, entonces, todo vector x de V se expresa de forma única como
combinación lineal de los vectores de la base.
DEMOSTRACIÓN: Veamos en esta demostración lo que significa la proposición. B es un
sistema generador, de modo que x se puede expresar como combinación lineal de los
vectores de B. Supongamos que hay dos formas de expresar x por los vectores de B:
x = 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛, x = 𝑥′1•𝑣1 + 𝑥′2•𝑣2 + … + 𝑥′𝑛•𝑣𝑛, entonces, podemos escribir
que 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛 = 𝑥′1•𝑣1 + 𝑥′2•𝑣2 + … + 𝑥′𝑛•𝑣𝑛, lo que implica que (𝑥1 -
𝑥′1)•𝑣1 + (𝑥2 - 𝑥′2)•𝑣2 + … + (𝑥𝑛 - 𝑥′𝑛)•𝑣𝑛 = 0 Y como los vectores de B son linealmente
independientes esto implica que 𝑥𝑖 = 𝑥′𝑖, para todo i, de modo que solo hay una expresión
posible para x como combinación lineal de los vectores de B. □
Por la anterior proposición dada una base B de V, existe una correspondencia biunívoca
entre un conjunto de n coeficientes y cada vector de x de V. Es decir, dado un vector x
determinada un conjunto de n coeficientes (ordenados) y dado un conjunto de n
coeficientes de terminan un único vector x de V.
DEFINICIÓN (Coordenadas de un vector x respecto de una base B de V): Sea x = 𝑥1•𝑣1 + 𝑥2•𝑣2
+ … + 𝑥𝑛•𝑣𝑛, la expresión única de x con respecto a los vectores de la base B como hemos
discutido anteriormente diremos que los coeficientes (𝑥1, 𝑥2, …, 𝑥𝑛) son las coordenadas de
x respecto de la base B y lo expresaremos de la siguiente manera:
x = (𝑥1, 𝑥2, … , 𝑥𝑛) 𝐵.
De modo que, fijada una base, a cada vector x de V le corresponde un vector de 𝐹𝑛 y
viceversa.
EJEMPLO 1: Sea en 3, la base canónica B = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}. El siguiente vector,
x = (2, 3, 1) tiene de coordenadas con respecto a la base canónica, x = (2, 3,1) 𝐵. Mientras
que con respecto a la base B’ = {(1, 1, 1), (0, 1, 1), (0, 0, 1)} tiene de coordenadas x =
(2, 1,−2) 𝐵′, puesto que (2, 3, 1) = 2•(1, 1, 1) + 1•(0, 1, 1) + (-2)• (0, 0, 1).
EJEMPLO 2: Consideremos la base estándar B = {1, x, 𝑥2} del espacio vectorial 𝑃2(F) de los
polinomios de una indeterminada sobre el cuerpo F. Entonces las coordenadas de un
polinomio p(x) = a + b•x + c•𝑥2, son p(x) = (𝑎, b, c) 𝐵.
Ahora para terminar, veamos un hecho básico que ocurre con las coordenadas de los
vectores de V (dada un base B) que veremos más adelante, que es un resultado muy
importante.
152
PROPOSICIÓN 2 (Coordenadas y operaciones con los vectores): Sea V un espacio vectorial de
dimensión n y B una base de V, entonces si x = (𝑥1, 𝑥2, … , 𝑥𝑛) 𝐵, e y = (𝑦1, 𝑦2, … , 𝑦𝑛) 𝐵, se
cumple:
1) x + y = (𝑥1 + 𝑦1, 𝑥2 + 𝑦2, … , 𝑥𝑛 + 𝑦𝑛) 𝐵, es decir las coordenadas del vector suma de
otros dos son la suma de las coordenadas de los vectores sumando.
2) c•x = (c • 𝑥1, 𝑐 • 𝑥2, … , 𝑐 • 𝑥𝑛) 𝐵, para todo escalcar c de F, es decir las coordenadas del
producto de un escalar por un vector son el producto del escalar por las coordenadas
del vector.
DEMOSTRACIÓN: 1) Si x = 𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛, e y = x = 𝑦1•𝑣1 + 𝑦2•𝑣2 + … + 𝑦𝑛•𝑣𝑛,
entonces, x + y = (𝑥1 + 𝑦1)•𝑣1 + (𝑥2 + 𝑦2)•𝑣2 + … + (𝑥𝑛 + 𝑦𝑛)•𝑣𝑛.
2) c•x = c•(𝑥1•𝑣1 + 𝑥2•𝑣2 + … + 𝑥𝑛•𝑣𝑛) = (c•𝑥1)•𝑣1 + (c•𝑥2)•𝑣2 + … + (c•𝑥𝑛)•𝑣𝑛. □
9.8 Coordenadas y dependencia lineal
En esta subsubsección veremos una primera aplicación de la expresión de los vectores de un
espacio vectorial V, de dimensión finita, en forma de sus coordenadas, veremos que
podemos determinar si un conjunto de vectores es linealmente dependiente o
independiente estudiando la dependencia o independencia de sus coordenadas. Sin más
establezcamos la siguiente proposición.
PROPOSICIÓN (Coordenadas y dependencia lineal): Sea V un espacio vectorial de dimensión
finita, y sea B una base del mismo. Un conjunto de vectores S = {𝑢1, 𝑢2, …, 𝑢𝑟} es linealmente
independiente, si y solo si, la matriz cuyas columnas (o filas) son sus coordenadas respecto
a B, tiene rango r.
DEMOSTRACIÓN: Sea B la base del espacio vectorial V, B = {𝑣1, 𝑣2, …, 𝑣𝑛}, si expresamos la
dependencia lineal de S de la siguiente manera: 𝑥1•𝑢1 + … + 𝑥𝑟•𝑢𝑟 = 0, esto implica si
expresamos cada vector de S en función de los vectores de la base B con:
𝑢1 = 𝑎11•𝑣1 + 𝑎12•𝑣2 + … + 𝑎1𝑛•𝑣𝑛,
𝑢2 = 𝑎21•𝑣1 + 𝑎22•𝑣2 + … + 𝑎2𝑛•𝑣𝑛,
…
𝑢𝑟 = 𝑎𝑟1•𝑣1 + 𝑎𝑟2•𝑣2 + … + 𝑎𝑟𝑛•𝑣𝑛,
por lo que, de 𝑥1•𝑢1 + … + 𝑥𝑟•𝑢𝑟 = 0 se obtiene,
𝑥1 • 𝑎11 + 𝑥2 • 𝑎21 + … + 𝑥𝑟 • 𝑎𝑟1 = 0,
𝑥1 • 𝑎12 + 𝑥2 • 𝑎22 + … + 𝑥𝑟 • 𝑎𝑟2 = 0,
…
𝑥1 • 𝑎1𝑛 + 𝑥2 • 𝑎2𝑛 + … + 𝑥𝑟 • 𝑎𝑟𝑛 = 0,
Por ser la base un conjunto linealmente independiente. Entonces vemos que esto es un
sistema de ecuaciones homogéneo de n ecuaciones con r incógnitas cuyas columnas de la
153
matriz asociada son las coordenadas de los vectores de S (con respecto a la base B). Los
vectores serán linealmente dependientes, es decir, el sistema tendrá una solución distinta
de la trivial si y solo si, el rango de la matriz de coeficientes es menor que r, y esto lo
deducimos del Teorema de Rouche-Frobenius, en caso contrario, el sistema es linealmente
independiente. Si consideramos el sistema cuyas filas de la matriz asociada, son las
coordenadas de los vectores se tratará de un sistema cuya matriz es la transpuesta del
anterior, por lo que se sigue cumpliendo la proposición ya que rag(A) = rag(𝐴𝑡). □
EJEMPLO 1: Consideremos en 4 los vectores siguientes con respecto a la base canónica: 𝑢1
= (1, 1, 2, 2), 𝑢2 = (0, 1, 1, 1), 𝑢3 = (2, 0, 2, 2), la matriz cuyas filas son estos vectores es:
A = (1 1 2 202
1 1 10 2 2
) cuya forma normal de Hermite por filas es H = (1 0 1 100
1 1 10 0 0
), por lo
que el rango de A es 2 y los vectores 𝑢1, 𝑢2, 𝑢3m, son linealmente dependientes.
EJEMPLO 2: Consideremos en 𝑃2(), los polinomios p(x) = 3•𝑥2 + 2•x + 1, q(x) = 4•𝑥2 + 3•x
+ 2 y r(x) = 6•𝑥2 + 4•x + 3. Las coordenadas de estos polinomios con respecto a la base
canónica, B = {1, x, 𝑥2}, son p(x) = (1, 2, 3)𝐵, q(x) = (2, 3, 4)𝐵 y r(x) = (3, 4, 6)𝐵, la matriz cuyas
filas son estas coordenadas es:
A = (1 2 323
3 44 6
), cuya forma de Hermite por filas es H = (1 0 000
1 00 1
), por lo que los 3
polinomios son linealmente independientes.
9.9 Cambio de base y de coordenadas de un vector
Veremos en esta importante subsubsección la relación entre las coordenadas de un vector
de un espacio vectorial V de dimensión finita, con respecto a una base y las coordenadas del
mismo vector con respecto a otra base, ya que bases puede haber muchas. Sin más vamos
a ver la proposición central de esta subsubsección.
PROPOSICIÓN 1 (Coordenadas de un vector y cambio de base): Sea V un espacio vectorial V
de dimensión n. Sean B = {𝑒1, 𝑒2, …, 𝑒𝑛} y B’ = {𝑒′1, 𝑒′2, …, 𝑒′𝑛} bases de V y sea P la matriz
de cambio de base de B a B’, cuyas columnas son las coordenadas de la base B’ en función
de los vectores de B. Entonces tenemos este sistema y estas ecuaciones matriciales:
{𝑒′1 = 𝑎11 • 𝑒1 +⋯+ 𝑎𝑛1 • 𝑒𝑛
…𝑒′𝑛 = 𝑎1𝑛 • 𝑒1 +⋯+ 𝑎𝑛𝑛 • 𝑒𝑛
, (𝑒′1, 𝑒′2, …, 𝑒′𝑛) = (𝑒1, 𝑒2, …, 𝑒𝑛)•(𝑎11 ⋯ 𝑎1𝑛⋮𝑎𝑛1
⋱⋯
⋮𝑎𝑛𝑛
),
𝐵′ = B•P,
Y es muy importante y hay que tener cuidado en la forma del sistema y las ecuaciones
matriciales, donde B y B’ son vectores columna de los vectores de las bases
correspondientes. Entonces con esta configuración, sea x expresado como combinación
lineal de los vectores de B y B’:
154
x = 𝑥1•𝑒1 + … + 𝑥𝑛•𝑒𝑛, x = B•X = (𝑒1, 𝑒2, …, 𝑒𝑛)•(
𝑥1⋮𝑥𝑛),
x = 𝑥′1•𝑒′1 + … + 𝑥′𝑛•𝑒′𝑛, x = B’•X ‘= (𝑒′1, 𝑒2, …, 𝑒′𝑛)•(𝑥′1⋮𝑥′𝑛
),
Entonces la relación entre sus coordenadas es:
{𝑥1 = 𝑎11 • 𝑥′1 +⋯+ 𝑎1𝑛 • 𝑥′𝑛
…𝑥𝑛 = 𝑎𝑛1 • 𝑥′1 +⋯+ 𝑎𝑛𝑛 • 𝑥′𝑛
, X = P•X’, (
𝑥1⋮𝑥𝑛) = (
𝑎11 ⋯ 𝑎1𝑛⋮𝑎𝑛1
⋱⋯
⋮𝑎𝑛𝑛
)•(𝑥′1⋮𝑥′𝑛
),con lo que
X’ = 𝑃−1•X.
DEMOSTRACIÓN: Matricialmente se tiene
x = B•X = B’•X’ = B•P•X’, de modo que B•X - B•P•X’ = B•(X - P•X’) = 0
(𝑒1, 𝑒2, …, 𝑒𝑛)•(𝑥1 − 𝑎11 • 𝑥
′1 −⋯− 𝑎1𝑛 • 𝑥′𝑛…
𝑥𝑛 − 𝑎𝑛1 • 𝑥′1 −⋯− 𝑎𝑛𝑛 • 𝑥′𝑛
) = 0, lo que implica por ser los vectores
de B linealmente independientes que
X = P•X’.
Puesto que P es una matriz regular se obtiene también que
X’ = 𝑃−1•X. □
También se puede probar el recíproco del teorema anterior, es decir, que, si toda matriz de
cambio de base es regular, también se cumple que toda matriz regular es de algún cambio
de base.
PROPOSICIÓN 2: Toda matriz regular es una matriz de cambio de base.
DEMOSTRACIÓN: Consideremos una matriz Q regular de orden n cuyos coeficientes son del
cuerpo F. Entonces sus columnas pueden considerarse vectores de 𝐹𝑛 y puesto que el rango
de la matriz es n, estos vectores son linealmente independientes, ahora, puesto que la
dimensión de 𝐹𝑛 es n, estos vectores constituyen una base llamémosla B’, entonces, se
puede considerar Q como una matriz de cambio de base de la base canónica B a B’. □
EJEMPLO: En el espacio vectorial 𝑃2(), los polinomios {(𝑥 − 1)2, 2•(x – 1), 2} forman una
base B’, podemos escribirlos en función de la base estándar B = {1, x, 𝑥2}:
(𝑥 − 1)2 = 𝑥2 - 2•x + 1 = (1, −2, 1)𝐵,
2•(x - 1) = 2•x – 2 = (−2, 2, 0)𝐵,
1 = (2, 0, 0)𝐵,
155
con lo que la matriz de cambio de base P = (1 −2 2−21
20
00), y la matriz de cambio
de base de de B a B’ es: 𝑃−1 = (0 0 101/2
1/21/2
11/2
), y por ejemplo, las coordenadas
del vector p(x) = 1 + 2•x - 2•𝑥2 = (1, 2, −2)𝐵 son:
(0 0 101/2
1/21/2
11/2
)•(12−2) = (
−2−11/2
), por lo que p(x) = (−2,−1, 1/2)𝐵′.
10 Subespacios Vectoriales
10.1 Definición y Ejemplos
Veremos ahora una noción importantísima para nuestro futuro trabajo, que la utilizaremos
constantemente a lo largo del libro.
DEFINICIÓN (Subespacio vectorial): Sea V un espacio vectorial sobre el cuerpo F, entonces
un subconjunto W de V, es subespacio vectorial de V, si W es un espacio vectorial con
respecto a las mismas operaciones consideradas en V.
Quizás esta definición le parezca al lector muy abstracta y no la entienda fácilmente, pero
pensemos en lo que puede significar. Para cada par de vectores de W debe estar definida la
operación de suma que es la misma que en V y para un vector, v, y un escalar, c, de F debe
estar definido el producto c•v que da el mismo resultado que en V. Esto es lo que significa
la definición. A parte de esto, puede parecer muy difícil determinar si un subconjunto, W, de
V es subespacio o no (una primera idea puede ser tener que verificar los axiomas de la
definición de espacio vectorial para W), pero veremos en las siguientes proposiciones que
podemos definir criterios muy sencillos para saber si W es subespacio de V.
PROPOSICIÓN 1 (Primeros criterios para saber si W es subespacio de V): Sea W un
subconjunto de V, entonces, W es subespacio de V si y solo sí se cumplen estas dos
condiciones equivalentes:
a) 1) 0 pertenece a W
2) Si u, v pertenecen a W, entonces u + v pertenece a W
3) Si c pertenece a F y w pertenece a W, entonces, c•v pertenece a W
b) 1) W no es vacío
2) Si u, v pertenecen a W, entonces u + v pertenece a W
3) Si c pertenece a F y w pertenece a W, entonces, c•v pertenece a W
DEMOSTRACIÓN: a) Ya sabemos que 1) es la condición 3 de la de la suma en la definición de
espacio vectorial. Las condiciones 1 y 2 de la definición de la suma de los espacios vectoriales
se cumplen porque W es un subconjunto de V y siempre que u y v pertenecen a W también
lo hace u + v (con la suma definida en V) y también cumplen las propiedades de la suma de
V. Veamos la condición 4 de la suma de los espacios vectoriales. Si w pertenece a W también
156
(-1)•w = -w según las propiedades del producto por escalares en V, por lo que también se
cumple esta condición. Para las condiciones del producto escalar en W y las relaciones con
la suma se hace la misma consideración: se cumplen en W porque se cumplen en V.
b) Ahora para demostrar la equivalencia de a) y b): a) implica b) pues si 1) 0 pertenece a W
entonces W no es vacío. Y b) implica a) pues si W no es vacío contiene al menos un vector w
tal que, como hemos visto antes, -w también pertenece a W y también, por tanto, 0 = -w +
w. □
EJEMPLO 1: a) Sea V un espacio vectorial, entonces, V es un subespacio de sí mismo y
también {0}. En estos casos se dice que son los subespacios impropios de V.
b) Para cualquier d, 𝑃𝑑(F) el conjunto de polinomios de grado menor o igual a d es subespacio
de P(F), el conjunto de polinomios de una indeterminada. Y también, si r ≤ d, 𝑃𝑟(F) es
subespacio vectorial de 𝑃𝑑(F).
c) 𝐹∞ es subespacio vectorial de 𝐹∞∞.
d) Sea m > n, entonces, 𝐹𝑛 no es subespacio vectorial de 𝐹𝑚, pues sus elementos son tuplas
de diferente número de componentes, sin embargo,
(
𝑎1𝑎2⋮𝑎𝑛0⋮0 )
, con 𝑎𝑖 elementos de F es un
elemento de 𝐹𝑚 y el conjunto de todos esos elementos es un subespacio de 𝐹𝑚.
e) Sea X un conjunto, entonces ya vimos que V = {f: X → F}, es un espacio vectorial de cuerpo
F. Ahora, sea t un punto fijo de X, entonces, W = {f de V: f(t) = 0} es un subespacio de V.
También, para 𝑥1, …, 𝑥𝑘, un conjunto finito de puntos de X, W = {f de V |f(𝑥1) = … = f(𝑥𝑘) =
0} es un subespacio de V.
EJEMPLO 2: En 𝔐m•n(F) podemos definir 5 subespacios vectoriales:
1) Las matrices triangulares superiores, puesto que la suma de dos es de nuevo una matriz
triangular y el producto de una por un escalar también lo es.
2) Las matrices triangulares inferiores.
3) Las matrices diagonales, por las mismas razones.
4) Las matrices simétricas pues si A y B son simétricas se cumple que A = 𝐴𝑡, B = 𝐵𝑡 y (𝐴 +
𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡 = A + B, por lo que A + B también es simétrica. Y también se cumple que
si A = 𝐴𝑡, (𝑐 • 𝐴)𝑡 = c•𝐴𝑡 = c•A, por lo que, c•A es simétrica también.
5) Las matrices antisimétricas, se demuestra de la misma manera, que son un subespacio
vectorial.
Queremos recordar otra definición alternativa y método de demostración de que un
subconjunto W es un subespacio de V.
PROPOSICIÓN 2 (Otra verificación de cuando un conjunto W es subespacio de V): Sea W un
subconjunto de V espacio vectorial sobre F, entonces W es subespacio vectorial de V si y solo
157
sí, W es no vacío o contiene el vector 0 y además dados u, v vectores de W y c, d escalares
de F, entonces, c•u + d•v pertenece siempre a W.
DEMOSTRACIÓN: Si W es un subespacio entonces, c•u + d•v pertenece siempre a W. Si c•u
+ d•v pertenece siempre a W entonces haciendo c = d = 1, c•u + d•v = u + v y haciendo, d =
0, c•u + d•v = c•d, por lo que se cumplen las condiciones de la proposición 1 y tenemos
demostrado que se constituye un subespacio. □
10.2 Subespacio generado por un conjunto de vectores
A partir de un conjunto cualquiera, S, de vectores de un espacio vectorial V se puede
considerar otro conjunto que consiste en todas las posibles combinaciones lineales de S, esto
lo formalizaremos en una definición, por su importancia.
DEFINICIÓN (Envolvente lineal de un conjunto S de vectores): Dado un conjunto de vectores
S de un espacio vectorial V, se denomina envolvente lineal de S y se nota como L(S) o Span(S)
al conjunto de todas las posibles combinaciones lineales de S, en fórmulas:
L(S) = {𝑎1 • 𝑠1 +⋯+ 𝑎𝑛 • 𝑠𝑛 | n natural y 𝑎𝑖 de F y 𝑠𝑖 de S, i = 1, …, n}.
EJEMPLO 1: Consideremos los vectores de 3 u = (1, 1, 0), v = (0, 0, 1), entonces L(u, v) = {a•u
+ b•v | a, b de } = {(a, a, b) | a, b de }.
Ahora veremos una importante proposición que enlaza las envolventes lineales con los
subespacios vectoriales.
PROPOSICIÓN 1: L(S) es el menor subespacio vectorial de V que contiene S.
DEMOSTRACIÓN: Hay tres pasos en esta demostración: Demostrar que L(S) es un subespacio,
S está contenido en L(S) y que cualquier subespacio W de V que contenga a S también
contiene a S.
Pero L(S) es un subespacio, pues si consideramos dos vectores u, v de L(S), con u = 𝑎1 • 𝑠1 +
⋯+ 𝑎𝑛 • 𝑠𝑛, v = 𝑏1 • 𝑡1 +⋯+ 𝑏𝑚 • 𝑡𝑚, con 𝑎𝑖, 𝑏𝑗 de F y 𝑠𝑘, 𝑡𝑙 de S, entonces c•u + d•v =
c•(𝑎1 • 𝑠1 +⋯+ 𝑎𝑛 • 𝑠𝑛) + d•(𝑏1 • 𝑡1 +⋯+ 𝑏𝑚 • 𝑡𝑚) = c•𝑎1 • 𝑠1 + … + c•𝑎𝑛 • 𝑠𝑛 + d•𝑏1 •
𝑡1 + … + d•𝑏𝑚 • 𝑡𝑚 que pertenece a L(S).
Todo vector de S está en L(S) de forma evidente.
Además, sea W un subespacio vectorial de V tal que S está incluido en W, pero todo
subespacio vectorial es cerrado para las combinaciones lineales, de modo que L(S) está
incluido en W, de modo que L(S) es el menor de los subespacios que contienen a S como
queríamos demostrar. □
Ahora pensemos que representa L(S). S es un sistema generador de L(S) y también al ser
subespacio podemos pensar en que dimensión debe tener L(S), para ello debemos obtener
una base, que sería un subconjunto de S linealmente independiente que fuera un sistema
generador de L(S).
158
En general, si U es un subespacio de V, este, espacio vectorial de dimensión finita, según el
teorema de ampliación de la base, un conjunto de vectores linealmente independiente de U
(que fuera una base suya) se puede ampliar en V a una base de V, de modo que dim(U) ≤
dim(V) para un espacio vectorial V de dimensión finita. Y por este argumento, si dim(U) =
dim(V), entonces se deduce que U = V. También podemos argumentar en general para
espacios vectoriales de dimensión finita que dado un sistema de generadores de un
subespacio U de V, podemos obtener una base eliminando los vectores que sean
combinación lineal de los restantes. El ejemplo siguiente aclarará lo que hemos dicho en este
párrafo.
EJEMPLO 2: Consideremos en 4, U = L((1, 3, 4, 1), (2, 6, 8, 2), (2, 5, 7, 2)). Vemos que los 3
vectores son un sistema de generadores de U, pero no son base porque son linealmente
dependientes, ya que la matriz (1 3 4 122
65
87
22) tiene rango 2 y, por tanto, solo hay 2 vectores
linealmente independientes. Esto lo veremos claro puesto que si observamos que el segundo
vector es 2 veces el primero la forma normal de Hermite por filas nos mostraria una fila de
ceros. Y, puesto que el segundo es una combinación lineal del primero, si lo eliminamos nos
quedamos con el conjunto siguiente como base {(1, 3, 4, 1), (2, 5, 7, 2)}.
En el siguiente lema veremos otros métodos para pasar de un sistema de generadores a otro
que nos recuerda a las operaciones elementales de las matrices pues de hecho es
básicamente los mismo que demostramos entonces con las matrices.
LEMA: Si {𝑢1, 𝑢2, …, 𝑢𝑛} es un sistema de generadores del subespacio vectorial U, entonces,
también es un sistema de generadores para U los siguientes conjuntos:
1) El conjunto que se obtiene intercambiando la posición de dos de los vectores.
2) El conjunto que se obtiene del anterior, multiplicando un vector de ellos por un escalar
c, no nulo: {𝑢1, 𝑢2, …, c•𝑢𝑗, …, 𝑢𝑛}.
3) El conjunto que se obtiene del anterior sumando a un vector el múltiplo de otro por un
escalar c. {𝑢1, …, 𝑢𝑖 + c•𝑢𝑗, …, 𝑢𝑗, …, 𝑢𝑛}.
DEMOSTRACIÓN: 1) Es evidente. 2) Sea x un vector de U entonces, se puede poner como
combinación lineal de los vectores de S x = 𝑥1 • 𝑢1 + … + 𝑥𝑖 • 𝑢𝑖 + … + 𝑥𝑛• 𝑢𝑛 y es obvio que
x se puede expresar como combinación lineal de los vectores del otro conjunto: x = 𝑥1 • 𝑢1 +
… + (𝑥𝑖/𝑐) • (𝑐 • 𝑢𝑖) + … + 𝑥𝑛• 𝑢𝑛.
3) De forma similar x se puede expresar de la siguiente manera:
x = 𝑥1 • 𝑢1 + … + 𝑥𝑖 • (𝑢𝑖 + c•𝑢𝑗) + … + (𝑥𝑗 - c•𝑥𝑖)•𝑢𝑗 + … + 𝑥𝑛• 𝑢𝑛. □
10.3 Subespacio nulo, subespacio de filas y de columnas de una matriz
Ya hemos visto la estructura del conjunto de soluciones de un sistema lineal. Si A es una
matriz m•n, K ≠ 0, una matriz m•1, matriz columna o vector columna m-tupla y X una matriz
columna n•1 o vector columna n-tupla, este conjunto se puede definir como {X |A•X = K}, se
le llama espacio de soluciones del sistema, aunque vamos a ver ahora mismo que no es un
subespacio vectorial, por muchas razones y entre ellas por ejemplo que no contiene al vector
159
0, pues A•0 = 0 ≠ K, por lo que el vector 0 no cumple la condición que define este espacio, en
general. De momento no vamos a ocuparnos de este espacio salvo en un caso muy concreto
y es cuando el sistema es homogéneo.
PROPOSICIÓN 1: El espacio de soluciones de un sistema homogéneo de ecuaciones es un
subespacio vectorial.
DEMOSTRACIÓN: Veamos las 3 condiciones que nos permiten asegurar que es un subespacio:
A•0 = 0, de modo que el vector 0 cumple la condición y pertenece al conjunto. Dados 𝑋1, 𝑋2,
vectores que cumplen la solución ocurre que A•𝑋1 = 0 y A•𝑋2 = 0 y, por tanto, A•(𝑋1 + 𝑋2) =
A•𝑋1 + A•𝑋2 = 0 + 0 = 0, de modo que el vector suma de dos soluciones pertenece al espacio.
Y también si A•X = 0, para todo escalar c, A•(c•X) = c•A•X = c•0 = 0, por lo que el producto
de un escalar por una solución también es solución del sistema. □
DEFINICIÓN (Subespacio nulo de una matriz o espacio de soluciones de un sistema de
ecuaciones homogéneo): El espacio de soluciones de un sistema homogéneo, {X |A•X = 0},
donde A es una matriz m•n y X un vector de 𝐹𝑛, es un subespacio vectorial de 𝐹𝑛 y se
denomina espacio nulo de la matriz A y se nota como EN(A) = {X de 𝐹𝑛 |A•X = 0}
Hay otros dos subespacios vectoriales relacionados con una matriz que estudiaremos:
DEFINICIÓN (Subespacio de filas de una matriz): Si A es una matriz m•n, el espacio de filas de
esa matriz es el subespacio de (𝐹𝑛)𝑡 que resulta ser la envolvente lineal de las filas de la
matriz A, consideradas como vectores de (𝐹𝑛)𝑡 y se nota EF(A).
DEFINICIÓN (Subespacio de columnas de una matriz): Si A es una matriz m•n, el espacio de
columnas de esa matriz es el subespacio de 𝐹𝑚 que resulta ser la envolvente lineal de las
columnas de la matriz A, consideradas como vectores de 𝐹𝑚 y se nota EC(A).
Según vimos en la proposición 5.3.2 (apartado 2)) de diversas propiedades del producto de
matrices, si una fila es combinación lineal de otras, esto es lo mismo que multiplicar una
matriz fila de número de componentes, m, igual al número de filas que queremos combinar,
por la matriz m•n que resulta de considerar cada fila a combinar, como fila sucesiva de la
matriz, es decir, si Z es una fila o vector fila 1•n, entonces, Z = Y•A es la expresión matricial
que indica que Z es combinación lineal de las filas de A consideradas como vectores fila y con
Y vector fila de dimensión m, genérico si queremos abarcar todas las posibilidades de
combinación lineales de (𝐹𝑚)𝑡, de modo que se puede caracterizar al espacio de filas de E
como EF(A) = {Y•A | Y de (𝐹𝑚)𝑡}. De la misma manera vimos en la proposición 5.3.2
(apartado 6)), que un sistema lineal se podía considerar como hallar todas las combinaciones
lineales posibles resultantes de considerar las columnas de una matriz como vectores a
combinar, es decir Z = A•X, con Z un vector columna m•1 y X un vector columna n•1 genérico
que abarca todas las posibilidades de 𝐹𝑛, o EC(A) = {A•X | X de 𝐹𝑛}
PROPOSICIÓN 2: Para cualquier matriz A, de dimensión m•n y matrices P y Q tales que, P•A
y A•Q están definidas se cumple:
1) EN(A) ⊆ EN(P•A) con EN(A) = EN(P•A) si P es cuadrada y regular.
2) EF(P•A) ⊆ EF(A) con EF(P•A) = EF(A) si P es cuadrada y regular.
3) EC(A•Q) ⊆ EC(A) con EC(A•Q) = EC(A) si Q es cuadrada y regular.
160
DEMOSTRACIÓN: 1) X es de EN(A) implica que A•X = 0, lo que implica que P•(A•X) = (P•A)•X
= 0 o sea X pertenece a EN(P•A). Si 𝑃−1 existe tenemos que X es de EN(P•A) cuando, (P•A)•X
= 0, lo que implica que 𝑃−1•(P•A)•X = A•X = 0.
2) Sea P una matrix r•m, entonces, EF(P•A) = {Y•(P•A ) | Y de (𝐹𝑟)𝑡} = {(Y•P)•A ) | Y de (𝐹𝑟)𝑡},
pero Y•P es una combinación lineal de las filas de P que puede ser de rango m, como mucho,
o menor, por tanto, {(Y•P)•A ) | Y de (𝐹𝑟)𝑡} ⊆ {Z•A ) | Z de (𝐹𝑚)𝑡}, porque si Y•P no abarca
todas las posibilidades de (𝐹𝑚)𝑡 al ser el rango de P menor que m, no podemos asegurar la
igualdad de conjuntos. En cambio, si r = m y P es regular, EF(A) = EF(𝑃−1•(P•A)) ⊆ EF(P•A).
3) De la misma manera que en 2) para una matriz Q, n•r, EC(A•Q) = {(A•Q)•Y | Y de 𝐹𝑟} =
{A•(Q •Y )| Y de 𝐹𝑟} ⊆ {A•Z | Z de 𝐹𝑛} = EC(A). Si r = n y Q es regular, entonces, EC(A) =
EC((A•Q)•𝑄−1) ⊆ EC(A•Q). □
Ahora como consecuencia de esta proposición viene un corolario que trata de los espacios
nulos, filas y columnas de matrices equivalentes por filas o columnas. Dice lo siguiente:
COROLARIO: Puesto que A y B son equivalente por filas si hay una matriz regular P, tal que A
= P•B y equivalentes por columnas si hay una matriz regular Q tal que A = B•Q, se cumple:
1) A es equivalente por filas a B, entonces, EN(A) = EN(B).
2) A es equivalente por filas a B, entonces, EF(A) = EF(B).
3) A es equivalente por columnas con B, entonces EC(A) = EC(B).
DEMOSTRACIÓN: La demostración es inmediata. □
Para demostrar 2 y 3 podríamos haber utilizado también el lema de la anterior
subsubsección, puesto que para pasar del espacio de columnas y de filas de A y B
equivalentes por filas o columnas se realizan las operaciones del lema que no cambian a los
dichos espacios.
10.4 Redefinición del rango de una matriz
Para empezar esta subsubsección vamos a ver la relación que existe entre EN(A) y EC(A), para
una matriz A cualquiera.
PROPOSICIÓN 1: Para cualquier matriz A de dimensión m•n, dim(EC(A)) + dim(EN(A)) = n,
esto es la dimensión del espacio de columnas y del espacio nulo suman el número de
columnas.
DEMOSTRACIÓN: Sea t = dim(EN(A)) y 𝑢1, 𝑢2, …, 𝑢𝑡 una base de EN(A). Sabemos que
podemos ampliar este conjunto de vectores linealmente independiente hasta una base de
𝐹𝑛. Sean 𝑤1, 𝑤2, …, 𝑤𝑟 estos vectores que amplían la base de EN(A) de modo que 𝑢1, 𝑢2, …,
𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟 es una base de 𝐹𝑛 y entonces tenemos que n = t + r. La demostración estaría
completa si mostramos que r = dim(EC(A)). Sabemos que EC(A) = {A•X | X de 𝐹𝑛}, de modo
que para un vector z de EC(A), z = A•X, entonces ya que {𝑢1, 𝑢2, …, 𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟} es una
base de 𝐹𝑛, existen 𝑎1, …, 𝑎𝑡, 𝑏1, …, 𝑏𝑟 tales que X = 𝑎1 • 𝑢1 + … + 𝑎𝑡 • 𝑢𝑡 + 𝑏1•𝑤1 + … +
𝑏𝑟•𝑤𝑟 y z = 𝑎1 • 𝐴 • 𝑢1 + … + 𝑎𝑡 • 𝐴 • 𝑢𝑡 + 𝑏1 • 𝐴•𝑤1 + … + 𝑏𝑟 • 𝐴•𝑤𝑟 = 𝑏1 • 𝐴•𝑤1 + … + 𝑏𝑟 •
𝐴•𝑤𝑟, ya que 𝑢𝑖 pertenece a EN(A), para cada i. Entonces lo que hemos demostrado es que
161
los vectores A•𝑤1, A•𝑤2, …, A•𝑤𝑟 generan EC(A), solo queda por demostrar que son
linealmente independientes. Supongamos que 𝑐1 • A • 𝑤1 + 𝑐2 • A • 𝑤2 + … +𝑐𝑟 • A • 𝑤𝑟 = 0
= 0, entonces, A•v = 0, con v = 𝑐1 • 𝑤1 + 𝑐2 • 𝑤2 + … +𝑐𝑟 • 𝑤𝑟 de modo que v pertenece a
EN(A), de modo que también v = 𝑑1 • 𝑢1 + 𝑑2 • 𝑢2 + … + 𝑑𝑡𝑢𝑡 y v – v = 0 = 𝑐1 • 𝑤1 + 𝑐2 • 𝑤2 +
… +𝑐𝑟𝑤𝑟 - 𝑑1 • 𝑢1 - 𝑑2 • 𝑢2 - … - 𝑑𝑡𝑢𝑡, pero como {𝑢1, 𝑢2, …, 𝑢𝑡, 𝑤1, 𝑤2, …, 𝑤𝑟} es una base
se tiene a la fuerza que 𝑐𝑖 = 0 para todo i = 1, …, r y vemos que los vectores A•𝑤1, A•𝑤2, …,
A•𝑤𝑟, forman una base de EC(A), de modo que dim(EC(A)) = r, con t + r = n. □
Veamos ahora unos lemas que nos conducirán a una nueva definición del rango de una
matriz.
LEMA 1: Si P es regular, entonces, dim(EC(P•A)) = dim(EC(A)).
DEMOSTRACIÓN: Por la proposición 2 de la subsubsección anterior 10.3 EN(P•A) = EN(A) y,
por tanto, dim(EC(P•A)) = dim(EC(A)), ya que P•A y A tienen el mismo número de columnas
se sigue de la proposición 1 anterior de esta subsubsección que n = dim(EN(P•A)) +
dim(EC(P•A)) = t + dim(EC(P•A)) , de modo que n – t = dim(EC(P•A)) = dim(EC(A)) = r. □
LEMA 2: Si P y Q son regulares, entonces dim(EC(P•A•Q)) = dim(EC(A)).
DEMOSTRACIÓN: Por la proposición 2 de la subsubsección anterior 10.3 EC(A•Q) = EC(A), de
modo que aplicando el lema anterior lema 1 de esta subsubsección dim(EC(P• A•Q)) =
dim(EC(A•Q)) = dim(EC(A)). □
LEMA 3: Si P y Q son regulares, entonces, dim(EF(P• A•Q)) = dim(EF(A)).
DEMOSTRACIÓN: Esta claro que dim(EC(𝐴𝑡)) = dim(EF(A)), de modo que dim(EF(P• A•Q)) =
dim(EC((P • A • Q)𝑡)) = dim(EC(Q𝑡•A𝑡•P𝑡)) = dim(EC(A𝑡)) = dim(EF(A)). □
Ahora ya estamos preparados para redefinir el rango de una matriz.
PROPOSICIÓN 2: Para cualquier matriz A, dim(EF(A)) = dim(EC(A)).
DEMOSTRACIÓN: Según la discusión de la subsubsección 6.4 proposición 2 existen matrices
regulares P y Q, tales que P•A•Q = (𝐼𝑟 ⋮ 0…0
⋮ …⋮ 0
), de modo que dim(EC(A)) = dim(EC(P•A•Q))
= r = dim(EF(P•A•Q)) = dim(EF(A)). □
Ahora vemos que dim(EC(A)) = dim(EF(A)) = rango de A según la definición antigua que dimos,
por lo tanto se puede redefinir el rango de A como la dimensión común de dim(EC(A)) =
dim(EF(A)) o también, como el número de columnas o de filas linealmente independientes
de la matriz. Formalicemos esta discusión en una definición.
DEFINICIÓN 1 (Rango de una matriz A): Definimos el rango de una matriz, A, y se notará como
rag(A), a la dimensión única de su espacio de filas o su espacio de columnas ya que siempre
coinciden, también como el número mayor de filas o columnas linealmente independientes,
de modo que rag(A) = dim(EC(A)) = dim(EF(A)).
DEFINICIÓN 2 (Nulidad de una matriz): A la dimensión del espacio nulo EN(A), dim(EN(A))
también se la llama nulidad y se nota como dim(EN(A)) = nul(A), entonces tenemos que la
expresión de la proposición 1 de esta subsubsección queda: rag(A)+ nul(A) = n.
162
Ahora demostraremos un lema que será útil en lo sucesivo.
LEMA 4: Sea B = {𝑒1, …, 𝑒𝑛} una base de un espacio vectorial V, U = {𝑢1, …, 𝑢𝑘} un conjunto
de vectores que son sistema de generadores de V y A, la matriz n•k cuyas columnas son las
coordenadas de los vectores de U con respecto a la base B, entonces, esto ocurre sí y solo si,
rag(A) = n.
DEMOSTRACIÓN: Si U es un sistema generador de V esto es equivalente a que para cualquier
vector v, de V, v = 𝑐1•𝑢1 + … + 𝑐𝑘•𝑢𝑘, de modo que si v se expresa en función de la base B
obtenemos también que v = 𝑏1•𝑒1 + … + 𝑏𝑛•𝑒𝑛 y podemos escribir estas ecuaciones
vectoriales: v = U•c , v = B•b y U = B•A, con U = (𝑢1, …, 𝑢𝑘), c = (𝑐1, …,𝑐𝑘), B = (𝑒1, …, 𝑒𝑛) y b
= (𝑏1, …, 𝑏𝑛), de modo que v = B•b = U•c = B•A•c y por tanto, b = A•c, por la unicidad de las
coordenadas en una base y esto, para toda n-tupla b, lo que es equivalente a que, para todo
b, el sistema A•X = b tiene solución, lo que es equivalente por el teorema de Rouche-
Frobenius que rag(A) = rag(Ab), para todo b, lo que es equivalente a que para todo b,
L(col_1(A), …, col_k(A)) = L(col_1(A), …, col_k(A), b), lo que es equivalente a que para todo b,
b pertenece a L(col_1(A), …, col_k(A)), de modo que esto es equivalente a que L(col_1(A), …,
col_k(A)) es todas las n-tuplas en el cuerpo F que, como tiene dimensión n, como espacio
vectorial, es equivalente, según nuestra definición de rango, a que rag(A) = n. □
10.5 Cálculo de la dimensión y una base de EC(A) y EF(A) para una matriz A
Empezamos primero con una base de EC(A). Esta sección tendrá 3 proposiciones semejantes
y será muy corta.
PROPOSICIÓN 1 (Cálculo de una base para EC(A)): Sea A una matriz de dimensión m•n y sea
EC(A) su espacio de columnas, entonces se cumple lo siguiente:
1) Sea A’ una forma escalonada con respecto a las columnas (no necesariamente reducida)
y estén los pivotes de la forma escalonada en las columnas 𝑗1, …, 𝑗𝑘, entonces, los
vectores columna B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las columnas de la matriz A (y fíjese el
lector que decimos la matriz A y no la A’) forman una base para el espacio EC(A).
2) También forman una base de EC(A) los vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las
columnas de la matriz A’.
3) También forman una base aún más sencilla las columnas distintas de 0, de la forma de
Hermite reducida por columnas de A.
DEMOSTRACIÓN: 1) Sea 𝐻𝑐 la forma de Hermite reducida por columnas, entonces, las
columnas no nulas proceden de las columnas B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, de la matriz A y sabemos por
el lema de la subsubsección 10.2 que son un sistema de generadores de EC(A). Al tener este
conjunto B, la dimensión de EC(A) (puesto que esta dimensión es el rango de A) también
tiene que ser un sistema linealmente independiente y por tanto es una base de EC(A).
2) Estos vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘} con combinaciones lineales de los vectores de las columnas
de A y de 𝐻𝑐 y según el lema de la subsubsección 10.2 también son una base de EC(A).
3) El mismo argumento anterior sirve para los vectores columna distintos de 0 de 𝐻𝑐. □
163
PROPOSICIÓN 2 (Cálculo de una base para EF(A)): Sea A una matriz de dimensión m•n y sea
EF(A) su espacio de filas, entonces se cumple lo siguiente:
1) Sea A’ una forma escalonada con respecto a las filas (no necesariamente reducida) y
estén los pivotes de la forma escalonada en las filas 𝑗1, …, 𝑗𝑘, entonces, los vectores fila
B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las filas de la matriz A (y fíjese el lector que decimos la
matriz A y no la A’) forman una base para el espacio EF(A).
2) También forman una base de EF(A) los vectores B = {𝑣𝑗1, …, 𝑣𝑗𝑘}, formados por las filas
de la matriz A’.
3) También forman una base aún más sencilla las filas distintas de 0, de la forma de Hermite
reducida por filas de A.
DEMOSTRACIÓN: Análoga a la proposición 1 anterior. □
EJEMPLO 1: Sea U, el subespacio de 𝐹4, U = L((1, 3, 4, 1), (2, 6, 8, 2), (2, 5, 7, 2)), escribamos
una matriz cuyas filas son estos vectores y calculemos su forma normal de Hermite por filas:
(1 3 4 122
65
87
22) → (
1 3 4 100
0−1
0−1
00) → (
1 3 4 100
10
10
00) → (
1 0 1 100
10
10
00).
Por tanto, una base de U es B = {(1, 0, 1, 1), (0, 1, 1, 0)}.
Ahora vamos a ver otra forma de calcular una base de EC(A) utilizando una forma escalonada
por filas (y advierta el lector que no decimos por columnas), llamémosla A’ de A.
PROPOSICIÓN 3(Cálculo de una base para EC(A) por medio de una forma escalonada por filas
de A): Sea S = {𝑣1, …, 𝑣𝑛} un conjunto de n vectores de 𝐹𝑚 y sea A la matriz formada por
medio de estos vectores como sus columnas. Sea A’ una forma escalonada por filas de la
matriz A y estén los pivotes en las columnas 𝑗1, …, 𝑗𝑘, entonces, L(S) tiene como base B = {𝑣𝑗1,
…, 𝑣𝑗𝑘} y, por tanto, la dimensión de L(S) es k. Y, por tanto, una base de EC(A) es B.
DEMOSTRACIÓN: Debemos mostrar que B es linealmente independiente y que es un sistema
generador de W = L(S). Demostremos primero que es un sistema generador de W.
Sea v un vector de W, entonces v = 𝑑1•𝑣1 + … + 𝑑𝑛•𝑣𝑛, para unos escalares 𝑑1, …, 𝑑𝑛 del
cuerpo. Y esto también significa piénselo el lector que ya lo hemos discutido, que A•X = v
tiene solución. Pero, de hecho, piense el lector en la subsubsección 3.4 que discutimos la
resolución de un sistema de ecuaciones, que esto significa que existe una solución 𝑥𝑗1 = 𝑐𝑗1,
…, 𝑥𝑗𝑘 = 𝑐𝑗𝑘 y con 𝑥𝑗 = 0 para las demás j, haciendo las variables libres nulas, por tanto, v =
𝑐𝑗1•𝑣𝑗1 + … + 𝑐𝑗𝑘 • 𝑣𝑗𝑘 y esto significa que B genera W.
Ahora demostremos que B es linealmente independiente. Supongamos que 𝑐𝑗1•𝑣𝑗1 + … +
𝑐𝑗𝑘 • 𝑣𝑗𝑘 = 0, entonces haciendo 0 los coeficientes de los vectores de S que faltan vemos que
0 = 𝑑1•𝑣1 + … + 𝑑𝑛•𝑣𝑛 = A•X. Pero esto es un sistema homogéneo en el que las variables
libres se han hecho nulas, esto obliga que 𝑐𝑗1 = … = 𝑐𝑗𝑘 = 0 puesto que las incógnitas
principales dependen en un sistema homogéneo, solo de las libres, por lo que B es
linealmente independiente. □
EJEMPLO 2: Encontrar una base para el subespacio de 𝐹4, L(S), con
164
S = {(
1237
), (
41−20
), (
−1011
), (
54−17
), (
0146
)}.
Por tanto, A = (
1 4 −1 5 0237
1 0 4 1−2 1 −1 40 1 7 6
) que se reduce a A’ = (
1 4 −1 5 0000
−7 2 −6 10 0 −4 20 0 0 0
).
Donde vemos que hay 3 columnas principales en las posiciones 1, 2 y 4, por lo que W tiene
dimensión 3 y tiene una base B = {(
1237
), (
41−20
), (
54−17
)}. También se puede decir que B es
una base de EC(A).
10.6 Ecuaciones cartesianas y paramétricas de un subespacio I
Para discutir las coordenadas cartesianas y paramétricas de un subespacio nos queda
demostrar un paso previo muy interesante y lo haremos en la siguiente proposición.
PROPOSICIÓN 1 (Dimensión de los subespacios en función de las coordenadas): Sea V un
espacio vectorial de dimensión n y W un subespacio suyo, W = L(𝑤1, …, 𝑤𝑠). Sea B = {𝑒1, …,
𝑒𝑛} una base de V y A una matriz cuyas columnas son la expresión de cada vector de un
sistema de generadores de W en función de B, entonces, rag(A) = dim W.
DEMOSTRACIÓN: Sea t = dim W y escojamos una base de W de modo que la matriz fila U =
(𝑢1, …, 𝑢𝑡) y B = (𝑒1, …, 𝑒𝑛), y por tanto, U = B•C, para una matriz C de dimensión n•t. Vimos
en la proposición de la subsubsección 9.8 que esto implica que rag(C) = t. Definamos P = (𝑤1,
…, 𝑤𝑠), a la s-tupla de un sistema de generadores de W y supongamos que P = U•D, según el
lema 4 de la subsubsección 10.4, se tiene que rag(D) = t, más aún, B•A = P = U•D = B•C•D,
de modo que por la unicidad de las coordenadas de una base, tenemos: A = C•D. Por la
propiedad del rango del producto de dos matrices, rag(A) = rag(C•D) ≤ min{rag(C), rag(D)} =
min{t, t} = t. Ahora supongamos que rag(A) < t, de modo que, según la proposición de la
subsubsección 9.8, no puede haber t vectores en W linealmente independientes, pero
sabemos que de un sistema de generadores de W como tiene dimensión t, podemos extraer
una base de t vectores linealmente independientes, lo cual es una contradicción y, por tanto,
rag(A) = t. □
A partir de ahora vamos a utilizar un concepto muy fructífero y que nos va a acompañar a lo
largo de este libro. Es el siguiente, hemos visto que dada una base de un espacio vectorial V
de dimensión finita, cada vector de V queda determinado por sus coordenadas, de modo que
el concepto que vamos a establecer es que fijada una base, podemos considerar todos los
vectores definidos por sus coordenadas (según esa base) por tanto, podemos utilizar todas
las herramientas que tenemos a nuestra disposición en el espacio de las n-tuplas de
elementos de F (matrices, sistemas lineales, etc.), para estudiar los espacios o subespacios
de V. En esta subsubsección empezaremos este estudio y verá el lector que tiene mucho
significado y gran alcance este concepto.
165
Para terminar los preliminares veremos un corolario que nos será útil y desde donde
empezamos a utilizar el concepto que acabamos de establecer. Demostramos de nuevo el
resultado de la proposición 1 de esta subsubsección y agregaremos algunos detalles más.
COROLARIO: Sea V un espacio vectorial de dimensión n y B una base del mismo. Sea U = L(𝑢1,
…, 𝑢𝑘) un subespacio del mismo y consideremos la matriz A de orden k•n que consiste en
que las filas de A son las coordenadas según la base B, de los vectores 𝑢1, …, 𝑢𝑘. Entonces
𝐴𝑡, es la matriz cuyas columnas son las coordenadas según la base B de los vectores 𝑢1, …,
𝑢𝑘. Entonces, se cumple lo siguiente:
1) dim U = rag(A) = rag(𝐴𝑡)
2) Las filas de la forma normal de Hermite por filas de A son las coordenadas de los vectores
de una base de U.
3) Las columnas de la forma normal de Hermite por columnas de 𝐴𝑡 son las coordenadas
de los vectores de una base de U.
DEMOSTRACIÓN: 1) Utilizando las coordenadas respecto de la base B, tenemos
simbólicamente expresado que U = EF(A), es decir todas las combinaciones lineales de las
filas de A, tomadas como vectores dan las coordenadas de todos los vectores de U y por tanto
rag(A) = dim U = rag(𝐴𝑡).
2) Sea 𝐻𝑓 la forma normal de Hermite por filas de A, según el lema de la subsubsección 10.2,
las filas no nulas de 𝐻𝑓 forman un sistema de generadores de todos los vectores de U
expresados en coordenadas según la base B. De modo que ya que el número de estas filas es
igual al rag(A) = dim EF(A) = dim U, este sistema de generadores ha de ser una base de EF(A)
y, por tanto, de los vectores de U expresados en coordenadas.
3) Esta afirmación es la misma que en 2). □
Ahora vamos a entrar en materia y quería advertir al lector que esta subsubsección puede
resultar un tanto desconcertante, pero con el tiempo y el uso de los conceptos que
trataremos, resultará muy natural, aunque lleva tiempo familiarizarse con el material que
exponemos a continuación.
El primer concepto que hemos introducido en esta subsubsección es que podemos utilizar
las coordenadas de los vectores de un subespacio para determinar a los vectores del mismo,
ahora se trata de ir un paso más adelante y utilizar un sistema de ecuaciones lineales
homogéneo para determinar las coordenadas de los vectores del subespacio y así determinar
éste. Ya vimos que las soluciones de un sistema homogéneo de ecuaciones lineales son un
subespacio vectorial, por tanto, se trata de asociar a cada subespacio vectorial el conjunto
de soluciones de un sistema homogéneo como las coordenadas de sus vectores y viceversa
con respecto a una base dada.
DEFINICIÓN 1 (Ecuaciones paramétricas de un subespacio vectorial U dada una base B del
espacio vectorial V al que pertenece): Sea V un especio vectorial de dimensión n de base B =
{𝑒1, …, 𝑒𝑛} y sea U un subespacio vectorial del mismo que tiene un sistema de generadores
166
{𝑢1, …, 𝑢𝑠}. Sea W = (𝑢1, …, 𝑢𝑠) = (𝑒1, …, 𝑒𝑛)•A = E•A, con E = (𝑒1, …, 𝑒𝑛) y A una matriz n•s.
Sea T = (
𝑡1⋮𝑡𝑠
) una matriz s•1 de parámetros o variables… Entonces se tiene:
U = L(𝑢1, …, 𝑢𝑠) = {∑ 𝑡𝑖 •𝑖=𝑠𝑖=1 𝑢𝑖, para todo 𝑡1, … , 𝑡𝑠 de F} = {W•T, para toda T matriz s•1} =
{E•A•T, para toda matriz T de dimensión s•1} .
Si decimos que las coordenadas de los vectores de U son X = (
𝑥1⋮𝑥𝑛), el sistema de ecuaciones
X = A•T, es decir, {
𝑥1 = 𝑎11 • 𝑡1 +⋯+ 𝑎1𝑠 • 𝑡𝑠…
𝑥𝑛 = 𝑎𝑛1 • 𝑡1 +⋯+ 𝑎𝑛𝑠 • 𝑡𝑠
, se llaman ecuaciones paramétricas de U
con respecto a la base B. Las variables 𝑡1, …, 𝑡𝑠 se llaman parámetros. Y observemos que estas
ecuaciones paramétricas tienen la misma forma que las soluciones de un sistema
homogéneo de ecuaciones, porque de hecho lo son. Variando todas las posibles
combinaciones de valores a los parámetros obtenemos todas las posibles coordenadas de los
vectores de U dada la base B y es evidente que, si tenemos un sistema de generadores de U
diferente, las ecuaciones paramétricas serán diferentes para un mismo subespacio U y fijada
una base B de V. Más aún diremos que si dim U = r todo sistema de ecuaciones paramétrico
de U ha de tener al menos, r parámetros.
DEFINICIÓN 2 (Ecuaciones paramétricas o implícitas de un subespacio U de un espacio V al
que pertenece, dada una base B del mismo): Sea V un espacio vectorial de dimensión n, de
base B = {𝑒1, …, 𝑒𝑛}, sea U un subespacio vectorial de V y sea E = (𝑒1, …, 𝑒𝑛). Un sistema
cartesiano de ecuaciones de U, o un sistema de ecuaciones implícitas de U, con respecto a la
base B, es un sistema homogéneo de ecuaciones A•X = 0, tal que, las soluciones del sistema
son las coordenadas de los vectores de U y las únicas coordenadas dadas la base B, es decir
simbólicamente: A•X = 0 es equivalente a que E•X pertenece a U.
Al igual que lo consideramos con las ecuaciones paramétricas, surgen 2 preguntas a
considerar con las ecuaciones paramétricas que nos guiaran para su estudio:
1) Dado un sistema de ecuaciones homogéneo de n incógnitas, ¿existirá un subespacio
vectorial U, tal que sus ecuaciones cartesianas son ese sistema con respecto a la base B?
2) Dado un subespacio vectorial U de V, ¿Siempre podemos encontrar un sistema
homogéneo de ecuaciones que sea su sistema cartesiano de ecuaciones? Y si siempre
existe, ¿será este sistema cartesiano único?
10.7 Ecuaciones cartesianas y paramétricas de un subespacio II
Ya podemos responder al segundo aspecto de la segunda pregunta con la que terminamos la
subsubsección anterior. Veamos que un subespacio puede admitir diferentes ecuaciones
cartesianas o implícitas, pues si A•X = 0 es uno de ellos para el subespacio U, cualquier otro
equivalente al mismo será también un sistema de ecuaciones cartesiano para el mismo
subespacio U. Por ejemplo, consideremos el vector 0 como subespacio vectorial de un
espacio vectorial de dimensión n, está claro que cualquier sistema de ecuaciones homogéneo
167
con rag(A) = n, tendrá a 0 como su única solución y entre ellas podemos considerar el
siguiente: { 𝑥1 = 0, 𝑥2 = 0, …, 𝑥𝑛 = 0. También ocurre que cualquier sistema de ecuaciones
homogéneo serán las ecuaciones cartesianas de V, considerado como subespacio de sí
mismo si la matriz del sistema A = 0 y como ejemplo podemos considerar el sistema trivial {0
= 0.
Ahora respondamos a la primera cuestión.
PROPOSICIÓN 1(Existencia de un subespacio para cada sistema de ecuaciones cartesianas):
Sea V un espacio vectorial de dimensión n y sea B = {𝑒1, …, 𝑒𝑛} una base del mismo. Sea A•X
= 0 un sistema homogéneo de ecuaciones lineales. Entonces existe un subespacio U de V tal
que sus ecuaciones cartesianas son A•X = 0 con respecto a la base B. Es más, dim U = n –
rag(A).
DEMOSTRACIÓN: Denominemos al sistema de soluciones de A•X = 0 como S y sea E = (𝑒1, …,
𝑒𝑛), definamos U = {E•X, para todo X de S}, entonces se cumple:
a) U es un subespacio de V pues dados E•X, y E•Y de U y a, b de F, tenemos a• E•X + b• E•Y
= E•(a•X + b•Y) que pertenece a U. También observemos que A•X = 0 y A•Y = 0 implica
que A•(a•X + b•Y) = 0 y por tanto, a•X + b•Y es de S.
b) U tiene ecuaciones cartesianas A•X = 0 pues A•X = 0 es equivalente a que X es de S, lo
cual es equivalente a que E•X es de U.
c) U es el único espacio vectorial de V con las ecuaciones cartesianas A•X = 0 pues si
existiera otro U’ tal que E•X perteneciera a U’ esto sería equivalente a que A•X = 0, que
es equivalente a que X es de S, lo que es equivalente a que E•X pertenezca a U, de modo
que tenemos que U’ = U.
d) Además, y, por último, tenemos que dim U = dim S, pues si {𝑥1, …, 𝑥𝑡} es una base de S
entonces {E•𝑥1, …, E•𝑥𝑡} es un base de U como se puede verificar fácilmente y por el
teorema de Rouche- Frobenius, se sigue que dim S = n – rag(A) y por tanto, dim U = n –
rag(A). □
Ahora respondamos la segunda cuestión.
PROPOSICIÓN 2 (Existencia de un sistema de ecuaciones cartesianas para cada subespacio U
de V fijada una base B de V): Sea V un espacio vectorial de dimensión n con base B = {𝑒1, …,
𝑒𝑛}, sea U un subespacio vectorial de V de dimensión t < n. Entonces U admite un sistema de
ecuaciones cartesianas con respecto a la base B de n – t ecuaciones B•X = 0, con rag(B) = n -
t.
DEMOSTRACIÓN: Podemos suponer que U no es {0}, pues en ese caso tenemos el sistema
homogéneo 𝐼𝑛•X = 0, que cumple la proposición, con 𝐼𝑛 la matriz unidad de orden n. De
modo que sea 0 < t < n y {𝑢1, …, 𝑢𝑡} una base de U. Sea W = (𝑢1, …, 𝑢𝑡) = E•A, con E = (𝑒1, …,
𝑒𝑛) y A una matriz de dimensión n•t. Puesto que {𝑢1, …, 𝑢𝑡} es una base de U rag(A) = t y sea
v = E•X un vector de U. Entonces v de U es equivalente a que v∈L(𝑢1, …, 𝑢𝑡), lo que es
equivalente a que v, 𝑢1, …, 𝑢𝑡, son linealmente dependientes, lo que es equivalente a que
rag(X|A) < t + 1, lo que es equivalente a que rag(X|A) = t, pues en general se tiene que t =
rag(A) ≤ rag(X|A) ≤ t + 1.
168
La condición rag(x|A) = t es equivalente a que los menores de (X|A) de orden t + 1 que se
forman a partir de un menor de orden t sean cero, de ahí obtenemos un sistema de (𝑛
𝑡 + 1)
ecuaciones homogéneo, de las que n – t son esenciales. Las ecuaciones de este sistema son
lineales, de modo que el sistema que obtenemos podemos simbolizarlo así B•X = 0 y
podemos concluir que v = E•X es de U es equivalente a que B•X = 0, de modo que B•X = 0 es
un sistema de ecuaciones cartesianas. Tiene que cumplirse que rag(B) = n – t, pues dim U = t
y según el teorema de Rouche-Frobenius hay n – rag(B) = t variables libres. □
Haremos ahora algunas observaciones adicionales, que quizás hayan quedado sin pensarse.
OBSERVACIONES: 1) Dado un sistema generador de U se obtiene un sistema de ecucaciones
cartesianas por la operación de hacer rag(X|A) = t = rag(A) = dim U, para una base que se
obtenga de U a partir del sistema de generadores y asociada a la matriz A’ se hallan las
ecuaciones cartesianas con la misma operación rag(X|A’) = rag(A).
2) Podemos tener sistemas de ecuaciones cartesianos de número de ecuaciones m, mayor
que n – t, pero el número menor de ecuaciones ha de ser n – t que es el número que hemos
utilizado en la demostración de la proposición 2 de esta subsubsección, por tanto, para el
número de ecuaciones del sistema cartesiano, m se cumple que n – t ≤ m.
EJEMPLO: Sea V el espacio afín de dimensión 4 con su base canónica. Determinar las
ecuaciones cartesianas y paramétricas del subespacio U generado por los vectores 𝑢1 = (1, 1,
-2, 1), 𝑢2 = (0, 1, 0, 2) y 𝑢3 = (2, 1, -4, 0). Si hacemos W = (𝑢1, 𝑢2, 𝑢3), tenemos que W = E•A,
con A = (
1 0 21−21
102
1−40
). Se tiene que rag(A) = 2, pues 2•𝑢1 - 𝑢2 = 𝑢3, de modo que dim U =
2. Para obtener las ecuaciones cartesianas de U ponemos la imposición rag(colum_1(A)
colum_2(A) X) = rag(A’|X) = 2, es decir, rag(
1 0 𝑥11−21
102
𝑥2𝑥3𝑥4
) = 2, lo que es equivalente a que
det(1 0 𝑥11−2
10
𝑥2𝑥3) = det(
1 0 𝑥111
12
𝑥2𝑥4) = 0 lo que es equivalente a que,
{2 • 𝑥1 + 𝑥3 = 0
𝑥4 + 2 • 𝑥1 − 𝑥1 − 2 • 𝑥2 = 0, o {
2 • 𝑥1 + 𝑥3 = 0 𝑥1 − 2 • 𝑥2 + 𝑥4 = 0
.
Resolviendo el sistema de ecuaciones obtenemos las ecuaciones paramétricas:
{
𝑥1 = 𝑠1𝑥2 = 𝑠2
𝑥3 = −2 • 𝑠1𝑥4 = −𝑠1 + 2 • 𝑠2
.
Obsérvese que haciendo X = A•T, con T = (
𝑡1𝑡2𝑡3
), se obtiene el siguiente sistema de ecuaciones
paramétricas equivalente:
169
{
𝑥1 = 𝑡1 + 2 • 𝑡3𝑥2 = 𝑡1 + 𝑡2 + 𝑡3𝑥3 = −2 • 𝑡1 − 4 • 𝑡3𝑥4 = 𝑡1 + 2 • 𝑡2
.
10.8 Ecuaciones cartesianas y paramétricas de un subespacio III
En esta subsubsección haremos un resumen de la discusión de las ecuaciones paramétricas
y cartesianas o implícitas de un subespacio y recalcaremos las diferentes operaciones y pasos
de uno a otro de los elementos que aparecen en esta discusión.
Los elementos que hemos estudiado son estos:
a) Bases del subespacio U
b) Ecuaciones Paramétricas de U
c) Ecuaciones cartesianas de U
Y los pasos de unos elementos a otros que vamos a repasar son:
1) Bases de U a las Ecuaciones Paramétricas.
2) De las Ecuaciones Paramétricas a las Bases de U
3) De las Ecuaciones Cartesianas a las Ecuaciones Paramétricas de U
4) De las Ecuaciones Paramétricas a las Ecuaciones Cartesianas de U
Repasémoslo ahora mismo:
1) Bases de U a las Ecuaciones Paramétricas.
Dada una base de U escrita como vector fila W = (𝑢1, …, 𝑢𝑠) = (𝑒1, …, 𝑒𝑛)•A = E•A, donde E =
(𝑒1, …, 𝑒𝑛), base de V, de modo que dadas las coordenadas de un vector de U, X se tiene que
E•X = W•T, donde T es una matriz de s parámetros, de modo que E•X = W•T = E•A•T, de
donde se obtienen las ecuaciones paramétricas: X = A•T.
Ejemplo: Sea la base de U {(1, -1, 0), (-1, 1, 1)} con V siendo el espacio afín de dimensión 3,
entonces se obtienen las Ecuaciones Paramétricas de U: (
𝑥1𝑥2𝑥3) = (
1 −1−10
11)•(
𝑡1𝑡2).
2) De las Ecuaciones Paramétricas a las Bases de U.
Dadas unas ecuaciones paramétricas de U, X = A•T, las columnas de A forman un sistema de
generadores de U. Si este conjunto es linealmente independiente es base de U. Si no,
entonces una base de U la forman las columnas no nulas de la forma normal de Hermite por
columnas de A.
Ejemplo: Sean las ecuaciones paramétricas de un subespacio U, del espacio afín de dimensión
3 las siguientes: : (
𝑥1𝑥2𝑥3) = (
1 −1 0−10
11
01)•(
𝑡1𝑡2𝑡3
), entonces {(1, -1, 0), (-1, 1, 1), (0, 0, 1)} son
170
un sistema de generadores de U, pero la forma normal de Hermite por columnas de A es
(1 0 0−10
01
00), por lo que una base de U es {(1, -1, 0), (0, 0, 1)}.
3) De las Ecuaciones Cartesianas a las Ecuaciones Paramétricas de U.
Sean las ecuaciones cartesianas de U, un subespacio de V, A•X = 0, entonces se obtienen las
ecuaciones paramétricas de U resolviendo el sistema de ecuaciones cartesianas.
Ejemplo: Sean las ecuaciones cartesianas de U, del espacio afín de dimensión 3, V, las
siguientes: {𝑥1 + 𝑥2 = 0
2 • 𝑥1 + 2 • 𝑥2 = 0, o sea que A•X = 0, es (
1 1 02 2 0
)•(
𝑥1𝑥2𝑥3) = (
00), esto nos
lleva, resolviendo el sistema que 𝑥1 = -𝑥2, de modo que la solución del sistema es 𝑥1 = -𝑡1, 𝑥2
= 𝑡1, 𝑥3 = 𝑡2, de modo que las ecuaciones paramétricas son (
𝑥1𝑥2𝑥3) = (
−1 010
01)•(
𝑡1𝑡2).
4) De las Ecuaciones Paramétricas a las Ecuaciones Cartesianas de U.
Dado el sistema de ecuaciones paramétricas X = A•T. Hay dos métodos para hallar las
ecuaciones cartesianas:
i) El sistema X = A•T ha de ser compatible de modo que rag(A|X) = rag(A), por lo que si
rag(A) = r, todos los menores de dimensión r + 1 de (A|X) deben ser 0, por lo que de
ahí obtenemos un sistema de (𝑛
𝑟 + 1) ecuaciones de las que n – r son esenciales.
Ejemplo: (
𝑥1𝑥2𝑥3) = (
1 −1−10
11)•(
𝑡1𝑡2), de modo que si el sistema es compatible debe darse que
det(A|X) = det(1 −1 𝑥1−10
11
𝑥2𝑥3) = -(𝑥1 + 𝑥2) = 0 y se obtiene: (1 1 0)• (
𝑥1𝑥2𝑥3) = 0.
ii) Por eliminación de parámetros:
Ejemplo: De (
𝑥1𝑥2𝑥3) = (
1 −1−10
11)•(
𝑡1𝑡2), se sigue que {
𝑥1 = 𝑡1 − 𝑡2 𝑥2 = −𝑡1 + 𝑡2
𝑥3 = 𝑡2
, lo que es equivalente
a que 𝑥1 + 𝑥2 = 0.
EJEMPLO: En el espacio vectorial de los polinomios en una indeterminada, sobre el cuerpo
de los reales, de grado menor o igual a 3, 𝑃3(ℝ), consideramos el subespacio siguiente:
U = {p(x) de 𝑃3(ℝ) | p(x) = p(-x)}.
Para calcular las ecuaciones paramétricas y luego las cartesianas, necesitamos en primer
lugar elegir la base de V, sea esta: B = {1, x, 𝑥2, 𝑥3}. Así, dado un polinomio de este espacio,
p(x) = 𝑎0 + 𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3, sus coordenadas son (𝑎0, 𝑎1 , 𝑎2, 𝑎3 ) y para que el
polinomio p(x) = 𝑎0 + 𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3 pertenezca a U debe ocurrir que p(x) = 𝑎0 +
𝑎1•x + 𝑎2• 𝑥2 + 𝑎3• 𝑥3 = 𝑎0 - 𝑎1•x + 𝑎2• 𝑥2 - 𝑎3• 𝑥3 = p(-x), lo que implica que 2•𝑎1•x +
171
2•𝑎3• 𝑥3 = 0, es decir que ya obtenemos las ecuaciones cartesianas si observamos que 𝑎1 =
0 y 𝑎3 = 0 ,o se las ecuaciones cartesianas de U son las siguientes:
U = {𝑎1 = 0𝑎3 = 0
.
Resolviendo el sistema obtenemos las ecuaciones paramétricas:
U = {
𝑎0 = 𝜆𝑎1 = 0𝑎2 = μ𝑎3 = 0
.
De donde obtenemos una base de U 𝐵𝑈 = {(1, 0, 0, 0)𝐵, (0, 0, 1, 0)𝐵}, es decir 𝐵𝑈 = {1, 𝑥2}.
10.9 Último repaso: Ecuaciones cartesianas y relaciones con la dimensión del subespacio
Queremos repasar como final a la discusión de ecuaciones cartesianas y paramétricas unos
últimos detalles que quizá no hayan quedado suficientemente claros. Son los siguientes
detalles.
Si llamamos n = dim V y r = dim U, entonces, en las ecuaciones paramétricas de U aparecerán
r parámetros y dado un sistema homogéneo de n incógnitas, para que la solución dependa
de r parámetros es necesario que la matriz de coeficientes tenga rango n – r, por lo que al
menos tiene que haber n – r ecuaciones. Si el sistema tiene más de n – r ecuaciones estás se
pueden reducir a un sistema equivalente con exactamente n – r ecuaciones y de rango n – r,
así, con estas aclaraciones podemos escribir estas fórmulas:
Número de Ecuaciones Cartesianas = dim V – dim U
dim U = dim V - Número de Ecuaciones Cartesianas
Donde se entiende que se trata de un sistema en el que no se puede reducir más el número
de ecuaciones. Así, estas fórmulas y aclaración pueden ser útiles cuando tratamos de
encontrar las ecuaciones cartesianas como veremos en los siguientes ejemplos.
EJEMPLO 1: Considerar en el espacio afín de dimensión 3 el subespacio U generado por los
vectores (1, -1, 0) y (1, 1, 0). Entonces las ecuaciones paramétricas son:
{
𝑥1 = µ + 𝜌𝑥2 = −µ + 𝜌
𝑥3 = 0,
Como U tiene dimensión 2, en un espacio de dimensión 3 solo necesitamos una ecuación
cartesiana para describir U y por tanto podemos decir que la ecuación 𝑥3 = 0 nos vale como
ecuación cartesiana para este ejemplo.
EJEMPLO 2: Sea el subespacio U del espacio afín de dimensión 4, generado por la base
siguiente: {(1, 0, 1, 1), (0, 1, 1, 0)}, inmediatamente obtenemos las ecuaciones paramétricas:
172
{
𝑥1 = µ𝑥2 = 𝜌
𝑥3 = µ + 𝜌𝑥4 = µ
,
Ahora obtendremos las ecuaciones cartesianas por eliminación de parámetros. Puesto que
U es un subespacio de V, que este último tiene dimensión 4 y U tiene dimensión 2, entonces
necesitaremos solamente 2 ecuaciones cartesianas. Ahora usamos la primera ecuación
paramétrica para eliminar el parámetro µ y una ecuación y obtenemos:
{
𝑥2 = 𝜌𝑥3 − 𝑥1 = 𝜌𝑥4 − 𝑥1 = 0
, y repitiendo el proceso se obtiene,
{𝑥3 − 𝑥1 − 𝑥2 = 0𝑥4 − 𝑥1 = 0
,
de modo que ya tenemos las dos ecuaciones cartesianas que queríamos si ningún parámetro:
{ 𝑥1 + 𝑥2 − 𝑥3 = 0𝑥1 − 𝑥4 = 0
.
10.10 Intersección de subespacios
En general, dada una familia de subespacios de un espacio vectorial V, {𝑈𝑖 | i de I}, su
intersección, ⋂ 𝑈𝑖 𝑖∈𝐼 , es también un subespacio, se trata del mayor subespacio contenido en
todos los de la familia, como demostramos a continuación.
PROPOSICIÓN (Intersección de subespacios): La intersección ⋂ 𝑈𝑖 𝑖∈𝐼 de una familia de
subespacios, {𝑈𝑖 | i de I}, de un espacio vectorial V, es un subespacio de V.
DEMOSTRACIÓN: Sean x, y dos vectores de la intersección ⋂ 𝑈𝑖 𝑖∈𝐼 , entonces consideremos
que x e y pertenecen a cada uno de los subespacios de la familia, por tanto, como pertenecen
a todos consideremos un subespacio arbitrario de la familia, {𝑈𝑖 | i de I}, sea 𝑈𝑘, como x e y
pertenecen a 𝑈𝑘, también pertenece a este subespacio toda combinación lineal de ellos, a•x
+ b•y, siendo a, b escalares del cuerpo, pero este hecho ocurre para cada uno de los
subespacios de la familia, de modo que de nuevo, a•x + b•y pertenece a la intersección y
esto demuestra que la intersección es un subespacio de V. □
En la práctica, tendremos que calcular la intersección de un par de subespacios U, W de V,
espacio vectorial de dimensión finita; para ello nos serán de utilidad las ecuaciones
cartesianas de ambos subespacios. Ya que, las coordenadas de un vector de ambos espacios
tienen que cumplir las ecuaciones cartesianas de ambos, la intersección tendrá de
ecuaciones cartesianas la unión de las de los dos subespacios. Quizá de esta manera habrá
que suprimir algunas ecuaciones por superfluas, cosa que descubriremos al manipular el
sistema por operaciones elementales y, una vez conseguidas las ecuaciones necesarias y
suficientes, las tendremos en cuenta para saber la dimensión del subespacio intersección de
los dos.
EJEMPLO: Consideremos los subespacios siguientes del espacio afín tridimensional:
173
U = {(x, y, z) | x + y + z = 0},
W = L((1, 1, 1), (1, 1, 0), (-1, -1, 1)).
Para calcular la intersección debemos obtener las ecuaciones cartesianas de W y, en primer
lugar, obtenemos una base del sistema de generadores, para ello reducimos la matriz cuyas
filas son las coordenadas de los vectores generadores:
(1 1 11−1
1−1
01) → (
1 1 100
00
−12) → (
1 1 000
00
10).
De modo que una base de W es {(1, 1, 0), (0, 0, 1)} y de aquí obtenemos las ecuaciones
paramétricas:
W = {
𝑥 = 𝜌𝑦 = 𝜌𝑧 = µ
,
Puesto que el subespacio tiene 2 parámetros, es decir dimensión 2, se necesita una ecuación
cartesiana para describirlo que podemos obtener fácilmente así: x – y = 0. Así que las
ecuaciones cartesianas de U ∩ W son:
U ∩ W = {𝑥 + 𝑦 + 𝑧 = 0𝑥 − 𝑦 = 0
.
Y vemos que ninguna ecuación puede eliminarse por transformaciones elementales, por lo
que tenemos que la dimensión de U ∩ W es 3 – 2 = 1.
10.11 Suma de subespacios
La unión de dos subespacios U y W de un espacio vectorial V, en general no es un subespacio,
como podemos comprobar con este ejemplo.
EJEMPLO 1: En el espacio afín de dimensión 2, consideremos los subespacios U = {(x, 0) | x
real}, que consiste en los vectores del eje x y W = {(0, y) | y real}, que consiste en los vectores
del eje y. Entonces los vectores (1, 0) y (0, 1), están en U∪W, pero su suma (1, 1) no está ni
en U ni en W, por lo que no está en U∪W y, por tanto, U∪W no es un subespacio vectorial
de V.
DEFINICIÓN (Suma de subespacios): Al menor subespacio que contiene a U∪W, lo
llamaremos suma de los subespacios U y W y lo denotaremos como U + W, por tanto, U + W
= L(U∪W).
Este nombre de suma se justifica comprobando que U + W = {u + w | u es de U y w es de W},
como lo haremos en la próxima proposición.
PROPOSICIÓN 1: U + W = {u + w | u es de U y w es de W}.
DEMOSTRACIÓN: Es evidente que {u + w | u es de U y w es de W} está contenido en L(U∪W),
pues esté último subespacio es cerrado frente a la suma de sus vectores. Además, se
comprueba fácilmente que {u + w | u es de U y w es de W} es un subespacio pues contiene a
174
un vector u haciendo w = 0, y si contiene a u, ya que U es un subespacio, también contiene a
c•u con c escalar, y de la misma, manera contiene a d•w, con d escalar, por lo que contiene
a c•u + d•w, por lo que es un subespacio y evidentemente contiene a los subespacios U y W.
Pero ya vimos que L(U∪W) es el menor subespacio que contiene a U y a W y por tanto está
contenido en el subespacio {u + w | u es de U y w es de W}. □
Para el cálculo de la suma de dos espacios reunimos las bases de ambos: Si {𝑢1, 𝑢2, … , 𝑢𝑟} es
una base de U y {𝑤1, 𝑤2, … , 𝑤𝑠} es una base de W, entonces, {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠} es
un sistema generador de U + W, como comprobamos en la siguiente proposición.
PROPOSICIÓN 2: Sea {𝑢1, 𝑢2, … , 𝑢𝑟} una base de U y {𝑤1, 𝑤2, … , 𝑤𝑠} una base de W, entonces
el conjunto {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠} es un sistema generador de U + W.
DEMOSTRACIÓN: Sea v = u + w de U + W. Entonces, u tiene la forma u = 𝑎1•𝑢1 + … + 𝑎𝑟•𝑢𝑟 y
w = 𝑏1•𝑤1 + … + 𝑏𝑠•𝑤𝑠 y, por tanto, v = u + w = 𝑎1•𝑢1 + … + 𝑎𝑟•𝑢𝑟 + 𝑏1•𝑤1 + … + 𝑏𝑠•𝑤𝑠, por
lo que v es una combinación lineal del conjunto {𝑢1, 𝑢2, … , 𝑢𝑟, 𝑤1, 𝑤2, … , 𝑤𝑠}. □
Una vez reunido un sistema generador de U + W, se puede extraer de él una base y desde
ella las ecuaciones paramétricas y después las cartesianas.
La definición de suma se puede generalizar a una familia cualquiera de subespacios {𝑈𝑖 | i de
I} de la siguiente manera: ∑ 𝑈𝑖𝑖∈𝐼 = L(⋃ 𝑈𝑖𝑖∈𝐼 ), y para un número finito de subespacios de un
espacio vectorial V de dimensión finita, la discusión de obtener un sistema generador a partir
de las bases de sus subespacios correspondientes se puede generalizar de manera obvia.
EJEMPLO 2: Consideremos los siguientes subespacios:
U = {(x, y, z) | x + y + z = 0}, W = L((1, 1, 1), (0, 0, 1)).
Para calcular U + W debemos obtener una base de U, por lo que resolvemos el sistema de
ecuaciones, para obtener las ecuaciones paramétricas:
{
𝑥 = 𝜌𝑦 = µ
𝑧 = −𝜌 − µ, de donde obtenemos la base de U,
{(1, 0, -1), (0, 1, -1)}y así un sistema de generadores de U + W es,
{(1, 1, 1), (0, 0, 1), (1, 0, -1), (0, 1, -1)}, de donde sacamos la base:
(
1 1 1010
001
1−1−1
) → (
1 1 1000
0−11
1−2−1
) → (
1 0 2000
100
−11−3
) → (
1 0 0000
100
010
),
de modo que una base de U + W es {(1, 0, 0), (0, 1, 0), (0, 0, 1)} y U + W es todo el espacio
afín de dimensión 3.
10.12 Fórmula de las dimensiones de los subespacios
En esta corta subsubsección veremos la relación que hay entre la dimensión de la suma de
dos subespacios y entre la dimensión de cada uno de los subespacios y que está relacionada
175
con la dimensión de la intersección de esos mismos subespacios., Veamos eso más claro en
la siguiente proposición.
PROPOSICIÓN (Fórmula de las dimensiones de los subespacios): Sean U y W dos subespacios
de un espacio vectorial de dimensión finita, entonces se cumple:
dim U + dim W = dim (U ∩ W) + dim (U + W) o también,
dim (U + W) = dim U + dim W - dim (U ∩ W).
DEMOSTRACIÓN: Llamemos r = dim U, s = dim W, m = dim (U ∩ W). Tenemos que probar que
dim (U + W) = r + s – m. La idea es partir de una base de dim (U ∩ W), digamos 𝑣1, 𝑣2, …, 𝑣𝑚,
que es un conjunto de vectores linealmente independiente, y ampliarlo a una base de U
añadiendo los vectores 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟 y también a una base de W mediante los vectores
𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠, consideremos el conjunto de r + s – m vectores siguiente:
{𝑣1, 𝑣2, …, 𝑣𝑚, 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟, 𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠} y probemos que es una base de U +
W. Es un sistema de generadores de U + W, pues es la unión de las bases de U y W ahora
demostremos que es linealmente independiente.
Sea una combinación lineal de los vectores igual a 0:
0 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟 + 𝑐𝑚+1•𝑤𝑚+1 + … + 𝑐𝑠•𝑤𝑠, entonces,
V = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟 = -𝑐𝑚+1•𝑤𝑚+1 - … - 𝑐𝑠•𝑤𝑠 es un vector
que está en U ∩ W y se escribe de forma única en sus bases:
v = 𝑑1•𝑣1 + 𝑑2•𝑣2 + … + 𝑑𝑚•𝑣𝑚 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟, por
tanto, 0 = (𝑎1 − 𝑑1)•𝑣1 + … + (𝑎𝑚 − 𝑑𝑚)•𝑣𝑚 + 𝑏𝑚+1•𝑢𝑚+1 + … + 𝑏𝑟•𝑢𝑟, lo que nos da, por
ser 𝑣1, 𝑣2, …, 𝑣𝑚, 𝑢𝑚+1, 𝑢𝑚+2, … , 𝑢𝑟, linealmente independientes, 𝑏𝑖 = 0 con i = m + 1, …, r,
por lo que ahora queda 0 = 𝑎1•𝑣1 + … + 𝑎𝑚•𝑣𝑚 + 𝑐𝑚+1•𝑤𝑚+1 + … + 𝑐𝑠•𝑤𝑠 y como
𝑣1, 𝑣2, …, 𝑣𝑚, 𝑤𝑚+1, 𝑤𝑚+2, … , 𝑤𝑠 son linealmente independientes se tiene que
𝑎𝑖 = 0 con i = 1, …, m y 𝑐𝑗 = 0, con j = m + 1, …, s. □
Esta fórmula de las dimensiones muchas veces nos ayuda a calcular las dimensiones de los
espacios suma e intersección e incluso en muchos casos quizás nos evite calcularlos.
EJEMPLO: En el ejemplo de la subsubsección 10.10 de la intersección de subespacios vimos
que dim (U ∩ W) = 1, puesto que dim U = dim W = 2 se tiene que dim (U + W) = 2 + 2 – 1 = 3,
por lo que este espacio suma era todo el espacio afín de dimensión 3 como vimos en el
ejemplo de la subsubsección anterior.
10.13 Suma directa de subespacios y subespacios complementarios o suplementarios
Bajo ciertas circunstancias, a la suma de subespacios se le llama suma directa. Veamos en
una definición cuando esto ocurre.
DEFINICIÓN 1 (Suma directa de subespacios vectoriales): Una suma de subespacios es suma
directa y el operador de la suma se cambia por el símbolo ⊕, cuando para cada vector su
176
expresión, como suma de vectores de cada uno de los subespacios sumandos, es única, es
decir, cada vector del espacio vectorial V se expresa como suma de un único vector sumando
de cada subespacio sumando.
DEFINICIÓN 2 (Familia de subespacios independientes para el caso de una familia finita de
subespacios): Dada una familia finita de subespacios 𝑈1, 𝑈2, …, 𝑈𝑚, decimos que es
independiente si 𝑈𝑖 ∩(∑ 𝑈𝑗𝑗≠𝑖 ) = 0, para todo i = 1, 2, …, m. Para el caso de dos subespacios,
son independientes si 𝑈1 ∩ 𝑈2 = 0.
Veamos la relación que hay entre las sumas directas de subespacios y las familias
independientes.
PROPOSICIÓN: La suma de una familia finita de subespacios 𝑈1 + 𝑈2 + … + 𝑈𝑚 es directa si y
solo si, la familia es una familia independiente de subespacios.
DEMOSTRACIÓN: Supongamos primero que cada vector es expresión única de una suma de
sumandos de cada subespacio sumando, es decir que la suma es directa, entonces
supongamos que un vector v es de 𝑈𝑖 ∩(∑ 𝑈𝑗𝑗≠𝑖 ). Podemos escribir v = v + 0 + … + 0, donde
v es de 𝑈𝑖 y los ceros son de 𝑈𝑗 con j distinto de i, pero también podemos escribir que v = 0 +
v = 0 + ∑ 𝑣𝑗𝑗≠𝑖 , con 𝑣𝑗 de 𝑈𝑗 y 0 de 𝑈𝑖, lo cual contradice la unicidad de la expresión de cada
vector en una suma directa, salvo que todos los vectores sean 0. Ahora supongamos que la
familia es independiente y tenemos dos expresiones de un mimo vector:
v = 𝑢1 + … + 𝑢𝑚 = 𝑣1 + … + 𝑣𝑚, entonces esto implica lo siguiente:
𝑢1 - 𝑣1 = (𝑣2 - 𝑢2) + … + (𝑣𝑚 - 𝑢𝑚), que es un vector en 𝑈1y en ∑ 𝑈𝑗𝑗≠1 y,
como es una familia independiente, tiene que ser 𝑢1 - 𝑣1 = 0, es decir, 𝑢1 = 𝑣1. Y este
razonamiento se puede hacer para cada índice i, por lo que implica que la suma es directa. □
DEFINICIÓN 3 (Espacios suplementarios o complementarios uno con respecto al otro): Dado
un subespacio vectorial U de V, llamaremos subespacio complementario o suplementario de
U a cualquier subespacio, W, que verifique que V = U ⊕ W.
Como vemos en el siguiente ejemplo, dado un subespacio U de V hay muchos subespacios,
w, suplementarios distintos…
EJEMPLO 1: Vayamos al espacio afín de dimensión 2, V, y sigamos con la costumbre de
identificar un vector suyo, (𝑥𝑦), con su punto de coordenadas (x, y). Entonces, W = {(
𝑥0)} es
un subespacio de V = {(𝑥𝑦)} y como vemos en la imagen, W es el eje de las abcisas, el eje de
las x.
177
Pero pensará el lector que el subespacio suplementario correspondiente a W es U = {(0𝑦)},
puesto que U ∩ W = 0 y podemos escribir todo vector de V, v = (𝑥𝑦), como v = (
𝑥0) + (
0𝑦),
como se ve en la imagen siguiente:
Pero podríamos haber escogido como U = {(𝑦𝑦)}, pues entonces seguiríamos teniendo U ∩ W
= 0 y cualquier v de V, podría escribirse como v = (𝑥𝑦) = (
𝑥 − 𝑦0
) + (𝑦𝑦) y de nuevo tendríamos
que V = W ⊕ U, puesto que el primer sumando en v pertenece a W.
De hecho, podríamos escoger cualquier línea que pase por el origen distinta de W y nos
habría servido como espacio suplementario de W. Por lo tanto, ocurre que para cualquier
subespacio de V hay muchos subespacios complementarios o suplementarios.
178
En el caso de espacios vectoriales de dimensión finita es fácil calcular un subespacio
complementario de uno dado. Se trata de aplicar el teorema de extensión de la base.
Supongamos que U tiene la base siguiente: {𝑢1, 𝑢2, …, 𝑢𝑟}, entonces existen vectores {𝑣𝑟+1,
…, 𝑣𝑛}, de tal manera que {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, …, 𝑣𝑛}, es una base de V. Entonces, L(𝑣𝑟+1, …,
𝑣𝑛) es un subespacio complementario de U puesto que la suma de ambos es V, ya que la
suma de sus bases es un sistema de generadores para V y su intersección es cero ya que la
unión de sus bases es un sistema linealmente independiente. Esto es un método muy general
para obtener un espacio suplementario de otro, en la subsubsección siguiente veremos otros
métodos más prácticos.
EMEPLO: En el ejemplo de la subsubsección 10.8 consideramos el subespacio U de 𝑃3(ℝ)
siguiente:
U = {p(x) de 𝑃3(ℝ) | p(x) = p(-x)} que tenía la base siguiente: 𝐵𝑈 = {1, 𝑥2}.
Para ampliar esta base tenemos muchas opciones, una de ellas puede ser elegir los vectores
{x, 𝑥3} y obtenemos que I = L(x, 𝑥3), es un subespacio suplementario de U, pero podríamos
haber elegido más opciones, por ejemplo la siguiente es igualmente válida: W = L(1 + x, 𝑥2 +
𝑥3) y W es otro espacio suplementario de U.
10.14 Más sobre espacios suplementarios I
Vamos a demostrar un teorema muy importante respecto a los espacios suplementarios, el
cual nos va a permitir definir el concepto de codimensión de un subespacio que es un
concepto muy importante en el algebra lineal, y luego veremos cómo hallar la base de un
subespacio suplementario con respecto a otro cuando tenemos una base de un primer
subespacio, por medio de dos métodos. Veamos ahora ese teorema tan importante.
TEOREMA (De las bases de dos espacios suplementarios de uno con respecto al otro):
1) Sean U y W dos subespacios de V. Sea 𝐵1 una base de U y 𝐵2 una base de W. Si B = 𝐵1 ∪
𝐵2 es una base de V, entonces, V = U⊕W y Uy W son espacios suplementarios uno con
respecto al otro.
2) Supongamos que V = U⊕W, entonces, para bases 𝐵′1 de U y 𝐵′2 de W, se cumple que B’
= 𝐵′1 ∪ 𝐵′2 es una base de V.
3) Cualquier subespacio U de V tiene un complementario y todos los espacios
complementarios de U tienen la misma dimensión.
DEMOSTRACIÓN: 1) Sea 𝐵1 = {𝑢1, 𝑢2, …} y 𝐵2 = {𝑤1, 𝑤2, …}. Supongamos que B es una base
de V, por tanto es un sistema generador de V, entonces, podemos escribir cualquier vector v
de la siguiente forma: v = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , sea u = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 y w = ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , entonces,
v = u + w, con u de U y w de W, por lo que V = U + W. Ahora, supongamos que v es de U∩W,
entonces, v = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 para algunos 𝑐𝑖 y también v = ∑ 𝑑𝑗 • 𝑤𝑗𝑗 , para algunos 𝑑𝑗, entonces,
v – v = 0 = ∑ 𝑐𝑖 • 𝑢𝑖𝑖 + ∑ (−𝑑𝑗) • 𝑤𝑗𝑗 , pero como B es linealmente independiente 𝑐𝑖 = 0 = 𝑑𝑗,
para todo i y j y v = 0, de modo que V = U⊕W. 2) Supongamos que V = U⊕W y sean 𝐵′1 =
{𝑢′1, 𝑢′2, …}, y 𝐵′2 = {𝑤′1, 𝑤′2, …} bases de U y W respectivamente. Entonces V = U + W, de
modo que todo v de V se puede escribir como v = u + w con u de U y w de W. Pero 𝐵′1 es un
sistema generador de U y 𝐵′2 de W, por tanto, u = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 y w = ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 , para algunos
179
𝑐𝑖 y 𝑑𝑗, de modo que v = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 y B’ es un sistema generador de V. Si 0 =
∑ 𝑐𝑖 • 𝑢′𝑖𝑖 + ∑ 𝑑𝑗 • 𝑤′𝑗𝑗 , entonces, sea v = ∑ 𝑐𝑖 • 𝑢′𝑖𝑖 = ∑ (−𝑑𝑗) • 𝑤′𝑗𝑗 , por lo que v es de U y
de W al mismo tiempo, pero como U∩W = 0, entonces, v = 0 y 𝑐𝑖 = 𝑑𝑗 = 0 para todo i y j, por
ser 𝐵′1 y 𝐵′2 linealmente independientes, por lo que B’ es linealmente independiente y por
tanto, base de V. 3) U es un espacio vectorial y por tanto, tiene una base, sea 𝐵1,
extendámosla hasta B una base de V y escribamos B = 𝐵1 ∪ 𝐵2, de modo que L(𝐵2) = W es un
subespacio suplementario de U. Sea m la dimensión de U, entonces, toda base de V tiene n
elementos y toda base de U tiene m elementos. Así, por tanto, 𝐵1 tiene m elementos y B
tiene n elementos, de modo que cualquier base 𝐵2 que hallemos de W tiene n – m elementos.
□
Podemos aplicar el teorema anterior de la siguiente manera: Supongamos que tenemos una
base B, de V y si la descomponemos en dos conjuntos disjuntos Si B = 𝐵1 ∪ 𝐵2, entonces si U
= L(𝐵1) y W = L(𝐵2), se tiene que V = U⊕W. Y si reemplazamos 𝐵1 por otra base 𝐵′1 de U y
𝐵2 por otra base, 𝐵′2 de W, entonces podemos reemplazar B por B’ y B’ será otra base de V.
También el teorema anterior nos da pie a dar la siguiente definición importante:
DEFINICIÓN (Codimensión de un subespacio): Sea U un subespacio de otro espacio V, la
codimensión de U, simbolizado por codim𝑉 U, es la dimensión de cualquier subespacio
complementario o suplementario de U, que será siempre la misma sin importar el subespacio
complementario que escojamos, como hemos visto en el anterior teorema.
Observemos que la suma de la dimensión de U y la codimensión de U es la dimensión de V.
10.15 Mas sobre espacios suplementarios II
En esta subsubsección vamos a ver 3 métodos para hallar las bases de los subespacios y de
sus suplementarios.
LEMA 1: Sea U un subespacio de 𝐹𝑚, con un sistema de generadores S = {𝑣1, …, 𝑣𝑛 }. Sea {𝑓1,
…, 𝑓𝑟 } un sistema de generadores de 𝐹𝑚, en concreto, puede ser la base standard de 𝐹𝑚,
{𝑒1, …, 𝑒𝑚 }, entonces sea A una de las matrices siguientes: A = (𝑣1| …| 𝑣𝑛|𝑓1| …| 𝑓𝑟) o A =
(𝑣1| …| 𝑣𝑛|𝑒1| …| 𝑒𝑚). Sea A’ una matriz escalonada (por filas) de A. Entonces, las columnas
de A entre 1 y n que tienen pivotes en A’, son una base de U y las columnas entre n + 1 y n +
m de A que tengan pivotes en A’, son una base del complemento de U en V.
DEMOSTRACIÓN: Como hemos supuesto {𝑓1, …, 𝑓𝑟 } es un sistema generador de 𝐹𝑚 y {𝑒1, …,
𝑒𝑚}, por supuesto, es un sistema generador de 𝐹𝑚, entonces las columnas de A por supuesto
generan 𝐹𝑚.
Ahora pensemos que la matriz 𝐴0 = (𝑣1| …| 𝑣𝑛) es la matriz cuyas columnas son las n primeras
empezando por la izquierda, de A y observemos que, si A’ es una matriz escalonada (por
filas), también lo es 𝐴′0. Ahora aplicamos la proposición 3 de la subsubsección 10.5 dos veces.
Aplicándolo en 𝐴′0, nos da que las primeras n columnas de A, con pivotes en A’ son una base
de U y que las columnas con pivotes en toda A’ son una base de V, por tanto, las columnas
que no son de las primeras n de A con pivotes en A’ son una base del suplementario de U. □
180
EJEMPLO 1: Encontremos una base para un subespacio U de 𝐹4, y también para su
subespacio complementario, donde U es el subespacio con el sistema de generadores
siguiente:
(
1237
), (
41−20
), (
−1011
), (
54−17
), (
0146
).
Debemos formar la matriz siguiente:
(
1 4 −1 5 0 1 0 0 02 1 0 4 1 0 1 0 0
3 −2 1 −1 4 0 0 1 07 0 1 7 6 0 0 0 1
) que queda reducida así,
(
1 4 −1 5 0 1 0 0 00 −7 2 −6 1 −2 1 0 00 0 0 −4 2 1 −2 1 00 0 0 0 0 0 −2 −1 1
),
Que tiene pivotes en las columnas 1, 2, 4 y 7, por lo que una base para U será:
(
1237
), (
41−20
) y (
54−17
) y una base para el complemento será (
0100
).
Vemos que este método está muy bien, pero hay que formar una matriz muy grande, un
método mejor es el siguiente:
LEMA 2: Sea U un subespacio de (𝐹𝑛)𝑡 con un sistema de generadores S = {𝑣1, …, 𝑣𝑚 }. Sea
A la matriz siguiente: A = (
𝑣1⋮𝑣𝑚) , si A’ es una matriz escalonada por filas obtenida de A,
entonces, las filas distintas de 0 de A’ forman una base de U. Si los pivotes de A’ se encuentran
en las columnas 𝑗1, …, 𝑗𝑘, entonces, {(𝑒𝑗)𝑡 | 𝑗 ≠ 𝑗1, …, 𝑗𝑘}, es una base del suplemento de U
en V.
DEMOSTRACIÓN: Por la proposición 2 punto 3 de la subsubsección 10.5, las filas distintas de
0 de A’ son una base de U. Ahora formemos la matriz A’’ que consiste en que sus primeras
filas son las de A’ distintas de 0 y sus últimas filas son las (𝑒𝑗)𝑡, con j distinto de 𝑗1, …, 𝑗𝑘. Por
tanto, esta matriz tiene pivotes en cada columna y ninguna fila suya es 0, y salvo que sus filas
están desordenadas, está en una forma escalonada (por filas) y por tanto, sus filas son una
base de (𝐹𝑛)𝑡 por lo que las filas que fueron añadidas a A’ son una base del suplementario
de U. □
EJEMPLO 2: Encuentra una base para el subespacio U de (𝐹6)𝑡, cuyo sistema de generadores
son los siguientes vectores: {(1, 2, 1, 3, 6, -1), (2, 4, 5, 4, 7, -3), (0, 0, -6, 4, 9, 3), (3, 6, 6, 7, 9,
0)} y para su subespacio suplementario.
181
Entonces A = (
1 2 1 3 6 −12 4 5 4 7 −30 0 −6 4 9 33 6 6 7 9 0
) y una matriz escalonada suya es
A’ = (
1 2 1 3 6 −10 0 3 −2 −5 −10 0 0 0 −1 10 0 0 0 0 0
), por lo que U tiene la siguiente base:
{(1, 2, 1, 3, 6, -1), (0, 0, 3, -2, -5, -1), (0, 0, 0, 0, -1, 1)} y un suplementario de U tiene la siguiente
base: {(𝑒2)𝑡, (𝑒4)
𝑡, (𝑒6)𝑡} = {(0, 1, 0, 0, 0, 0), (0, 0, 0, 1, 0, 0), (0, 0, 0, 0, 0, 1)}.
Otra forma obvia de obtener una base para un subespacio y su suplementario de 𝐹𝑚 es
utilizar el método anterior, pero para vectores de 𝐹𝑚, es decir columnas, si primeramente
los transformamos en vectores filas, es decir en vectores de (𝐹𝑚)𝑡 y obtenida la respuesta,
volvemos a transformarlos en vectores columna. Veamos el siguiente ejemplo:
EJEMPLO 3: Sean los vectores columnas del ejemplo 1 anterior. Entonces formamos la matriz
A siguiente:
A =
(
1 2 3 74−150
1041
−21−14
0176)
que tiene la siguiente forma escalonada A’ =
(
1 2 3 70000
1000
4100
6100)
.
Por lo que U tiene la siguiente base:
{(
1237
), (
0146
) y (
0011
)} y un complementario suyo: {(
0001
)}.
10.16 Subespacios afines
En esta subsubsección vamos a introducir la noción de subespacios afines. Los subespacios
afines son una generalización de los espacios vectoriales y subespacios vectoriales, es decir,
todo subespacio vectorial es subespacio afín, pero no todo subespacio afín es un subespacio
vectorial. Sin más definimos esta noción.
DEFINICIÓN 1 (Subespacios afines): Sea U un subespacio vectorial del espacio vectorial V. Sea
t un vector de V, entonces A = t + U = {t + u | u es de U} es un subespacio afín paralelo a U.
Por tanto, vemos que un subespacio afín es el resultado de desplazar un subespacio vectorial
mediante un vector t cualquiera. Si el vector t = 0, A resultaría ser simplemente U, de modo
que los subespacios vectoriales también son subespacios afines, en concreto, paralelos a sí
mismos.
En esta subsubsección vamos a demostrar de forma algebraica, es decir con generalidad que
si U y W son distintos subespacios vectoriales no importa que vectores t y r escojamos, que
siempre A = t + U y B = r + W serán distintos, pero puede ocurrir que si fijamos U para distintos
182
t y r, A = t + U y B = r + U, pueden ser el mismo subespacio Afín, aunque lo más probable es
que sean distintos.
Ahora es conveniente dar una nueva definición de paralelismo que generaliza la anterior.
DEFINICIÓN 2 (Subespacios afines paralelos): Dos espacios afines son paralelos sin son los dos
paralelos al mismo subespacio U.
Remarquemos que, según esta definición, todo espacio afín es paralelo así mismo.
Ahora veamos un poco cual va a ser nuestro discurso y demos una serie de intuiciones
geométricas para los resultados que vamos a demostrar después. Veremos en que consisten
los subespacios afines al considerarlos en el espacio afín de dimensión 2, donde identificamos
como siempre, los vectores de este espacio con los puntos extremos de los vectores.
Ya vimos que U = {(𝑥0)} es un subespacio de V = {(
𝑥𝑦)}, identificando estos vectores con los
puntos de sus extremos, U se trata del eje x en el plano afín de 2 dimensiones y está dado
por la condición o ecuación y = 0. Ahora escojamos un vector arbitrario de V 𝑡0 = (𝑎0𝑏0),
entonces, 𝐴𝑡0 = 𝑡0 + U = {(𝑥 + 𝑎0𝑏0
)} es un subespacio afín paralelo a U. Este subespacio afín
se trata de una recta horizontal de ecuación y = 𝑏0. Y notemos que, si consideramos todos
los espacios afines de este tipo, paralelos a U, vemos que llenan todo el plano.
En particular notemos dos hechos importantísimos:
1) Dos líneas (subespacios afines) son diferentes, sin puntos en común o, si tienen un punto
en común, se trata de la misma línea.
2) Cada punto del plano está contenido en una de estas líneas y solo en una.
Por tanto, vemos, como lo hicimos en la primera subsección de este libro, que el conjunto de
estas líneas constituye una partición del plano y, por tanto, hay una relación de equivalencia
que forma esta partición.
Ahora demostraremos una serie de lemas y corolarios que nos introducirán en las
propiedades de los espacios afines en general.
LEMA 1: Sea U un subespacio de un espacio vectorial V, sea t un elemento de V y sea A = t +
U, entonces se tiene:
1) Si t es de U, entonces A = t + U = 0 + U = U.
183
2) Si t no es de U, entonces, A y U son disjuntos.
DEMOSTRACIÓN: 1) Supongamos que t pertenece a U, entonces, todo elemento de A es de
la forma t + u para algún u de U y como U es un subespacio, este elemento es de U, por lo
que A ⊆ U. Por otro lado, sea u, un elemento de U, entonces, U = t + (u – t) = t + w con w de
U, por ser U un subespacio, por lo que U⊆ A, de modo que A = U.
2) Probaremos el contrarecíproco: si A y U no son disjuntos, entonces t es de U. Supongamos
que A y U no son disjuntos. Por tanto, hay un vector v tal que v es de U ∩ A, en particular, v
es de A, por lo que v = t + u, para algún u de U. Pero v es también de U, por lo que t = v – u es
de U. □
LEMA 2: Sea U un subespacio vectorial de un espacio vectorial V, entonces, para dos
elementos t y r de V, t + (r + U) es un subespacio afín y t + (r + U) = (t + r) + U.
DEMOSTRACIÓN: (t + r) + U es un subespacio afín y todo elemento de él es de la forma (t + r)
+ u con u un elemento de U, pero (t + r) + u = t + (r + u), de modo que t + (r + U) es un
subespacio afín y todo elemento de él pertenece a (t + r) + U. De la misma forma se puede
demostrar que todo elemento de t + (r + U) es un elemento de (t + r) + U, por lo que ambos
subespacios afines coinciden. □
COROLARIO 1: Sean A = t + U y B = r + U dos subespacios afines paralelos a U, entonces, A y
B o son el mismo subespacio o son disjuntos. Es más:
1) Si t – r es elemento de U o, equivalentemente, r – t es de U, entonces A = B.
2) Si t – r no es elemento de U o, equivalentemente r – t no es de U entonces, A y B son
disjuntos.
DEMOSTRACIÓN: 1) Supongamos que r – t es de U. Sea r – t = u, de modo que r = t + u, con u
de U, de modo que usando el lema 1 y 2 de esta subsubsección, r + U = (t + u) + U = t + (u +
U) = t + U.
2) Probaremos el contrarecíproco. Supongamos que A y B no son disjuntos, y sea v un vector
de A ∩ B, entonces v = t + u, para algún u de U y v = r + w para algún w de U, de modo que v
= t + u = r + w, por lo que t – r = w – u, por lo que t – r pertenece a U. □
COROLARIO 2: Sea U un subespacio vectorial de un espacio vectorial V. Entonces, todo v de
V pertenece, y únicamente pertenece, a un subespacio afín paralelo a U.
DEMOSTRACIÓN: Puesto que v = v + 0, v está en el subespacio afín v + U. Del corolario anterior
sabemos que v no pertenece a otro subespacio afín pues todos son disjuntos. □
Con estos Corolarios vemos de forma general, que los subespacios afines paralelos a un
subespacio vectorial U cualquiera de un espacio vectorial V cualquiera, forman una partición
de V de modo que hay una relación de equivalencia que los define. Esta relación de
equivalencia será discutida en la próxima subsubsección y allí veremos que no solo forman
una partición de V los subespacios afines paralelos a U, sino que podemos definir una
estructura de espacio vectorial considerando a cada subespacio afín como elemento de un
espacio vectorial (el espacio vectorial cociente de V con respecto a U) con unas operaciones
de suma en el espacio vectorial (cociente) y producto por un escalar muy naturales.
184
En la siguiente definición queremos generalizar la noción de dimensión para los subespacios
afines. Es una forma muy fácil de hacerlo.
DEFINICIÓN 3 (Dimensión de un subespacio afín): Sea A un subespacio afín de V paralelo a un
subespacio vectorial U de V, entonces la dimensión de A es la dimensión de U y la notamos
como dim A = dim U.
LEMA 3: Sea B = {𝑢1, 𝑢2, …} una base de U, un subespacio vectorial de V, entonces, todo
vector de A = t + U, una vez elegido t, puede expresarse de manera única como t + ∑𝑐𝑖 • 𝑢𝑖,
para sus correspondientes escalares 𝑐𝑖.
DEMOSTRACIÓN: Dada la base B todo u de U se expresa de manera única como u = ∑𝑐𝑖 • 𝑢𝑖,
para unos únicos 𝑐𝑖, de modo que todo v de A es de la forma t + u = v = t + ∑𝑐𝑖 • 𝑢𝑖, con t y
𝑐𝑖 únicos. □
Con el siguiente lema dejamos la discusión de los subespacios afines hasta la próxima
subsubsección.
LEMA 4: Sean A un subespacio afín de un espacio vectorial V, paralelo a U y sea B un
subespacio afín de V paralelo a W. Si U es distinto de W, entonces A es distinto de B.
DEMOSTRACIÓN: Demostraremos el contrarecíproco: Si A = B, entonces U = W. Puesto que
A es paralelo a U hay un t de V tal que A = t + U y, de la misma manera, B = r + W. De modo
que A = B, es decir, t + U = r + W. En particular t + 0 = r + w con w de W, de modo que t – r =
w de W y de la misma manera llegamos a la conclusión de que r – t = u con u de U, pero u =
-w, por lo que ambos, son elementos de U y de W. Pero usando el lema 2 de esta
subsubsección y el hecho de que w es de U tenemos lo siguiente:
A = B, t + U = r + W, lo que es equivalente a que -r + (t + U) = -r + (r + W) lo que es
equivalente a que, (-r + t) + U = 0 + W, es decir, w + U = 0 + W, lo que implica que U = W. □
10.17 Espacio vectorial cociente
DEFINICIÓN 1 (relación binaria en V con respecto a un subespacio U que da lugar al espacio
vectorial cociente V/U): Sea V un espacio vectorial sobre un cuerpo F y sea U un subespacio
vectorial de V, definamos la relación binaria siguiente que dará lugar al espacio vectorial
cociente que definiremos más adelante. La relación binaria está definida en V de la siguiente
manera: v ~ w se relaciona y es equivalente a que v – w es de U.
Veamos que esta relación tan sencilla es en realidad una relación de equivalencia.
PROPOSICIÓN 1: La relación antes definida es una relación de equivalencia, es decir verifica
las siguientes propiedades:
1) Reflexiva: u ~ u, para todo u de V
2) Simétrica: u ~ w implica que w ~ u, para todo u, w de V
3) Transitiva: u ~ w y w ~ z, implica que u ~ z, para todo u, w, z de V.
DEMOSTRACIÓN: Para cualquier vector v de V, v – v = 0 que pertenece a U, por lo que se
cumple la relación u ~ u. Supongamos que u ~ w, por lo que u – w es un vector de U, pero
185
su inverso también es de U, es decir w – u, es de U, por lo que w ~ u y tenemos la propiedad
simétrica. Por último, si u ~ w y w ~ z, se cumple que u – w es de U y w – z también, por lo
que u – w + w – z es un vector de U, por lo que u – z que es ese vector es de U, y esto implica
que u ~ z. □
DEFINICIÓN 2 (Clase de equivalencia del espacio cociente): Consideremos para cada vector v
de V, el conjunto de todos los vectores de V relacionados con él en la relación binaria anterior,
es decir, cada conjunto {w de V | u ~ w} estos conjuntos ya sabemos que se llaman clases de
equivalencia con un vector de ellos u como representante de ella.
Ya estudiamos las relaciones de equivalencia y vimos que definen una partición de V en la
que cada vector de V pertenece a una y solo una de estas clases de equivalencia y por tanto
que dos clases de estas distintas no tienen ningún elemento en común.
Ahora veremos que cada clase de equivalencia definida por esta relación binaria de
equivalencia es en realidad un subespacio afín, por lo que relacionamos esta subsubsección
con la anterior.
PROPOSICIÓN 2: Las clases de equivalencia de un vector v de V con respecto a la relación
binaria anterior, son de la siguiente forma, por lo que se trata de un subespacio afín:
v + U = {v +u | con u de U}.
DEMOSTRACIÓN: Si v ~ w, entonces v – w = u de U, por lo que w = v – u, por lo que, todo
vector que se relacione con v, está en v + U de modo que la clase de equivalencia de v
contiene a v + U. Por otra parte, v – (v + u) = -u, que es un vector de U, por lo que v y v + u
están relacionados, de modo que v + U contiene a la clase de v. □
DEFINICIÓN 3 (Conjunto cociente de V con respecto a U, V/U): Al conjunto de todas las clases
de equivalencia de la relación de equivalencia anterior considerados cada uno como un
elemento se le llama Conjunto Cociente de V con respecto a U y se le nota como V/U.
Observemos que la clase de equivalencia del vector 0 es el subespacio U, es decir 0 + U = u +
U, para todo u de U. Y también hay que decir que cada vector del subespacio afín es un
representante de cada clase de equivalencia y que ninguno es mejor que otro, todos son
igualmente representantes de su clase.
Ahora veremos que si definimos unas operaciones muy naturales entre cada clase de
equivalencia podemos formar un espacio vectorial que llamaremos espacio vectorial
cociente.
PROPOSICIÓN 3: El conjunto V/U tiene estructura de F-espacio vectorial con las siguientes
operaciones:
Suma: (v + U) + (w + U) = (v +w) + U
Producto por escalares: r•(v + U) = (r•v) + U.
DEMOSTRACIÓN: En cada una de las operaciones hay que demostrar que la clase de
equivalencia resultado no depende de los representantes escogidos. Veámoslo primero para
la suma: Sean v + U = v’ + U y w +U = w’ + U. La suma de las primeras clases de equivalencia
186
nos da (v + w) + U, mientras que la suma de las segundas nos da (v’ + w’) + U. Para ver si se
trata de la misma clase de equivalencia hacemos (v + w) – (v’ + w’) = (v – v’) + (w – w’) que es
la suma de dos vectores de u, por lo que los vectores v + w y v’ + w’ están relacionados y en
la misma clase de equivalencia.
Por otra parte, si v + U = v’ + U, entonces v – v’ es un vector de U que puesto que U es cerrado
para el producto por escalares, a•(v – v’) = a•v - a•v’, pertenece a U por lo que a•(v + U) =
(a•v) + U = (a•v’) + U = a•(v’ + U).
Todas las propiedades que definen un espacio vectorial como axiomas se cumplen puesto
que los representantes en sus operaciones las cumplen. Es rutinario demostrarlo, por lo que
se deja al lector. □
Ahora veamos como obtener una base para el espacio cociente. Este importante tema está
contenido en la siguiente proposición.
PROPOSICIÓN 4 (Base y dimensión para el espacio vectorial cociente de V/U): Sea V un
espacio vectorial de dimensión finita n, y U un subespacio vectorial suyo de dimensión r,
entonces, dim (V/U) = n – r y una base del espacio vectorial cociente viene dada por las clases
del siguiente conjunto: {𝑣𝑟+1 + 𝑈, 𝑣𝑟+2 + 𝑈, …, 𝑣𝑛 +𝑈}, donde {𝑣𝑟+1, 𝑣𝑟+2, …, 𝑣𝑛} son los
vectores que amplían la base de U hasta una base de V.
DEMOSTRACIÓN: Supongamos que {𝑢1, 𝑢2, …, 𝑢𝑟} es una base de U y consideramos vectores
{𝑣𝑟+1, 𝑣𝑟+2, …, 𝑣𝑛} tales que amplían la base de U hasta V, es decir, {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, 𝑣𝑟+2,
…, 𝑣𝑛} es una base de V. Por tanto, cualquier vector v, de V, puede escribirse en función de
esta base: v = 𝑥1●𝑢1 + … + 𝑥𝑟●𝑢𝑟 + 𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛. Ahora, puesto que cualquier
vector tiene su clase de equivalencia y las clases de equivalencia son un espacio vectorial
podemos escribir: v + U = (𝑥1●𝑢1 + … + 𝑥𝑟●𝑢𝑟 + 𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛) + U, pero tenemos
que 𝑢𝑖 + U = 0 + U y v + U = (𝑥𝑟+1●𝑣𝑟+1 + … + 𝑥𝑛●𝑣𝑛) + U = 𝑥𝑟+1●(𝑣𝑟+1 + U) + … + 𝑥𝑛●(𝑣𝑛 +
U) y por tanto, {𝑣𝑟+1 +𝑈, 𝑣𝑟+2 + 𝑈, …, 𝑣𝑛 + 𝑈} es un sistema generador de V/U. Pero
veremos que es un sistema linealmente independiente pues si 0 + U = 𝑎𝑟+1●(𝑣𝑟+1 + U) + … +
𝑎𝑛●(𝑣𝑛 + U) = (𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛) + U y puesto que las clases son iguales tenemos que
𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 es un elemento del subespacio U de modo que se puede poner en
función de la base de U 𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 = 𝑏1●𝑢1 + … + 𝑏𝑟●𝑢𝑟, de modo que se tiene
-𝑏1●𝑢1 - … - 𝑏𝑟●𝑢𝑟 + 𝑎𝑟+1●𝑣𝑟+1 + … + 𝑎𝑛●𝑣𝑛 = 0, pero como {𝑢1, 𝑢2, …, 𝑢𝑟, 𝑣𝑟+1, 𝑣𝑟+2, …,
𝑣𝑛} es una base de V esto implica que 𝑎𝑟+1 = … = 𝑎𝑛 = 0, pues al ser base el anterior conjunto,
es linealmente independiente. □
Esta demostración también nos da un método para calcular las coordenadas de una clase de
equivalencia con respecto a una base de V/U. Veamos el siguiente ejemplo.
EJEMPLO: En el espacio afín de 3 dimensiones consideremos el subespacio de ecuaciones
cartesianas siguiente: U: x + y + z = 0. Estudiemos si en los dos casos las parejas de vectores
determinan la misma clase de equivalencia.
1) v = (1, 4, 5), w = (2, 4, 1). Vemos que v - w = (-1, 0, 4) que no está en U, por tanto
pertenecen a dos clases de equivalencia diferentes.
2) v = (1, 4, 5), w = (2, 3, 5). Vemos que v – w = (-1, 1, 0) que si pertenece a U, por lo que v
+ U = w + U.
187
Ahora calculemos una base de V/U, para ello empecemos con una base de U, {(1, -1, 0), (1,
0, -1)}, por ejemplo y ampliémosla hasta una base de V, con el vector (0, 0, 1), por ejemplo.
Entonces, la clase de este vector es una base para V/U, β = {(0, 0, 1) + U}. Ahora calculemos
las coordenadas de una clase de equivalencia con respecto a esta base de V/U, por ejemplo,
de la clase (1, 2, 1) + U. Para ello escribimos en primer lugar, (1, 2, 1) en función de la base
de V, (1, 2, 1) = -2●(1, -1, 0) + 3●(1, 0, -1) + 4●(0, 0, 1). Ahora, considerando la clase de
equivalencia a la que pertenece este vector, podemos escribir, (1, 2, 1) + U = -2●(0 + U) +
3●(0 + U) + 4●((0, 0, 1) + U) = 4●((0, 0, 1) + U), con lo que (1, 2, 1) + U = (4)𝛽.
188
Sección IV Aplicaciones lineales
189
11 Aplicaciones lineales. Definición, ejemplos, propiedades y conceptos esenciales
11.1 Definición y Ejemplos
En el álgebra lineal, no solo se estudian los espacios vectoriales y sus subespacios, también
se estudian las funciones entre ellos. Pero no vamos a estudiar las funciones generales que
se definen entre los espacios vectoriales considerados como conjuntos, si no que vamos a
estudiar unas funciones que son especiales para los espacios vectoriales pues conservan las
operaciones definidas en ese espacio. ¿Qué significa que estas funciones conservan las
operaciones del espacio vectorial? Llamemos f a una de estas funciones entre dos espacios
vectoriales V y V’, los dos, sobre el cuerpo F, v y w dos vectores del espacio vectorial V y c un
escalar del cuerpo F, entonces, las funciones que nos interesan conservan las operaciones
definidas en los vectores de V es decir que f(v + w) = f(v) + f(w) y f(c•v) = c•f(v). Sin más,
vamos a definir los conceptos que hemos tratado aquí, pues las funciones que nos interesan
se llaman funciones o aplicaciones lineales.
DEFINICIÓN (Aplicaciones lineales u homomorfismos entre espacios vectoriales): Dados dos
espacios vectoriales V y V’ sobre el mismo cuerpo F, una función entre V y V’ o aplicación, se
llama aplicación lineal y homomorfismo entre los espacios vectoriales V y V’, si verifica las
siguientes dos propiedades:
1) f(u + v) = f(u) + f(v), para todo u, v de V
2) f(c•v) = c•f(v), para todo c de F y todo v de V.
Veamos en el siguiente lema una propiedad definitoria de las aplicaciones lineales:
LEMA 1: Una función f: V → V’ es una transformación lineal si y solamente si, para
cualesquiera vectores 𝑣1, …, 𝑣𝑘 en V y cualesquiera escalares 𝑐1, …, 𝑐𝑘, f(𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘)
= 𝑐1•f(𝑣1) + … + 𝑐𝑘•f(𝑣𝑘) (*).
DEMOSTRACIÓN: Si f es lineal se tiene que aplicando sucesivamente la propiedad 1) de la
definición de aplicaciones lineales f(𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘) = f(𝑐1•𝑣1) + … + f(𝑐𝑘•𝑣𝑘) = aplicando
la propiedad 2) de las aplicaciones lineales, f(𝑐1•𝑣1) + … + f(𝑐𝑘•𝑣𝑘) = 𝑐1•f(𝑣1) + … + 𝑐𝑘•f(𝑣𝑘).
Por otra parte, si se cumple la propiedad (*), estableciendo k = 2 y 𝑐1 = 1 = 𝑐2 se tiene que
f(1•𝑣1 + 1•𝑣2) = f(𝑣1 + 𝑣2) = f(𝑣1) + f(𝑣2), y aplicando k = 1, f(𝑐1•𝑣1) = 𝑐1•f(𝑣1). □
Veamos otras 2 propiedades de las transformaciones lineales.
LEMA 2: Sea f: V → V’ una transformación lineal, entonces se verifica lo siguiente, por lo que
son condiciones necesarias para que una aplicación sea lineal, aunque no son suficientes:
1) f(0) = 0.
2) F(-u) = -f(u).
DEMOSTRACIÓN: 1) f(0) = f(0•0) = 0•f(0) = 0. 2) f(-u) = f((-1) •u) = (-1) •f(u) = -f(u). □
190
Ahora veamos una serie de ejemplos de aplicaciones lineales. Primero veamos como las
propiedades anteriores son necesarias, pero no suficientes.
EJEMPLO 1: a) La aplicación f: ℝ2 → ℝ2, dada por f(x, y) = (x + 1, y), no es lineal puesto que
f(0, 0) = (1, 0) que es diferente de (0, 0).
b) La aplicación g: ℝ2 → ℝ2 dada por g(x, y) = (y, 𝑥2), no es lineal, pues para el escalar c = 2 y
el vector u = (1, 0) se tiene que g(c•u) = g(2•(1, 0) = g(2, 0) = (0, 4), mientras que c•g(u) =
2•g(1, 0) = 2•(0, 1) = (0, 2).
c) Sin embargo, g(0, 0) = 0, a pesar de que no es lineal.
EJEMPLO 2: La aplicación f: ℝ2 → ℝ2, dada por f(x, y) = (y, x) es lineal. En efecto, consideremos
dos vectores cualesquiera de ℝ2: u = (x, y), v = (x’, y’), entonces, f(u + v) = f((x, y) + (x’, y’)) =
f(x + x’, y + y’) = (y + y’, x + x’), mientras que f(u) + f(v) = f(x, y) + f(x’, y’) = (y, x) + (y’, x’) = (y +
y’, x + x’). De la misma manera, para todo c de F = ℝ se tiene que, f(c●u) = f(c●(x, y)) = f(c●x,
c●y) = (c●y, c●x) y por otro lado c●f(u) = c●f(x, y) = c●(y, x) = (c●y, c●x).
EJEMPLO 3: La aplicación Φ: 𝔐𝑚×𝑛(F) → 𝔐𝑛×𝑚(F) que lleva cada matriz A a su traspuesta
𝐴𝑡 es también lineal, puesto que según vimos (𝐴 + 𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡 y (c • A)𝑡 = c•𝐴𝑡, para todo
c de F.
EJEMPLO 4: a) Sea V = 𝐹𝑛 y V’ = 𝐹𝑚, se A una matriz m×n con componentes en F, entonces
T = 𝑇𝐴: V → V’ dada por 𝑇𝐴(v) = A●v es lineal, comprobémoslo: A●(u + v) = A●u + A●v, según
la propiedad distributiva del producto de matrices, y A●(c●v) = c●A●v según las propiedades
del producto de matrices que ya vimos y hay que considerar aquí que el símbolo del producto
●, tiene dos significados diferentes, uno para el producto de un escalar por un vector y otro
para el producto de matrices.
b) Sea V = P(F) el espacio vectorial de los polinomios de una variable con coeficientes en F,
entonces, T: V → V’ dado por T(p(x)) = p(x)●q(x) es una transformación lineal, de hecho, si
q(x) tiene grado r, entonces, para cualquier d, T: 𝑃𝑑(F) → 𝑃𝑑+𝑟(F), dado por T(p(x)) = p(x)●q(x)
es una transformación lineal.
c) Sea V un espacio vectorial y sean 𝑣1, …, 𝑣𝑘, k elementos fijos de V, entonces T: 𝐹𝑘 → V,
dado por T([
𝑎1⋮𝑎𝑘]) = 𝑎1●𝑣1 + … + 𝑎𝑘●𝑣𝑘 es también una aplicación lineal. d) Ya vimos en un
ejemplo que para cualquier conjunto X, V = {f: X → F} tiene la estructura de un espacio
vectorial. Entonces, 𝐸𝑥1: V → F dado por 𝐸𝑥1(f) = f(𝑥1), el operador evaluación, es una
aplicación lineal. De forma similar, también es una aplicación lineal la siguiente, dados 𝑥1, …,
𝑥𝑘 fijos de X definimos E: V → 𝐹𝑘, dado por E(f) = [
𝑓(𝑥1)𝑓(𝑥2)⋮
𝑓(𝑥𝑘)
]. e) De igual manera podemos
considerar a los polinomios con coeficientes en F como funciones de F a F, de la siguiente
manera, sea p(x) = 𝑎0 + 𝑎1●x + …+ 𝑎𝑛●𝑥𝑛, para cualquier c de F tenemos que p(c) = 𝑎0 + 𝑎1●c
+ …+ 𝑎𝑛●𝑐𝑛, de modo que al igual que la parte
191
d) de este ejemplo tenemos que 𝐸𝑐: P(F) → F, dado por 𝐸𝑐(p(x)) = p(c) es lineal. También por
supuesto, para cualquier d mayor o igual que 0 se define 𝐸𝑐: 𝑃𝑑(F) → F, dado por 𝐸𝑐(p(x)) =
p(c). También si consideramos 𝑐1, …, 𝑐𝑘 fijos de F, tenemos que E: P(F) → 𝐹𝑘 o, E: 𝑃𝑑(F) → 𝐹𝑘
dado por E(p(x)) = [
𝑝(𝑐1)𝑝(𝑐2)⋮
𝑝(𝑐𝑘)
], son aplicaciones lineales. f) Tenemos 𝑆𝑑𝑛: 𝐹∞ → 𝐹∞ y 𝑆𝑑𝑛: 𝐹∞∞
→ 𝐹∞∞ y también, 𝑆𝑢𝑝: 𝐹∞ → 𝐹∞ y 𝑆𝑢𝑝: 𝐹∞∞ → 𝐹∞∞, definidos como 𝑆𝑑𝑛 ([
𝑎1𝑎2𝑎3⋮
]) = [
0𝑎1𝑎2⋮
] y
𝑆𝑢𝑝 ([
𝑎1𝑎2𝑎3⋮
]) = [
𝑎2𝑎3𝑎4⋮
]. A 𝑆𝑑𝑛 se le llama desplazamiento hacia abajo y a 𝑆𝑢𝑝 desplazamiento
hacia arriba y son aplicaciones lineales. También se definen análogamente, 𝑆𝑟𝑡: (𝐹∞)𝑡 →
(𝐹∞)𝑡 y 𝑆𝑟𝑡: (𝐹∞∞)𝑡 → (𝐹∞∞)𝑡 y también, 𝑆𝑙𝑡: (𝐹
∞)𝑡 → (𝐹∞)𝑡 y 𝑆𝑙𝑡:(𝐹∞∞)𝑡 → (𝐹∞∞)𝑡, los
desplazamientos a la derecha y a la izquierda respectivamente.
EJEMPLO 5: Sea V un espacio vectorial. Entonces tenemos la aplicación lineal identidad,
definida por I: V → V, I(v) = v, para todo v de V.
EJEMPLO 6: Por último, otra aplicación lineal importante es la aplicación lineal 0, definida
entre dos espacios vectoriales V y V’, de la siguiente manera: 0: V → V’, 0(v) = 0 de V’, para
todo v de V.
11.2 El espacio vectorial de las aplicaciones lineales entre dos espacios vectoriales V y V’
DEFINICIÓN 1 (Espacio vectorial de las aplicaciones lineales entre dos espacios V y V’ sobre el
mismo cuerpo, F, y operaciones de suma y producto por un escalar del cuerpo en este
espacio): Dados dos F-espacios vectoriales V y V’ denotamos por 𝐻𝑜𝑚𝐹(V, V’) al conjunto de
todas las aplicaciones lineales de V en V’. En este conjunto podemos definir las operaciones
de suma y producto por un escalar de la siguiente forma: Dadas f y g de 𝐻𝑜𝑚𝐹(V, V’) y dado
c de F se definen nuevas aplicaciones así:
f + g: V → V’; (f + g)(u) = f(u) + g(u)
c•f: V → V’; (c•f)(u) = c•f(u).
Ahora veremos que estas aplicaciones así definidas son aplicaciones lineales.
PROPOSICIÓN 1 (Las operaciones definidas en 𝐻𝑜𝑚𝐹(V, V’) producen aplicaciones lineales):
Dadas dos aplicaciones lineales f, g de V en V’ F-espacios vectoriales estos, para un cuerpo F,
y dado c de F, f + g y c•f según definidas anteriormente, son aplicaciones lineales.
DEMOSTRACIÓN: 1) (f + g)(a•u + b•v) = f(a•u + b•v) + g(a•u + b•v) = f(a•u) + f(b•v) + g(a•u)
+ g(b•v) = a•f(u) + b•f(v) + a•g(u) + b•g(v) = a•(f(u) + g(u)) + b•(f(v) + g(v)) = a•(f + g)(u) + b•(f
+ g)(v), por lo que f + g es lineal.
192
2) (c•f)(a•u + b•v) = c•f(a•u + b•v) = c•f(a•u) + c•f(b•v) = a•(c•f(u)) + b•(c•f(v)) = a•((c•f)(u))
+ b•((c•f(v)). □
De hecho, ya hemos dejado ver en la definición de suma y producto por un escalar en
𝐻𝑜𝑚𝐹(V, V’) que éste es un espacio vectorial con las operaciones definidas de suma y
producto por un escalar de las funciones de éste. Demostrémoslo.
PROPOSICIÓN 2 (𝐻𝑜𝑚𝐹(V, V’) es un espacio vectorial): HomF(V, V’) con las operaciones que
hemos definido en el de suma y producto por un escalar es un espacio vectorial.
DEMOSTRACIÓN: 1) f + (g + h) = (f + g) + h: (f + (g + h))(u) = f(u) + g(u) + h(u) = ((f + g) + h)(u).
2) f + g = g + f: (f + g)(u) = f(u) + g(u) = g(u) + f(u) = (g + f)(u). 3) f + 0 = 0 + f = f: (f +0)(u) = f(u)
+ 0(u) = f(u) = 0(u) + f(u) = (0 + f)(u). 4) f+ (-f) = (-f) + f = 0: (f + (-f))(u) = f(u) – f(u) = 0 = 0(u) =
-f(u) + f(u) = ((-f) + f)(u). 5) a•(f + g) = a•f + a•g: (a•(f + g))(u) =a•(f(u) + g(u)) = a•f(u) + a•g(u)
= (a•f)(u) + (a•g)(u). 6) (a + b) •f = a•f + b•f: ((a + b)•f)(u) = (a + b)•f(u) = a•f(u) + b•f(u) =
(a•f)(u) +(b•f)(u). 7) a•(b•f) = (a•b) •f: (a•(b•f))(u) = a•b•f(u) = ((a•b) •f)(u). 8) 1•f = f: (1•f)(u)
= 1•f(u) = f(u) = (f)(u). □
Ahora nos fijaremos en la operación de composición de aplicaciones lineales, nos hacemos
la siguiente pregunta: la composición de dos aplicaciones lineales ¿es lineal?
Afortunadamente la repuesta es que sí, como vemos en la siguiente proposición.
PROPOSICIÓN 3 (La composición de dos aplicaciones lineales es lineal): Dadas dos
aplicaciones lineales f: V → V’, g: V’ → V’’, su composición, g○f: V → V’’ es lineal.
DEMOSTRACIÓN: (g○f)( a•u + b•v) = g(f(a•u + b•v)) = g(a•f(u) + b•f(v)) = a•g(f(u)) + b•g(f(v))
= a•(g○f)(u) + b• (g○f)(v). □
La siguiente proposición de propiedades de la composición es muy importante como
veremos enseguida.
PROPOSICIÓN 4: Sean f, g, h aplicaciones lineales y c un escalar de F, en las circunstancias en
las que todas las operaciones que proponemos tienen sentido, se cumple lo siguiente:
1) h○(g○f) = (h○g)○f.
2) (h + g)○f = h○f + g○f
3) (c•g) ○f = c•(g○f)
4) h○(g + f) = h○g + h○f
5) g○(c•f) = c•(g○f)
6) 0○f = 0; f○0 = 0
7) I○f = f○I = f.
DEMOSTRACIÓN: 1) Es la propiedad de la asociatividad general de la composición de
funciones. 2) ((h + g)○f)(u) = (h + g)(f(u)) = h(f(u)) + g(f(u)) = (h○f)(u) + (g○f)(u). 3) ((c•g) ○f)(u)
= (c•g)(f(u)) = c•(g(f(u))) = (c•(g○f))(u). 4) (h○(g + f))(u) = h(g(u) + f(u)) = (h○g)(u) + (h○f)(u). 5)
(g○(c•f))(u) = g(c•f(u)) = c•g(f(u)) = c•(g○f)(u). 6) (0○f)(u) = 0(f(u)) = 0 = f(0(u)) = (f○0)(u) =
0(u). 7) (I○f)(u) = I(f(u)) = f(u) = f(I(u)) = (f○I)(u) = f(u). □
193
DEFINICIÓN 2 (Endomorfismos y el F-Algebra de los endomorfismos de un espacio vectorial
V): Una aplicación lineal de un espacio vectorial V en sí mismo se llama Endomorfismo y al
conjunto de estos se los denomina como 𝐸𝑛𝑑𝐹(V) = HomF(V, V). En este conjunto podemos
definir una operación interna que no es ni más ni menos, que la composición de
endomorfismos. Según la proposición 4 anterior tenemos las siguientes propiedades para la
operación interna en EndF(V):
Asociativa: h○(g○f) = (h○g)○f,
Elemento neutro: I○f = f○I = f,
Distributivas respecto de la suma: (h + g)○f = h○f + g○f
h○(g + f) = h○g + h○f
Compatibilidad: (c•g) ○f = g○(c•f) = c•(g○f).
Por lo que EndF(V) con las operaciones de suma, producto por un escalar y composición de
funciones, constituyen un F- Álgebra.
Podemos seguir indagando en las consecuencias de la proposición 4 anterior.
COROLARIO: 1) Sea HomF(V, V’) el espacio vectorial de las aplicaciones lineales de V en V’,
sea t: V’ → V’’ una aplicación lineal fija, entonces, P: HomF(V, V’) → HomF(V, V’’) definida por
P(f) = t○f es una transformación lineal. 2) Sea HomF(V’, V’’) el espacio vectorial de las
aplicaciones lineales de V’ en V’’, y sea s: V → V’ una aplicación lineal fija, entonces, Q:
HomF(V’, V’’) → HomF(V, V’’) definida por Q(f) = f○s es una aplicación lineal.
DEMOSTRACIÓN: La proposición 1) no es más que los apartados 2 y 3 de la proposición
general 4 y la proposición 2) de este corolario no son más que los apartados 4 y 5 de la
proposición general 4 anterior. □
11.3 Isomorfismos I, Preparando el terreno
En estas subsubsecciones relacionadas con el concepto de isomorfismo vamos a preparar la
base y después culminar con un resultado muy importante del álgebra lineal, que entre
espacios vectoriales de dimensión finita todos los subespacios con la misma dimensión son
equivalentes, lo cuál se expresa en forma matemática rigurosa, estableciendo que son
isomorfos. Pero hasta llegar a este resultado vamos a tener que poner primero una base,
por lo que en esta subsubsección no vamos a detallar si quiera el concepto de isomorfismo.
Empecemos con un resultado general importante.
TEOREMA: Sea V un espacio vectorial y sea B = {𝑣1, 𝑣2, …} una base de V. Sea V’ otro espacio
vectorial y sean {𝑤1, 𝑤2, …} vectores arbitrarios de V’, entonces, existe una única aplicación
lineal T: V → V’ que cumple que T(𝑣𝑖) = 𝑤𝑖. Esta aplicación lineal está dada por la siguiente
fórmula: T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖.
194
DEMOSTRACIÓN: Es evidente que esta expresión define una función para cada v de V, pues
ya que B es una base de V cualquier vector v se expresa de forma única como v = ∑𝑐𝑖•𝑣𝑖, por
tanto, T(v) = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 define un valor de V’ para dada vector v de V. Además esta
función es lineal como se puede comprobar de la siguiente manera: T(v + u) = T(∑𝑐𝑖•𝑣𝑖 +
∑𝑏𝑖•𝑣𝑖) = T(∑(𝑐𝑖 + 𝑏𝑖)•𝑣𝑖) = ∑(𝑐𝑖 + 𝑏𝑖)•𝑤𝑖 = ∑(𝑐𝑖 • 𝑤𝑖) + ∑(𝑏𝑖 • 𝑤𝑖) = T(v) + T(u). Y T(r•v) =
T(𝑟 • ∑ 𝑐𝑖•𝑣𝑖) = T(∑𝑟 • 𝑐𝑖•𝑣𝑖) = ∑𝑟 • 𝑐𝑖•𝑤𝑖 = 𝑟 • ∑ 𝑐𝑖•𝑤𝑖 = 𝑟 • 𝑇(𝑣), para cualquier escalar r
de F.
Ahora veremos que esta aplicación es única, pues si T’(𝑣𝑖) = 𝑤𝑖, para otra aplicación T’,
entonces, pero linealidad T’(v) = T’(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•T’(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = T(v), para todo v, por
lo que T = T’. □
Repasemos lo que este teorema nos dice, primero, los vectores 𝑤𝑖 son arbitrarios, por lo que
no hay ninguna restricción en los valores de T, de modo que tenemos una forma genérica de
definir aplicaciones lineales, simplemente escojamos los valores a los que queremos que nos
lleve la aplicación T. Segundo, dice que si dos aplicaciones coinciden en los valores de una
base, entonces son la misma aplicación, por lo que nos da los medios de comprobar si dos
aplicaciones son iguales, simplemente miremos los valores a los que nos lleva una base.
A partir de aquí seguiremos estableciendo la base para definir y ver las propiedades de los
isomorfismos entre espacios vectoriales.
LEMA 1: Sea T una aplicación lineal, T: V → V’, las siguientes proposiciones son equivalentes:
1) El único vector v con T(v) = 0 es el vector v = 0.
2) Si w es un vector de V’ y u y v son vectores de V entonces T(u) = T(v) = w, implica que u =
v.
DEMOSTRACIÓN: Ya sabemos que T(0) = 0, pero si 2) se cumple para todo vector de V,
también para v = 0, de modo que 2) implica que T(v) = 0 implica que v = 0.
Por otra parte supongamos que 2) es falso para algún vector w de V’, de modo que hay
vectores u y v distintos con T(u) = T(v) = w, por lo que T(u – v) = w – w = 0 y puesto que u y w
son distintos, esto implica que hay un vector z = u – v, con T(z) = 0, por lo que 1) es falsa. □
DEFINICIÓN: Sea T una aplicación lineal, T: V → V’:
1) T es inyectiva o uno-uno si siempre que T(u) = T(v) implica que u = v.
2) T es suprayectiva o sobre si para todo w de V’ existe un vector v tal que T(v) = w.
A las aplicaciones lineales inyectivas también se las llama monomorfismos y a las
suprayectivas, epimorfismos, y una aplicación lineal que tiene inversa se llama invertible o
isomorfismo.
COROLARIO 1: Sea T una aplicación lineal, T: V → V’, T es inyectiva si y solo si, el único vector
v tal que T(v) = 0 es v = 0.
195
DEMOSTRACIÓN: Es el lema 1, por lo que ya está todo demostrado. □
Antes de seguir, veamos un ejemplo de isomorfismo.
EJEMPLO: Sea T: 𝐹𝑛 → (𝐹𝑛)𝑡 dado por T([
𝑎1⋮𝑎𝑛]) = (𝑎1, …, 𝑎𝑛), esta aplicación tiene la
siguiente inversa: 𝑇−1: (𝐹𝑛)𝑡 → 𝐹𝑛, dada por 𝑇−1(𝑎1, …, 𝑎𝑛) = [
𝑎1⋮𝑎𝑛], tanto a T como a 𝑇−1
se les llama traspuesta y escribimos T(v) = 𝑣𝑇 y también, 𝑇−1 (v) = 𝑣𝑇.
Ahora veamos como responder a las siguientes preguntas: dada una aplicación lineal T: V →
V’, ¿es T inyectiva?, ¿es T suprayectiva? Tenemos que notar que estas dos preguntas son
independientes y diferentes una de otra, pero en el siguiente lema veremos la forma de
responder a las dos.
LEMA 2: Sea una aplicación lineal T: V → V’ y B = {𝑣1, 𝑣2, … } una base de V. Sea 𝑤1 = T(𝑣1) y
𝑤2 = T(𝑣2), etc. y sea C = {𝑤1, 𝑤2, …} un subconjunto de V’, entonces:
1) T es inyectiva si y solo si, C es un conjunto linealmente independiente.
2) T es suprayectiva si y solo si, C es un sistema generador de V’.
DEMOSTRACIÓN: 1) Usaremos el Corolario 1 para ver que T es inyectiva. Primero,
supongamos que T es inyectiva, consideremos la combinación lineal 0 = ∑𝑐𝑖•𝑤𝑖 = ∑𝑐𝑖•T(𝑣𝑖)
= T(∑𝑐𝑖•𝑣𝑖), pero T es inyectiva y por tanto, ∑𝑐𝑖•𝑣𝑖 = 0, pero {𝑣1, 𝑣2, … } es una base, por lo
que 𝑐𝑖 = 0, para todo i, por lo que C = {𝑤1, 𝑤2, …} es linealmente independiente. Por otra
parte, supongamos que T no es inyectiva, por lo que hay un v distinto de 0, tal que T(v) = 0.
Puesto que B es una base tenemos que v = ∑𝑐𝑖•𝑣𝑖, con no todos los 𝑐𝑖 = 0, pero entonces,
T(v) = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = 0 con no todos los 𝑐𝑖 = 0, por lo que C no es linealmente
independiente.
2) Primero supongamos que T es suprayectiva. Sea w un vector de V’ entonces, existe un
vector v de V, tal que T(v) = w, puesto que B es una base tenemos que v = ∑𝑐𝑖•𝑣𝑖, por lo que
w = T(∑𝑐𝑖•𝑣𝑖) = ∑𝑐𝑖•T(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖, por lo que C es un sistema de generadores de V’. Por
otra parte, supongamos que T no es suprayectiva, de modo que hay un vector w de V’ para
el que no hay v tal que w = T(v). Supongamos que C es un sistema de generadores de V’, por
lo que w = ∑𝑐𝑖•𝑤𝑖, para algunos 𝑐𝑖, pero si ponemos v = ∑𝑐𝑖•𝑣𝑖, entonces T(v) = T(∑𝑐𝑖•𝑣𝑖)
= ∑𝑐𝑖•T(𝑣𝑖) = ∑𝑐𝑖•𝑤𝑖 = w lo cual supisimos que era imposible. □
Terminamos esta subsubsección con un corolario de este lema, muy interesante.
COROLARIO 2: 1) Sea V un espacio vectorial de dimensión finita, n, y sea V’ de dimensión m
con m > n, o m infinito, entonces no existe una transformación lineal T tal que T: V → V’ y
pueda ser suprayectiva.
196
2) Sea V un espacio vectorial de dimensión finita n y sea V’ un espacio vectorial con dimensión
m < n o con n dimensión infinita, entonces no existe una posible transformación lineal T: V
→ V’, tal que T sea inyectiva.
DEMOSTRACIÓN: 1) Por el lema anterior, si T pudiera ser suprayectiva tendríamos que C sería
un sistema generador de V’, pero, este conjunto tiene n vectores con n < m, lo cual, es
imposible.
2) Por el lema anterior también, si T fuera inyectiva tendríamos un sistema linealmente
independiente, C, con n > m vectores en V’, lo cual es imposible, como sabemos. □
11.4 Isomorfismos II
Esta subsubsección vamos a demostrar el importante teorema de que dos espacios
vectoriales con la misma dimensión (si ésta es finita) son isomorfos, pero antes tenemos que
hacer un cierto trabajo.
Primero veamos que en general, si f: X → Y es una función entre dos conjuntos cualesquiera
(no necesariamente espacios vectoriales), se dice que f es invertible si existe otra función g:
Y → X tales que g○f: X → X y f○g: Y → Y, son respectivamente las funciones identidad, es decir:
g(f(x)) = x, para todo x de X, y f(g(y)) = y, para todo y de Y. En este caso, decimos que g es la
inversa de f y escribimos 𝑓−1 = g y decimos que f es la inversa de g y escribimos 𝑔−1 = f.
También deberíamos saber que una función general f: X → Y, entre dos conjuntos X e Y, es
invertible si es inyectiva y suprayectiva. Si ocurre esto g = 𝑓−1 es la función definida de la
siguiente manera: como f es inyectiva y suprayectiva para todo y de Y, existe exactamente
un x de X, tal que f(x) = y, entonces, g(y) = x.
Por tanto, supongamos que T: V → V’, es una transformación lineal que es inyectiva y
suprayectiva, entonces considerada como función general tiene una inversa 𝑇−1: V’ → V,
pero podría ser que no fuera ésta la inversa de T como aplicación lineal. Pero veamos que
esto si ocurre siempre, que la inversa de T es una aplicación lineal como demostramos en el
siguiente lema.
LEMA 1: Sea T: V → V’, una transformación lineal que es inyectiva y suprayectiva, entonces,
la función 𝑇−1: V’ → V, resulta que es una aplicación lineal.
DEMOSTRACIÓN: 1) Supongamos que 𝑇−1(w) = u y 𝑇−1(z) = v, entonces, T(u) = w y T(v) = z,
como T es lineal se tiene que T(u + v) = T(u) + T(v) = w + z, por lo que 𝑇−1 (w + z) = u + v =
𝑇−1(w) + 𝑇−1(z). 2) Supongamos que 𝑇−1(w) = u, por lo que T(u) = w, como T es lineal
tenemos que T(c•u) = c•T(u) = c•w, por lo que 𝑇−1(c•w) = c•u = c•𝑇−1(w). □
COROLARIO 1: Sea T: V → V’, una transformación lineal que es inyectiva y suprayectiva,
entonces, es un isomorfismo.
197
DEMOSTRACIÓN: T tiene una función inversa por ser inyectiva y suprayectiva, pero hemos
visto en el lema anterior, que ésta es lineal, por lo tanto, T es un isomorfismo. □
Ahora veremos muchas propiedades de los isomorfismos, como el lema que sigue, que nos
da un medio de saber si una aplicación lineal es un isomorfismo mirando las bases a las que
afecta como aplicación lineal.
COROLARIO 2: Sea T: V → V’, una transformación lineal sea B una base de V y C el conjunto
de V’ al que lleva a B, entonces, T es un isomorfismo, si y solo si C es una base de V’.
DEMOSTRACIÓN: C es una base de V’ si y solo si, es linealmente independiente y un sistema
generador de V’, por lo que por el lema 2 de la subsubsección anterior esto ocurre si y solo
si, T es inyectiva y suprayectiva, lo que ocurre si y solo si, T es un isomorfismo, según el lema
1 anterior. □
LEMA 2: Sea T: V → V’ un isomorfismo, sea B = {𝑣1, 𝑣2, … } una base de V, sea 𝑤𝑖 = T(𝑣𝑖) y sea
C = {𝑤1, 𝑤2, … } una base de V’, entonces, sea S: V’ → V dada por S(𝑤𝑖) = 𝑣𝑖, ocurre que S =
𝑇−1.
DEMOSTRACIÓN: Como T es un isomorfismo, según el lema anterior, C es una base de V’.
Puesto que C es una base de V’, sabemos por el teorema 1 de la sección anterior que S es
única y está bien definida.
Notemos que para cualquier 𝑣𝑖 de B, (S○T)(𝑣𝑖) = S(T(𝑣𝑖)) = S(𝑤𝑖) = 𝑣𝑖, por lo que, S○T es la
identidad en una base de V, por lo que S○T = I. También, ocurre que (T○S)(𝑤𝑖) = T(𝑣𝑖) = 𝑤𝑖,
por lo que por el mismo argumento, T○S = I y concluimos que S = 𝑇−1. □
LEMA 3: Sean S y T isomorfismos, entonces, S○T es un isomorfismo y (S ○ T)−1 = 𝑇−1○𝑆−1.
DEMOSTRACIÓN: S○T es un isomorfismo si y solo si, es invertible, solo tenemos que computar
que la fórmula (S ○ T)−1 = 𝑇−1○𝑆−1 es correcta para demostrar este lema. Entonces
tenemos: (S○T)○(𝑇−1○𝑆−1) = S○I○𝑆−1 = I y (𝑇−1○𝑆−1)○ (S○T) = 𝑇−1○I○T = I. □
Y ya con una definición, podemos demostrar el teorema principal de esta subsubsección, que
para nosotros tendrá la forma de corolario.
DEFINICIÓN (Espacios vectoriales isomorfos): Sean V y V’ dos espacios vectoriales, si existe
un isomorfismo T: V → V’, decimos que V y V’ son isomorfos.
COROLARIO 3: 1) Sean V y V’ espacios vectoriales de dimensión finita n, entonces, V y V’ son
isomorfos. En particular, todo espacio vectorial de dimensión finita n, es isomorfo a 𝐹𝑛.
2) Sean V y V’ espacios vectoriales, con V de dimensión finita n y V’ de dimensión finita m
distinta de n o de dimensión infinita, entonces, V y V’ no son isomorfos.
DEMOSTRACIÓN: 1) Sean B = {𝑣1, 𝑣2, …,𝑣𝑛} y C = {𝑤1, 𝑤2, …,𝑤𝑛} bases de V y V’
respectivamente, entonces, por el teorema 1 de la subsubsección anterior existe una
198
aplicación lineal bien definida T: V → V’, con T(𝑣𝑖) = 𝑤𝑖, entonces, por el corolario 2 anterior
de esta subsubsección, T es un isomorfismo. 2) Sea B = {𝑣1, 𝑣2, …,𝑣𝑛} una base de V, si
existiera un isomorfismo T: V → V’, entonces, C = {T(𝑣1), T(𝑣2), …, T(𝑣𝑛)} sería una base de V’
y por tanto V’ tendría dimensión n, lo cual es contradictorio con las hipótesis. □
Para terminar, haremos algunas aclaraciones. Este corolario nos simplifica mucho la vida y es
muy importante, puesto que nos reduce una cuestión difícil de responder, como saber si dos
espacios son isomorfos, con lo cual deberíamos proporcionar una función T que fuera un
isomorfismo entre ellos al hecho de contar los vectores de la base, cosa que en caso finito es
muy sencillo. Si las dos bases de los dos espacios tienen el mismo número de vectores
sabremos que son isomorfos, si tienen distinto número sabremos que no lo son.
Cuando existe un isomorfismo entre dos espacios vectoriales V y V’ se produce una
correspondencia biunívoca entre cada par de elementos de V y V’ dada por w = T(v) o por v
= 𝑇−1(w). Pero no siempre existe una correspondencia canónica o natural que sea la más
apropiada, sino que cada isomorfismo nos produce una correspondencia diferente y ninguna
es mejor que la otra de forma general.
Por último, dados dos espacios isomorfos, se entiende que tienen una estructura
equivalente, por lo que podemos transformar problemas de uno en problemas del otro que
pueden ser más fáciles de tratar como ocurre con los espacios de dimensión finita n que son
isomorfos a 𝐹𝑛 que nos permiten tratar problemas de estos como computaciones en éste,
que pueden ser fáciles utilizando matrices, por ejemplo.
Pero si hay un isomorfismo entre dos espacios vectoriales se tiene que entender que son
semejantes, pero no el mismo espacio.
11.5 Isomorfismos III. Muestra de varios Isomorfismos
En las dos últimas subsubsecciones hemos discutido teóricamente los isomorfismos, pero no
hemos visto ningún ejemplo de isomorfismo o como se realiza este. Hay varias maneras de
realizar un isomorfismo, en esta subsección veremos dos maneras de definir un isomorfismo,
pero antes discutamos un poco el conjunto de isomorfismos de un espacio vectorial que es
un conjunto muy importante y veremos que tiene estructura de grupo.
DEFINICIÓN (Automorfismos de V): Un isomorfismo de un espacio vectorial V en sí mismo,
también se llama autormorfismo y el conjunto de estos se nota como Aut(V). Ya hemos visto
que la composición de isomorfismos es isomorfismo, de modo que la composición de
automorfismos también es un automorfismo, por lo que el conjunto (Aut(V), ○), con respecto
a la composición de aplicaciones, que hemos visto que los isomorfismos tienen inversa, tiene
estructura de grupo, este grupo importante se denomina el grupo lineal de V.
Sin más, vamos a ver unos ejemplos concretos de isomorfismos.
EJEMPLO: Vamos a definir el isomorfismo clásico entre un espacio vectorial V cualquiera de
dimensión n, y 𝐹𝑛. Vemos que hay muchos isomorfismos de este tipo, uno para cada base
que escojamos de V, por lo que empezaremos escogiendo una base de V. Por tanto, fijada
199
una base B de V definimos la correspondencia entre un vector u de V y sus coordenadas en
la base B, que es una matriz (𝑎1, 𝑎2, … , 𝑎𝑛)𝑇 de 𝐹𝑛 y que notaremos como 𝐶𝑜𝑟𝑑𝐵(u). Este es
nuestro isomorfismo, para demostrar que lo es seguiremos 4 pasos:
1) Demostraremos que es una aplicación inyectiva.
2) Demostraremos que es suprayectiva.
3) Demostraremos que 𝐶𝑜𝑟𝑑𝐵(u + v) = 𝐶𝑜𝑟𝑑𝐵(u) + 𝐶𝑜𝑟𝑑𝐵(v), de modo que tendremos la
primera parte de la condición de aplicación lineal.
4) Demostraremos que 𝐶𝑜𝑟𝑑𝐵(c•u) = c•𝐶𝑜𝑟𝑑𝐵(u) de modo que demostraremos así la
linealidad de la aplicación 𝐶𝑜𝑟𝑑𝐵.
Pero en realidad todo esto ya lo hemos demostrado anteriormente. Veamos, ya sabemos
que, para cada vector de V, fijada una base le corresponden unívocamente las coordenadas,
de modo que si u = v es evidente que 𝐶𝑜𝑟𝑑𝐵(u) = 𝐶𝑜𝑟𝑑𝐵(v), por lo que la correspondencia
𝐶𝑜𝑟𝑑𝐵 es inyectiva, también que para toda matriz coordenada de 𝐹𝑛, fijada una base,
corresponde un vector u de V: no es mas que la expresión de ese vector como combinación
lineal de los vectores de la base con los coeficientes de u correspondientes a 𝐶𝑜𝑟𝑑𝐵(u), por
lo que 𝐶𝑜𝑟𝑑𝐵 es suprayectiva. También sabemos que las coordenadas de la suma de dos
vectores u + v, es la suma de las coordenadas de estos, es decir, 𝐶𝑜𝑟𝑑𝐵(u + v) = 𝐶𝑜𝑟𝑑𝐵(u) +
𝐶𝑜𝑟𝑑𝐵(v), por lo que tenemos la propiedad 3) y también sabemos que 𝐶𝑜𝑟𝑑𝐵(c•u) =
c•𝐶𝑜𝑟𝑑𝐵(u), por lo que hemos establecido el isomorfismo que pretendíamos y también
notemos que para cada base hay un isomorfismo correspondiente.
Ahora demostraremos un teorema importante de los isomorfismos entre los subespacios
suplementarios de un subespacio dentro de un espacio vectorial V.
TEOREMA: Sea V un espacio vectorial y U un subespacio suyo, entonces, todos los
subespacios W complementarios de U en V son isomorfos y por tanto tienen la misma
dimensión. Más aun, todo complemento W de U es isomorfo al espacio vectorial cociente
V/U.
DEMOSTRACIÓN: La segunda proposición implica la primera, pero como ejercicio vamos a
demostrar independientemente las dos proposiciones.
Sean W, W’ dos complementos de U, de modo que V = U⨁W = U⨁W’. Sea w de W, entonces,
w = u + w’, para un único u de U y w’ de W’. Definamos T: W → W’ como T(w) = w’.
Verifiquemos que es una transformación lineal.
a) Si 𝑤1 = 𝑢1 + 𝑤′1 y 𝑤2 = 𝑢2 + 𝑤′2, entonces, 𝑤1 + 𝑤2 = (𝑢1 + 𝑢2) + (𝑤′1 + 𝑤′2), de modo
que T(𝑤1 + 𝑤2) = 𝑤′1 + 𝑤′2 = T(𝑤1) + T(𝑤2).
b) También, si w = u + w’, entonces, c•w = c•u + c•w’, de modo que T(c•w) = c•T(w).
De forma similar w’= u + w, con w’ de W’ y u, w únicos de U y W y definimos, S: W’ → W, por
S(w’) = w y por la misma lógica, vemos que S es lineal.
Queremos probar que S = 𝑇−1 y por tanto, que T es un isomorfismo y por tanto, que W y W’
son isomorfos.
Sea 𝑤0 de W. Si 𝑤0 = 𝑢0 + 𝑤′0, entonces, 𝑤′0 = T(𝑤0) = 𝑤0 - 𝑢0, si 𝑤′0 = 𝑢′0 + 𝑤0, entonces,
𝑤0 = S(𝑤′0) = 𝑤′0 - 𝑢0, pero 𝑤0 - 𝑢0 = 𝑤′0 = 𝑢′0 + 𝑤0 da 𝑢′0 = -𝑢0. Entonces, S(T(𝑤0)) = S(𝑤′0)
200
= 𝑤′0 - 𝑢′0 = 𝑤′0 + 𝑢0 = 𝑤0, por lo que, S○T = I y de forma similar, T○S = I. Esto prueba la
primera proposición ahora demostremos la segunda.
Sea W un complemento de U. Sea �̅�: W → V/U, definida por �̅�(w) = w + U. Queremos
demostrar que �̅� es un isomorfismo, para ello demostraremos primero que es lineal y luego
que es inyectiva y suprayectiva.
a) �̅�(𝑤1 + 𝑤2) = (𝑤1 + 𝑤2) + U, mientras que �̅�(𝑤1) = 𝑤1 + U y �̅�(𝑤2) = 𝑤2 + U, pero por la
definición de la suma en el espacio cociente, 𝑤1 + U + 𝑤2 + U = (𝑤1 + 𝑤2) + U, por lo que
�̅�(𝑤1 + 𝑤2) = �̅�(𝑤1) + �̅�(𝑤2).
b) �̅�(c•w) = c•w + U,pero, c•�̅�(w) = c•(w + U) = c•w + U, de la misma manera, por lo que
�̅�(c•w) = c•�̅�(w).
Veamos que �̅� es inyectiva, lo cual queremos ver que �̅�(w) = 0 implica que w = 0. Supongamos
que �̅�(w) = 0, lo que significa que �̅�(w) = w + U = 0 + U = U, pero W ⋂ U = 0, de modo que w
= 0.
Ahora veamos que es suprayectiva. Sea v + U un elemento arbitrario de V/U, entonces,
tenemos que demostrar que v = w + u = �̅�(w), para algún elemento w de W y u de U. Pero
por ser U y W complementarios se tiene que de hecho v = w + u, por lo que �̅�(w) = w + U =
((w + u) – u) + U = (w + u) + (-u + U) = w + u + U = v + U. Por tanto, �̅� es suprayectiva y, por
tanto, un isomorfismo. □
11.6 Isomorfismos IV
En esta subsubsección terminamos con el tópico de los isomorfismos y vamos a ver unas
proposiciones un tanto técnicas que usaremos más adelante.
LEMA: Sea T: V → V’ una aplicación o transformación lineal. Entonces:
1) T es inyectiva si y solo si, hay una aplicación lineal S: V’ → V tal que S○T = I.
2) T es suprayectiva si y solo si, hay una aplicación lineal U: V’ → V tal que T○U = I.
DEMOSTRACIÓN: 1) Supongamos que T es inyectiva, y sea B = {𝑣1, 𝑣2, …} una base de V.
Entonces sabemos que C = T(B) = {𝑤1, 𝑤2, …} es un conjunto linealmente independiente y
que puede ser extendido hasta una base de V’. Sea esta base C∪C’, con C’ = {𝑤′1, 𝑤′2, …}.
Ahora, definamos una aplicación lineal S: V’ → V de la siguiente manera: S(𝑤𝑖) = 𝑣𝑖, y S(𝑤′𝑖)
= 0. Entonces, para cada vector 𝑣𝑖 en la base B se tiene que (S○T)(𝑣𝑖) = S(T(𝑣𝑖)) = S(𝑤𝑖) = 𝑣𝑖,
por lo que sabemos que obligatoriamente, S○T = I.
Por otra parte, supongamos que existe una aplicación lineal S: V’ → V tal que S○T = I y
supongamos que T(v) = 0, entonces, v = I(v) = (S○T)(v) = S(T(v)) = S(0) = 0, de modo que T es
inyectiva.
2) Supongamos primero que T es suprayectiva y sea B = {𝑣1, 𝑣2, …} una base de V. Entonces,
sabemos que C = T(B) = {𝑤1, 𝑤2, …} es un sistema de generadores de V’, por lo que sabemos
que C contiene un subconjunto C’ que es base de V’. Ahora bien, por cada vector 𝑤𝑖 de C’
201
existe un 𝑣𝑖 tal que 𝑤𝑖 = T(𝑣𝑖). Aclaremos que pueden existir varios 𝑣𝑖 con 𝑤𝑖 = T(𝑣𝑖), pero
solo elegimos uno de ellos. Sea U: V’ → V, la aplicación lineal tal que U(𝑤𝑖) = 𝑣𝑖. Entonces
para cada vector 𝑤𝑖 en la base C’ se cumple, (T○U)(𝑤𝑖) = T(U(𝑤𝑖)) = T(𝑣𝑖) = 𝑤𝑖 = I(𝑤𝑖), por lo
que ya sabemos que esto implica que T○U = I.
Por otra parte, supongamos que existe una aplicación lineal U: V’ → V tal que T○U = I.
Entonces, para cada w de V’ tenemos que w = I(w) = (T○U)(w) = T(U(w)), por lo que T es
suprayectiva. □
Ahora juntando todos los resultados que tenemos hasta ahora podemos enunciar el siguiente
teorema.
TEOREMA: Sean V y V’ dos espacios vectoriales de la misma dimensión finita n. Sea T: V → V’
una aplicación o transformación lineal. Entonces son equivalentes las siguientes
proposiciones:
1) T es invertible, es decir, existe una transformación lineal 𝑇−1: V’ → V, con T○𝑇−1 = 𝑇−1○T
= I.
2) T es inyectiva.
3) Existe una transformación lineal S: V’ → V, con S○T = I. En este caso, S = 𝑇−1.
4) T es suprayectiva.
5) Existe una transformación lineal U: V’ → V tal que T○U = I. En este caso, U = 𝑇−1.
DEMOSTRACIÓN: Lo primero de todo es que sabemos que las condiciones 2) y 3) son
equivalentes y también las condiciones 4) y 5) son equivalentes, por el lema anterior.
Sea B = {𝑣1, … , 𝑣𝑛} una base de V y C = T(B) = {𝑤1, … , 𝑤𝑛}. Ya sabemos que las condiciones 1),
2) y 4) son equivalentes a que:
1) C es una base de V’
2) C es linealmente independiente
3) C es un sistema generador de V’.
Pero C es un conjunto de n vectores en espacio vectorial de dimensión n, por lo que sabemos
que estas 3 condiciones son equivalentes.
Finalmente, supongamos que todas estas condiciones son ciertas, por lo que T tiene una
inversa, 𝑇−1, entonces, si S○T = I, se tiene que S = S○I = S○(T○𝑇−1) = (S○T)○ 𝑇−1 = I○𝑇−1 =
𝑇−1. Y de forma análoga, si T○U = I, se tiene que U = I○U = (𝑇−1 ○ T)○U = 𝑇−1○(T○U) = 𝑇−1○I
= 𝑇−1. □
Por último, tenemos el siguiente corolario y después veremos un ejemplo.
COROLARIO: Sean V, V’ y V’’ tres espacios vectoriales con la misma dimensión finita, n. Sea
T: V → V’, y S: V’ → V’’, de manera que S○T: V → V’’. Si S○T es un isomorfismo, entonces T y S
son los dos isomorfismos.
202
DEMOSTRACIÓN: Si S○T es un isomorfismo, entonces es inyectiva y suprayectiva. Entonces T
es inyectiva porque si hubiera un vector v distinto de 0 tal que T(v) = 0, tendríamos que
(S○T)(v) = S(T(v)) = S(0) = 0 y S○T no seria inyectiva. También S, es suprayectiva, porque si
existiera un vector w tal que no existiera v con S(v) = w para algún v de V’, entonces w no
tendría un vector u de V, tal que w = (S○T)(u) = S(T(u)).
Pero por el teorema anterior, esto implica que T y S son isomorfismos. □
Ahora veamos que el paso crucial en la demostración del teorema de esta subsubsección es
contar. Dijimos, “tenemos n vectores en un espacio vectorial de dimensión n”. Pero, ¿qué
pasa si los espacios son infinito dimensionales? No podemos contar y en el siguiente ejemplo
demostramos que no hay un teorema análogo para dimensión infinita.
EJEMPLO: Sea V = (𝐹∞)𝑇, recordemos que tenemos la aplicación lineal desplazamiento a la
derecha 𝑆𝑟𝑡: V → V y el desplazamiento a la izquierda 𝑆𝑙𝑡: V → V, definidos por 𝑆𝑟𝑡(𝑎1, 𝑎2, 𝑎3,
…) = (0, 𝑎1, 𝑎2, …) y 𝑆𝑙𝑡(𝑎1, 𝑎2, 𝑎3, …) = (𝑎2, 𝑎3, 𝑎4, …). Pero observemos que 𝑆𝑟𝑡 es inyectivo,
pero no suprayectivo, y 𝑆𝑙𝑡 es suprayectivo, pero no inyectivo, por lo tanto el corolario
anterior no se cumple y también observemos que (𝑆𝑙𝑡○𝑆𝑟𝑡)( 𝑎1, 𝑎2, 𝑎3, …) = 𝑆𝑙𝑡(𝑆𝑟𝑡( 𝑎1, 𝑎2,
𝑎3, …)) = 𝑆𝑙𝑡(0, 𝑎1, 𝑎2, …) = ( 𝑎1, 𝑎2, 𝑎3, …), por lo que 𝑆𝑙𝑡○𝑆𝑟𝑡 = I. Pero (𝑆𝑟𝑡○𝑆𝑙𝑡)( 𝑎1, 𝑎2, 𝑎3,
…) = 𝑆𝑟𝑡(𝑎2, 𝑎3, 𝑎4, …) = (0, 𝑎2, 𝑎3, …), por lo que 𝑆𝑟𝑡○𝑆𝑙𝑡 no es I. Si definimos el operador
siguiente R: V → V como R(𝑎1, 𝑎2, 𝑎3, …) = (𝑎1, 0, 0, …), se tiene que 𝑆𝑟𝑡○𝑆𝑙𝑡 = I – R.
11.7 Núcleo e Imagen de una aplicación lineal
En esta subsubsección vamos a definir dos subespacios muy importantes de dos espacios
vectoriales V y V’ relacionados con una aplicación lineal T: V → V’. Sin más vamos a definirlos.
DEFINICIÓN (Núcleo e Imagen de una aplicación lineal): Sea T: V → V’ una aplicación lineal.
Entonces:
1) Ker(T) = {v de V | T(v) = 0}.
2) Im(T) = {w de V’ |w = T(v) para algún v de V}.
A Ker(T) se le llama núcleo de T y a Im(T) se le llama imagen de T.
Ahora vamos a ver los dos Teoremas básicos del núcleo y la imagen de una aplicación lineal.
TEOREMA 1 (El núcleo y la imagen de una aplicación lineal son subespacios de V y V’
respectivamente): Sea T: V → V’ una aplicación lineal. Entonces:
1) Ker(T) es un subespacio de V.
2) Im(T) es un subespacio de V’.
DEMOSTRACIÓN: 1) Sean a, b escalares y u, v de Ker(T), entonces, T(a•u + b•v) = a•T(u) +
b•T(v) = a•0 + b•0 = 0, de modo que a•u + b•v pertenece a Ker(T).
203
2) Sean a, b escalares y u’, v’ de Im(T). Entonces por la definición de Im(T) existen u, v de V
tales que T(u) = u’ y T(v) = v’, pero entonces T(a•u + b•v) = a•T(u) + b•T(v) = a•u’ + b•v’, de
modo que para a•u’ + b•v’ existe un vector, a•u + b•v tal que a•u’ + b•v’ = T(a•u + b•v), por
lo que a•u’ + b•v’ pertenece a Im(T). □
TEOREMA 2: Dada una aplicación lineal T: V → V’ una aplicación lineal. Entonces:
1) T es inyectiva si y solo si Ker(T) = 0.
2) T es suprayectiva si y solo si Im(T) = V’.
DEMOSTRACIÓN: 1) Ya lo sabíamos de subsubsecciones anteriores, 2) es evidente. □
Ahora, de momento, nos vamos a centrar en el caso de que T = 𝑇𝐴: 𝐹𝑚 → 𝐹𝑛 , dejando para
la subsección posterior el caso general de una aplicación lineal cualquiera. En esta
subsubsección queremos encontrar una base para el núcleo e imagen de estas aplicaciones.
LEMA 1: Sea T = 𝑇𝐴: 𝐹𝑚 → 𝐹𝑛 , entonces, Im(T) = EC(A) el espacio de columnas de A que ya
estudiamos en su momento, por tanto, dim(Im(T)) = rag(A).
DEMOSTRACIÓN: Sea A = (𝑢1 … 𝑢𝑚) la descomposición de A en columnas y v = (
𝑐1⋮𝑐𝑚),
entonces, T(v) = 𝑇𝐴(v) = A•v = 𝑐1•𝑢1 + … + 𝑐𝑚•𝑢𝑚, esto es, una combinación lineal de las
columnas de A, de modo que todas las posibles combinaciones son Im(T) que no es ni más ni
menos, que el EC(A). □
COROLARIO 1: El procedimiento de la proposición 10.5.1 nos da una base de Im(T), por tanto,
dim(Im(T)) = rag(A) es el número de pivotes o filas principales de una forma escalonada por
filas, A’ de A.
DEMOSTRACIÓN: Es simplemente la proposición 10.5.1. □
Para hallar una base de Ker(T) es necesario un poco más de trabajo y no vamos a dar los
métodos aquí, en esta subsubsección veremos simplemente un ejemplo, esperaremos a la
siguiente subsección en la que también veremos la forma de calcular el núcleo y la imagen
de una aplicación lineal entre dos espacios cualesquiera V y V’ no necesariamente de la forma
𝐹𝑛 . De todas formas, diremos que Ker(T) = {v de V | T(v) = 0} = {v de V | A•v = 0}, es decir
que Ker(T) es simplemente el conjunto de soluciones de un sistema homogéneo de matriz A,
es decir el conjunto de soluciones del sistema A•X = 0. Pero esto es el espacio nulo de A, de
modo que Ker(T) = EN(A).
DEFINICIÓN (Rango y nulidad de una aplicación lineal): Queremos recordar en esta definición
que a dim(Im(T)) siendo T una aplicación lineal, se le llama también rango de T y se nota como
rag(T) y vemos que esta definición es muy conveniente ya que si T = 𝑇𝐴, entonces, hemos
visto que rag(T) = rag(A). También se define a la dim(Ker(T)) como nulidad de T y se nota
Nul(T) y hemos visto que si T = 𝑇𝐴, Nul(T) = dim(Ker(T)) = dim(EN(A)).
Ahora demostraremos un lema que nos dará otros medios para calcular una base de Im(T).
204
LEMA 2: Sea T: V → V’ una aplicación lineal, si {𝑢1, …, 𝑢𝑚} es un sistema de generadores de
V, entonces, {T(𝑢1), …, T(𝑢𝑚)} es un sistema de generadores de Im(f).
DEMOSTRACIÓN: Dado u’ arbitrario de Im(T), existe un u de V tal que f(u) = u’ y puesto que
{𝑢1, …, 𝑢𝑚} es un sistema de generadores de V entonces u = 𝑎1•𝑢1 + … + 𝑎𝑚•𝑢𝑚, para ciertos,
𝑎1, …, 𝑎𝑚 de F, entonces, u’ = T(u) = 𝑎1•T(𝑢1) + … + 𝑎𝑚•T(𝑢𝑚), luego u’ se escribe como
combinación lineal de T(𝑢1), …, T(𝑢𝑚). Puesto que u’ era un vector arbitrario de V’, se obtiene
que {T(𝑢1), …, T(𝑢𝑚)} es un sistema de generadores de Im(T). □
Ahora veamos un ejemplo sobre el cálculo de Im(T) y Ker(T) con los conocimientos con los
que contamos ahora.
EJEMPLO 1: Calculemos el núcleo y la imagen de la aplicación lineal T: ℝ3 → ℝ3 dada por T(x,
y, z) = (x + z, y, x + 2•y + z).
Para calcular el núcleo pensamos los siguiente: (x, y, z) es de Ker(T) si T(x, y, z) = 0, lo que es
equivalente a que (x + z, y, x + 2•y + z) = (0, 0, 0) o de otra forma obtenemos el sistema
siguiente:
{
𝑥 + 𝑧 = 0𝑦 = 0
x + 2 • y + z = 0, que es equivalente a, {
x + z = 0𝑦 = 0
, lo cual son unas ecuaciones
cartesianas de Ker(T). Pasando a ecuaciones paramétricas se obtiene:
{
𝑥 = −µ𝑦 = 0z = µ
y por tanto, Ker(T) tiene de base {(-1, 0, 1)}.
Para calcular una base de Im(T) lo haremos de dos formas. Primero calculemos la matriz A,
tal que T = 𝑇𝐴:
A = (1 0 101
12
01) que es equivalente a (
1 0 100
10
00), por lo que una base para Im(T) es
{(1, 0, 1), (0, 1, 2)}.
Ahora utilizamos el siguiente método: Un sistema de generadores vendrá dado por {f(1, 0,
0), f(0, 1, 0), f(0, 0, 1)}, o lo que es igual, {(1, 0, 1), (0, 1, 2), (1, 0, 1)}, lo cual nos da la siguiente
base para Im(T): {(1, 0, 1), (0, 1, 2)}, que coincide con el otro método. Si nos interesan las
ecuaciones paramétricas o cartesianas de Im(T) podemos obtenerlas como siempre.
Nos queda un punto técnico muy interesante que tratar. Por definición Ker(T) = 𝑇−1(0). Nos
queremos preguntar que puede ser 𝑇−1(w) con w arbitrario de V’. Puede ser que 𝑇−1(w) sea
vacío, si w no pertenece a Im(T), pero, ¿qué pasa en caso contrario? Veámoslo en el siguiente
teorema.
TEOREMA 3: Sea T: V → V’ una aplicación lineal, sea w un elemento de V’. Si A = 𝑇−1(w) no
es vacío, entonces es un espacio afín paralelo a Ker(T).
205
DEMOSTRACIÓN: Sea v un elemento de v tal que T(v) = w. Queremos demostrar que A = v +
Ker(T).
Primero demostremos que v + Ker(T) ⊆ A. Sea u un elemento de Ker(T), entonces, T(v + u) =
T(v) + T(u) = w + 0 = w.
Luego demostremos que A ⊆ v + Ker(T). Sea z un elemento de V con T(z) = w, entonces z = v
+ (z – v) = v + u con u = z – v, pero entonces, T(u) = T(z) – T(v) = w – w = 0, por lo que u
pertenece a Ker(T) y z pertenece a v + Ker(T). □
EJEMPLO 2: Consideremos el siguiente sistema:
{
𝑥1 + 2 • 𝑥2 − 𝑥3 − 3 • 𝑥4 + 3 • 𝑥5 = 192 • 𝑥1 + 4 • 𝑥2 − 𝑥3 − 2 • 𝑥4 + 8 • 𝑥5 = 443 • 𝑥1 + 6 • 𝑥2 − 𝑥3 − 𝑥4 + 13 • 𝑥5 = 69
5 • 𝑥1 + 10 • 𝑥2 − 3 • 𝑥3 − 7 • 𝑥4 + 21 • 𝑥5 = 1178 • 𝑥1 + 16 • 𝑥2 − 5 • 𝑥3 − 12 • 𝑥4 + 34 • 𝑥5 = 190
, tiene como matriz reducida la
Siguiente:
(
1 2 −1 −3 3 190000
0000
1000
4000
2100
6500 )
.
Podemos reinterpretar el sistema como T(v) = 𝑇𝐴(v) = A•v = w, donde A es la matriz del
sistema y w es el lado derecho del sistema. Al resolver el sistema hemos hallado 𝑇𝐴−1(w),
consiste en todos los vectores de la forma siguiente:
(
𝑥1𝑥2𝑥3𝑥4𝑥5)
=
(
00−405 )
+ 𝑥2•
(
−21000 )
+ 𝑥4•
(
−10−410 )
, que podemos ver como el primer vector
del lado derecho como v y el resto pertenece a Ker(T).
12 Aplicaciones lineales y matrices
12.1 Matriz estandar asociada a una aplicación lineal de 𝐹𝑛 en 𝐹𝑚
Ya hemos visto que dada una matriz A de dimensión m×n, la aplicación T = 𝑇𝐴: 𝐹𝑛 → 𝐹𝑚 ,
definida como T(v) = 𝑇𝐴(v) = A•v es una aplicación lineal. Ahora será conveniente profundizar
un poco en esta aplicación, lo haremos con un teorema y un corolario.
206
Y es que vimos que para toda matriz A, m×n, la aplicación 𝑇𝐴: 𝐹𝑛 → 𝐹𝑚 , es siempre una
aplicación lineal bien definida, en el siguiente teorema veremos que todas las aplicaciones
lineales T: 𝐹𝑛 → 𝐹𝑚 se obtienen de esta forma.
TEOREMA: Sea T: 𝐹𝑛 → 𝐹𝑚 una aplicación lineal, entonces, T = 𝑇𝐴, para una única matriz A.
DEMOSTRACIÓN: Sea 𝑢1 = T(𝑒1), 𝑢2 = T(𝑒2), …, 𝑢𝑛 = T(𝑒𝑛), con 𝑒1, 𝑒2, …, 𝑒𝑛 los vectores de la
base standard de 𝐹𝑛 . Sea A la matriz siguiente: A = (𝑢1 𝑢2 … 𝑢𝑛). Queremos demostrar que
T = 𝑇𝐴.
Para ver esto tenemos que demostrar que T(v) = 𝑇𝐴(v), para todo vector v de 𝐹𝑛 y lo haremos
computando por separado T(v) y 𝑇𝐴(v) y viendo que da el mismo resultado. Primero
computemos T(v). Sea v = (
𝑐1𝑐2⋮𝑐𝑛
), entonces, v = 𝑐1•𝑒1 + 𝑐2•𝑒2 + … + 𝑐𝑛•𝑒𝑛, y por tanto, T(v) =
T(𝑐1•𝑒1 + 𝑐2•𝑒2 + … + 𝑐𝑛•𝑒𝑛) = 𝑐1• T(𝑒1) + 𝑐2• T(𝑒2) + … + 𝑐𝑛• T(𝑒𝑛) = 𝑐1•𝑢1 + 𝑐2•𝑢2 + … +
𝑐𝑛•𝑢𝑛.
Ahora computemos 𝑇𝐴(v): 𝑇𝐴(v) = A•v = A•(
𝑐1𝑐2⋮𝑐𝑛
) = (𝑢1 𝑢2 … 𝑢𝑛)• (
𝑐1𝑐2⋮𝑐𝑛
) = 𝑐1•𝑢1 + 𝑐2•𝑢2 + …
+ 𝑐𝑛•𝑢𝑛. Por lo que T(v) = 𝑇𝐴(v), como habíamos supuesto.
Para completar la prueba necesitamos demostrar que la matriz A es única y esto lo hacemos
suponiendo que existe otra matriz A’ que cumple la propiedad y así llegamos a la conclusión
de que A = A’.
Así que supongamos que T = 𝑇𝐴 = 𝑇𝐴′, escribamos A = (𝑢1 𝑢2 … 𝑢𝑛) y A’ = (𝑢′1 𝑢′2 … 𝑢′𝑛).
Entonces demostraremos que para todo vector v de T(v) = 𝑇𝐴(v) = 𝑇𝐴′(v). En particular, esto
ocurre para los vectores de la base standard de 𝐹𝑛 . Sea v = 𝑒𝑖, computamos T(𝑒𝑖) = A•𝑒𝑖 = 𝑢𝑖
y T(𝑒𝑖) = A’•𝑒𝑖 = 𝑢′𝑖, así, 𝑢′𝑖 = T(𝑒𝑖) = 𝑢𝑖, por lo que 𝑢𝑖 = 𝑢′𝑖, por lo que A’ = (𝑢′1 𝑢′2 … 𝑢′𝑛) =
(𝑢1 𝑢2 … 𝑢𝑛) = A. □
Realmente la demostración del teorema anterior no solo nos dice que T = 𝑇𝐴 para una matriz
única A, nos da la fórmula para esa matriz y eso es lo que nos interesa.
COROLARIO: Sea T: 𝐹𝑛 → 𝐹𝑚 una aplicación lineal y sea A la matriz siguiente:
A = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), entonces, T = 𝑇𝐴.
DEMOSTRACIÓN: Por la demostración del teorema anterior T = 𝑇𝐴 con A = (𝑢1 𝑢2 … 𝑢𝑛), pero
𝑢1 = T(𝑒1), 𝑢2 = T(𝑒2), …, 𝑢𝑛 = T(𝑒𝑛), por lo que A es como se supuso en el corolario. □
Terminamos esta subsubsección con la definición central de ésta.
207
DEFINICIÓN (Matriz estándar de una aplicación lineal T: 𝐹𝑛 → 𝐹𝑚 ): Sea T: 𝐹𝑛 → 𝐹𝑚 una
aplicación lineal, sea A la matriz A = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), de tal manera que T = 𝑇𝐴, entonces,
A es la matriz estándar de T.
12.2 Suma de matrices y producto de una matriz por un escalar
En esta subsubsección y en la siguiente vamos a redefinir el álgebra de las matrices gracias al
estudio que hemos realizado de las aplicaciones lineales.
DEFINICIÓN (Suma de matrices y producto de una matriz por un escalar): Sean S y P elementos
de Hom(𝐹𝑛 , 𝐹𝑚), entonces, sabemos que U = S + P también es un elemento de Hom(𝐹𝑛 ,
𝐹𝑚), también sabemos que S tiene una matriz estándar, llamémosla A al igual que ocurre con
P, sea esta matriz B y U y también tiene la matriz estándar C. Entonces, definimos C = A + B,
de modo que 𝑇𝐴+𝐵 = 𝑇𝐴 + 𝑇𝐵. También sea T de Hom(𝐹𝑛 , 𝐹𝑚) y c un escalar de F, entonces,
c•T es un elemento de Hom(𝐹𝑛 , 𝐹𝑚). Tenga T la matriz estándar D y U la matriz estándar E.
Entonces definimos E = c•D, de modo que 𝑇𝑐•𝐷 = c•𝑇𝐷.
Entonces hemos definido convenientemente la suma de matrices y el producto de una matriz
por un escalar, el siguiente teorema nos da la fórmula para el cálculo de estas matrices que
se desprende naturalmente de la definición.
TEOREMA (Suma de matrices y producto de una matriz por un escalar): 1) Sean A y B matrices
m×n. Sea A = (𝑢1 𝑢2 … 𝑢𝑛) y B = (𝑣1 𝑣2 … 𝑣𝑛), entonces C = A + B es la matriz dada por C =
(𝑢1+𝑣1 𝑢2+𝑣2 … 𝑢𝑛+ 𝑣𝑛).
2) Sea A = (𝑎𝑖𝑗) y B = (𝑏𝑖𝑗), entonces C = A + B es la matriz dada por 𝑐𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗.
3) Sea D una matriz m×n y c un escalar de F. Sea D = (𝑤1 𝑤2 … 𝑤𝑛), entonces, E = c•D es la
matriz m×n dada por E = (c•𝑤1 c•𝑤2 … c•𝑤𝑛).
4) Sean D = (𝑑𝑖𝑗) y E = (𝑒𝑖𝑗), entonces, E = c•D es la matriz dada por 𝑒𝑖𝑗 = c•𝑑𝑖𝑗.
DEMOSTRACIÓN: 1) La matriz estándar de S está dada por A = (S(𝑒1) S(𝑒2) … S(𝑒𝑛)), por lo que
𝑢1 = S(𝑒1), …, 𝑢𝑛 = S(𝑒𝑛) y la matriz estándar de P está dada por B = (P(𝑒1) P(𝑒2) … P(𝑒𝑛)), por
lo que 𝑣1 = P(𝑒1), …, 𝑣𝑛 = P(𝑒𝑛), pero la matriz estándar de U está dada por C = (U(𝑒1) U(𝑒2)
… U(𝑒𝑛)) = ((S+P)(𝑒1) (S+P)(𝑒2) … (S+P)(𝑒𝑛)) = (S(𝑒1)+P(𝑒1) S(𝑒2)+P(𝑒2) … S(𝑒𝑛) +P(𝑒𝑛)) = (𝑢1+𝑣1
𝑢2+𝑣2 … 𝑢𝑛+ 𝑣𝑛).
2) Puesto que las columnas se suman componente a componente se tiene la fórmula que se
propone.
3) La matriz estándar para D se obtiene de la siguiente manera, D = (T(𝑒1) T(𝑒2) … T(𝑒𝑛)), por
lo que 𝑤1 = T(𝑒1), …, 𝑤𝑛 = T(𝑒𝑛), pero la matriz estándar para U es E = (U(𝑒1) U(𝑒2) … U(𝑒𝑛))
= ((c•T)(𝑒1) (c•T)(𝑒2) … (c•T)(𝑒𝑛)) = (c•T(𝑒1) c•T(𝑒2) … c•T(𝑒𝑛)) = (c•𝑤1 c•𝑤2 … c•𝑤𝑛).
208
4) La multiplicación de columnas por escalares se hace multiplicando el escalar por cada
componente, por lo que obtenemos la fórmula que se proponía. □
12.3 Producto de matrices y algebra de matrices
Sin más, vamos a definir cómo debe ser el producto de matrices en función de las aplicaciones
lineales de Hom(𝐹𝑛 , 𝐹𝑚) y su correspondiente matriz estándar. De esta definición surgirá la
forma de calcular las matrices que ya conocemos.
DEFINICIÓN (Producto de matrices): Sean S: 𝐹𝑛 → 𝐹𝑚 y D: 𝐹𝑚 → 𝐹𝑝 transformaciones
lineales, sea U = D○S la composición de D y S. Sabemos que S tiene su matriz estándar,
llamémosla, B y D la suya, llamémosla A. Sabemos que, U es una aplicación lineal y que, por
lo tanto, tendrá una matriz estándar, llamémosla C. Entonces definimos que C = A•B, de
modo que 𝑇𝐴•𝐵 = 𝑇𝐴•𝑇𝐵.
TEOREMA: Sea A una matriz p×m y sea B una matriz m×n. Escribamos B = (𝑢1 𝑢2 … 𝑢𝑛).
Entonces, C = A•B es la matriz dada por C = (A•𝑢1 … A•𝑢𝑛).
DEMOSTRACIÓN: La matriz estándar de S es B = (S(𝑒1) … S(𝑒𝑛)), por lo que 𝑢1 = S(𝑒1), …, 𝑢𝑛
= S(𝑒𝑛). Recordemos que decir que A es la matriz estándar de T significa que T(v) = A•v, para
todo v. Por lo que la matriz estándar de U esta dada por C = (U(𝑒1) … U(𝑒𝑛)) = ((D○S)(𝑒1) …
(D○S)(𝑒𝑛)) = (D(S(𝑒1)) … D(S(𝑒𝑛))) = (D(𝑢1) … D(𝑢𝑛)) = (A•𝑢1 … A•𝑢𝑛). □
Ahora debemos profundizar más en las consecuencias de este teorema para obtener la
fórmula del cálculo del producto de matrices en términos de componentes, que ya
conocemos.
COROLARIO 1 (Fórmula para el cálculo del producto de matrices): Sea A = (𝑎𝑖𝑗) una matriz
p×m y B = (𝑏𝑖𝑗) una matriz m×n, entonces C = A•B es la p×n matriz C = (𝑐𝑖𝑗) definida por:
𝑐𝑖𝑗 = ∑ 𝑎𝑖𝑘 •𝑘=𝑚𝑘=1 𝑏𝑘𝑗 para cada i = 1, …, p y cada j = 1, …, n.
DEMOSTRACIÓN: Sea C = (𝑤1 … 𝑤𝑛), entonces, 𝑤𝑗 = A•𝑢𝑗, ahora bien, 𝑤𝑗 = (
𝑐1𝑗𝑐2𝑗⋮𝑐𝑝𝑗
), A = (𝑎𝑖𝑗)
y 𝑢𝑗 =
(
𝑏1𝑗𝑏2𝑗⋮𝑏𝑚𝑗)
, entonces por la definición del producto de una matriz por una columna o
vector columna se tiene que (
𝑐1𝑗𝑐2𝑗⋮𝑐𝑝𝑗
) =
(
𝑎11𝑏1𝑗 + 𝑎12𝑏2𝑗 +⋯+ 𝑎1𝑚𝑏𝑚𝑗𝑎21𝑏1𝑗 + 𝑎22𝑏2𝑗 +⋯+ 𝑎2𝑚𝑏𝑚𝑗
⋮𝑎𝑝1𝑏1𝑗 + 𝑎𝑝2𝑏2𝑗 +⋯+ 𝑎𝑝𝑚𝑏𝑚𝑗)
, por lo que,
𝑐𝑖𝑗 = 𝑎𝑖1𝑏1𝑗 + 𝑎𝑖2𝑏2𝑗 +⋯+ 𝑎𝑖𝑚𝑏𝑚𝑗 = ∑ 𝑎𝑖𝑘 •𝑘=𝑚𝑘=1 𝑏𝑘𝑗. □
Veamos ahora las propiedades del álgebra de matrices, en el siguiente lema asumimos que
todas las operaciones tienen sentido.
209
LEMA (Álgebra de matrices): a) Sean A, B y C matrices. Sean a y b escalares de F. Sea 0 la
matriz 0 cuyas componentes son todas 0 e I la matriz identidad y si A = (𝑎𝑖𝑗), entonces, -A =
(-𝑎𝑖𝑗), entonces:
1) A + B = B+ A.
2) (A + B) + C = A + (B + C).
3) 0 + A = A + 0 = A.
4) A + (-A) = (-A) + A = 0.
5) a•(A + B) = a•A + a•B.
6) (a + b)•A = a•A + b•A.
7) a•(b•A) = (a•b)•A.
8) 1•A = A
9) 0•A = 0
10) a•0 = 0
11) (-1)•A = -A
12) A•(B•C) = (A•B)•C.
13) (A + B)• C = A•C + B•C.
14) (a•A)•B = a•(A•B).
15) A•(B + C) = A•B + A•C.
16) A•(a•B) = a•(A•B).
17) A•0 = 0 y 0•A = 0.
18) I•A = A, A•I = A.
b) Por tanto, bajo las operaciones de suma de matrices y producto por un escalar𝑀𝑚,𝑛(F), el
conjunto de las matrices m×n con entradas en F es un F-espacio vectorial.
DEMOSTRACIÓN: a) 1) 𝑇𝐴+𝐵 = 𝑇𝐴 + 𝑇𝐵 = 𝑇𝐵 + 𝑇𝐴 = 𝑇𝐵+𝐴. 2) 𝑇(𝐴+𝐵)+𝐶 = 𝑇𝐴+𝐵 + 𝑇𝐶 = 𝑇𝐴 + 𝑇𝐵 +
𝑇𝐶 = 𝑇𝐴 + 𝑇𝐵+𝐶 = 𝑇𝐴+(𝐵+𝐶). 3) 𝑇0+𝐴 = 𝑇0 + 𝑇𝐴 = 𝑇𝐴 = 𝑇𝐴 + 𝑇0 = 𝑇𝐴+0. 4) 𝑇𝐴+(−𝐴) = 𝑇𝐴 + 𝑇−𝐴 = 𝑇0
= 𝑇−𝐴 + 𝑇𝐴 = 𝑇(−𝐴)+𝐴. 5) 𝑇𝑎•(𝐴+𝐵) = a•𝑇𝐴+𝐵 = a•(𝑇𝐴 + 𝑇𝐵) = a•𝑇𝐴 + a•𝑇𝐵 = 𝑇a•𝐴 + 𝑇a•𝐵 =
𝑇a•𝐴+𝑎•𝐵. 6) 𝑇(𝑎+𝑏)•𝐴 = (a + b)•𝑇𝐴 = a• 𝑇𝐴 + b•𝑇𝐴 = 𝑇𝑎•𝐴 + 𝑇𝑏•𝐴 = 𝑇𝑎•𝐴+𝑏•𝐴. 7) 𝑇𝑎•(𝑏•𝐴) = a•𝑇𝑏•𝐴
= a•(b•𝑇𝐴) = (a•b)•𝑇𝐴 = 𝑇(𝑎•𝑏)•𝐴. 8) 𝑇1•𝐴 = 1•𝑇𝐴 = 𝑇𝐴. 9) 𝑇0•𝐴 = 0•𝑇𝐴 = 0 = 𝑇0. 10) 𝑇𝑎•0 = a•𝑇0
= a•0 = 0 = 𝑇0. 11) 𝑇(−1)•𝐴 = (-1) 𝑇𝐴 = -𝑇𝐴 = 𝑇−𝐴. 12) 𝑇𝐴•(𝐵•𝐶) = 𝑇𝐴○𝑇𝐵•𝐶 = 𝑇𝐴○(𝑇𝐵○𝑇𝐶) =
(𝑇𝐴○𝑇𝐵)○𝑇𝐶 = 𝑇𝐴•𝐵○𝑇𝐶 = 𝑇(𝐴•𝐵)•𝐶. 13) 𝑇(𝐴+𝐵)•𝐶 = 𝑇𝐴+𝐵○𝑇𝐶 = (𝑇𝐴 + 𝑇𝐵) ○𝑇𝐶 = 𝑇𝐴○𝑇𝐶 + 𝑇𝐵○𝑇𝐶 =
𝑇𝐴•𝐶 + 𝑇𝐵•𝐶 = 𝑇𝐴•𝐶+𝐵•𝐶. 14) 𝑇(𝑎•𝐴)•𝐵 = 𝑇𝑎•𝐴○𝑇𝐵 = (a•𝑇𝐴)○𝑇𝐵 = a•(𝑇𝐴○𝑇𝐵) = a•𝑇𝐴•𝐵 = 𝑇𝑎•(𝐴•𝐵).
15) 𝑇𝐴•(𝐵+𝐶) = 𝑇𝐴○𝑇𝐵+𝐶 = 𝑇𝐴○(𝑇𝐵 + 𝑇𝐶) = 𝑇𝐴○𝑇𝐵 + 𝑇𝐴○𝑇𝐶 = 𝑇𝐴•𝐵 + 𝑇𝐴•𝐶 = 𝑇𝐴•𝐵+𝐴•𝐶). 16) 𝑇𝐴•(𝑎•𝐵)
= 𝑇𝐴○𝑇𝑎•𝐵 = 𝑇𝐴○(a•𝑇𝐵) = a•(𝑇𝐴○𝑇𝐵) = a•𝑇𝐴•𝐵 = 𝑇𝑎•(𝐴•𝐵). 17) 𝑇𝐴•0 = 𝑇𝐴○0 = 0 = 0○𝑇𝐴 = 𝑇0•𝐴. 18)
𝑇𝐼•𝐴 = 𝑇𝐼○𝑇𝐴 = 𝑇𝐴 = 𝑇𝐴○𝑇𝐼 = 𝑇𝐴•𝐼. □
Ahora veremos un corolario que se basa en los resultados obtenidos anteriormente sobre
aplicaciones lineales que nos resultará útil más adelante.
COROLARIO 2: 1) Sea B una matriz fija p×n. Entonces, P: 𝑀𝑛,𝑚(F) → 𝑀𝑝,𝑚(F) definida por P(A)
= B•A es una aplicación lineal.
2) Sea A una matriz fija n×m. Entonces Q: 𝑀𝑝,𝑛(F) → 𝑀𝑝,𝑚(F) definida como Q(B) = B•A es
una transformación lineal.
210
DEMOSTRACIÓN: Se basa en las propiedades demostradas en el lema anterior. □
12.4 Matriz inversa de otra
De nuevo, vamos a ver el significado y propiedades de la matriz inversa utilizando
aplicaciones lineales, en este caso, isomorfismos. En la subsubsección siguiente a esta
redefiniremos el algoritmo para el cálculo de la inversa de una matriz.
Damos dos definiciones de la matriz inversa de otra matriz, que enseguida veremos que son
equivalentes.
DEFINICIÓN 1 (Matriz inversa de una dada I): Sea T: 𝐹𝑛 → 𝐹𝑛 una aplicación lineal, de modo
que T = 𝑇𝐴 para una única matriz A. Si T es invertible, entonces, 𝐴−1 es la matriz definida de
modo que (𝑇𝐴 )−1 = 𝐻𝐴−1 , donde H es una aplicación lineal, tal como T lo es, H: 𝐹𝑛 → 𝐹𝑛. Es
decir, sea N = 𝑁𝐴 una aplicación lineal N: 𝐹𝑛 → 𝐹𝑛, si N es invertible entonces tiene una
inversa, 𝑁−1: 𝐹𝑛 → 𝐹𝑛, pero 𝑁−1 = 𝑇𝑀, para una matriz única M, de modo que establecemos
que 𝐴−1 = M.
Ahora hacemos una definición alternativa que ya conocíamos.
DEFINICIÓN 2 (Matriz inversa de una dada II): La matriz A es invertible si existe una matriz
𝐴−1, tal que A•𝐴−1 = 𝐴−1•A = I. En este caso, 𝐴−1 es la matriz inversa de A.
Ahora demostramos un teorema principal gracias al estudio que hemos hecho de los
isomorfismos.
TEOREMA 1 (Propiedades de la inversa): Sea A una matriz n×n, entonces las siguientes
proposiciones son equivalentes:
1) La transformación lineal 𝑇𝐴: 𝐹𝑛 → 𝐹𝑛 definida por 𝑇𝐴(x) = A•x es invertible.
2) La matriz A es invertible, esto es, existe una matriz 𝐴−1 tal que 𝐴−1•A = A•𝐴−1 = I.
3) Existe una matriz B tal que A•B = I. En este caso, B = 𝐴−1.
4) Existe una matriz C tal que C•A = I. En este caso C = 𝐴−1.
5) Para cualquier b de 𝐹𝑛, la ecuación A•x = b tiene una única solución.
6) Para cualquier b de 𝐹𝑛, la ecuación A•x = b tiene solución.
7) La ecuación A•x = 0 solo tiene la solución trivial x = 0.
DEMOSTRACIÓN: Supongamos que 1) es verdadero, de modo que T = 𝑇𝐴 es invertible, es
decir existe una aplicación lineal 𝑇−1 que es la inversa de T. De modo que ocurre:
T○𝑇−1 = 𝑇−1○T = I
𝑇𝐴○(𝑇𝐴)−1 = (𝑇𝐴)
−1○𝑇𝐴 = I,
𝑇𝐴○𝑇𝐴−1 = 𝑇𝐴−1○𝑇𝐴 = 𝑇𝐼,
𝑇𝐴•𝐴−1 = 𝑇𝐴−1•𝐴 = 𝑇𝐼, por lo que
A•𝐴−1 = 𝐴−1•A = I.
Pero esta cadena de implicaciones es reversible, por lo que si se cumple 2) también, 1).
211
Pero recordemos que 𝑇𝐴 es una aplicación lineal dada por 𝑇𝐴(x) = A•x, si suponemos que 𝑇𝐴
es invertible, entonces es un isomorfismo que es inyectivo y suprayectivo de modo que, 𝑇𝐴(x)
= b tiene solución y única, pero 𝑇𝐴(x) = A•x, de modo que 5) es equivalente a 1).
Ahora la condición de que 𝑇𝐴 es suprayectiva es que 𝑇𝐴(x) = b tiene solución para cada b y
esto es equivalente a que A•x = b tiene solución para cada b, esto es la condición 6), pero
sabemos que esto es equivalente a que hay una aplicación lineal U tal que T○U = I. Sea U =
𝑇𝐵, entonces esto es equivalente a que A•B = I, que es la condición 3).
La condición de que 𝑇𝐴 es inyectiva es equivalente a que 𝑇𝐴(x) = 0 tiene la solución única x =
0, lo cual es equivalente a que A•x = 0 tiene la solución única x = 0, esto es la condición 7).
Pero sabemos que esto es equivalente a que existe una aplicación lineal S tal que S○T = I, sea
S = 𝑇𝐶, entonces C•A = I, esto es la condición 4).
Pero sabemos, ya que 𝐹𝑛 tiene dimensión finita que las proposiciones 1), 3) y 4), son
equivalentes, así que las 7 condiciones son equivalentes por el teorema de la subsubsección
11.6.
Además, si todas son ciertas, sabemos también que B = 𝐴−1 y C = 𝐴−1 por el mismo teorema
de la subsubsección 11.6. □
Además, se puede demostrar el siguiente teorema.
TEOREMA 2: Sean A y B matrices n×n.
1) Si A y B son invertibles, entonces, A•B es invertible y (A • B )−1 = 𝐵−1•𝐴−1.
2) Si A•B es invertible también, A y B son invertibles.
DEMOSTRACIÓN: 1) es el lema 3 de la subsubsección 11.4. Y 2) es el corolario de la
subsubsección 11.6. □
12.5 Algoritmo para calcular la inversa de una matriz redefinido
Para una matriz A, solo necesitamos encontrar una matriz B con A•B = I, para concluir que B
es la inversa de A. Sea B = (𝑣1 𝑣2 … 𝑣𝑛), entonces A•B = I es el conjunto de ecuaciones A•(𝑣1
𝑣2 … 𝑣𝑛) = I lo que implica que (A•𝑣1 A•𝑣2 … A•𝑣𝑛) = (𝑒1 𝑒2 … 𝑒𝑛), es decir, A•𝑣1 = 𝑒1, …,
A•𝑣𝑛 = 𝑒𝑛 que son n sistemas de ecuaciones lineales con la misma matriz. Por tanto, tenemos
el siguiente algoritmo:
ALGORITMO (Cálculo de la inversa de una matriz regular): Sea A una matriz n×n para i = 1, …,
n sea x = 𝑣𝑖, la solución de A•x = 𝑒𝑖, si cada una de estas ecuaciones tiene solución, entonces,
𝐴−1 = (𝑣1 𝑣2 … 𝑣𝑛), si alguna de las ecuaciones no tiene solución entonces A no es regular.
En la práctica, ya que tenemos n sistemas de ecuaciones con la misma matriz A, podemos
resolver todos los sistemas de una sola vez como hicimos en la subsubsección dedicada la
matriz inversa anteriormente. Veamos un ejemplo para recordar el método.
EJEMPLO: Sea A la matriz siguiente:
212
A = (1 1 323
22
97), entonces formamos la matriz siguiente:
(1 1 3 1 0 023
22
97
00
10
01) añadiendo la matriz identidad a la derecha,
Al resolver el sistema obtenemos: (1 0 0 −4/3 −1/3 1
00
10
01
13/3−2/3
−2/31/3
−10), de modo que
𝐴−1 = (−4/3 −1/3 1
13/3−2/3
−2/31/3
−10
).
12.6 Nueva perspectiva del cambio de coordenadas
En estas subsubsecciones utilizaremos la siguiente metáfora: Elegir una base nos da las
coordenadas de los vectores y las coordenadas son como un lenguaje para describir los
vectores.
Ahondemos un poco en esta metáfora, los lenguajse humanos son una manera de dar
nombres a los objetos, por ejemplo: [∗]𝐸𝑠𝑝𝑎ñ𝑜𝑙 = estrella, [∗]𝐼𝑛𝑔𝑙é𝑠 = star, [∗]𝐹𝑟𝑎𝑛𝑐é𝑠 = étoile.
De forma similar, si V es un espacio vectorial de dimensión n sobre un cuerpo F y B es una
base de V, tenemos que [𝑣]𝐵 es un vector en 𝐹𝑛 que son las coordenadas del vector v en la
base B que podemos pensar que es un nombre del vector v en el lenguaje definido por B.
De la misma manera, veremos que si T: V → V’ es una aplicación lineal de un espacio vectorial
de dimensión n, V a un espacio vectorial V’ de dimensión m, ambos sobre el mismo cuerpo,
F y B y C son bases de V y V’ respectivamente, tenemos que esta aplicación lineal determina
una matriz con respecto a las bases B y C que notaremos de la siguiente manera: [𝑇]𝐶←𝐵 una
matriz m×n con entradas en F, que podemos pensar que es el nombre de la transformación
lineal en las bases fijadas de V y V’.
Al igual que en los lenguajes humanos a veces es bueno trabajar con los objetos y otras veces
es mejor trabajar con los lenguajes, es decir, con palabras de ese lenguaje, en álgebra lineal
a veces es bueno trabajar con los vectores y las aplicaciones lineales directamente y otras
veces es mejor traducir estos objetos a ‘lenguajes’ es decir, trabajar con las coordenadas y
las matrices de aplicaciones, donde tenemos formas de computar los problemas muy
eficaces.
También a veces es muy importante en los lenguajes humanos o esencial, poder traducir las
palabras de un lenguaje a otro y de la misma manera a veces necesitamos en álgebra lineal
traducir los objetos de un lenguaje a otro.
Ahora veremos una serie de ejemplos para preparar esta subsubsección y las siguientes.
213
EJEMPLO 1: a) Para cualquier base B = {𝑣1 𝑣2 … 𝑣𝑛}, [0]𝐵 = (0⋮0), pues 0 = 0⦁𝑣1 + … + 0⦁𝑣𝑛.
b) Para cualquier base, B = {𝑣1 𝑣2 … 𝑣𝑛}, [𝑣𝑖]𝐵 =
(
0⋮010⋮0)
= 𝑒𝑖, con el 1 en la posición i, pues, 𝑣𝑖
= 0⦁𝑣1 + … + 1⦁𝑣𝑖 + … + 0⦁𝑣𝑛.
EJEMPLO 2: Sea V = 𝐹𝑛, y sea E = {𝑒1 𝑒2 … 𝑒𝑛} la base estándar. Si v = (
𝑐1𝑐2⋮𝑐𝑛
), entonces, v =
(
𝑐10⋮0
) + (
0𝑐2⋮0
) + … + (
00⋮𝑐𝑛
) = 𝑐1⦁(
10⋮0
) + 𝑐2⦁(
01⋮0
) + … + 𝑐𝑛⦁(
00⋮1
) = 𝑐1⦁𝑒1 + 𝑐2⦁𝑒2 + … + 𝑐𝑛⦁𝑒𝑛,
de modo que [𝑣]𝐸 = (
𝑐1𝑐2⋮𝑐𝑛
), por lo que un vector de 𝐹𝑛 se ve igual a sí mismo en la base
estándar.
EJEMPLO 3: Sea V = 𝑃𝑑(F) y sea B = {1, x, …, 𝑥𝑑}, entonces, [𝑎0 + 𝑎1 ⦁x + ⋯+ 𝑎𝑑 ⦁𝑥𝑑]𝐵 =
(
𝑎0𝑎1⋮𝑎𝑑
).
EJEMPLO 4: Sea V = 𝐹3 y sea B = {(123), (
122), (
397)} una base de V.
a) Si [𝑣]𝐸 = (−140), encuentra, [𝑣]𝐵. Solución: [𝑣]𝐵 = (
𝑐1𝑐2𝑐3) si v = 𝑐1⦁𝑣1 + 𝑐2⦁𝑣2 + 𝑐3⦁𝑣3, por lo
que el problema es un sistema de ecuaciones: (−140) = 𝑐1⦁(
123) + 𝑐2⦁(
122) + 𝑐3⦁(
397) que al
resolverlo nos da 𝑐1 = 3, 𝑐2 = 6 y 𝑐3 = 5, por lo que [𝑣]𝐵 = (365).
b) Si [𝑤]𝐵 = (40−1), encuentra, [𝑤]𝐸. Solución: Vemos que 4⦁𝑣1 + 0⦁𝑣2 - 1⦁𝑣3 = 4⦁(
123) + 0 -
1⦁(397) = (
1−15).
Ahora, con el problema fundamental que vamos a resolver de nuevo, el cambio de
coordenadas de una base a otra, terminamos esta subsubsección. El problema se puede
214
enunciar de la siguiente manera: Supongamos que tenemos 2 bases, B y C, y sabemos la
expresión de [𝑣]𝐵, entonces, ¿Cómo podemos calcular [𝑣]𝐶? En esto consiste nuestro
teorema de esta sección.
TEOREMA (Cambio de bases para vectores): Sea V un espacio vectorial de dimensión n sobre
un cuerpo F y sean B y C dos bases de V. Entonces, hay una matriz n×n, llamémosla 𝑃𝐶←𝐵,
con la propiedad de que [𝑣]𝐶 = 𝑃𝐶←𝐵⦁[𝑣]𝐵, para cada v de V. Si B = {𝑣1 𝑣2 … 𝑣𝑛}, entonces,
𝑃𝐶←𝐵 = [[𝑣1]𝐶 [𝑣2]𝐶 … [𝑣𝑛]𝐶].
DEMOSTRACIÓN: Sabemos que hay un isomorfismo 𝑇1: V → 𝐹𝑛 dado por 𝑇1(v) = [𝑣]𝐵, es
decir, el isomorfismo de las coordenadas, similarmente, 𝑇2: V → 𝐹𝑛 dado por 𝑇2(v) = [𝑣]𝐶 es
otro isomorfismo. Sea T la composición siguiente: T = 𝑇2 ∘ 𝑇1−1: 𝐹𝑛 → 𝐹𝑛, entonces, T es una
aplicación lineal con T([𝑣]𝐵) = 𝑇2 ∘ 𝑇1−1([𝑣]𝐵) = 𝑇2(𝑇1
−1([𝑣]𝐵)) = 𝑇2(v) = [𝑣]𝐶 . Pero sabemos
que toda aplicación lineal T: 𝐹𝑛 → 𝐹𝑛 tiene una matriz P tal que T = 𝑇𝑃, para una única matriz
P, sea 𝑃𝐶←𝐵 esta matriz P. Ahora bien, sabemos que 𝑃𝐶←𝐵 = [𝑃𝐶←𝐵⦁𝑒1 𝑃𝐶←𝐵⦁𝑒2 … 𝑃𝐶←𝐵⦁𝑒𝑛],
pero recordemos que [𝑣𝑖]𝐵 = 𝑒𝑖, entonces tenemos que 𝑃𝐶←𝐵⦁𝑒𝑖 = 𝑃𝐶←𝐵⦁[𝑣𝑖]𝐵 = [𝑣𝑖]𝐶. □
DEFINICIÓN (Matriz de cambio de base de una base a otra): La matriz 𝑃𝐶←𝐵 se llama la matriz
de cambio de base de la base B a la base C.
12.7 Propiedades de los cambios de base y formas prácticas de realizarlos
Vamos a demostrar un lema que nos da unas propiedades de las matrices de cambio de base
muy interesantes.
LEMA 1: Sean B, C y D bases del espacio vectorial de dimensión finita V. Entonces, se cumple
lo siguiente:
1) 𝑃𝐵←𝐵 = I (La matriz identidad).
2) 𝑃𝐶←𝐵 es invertible y 𝑃𝐵←𝐶 = (𝑃𝐶←𝐵)−1.
3) 𝑃𝐷←𝐵 = 𝑃𝐷←𝐶⦁𝑃𝐶←𝐵.
DEMOSTRACIÓN: 1) 𝑃𝐵←𝐵 tiene la propiedad de que 𝑃𝐵←𝐵⦁[𝑣]𝐵 = [𝑣]𝐵, para todo [𝑣]𝐵 en
𝐹𝑛, de modo que 𝑃𝐵←𝐵 tiene que ser la identidad.
3) Por una parte, por definición se cumple que 𝑃𝐷←𝐵⦁[𝑣]𝐵 = [𝑣]𝐷, para todo vector [𝑣]𝐵 en
𝐹𝑛. Por otra parte, (𝑃𝐷←𝐶⦁𝑃𝐶←𝐵)⦁ [𝑣]𝐵 = 𝑃𝐷←𝐶⦁(𝑃𝐶←𝐵⦁ [𝑣]𝐵) = 𝑃𝐷←𝐶⦁[𝑣]𝐶 = [𝑣]𝐷, para
todo vector [𝑣]𝐵 en 𝐹𝑛, por lo que debe ser que 𝑃𝐷←𝐵 = 𝑃𝐷←𝐶⦁𝑃𝐶←𝐵.
2) Tomemos D = B, entonces por 1) y 3) tenemos que 𝑃𝐵←𝐶⦁𝑃𝐶←𝐵 = 𝑃𝐵←𝐵 = I y similarmente,
𝑃𝐶←𝐵⦁𝑃𝐵←𝐶 = 𝑃𝐶←𝐶 = I, por lo que 𝑃𝐶←𝐵 y 𝑃𝐵←𝐶 son inversas una de la otra. □
La parte 2) del lema anterior nos dice que toda matriz de cambio de base es invertible. Nos
podemos preguntar si toda matriz invertible es una matriz de cambio de base y la respuesta
es que sí como vamos a ver en el siguiente lema.
LEMA 2: Sea P una matriz invertible de dimensión n×n. Sea B una base de V, entonces, existe
una base de V, tal que 𝑃𝐶←𝐵 = P.
215
DEMOSTRACIÓN: Sea Q = 𝑃−1. Sea Q = (𝑞1 𝑞2 … 𝑞𝑛) = (𝑞𝑖𝑗). Sea B = {𝑣1 𝑣2 … 𝑣𝑛} y definamos
C = {𝑤1 𝑤2 … 𝑤𝑛}, de la siguiente manera: 𝑤𝑗 = ∑ 𝑞𝑖𝑗⦁𝑖=𝑛𝑖=1 𝑣𝑖 para j = 1, …, n, de modo que
[𝑤𝑗]𝐵 = 𝑞𝑗, para j = 1, …, n, entonces, por el teorema de la subsubsección anterior se tiene
(con los roles de B y C cambiados) 𝑃𝐵←𝐶 = ([𝑤1]𝐵 [𝑤2]𝐵 … [𝑤𝑛]𝐵 = (𝑞1 𝑞2 … 𝑞𝑛) = Q, de modo
que 𝑃𝐶←𝐵 = 𝑄−1 = P. □
Ahora veamos como calcular las matrices de cambio de base de forma práctica. Hay 2
métodos, uno directo y otro indirecto.
El método directo, es usar la fórmula del teorema de la subsubsección anterior para 𝑃𝐶←𝐵
donde nos dice que la columna i de 𝑃𝐶←𝐵 es [𝑣𝑖]𝐶 las coordenadas del vector 𝑣𝑖 en la base C.
Pero esto se obtiene usando un sistema de ecuaciones, que ya sabemos cómo resolverlo.
El método indirecto para V = 𝐹𝑛, es el siguiente. Sea B una base de V, B = {𝑣1 𝑣2 … 𝑣𝑛} y sea
E la base estándar de 𝐹𝑛.
1) Supongamos que queremos encontrar 𝑃𝐸←𝐵, lo cual, es muy fácil, pues 𝑃𝐸←𝐵 = ([𝑣1]𝐸
[𝑣2]𝐸 … [𝑣𝑛]𝐸, de modo que 𝑃𝐸←𝐵 = (𝑣1 𝑣2 … 𝑣𝑛).
2) Supongamos que queremos hallar 𝑃𝐵←𝐸 = (𝑃𝐸←𝐵)−1 y ya sabemos cómo hallar inversas
de matrices.
3) Supongamos que queremos hallar 𝑃𝐶←𝐵, podemos introducir, la base E estándar como
intermedia y hacer 𝑃𝐶←𝐵 = 𝑃𝐶←𝐸⦁𝑃𝐸←𝐵 = (𝑃𝐸←𝐶)−1⦁𝑃𝐸←𝐵, por lo que tendríamos que
calcular una inversa de una matriz fácil.
Veamos un ejemplo.
EJEMPLO: Sea V = 𝐹2, sea B = {(13), (
27)} y C = {(
94), (
21)}. Entonces,
𝑃𝐸←𝐵 = (1 23 7
), 𝑃𝐵←𝐸 = (𝑃𝐸←𝐵)−1= (
1 23 7
)−1
= (7 −2−3 1
),
𝑃𝐸←𝐶 = (9 24 1
), 𝑃𝐶←𝐸 = (𝑃𝐸←𝐶)−1= (
9 24 1
)−1
= (1 −2−4 9
),
𝑃𝐶←𝐵 = 𝑃𝐶←𝐸⦁𝑃𝐸←𝐵 = (1 −2−4 9
)⦁(1 23 7
) = (−5 −1223 55
),
𝑃𝐵←𝐶 = 𝑃𝐵←𝐸⦁𝑃𝐸←𝐶 = (𝑃𝐶←𝐵)−1= (
55 12−23 −5
).
Nótese que 𝑃𝐶←𝐵 = (−5 −1223 55
) = ((13)𝐶
(27)𝐶) y vemos lo siguiente:
(13) = (-5)⦁ (
94) + 23⦁(
21) y (
27) = (-12)⦁ (
94) + 55⦁(
21).
12.8 Matriz asociada a una aplicación lineal entre dos espacios vectoriales generales sobre el
mismo cuerpo F
En esta subsubsección veremos como toda aplicación lineal T: V → V’ tiene asociada una
matriz con respecto a dos bases, B de V y C de V’ que notaremos como [𝑇]𝐶←𝐵. Esto permite
tratar problemas de las aplicaciones lineales como problemas de matrices.
216
Recordemos que, para cualquier aplicación lineal, T: 𝐹𝑛 → 𝐹𝑛 era T = 𝑇𝐴, para una matriz A,
y llamábamos a A la matriz estándar de T. Como veremos, A es la matriz de T relativa a las
bases estándar 𝐸𝑛 y 𝐸𝑚, de 𝐹𝑛 y 𝐹𝑚 respectivamente, es decir, en nuestra nueva notación A
= [𝑇𝐴]𝐸𝑚←𝐸𝑛, pero si usamos diferentes bases, obtendremos diferentes matrices para 𝑇𝐴.
Estudiaremos como se transforman las matrices de las aplicaciones lineales si escogemos
diferentes bases, así como estudiamos como se transforman las coordenadas de un vector al
elegir una base diferente.
Considerando la metáfora de que una base nos da un lenguaje para estudiar los vectores,
ahora un par de bases nos permiten estudiar las transformaciones lineales y veremos que
unas bases escogidas son mejores para estudiar una aplicación lineal de modo que en nuestra
metáfora según la aplicación lineal hay un lenguaje o lenguajes mejores que otros.
Veamos un ejemplo.
EJEMPLO 1: Consideremos la aplicación lineal 𝑇1: 𝐹2 → 𝐹2, dada por 𝑇𝐴1, con 𝐴1 = (2 00 5
) y
𝑇2: 𝐹2 → 𝐹2, dada por 𝑇𝐴2, con 𝐴2 = (−13 −930 20
).
Entonces, veamos que 𝑇1 tiene un significado geométrico claro, pues si E = {𝑒1, 𝑒2} es la base
estándar de 𝐹2, tenemos que 𝑇1(𝑒1) = (2 00 5
)⦁(10) = (
20) = 2⦁(
10) y 𝑇1(𝑒2) = (
2 00 5
)⦁(01) =
(05) = 5⦁(
01), por lo que 𝑇1 preserva la dirección de 𝑒1 aunque la aumenta en un factor de 2
y también 𝑇1 preserva la dirección de 𝑒2 aunque la aumenta en un factor de 5. Pero por otra
parte no vemos un significado claro a 𝑇2 en la base estándar, pero si escogemos la siguiente
base: B = {(3−5), (
−12)} = {𝑣1, 𝑣2}, vemos que 𝑇2(𝑣1) = (
−13 −930 20
)⦁(3−5) = (
6−10
) =
2⦁(3−5) y 𝑇2(𝑣2) = (
−13 −930 20
)⦁(−12) = (
−510) = 5⦁(
−12) y por tanto, vemos que tiene el
mismo significado geométrico que 𝑇1 preserva la dirección 𝑣1 aunque la aumenta en un
factor de 2 y también preserva la dirección 𝑣2 aunque la estira en un factor de 5.
Por lo que para estudiar 𝑇1 deberíamos usar la base estándar, pero para estudiar 𝑇2 es mejor
usar la base B.
De momento no estudiaremos como obtener la base apropiada para una transformación
lineal, pero veremos este tema en seccione posteriores.
Ahora demostraremos el teorema que nos da conocimiento sobre la discusión que hemos
tenido.
TEOREMA (La ecuación de una aplicación lineal y la matriz asociada a una aplicación lineal
dadas las bases B y C): Sea T: V → V’ una aplicación lineal entre dos espacios vectoriales V y
V’ de dimensión finita n y m respectivamente. Sean B = {𝑣1, …, 𝑣𝑛}, C = {𝑣′1, …, 𝑣′𝑚}, bases
de V y V’ respectivamente. Definimos la matriz [𝑇]𝐶←𝐵, asociada a T con respecto a las bases
B y C, de la siguiente manera:
217
{𝑇(𝑣1) = 𝑎11⦁𝑣′1 +⋯+ 𝑎𝑚1⦁𝑣′𝑚
…𝑇(𝑣𝑛) = 𝑎1𝑛⦁𝑣′1 +⋯+ 𝑎𝑚𝑛⦁𝑣′𝑚
, por lo que (𝑇(𝑣1) … 𝑇(𝑣𝑛)) =
(𝑣′1 … 𝑣′𝑚)⦁(𝑎11 … 𝑎1𝑛…𝑎𝑚1
……
…𝑎𝑚𝑛
) = T(B) = C⦁[𝑇]𝐶←𝐵 (1),
donde T(B) y C representan matrices de vectores.
Sean x de V e y de V’ vectores con las siguientes coordenadas:
x = 𝑥1⦁𝑣1 + … + 𝑥𝑛⦁𝑣𝑛 o x = (𝑣1 … 𝑣𝑛)⦁(
𝑥1⋮𝑥𝑛),
y = T(x) = 𝑦1⦁𝑣1 + … + 𝑦𝑚⦁𝑣𝑚 o y = T(x) = (𝑣′1 … 𝑣′𝑚)⦁(
𝑦1⋮𝑦𝑛). Entonces, las relaciones entre
las coordenadas de los vectores x e y es la siguiente:
{
𝑦1 = 𝑎11⦁𝑥1 +⋯+ 𝑎1𝑛⦁𝑥𝑛 …
𝑦𝑚 = 𝑎𝑚1⦁𝑥1 +⋯+ 𝑎𝑚𝑛⦁𝑥𝑛 ó (
𝑦1⋮𝑦𝑚) = (
𝑎11 … 𝑎1𝑛…𝑎𝑚1
……
…𝑎𝑚𝑛
)⦁(
𝑥1⋮𝑥𝑛), es decir,
Y = [𝑇]𝐶←𝐵⦁X (2).
DEMOSTRACIÓN: C⦁Y = T(x) = T(B⦁X) = T(B)⦁X = por (1) = C⦁[𝑇]𝐶←𝐵⦁X, lo que implica por ser
C base,
Y = [𝑇]𝐶←𝐵⦁X. □
DEFINICIÓN (Ecuación matricial de una aplicación lineal y matriz asociada a una aplicación
lineal con respecto a las bases B y C): La ecuación (2) del anterior teorema se llama ecuación
matricial de la aplicación lineal T y la matriz [𝑇]𝐶←𝐵 es la matriz asociada a la aplicación lineal
T con respecto a las bases B y C.
Un caso muy importante de la ecuación matricial y la matriz de una aplicación lineal es
cuando ocurre que V = V’, es decir, cuando T es un endomorfismo, entonces lo natural es
considerar la misma base, B y C = B para la matriz [𝑇]𝐶←𝐵 que entonces ocurre que [𝑇]𝐶←𝐵 =
[𝑇]𝐵←𝐵 que se suele notar como [𝑇]𝐵.
EJEMPLO 2: Sea V = 𝐹𝑛 y V’ = 𝐹𝑚, sea T: V → V’ y T = 𝑇𝐴, de modo que T: 𝐹𝑛 → 𝐹𝑚 y T(v) = 𝑇𝐴
(v) = A⦁v. Sea 𝐸𝑛 la base estándar de 𝐹𝑛 y 𝐸𝑚 la base estándar de 𝐹𝑚, entonces, [𝑇]𝐸𝑚←𝐸𝑛
está definida por [𝑇(𝑣)]𝐸𝑚 = [𝑇]𝐸𝑚←𝐸𝑛 ⦁[𝑣]𝐸𝑛 , es decir, [A⦁𝑣]𝐸𝑚 = [𝑇]𝐸𝑚←𝐸𝑛 ⦁[𝑣]𝐸𝑛 , pero
recordemos que [𝑣]𝐸𝑛 = v y [A⦁𝑣]𝐸𝑚 = A⦁v, de modo que A⦁v = [𝑇]𝐸𝑚←𝐸𝑛 ⦁v, por lo que A =
[𝑇]𝐸𝑚←𝐸𝑛 , por lo que la matriz estándar de la transformación lineal 𝑇𝐴 es la matriz de 𝑇𝐴 con
respecto a las bases estándar respectivas. Podemos decir que, al igual que los vectores en las
bases estándar se ven iguales a sí mismos, también, la aplicación lineal que consiste en la
multiplicación por una matriz A se ve igual a sí misma en las bases estándar.
Terminamos esta subsubsección con un resultado importante, es el siguiente.
218
PROPOSICIÓN (Aplicación lineal asociada a una matriz): Toda matriz es la matriz asociada a
una aplicación lineal con respecto a ciertas bases.
DEMOSTRACIÓN: Sea A = (𝑎𝑖𝑗) una matriz de dimensión m×n. Sean V y V’ dos espacios
vectoriales de dimensión finita respectivamente n y m y B = {𝑣1, …, 𝑣𝑛}, C = {𝑣′1, …, 𝑣′𝑚},
bases de V y V’ respectivamente. Entonces, la aplicación lineal T: V → V’ dada por T(𝑣𝑗) =
∑ 𝑎𝑖𝑗⦁𝑖=𝑚𝑖=1 𝑣′𝑖 1 ≤ j ≤ n, esto es, (T(𝑣1) … T(𝑣𝑛)) = (𝑣′1 … 𝑣′𝑚)⦁A, verifica que A = [𝑇]𝐶←𝐵. □
12.9 Cálculo de las dimensiones
En esta subsubsección veremos los aspectos elementales de lo que se llama el teorema
básico del cálculo de las dimensiones relacionado con una aplicación lineal. Sin más
empecemos y veamos que significa todo esto.
TEOREMA: Sea T: V → V’ una aplicación lineal entre dos espacios vectoriales V y V’. Sea W un
complemento de Ker(T), entonces, T: W → Im(T) es un isomorfismo. Es más, por tanto,
codim(Ker(T)) = dim(Im(T)).
DEMOSTRACIÓN: Demostraremos que T: W → Im(T) es inyectiva y suprayectiva.
Es suprayectiva. Sea u de Im(T), entonces, por definición, u = T(v), para algún v de V. Ya que
W es un complemento de Ker(T), V = W + Ker(T), por lo que podemos escribir v = w + v’ con
v’ en Ker(T) y w de W, pero entonces, u = T(v) = T(w + v’) = T(w) + T(v’) = T(w) + 0 = T(w).
Es inyectiva. Sea w de W con T(w) = 0, entonces, w pertenece también a Ker(T), pero como
W es un complemento de Ker(T), esto obliga a que w = 0.
Para finalizar, recordemos que si U es un subespacio, entonces codim(U) = dim(W) con W tal
que V es la suma directa de U y W, por lo que codim(Ker(T)) = dim(W) = dim(Im(T)) ya que
hemos demostrado que W e Im(T) son isomorfos. □
COROLARIO 1 (Primer Teorems de Isomorfía): Sea T: V → V’ una aplicación lineal entre dos
espacios vectoriales V y V’. Entonces, V/Ker(T) es isomorfo a Im(T).
DEMOSTRACIÓN: Sabemos por el teorema de la subsubsección 11.5 que V/Ker(T) es isomorfo
a cualquier suplementario W, de Ker(T), pero hemos demostrado en el teorema anterior que
W es isomorfo que Im(T), por lo que se concluye que V/Ker(T) es isomorfo a Im(T), pero
daremos explícitamente este isomorfismo.
Sea �̅�: V/Ker(T) → Im(T) como sigue. Sea A un elemento de V/Ker(T), de modo que A = t +
Ker(T), para algún t de V. Hagamos �̅�(A) = T(t). Veamos que esta aplicación está bien definida,
es decir no depende de la elección del vector t. Sabemos que si t + Ker(T) = A y B = r + Ker(T)
son iguales se tiene que t – r = u de Ker(T), pues si no ocurre así, A Y B no podrían ser iguales.
De modo que t = r + u con u de Ker(T), y se tiene que T(t) = T(r + u) = T(r) + T(u) = T(r) + 0 =
T(r) por lo que si �̅�(A) = T(r) tenemos que �̅�(A) = �̅�(r + Ker(T)) = �̅�(r + u + Ker(T)) = �̅�(t + Ker(T))
= T(t), por lo que �̅� está bien definida siempre que A y B sean iguales, es decir, �̅� no depende
de la elección de t o r siempre que t= r + u, para algún u de Ker(T). Además, todos los vectores
con la misma imagen, pertenecen al mismo elemento de V/Ker(T), pues si T(t) = T(r),
entonces, T(t – r) = T(t) – T(r) = 0 implica que t = r + (t – r), es decir, t = r + u con u de Ker(T),
219
de modo que A = t + Ker(T) = B = r + Ker(T). Ahora veamos que �̅� es lineal. Sea �̅�(A + B) = �̅�(t
+ Ker(T) + s + Ker(T)) = �̅�(t + s + Ker(T)) = T(t + s) = T(t) + T(s) = �̅�(A) + �̅� (B). Y �̅�(c⦁A) = �̅�(c⦁(t
+ Ker(T))) = �̅�(c⦁t + Ker(T)) = T(c⦁t) = c•T(t) = c⦁�̅�(A), para cualquier c de F. Ahora veamos que
�̅� es inyectiva. Si �̅�(A) = 0 implica que A = 0 + Ker(T) = Ker(T), de modo que A = 0 y no hay otra
posibilidad. Veamos por úlitmo que �̅� es suprayectiva. Para todo t de V existe un A = t +
Ker(T) tal que �̅�(A) = �̅�(t + Ker(T)) = T(t). □
Ahora estamos preparados para ver el corolario principal de esta subsubsección.
COROLARIO 2 (Teorema del cálculo básico de las dimensiones): Sea T: V → V’ una aplicación
lineal entre dos espacios vectoriales V y V’. Entonces, dim(Ker(T)) + dim(Im(T)) = dim V.
DEMOSTRACIÓN: Ya vimos anteriormente que para dos subespacios complementarios, U y
W, dim(U) + dim(W) = V = dim(U) + codim(U), por lo que dim(Ker(T)) + codim(Ker(T)) = dim(V),
pero codim(Ker(T)) = dim(Im(T)) por el teorema de esta subsubsección, por lo que se deduce
lo siguiente: dim(Ker(T)) + codim(Ker(T)) = dim(Ker(T)) + dim(Im(T)) = dim(V). □
El siguiente corolario no es más que la traducción del anterior al lenguaje de matrices. No es
un nuevo resultado, porque ya lo demostramos en la subsubsección 10.4, pero es una nueva
demostración con las herramientas que hemos visto en esta subsubsección.
COROLARIO 3: Sea A una matriz de dimensión m×n. Entonces,
rag(A) + nul(A) = n.
DEMOSTRACIÓN: Claro por el corolario anterior. □
Ahora para terminar, deducimos dos corolarios que nos resumen este tema del cáculo de las
dimensiones y son muy útiles para el futuro como veremos.
COROLARIO 4: Sea T: V → V’ una aplicación lineal, con dim(V) = n y dim(V’) = m. Entonces,
dim(Ker(T)) ≥ n – m y codim(Im(T)) ≥ m – n.
DEMOSTRACIÓN: dim(Ker(T)) = n - dim(Im(T)) ≥ n – m. codim(Im(T)) = m – dim(Im(T)) ≥ m –
n, ya que dim(Im(T)) ≤ n. □
En el siguiente corolario resumimos los resultados del cálculo de dimensiones.
COROLARIO 5: Sea T: V → V’ una aplicación lineal, con dim(V) = n y dim(V’) = m. Se cumple lo
siguiente.
1) Si n > m, entonces, T no es inyectiva.
2) Si n < m, entonces, T no es suprayectiva.
3) Si n = m, entonces lo siguiente es equivalente:
a) T es inyectiva y suprayectiva, es decir, un isomorfismo.
b) T es inyectiva.
c) T es suprayectiva.
DEMOSTRACIÓN: 1) Si n > m, entonces, dim(Ker(T)) > 0. 2) Si n < m, entonces, codim(Im(T))
> 0. 3) Sea k = dim(Ker(T)), i = dim(Im(T)), entonces n = k + i y por tanto, lo siguiente es
equivalente: a) k = 0 y i = n, b) k = 0, c) i = n. □
220
En teoría y práctica, la parte 3) de este corolario es muy importante. Supongamos que
tenemos una aplicación lineal T: V → V’ entre dos espacios vectoriales de la misma dimensión
y queremos saber si es un isomorfismo. Entonces, se supone que debemos demostrar b) y c),
pero este teorema nos dice que solo debemos demostrar una de las dos proposiciones. Pero
es mejor que solo realizar la mitad del trabajo, pues a veces es más fácil demostrar una de
las dos proposiciones, mientras que la otra es difícil, por lo que si demostramos la proposición
fácil tenemos el problema resuelto.
12.10 Núcleo e imagen de una aplicación lineal y matrices
En esta subsubsección veremos como la matriz asociada a una aplicación lineal nos permite
también calcular el núcleo e imagen de esta. Supongamos que T: V → V’ es una aplicación
lineal con dim(V) = n y dim(V’) = m y sea A la matriz asociada a T con respecto a las bases B
de V y C de V’, entonces, sea r = rag(A). Sabemos que las columnas de A son las coordenadas
respecto a C de un sistema de generadores de Im(T) y por tanto, dim(Im(T)) = r. Por otra
parte, un vector x de V de coordenadas x = (𝑥1, … , 𝑥𝑛)𝐵, está en el núcleo de T si y sólo si,
T(x) = 0, o, por tanto, si y sólo si, A⦁X = 0 y, por tanto, esto define unas ecuaciones cartesianas
de Ker(T), a partir del sistema homogéneo cuya matriz de coeficientes es A:
{
𝑎11⦁𝑥1 +⋯+ 𝑎1𝑛⦁𝑥𝑛 = 0𝑎21⦁𝑥1 +⋯+ 𝑎2𝑛⦁𝑥𝑛 = 0…𝑎𝑚1⦁𝑥1 +⋯+ 𝑎𝑚𝑛⦁𝑥𝑛 = 0
,
de estas m ecuaciones, el número de ecuaciones independientes es r = rag(A) y en
consecuencia, dim(Ker(T)) = n – r, por lo que obtenemos otra vez la ecuación para el cálculo
de las dimensiones: dim(Ker(T)) + dim(Im(T)) = dim(V).
De modo que, hasta ahora, tenemos que podemos obtener un sistema de generadores de
Im(T) gracias a la matriz A asociada a la aplicación lineal T, siempre que fijemos un par de
bases B y C de V y V’ respectivamente, también, hemos visto que podemos obtener unas
ecuaciones cartesianas de Ker(T). Ahora veremos cómo podemos obtener una base tanto
para Im(T) como para Ker(T). Puesto que las columnas de A son un sistema de generadores
de Im(T), si calculamos la forma de hermite por columnas de A, las columnas no nulas de ésta
serán una base de Im(T). Además, si al calcular la forma de hermite (por columnas) realizamos
las operaciones elementales (por columnas) sobre la matriz (𝐴𝐼), obtendremos (
𝐻𝑃), donde
P es una matriz regular de orden n con la propiedad de que H = A⦁P. Por tanto, las columnas
no nulas de H forman una base de Im(T), pero las columnas de P que está bajo las columnas
de ceros de H (si hay alguna) forman una base de Ker(T). Esto es así por lo siguiente: Sea 𝐻𝑖
la columna i-ésima de H y 𝑃𝑖 la columna i-ésima de P, entonces ya que H = A⦁P, se tiene que,
para cada i, A⦁𝑃𝑖 = 𝐻𝑖, luego las columnas de P que están bajo las columnas de ceros de H
verifican que A⦁𝑃𝑗 = 0 y por tanto, estas columnas, son las coordenadas de vectores de Ker(T),
además son n – r vectores que son independientes por ser parte de una matriz regular y
además sabemos que dim(Ker(T)) = n – r, por tanto, forman una base de Ker(T).
Veamos un ejemplo para mostrar este algoritmo.
221
EJEMPLO: Consideremos la aplicación lineal T: ℝ3 → ℝ3, dada por f(x, y, z) = (x + z, y, x + 2⦁y
+ z). Entonces, la matriz asociada con respecto a la base canónica es:
(1 0 101
12
01), de modo que
(
1 0 101100
12010
01001)
reducida da
(
1 0 001100
12010
00−101 )
, por lo que
una base de Im(T) es {(1, 0, 1), (0, 1, 2)} y la de Ker(T) es {(-1, 0, 1)}.
Ahora terminamos con un resultado interesante para saber si una aplicación lineal es
inyectiva, suprayectiva o isomorfismo gracias a la matriz asociada.
COROLARIO: Sea T: V → V’ una aplicación lineal con dim(V) = n y dim(V’) = m y sea A la matriz
m×n asociada a T respecto de las bases B y C. Entones, se cumple:
1) T es inyectiva si y sólo si, rag(A) = n.
2) T es suprayectiva si y sólo si, rag(A) = m.
3) T es un isomorfismo si y sólo si, A es cuadrada y regular.
DEMOSTRACIÓN: 1) T es inyectiva si y sólo si, Ker(T) = 0, lo que implica según sabemos que
dim(Im(T)) = dim(V), es decir, rag(A) = n. 2) T es suprayectiva si y sólo si, Im(T) = V’, es decir,
si y sólo si, dim(Im(T)) = dim(V’), es decir rag(A) = m. 3) T es un isomorfismo, si y sólo si, T es
inyectiva y suprayectiva, de modo que n = rag(A) = m, por tanto, n = m y rag(A) = n, por lo
que A es regular. □
12.11 Matriz asociada a una aplicación lineal y cambio de bases
Veamos ahora como están relacionadas las matrices de una misma aplicación lineal con
respecto a distintas bases. Esto será el contenido del siguiente teorema.
TEOREMA (Matrices asociadas a la misma aplicación lineal con respecto a distintas bases):
Sea T: V → V’ una aplicación lineal con dim(V) = n y dim(V’) = m entre dos espacios vectoriales
V y V’ sobre el mismo cuerpo F.
1) Sean B y �̅� bases de V y C, 𝐶̅ bases de V’, entonces se tiene que �̅� = B•P y 𝐶̅ = C•Q, con P
matriz regular de dimensión n×n y Q regular de dimensión m×m, entonces, la relación
entre [𝑇]𝐶̅←�̅� y [𝑇]𝐶←𝐵 es:
[𝑇]𝐶̅←�̅� = 𝑄−1•[𝑇]𝐶←𝐵•P.
2) Dos matrices son equivalentes si y sólo si, son matrices asociadas a la misma aplicación
lineal con respecto a distintas bases.
3) Si V’ = V, por lo que T es un endomorfismo con m = n y con B = C y �̅� = 𝐶̅ lo que implica
que P = Q, entonces, la relación entre [𝑇]�̅� y [𝑇]𝐵 es:
[𝑇]�̅� = 𝑃−1•[𝑇]𝐵•P.
4) Sean dos matrices A y B se dice que A y B son semejantes si existe una matriz regular P
tal que B = 𝑃−1•A•P. Entonces, se cumple que dos matrices son semejantes si y sólo si,
son matrices asociadas al mismo endomorfismo, respecto de distintas bases.
222
DEMOSTRACIÓN: 1) Se tiene lo siguiente: C•[𝑇]𝐶←𝐵•P = T(B) •P = T(B•P) = T(�̅�) = 𝐶̅ •[𝑇]𝐶̅←�̅� =
C•Q•[𝑇]𝐶̅←�̅� , lo que implica que [𝑇]𝐶←𝐵•P = Q•[𝑇]𝐶̅←�̅� , por lo que se obtiene que [𝑇]𝐶̅←�̅� =
𝑄−1•[𝑇]𝐶←𝐵•P.
2) Si A y D son matrices asociadas a la misma aplicación lineal pero con respecto a distintas
bases entonces rag(A) = dim(Im(T)) = rag(D), por lo que ambas matrices son equivalentes.
Para el recíproco, supongamos que las matrices A y D son equivalentes, por tanto, hay
matrices regulares 𝑄−1 y P con D = 𝑄−1•A•P. Consideremos la aplicación lineal T: 𝐹𝑛 → 𝐹𝑚
cuya matriz con respecto a las bases canónicas 𝐸𝑛 de 𝐹𝑛 y 𝐸𝑚 de 𝐹𝑚 es A, tomemos las bases
�̅� de 𝐹𝑛 y 𝐶̅ de 𝐹𝑚, determinadas por ser P la matriz regular de cambio de base de 𝐸𝑛 a �̅� y
por tanto, �̅� = 𝐸𝑛•P y Q tal que 𝐶̅ = 𝐸𝑚•Q, entonces, según hemos visto, la matriz asociada
a T respecto de �̅� y 𝐶̅ es D.
3) Es consecuencia inmediata de 1). 4) es consecuencia inmediata de 1) y 2). □
12.12 Matriz asociada a una aplicación lineal y operaciones definidas en las
aplicaciones y en las matrices
Hemos visto anteriormente, que para una matriz A y su aplicación lineal asociada 𝑇𝐴
debíamos definir las operaciones para las matrices de cierta forma para que tuvieran las
propiedades adecuadas y coincidieran con nuestras operaciones definidas anteriormente
para las matrices. Ahora veremos que para aplicaciones lineales generales la definición de las
operaciones en las matrices es la adecuada y además esto nos permite definir un isomorfismo
entre las aplicaciones lineales y las matrices correspondientes. Veámoslo en los siguientes
teoremas.
TEOREMA 1 (Operaciones en las aplicaciones lineales y sus correspondientes en las matrices):
Sean V, V’, V’’ espacios vectoriales sobre el mismo cuerpo F de dimensiones finitas, sean T,
S: V → V’ y U: V’ → V’’ aplicaciones lineales y B, C y D bases de V, V’ y V’’ respectivamente,
entonces se tiene:
1) [𝑇 + 𝑆]𝐶←𝐵 = [𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵.
2) [r • 𝑇]𝐶←𝐵 = r•[𝑇]𝐶←𝐵 para todo escalar r de F.
3) [U ∘ 𝑇]𝐷←𝐵 = [𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵.
DEMOSTRACIÓN: 1) C•[𝑇 + 𝑆]𝐶←𝐵 = (T + S)(B) = T(B) + S(B) = C•[𝑇]𝐶←𝐵 + C•[𝑆]𝐶←𝐵 =
C•([𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵), lo que implica que [𝑇 + 𝑆]𝐶←𝐵 = [𝑇]𝐶←𝐵 + [𝑆]𝐶←𝐵.
2) C•[r • 𝑇]𝐶←𝐵 = r•T(B) = r•(C•[𝑇]𝐶←𝐵) = C•(r•[𝑇]𝐶←𝐵) lo que implica que [r • 𝑇]𝐶←𝐵 =
r•[𝑇]𝐶←𝐵.
3) D•[U ∘ 𝑇]𝐷←𝐵 = (U ∘ 𝑇)(B) = U(T(B)) = U(C•[𝑇]𝐶←𝐵) = U(C)• [𝑇]𝐶←𝐵 = D•[𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵
lo que implica que [U ∘ 𝑇]𝐷←𝐵 = [𝑈]𝐷←𝐶•[𝑇]𝐶←𝐵. □
TEOREMA 2: Sean V, V’ espacios vectoriales sobre el mismo cuerpo F de dimensiones n y m
respectivamente y B y C bases de V y V’ respectivamente. Entonces la siguiente aplicación:
𝜙: Hom(V, V’) → ℳ𝑚×𝑛(F), T → [𝑇]𝐶←𝐵, es un isomorfismo,
y por tanto, dim(Hom(V, V’)) = m•n.
223
Cuando V = V’ y B = C, entonces:
𝜙: EndF(V) →ℳ𝑛(F), T → [𝑇]𝐵 es un isomorfismo de Álgebras
DEMOSTRACIÓN: La aplicación 𝜙 es lineal, según se ve en el teorema anterior, además es
inyectiva y suprayectiva, porque a cada aplicación lineal le corresponde una matriz y cada
matriz corresponde a una aplicación lineal como vimos. Por tanto 𝜙 es un isomorfismo y
dim(Hom(V, V’)) = dim(ℳ𝑚×𝑛(F)) = m•n.
En el caso de que V = V’ y escogemos una única base B = C, se tiene que la composición de
aplicaciones lineales T y S con matrices [𝑇]𝐵 y [𝑆]𝐵 respectivamente tiene por matriz el
producto de esas, es decir: 𝜙(S∘T) = [𝑆]𝐵•[𝑇]𝐵 = 𝜙(S)•𝜙(T) y 𝜙 es un isomorfismo de
álgebras. □
13 Espacio Vectorial Dual
13.1 Definición y la base dual asociada a una base de V
DEFINICIÓN 1 (Espacio dual): El espacio dual, 𝑉∗, de un espacio vectorial V sobre el cuerpo
F es el espacio vectorial 𝑉∗ = Hom(V, F), es decir, el espacio vectorial de las aplicaciones
lineales T: V → F. A estas aplicaciones T se las denomina formas lineales o funcionales
lineales.
Notemos que F es en sí mismo un espacio vectorial, de modo que la definición anterior
tiene sentido y también porque para dos espacios vectoriales V y V’, Hom(V, V’) es un
espacio vectorial sobre F.
DEFINICIÓN 2: Sea B = {𝑣1, 𝑣2, …} una base de un espacio vectorial V, entonces sea 𝐵∗ = {𝑢1∗,
𝑢2∗ , …} es subconjunto de 𝑉∗ tal que 𝑢𝑖
∗(𝑣𝑖) = 1 y 𝑢𝑖∗(𝑣𝑗) = 0, para todo j distinto de i.
De nuevo esta definición tiene sentido. Puesto que B es una base de V, existe una única
aplicación lineal T: V → F que toma los valores que hemos dicho para los elementos de B,
por lo que para cada i, hay una única T: V → F con T(𝑣𝑖) = 1 y T(𝑣𝑗) = 0, para todo j distinto
de i, a esta aplicación lineal la llamamos 𝑢𝑖∗.
LEMA: 1) Para cualquier base B de V, 𝐵∗ es un subconjunto de 𝑉∗ linealmente
independiente.
2) Si V es de dimensión finita, entonces, 𝐵∗ es una base de 𝑉∗.
DEMOSTRACIÓN: 1) Supongamos que 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ = 0, donde este último 0 es la
aplicación lineal 0, entonces, (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ )(v) = 0 para todo v de V, haciendo v = 𝑣𝑖,
para i = 1, …, k se tiene, 0 = (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ )(𝑣𝑖) = 𝑐1•𝑢1∗(𝑣𝑖) + … + 𝑐𝑖•𝑢𝑖
∗(𝑣𝑖) + … +
𝑐𝑘•𝑢𝑘∗ (𝑣𝑖) = 𝑐1•0 + … + 𝑐𝑖•1 + … + 𝑐𝑘•0 = 𝑐𝑖, por lo que 𝐵∗ es linealmente independiente. 2)
Supongamos que V es de dimensión finita n. Sea 𝑢∗ cualquier vector de 𝑉∗. Sea 𝑐𝑖 = 𝑢∗(𝑣𝑖)
para i = 1, …, n, entonces, (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑛
∗ )(𝑣𝑖) = 𝑐𝑖 = 𝑢∗(𝑣𝑖), por lo que 𝑢∗ y 𝑐1•𝑢1∗ + …
+ 𝑐𝑘•𝑢𝑛∗ coinciden en los valores de una base y por tanto se tratan de la misma aplicación
224
lineal, lo que significa que 𝐵∗ es un sistema de generadores de 𝑉∗ y, por tanto, una base de
𝑉∗. □
COROLARIO 1: Si V es de dimensión finita entonces, dim V = dim 𝑉∗ y, por tanto, V y 𝑉∗ son
isomorfos.
DEMOSTRACIÓN: B = {𝑣1, …, 𝑣𝑛} y 𝐵∗ = {𝑢1∗, …, 𝑢𝑛
∗ } tienen el mismo número de elementos.
□
DEFINICIÓN 3 (Base dual de V): Si V es de dimensión finita y B es una base de V, entonces,
la base 𝐵∗ de 𝑉∗ de la definición 2 se la llama la base dual de V.
DEFINICIÓN 4 (Base dual estándar): Ahora definimos un caso especial de la definición 3
anterior. Cuando V = 𝐹𝑛 y escogemos como base de V, la base estándar E = {𝑒1, …, 𝑒𝑛},
entonces, su base dual 𝐸∗ = {𝑒1∗, …, 𝑒𝑛
∗} de (𝐹𝑛)∗, definida según la definición anterior como
𝑒𝑖∗(𝑒𝑗) = 1, si j = i y 𝑒𝑖
∗(𝑒𝑗) = 0, si i es diferente de j, se denomina la base estándar de (𝐹𝑛)∗,
que es, por supuesto, la base dual de la base estándar de V = 𝐹𝑛.
Hagamos ahora una observación muy importante. Según la definición 2, si V es de
dimensión infinita, entonces para la base B, de V, el conjunto 𝐵∗ no es una base de 𝑉∗,
porque si B = {𝑣1, 𝑣2, …} es infinita tenemos la siguiente aplicación lineal, 𝑢∗: V → F, definida
por 𝑢∗(𝑣𝑖) = 1, para todo i. La cual no es una combinación lineal de 𝑢1∗, …, 𝑢𝑘
∗ , para cualquier
k que determinemos, porque la combinación lineal que valdría sería infinita, sería 𝑢1∗ + 𝑢2
∗
+ …, la cual, no es una combinación lineal, puesto que todas las combinaciones lineales son
una suma finita de términos.
COROLARIO 2: Para cualquier espacio vectorial V, éste es isomorfo a un subespacio de 𝑉∗.
DEMOSTRACIÓN: Sea B una base de V y sea 𝐵∗, como en la definición 2 de esta
subsubsección. Sea 𝑈∗ el subespacio de 𝑉∗ que es la envolvente lineal de 𝐵∗, por el lema 1
de esta subsubsección, 𝐵∗ es linealmente independiente, por tanto, es una base de 𝑈∗,
pero entonces, tenemos el isomorfismo T: V → 𝑈∗, definido por T(𝑣𝑖) = 𝑢𝑖∗, para cada i,
según la notación de la definición 2 de esta misma subsubsección. □
Hagamos otra observación importante, aunque V sea de dimensión finita, no existe un
isomorfismo natural entre V y 𝑉∗, por ejemplo, siempre elegida una base B según la
definición 2 de esta subsubsección existe el isomorfismo T: V → 𝑉∗, dado por T(∑𝑐𝑖 • 𝑣𝑖) =
∑𝑐𝑖 • 𝑢𝑖∗, pero depende de la elección de una base. Por eso no hemos utilizado la notación
𝑣∗ para los vectores del espacio dual puesto que se podría sobreentender que para un
vector v de V se podría corresponder otro, 𝑣∗ de V que sería su dual, pero esta
correspondencia no existe.
Sigamos notando que dado una base B = {𝑣1, …, 𝑣𝑛} de un espacio vectorial V de dimensión
finita n, sabemos que existe su base dual 𝐵∗ = {𝑢1∗, …, 𝑢𝑛
∗ }, pero cada 𝑢𝑖∗ no solo depende
de elegir una base y no solo depende de 𝑣𝑖, sino que cada vector de la base B.
Terminemos con un ejemplo de esto que hemos hablado para aclarar del todo las cosas.
EJEMPLO: Sea V = 𝐹2 y sea E su base estándar, E = {𝑒1, 𝑒2} = {(10), (
01)}, entonces, la base
dual de E es la base dual estándar, 𝐸∗ = {𝑒1∗, 𝑒2
∗}, con 𝑒1∗(𝑒1) = 1 y 𝑒1
∗(𝑒2) = 0 y 𝑒2∗(𝑒1) = 0 y
225
𝑒2∗(𝑒2) = 1, de modo que 𝑒1
∗((𝑥𝑦)) = x y 𝑒2
∗((𝑥𝑦)) = y. Pero V también tiene la base B = {(
10),
(1−1)} = {𝑣1, 𝑣1}, entonces, 𝐵∗ = {𝑢1
∗, 𝑢2∗} y se puede verificar que 𝑢1
∗ = 𝑒1∗ + 𝑒2
∗ y 𝑢2∗ = -𝑒2
∗,
esto es, 𝑢1∗((𝑥𝑦)) = x + y y 𝑢2
∗((𝑥𝑦)) = -y. Entonces, lo que queríamos ver es que, a pesar de
que 𝑣1 = 𝑒1, 𝑢1∗ ≠ 𝑒1
∗.
13.2 Bases duales para un espacio vectorial V de dimensión finita
En esta subsubsección vamos a ver algunas propiedades de las bases duales cuando el
espacio vectorial de base, V, es de dimensión finita.
PROPOSICIÓN 1 (Primera propiedad de las bases duales): Si 𝐵∗ es la base dual de B,
entonces, para cada forma lineal 𝑢∗ los elementos de su matriz asociada en la base B como
aplicación lineal que es, coinciden con sus coordenadas en la base 𝐵∗.
DEMOSTRACIÓN: Llamemos A = (𝑎1 𝑎2 … 𝑎𝑛) a la matriz asociada a 𝑢∗ en la base B = {𝑣1, …,
𝑣𝑛}. Entonces, 𝑎𝑖 = 𝑢∗(𝑣𝑖), para cada i = 1, 2, …, n, por otra parte, 𝑢∗ = (𝑏1 𝑏2… 𝑏𝑛)𝐵∗,
entonces, 𝑢∗ = 𝑏1 • 𝑢1∗ + 𝑏2 • 𝑢2
∗ + … + 𝑏𝑛 • 𝑢𝑛∗ y si calculamos 𝑎𝑖 = 𝑢∗(𝑣𝑖) = (𝑏1 • 𝑢1
∗ + 𝑏2 • 𝑢2∗
+ … + 𝑏𝑖 • 𝑢𝑖∗ + … + 𝑏𝑛 • 𝑢𝑛
∗ )( 𝑣𝑖) = 𝑏1 • 𝑢1∗(𝑣𝑖) + 𝑏2 • 𝑢2
∗(𝑣𝑖) + … + 𝑏𝑖 • 𝑢𝑖∗(𝑣𝑖) + … + 𝑏𝑛 • 𝑢𝑛
∗ (𝑣𝑖)
= 𝑏1•0 + … + 𝑏𝑖•1 + … + 𝑏𝑛•0 = 𝑏𝑖. □
DEFINICIÓN 1 (Coordenadas de los vectores duales con respecto a una base B de V): Los
números 𝑏𝑖 de las coordenadas de un vector del espacio dual 𝑢∗ de 𝑉∗ determinados por
𝑏𝑖 = 𝑢∗(𝑣𝑖) con B = {𝑣1, …, 𝑣𝑛} una base de V, se llaman las coordenadas de 𝑢∗ con respecto
a la base B.
PROPOSICIÓN 3 (Valor de un funcional que toma en un vector de V): El valor de 𝑢∗(v) de un
funcional arbitrario 𝑢∗ de 𝑉∗, con coordenadas (𝑎1 𝑎2 … 𝑎𝑛) en el vector v de V, con v =
𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, se expresa con la siguiente fórmula: 𝑢∗(v) = 𝑎1•𝑐1 + … + 𝑎𝑛•𝑐𝑛 (*). Y
recíprocamente, la fórmula (*) nos da un único funcional de coordenadas 𝑢∗ =
(𝑎1 𝑎2 … 𝑎𝑛)𝐵
DEMOSTRACIÓN: 𝑢∗(v) = 𝑢∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑛•𝑢∗(𝑣𝑛) = 𝑎1•𝑐1 + … +
𝑎𝑛•𝑐𝑛. Y recíprocamente, si 𝑢∗ está dado por la fórmula (*) se cumple que 𝑢∗(x + y) = 𝑎1•(𝑥1
+ 𝑦1) + … + 𝑎𝑛•(𝑥𝑛 + 𝑦𝑛) = 𝑎1•𝑥1 + … + 𝑎𝑛•𝑥𝑛 + 𝑎1•𝑦1 + … + 𝑎𝑛•𝑦𝑛 = 𝑢∗(x) + 𝑢∗(y). 𝑢∗(c•x)
= 𝑎1•c•𝑥1 + … + 𝑎𝑛•c•𝑥𝑛 = c•(𝑎1•𝑥1 + … + 𝑎𝑛•𝑥𝑛) = c•𝑢∗(x), por tanto se trata de un
funcional lineal y también se cumple que 𝑢∗(𝑣𝑖) = 𝑎1•0 + … + 𝑎𝑖•1 + … + 𝑎𝑛•0 = 𝑎𝑖. □
Veamos el siguiente ejemplo.
EJEMPLO: Consideremos en ℝ3 la base B = {(1, -1, 1), (-1, 2, -1), (-1, 1, 0)} y calculemos la
base dual de B. Puesto que tenemos que conseguir 3 formas lineales bastará conseguir las
matrices asociadas en la base canónica para la primera, digamos 𝑢1∗, llamaremos (𝑎11 𝑎12
𝑎13) y se tienen que verificar las condiciones: 𝑢1∗(1, -1, 1) = 1, es decir, (𝑎11 𝑎12 𝑎13)•(
1−11)
= 1 y análogamente, (𝑎11 𝑎12 𝑎13)•(−12−1) = 0, (𝑎11 𝑎12 𝑎13)•(
−110) = 0 que se puede resumir
226
en el sistema de ecuaciones: (𝑎11 𝑎12 𝑎13)•(1 −1 −1−11
2−1
10) = (
100), antes de resolverlo
observemos que para los otros vectores de la base dual obtendremos otros 2 sistemas de
ecuaciones, con la misma matriz, es decir podemos resolver los 3 sistemas
simultáneamente de la siguiente manera: (𝑎11 𝑎12 𝑎13𝑎21𝑎31
𝑎22𝑎32
𝑎23𝑎33
)•(1 −1 −1−11
2−1
10) =
(1 0 000
10
01) y por tanto, vemos que el problema se trata de obtener la matriz inversa de la
que tiene por columnas las coordenadas de la base B de V: (1 −1 −1 1 0 0−11
2−1
10
00
10
01)
que nos da: (1 0 0 1 1 100
10
01
1−1
10
01). La solución está en que las formas lineales de la base
son las filas de la matriz obtenida, es decir, 𝑢1∗ tiene coordenadas (1, 1, 1), por lo que 𝑢1
∗(x,
y, z) = x + y + z, 𝑢2∗ tiene coordenadas (1, 1, 0), por lo que 𝑢2
∗(x, y, z) = x + y y 𝑢3∗ tiene
coordenadas (-1, 0, 1), por lo que 𝑢3∗(x, y, z) = -x + z.
DEFINICIÓN 2 (Funcionales coordenadas): Consideremos las n funciones ℎ𝑖: V → F dadas por
lo siguiente, fijada una base de B = {𝑣1, …, 𝑣𝑛}, entonces, cada vector v de V se expresa
como v = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, entonces, ℎ𝑖(v) = 𝑐𝑖. Estas funciones son lineales y se llaman
funcionales coordenadas asociadas a la base B.
En la siguiente proposición vemos que estas funcionales coordenadas no son ni más ni
menos que la base dual de B.
PROPOSICIÓN 3 (Segunda propiedad de las bases duales): Si 𝐵∗ = {𝑢1∗, …, 𝑢𝑛
∗ } es la base dual
de B entonces, dado un vector x de V si x = (𝑐1 𝑐2 … 𝑐𝑛)𝐵, se verifica que 𝑐𝑖 = 𝑢𝑖∗(x).
DEMOSTRACIÓN: Si x = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛, con B = {𝑣1, …, 𝑣𝑛}, base de V, entonces, 𝑢𝑖∗(x) =
𝑢𝑖∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢𝑖
∗(𝑣1) + … + 𝑐𝑖•𝑢𝑖∗(𝑣𝑖) + … + 𝑐𝑛•𝑢𝑖
∗(𝑣𝑛) = 𝑐1•0 + … + 𝑐𝑖•1 + … +
𝑐𝑛•0 = 𝑐𝑖. Y ya que ℎ𝑖 y 𝑢𝑖∗ coinciden en una base se tratan del mismo funcional. □
13.3 La relación de dualidad entre V y 𝑉∗
Hay una relación de dualidad entre los vectores de V y los de 𝑉∗, para entender esto veamos
que si escribimos 𝑢∗(v) para dos vectores 𝑢∗ de 𝑉∗ y v de V con la notación siguiente, lo
veremos más claro, 𝑢∗(v) = <𝑢∗|v>. Entonces con esta notación se tiene lo siguiente:
<𝑢∗|𝑣1 + 𝑣2> = <𝑢∗|𝑣1> + <𝑢∗|𝑣2>, <𝑢∗|c•v> = c•<𝑢∗|v>, para todo c de F.
<𝑤1∗ + 𝑤2
∗|v> = <𝑤1∗|v> + <𝑤2
∗|v>, <c•𝑢∗|v> = c•<𝑢∗|v>, para todo c de F.
Por lo que al ver estas simetrías vemos que hay una relación entre los vectores de V y 𝑉∗
que es bilineal, lo cual significa que es lineal para cada argumento de la relación fijado el
otro. Según esta relación, a los vectores de 𝑉∗ se los llama covectores o vectores
covariantes y veremos que significa este nombre para ellos en la siguiente subsubsección.
Ahora definiremos lo que significa todo esto de una manera formal.
227
DEFINICIÓN (Relación de dualidad): Sean dos espacios vectoriales V y W sobre el mismo
cuerpo F y supongamos que se define un número de F para cualquier par de elementos v y
w de V y W respectivamente, con las siguientes propiedades:
1) Para cualquier w de W fijo se cumple que hay una función 𝑓1: v → <v|w> que es lineal,
o sea: <𝑣1 + 𝑣2|w> = <𝑣1|w> + <𝑣2|w> y <c•v|w> = c•<v|w>, para todo c de F.
2) Para cualquier v fijo de V se cumple que hay una función 𝑓2: w → <v|w> que también
es lineal: <v|𝑤1 + 𝑤2> = <v|𝑤1> + <v|𝑤2> y <v|c•w> = c•<v|w>, para todo c de F.
3) Para cualquier vector v distinto de 0, existe un vector w tal que <v|w> es distinto de 0
y para cualquier vector w distinto de 0, existe un vector v tal que <v|w> es distinto de
0.
Las condiciones 1) y 2) se llaman condiciones de bilinealidad mientras que la 3) se llaman
condiciones de no singularidad.
Cualquier función <*|*>: v, w → <v|w> con v de V y w de W y <v|w> de F con las
propiedades 1), 2) y 3) se llama pareado e incluso un producto escalar y a los espacios V y
W se los llama duales uno del otro.
PROPOSICIÓN: Todo espacio vectorial V es dual de su espacio de funcionales lineales 𝑉∗.
DEMOSTRACIÓN: Definiendo <𝑢∗|v> = 𝑢∗(v) las propiedades 1) y 2) son evidentes lo único
que nos falta es la 3). Si 𝑢∗ es distinto de 0, por definición esto significa que hay un vector
v de V con 𝑢∗(v) = <𝑢∗|v> distinto de cero. Además, si v es distinto de 0, entonces, en una
expresión con respecto a una base v = 𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛 hay algún 𝑐𝑖 = ℎ𝑖 distinto de 0 de
modo que ℎ𝑖(v) = <ℎ𝑖|v> es distinto de 0. □
Para terminar esta subsubsección, veamos de nuevo la relación de simetría que hay entre
vectores de V y 𝑉∗. 𝑢∗(v) = <𝑢∗|v> = 𝑢∗(𝑐1•𝑣1 + … + 𝑐𝑛•𝑣𝑛) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑛•𝑢∗(𝑣𝑛) =
ℎ1(v)•𝑢∗(𝑣1) + … + ℎ𝑛(v)• 𝑢∗(𝑣𝑛) = <ℎ1|v>•<𝑢∗|𝑣1> + … + <ℎ𝑛|v>•<𝑢∗|𝑣𝑛> =
<𝑢1∗|v>•<𝑢∗|𝑣1> + … + <𝑢𝑛
∗ |v>•<𝑢∗|𝑣𝑛> (*). Donde señalamos que las coordenadas de un
vector o covector, fijada una base B = {𝑣1, …, 𝑣𝑛}, se obtiene haciendo el producto escalar
del vector o covector con cada uno de los vectores de su base dual y que el producto escalar
de un vector con un covector según vemos en la formula (*), se obtiene realizando la suma
del producto de sus respectivas coordenadas fijada una base B de V.
13.4 Cambio de coordenadas de un covector en un cambio de la base de V
En esta subsubsección vamos a ver que la matriz del cambio de bases de los vectores de
𝑉∗, fijadas dos bases de 𝑉∗, se relaciona con la matriz de cambio de bases del espacio
vectorial V, en concreto, la relación entre una y otra es que son la inversa traspuesta de la
otra. Sin más demostraremos este hecho.
PROPOSICIÓN (Base dual y cambio de base): Sea V un espacio vectorial sobre el cuerpo F,
de dimensión finita, n. Sean B = {𝑣1, …, 𝑣𝑛}, y B’ = {𝑣′1, …, 𝑣′𝑛}, bases de V y sea B’ = B•P,
con P matriz regular cuadrada de dimensión n, tal que P = (𝑎𝑖𝑗), entonces se tiene que 𝐵′∗
= 𝐵∗•(𝑃−1)𝑡.
228
DEMOSTRACIÓN: Sean 𝐵∗ = {𝑢1∗, …, 𝑢𝑛
∗ } y 𝐵′∗ = {𝑢′1∗ , …, 𝑢′𝑛
∗ } las bases de 𝑉∗, duales de B y
B’, respectivamente, y escribamos 𝐵′∗ = 𝐵∗•Q, con Q = (𝑐𝑖𝑗) regular cuadrada de dimensión
n, entonces, se tiene, para cada 1 ≤ i, j ≤ n, que 𝛿𝑖𝑗 = 𝑢′𝑖∗(𝑣′𝑗) = (𝑐1𝑖•𝑢1
∗ + … + 𝑐𝑛𝑖•𝑢𝑛∗ )( 𝑎1𝑗•𝑣1
+ … + 𝑎𝑛𝑗•𝑣𝑛) = 𝑐1𝑖•𝑎1𝑗 + … + 𝑐𝑛𝑖•𝑎𝑛𝑗 lo que es el producto de la fila i de 𝑄𝑡, por la columna
j de P, es decir esto es equivalente a que 𝐼𝑛 = 𝑄𝑡•P y buscando la traspuesta de esta
ecuación se tiene que 𝐼𝑛 = 𝑃𝑡•Q, de modo que Q = (𝑃𝑡)−1 = (𝑃−1)𝑡. □
Para terminar esta subsubsección veamos un ejemplo.
EJEMPLO: Sean las formas lineales 𝑢1∗ , 𝑢2
∗ , 𝑢3∗ : ℝ3 → ℝ, dadas por 𝑢1
∗(x, y, z) = x + y + z, 𝑢2∗(x,
y, z) = x + y, 𝑢3∗(x, y, z) = x. Vamos a ver que forman una base del espacio dual y esto lo
demostraremos viendo que son 3 vectores linealmente independientes, para ello veremos
sus coordenadas en una base y comprobaremos que las coordenadas forman una matriz de
rango 3. Por otra parte, conocemos las coordenadas de estos covectores pues, usando la
primera propiedad de las bases duales, la matriz asociada a cada uno de ellos en la base
canónica son las coordenadas de cada uno de ellos en la base dual de la base canónica. Por
tanto, las matrices asociadas a cada covector son: 𝑢1∗ → (1 1 1), 𝑢2
∗ → (1 1 0), 𝑢1∗ → (1 0 0) y
la matriz que formamos con cada una de las coordenadas en filas es: (1 1 111
10
00) cuyo
determinante es -1, por lo cual sabemos que los covectores dados son base y también que
la matriz anterior es regular y tiene inversa. Para encontrar la base dual de ésta, solo
tenemos que hallar la matriz inversa de ésta y las columnas de la matriz serán las
coordenadas de los vectores base, calculemos la inversa:
(1 1 1 1 0 011
10
00
00
10
01) → (
0 0 1 1 −1 001
10
00
00
10
−11) → (
1 0 0 0 0 100
10
01
01
1−1
−10).
Por tanto, la base que buscamos es {(0, 0, 1), (0, 1, -1), (1, -1, 0)}.
13.5 El espacio bidual 𝑉∗∗ de V
Puesto que 𝑉∗ es un espacio vectorial sobre el cuerpo F, podemos considerar tomar el dual
de éste, es decir, (𝑉∗)∗ que lo notaremos como 𝑉∗∗, de hecho, este espacio existe y está
bien definido, por supuesto.
DEFINICIÓN (El espacio 𝑉∗∗, bidual de V): Sea V un espacio vectorial sobre el cuerpo F y sea
𝑢∗ un funcional cualquiera de 𝑉∗, consideremos el espacio vectorial de los funcionales h de
(𝑉∗)∗ tales que sus argumentos son funcionales lineales, 𝑢∗, del espacio V y sus valores son
números del cuerpo F, es decir h: 𝑢∗ → h(𝑢∗) donde 𝑢∗ es de 𝑉∗ y h(𝑢∗) es de F. Al espacio
vectorial de todos estos funcionales h se le llama espacio bidual de V y se le nota como 𝑉∗∗.
COROLARIO: 1) V es isomorfo a un subespacio de 𝑉∗∗.
2) Si V es de dimensión finita, entonces, V es isomorfo a 𝑉∗∗.
DEMOSTRACIÓN: 1) V es isomorfo a un subespacio de 𝑉∗, como ya sabemos, pero aplicando
este hecho de nuevo a 𝑉∗, 𝑉∗ es isomorfo a un subespacio de (𝑉∗)∗, por lo que V es
229
isomorfo a un subespacio de 𝑉∗∗. 2) Si V es finito dimensional, V es isomorfo a 𝑉∗, por tanto,
𝑉∗ es isomorfo a 𝑉∗∗ y, por tanto, V es isomorfo a 𝑉∗∗. □
Nos podemos hacer la pregunta, en concreto para espacios vectoriales V de dimensión
finita, si hemos de considerar más subespacios duales, por ejemplo (𝑉∗∗)∗, etc, pero
veremos que no es necesario, bastan dos V y 𝑉∗, puesto que podemos identificar V con 𝑉∗∗.
Fijemos un vector v de V, para cualquier funcional 𝑢∗ de 𝑉∗ le asociamos el número 𝑢∗(v),
de esta forma definimos una función 𝜌𝑣, tal que 𝜌𝑣: 𝑉∗ → F, que es lineal, como vamos a
comprobar, y que, por tanto, pertenece a 𝑉∗∗. Veamos:
𝜌𝑣(𝑢1∗ + 𝑢2
∗) = (𝑢1∗ + 𝑢2
∗)(v) = 𝑢1∗(v) + 𝑢2
∗(v) = 𝜌𝑣(𝑢1∗) + 𝜌𝑣(𝑢2
∗)
𝜌𝑣(c•𝑢∗) = (c•𝑢∗)(v) = c•𝑢∗(v) = c•𝜌𝑣(𝑢∗).
Más aún, para cada vector v, tenemos un funcional 𝜌𝑣 de 𝑉∗∗, de modo que tenemos una
función h: V → 𝑉∗∗ con h(v) = 𝜌𝑣, para todo v de V y que se trata de una función lineal como
vamos a ver:
h(𝑣1 + 𝑣2)(𝑢∗) = 𝜌𝑣1+ 𝑣2(𝑢∗) = 𝑢∗(𝑣1 + 𝑣2) = 𝑢∗(𝑣1) + 𝑢∗(𝑣2) = 𝜌𝑣1(𝑢∗) + 𝜌𝑣2(𝑢∗) =
h(𝑣1)(𝑢∗) + h(𝑣2)(𝑢∗) = (h(𝑣1) + h(𝑣2))( 𝑢∗),
h(c•v)(𝑢∗) = 𝜌𝑐•𝑣(𝑢∗) = 𝑢∗(c•v) = c•𝑢∗(v) = c•𝜌𝑣(𝑢∗) = c•((h(v))(𝑢∗)) = ((c•h)(v))(𝑢∗).
Pero, además, esta función es biyectiva como demostramos ahora y, por tanto, es un
isomorfismo entre V y 𝑉∗∗.
PROPOSICIÓN 1 (Isomorfismo canónico entre V y 𝑉∗∗): Para un espacio vectorial cualquiera
la función h definida anteriormente es inyectiva. Si V es de dimensión finita, la función h
definida anteriormente es biyectiva y, por tanto, un isomorfismo. A este isomorfismo se le
llama isomorfismo canónico entre V y 𝑉∗∗ (para espacios V de dimensión finita).
DEMOSTRACIÓN: Primero demostramos que h es inyectiva. Sea v un vector del núcleo de
h, por lo que h(v) = 𝜌𝑣 = 0, lo que implica que 𝜌𝑣(𝑢∗) = 0 para toda 𝑢∗ de 𝑉∗, es decir, que
𝑢∗(v) = 0 para toda 𝑢∗ de 𝑉∗. Pero esto implica que v es cero, por lo que Ker(h) = {0}.
Ahora veamos que h es suprayectiva para el caso de que V es de dimensión finita. Para
espacios vectoriales de dimensión finita se tiene que dimV = dim(Im(T)) + dim(Ker(T)) para
una aplicación lineal T, de modo que para h, dim V = n = dim(Im(h)) = dim 𝑉∗∗, por lo que h
es suprayectiva. □
Notemos que el isomorfismo canónico tiene una propiedad que lo distingue de otros
isomorfismos de V en 𝑉∗∗. Esta es que se cumple que <h(v)|𝑢∗> = <𝑢∗|v>. Esto lo podemos
ver de la siguiente manera: <h(v)|𝑢∗> = (h(v))(𝑢∗) = 𝜌𝑣(𝑢∗) = 𝑢∗(v) = <𝑢∗|v>. También se
considera que debido a este isomorfismo natural entre V y 𝑉∗∗ sin dependencia de bases u
otros elementos ajenos, se puede identificar cada vector de V con uno de 𝑉∗∗ de forma
natural sin depender de haber escogido una base y considerar que estos dos espacios son
equivalentes y pudiendo sustituir los vectores de V por elementos de 𝑉∗∗ que actúan sobre
funciones 𝑢∗ de 𝑉∗. Lo que acentúa más la dualidad y hace más real la notación siguiente:
𝑢∗(v) = (h(v))(𝑢∗) = <𝑢∗|v> = <h(v)|𝑢∗> = <v|𝑢∗> = v(𝑢∗).
230
También podemos demostrar que a la base de V le corresponde, en este isomorfismo
canónico, una base de 𝑉∗∗ que no es, ni más ni menos, que la base dual de la base dual de
V. Veámoslo en la siguiente proposición.
PROPOSICIÓN 2: El isomorfismo canónico h: V → 𝑉∗∗, (para espacios vectoriales V de
dimensión finita) transforma una base B de V en la base 𝐵∗∗, dual de la base dual 𝐵∗ de B.
DEMOSTRACIÓN: Sea 𝐵∗ = {𝑢1∗, …, 𝑢𝑛
∗ }, la base dual de B = {𝑣1, …, 𝑣𝑛} y sea 𝐵∗∗ = {𝑢1∗∗, …,
𝑢𝑛∗∗}, la base dual de 𝐵∗. Sea 𝑢𝑗
∗∗ = h(𝑢𝑗) = 𝜌𝑢𝑗, para algún vector 𝑢𝑗 de V, entonces, se cumple
que 𝜌𝑢𝑗(𝑢𝑖∗) = 𝑢𝑗
∗∗(𝑢𝑖∗) = 𝛿𝑖,𝑗 = 𝑢𝑖
∗(𝑣𝑗) = 𝜌𝑣𝑗(𝑢𝑖∗), de modo que 𝑢𝑗 = 𝑣𝑗, que era lo que
queríamos demostrar. □
13.6 Complementos ortogonales o anuladores I
DEFINICIÓN 1 (Complemento ortogonal o anulador en 𝑉∗ de un conjunto de vectores S de
V): Sea S un subconjunto de V, se define el complemento ortogonal o anulador del conjunto
S en el espacio dual 𝑉∗ y se nota así 𝑆⊥, como todos los covectores del espacio dual de V
que valgan 0 en todos los vectores de S, es decir: 𝑆⊥ = {𝑢∗ de 𝑉∗ | para todo v de S, 𝑢∗(v) =
0}.
Veamos una seria de propiedades básicas de estos complementos ortogonales.
PROPOSICIÓN 1: La operación de obtener el ortogonal en 𝑉∗, de un conjunto S de V tiene
las siguientes propiedades:
1) 𝑆⊥ es un subespacio de 𝑉∗.
2) S ⊆ U implica que 𝑈⊥ ⊆ 𝑆⊥.
3) (𝐿(𝑆))⊥ = 𝑆⊥, donde L(S) es la envolvente lineal de S.
4) (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ = ⋂ 𝑆𝑖⊥
𝑖∈𝐼 , con I un conjunto de índices.
DEMOSTRACIÓN: 1) Sean 𝑢1∗, 𝑢2
∗ covectores de 𝑆⊥, esto significa que para todo vector v de
S se tiene que 𝑢1∗(v) = 0 y 𝑢2
∗(v) = 0, de modo que (𝑢1∗ + 𝑢2
∗)(v) = 𝑢1∗(v) + 𝑢2
∗(v) = 0 + 0 = 0, por
lo que 𝑢1∗ + 𝑢2
∗ es de 𝑆⊥. Además, si c es de F se cumple que (c•𝑢∗)(v) = c•𝑢∗(v) = c•0 = 0,
para algún 𝑢∗ de 𝑆⊥, por lo que c•𝑢∗ es de 𝑆⊥, lo que implica que 𝑆⊥ es un subespacio de
𝑉∗.
2) Sea S ⊆ U, si 𝑢∗ es de 𝑈⊥ entonces, 𝑢∗(v) = 0 para todo v de U, pero como S ⊆ U esto
implica que 𝑢∗(z) = 0, para todo z de S, de modo que 𝑢∗ es de 𝑆⊥ y tenemos que 𝑈⊥ ⊆ 𝑆⊥.
3) L(S) = {v = 𝑐1•𝑣1 + … + 𝑐𝑘•𝑣𝑘, para 𝑣1, …, 𝑣𝑘 de S, 𝑐1, …, 𝑐𝑘 de F}, por lo que si 𝑢∗ es de
𝑆⊥ se tiene que 𝑢∗(v) = 𝑐1•𝑢∗(𝑣1) + … + 𝑐𝑘•𝑢∗(𝑣𝑘) = 0, por lo que 𝑆⊥ ⊆ (L(S))⊥, pero hemos
visto en el apartado 2) anterior que si S ⊆ U, entonces, 𝑈⊥ ⊆ 𝑆⊥, pero S ⊆ L(S), por lo que
(L(S))⊥ ⊆ 𝑆⊥, estas dos inclusiones de conjuntos hacen que (𝐿(𝑆))⊥ = 𝑆⊥.
4) Sea v de ⋃ 𝑆𝑖𝑖∈𝐼 , entonces, v pertenece a 𝑆𝑖, para algún i, por lo que 𝑢∗ es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥
si 𝑢∗(v) = 0, para todo v de ⋃ 𝑆𝑖𝑖∈𝐼 , por lo que 𝑢∗ pertenece a 𝑆𝑖⊥, para todo i de I, por lo
que 𝑢∗ pertenece a ⋂ 𝑆𝑖⊥
𝑖∈𝐼 y así hemos demostrado que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ ⊆ ⋂ 𝑆𝑖⊥
𝑖∈𝐼 . Pero si 𝑢∗
pertenece a ⋂ 𝑆𝑖⊥
𝑖∈𝐼 , entonces, 𝑢∗ pertenece a 𝑆𝑖⊥, para todo i de I, por lo que 𝑢∗(v) = 0,
231
para todo v de 𝑆𝑖 y para todo i de I, por lo que si v es de 𝑆𝑖 para algún i de I, entonces, 𝑢∗(v)
= 0, por lo que 𝑢∗ pertenece a (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, lo que demuestra que ⋂ 𝑆𝑖⊥
𝑖∈𝐼 ⊆ (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, por
lo que con las dos inclusiones hemos demostrado lo que queríamos que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ =
⋂ 𝑆𝑖⊥
𝑖∈𝐼 . □
Ahora giramos la rueda un poco más y definimos los complementos ortogonales o
anuladores de subconjuntos de covectores, de modo que resultan subespacios de V como
veremos.
DEFINICIÓN 2 (Complemento ortogonal o anulador en V de un conjunto de vectores S de
𝑉∗): Sea S un subconjunto de funcionales lineales en 𝑉∗, el espacio dual de V. Definimos el
complemento ortogonal o anulador 𝑆⊥ de S en V como el conjunto de todos los vectores v
de V tal que si 𝑢∗ es de S, 𝑢∗(v) = 0, es decir, para todo 𝑢∗ de S.
Pero ahora, observemos que podríamos haber dado otra definición del complemento
ortogonal de un subconjunto S de 𝑉∗, pues si consideramos a S como espacio vectorial, al
que aplicar la definición 1 anterior de esta subsubsección obtendríamos que 𝑆⊥ podría ser
el subconjunto de vectores 𝑣∗∗ de 𝑉∗∗ tal que cumple que si 𝑢∗ es de S, entonces, 𝑣∗∗(𝑢∗) =
0, para todo 𝑢∗ de 𝑉∗. Pero para V de dimensión finita, una vez más se cumple nuestra
observación de que los vectores del bidual de V se corresponden con los vectores de V, de
modo que podemos considerarlos el mismo espacio vectorial, pues vamos a ver ahora
mismo, que el complemento ortogonal de un conjunto S de covectores de 𝑉∗ en V, según
la definición 2 que hemos dado en esta subsubsección, se corresponde por la aplicación h
de V en 𝑉∗∗ con el complemento ortogonal de S en 𝑉∗∗. Veámoslo en la siguiente
proposición.
PROPOSICIÓN 2: Sea h: V → 𝑉∗∗ el isomorfismo canónico de V en 𝑉∗∗ y sea S un subconjunto
de elementos de 𝑉∗, entonces, si definimos 𝑆⊥ como el complemento ortogonal de S en V,
según la definición 2 de esta subsubsección y llamamos a 𝑆⊺ al complemento ortogonal de
S en 𝑉∗∗ según la definición 1 de esta subsubsección, ocurre que h(𝑆⊥) = 𝑆⊺.
DEMOSTRACIÓN: Sea v un vector de V y sea h(v) = 𝜌𝑣, entonces, 𝑆⊺ = {𝜌𝑣 de 𝑉∗∗ | 𝜌𝑣(𝑢∗) =
0 para todo 𝑢∗ de S} = {𝜌𝑣 de 𝑉∗∗ | 𝑢∗(v) = 0, para todo 𝑢∗ de S} que se corresponde por h,
con {v de V | 𝑢∗(v) = 0, para todo 𝑢∗ de S} = 𝑆⊥ según la definición 2 de esta subsubsección.
□
Por tanto, vemos que esta relación de ortogonalidad es una relación de doble sentido.
Conjuntos o subespacios de V determinan subespacios de 𝑉∗ y por otra parte, conjuntos o
subespacios de 𝑉∗ determinan subespacios de V.
Ahora también veremos que las propiedades que cumplía 𝑈⊥, para un conjunto U de
vectores v de V, también se cumplen para 𝑆⊥ según la definición 2 de complemento
ortogonal en V, de esta subsubsección, siendo S en este caso un conjunto de elementos de
𝑉∗.
PROPOSICIÓN 3: La operación de obtener el ortogonal en V, de un conjunto S, de 𝑉∗ tiene
las siguientes propiedades:
1) 𝑆⊥ es un subespacio de V.
232
2) S ⊆ U implica que 𝑈⊥ ⊆ 𝑆⊥.
3) (𝐿(𝑆))⊥ = 𝑆⊥, donde L(S) es la envolvente lineal de S.
4) (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ = ⋂ 𝑆𝑖⊥
𝑖∈𝐼 , con I un conjunto de índices.
DEMOSTRACIÓN: 1) Sean 𝑣1, 𝑣2 de 𝑆⊥ y sea 𝑢∗ de S, entonces, 𝑢∗(𝑣1 + 𝑣2) = 𝑢∗(𝑣1) + 𝑢∗(𝑣2)
= 0 + 0 = 0, por lo que 𝑣1 + 𝑣2 pertenece a 𝑆⊥. Ahora sea c de F, v de 𝑆⊥ y 𝑢∗ de S, entonces
𝑢∗(c•v) = c•𝑢∗(v) = c•0 = 0, por lo que c•v es de 𝑆⊥, por lo que 𝑆⊥ es un subespacio de V.
2) Sea v de 𝑈⊥, entonces si 𝑢∗ pertenece a S, también pertenece a U, por lo que 𝑢∗(v) = 0
y, por tanto, v es de 𝑆⊥.
3) L(S) = {𝑢∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ | con 𝑢1∗, …, 𝑢𝑘
∗ de S, 𝑐1, …, 𝑐𝑘 de F}, por lo que para v de
𝑆⊥, 𝑢∗(v) = 𝑐1•𝑢1∗(v) + … + 𝑐𝑘•𝑢𝑘
∗ (v) = 0, por lo que 𝑆⊥ ⊆ (𝐿(𝑆))⊥. Pero según 2) anterior,
W ⊆ U implica que 𝑈⊥ ⊆ 𝑊⊥, pero S ⊆ L(S), por lo que (𝐿(𝑆))⊥ ⊆ 𝑆⊥, y, por tanto, (𝐿(𝑆))⊥
= 𝑆⊥.
4) Si v es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ entonces, 𝑢∗(v) = 0, para todo 𝑢∗ de 𝑆𝑖 y para todo i de I, entonces,
v es de 𝑆𝑖⊥ y para todo i de I, por lo que v es de ⋂ 𝑆𝑖
⊥𝑖∈𝐼 , con lo que hemos demostrado
que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ ⊆ ⋂ 𝑆𝑖⊥
𝑖∈𝐼 . Por otra parte, si v es de ⋂ 𝑆𝑖⊥
𝑖∈𝐼 entonces, v es de 𝑆𝑖⊥, para
todo i de I, lo que significa que 𝑢∗(v) = 0, para todo 𝑢∗ de 𝑆𝑖 y para todo i de I, lo que implica
que 𝑢∗(v) = 0 con 𝑢∗ de ⋃ 𝑆𝑖𝑖∈𝐼 , con lo que, v es de (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ y hemos demostrado que
⋂ 𝑆𝑖⊥
𝑖∈𝐼 ⊆ (⋃ 𝑆𝑖𝑖∈𝐼 )⊥, por lo que, uniendo las dos inclusiones se tiene que (⋃ 𝑆𝑖𝑖∈𝐼 )⊥ =
⋂ 𝑆𝑖⊥
𝑖∈𝐼 , como queríamos demostrar. □
EJEMPLO: En ℝ4 consideramos U = L({1, -1, 0, 1}, (1, 1, -1, 0), (2, 0, -1, 1)}) y tratamos de
calcular 𝑈⊥. En primer lugar, observemos que el sistema de generadores que se dan no es
una base, porque el tercer vector es una combinación lineal de los dos primeros, es su suma,
por lo que una base de U es {𝑣1 = (1, -1, 0, 1), 𝑣2 = (1, 1, -1, 0)} y puesto que U = L(𝑣1, 𝑣2),
entonces, 𝑈⊥ = {𝑣1, 𝑣2}⊥. Por tanto, para que una forma lineal 𝑢∗ cuya matriz asociada en
la base canónica sea (𝑎1 𝑎2 𝑎3 𝑎4) esté en 𝑈⊥ es necesario y suficiente que anule a 𝑣1 y a
𝑣2, es decir tiene que cumplir que:
(𝑎1 𝑎2 𝑎3 𝑎4)•(
1−101
) = 0 y (𝑎1 𝑎2 𝑎3 𝑎4)•(
11−10
) = 0 lo que nos produce el sistema de
cartesianas siguiente: {𝑎1 − 𝑎2 + 𝑎4 = 0𝑎1 + 𝑎2 − 𝑎3 = 0
.
Dada la base canónica E con la que estamos trabajando podemos considerar la base dual
𝐸∗ y sabemos por la primera propiedad de las bases duales que las coordenadas de 𝑢∗ en
su base correspondientes son las mismas que los coeficientes de la matriz asociada a la
forma en la base de V, considerada una aplicación lineal, es decir, que las ecuaciones
anteriores también son las cartesianas de 𝑈⊥ con relación a la base dual 𝐸∗. Para obtener
la base de 𝑈⊥ ya sabemos que tenemos que resolver el sistema para obtener las ecuaciones
paramétricas y de ahí, la base. De modo que procedemos de la siguiente manera:
{𝑎1 − 𝑎2 + 𝑎4 = 0𝑎1 + 𝑎2 − 𝑎3 = 0
→ {𝑎1 − 𝑎2 + 𝑎4 = 0
2 • 𝑎2 − 𝑎3 − 𝑎4 = 0 → {
𝑎1 = (1/2) • 𝑎3 − (1/2) • 𝑎4 𝑎2 = (1/2) • 𝑎3 + (1/2) • 𝑎4
,
233
Lo que significa que:
{
𝑎1 = (
1
2) • 𝛼 − (
1
2) • 𝛽
𝑎2 = (1
2) • 𝛼 + (
1
2) • 𝛽
𝑎3 = 𝛼𝑎4 = 𝛽
→
{
𝑎1 = (
1
2) • 𝛼 − (
1
2) • 𝛽
𝑎2 = (1
2) • 𝛼 + (
1
2) • 𝛽
𝑎3 = 1 • 𝛼 + 0 • 𝛽𝑎4 = 0 • 𝛼 + 1 • 𝛽
, por lo que
Podemos obtener como base del subespacio con respecto a la base 𝐸∗, los vectores de
coordenadas: {(1, 1, 2, 0)𝐸∗, (−1, 1, 0, 2)𝐸∗}, es decir, las formas siguientes:
{f(x, y, z, t) = x + y + 2•z, g(x, y, z, t) = -x + y + 2•t}.
13.7 Complementos ortogonales o anuladores II
Ahora veamos la relación que existe entre las dos definiciones formales que hemos dado
de los complementos ortogonales para espacios vectoriales de dimensión finita, tanto de
un subconjunto S de V con su ortogonal en 𝑉∗, como de un subconjunto U de 𝑉∗ con su
ortogonal en V.
PROPOSICIÓN 1: Sea V un espacio vectorial de dimensión finita y 𝑉∗ su dual y sean U ⊆ V y
W ⊆ 𝑉∗. Entonces se cumple que la condición W = 𝑈⊥, es la misma que U = 𝑊⊥. Lo cual se
puede formular de otra manera:
a) En el caso de que U sea subespacio de V y W subespacio de 𝑉∗, entonces: (𝑈⊥)⊥ = U y
(𝑊⊥)⊥ = W.
b) En el caso de que U sea solamente un subconjunto de V y W de 𝑉∗, entonces, (𝑈⊥)⊥ =
L(U) y (𝑊⊥)⊥ = L(W).
DEMOSTRACIÓN: i) Supongamos que W = 𝑈⊥, entonces, para todo 𝑢∗ de W y todo v de U
se cumple que 𝑢∗(v) = 0, pero por definición, 𝑊⊥ es el subespacio de V de los v tales que
𝑢∗(v) = 0 para todo 𝑢∗ de W, de modo que si v es de U entonces también es de 𝑊⊥ y así
hemos demostrado que U ⊆ 𝑊⊥. Ahora debemos probar que 𝑊⊥ ⊆ U con lo que
tendríamos que W = 𝑈⊥ implica que U = 𝑊⊥. Aún así para demostrar el teorema completo,
nos faltaría demostrar que U = 𝑊⊥ implica W = 𝑈⊥. Supongamos que U ⊂ 𝑊⊥ con la
inclusión estricta, por lo que hay un vector x de 𝑊⊥ que no pertenece a U, esto implica que
hay un funcional f, con f(v) = 0 para todo v de U, pero que f(x) no es 0, pero esto implica
una contradicción, pues hemos supuesto que x es de 𝑊⊥ y esto implica que si g es de W,
entonces g(x) = 0, pero hemos afirmado que existe un f de W con f(x) ≠ 0 puesto que si f(v)
= 0 para todo v de U, entonces f es de W (pues suponemos que W = 𝑈⊥) y por tanto hemos
demostrado que U = 𝑊⊥.
ii) Sea U = 𝑊⊥, entonces, para todo v de U y todo 𝑢∗ de W se tiene que 𝑢∗(v) = 0, pero por
definición, 𝑈⊥ es el subespacio de 𝑉∗, de los covectores que son ‘perpendiculares’ a todos
los vectores de U, por lo que se cumple que W ⊆ 𝑈⊥. Por lo que nos queda probar la
inclusión 𝑈⊥ ⊆ W. Supongamos que se cumple la inclusión estricta W ⊂ 𝑈⊥, por lo que hay
un covector g de 𝑈⊥, pero tal que g no es de W. Pero sabemos que esto supone que existe
un funcional µ en 𝑉∗∗ tal que µ(f) = 0 para todo f de W pero que no es cero en g. Siendo h
es isomorfismo canónico entre V y 𝑉∗∗ podemos obtener el vector v tal que v es de U y v =
234
ℎ−1(µ) (tiene que ser v de U, porque si < µ|f> = <h(v)|f> = <f|v> = 0, para todo f de W, pues
estamos suponiendo que U = 𝑊⊥, lo cual implica que si para todos los f de W f(z) = 0
entonces z es de U) y sabemos que <µ|g> = <h(v)|g> = <g|v> ≠ 0 lo cual está en
contradicción de que g es de 𝑈⊥, pues si g es de 𝑈⊥, tendría que ser g(v) = 0 y por tanto,
esta contradicción demuestra que W = 𝑈⊥ y por tanto, que U = 𝑊⊥ implica que W = 𝑈⊥ y
por tanto, esto termina la demostración de la proposición. □
Ahora demostraremos la siguiente proposición importante sobre la dimensión de los
subespacios ortogonales para el caso de que el espacio vectorial V sea de dimensión finita.
PROPOSICIÓN 2: En el caso de que V sea un espacio vectorial de dimensión finita, dim V =
n, para un subespacio U de V o para un subespacio U de 𝑉∗, se cumple la siguiente igualdad:
dim U + dim 𝑈⊥ = dim V = dim 𝑉∗.
DEMOSTRACIÓN: Si suponemos que se cumple la proposición para un subespacio U de V,
también se cumplirá para un espacio W de 𝑉∗ pues solo hace falta sustituir U por 𝑊⊥ y, por
tanto, demostraremos el caso en el que la fórmula se cumple para un subespacio U de V.
Sea dim V = n, dim U = s y {𝑣1, …, 𝑣𝑠} una base de U a la que ampliamos hasta ser una base
de V, {𝑣1, …, 𝑣𝑛} y la cual determina una base de 𝑉∗, {𝑢1∗, …, 𝑢𝑛
∗ }. Sea x de U, entonces las
últimas n – s coordenadas, 𝑐𝑠+1, …, 𝑐𝑛 de x, con respecto a la base de V que hemos escogido
son 0. Sea 𝑢∗ de 𝑈⊥, por lo que 𝑢∗(x) = 𝑓1•𝑐1 + … + 𝑓𝑠•𝑐𝑠 = 0 con 𝑓𝑖 coordenadas de 𝑢∗ en la
base de 𝑉∗, determinada por la de V. Esta ecuación es válida para todas las coordenadas
posibles 𝑐1, …, 𝑐𝑠, lo que implica que 𝑓1, …, 𝑓𝑠, son cero, pero las n – s coordenadas 𝑓𝑠+1, …,
𝑓𝑛, son arbitrarias, lo cual quiere decir que 𝑈⊥ es la envolvente lineal de los vectores {𝑢𝑠+1∗ ,
…, 𝑢𝑛∗ }, por lo que dim U = s y dim 𝑈⊥ = n – s. □
COROLARIO: Se tienen las siguientes fórmulas:
1) {0}⊥ = V, (𝑉∗)⊥ = {0}.
2) {0}⊥ = 𝑉∗, 𝑉⊥ = {0}
DEMOSTRACIÓN: Son inmediatas dada la proposición 2 anterior. □
Veamos ahora que un sistema de ecuaciones que determinan un subespacio U, de V puede
obtenerse a partir de un conjunto de covectores S de 𝑉∗, por lo que, los subespacios de V
no solo vienen dados por envolventes lineales de vectores de V sino también, por
complementos ortogonales de covectores.
En coordenadas ya sabemos que cada covector tiene la siguiente expresión: 𝑢𝑖∗(v) = 𝑎𝑖1•𝑐1
+ … + 𝑎𝑖𝑛•𝑐𝑛, de modo que un conjunto de covectores determina el siguiente sistema
homogéneo cuando hacemos 𝑢1∗(v) = 0, …, 𝑢𝑚
∗ (v) = 0, de modo que U = Ker(𝑢1∗) ∩ … ∩
Ker(𝑢𝑚∗ ):
{𝑎11 • 𝑥1 +⋯+ 𝑎1𝑛 • 𝑥𝑛 = 0
…𝑎𝑚1 • 𝑥1 +⋯+ 𝑎𝑚𝑛 • 𝑥𝑛 = 0
.
235
Según la proposición 2 anterior de esta subsubsección, la dimensión de este subespacio es
n – r, con r la dimensión de la envolvente lineal de S, dim 𝑆⊥ = dim V – dim L(S), pero resulta
que r es también el rango de la matriz de coeficientes.
Terminamos esta subsubsección con una proposición muy interesante.
PROPOSICIÓN 3: Para un espacio vectorial V de dimensión finita y para una familia de
subsepacios de este o del dual se cumple lo siguiente:
1) (∑ 𝑈𝑖𝑖∈𝐼 )⊥ = ⋂ (𝑈𝑖)⊥
𝑖∈𝐼 .
2) (⋂ 𝑈𝑖𝑖∈𝐼 )⊥ = ∑ (𝑈𝑖)⊥
𝑖∈𝐼 .
Para subespacios E y F de 𝑉∗ se cumple:
3) U⨁W = V implica que 𝑈⊥⨁𝑊⊥ = 𝑉∗.
4) E⨁F = 𝑉∗ implica que 𝐸⊥⨁𝐹⊥ = V.
DEMOSTRACIÓN: 1) La suma de subespacios es la envolvente lineal de su unión, por lo que
si aplicamos la proposición 13.6.1 apartado 4) obtenemos el resultado.
2) Viene de 1) si sustituimos 𝑈𝑖 por 𝑈𝑖⊥, pues se obtiene lo siguiente:
(∑ (𝑈𝑖)⊥
𝑖∈𝐼 )⊥ = ⋂ ((𝑈𝑖)⊥)⊥𝑖∈𝐼 = ⋂ 𝑈𝑖𝑖∈𝐼 ,
Y se obtiene el resultado aplicando el complemento ortogonal a ambos lados de la igualdad.
3) Supongamos U⨁W = V, esto significa que U + W = V y U ∩ W = {0}, lo que implica que 𝑈⊥
∩ 𝑊⊥ = (𝑈 +𝑊)⊥ = 𝑉⊥ = {0} y 𝑈⊥ + 𝑊⊥ = (𝑈 ∩𝑊)⊥ = {0}⊥ = 𝑉∗; por lo que 𝑈⊥⨁𝑊⊥ =
𝑉∗.
4) Se demuestra de la misma manera que 3). □
13.8 La aplicación lineal dual I
En esta subsubsección dada una aplicación lineal T: V → V’ vamos a definir su aplicación
lineal dual, una aplicación 𝑇∗: (𝑉′)∗ → 𝑉∗ (obsérvese que 𝑇∗ va de (𝑉′)∗ a 𝑉∗) y estudiar sus
propiedades principales.
DEFINICIÓN (Aplicación dual de una dada): Sea T: V → V’ una aplicación lineal dada y sean
v de V y 𝑥∗ de (𝑉′)∗, entonces la aplicación 𝑇∗: (𝑉′)∗ → 𝑉∗, dual de T se define de la siguiente
manera: (𝑇∗(𝑥∗))(v) = 𝑥∗(T(v)).
Antes de nada, examinemos un poco esta definición para entenderla mejor. Primero
comenzamos con un elemento 𝑥∗ de (𝑉′)∗, de modo que 𝑥∗: V’ → F es un funcional lineal
dual de los vectores de V’. Entonces, la aplicación dual de T nos da un funcional 𝑇∗(𝑥∗) que
es un elemento de 𝑉∗, es decir, 𝑇∗(𝑥∗): V → F, de modo que este funcional actúa sobre
elementos de V y en la fórmula de la definición, el valor de (𝑇∗(𝑥∗))(v) se halla con el valor
de 𝑥∗, sobre el elemento T(v) de V’ asociado a v por T.
En la siguiente proposición vemos unas propiedades básicas de 𝑇∗.
PROPOSICIÓN 1: Sea T: V → V’ una aplicación lineal, entonces, se cumple lo siguiente:
236
1) T es inyectiva si y solo si, 𝑇∗ es suprayectiva.
2) T es suprayectiva, si y solo si 𝑇∗ es inyectiva.
3) T es un isomorfismo, si y solo si, 𝑇∗ es un isomorfismo.
DEMOSTRACIÓN: 1) Supongamos que T es inyectiva, sea B una base de V, B = {𝑣1, 𝑣2, …},
entonces, C = T(B) = {𝑤1, 𝑤2, …} es un conjunto linealmente independiente de V’, de modo
que se puede extender a una base de V’, {𝑤1, 𝑤2, …}∪{𝑤′1, 𝑤′2, …}. Ahora sea 𝑢∗ un
elemento arbitrario de 𝑉∗ y definamos un elemento 𝑥∗ de (𝑉′)∗, dado por 𝑥∗(𝑤𝑖) = 𝑢∗(𝑣𝑖)
y 𝑥∗(𝑤′𝑗) = 0. Entonces ocurre que, (𝑇∗(𝑥∗))(𝑣𝑖) = 𝑥∗(𝑇(𝑣𝑖)) = 𝑥∗(𝑤𝑖) = 𝑢∗(𝑣𝑖), de modo que
𝑇∗(𝑥∗) tiene el mismo valor que 𝑢∗ en una base de B de V y por tanto son el mismo covector,
es decir, 𝑇∗(𝑥∗) = 𝑢∗.
Ahora supongamos que T no es inyectiva, entonces existe un vector 𝑣0 distinto de 0 tal que
T(𝑣0) = 0, entonces, para cualquier 𝑥∗ de (𝑉′)∗, se tiene que (𝑇∗(𝑥∗))(𝑣0) = 𝑥∗(T(𝑣0)) = 𝑥∗(0)
= 0. Pero como hemos visto, para cualquier, 𝑣0 distinto de 0, en V hay un 𝑢0∗ en 𝑉∗, con
𝑢0∗(𝑣0) = 1 que no es 0 por lo que no se puede tener 𝑇∗(𝑥∗) = 𝑢0
∗ , por lo que 𝑇∗ no es
suprayectiva.
2) Supongamos que T es suprayectiva y sea 𝑥∗ de (𝑉′)∗ con 𝑇∗(𝑥∗) = 0. Queremos
demostrar que 𝑥∗ tiene que ser 0. Entonces supongamos que 𝑇∗(𝑥∗) = 0, por lo que ocurre
que 0 = (𝑇∗(𝑥∗))(v) = 𝑥∗(T(v)) para todo v de V. Ahora sea w de V’, y puesto que T es
suprayectiva, existe un v tal que w = T(v) y entonces, 𝑥∗(w) = 𝑥∗(T(v)) = 0 y puesto que esto
se cumple para todo w, ha de ser 𝑥∗ = 0.
Ahora supongamos que T no es suprayectiva. Entonces Im(T) es un subespacio propio de
V’. Tenga Im(T) la siguiente base, {𝑤1, 𝑤2, …}, extendámosla a una base de V’, {𝑤1, 𝑤2,
…}∪{𝑤′1, 𝑤′2, …} Sea 𝑥0∗ un elemento de (𝑉′)∗ definido por 𝑥0
∗(𝑤𝑖) = 0 y 𝑥0∗(𝑤′𝑗) = 1. Como
hay por lo menos un 𝑤′𝑗 que cumpla esto, 𝑥0∗ resulta que no es 0. Pero entonces, para
cualquier v se cumple que, (𝑇∗(𝑥0∗))(v) = 𝑥0
∗(T(v)) = 0, puesto que w = T(v), está en Im(T) y
por tanto, w = ∑𝑐𝑖•𝑤𝑖 y por tanto, 𝑥0∗(w) = ∑𝑐𝑖•𝑥0
∗(𝑤𝑖) = 0. Entonces, 𝑇∗(𝑥0∗) = 0, pero 𝑥0
∗
no es cero, por lo que 𝑇∗ no es inyectiva.
3) Puesto que una transformación lineal es isomorfismo si y solo si es biyectiva, es decir,
inyectiva y suprayectiva al mismo tiempo, se cumple que 1) y 2) implican esta afirmación.
□
Terminamos esta subsección demostrando otra relación entre T y 𝑇∗ en concreto el
siguiente cálculo de dimensiones.
PROPOSICIÓN 2: Sea T: V → V’ una aplicación lineal, entonces, se cumple lo siguiente:
dim Im(T) = dim Im(𝑇∗) y codim Ker(T) = codim Ker(𝑇∗)
DEMOSTRACIÓN: Puesto que para cualquier aplicación lineal la codimensión de su núcleo
es la dimensión de la imagen, la segunda afirmación es consecuencia de la primera, por lo
que procedemos a demostrar la primera afirmación.
Sea 𝑉1 = Ker(T). Entonces 𝑉1 es un subespacio de V, sea 𝑉2 cualquier complemento de 𝑉1,
es decir, V = 𝑉1⨁𝑉2. Sea 𝑊2 = Im(T), por tanto, 𝑊2 es un subespacio de V’. Sea 𝑊1 el
complemento de 𝑊2 en V’, de modo que V’ = 𝑊1⨁𝑊2.
237
Sea 𝐵2 = {𝑣1, 𝑣2, …} una base de 𝑉2 y sea 𝐵1 = {𝑣1̃, 𝑣2̃, … } una base de 𝑉1 = Ker(T), entonces,
B = 𝐵1 ∪ 𝐵2 es una base de V.
Ya vimos que T: 𝑉2 → 𝑊2 es un isomorfismo y por tanto, 𝐶2 = T(𝐵2) es una base de 𝑊2 y por
tanto, 𝑤1 = T(𝑣1), 𝑤2 = T(𝑣2) implica que 𝐶2 = {𝑤1, 𝑤2, …} es una base de 𝑊2 = Im(T). Sea 𝐶1
= {𝑤1̃, 𝑤2̃, … } una base de 𝑊1, de modo que C = 𝐶1 ∪ 𝐶2 es una base de V’.
Sea 𝑢𝑖∗ de 𝑉∗ definida por 𝑢𝑖
∗(𝑣𝑖) = 1, 𝑢𝑖∗(𝑣𝑗) = 0 si j ≠ i, 𝑢𝑖
∗(𝑣�̃�) = 0 para todo j. Y de igual
manera definimos 𝑥𝑖∗ de (𝑉′)∗ como 𝑥𝑖
∗(𝑤𝑖) = 1, 𝑥𝑖∗(𝑤𝑗) = 0 si j ≠ i, 𝑥𝑖
∗(𝑤�̃�) = 0, para todo j.
Queremos demostrar que 𝑇∗(𝑥𝑖∗) = 𝑢𝑖
∗, para cada i. Para ver esto verifiquemos que dan el
mismo valor para una base de V. Escojamos la base B. Por un lado, (𝑇∗(𝑥𝑖∗))(𝑣𝑖) = 𝑥𝑖
∗(T(𝑣𝑖))
= 𝑥𝑖∗(𝑤𝑖) = 1 = 𝑢𝑖
∗(𝑣𝑖) y para j ≠ i, (𝑇∗(𝑥𝑖∗))(𝑣𝑗) = 𝑥𝑖
∗(T(𝑣𝑗)) = 𝑥𝑖∗(𝑤𝑗) = 0 = 𝑢𝑖
∗(𝑣𝑗) y para cualquier
j, (𝑇∗(𝑥𝑖∗))(𝑣�̃�) = 𝑥𝑖
∗(T(𝑣�̃�) = 𝑥𝑖∗(0) = 0 = 𝑢𝑖
∗(𝑣�̃�). Pero 𝐵2 = {𝑣1, 𝑣2, …} es un conjunto de vectores
linealmente independientes, de modo que sabemos que 𝐶2∗ = {𝑢1
∗, 𝑢2∗ , … } es un conjunto de
covectores linealmente independiente también.
Supongamos que 𝐵2 tiene un número finito de elementos, 𝐵2 = {𝑣1, …, 𝑣𝑘} de modo que
𝐶2∗ = {𝑢1
∗, …, 𝑢𝑘∗ } también tiene k elementos. Queremos demostrar que 𝐶2
∗ genera Im(𝑇∗). Si
es así entonces, 𝐶2∗ también es una base de Im(𝑇∗), pero entonces, k = dim 𝑉2 = dim 𝑊2 =
dim Im(T) y k = dim Im(𝑇∗), de modo que dim Im(T) = dim Im(𝑇∗).
Para probar esto, consideremos cualquier 𝑢∗ de Im(𝑇∗), entonces, 𝑢∗ = 𝑇∗(𝑥∗), para algún
𝑥∗ de (𝑉′)∗. Definamos 𝑐1, …, 𝑐𝑘 por 𝑐𝑖 = 𝑢∗(𝑣𝑖), i = 1, …, k, sea 𝑡∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ .
Notemos que 𝑡∗ está bien definido puesto que 𝐶2∗ es finito y la suma que lo define es finita.
Ahora veamos: 𝑡∗(𝑣𝑖) = (𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗ )(𝑣𝑖) = 𝑐1•𝑢1∗(𝑣𝑖) + … + 𝑐𝑖•𝑢𝑖
∗(𝑣𝑖) + … + 𝑐𝑘•𝑢𝑘∗ (𝑣𝑖)
= 𝑐𝑖 = 𝑢∗(𝑣𝑖). De modo que 𝑡∗ = 𝑢∗ en los elementos de la base 𝐵2. También, 𝑡∗(𝑣�̃�) = (𝑐1•𝑢1∗
+ … + 𝑐𝑘•𝑢𝑘∗ )(𝑣�̃�) = 0, pues, (𝑢𝑖
∗)(𝑣�̃�) = 0 para todo i y j y, puesto que 𝑉1 = Ker(T), 𝑢∗(𝑣�̃�) =
(𝑇∗(𝑥∗))(𝑣�̃�) = 𝑥∗(T(𝑣�̃�)) = 𝑥∗(0) = 0. Por tanto, 𝑡∗ = 𝑢∗ en todos los elementos de la base 𝐵1.
Así que, 𝑡∗ = 𝑢∗ en todos los elementos de la base B, por tanto, 𝑢∗ = 𝑡∗ = 𝑐1•𝑢1∗ + … + 𝑐𝑘•𝑢𝑘
∗
y por tanto, 𝐶2∗ genera Im(𝑇∗).
En el caso de que 𝐵2 tiene infinitos elementos, entonces, 𝐶2∗ también tiene infinitos
elementos, por lo que Im(𝑇∗) contiene un conjunto infinito linealmente independiente con
lo que dim Im(𝑇∗) = ∞, pero decir que 𝐵2 tiene un número infinito de elementos, es decir
que dim 𝑉2 = ∞, pero T: 𝑉2 → 𝑊2 = Im(T), es un isomorfismo, por lo que dim 𝑊2 = ∞, por lo
que en este caso también se cumple que dim Im(T) = dim Im(𝑇∗). □
13.9 La aplicación dual II
COROLARIO: Sea T: V → V’ una aplicación lineal de un espacio vectorial V de dimensión finita
en otro V’ también de dimensión finita, entonces se cumple lo siguiente:
dim Ker(T) = codim Im(𝑇∗).
dim Ker(𝑇∗) = codim Im(T).
238
DEMOSTRACIÓN: Sea dim V = n y dim V’ = m, entonces dim 𝑉∗ = n y dim (𝑉′)∗ = m. Sea r =
dim Im(T) = dim Im(𝑇∗), entonces, sabemos que n – r = dim Ker(T) = codim Im(𝑇∗) y m – r =
dim Ker(𝑇∗) = codim Im(T). □
Terminamos esta subsubsección con dos proposiciones, la segunda de cierta importancia.
PROPOSICIÓN 1: Sea T: V → V’ una aplicación lineal y sea 𝑇∗ su dual, entonces se cumple:
(𝐼𝑚(𝑇))⊥ = Ker(𝑇∗), (𝐼𝑚(𝑇∗))⊥ = Ker (T).
Si los espacios vectoriales V y V’ son finitos también se cumple lo siguiente:
(𝐾𝑒𝑟(𝑇))⊥ = Im(𝑇∗), (𝐾𝑒𝑟(𝑇∗))⊥ = Im(T).
DEMOSTRACIÓN: (𝐼𝑚(𝑇))⊥ = {𝑤∗ de (𝑉′)∗|𝑤∗(v) = 0, para todo v de Im(T)} = {𝑤∗ de (𝑉′)∗|
𝑤∗(T(u)) = 0, para todo u de V} = {𝑤∗ de (𝑉′)∗| (𝑇∗(𝑤∗))(u) = 0, para todo u de V} = {𝑤∗ de
(𝑉′)∗|𝑇∗(𝑤∗) = 0} = Ker(𝑇∗).
(𝐼𝑚(𝑇∗))⊥ = {v de V | 𝑢∗(v) = 0 para todo 𝑢∗ de Im(𝑇∗)} = {v de V | (𝑇∗(𝑤∗))(v) = 0 para todo
𝑤∗ de (𝑉′)∗} = {v de V | 𝑤∗(T(v)) = 0 para todo 𝑤∗ de (𝑉′)∗} = {v de V | T(v) es de ((𝑉′)∗)⊥
y T(v) = {0}} = Ker (T).
Por otra parte, si las dimensiones son finitas se tiene que: Ker(T) = ((𝐾𝑒𝑟(𝑇))⊥)⊥ =
(𝐼𝑚(𝑇∗))⊥ y también, Ker(𝑇∗) = ((𝐾𝑒𝑟(𝑇∗))⊥)⊥ = (𝐼𝑚(𝑇))⊥. □
PROPOSICIÓN 2: 1) Sean 𝑇1: V → V’, 𝑇2: V → V’ aplicaciones lineales y sean 𝑐1, 𝑐2 escalares
de F, entonces, (𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)∗ = 𝑐1 • 𝑇1
∗ + 𝑐2 • 𝑇2∗.
2) Sea I: V → V (i) la transformación identidad, entonces, 𝐼∗ = I, la transformación identidad
I: 𝑉∗ → 𝑉∗ (ii). Nótese que en las definiciones (i) y (ii) utilizamos el mismo símbolo, I, para
distintas transformaciones identidad: en (i), es la aplicación lineal identidad del espacio
vectorial V y en (ii), la aplicación lineal de su espacio vectorial dual con respecto a V, es decir
del espacio 𝑉∗.
3) Sean T: V → V’ y S: V’ → V’’, aplicaciones lineales, entonces, (𝑆 ∘ 𝑇)∗ = 𝑇∗ ∘ 𝑆∗.
4) Sea T: V → V’ una aplicación lineal, supongamos que T y 𝑇∗ son ambas invertibles,
entonces, (𝑇∗)−1 = (𝑇−1)∗.
DEMOSTRACIÓN: 1) Sea 𝑥∗ cualquier elemento de (𝑉′)∗, entonces por las propiedades de
las transformaciones lineales se tiene que: (𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)∗(𝑥∗) = 𝑥∗(𝑐1 • 𝑇1 + 𝑐2 • 𝑇2)
= 𝑐1•𝑥∗(𝑇1) + 𝑐2•𝑥∗(𝑇2) = 𝑐1•𝑇1∗(𝑥∗) + 𝑐2•𝑇2
∗(𝑥∗).
2) Por definición de 𝐼∗, para cualquier 𝑥∗ de (𝑉′)∗, 𝐼∗(𝑥∗) = 𝑥∗(I) = 𝑥∗ = I(𝑥∗).
3) Por definición de (𝑆 ∘ 𝑇)∗, para cualquier 𝑥∗ de (𝑉′)∗, (𝑆 ∘ 𝑇)∗(𝑥∗) = 𝑥∗(𝑆 ∘ 𝑇) = (𝑥∗(S))(T)
= 𝑇∗(𝑥∗(S)) = 𝑇∗(𝑆∗(𝑥∗)) = (𝑇∗ ∘ 𝑆∗)(𝑥∗).
4) (𝑇∗)−1 es definido por las ecuaciones (𝑇∗)−1 ∘ 𝑇∗ = I y 𝑇∗ ∘ (𝑇∗)−1 = I, pero por 2) y 3)
tenemos que I = 𝐼∗ = (𝑇 ∘ 𝑇−1)∗ = (𝑇−1)∗ ∘ 𝑇∗ y I = 𝐼∗ = (𝑇−1 ∘ 𝑇)∗ = 𝑇∗ ∘ (𝑇−1)∗, por lo que
se tiene que (𝑇∗)−1 = (𝑇−1)∗. □
239
13.10 La aplicación lineal dual y la matriz traspuesta
Recordemos que si A = (𝑎𝑖𝑗) es una matriz de dimensión m×n, su traspuesta, 𝐴𝑡 = B = (𝑏𝑖𝑗)
es la matriz de dimensión n×m, tal que 𝑏𝑗𝑖 = 𝑎𝑖𝑗, para cada i = 1, …, m, j = 1, …, n. Es decir,
𝐴𝑡 se obtiene cambiando las filas de A y haciéndolas las columnas de 𝐴𝑡 y viceversa,
cogiendo las columnas de A y haciéndolas las filas de 𝐴𝑡, es decir, la primera fila de 𝐴𝑡 es la
primera columnas de A y así con la segunda y la tercera, etc.
Ahora supongamos que tenemos una aplicación lineal T: V → V’, donde V y V’ son espacios
vectoriales de dimensión finita y escogemos una base B de V y C de V’, entonces, tenemos
que existe una matriz P que es la matriz de esta aplicación lineal con respecto a las bases B
y C, es decir, P = [𝑇]𝐶←𝐵.
Entonces, ahora consideremos la aplicación dúal, 𝑇∗: (𝑉′)∗ → 𝑉∗ y escogemos las bases
duales 𝐶∗ de (𝑉′)∗ y 𝐵∗ de 𝑉∗. Entonces, esta aplicación lineal también tiene una matriz
con respecto a las bases 𝐶∗ y 𝐵∗, Q = [𝑇∗]𝐵∗←𝐶∗.
TEOREMA: Sea P = [𝑇]𝐶←𝐵 la matriz de dimensión m×n P = (𝑝𝑖𝑗) y sea Q = [𝑇∗]𝐵∗←𝐶∗ la matriz
de dimensión n×m, Q = (𝑞𝑖𝑗), entonces ocurre que Q = 𝑃𝑡.
DEMOSTRACIÓN: Sea P = (𝑝𝑖𝑗) y Q = (𝑞𝑖𝑗), sean B = {𝑣1, …, 𝑣𝑛}, C = {𝑤1, …, 𝑤𝑚}, 𝐵∗ = {𝑢1∗, …,
𝑢𝑛∗ } y 𝐶∗ = {𝑥1
∗, …, 𝑥𝑚∗ }. Por definición de 𝑇∗, para cada i y j s tiene que 𝑇∗(𝑥𝑖
∗)(𝑣𝑗) = 𝑥𝑖∗(T(𝑣𝑗)).
Ahora recordemos que [𝑇]𝐶←𝐵 = ([T(𝑣1)]𝐶 [T(𝑣2)]𝐶 … [T(𝑣𝑛)]𝐶, de modo que [T(𝑣𝑗)]𝐶 es
la columna j de esta matriz, [T(𝑣𝑗)]𝐶 = (
𝑝1𝑗𝑝2𝑗⋮𝑝𝑚𝑗
), es decir, T(𝑣𝑗) = ∑ 𝑝𝑘𝑗𝑘 •𝑤𝑘 y entonces,
𝑇∗(𝑥𝑖∗)(𝑣𝑗) = 𝑥𝑖
∗(T(𝑣𝑗)) = 𝑥𝑖∗(∑ 𝑝𝑘𝑗𝑘 •𝑤𝑘) = 𝑝𝑖𝑗 puesto que 𝑥𝑖
∗(𝑤𝑘) = 1 si i = k y 𝑥𝑖∗(𝑤𝑘) = 0 si i ≠
k. También recordemos que [𝑇∗]𝐵∗←𝐶∗ = ([𝑇∗(𝑥1∗)]𝐵∗ [𝑇
∗(𝑥2∗)]𝐵∗ … [𝑇∗(𝑥𝑚
∗ )]𝐵∗, por lo que,
[𝑇∗(𝑥𝑖∗)]𝐵∗ es la columna i de esta matriz, [𝑇∗(𝑥𝑖
∗)]𝐵∗ = (
𝑞1𝑖𝑞2𝑖⋮𝑞𝑛𝑖
), esto es, 𝑇∗(𝑥𝑖∗) = ∑ 𝑞𝑘𝑖𝑘 •𝑢𝑘
∗
y, entonces, 𝑇∗(𝑥𝑖∗)(𝑣𝑗) = (∑ 𝑞𝑘𝑖𝑘 •𝑢𝑘
∗ )(𝑣𝑗) = 𝑞𝑗𝑖, porque, 𝑢𝑘∗ (𝑣𝑗) = 1 si k = j y 𝑢𝑘
∗ (𝑣𝑗) = 0 si k ≠
j. Por tanto, se tiene que 𝑝𝑖𝑗 = 𝑞𝑗𝑖, para todo i y j. □
EJEMPLO: Ahora consideremos el caso en el que V = 𝐹𝑛 y V’ = 𝐹𝑚 B = 𝐸𝑛, la base estándar
de 𝐹𝑛 y C = 𝐸𝑚, la base estándar de 𝐹𝑚. Entonces, 𝐵∗ = 𝐸𝑛∗ , la base estándar de (𝐹𝑛)∗ y 𝐶∗
= 𝐸𝑚∗ , la base estándar de (𝐹𝑚)∗. Recordemos que la matriz estándar de T: 𝐹𝑛 → 𝐹𝑚, es
[𝑇]𝐸𝑚←𝐸𝑛. Entonces definimos como la matriz estándar de 𝑇∗: (𝐹𝑚)∗ → (𝐹𝑛)∗, la matriz,
[𝑇∗]𝐸𝑛∗←𝐸𝑚∗ . Por lo que vemos que, si T tiene de matriz estándar A, entonces, 𝑇∗ tiene de
matriz estándar, 𝐴𝑡.
Ahora redemostraremos, gracias a todos los resultados que hemos obtenido, las
propiedades de la trasposición de matrices.
LEMA (Propiedades de la trasposición de matrices):
1) Si A y B son matrices de las mismas dimensiones, entonces, (𝐴 + 𝐵)𝑡 = 𝐴𝑡 + 𝐵𝑡.
2) Si A es una matriz y c un escalar de F, entonces, (𝑐 • 𝐴)𝑡 = c•𝐴𝑡.
240
3) Si A y B son matrices que se puedan multiplicar, entonces. (𝐴 • 𝐵)𝑡 = 𝐵𝑡•𝐴𝑡.
4) La matriz A es invertible si y solo si, la matriz 𝐴𝑡 es invertible y entonces, se cumple que,
(𝐴𝑡)−1 = (𝐴−1)𝑡.
DEMOSTRACIÓN: 1) [(𝑇 + 𝑆)∗]𝐵∗←𝐶∗ = [(𝑇)∗ + (𝑆)∗]𝐵∗←𝐶∗ = [𝑇∗]𝐵∗←𝐶∗ + [𝑆∗]𝐵∗←𝐶∗.
2) [(𝑐 • 𝑇)∗]𝐵∗←𝐶∗ = [𝑐 • 𝑇∗]𝐵∗←𝐶∗ = c•[𝑇∗]𝐵∗←𝐶∗.
3) [(𝑇 ∘ 𝑆)∗]𝐵∗←𝐷∗ = [𝑆∗ ∘ 𝑇∗]𝐵∗←𝐷∗ = ([𝑆∗]𝐵∗←𝐶∗)•([𝑇∗]𝐶∗←𝐷∗).
4) [𝐼∗]𝐵∗←𝐵∗ = [(𝑇 ∘ 𝑇−1)∗]𝐵∗←𝐵∗ = [(𝑇−1)∗ ∘ 𝑇∗]𝐵∗←𝐵∗ = ([(𝑇−1)∗]𝐵∗←𝐵∗)•( [𝑇∗]𝐵∗←𝐵∗), de
modo que ([𝑇∗]𝐵∗←𝐵∗)−1 = [(𝑇−1)∗]𝐵∗←𝐵∗. Pero todos estos cálculos se deben a la
proposición 2 de la subsubsección anterior. □
Por último daremos una redemostración de la proposición que hace posible la definición
del rango de una matriz, es decir la siguiente proposición.
COROLARIO: Para cualquier matriz A, dim EF(A) = dim EC(A).
DEMOSTRACIÓN: Tengo T como matriz estándar, A, de modo que 𝑇∗, tiene la matriz
estándar 𝐴𝑡. La dimensión de EC(A) = dim Im(T). Por otra parte, la dim EC(𝐴𝑡) = dim Im(𝑇∗).
Pero sabemos que dim Im(T) = dim Im(𝑇∗). Y sabemos que dim EC(𝐴𝑡) = dim EF(A), por lo
que dim EC(A) = dim EF(A). □