Álgebra Lineal Aplicada - 3ra Edición - Ben Noble James W Daniel 3ra Edición
March 10, 2017 | Author: bethmf3065 | Category: N/A
Short Description
Download Álgebra Lineal Aplicada - 3ra Edición - Ben Noble James W Daniel 3ra Edición...
Description
\\
Algebra lineal aplicada Tercera Edición
BENh B L y Universlty o Wisconsin
JAMES W. DANIEL University of Texas at Austin Traducción: Virgilio González Pozo
Ingeniero Químico-Consultor Revisión Técnica: Mary Glazman Nowolski
Maestra en Ciencias Universidad Nacional Autónoma de México
PRENTICE-HALL HISPANOAMERICANA, S. A.
México, Englewood Cliffs, Nueva Delhi, Londres, Río de Janeiro, Sidney, Singapur, Tokio, Toronto
4.' "
EDICION EN ESPAÑOL
Hugo
EDITOR: SUPERVISOR DE TRADUCCION Y CORRECCION F.Sánchez Antonio ESTILO: DE SUPERVISOR DE PRODUCCION: Juan Carlos Hernández Garcia uzado Raymundo DIRECTOR:
EDICION EN INGLES
Gondlez
hi' & P '
Editoriallproduction: Nicholas C. Romanelli Manufacturing buyer: Harry Baisley
y Herrera
_';
$7
*: .;
L ,
ALGEBRA LINEAL APLICADA Traducido de la tercera edición en inglés de: APPLIED LINEAR ALGEBRA
Prohibida la reproducción total o parcial de estaobra, por cualquier medio o método sin autorización escrita del editor DERECHOS RESERVADOS O 1989 respecto a la primera edición en español por PRENTICE-HALL HISPANOAMERICANA, S.A. Enrique Jacob No. 20 53500 Naucalpan de JuArez, Edo. de Mexico
Miembro de la Cámara Nacional de la Industria Editorial, Reg. Núm. 1524 ISBN 968-880-173-9
Original English language edition published by Copyright 0MCMLXXXVIII by Prentice-Hall, Inc. All Rights Reserved ISBN 0-13-041260-0
O
yu(
PROGRAMAS EWCATIVOG W. CIUBACWO No.65 L O C U A COL. ASTURW. DELEG. CUAUHTEMOC.D.F. C.P.06850
rmo
IMPRESO EN MEXICO/PRINTED IN MEXICO
U
m
O
A Denise, Anna y John Ben A Adam y Joshua, y Ann y Susan
Contenido
PREFACIO
xi
SOBREEL USO DE LAS COMPUTADORAS Capítulo 1: ALGEBRA MATRlClAL
xv
7
-~ l . 1~ Introducción ' 1.2 - -'1.3 1.4 ! 1.5 1.6
i
1 Igualdad, suma y multiplicación por un escalar Multiplicación de matrices 9 Inversade una matriz 23 Matrices separadas 36 Prob1emas"varios 44
3
Capitulo 2: ALGUNAS APLICACIONES SIMPLES Y PREGUNTAS 46
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8
Introducción 46 Competencia entre negocios: cadenas de Markov 47 Crecimiento de la población: potencias de una matriz 55 Equilibrio enredes:ecuaciones lineales 60 Sistemasoscilatorios:eigenvalores 66 Modelos generales: mínimos cuadrados 73 Planeación de producción: programas lineales 81 Problemas varios 87
Capítulo 3: SOLUCION DE ECUACIONES Y CALCULO DE INVERSAS:METODOS 90 "-
3.1 Introducción 90 Solución de ecuaciones mediante la
' 3.2
eliminación de Gauss
91
vi¡¡
Contenido
3.3 Existencia de soluciones a sistemas de ecuaciones: algunos ejemplos y procedimientos 104 3.4 Cómo encontrar una inversa mediante la eliminación de Gauss 109 3.5 Operacionesde renglón y matriceselementales 112 3.6 Selección de pivotes y eliminación de Gauss en la práctica 117 3.7 La descomposic;h-LU 127 3.8 Medidas de trabajo y solución de sistemas ligeramente modificados 138 3.9 Programas computacionalesparala eliminación deGauss 147 3.10 Problemas varios 150 CapítUlO 4: SOLUCION DE ECUACIONES Y CALCULO DEINVERSAS:TEORIA 153
4.1 Introducción 153 4.2 FormareducidadeGauss y rango 154 4.3 Posibilidad de solución y conjuntos de soluciones parasistemasdeecuaciones 162 4.4Inversas y rango 171 4.5 Determinantes y sus propiedades 174 4.6 Representación de inversas y soluciones mediante el uso dedeterminantes 185 4.7 Problemas varios 190 Capítulo 5 : VECTORES Y ESPACIOSVECTORIALES
194
5.1Introducción;vectoresgeométricos 194 5.2Concepto general deespaciosvectoriales 201 5.3 Dependencia lineal eindependencia lineal 208 5.4 Base, dimensión y coordenadas 216 5.5 Bases y matrices 230 5.6 Longitud y distanciaenespaciosvectoriales: normas 5.7Angulo enlosespaciosvectoriales:productosinteriores 5.8 Proyecciones ortogonales y bases: espacios generales y Gram-Schmidt 252 5.9 Proyecciones ortogonales y bases: Rp, Cp, Q R y mínimos cuadrados 261 5.10 Problemas varios 274 Capítulo 6: TRANSFORMACIONESLINEALES Y MATRICES
240 245
277
6.1 Introducción;transformacioneslineales 277 6 . 2 Representacionesmatriciales de transformaciones lineales
286
Contenido
6.3Normasdetransformaciones lineales y matrices 292 6.4 Inversas de matrices perturbadas: condición de ecuaciones lineales 6.5 Problemas varios 308
ix
299
Capítulo 7: EIGENVALORES Y EIGENVECTORES:UNAPANORAMICA310
7.1 Introducción 310 7.2 Definiciones y propiedades básicas 316 7.3 Eigensistemas,factorizaciones y representaciones de transformaciones 326 7.4 Transformaciones de semejanza; forma de Jordan 332 7.5 Matrices unitarias y semejanza unitaria; formas de Schur y diagonal 7.6 Programas decomputadoraparaencontrar eigensistemas 351 7.7Condicióndel problema de los eigensistemas 353 7.8 Problemas varios 358
338
Capítulo 8: EIGENSISTEMAS DE MATRICES SIMETRICAS, HERMITIANAS Y NORMALES,CONAPLICACIONES 361
8.1 Introducción 361 8.2Forma y descomposición deSchur; matrices normales 362 8.3 Eigensistemas de matrices normales 368 8.4 Aplicación: descomposición en valores singulares 375 8.5 Aplicación:mínimos cuadrados y pseudoinversa 385 8.6 Problemas varios 392 Capítulo 9: EIGENSISTEMAS DE MATRICES ARBITRARIAS GENERALES, CON APLICACIONES 394
9.1 Introducción 394 9.2FormadeJordan 396 9.3 Eigensistemas para matrices arbitrariasgenerales 404 9.4 Aplicación: evolución de sistemas discretos y potencias de matrices 9.5 Aplicación: evolución de sistemas continuos y exponenciales de matrices 419 9.6 Aplicación: solución iterativa de ecuaciones lineales 430 9.7 Problemas varios 437 Capítulo lo! FORMAS CUADRATICAS Y CARACTERIZACIONES VARIACIONALE: DE EIGENVALORES 440
10.1 Introducción 440 10.2 Formascuadráticas en Rz 443 10.3 Formascuadráticas en Rp y en @ p
450
409
x
Contenido
10.4 Valores extremos de formas cuad&icas: el principio de Rayleigh 459 10.5 Valores extremos de formas cuadráticas: el principio de minimax 468 10.6 Problemas varios 474 Capítulo I I: PROGRAMACIONLINEAL479
11.1
Análisis de un ejemplosencillo
479
11.2 Un programa linealgeneral 495 11.3 Resolución de un programa linealgeneral
11.4 Dualidad 514 11.5 Problemas varios
501
524
Apéndice I: RESPUESTAS A PROBLEMAS SELECCIONADOS 529 Apéndice 2: BlBLlOGRAFlA553 INDICE DE SlMBOLOS556 INDICE ANALlTlCO 559
Prefacio
Plan general
El álgebra lineal es parte esencial de la herramienta matemática que se requiere en la actualidad para el estudio de muchas áreas de las ciencias del comportamiento, naturales, fisicas y sociales, de la ingeniería, los negocios, la computación, y, por supuesto, de las matemáticas puras y aplicadas. Nuestro objetivo en este libro es el de desarrollarlos conceptosfundamentales del álgebra lineal, haciendo hincapié en los que tienen mayor importancia práctica e ilustrando su aplicabilidad mediante numerosos ejemplos y ejercicios. Sin embargo, aunque seexpongan aplicaciones con propósitos ilustrativosy a fin de despertar el interésdel lector, nuestra meta principal es presentar matemáticas que puedan aplicarse. Hemos tenido gran cuidado en presentar la teoría del álgebra lineal de un modo más bien general, aunque desde el punto de vista más concreto posible. Por consiguiente, comenzamos con el manejo concreto del álgebra lineal y vectorial (capítulo 1) y con la eliminación de Gauss (capítulo 3) antes de la teoria de las ecuacioneslineales (capítulo4) o de las nociones abstractas delos espacios vectoriales (capítulo5) y de las transformaciones lineales (capítulo6). De manera similar, los eigensistemas y varias descomposiciones y formas canónicas relacionadas se presentan (capítulo7 y, con más detalle, en los capítulos 8 y 9) como herramientas para facilitar el estudio de las transformaciones lineales que modelan el comportamiento de sistemascomplicados. Además de presentar brevemente cierto número de aplicaciones en todo el libro, hemos reunido en el capítulo 2 un conjunto especial de aplicaciones para motivar el estudio del material posterior; suponiendo una familiaridad dellector con el álgebra matricial básica del capítulo uno. Por otra parte, no sólo mostramos cómo surgen las matrices en la práctica sino que también formulamos preguntas acerca delas matrices y de sus propiedades que despiertan interésen ideas ulteriores. Los capítulos posteriores hacen referencia a estos ejemplos a manera de estímulo; y para quienes prefieran omitirlo, el capítulo dos es de hecho independiente del resto del libro. Todo el texto se desarrolla a partir de la nociónde las operaciones &mentales de renglón y de la eliminación de Gauss. El contenido del capítulo 3 es xi
xi1
Prefacio
fundamental para casi todos los temas teóricos como aplicados. Es tamente esencial que el estudiante aprenda estas técnicas.
absolu-
Novedades en la tercera edición
Creamos estanueva edición con el objetivo principal de facilitar el proceso de enseñanzay aprendizaje con el libro. A excepción de algunos agregados, el contenido es prácticamenteel mismoque elde la segundaedición; sin embargo, se ha rediseñado la presentación para lograr mejor estilo y más acercamiento. Las formastriangulares producidas por la eliminación de Gausscon frecuencia ls de renglón reducido que se destacan en el trabajo teóricode las reemplazan aa ediciones anteriores. Se han aumentado los conjuntos de problemas, pues estaedición (terceradel inglés, primera en español) contienemás de 1100 problemas, a diferencia de los pocos más de 600 de la segunda edición del inglés. AI final de cada sección, aparece un conjunto deproblemas en lugar de estar esparcidos a través del texto como ejercicios (mezcla de ejemplos y problemas). El primer apéndice contiene respuestas o sugerencias paramás de un tercio delos problemas (indicados con el símbolo D que precede al número del problema). Enumeramos el material expuesto de manera consecutiva para que, por (4.15) se encuentre entre ejemplo el 4.14 y el teorema clave ejemplo, el enunciado 4.16. En las secciones más largas aparecen lineamientos que indican cuáles problemas pueden resolverseutilizando el material presentado hasta ese punto. AI inicio del capítulo 1 aparece también un breve repaso sobre los números complejos ; los resultados se indican por separado para los casos complejos y reales para quienes deseen concentrarse en uno u otro. En esta edición aparecen muchos temas en el texto principal en vez de aparecer únicamente en la sección deproblemas. Se le hadado, por tanto, mayor importancia al teorema deCayley-Hamilton, el teorema de Perron-Frobenius, la y proyecciónmatricial, descomposición-LU,lasproyeccionesortogonales mejor aproximación, frecuencias fundamentales de sistemas oscilatorios, y así sucesivamente. Asimismo se ha incluido material nuevo, con temas tales como transformaciones adjuntas, métodos similares al de Karmarkar parala programación lined, teoría de las desigualdades lineales, convergenciade sucesiones de vectores y matrices e isomorfismos. Se han añadido ejemplos y algunos problemas (alrededor del 6 %I) que hacen uso explícito de la programación por computadora para cálculos matriciales. Aunque el libro aun pueda utilizarse completamente independiente de las computadoras, quienes deseen aprovechar la programación por microcomputadoray su procesador central encontrarán que es fácil hacerlo. Para mayorinformación al respecto, véase el material que sigue a este prefacio. Nos damos cuenta de que este libro se ha utilizado en sus dos ediciones previas para varios cursos. La nueva edición se ha diseñado para continuar con esta opción, quepor supuesto delega especial responsabilidad al instructor para seleccionar el material apropiado. Se dan en seguida algunas indicaciones al
Prefacio
xill
respecto. Aquellos interesados en el uso de las computadoras para apoyo de este texto, también deberán examinar la sección antes mencionada. Uso para los cursos elementales de álgebra lineal teórica Quienes deseen hacer énfasis en las comprobaciones, según el enfoque clásico del tipo teorema-demostración, pueden hacerlo fácilmente. La teoría es fundamental para el álgebra lineal aplicada y por tanto se presenta con gran cuidado (y afecto). El curso estándar de segundo año, con duración de un semestre, cubriría el capítulo 1 sobre álgebra matricial, secciones 1 a 5 del capítulo 3 sobre las técnicas para las ecuaciones e inversas, la mayor parte del capítulo 4 sobre la teoría para las ecuaciones e inversas (incluyendo determinantes); las secciones 1, 5, 7 y 8 del capítulo 5 sobre espacios vectoriales; las primeras dos secciones sobre transformaciones lineales en el capítulo 6, y posiblemente las primeras tres secciones sobre eigensistemas en el capítulo 7 . Esperamos que tales cursos también incluyan algún material orientado hacia la aplicación: la sección del capítulo 2 que ilustra una aplicación, ladescomposición-LU de lasección 3.7, y las normasy mínimos cuadrados de las secciones 5.6 y 5.9 son buenas posibilidades.
Uso para los cursos elementales de álgebra lineal aplicada Junto con las versiones intermedia/avanzada, los cursos introductorios de álgebra lineal han sido el contextoprincipal en los cuales sehan utilizado las dos ediciones previas de este libro durante cerca de veinte años. Hay muchas variaciones posibles en estos cursos, dependiendo las de áreas deaplicación que se desean enfatizar(¿ingeniería? ¿ciencias sociales? etcétera) y cuántas demostraciones se deberán llevar a cabo (¿ninguna? ¿teoremas clave seleccionados? etcétera). A continuación bosquejamos un procedimiento básico que ofreceuna buena selección. El capítulo 1 sobre álgebra matricial deberá cubrirse cuidadosamente, seguido por dos aplicaciones del capítulo 2 (seleccionamos los que se relacionan con los temas que más adelante se enfatizan). Procederíamos después con el capítulo 3 sobre los métodos para ecuaciones e inversas,seguido por un ligero tratamiento dela teoría en el capítulo 4 (especialmente en lo referente adeterminantes); la mayor parte del tiempo se usaría para explicar la teoría, con una demostración instructiva ocasional presentada con detalles. Haciendo hincapié en los hechos, más que en las demostraciones, se cubrirían espacios vectoriales y transformaciones lineales en los capítulos 5 y 6 (la mayoría de las secciones); dándole bastantetiempo a los estudiantes para que retengan los conceptos de dependencia eindependencia lineal. Ya que el capítulo 7 presenta un amplio repaso de la teoría y uso de los eigensistemas, por lo general lo cubriríamos en lugar de los capítulos 8 y 9, que son más detallados y especializados, aunque estos capítulos sean una buena alternativa paraquienes deseen ejercitarseen tipos particulares deaplicaciones.
xiv
Prefaclo
Dependiendo de la disponibilidad de tiempo, podríamos introducir algunos temas de capítulos posteriores: mínimos cuadrados (sección 8.5), ecuaciones diferenciales (sección 9 . 9 , formas cuadráticas (sección10.3) o programas lineales (sección l l . l). Esto cubre una considerable cantidad de material y la clave para hacerlo radica en darle importancia plena a los conceptos y técnicas; con este métodoel material podrá cubrirse de manera considerablemente rápida. Uso para cursos subsecuentes de álgebra lineal aplicada En muchos cursos ha se utilizado nuestro libro por estudiantes que ya tienen alguna introducción al álgebra lineal -frecuentemente en un curso. En tales cursos pueden usarse doso tres temas del capítulo 2 como primera motivación, seguidos por un rápido repaso de los capítulos 1, 3 y 4 (depende de lo que el profesor creaque el estudiante recuerda); las secciones posterioresdel capítulo 3 sobre aspectos prácticosde la solución de ecuaciones-en particular la descomposición-LU-rara vez son delconocimiento del estudiante y deberán estudiarse a conciencia.Después de repasarbrevemente la informaciónbásicasobre espacios vectorialbs en la primera mitad del capítulo 5 , nos concentraríamos en el material referente a normas, productos interiores, proyecciones y mínimos cuadrados. De manera análoga en el caso del capítulo 6 que presenta material sobre normas y matrices cambiadas y que muy probablemente resulte nuevo. La base de tal curso deberá fundamentarse del capítulo 7 al 1 1 . De ello depende igualmente el interés de los estudiantes y si aprendieron eigensistemas en sus cursos previos de álgebra lineal. Ben Noble y James W. Daniel
Sobre el uso de las computadoras
No partimosdel supuestodeque los estudiantes o instructoresusarán computadoras para apoyar su aprendizaje o enseñanza del álgebra lineal. Como siempre ha sido cierto, con las ediciones anteriores, este libro puede utilizarse independientemente del aspecto computacional, independientemente e del inter& del estudiante por lacomputación. Sin embargo, observamos que cada año es mayor el número de estudiantes en nuestras clasesque tienen conocimientos de computación y están acostumbrados a utilizar computadoras -procesadores centrales o microcomputadoras- para ayudarse ensus trabajos devarias maneras, incluyendo procesamiento de palabras, cálculo, análisis de datos,y así por el estilo. seha escritoparafacilitar, a Esta edición de Algebralinealaplicada quienes lo deseen, el aprendizaje y enseñanza interactivoscon la computadora. Ejemplos y problemas
Para reflejar el hecho de que actualmente se realizan cálculos científicos en computadoras, muchos de nuestros ejemplos numerados se basan en su uso. Dicho material es independiente: suponemos que no existe un conocimiento computacionalporparte del estudianteo del instructor. El hecho de que utilicemos computadoras simplemente nos permite considerar y presentar ejemplos mucho más reales e interesantes,que si tuviéramos que restringimos a ejemplos arbitrarios que pueden ser resueltos enteramente a mano. Tales ejemplo$ se indican en el margen por el símbolo tm. De los más de 1100 problemas que presentamos,aproximadamente el 6% se señala con el símboloR. La solución de estosproblemas requiere teneracceso a material de computación,en particular aprogramas diseñados parafacilitar los cálculos matriciales. Los estudiantes e instructores no deberán de escribir sus propios programas parala soluciónde problemas de álgebra lineal -los problemas involucran aspectos sutiles queno son obvios al inexperto. Se disponen de programas magníficos esencialmente donde sepide: véanse secciones 3.9 y 7.6 sobre cómo obtener programas de altacalidad para los cómputos matriciales. Ya que en varias instituciones educativasse provee de centros de microcomputadoxv
xvl
Sobre el uso de las cornputadoras
ras para el uso del estudiante, tratamos con un poco más de detalles algunos programas excelentes que están disponibles para usarse en este medio. MATLAB Nuestro símbolo R proviene de la letrainicial en MATLAB, que significa laboratorio matricial.A lo largo de algunos años, MATLAB fue desarrollado por lineal y análisis Cleve Moler; al principio para la enseñanza en cursos de álgebra numérico, utilizando programas basados en aquéllos de los proyectos LINPACK y EISPACK (por sus siglas en inglés), descritos en las seccionesdel texto ya mencionadas. MATLAB salió al mercado, y fue ampliamente distribuido en versión FORTRAN para computadorasde marco principal.Varias organizaciones comerciales desarrollaron versiones mejoradas para aplicaciones especiales tales como la teoría de control. El siguiente paso evolutivo fueel PC-MATLAB -una versión de la segunda generación; altamente optimizada del MATLAB, desarrollada especialmente para el uso en la microcomputadoraIBM PC. A éste, asu vez, le han seguido otras versiones para microcomputadora para usarse con otros sistemas operativos y otras máquinas. Para simplificar, nos referimos a todo el aspecto de la programación -desde marcos principales hasta lasúltimas versiones de microcomputadoras- por el término genérico “MATLAB”. Personalmente hemos encontrado el MATLAB fácil de aprender (especialmente paraquien se intereselosensistemas de computación), fácil de usar y muy completo. Aún más, el MATLAB puede encontrarse en versiones especialesa costos bastante rebajados para su uso en la instruccion:[contacte can The Math
Works,Inc.,Suite250,20NorthMainSt.,Sherborn,MA01770,(617)653-1415]. Uno no necesita aprender a programar con este sistema altamente interactivo. Las matrices se insertan fácilmente; tecleando
flexible e
A=[123;456;789] se crea precisamente la matriz de 3 x 3 que se espera. Tecleando inv(A) produce su inversa,
su valor característico,
su descomposición-LU, y así sucesivamente.Es por lo tanto tan fácil de usarque es excelente para la asociación aun para un curso primario de álgebralineal. Por
Sobre el uso de las computadoras
xvii
otra parte, e s una herramienta importante para cualquiera cuyotrabajo requiere de cálculos matriciales, ya sea que involucren ecuaciones, sistemas característicos, mínimos cuadrados, análisis de datos, procesamiento de señales o lo que sea. Nos gusta elMATLAB. Se lo recomendamos. Y no tenemosningún interés de tipo financiero en su éxito.
1 Algebra matricial Este primer capitulo es fundamental: su meta es la de dar a conocer las matrices y aquellas manipulaciones algebraicas basicas que el estudiante completamente antes de seguir adelante. Es importante debe de entender practicar la adicidny multiplicacidn de matriceshasta que estas operaciones se vuelvan automaticas. El teorema 1.44 es un teorema Clave, que proporciona labase para m&odoscomputacionales posteriores;la demostracidn del teorema 1.35 es una demostracih clave porque ilustra un argumento general útil.
I. I
INTRODUCCION
Las matrices representan herramientas convenientes para la sistematización de cálculos laboriosos, ya que proveen una notación compacta para almacenar información y describir relaciones complicadas.
( l . 1)
Definicidn. Una matriz p X q (léase “ p por q ” ) es un arreglo rectangularA de p q números (o símbolos que representan números) encerradosen corchetes cuadrados; los números en el arreglo sellaman elementos y están colocados en p renglones horizontales y q columnas verticales. El elemento (i, j ) se denota como (A),I y es lo que se encuentra en el cruce del i-ésimo renglón con la j-ésima columna, enumerando las columnas de izquierda a derechay los renglones de arriba abajo; si A es dep x 1 (una matriz columna)o de 1 X 4 (unamatriz rengldn), entonces se utiliza(A)¡en vez de (A)il 0 (A)li.
Las matrices se denotan con letras negritas A, x, y así sucesivamente. Mediante el último dispositivo nemónico de describirlos elementos ( i , j )de una matriz utilizando subindices con letrasminúsculas de la letra negrita mayúscula que denota a la matriz, escribimos la matriz generalp x q como 1
2
1
/ Algebra matricial
Los elementos de las matrices pueden ser números reales o complejos; aquellos lectoresqueestén inseguros sobrelas propiedades básicasde los números complejos, pueden consultar el breve repaso del final de estapágina. Debido a que frecuentemente surgen matrices convarias estructuras especiales, introducimos alguna terminología para describirlas. (1.3)
Definicidn. a) Unamatriz cuadradaA esp X q conp = q ;los elementos (i, i) para 1 5 i 5 p forman la diagonal principal de la matriz A. b) Una matriz diagonal es una matriz cuadrada cuyos elementos queno están en la diagonal principal son igualesa cero. Por diag(d,, . . . , d,) se entiende quela matriz diagonalp x p cuyos elementos( i , i )equivalen a di para 1 Ii S p . c) Una matriz triangular inferior L de p x q satisface (L)ij= O si i j , para l i i 5 p y l s j s q . e ) Una matriz triangular inferior T o superior- unidad T es una matriz triangular inferior (o superior) que satisface (T)ii= 1 para 1 5 i 5 min ( P , 4).
El uso de la notación matricial nos permite considerar un arreglo de muchos números como un solo objeto, designado por un solo símbolo. Se pueden númeexpresar así de manera concisa relaciones entre los grandes conjuntos de ros que surgen con frecuencia en las aplicaciones. Entre más complicado es el más importante el heproblema, más útiles resultan las matrices. Quizá sea aún cho de que las matrices proporcionan conocimientos queno podrían obtenerse fácilmente -si es que se pudiera- mediante otros medios. Un breve repaso sobre los números complejos. Recuerde que un número complejo tiene la forma a + bi, donde ay b son números reales e i denota Por lo tanto, 3 + 2 i , - 6 + 4.7i, y e - ni son números complejos. También lo son todos los números reales r -ya que son iguales a r + 0i-y todos los números imaginariospuros tipara t real -ya que son iguales a O + t i . Los números complejos se suman y multiplican de manera muy parecida alos números reales,pero se debe teneren cuenta quei. i = - l. Así
m.
(3 - 2 i ) ( - 5
+ 7;) = -15 + 2 1 i + 10; = - 1 + 31;.
- 14ii = -15
+ 31;
- 14(-1)
I
1.2
Igualdad, suma y multiplicaci6n por un escalar
3
El conjugado Tde un número complejo z = a + bi es el número complejo Z = a - bi. La magnitud IzI de un número complejo z = a + bi se define como IZI
Por lo tanto para z = 3
-
= Jzz=
&TP.
2 i tenemos
T=3+2i
y
PROBLEMAS
IzI=J13.
1.1
= 2 - 34 z2 = -1 + 5;, z, = 2;, y z, = -7. Evalúe lo siguiente, escribiendo cada respuesta en la forma estándar a + b;, con a y b reales.
D 1. Sea z1
2. Demuestre que para todos los números complejos z y w ,ZW = 3. a) ¿Cuántos elementos hay en una matriz de p x q?
m.
b) ¿Cuántos en su primer renglón? c) ¿Cuántos en su últinla columna?
D 4. Sean
Dé cada uno de los siguientes: b) el elemento(2, 2) de B 5 a) El elemento(1,2)de A c) El elemento(2, 2) de A .L d) (A)2l - -. e) (B)23 -f) (A)32 ;7 5. Escriba la matriz general A de 3 x 2 con elementos ai, en la forma (1.2). Escriba la matriz general B de 2 x 3 con elementos bi, en la forma (1.2). 6. Escriba la matriz general de 3 X 3 de cada tipo que se menciona en la definición 1.3. 'i
-r
1.2
IGUALDAD, SUMA Y MULTIPLICACION POR UN ESCALAR
En la mayoría de las aplicaciones, las matrices deben combinarse de varias formas, de manera similar a como se combinan los números en aritmética. De
4
1
/
Algebra matricial
hecho, senecesita de conceptos que correspondana las operaciones aritméticas básicas de los números. En estasección se define la suma, la resta, la negación, una forma de multiplicación, y -la clave para todos ellos- la igualdad. (1.4)
Definición. Dos matrices A y B son iguales si y sólo si: a) A y B tienen el mismo número de renglones y el mismo número de columnas. b) Todos los elementos correspondientes son iguales: (A),, = (B)ij para toda i y j .
Esta definición utiliza lafrase “si y sólo si”, que se verá a lo largodel libro. Recuerde que si P representa algún enunciado o condición y Q representa otro, entonces “P si y sólo si Q” significa: ya sea queP o Q sea verdadero, también el otro lo será; si cualquiera de los dos es falso, el otro también lo es. Como gemelos siameses, P y Q siempre aparecen juntos. Ahora podemos definir la suma matricial. (1.5)
Definición. Dos matrices A y B se pueden sumar si y sólo si tienen el mismo número p de renglones y el mismo número q de columnas. La suma A + B de dos matrices p X q es la matriz p X q que se obtiene sumando los elementos de A y B correspondientes. En símbolos,
(A
(1.6)
+ B)ij = (A)ij + (B)ij
para 1 I i I p
y
1 5 . j I q.
Ejemplo. Suponga que las matrices de 2 x 2 A, B y C son
Entonces, A+B=B+A=
[’;“
A+C=C+A=A.
Propiedades de la suma de matrices
Para las dos matrices A y B anteriores, se vioque A + B = B + A . Ya que la suma de matricesse realiza sumando sus elementos correspondientes (que sonnúmeros) y ya quea + b = b + a vale paralos números ay b puede esperarse queA + B sea igual a B + A en el caso de las matrices. Una demostración rigurosa de este hecho debe serun argumento que sea válido para todas las matrices A y B, para todo entero positivop,para todo entero positivo q , para todas las matrices A de p x q , y para todas las matrices B de p x q . El ejemplo 1.6 no es una demostración general; sólo es válido cuandop = 2 y q = 2 , y aquellas matrices específicas A y B dados en él.
/
1.2
Igualdad, suma y rnultiplicaci6n por un escalar
5
El argumento [u
u]
+ [x
y] = [u
+x
u
+ y] = [x + u
Y
+ u1 = [x Y1 + [u
u1
tampoco es una demostración general; sólo prueba el resultado para matrices arbitrarias de 1 x 2 (“arbitrarias” yaque u , u, x,y, pueden tomar cualquier valor posible). Más adelante seda una demostración general. Aunque sean esenciales algunos ejemplos específicos para nuestra comprensión, de las matemáticas, debemos tener en mente la diferencia entre una demostración general y un ejemplo específico. Generalmente omitimos enunciar los números de renglones y de columnas en los teoremas de las matrices, suponiendo que son tales, que todas las operaciones indicadastienen sentido.
Notación convencional importante.
(1.7)
Teorema (leyes de la adición). La suma de matrices es tanto conmutativa
como asociativa. Esto es: a)A+B=B+A b)A+(B+C)=(A+B)+C
(ley conmutativa) (ley asociativa)
DEMOSTRACION
a) Laclave consiste en demostrar que( A + B), = (B + A), para toda i y j . Para demostrar esto se utiliza la definición de la suma de matrices y la conmutatividad de la suma de los números: (A
+ B)ij = (A)ij + (B),
=
(¿por qué?) (B)ij + (A)ij = (B
+ A)ij
para todai y j ; hemos demostrado que la adición de matrices es conmutativa. b) Problema 5. Ahora podrá resolver los problemas del 1 al 6 .
El cero y negación para las matrices
Hay másque aprender del ejemplo 1.6. Nótese quela matrizC, cuyos elementos son iguales a O , se comporta de manera muy parecida a como lo hace el número cero con respecto a la suma: A + C = A para todaslas matrices A, 2 x 2, al igual que a + O = a. De manera más general, si A es una matriz arbitraria, p x q y O es la matriz cero ( o nulo) p x q , cada uno de cuyos elementos es O , entonces (1.8)
A+O=O+A=A.
6
1
I Algebra rnatricial
En el problema 8 se pide que demuestre la ecuación (1.8), y el problema 9 muestra otra manera en la que O se comporta como el número O . Una vez que se conoce el cero, se puede visualizar la negación -a de un número a como aquel número para el cual a + (-a) = O . De manera similar, para una matriz A queremos que-A indique una matriz parala cual A + (-A) = O ; las y de lamatriz cero muestran entonces que -A definiciones de la suma de matrices debe ser la matriz cuyos elementos sean sólo las negociaciones de los de A: ( -A)ij = -(A)u. Y a partir de la negación,podemos definir la sustracciónpor medio de A - B = A + (-B). (1.9)
Definición. a) La matriz p x q ceru (o nula), O, es aquella matriz p x q con
(O),,=O
para 1 s i ~p
1s j ~ q .
y
b) La negacidn -A de una matriz A es aquella matriz p x q con (-A)ij=
-(A)ij
para 1 l i s p
y
1 Ijsq.
c) Se definela diferencia A - B de dos matrices A y B si y sólo si ambos, A y B son p x q , y entonces A - B es aquellamatrizp x q con A - B = A + (-B) Y (A - B)ij = (A)ij - ( B ) i j para 1 I i 5 p
y
1 I j I q.
Ahora podrá resolver los problemas del 1 al 12.
Múltiplos escalares de matrices
Parece natural escribirA Por supuesto, (A
+ A como 2A, el producto
delnlimero 2 y lamatriz A.
+ A)ij = (A)ij + (A)ij = 2(A)ij,
así que también parece natural definir el producto 2A mediante ( M ) , = 2(A)u, esto origina la definición general del productorA de un número r-ya sea real o complejo- y una matriz A. (1.10)
Definición. Sea A una matriz dep X q y r un número real o complejo (frecuentemente llamado escalar). Entoncesel múltipfo escalar rA de Y y A es la matriz p x q con
(1.1 1)
de 2 x 3 % matric5s L i
Ejemplo. Sean E y F 1 -?
’=[
S
\ I
-2 x
3 +21, -7
4 6 I ,
,
I
4E
=
2E - 3F =
F=
~,
.
[:
[
-8 4x -19
[2x - 3
16 24
, I
y 3
..
i‘’,
& 1
-!\
Entonces
Igualdad, suma y multiplicacibn por un
/
1.2
I
12+8¿ - 28
18+ - 34yi 3
-14
\.
escalar
7
:
-4 J -3; . 45,
y
+ 9;
1-
La suma, negación y sustracción de matricesse combinan con la multiplicación por medio de escalares de una manera simple, como puede mostrarse de las definiciones de la igualdad de matrices y de las diferentes operaciones. En el problema 15 se pide que demuestre lo siguiente. ( l . 12)
Teorema (leyesdel múltiplo escalar) a) (r + s)A = rA + SA b) r(sA) = (rs)A c) r(A + B) = rA + rB d) (-l)A = -A e) OA = O f)rO=O
Hasta ahora las matriceshan se comportado de manera muy similar a símbolos que representan números.Las sorpresas se han reservado para lasiguiente sección, donde se considera la multiplicación de matrices por matrices. PROBLEMAS
D 1. Interprete el enunciado A valores de x, y , z y w ,si
=
1.2
B elemento por elemento para encontrar los
2. Suponga que P y Q representan, cada uno,un enunciado, y se sabe que es un
hecho que“ P si y sólo si Q”. ¿Qué se puede concluir del hecho adicional de que Q es falso? 3. Sean las matrices A, B, C, D, E y F definidas como
8
1
/
Algebra matriclal
Evalúe (o conteste “indefinido”). b)B+F a)A+B d ) D + Ec ) C + D e)A+C f) C + E y compare con E + C 8) (A + B) + F y compare con A h)F+D
+ (B + F)
+ A)ij = 2 (A)i, para todas las matrices A de 2 x 3. b) Demuestre el mismo resultado para todas las matrices p x 4.
D 4. a) Demuestre que ( A
5. Demuestre el teorema 1.7(b), la ley asociativa de la suma de matrices. 6. La traza tr(A) de una matriz A p x q es la suma de los elementos sobre la
diagonal principal de A. Demuestre que tr(A
+ B) = tr(A) + tr(B).
7. Sean lasmatrices de laAa l a F las mismasdel problema3. Evalúe (oconteste
“indefinido”). a)A-D b) -D C ) -F d)B-F e)E-C f) -(A - B) 8) -B - C h) - B - A i) -(A + B) y compare con -A - B
D 8. Demuestre (1.8): A
+ O = O + A = A para toda
A.
9. Para matrices A p x q , demuestre que A = -A si y sólo si A es la matrizcero. 10. Demuestreque tr(A - B) problema 6.
=
tr(A)
-
tr(B), donde tr(A) es la traza del
D 11. Examinando los elementos, demuestre que A + (-A) = O. 12. Examinando los elementos demuestre que A - A = O. 13. Sean las matrices de la A a la F las mismas del problema 3. Evalúe (o conteste “indefinido”). a) 5A b) (2 - 3c’)B c) (-3)C y compare con - (3C) d) 2D - C e) -lOE 0 6F g) ( 2 + c ‘ F h) OA i) OB + C D 14. Demuestre que ( - r ) A = --@A). 15. Demuestre el teorema 1.12 sobre las leyes de los múltiplos escalares.
/
1.3
16. Demuestre quetr(rA) problema 6. 1.3
Multiplicaci6n de matrices
9
r{tr(A)}, donde tr(A) es la traza definida en el
=
MULTlPLlCAClONDEMATRICES
Hay varias nociones diferentes del producto de dos matrices, dependiendo del uso con el que seaplique elconcepto. Aquí se presenta la definición con el rango más amplio de aplicaciones; para otras nociones sobre el producto, vea los problemas 9 , 1 0 , 1 1 y 49. El producto AB de dosmatrices se definirá en términos de los productos de los renglones de A y las columnas de B,así que primeramente se define el producto uv entre una matriz de renglón de 1 X q , u y una matriz de columna v de q X 1 . Definición. Sea u de 1 x q y v de q x l . Entonces uv es la matriz 1 x 1 cuyo
( l . 13)
elemento es
,
Por ejemplo, [4
1.
>.
'y,
-1
31[-J
=
[(4)(2)
+ (-
1N1)
+ (3)(-5)1
=
[-81
Observe queuv es una matriz 1 x 1 , no un número; en el ejemploanterior, el no el número -8. Con base en esta definición producto es la matriz [ -8 construimos aquélla para el caso general.
1,
(1.14)
Definición. Sea A una matriz p x q y B una matriz q x r . Entonces el producto AB se define como la matriz p X r cuyo elemento ( i , j ) es el elemento de la matriz 1 x 1 que es el producto del i-ésimo renglónde A y la j-ésima columna de B. Esto es,
Observe que, para que AB esté definido, el número de columnas en A debe ser igual al número de renglones en B. No necesita memorizar esta regla tal y como se presenta;sólo recuerde que semultiplican loselementos de izquierda a derecha de un renglon de A por los elementos de arriba abajo deuna columnade B, y que los elementos deben de terminarse al mismo tiempo. También puede recordar que (p x r ) por ( r X q ) da O, x q ) -los términos centrales ( r ) deben
10
1
Algebra rnatrcial
/
concordar y además “cancelarse” en el resultado. Un ejemplo gráfico de c encontrar el elemento (3,2) del producto C de una matriz A 6 x 5 y una matriz B 5 x 4es
Po
x x Tercer renglón
x x
x x
x x
x x
~
x x
x x
x x
x x
X
’
X
X
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
X
X
X
X
X
x
x
x
x
A
r Segunda columna X
Tercer renglón
7 Segunda columna C
-
B
+
El procedimiento es el de generarel producto AB multiplicando cada renglón el de A por cadacolumna de B. Una manera metódica de hacerlo es la de obtener primer renglónde AB multiplicando el primer renglónde A por cada columna de B ; después obtener el segundo renglón de AB multiplicando el segundo renglón finalde A por cadacolumnade B ; y asísucesivamente,hastaobtener mente el último renglónde AB multiplicando el último renglónde A por cada columna de B. ( 1 .15)
Ejemplo
[-: :I[:
3 -1
;I=[
-4
8
-8
5
14 41
Y
Es importante practicar el procedimiento de renglón-columna para la multiplicación de matrices hasta quese vuelva automático. Además, deberá ser capaz de seleccionar inmediatamente elrenglón de A y la columna de B que se combinan para dar un elemento particular de AB. Ahora podrá resolver los problemas del 1 al 8. Propiedades de la multiplicación de matrices
Se ha definido lo que es el productode matrices; la siguiente tarea es aprender cómo se comporta -saber si es conmutativo, si es asociativo, etc. Considere primero la conmutatividad: ¿Es AB = BA?
1.3
/
Multiplicacibn de matrices
11
Si
entonces se define tanto AB como BA:
Los productos AB y BA son bastante diferentes. En general y aun cuando se defina el producto AB, no hay razón para que el producto BA esté definido: AB tiene sentido si A es p x r y B es r x q , pero el producto BA no tiene sentido a menos que p = q . Cuando por casualidad tanto AB como BA tienen sentido, como enel caso anterior,no es necesario que ambas sean p X q : si A es p X r y B es r x p , entonces AB es p x p mientras que BA es r x r . Por último -vea los problemas 12 y 13- aun y cuando AB y BA sean p x p , no necesariamente tienen que seriguales (aunque en algunos casos podría serlo). Por lo tanto, el producto de matrices no es conmutativo. Esto significa que al multiplicar matrices, deberá de tener cuidado con el orden delos términos en el producto. Paradistinguir el ordenen el producto AB, se dice que A premultiplica a B o multiplica a B desde la izquierda; de manera similar Bpostmultiplica a A o multiplica a A desde la derecha. Entonces, si desea multiplicar ambos lados deuna ecuación X = Y por alguna matriz P, es importante que, ya sea que premultiplique ambos ladospor P o postmultiplique ambos lados por P; PX = PY, por ejemplo, seráválido yaque X = Y implicaque X - Y = O y por lo tanto
o = PO = P(X
-
- Y)
= PX
- PY,
lo cual significa que PX = PY. (Hemos supuesto aquí la ley distributiva como cierta, y será presentada en breve.) Existe un caso especial en el queel orden de la multiplicación noes importante: cuando cadamatriz es alguna potencia entera positiva de la misma matriz cuadrada. Definimos aquí las potencias del modo natural: (1.16)
A'
= A,
A2 = AA,
A3 = AAA,
A" = AA . ' . A (n factores).
Entonces sesigue claramente queATAs= A'+s = ASA'; esto es,A' y A8conmutan.
R ( l . 17)
Ejemplo. Aun para matrices relativamente pequeñas -2 x 2 o 3 x 3, digamos- el cálculo a mano de potencias más que pequeñas de la matriz, puede ser tedioso; para esto, un programa computacional como el MATLAB puede ser extremadamenteútil. En las secciones 2.2 y 2.3 se verá que, en muchos tipos de aplicaciones, es esencial aprender cómo las potencias A' de una matriz cuadrada A específica, se comportan para r grande entera. Para la matriz A de 2 x 2 abajo, las potencias A2 y A3 por sí
12
1
I
Algebra matricial
solas indican poco sobre el comportamiento de A' para un? r grande. Pero el MATLAB, por ejemplo, calcula fácilmente las potenzias mayores e indica que A' tiende a O a medida que r tiende a infinito. 3emostrar este hecho es un reto que se enfrentará en u n capítulo posterior. A = [ -0.18 0.6
A25 =
A100
=
[ [
AS0
-0.527 0.9971
0.670 '
-0.359 -
0.0009
-0.0005
=
[
-
0.08I
-0.052
"ob",']'
0.001 5 1 0.0009 '
Aunque la multiplicación de matrices no es conmutativa, si es distributivaA(B+C)=AB+AC y (B+C)A=BA+CA -y asociativaA(BC) = (AB)C
-siempre que todos los productos tengan sentido. Antes de demostrar estas leyes, introducimos una matriz que juega el mismo papel en el producto de matrices que lamatriz cero en la suma de matrices. El número 1 tiene la propiedad especial de que l a = a l = a para todos los números a; se busca entonces una matriz con propiedades similares. (1.18)
Defnicidn. La matriz identidad ( o unidad) r diag(1, . . . , 1 ) : (Ir)ij = 1 si i = j ,
(I,)ij
X
r es la matriz diagonal 1, =
=
O si i # j ,
de modo que 1
o
o
1
o ... o
o
o
1 O . " o .'. o
I, =
o
'.. 0
f
o
o
:j.
o 1
Eliminaremos el subíndice r cuando no se necesite.
Es fácil verque si A e s p x q , entonces I& = A. Esto significaque, las matrices I, e I, juegan el mismo papel que el número 1 en la multiplicación.
1.3
I Multiplicaci6n de matrices
13
Ahora estamos preparados para enunciar los hechos clave concernientes a la multiplicación de matrices. (1.19)
Teorema (leyesde lamultiplicación dematrices) a) A(BC) = (AB)C (ley asociativa) b) A(B f C) = AB f AC (ley distributiva) ley distributiva) (A +_ B)C = AC f BC C) AI = A (I es una identidad para la multiplicación) IA = A d) c(AB) = (cA)B = A(cB) e) A0 = O OB = O f) Para una matriz A cuadrada: (definición) (A)’ = I (definición) (A)’ = A (A)”” = (A)(A)” (definición); (para n y m (A)“(A)”= enteros positivos) g) La multiplicación de matrices no es conmutativa; por lo general AB no es igual a BA. h) En general la cancelación multiplicativa no es válida; si AB = AC (o BA = CA), no se sigue necesariamente que B = C. DEMOSTRACION. Cada prueba implica el demostrar que alguna matriz L es igual a algunamatrizR mediante la definición1.4. Se demuestra por tanto la igualdad de los elementos correspondientes. a) S u p o n g a q u e A e s p x q , B e s q x r , y C e s r x s . E n t o n c e s p a r a l I i I p y 1 ‘ j IS , se tiene
(A(BC)),,
=
t t
k= 1
=
,(A)ik(BC)k,
k= 1
{
i i =(A>ji (1.21)
Para Ii I q
y
1 < j q , entonces posiblemente A no tenga una inversa derecha, pero posiblemente sí tenga una inversa izquierda. Se tienen suficientes herramientas amano para demostrar un teorema sobre los diferentes tipos de inversas.
(1.33)
Teorema (inversasbilaterales). Sea A una matriz. a) Si existen para A una inversa izquierda L y una inversa derecha R , entonces son iguales y son una inversa (bilateral). b) Cualesquiera dos inversas (bilaterales) de A son idénticas. DEMOSTRACION.
a) Sean L y R inversas izquierda y derecha, respectivamente, de A, de manera que LA = I y AR = I. Entonces L
= LI = L(AR) = (LA)R = (1)R = R,
de modo que L = R , como se pedía y esta matriz sirve como inversa izquierda y derecha -esto es, esuna inversa (bilateral). b) Suponga que X y Y son inversas (bilaterales) de A. Entonces X es también una inversa izquierda de A y Y es también una inversa derecha de A; de la parte a), podemos concluir que X = Y. Ahora podrá resolver los problemas 1 al 9.
28
1
Algebra matrlcial
/
Matrices no singulares
Los ejemplos anteriores y el examen previo en (1.32) muestran que las inversas (bilaterales) son la excepción más que la regla. La propiedad de tenerla inversa es tan importante que las matrices con tales inversas sedistinguen con un nombre especial: el de no singulares. (1.34)
Definicidn. a) Una matriz no singular es una matriz (necesariamente cuadrada) A que tiene una inversa X: para unaA no singularexiste una X con AX = XA = I. Esta inversa se denota mediante A-l. b) Una matriz singular es una matriz cuadrada que no tiene inversa.
La primera pregunta que surge con frecuencia cuando encontramos una matriz cuadrada es "Les singular o no singular?" Más adelante se desarrollarán herramientas teóricas para responder a estas preguntas, pero, computacionalmente, se responde tratando de encontrar una inversa con los métodos de los ejemplos 1.27, 1.29, 1.30 y 1.31 -sin olvidar (1.32) a). Pero si de algún modo se tiene una matriz X que sea "la mejor candidata" para la inversa A" de A, puedeverificarla tan sólo con comprobar si AX = I y XA = I -que es la herramienta clave utilizada en la demostración del siguiente teorema. En esa demostración verificamos ambas ecuaciones AX = I y XA = I, aunque el examen previo 1.32 a) -todavía sin demostrar- muestra que sólo tenemos que probaruna ecuación. (1.35)
Teorema. Sean A y B matrices no singulares p x p . Entonces: a) AB es no singular y (AB)" = B-IA-'. b) A-' es no singular y (A-l)-l = A. c) AT y AH son no singulares con (AT)-' = y (AH)-' =
1.4
/
Inversa de una matriz
29
La demostración anterior es clave porque es un modelo de demostraciones de que unamatriz dada G es lainversa de una matriz dada H; así, sólo demostramos que GH = I y HG = I. En algunos casos sólo se tiene H y parte del problema consiste en determinar la fórmula para G. En a) del teorema 1.35, por ejemplo, si sólo se diera H = AB y se tuviera que adivinar la fórmula para G, se razonaría de la siguiente manera: es necesaria unaG tal que G(AB) = I; postmultiplicando esta ecuación por B" cambia a GA = B-', y después, postmultiplicando esta ecuación por A" cambia a G = B"A", dando un candidato para la inversa de AB. Procederíamos entonces como en la demostración del inciso a), con el fin de demostrar que nuestra suposición para la inversa es, de hecho, correcta.
Ahora podrá resolver los problemas del 1 al 23.
Matrices, inversas, y sistemas de ecuaciones
Recuerde que nuestra discusión se originó a partir de las inversas de matrices por analogía con las inversas núméricas l / a para los números a. Un uso frecuente de las inversas numéricas. es el de resolver ecuaciones: la ecuación 3x = 7 se resuelve multiplicando ambos lados de la ecuación por 1/3 para obtenerx= 7/3. En seguida examinamos la soluciónde ecuaciones matriciales Ax = b mediante el uso de A-l. Suponga que A es una matriz p X q de números conocidos, x es una matriz columna de 4 x 1 de números desconocidos, y b es una matriz columna de p x 1, de modo que la ecuación Ax = b tiene sentido comoun problema para encontrar una matriz x desconocida que satisfaga esta ecuación. Para ver lo que esta ecuación significa, se escribe en términos de los elementos dea l s matrices A, x, y b. Las definiciones de multiplicación de matrices e igualdad de matrices revelan que (1.36)
la ecuación Ax = b con A p X q conocida, con elementos (A), = a,, x q x 1 desconocida con elementos (x)i = xiy b p x 1 conocida con elementos (b)*= bi
30
1
/ Algebra matricial
es equivalente a UflXl a21x1
+ +
a12x2
u292
+ . . . + q q x q= b , + . . + a+, = b2
'
............ aplxl + ap2x2+ . . . + apqxq= b, u n sistema de p ecuaciones lineales en las q incógnitas xl, x2, . . . , x*. Así, Ax = b es una notación compacta para escribir un sistema dep ecuaciones lineales en q incógnitas. La notación matricial compacta también indica un método posible para solucionar tal sistema, mediante analogía con lasolución de 3x = 7 multiplicando ambos ladospor 1/3:multiplique ambos lados de Ax = b por A" (si existe) para obtener una solución x = A"b. Por supuesto, esto sólo es válido si A es no singular; en particular, A debe ser cuadrada: el número de ecuaciones debe ser igual alnúmero de incógnitas.El teorema 1.38 abajo explica qué sucede para una matriz A no cuadrada con una inversa o derecha. (1.37)
Ejemplo. Considere el sistema dedos ecuaciones lineales 2x
-
3y
= - 13
x +4y=
10
con dos incógnitas x y y . Por (1.36), esto equivale a Ax = b si
En este caso,
se convierte en
Se puede comprobar que x = -2 y y sistema de ecuaciones.
=
3 que, efectivamente, resuelve el
La situación general que relaciona la solución de sistemas de ecuaciones lineales con varias matrices es como sigue: (1.38)
Teorema (ecuaciones e inversas). Sea Ax = b la representación del sistema de p ecuaciones lineales en q incógnitas como en (1.36).
1.4
I Inversa de una matriz
31
a) Suponga queA tiene una inversa izquierda L. Siexisten soluciones x a la lo tanto, existea ecuación Ax = b, entonces deben ser iguales a Lb; por lo mucho una solucibn, es decir, Lb, pero posiblemente no exista ninguna. b) Suponga que A tiene una inversa derecha R. Entonces Rb es una solución a Ax = b; por lot a n t o , existe al menos una sofucidn, es decir Rb, pero podría haber más. c) Suponga que A es no singular. Entonces existe exactamente una solucion a Ax = b, es decir A"b. DEMOSTRACION
a) Si existe alguna solución x. a Ax = b, entonces por supuesto b Premultiplicando esta ecuación por L se tiene Lb = L(Ax,) = (LA)x,
= Axo.
= Ix, = X,,
que indica que x. debe ser igual a Lb si x. es una solución. b) Para mostrar que Rb es una solución, sólo se comprueba si A(Rb) es igual a b: A(Rb) = (AR)b = Ib = b, por lo tanto Rb es una solución. c) Si A es no singular, entonces A" existe y sirve como una inversa izquierda y una inversa derecha de A. Ya que A" es una inversa derecha, el inciso b) muestra que A-lb es una solución; ya que A" es también una inversa izquierda, el inciso a) muestra que cualquier otra solución también debe ser igual a A - lb. Ahora se sabe que se pueden solucionar sistemas de ecuaciones mediante el uso de matrices inversas. Pero ¿cómo se obtienen las matrices inversas? Mediante la solución de sistemas de ecuaciones -¡exactamente el mismo tipo de problemas que se querían resolver desde un principio! En la práctica, como después se mostraráen detalle, es, por lo general, mucho más eficiente resolver el sistema de ecuaciones representado por Ax = b directamente, que calcular primero A" y luego calcular A-lb; véase el problema 27. Sin embargo, el concepto y representacion de la solución como x = A"b pueden ser muy poderosos para el entendimiento de ciertos aspectos de algunos problemas. PROBLEMAS
1.4
D 1. Determine directamente si existe una inversa izquierdaLparala matriz A del ejemplo 1.29; si existe, encuentre L.
32
1
I
Algebra matriciai
2. Determine directamentesi existe una inversa derechaR para la matriz A del
ejemplo 1.30; si existe, encuentre R. 3. Demuestre que no existe una inversa izquierda ni una derecha para
D 4. Encuentre todas las inversas izquierdas posibles para la matriz A que aparece a continuación,y demuestre que no existe un inversa derechapara A.
!Dl 5. Utilice el MATLAB o algún programa similar para calcular XA y AX utilizando las matrices X y A del ejemplo 1.3 1 para probar si X es la inversa exacta deA o sólo una aproximación numérica muy cercana. (Note quees probable que la computadora no pueda representar de manera exacta a la matriz A debido a las fracciones i, $, , etc.) !Dl 6. Utilice el MATLAB o algún programa similar para calcular la inversa de la matriz A del ejemplo 1.31 y compare el resultado de su computadora con la matriz X del ejemplo 1.3l . 7. Demuestre el teorema 1.28 sobre las inversas izquierda y derecha.
D 8. a) Demuestre que Les una inversa izquierda para la matriz A si y sólo si LT es inversa derecha para AT. la A si y sólo si RTes b) Demuestre queR es una inversa derecha para matriz una inversa izquierda paraAT. 9. La cancelación en las ecuaciones de matrices es válida siexisten las inversas apropiadas. a) Suponga que A tiene una inversa izquierda y que AB = AC; demuestre que B = C. b) Enuncie y demuestre un resultado análogo para las inversas derechas.
D 10. Para cada una de las matrices siguientes, determine si es una matriz no singular y -si lo es- encuentre su inversa.
11. Muestre que A es singular, donde
I
1.4
4
Inversa de una matriz
33
6-1.
-3
A=[-*
D 12. Suponga que D = diag(d,, . . . , d p ) . a) Si di # 0 para 1 Ii Ip, demuestre que D es no singular y que D-'
= diag(l/d,,
. . . , l/dp).
b) Si algunos de los di= O demuestre que D es singular. 13. Demuestre que la matriz general A 2 x 2 mostrada abajo es no singular si y sólo si su determinante A -que se define como A = u11u22- u12u21- no es cero, y que A" es como se indica si A # O.
14. Complete la demostración del teorema 1.35 b) sobre la inversa de A-l.
D 15 Demuestre el teorema 1.35 c) sobre la inversa de AT y de A". 16. Si A es no singular, se puede definir la potencia matricial A' para enteros negativos r -aunque ciertamente no como el producto de r factores de A como se hizo para eilteros positivos r . Si n es un entero negativo y A es no singular, entonces se define A" como (A- ')(-"), donde el exponente - nde la inversa de A es ahora un entero positivo para el cual es válida la definición original. Demuestre que, para unaA no singular, el enunciadoArAs = A " s es verdadero para todo entero r y S (independientemente de su signo). 17. Supongaque A, B, y A + B son no singularesp x p. Demuestre queA-' + B-l es también no singular, y que
+ B-')-'
= A(A
y que esto a su vez es igual a B(A
+ B)"A.
(A-'
+ B)"B
9N 18. Utilice el MATLAB o algún programa similar para verificar la fórmula del
problema 17 cuando
r A=
j-k
2
-1
O
2
-1
o
-1
01 Y
B=3L
D 19. Suponga que A es no singular. a) Demuestre que A es simétrica si y sólo si A" es simétrica. b) Demuestre que A es hermitiana si y sólo si A" es hermitiana. 20. Suponga que A, B y C son matrices no singularespx p. Demuestre que ABC es no singular y que (ABC)" = C"B"A-'.
34
1
I
Algebra matricial
D 21. Suponga que A l , Az, . . . , Ak son matrices no singulares p x p . Demuestre que el producto AIAz . . . Ak es no singular y que (AIA, . . . AJ'
'AL-',
= A;
'
. . A;
Ixll 22. Sea B la matriz simétrica 6
X 6 formada por los 36 elementos en la esquina superior izquierda de la matriz A del ejemplo 1.31 -esto e s , (B),J = (.4), para 1 5 i S 6 y 1 5 j S 6. Utilice el MATLAB o algún otro programa para calcular lainversax deB y evaluar XB y BX para verificar si X es una inversa exacta de B o sólo una buena aproximación numérica. 23. Utilice el MATLAB o algún programa similar para estudiar las matrices simétricas 5 x 5
A,=
[; ; z
o o
o
z - 1
-1 O
-1 z
-1
-1o
-:
-1
-p o
o
y obtener diferentes valores reales de z como sigue: a) Demuestre que A, es no singular, encontrando su inversa. b) Demuestre que A2 es no singular, encontrando su inversa. c) Demuestre que A. es singular, intentando encontrar su inversa. d) Disminuyendo lentamente el valor de z desde 2, y tratando de encontrar los inversos de las matrices A,, encuentre el primer valor de z menor que 2 para el cual A, es singular. (Nota: Las matrices A, en sus versiones p X p son importantes en la solución numérica de ciertos tipos de ecuaciones diferenciales, especialmente para una p muy grande.)
D 24. Encuentrea lsmatrices A, x y b para que la ecuación Ax
= b sea equivalente aa ls dos ecuaciones lineales con dos incógnitas x y y que se muestran abajo; además utilice la matrizA-' dada para resolverparan y y ; demuestre que A-:, x y y son correctas.
25. Encuentre las matrices A, x y b para quela ecuación Ax = b sea equivalente a las dos ecuaciones lineales con dos incógnitas x y y ; calcule y use A-' para resolver x y y.
3x-y=
2
-5x + y = - 4
D 26. Calcule A-' y utilícela para resolver la ecuación AX
=
B, donde
1.4
I
35
Inversa de una matriz
Escriba los sistemas de ecuaciones lineales en términos de x, y , u y v que sean equivalentes a AX = B. 9Jl 27. Considere elsiguiente sistemade 1Oecuaciones lineales con 10 incógnitasx,, x2, . . . , x,o: 2x, -x1
-
x,
+ 2x, -x2
=1 -
=1
x3
+ 2x3 - x4 -x3 + 2x4 - x5 -x4 + 2x5 - x6 -x5 + 2x, -x6
=1 =1 =1 -
x,
=1
+ 2x7 - x g =1 -x7 + 2xg - x9 =1 -xg + 2x9 - x l 0 = 1 -x9 + 2 X 1 0 = 1.
a) Encuentre las matricesA, x y b para que la ecuación Ax = b sea equivalente a este sistema de ecuaciones. b) Utilice el MATLAB para calcular A" y la solución como el producto de A" y b; al introducir la instrucción flops del MATLAB tanto inmediatamente antes como inmediatamente después de este proceso de dos pasos, cuente el número de operaciones en punto flotante involucradas al encontrar a x mediante este método. c) Utilice el MATLAB para encontrar x directamente, introduciendo la instrucción del MATLAB x = A\b, y utilice la instrucciónflops del MATLAB como en el inciso b) para determinar el número de operaciones en punto flotante involucradas al encontrar a x mediante este método. d) ¿Cuál es m á s eficiente, el método del inciso b)o el método del inciso c)? 28. Considere el análisisdiscreto de Fourier descrito para N = 3 en el problema50 de la sección 1.3. La determinación de los coeficientescka partir de los valores dadosf, requiere de la soluciónde Zc = fen la notaciónde eseproblema. SeaZ la matriz 3 X 3 de los complejos conjugados de los elementos de Z. a) Demuestre que ZZ = ZZ = 31, y que Z - = f Z. b) Para la matriz Z que se encontró explícitamente en el problema 50 c), utilice explícitamente el incisoa) para encontrar Z - l . c) Utilice Z" para resolver la ecuación Zc = f si f = [2 - 2 4IT.
36
1
/
Algebra matriclal
D 29. En el problema 50 d) dela sección 1.3, se enunció queZ(x * = ZxTU ZyT en la notación de ese problema. a) Mediante el problema 28 demuestre que la convolución x * y puede calcularse como sigue (x * y)T = +Z(ZX"o Zy").
b) Verifique que la fórmula del inciso a) funciona correctamente cuandox = [2 - 4 21 y y = [-2 6 41. 30. Considere la transformada general discreta de Fourier Zc de c como se describió en el problema 5 1 de la sección 1.3. Como enel problema 28 de N = 3, muestre para cualquier N que ZZ = ZZ = y Z" = (l/N)Z. Para resolverlo tendrá que considerar los siguientes hechos: 1) Z" = 1; 2) (2)" = 1; 3)1+r+r2 + ~ ~ - 1 = N s i r = l ; y 4 ) 1 + r + ~ + + ~ ~ ~ - 1 = / ( Y - 1) si r f 1. 31. Utilice el problema52 de la sección 1.3 y el problema 30 para mostrar quela convolución x * y de dos matrices renglón de I x N puede calcularse como e
-
.
D 32. Utilice el problema28 paraencontrarla formaexplícitadela serie de Fourier e'" + c2c2,.y como en el problema 50 de la sección 1.3, utilizando e" = cos 1 + sen t , si los valores.6 = f ( x j ) son: a).f, = 0,,f2 = 4,f3 = 16; b)fl = 2, fi =V% s(s) =
-(a+ 1).
1.5
+
('(,
c 1
l,.f3 =
MATRICES SEPARADAS
En el ejemplo 1.27 de la sección anterior, las ecuaciones se tenían que resolver para encontrar una inversa derecha dividida en dos conjuntos y cada conjunto tenía sólo las variables formando una columna de la inversa derecha. Lo mismo sucedía en el ejemplo 1.29. Por otra parte, en el ejemplo 1.30, las variables en cada conjuntode ecuaciones formaban un renglón de la inversa izquierda-en vez de una columna de la inversa derecha. Estos ejemplos muestran que, en ocasiones, es útil pensar en una matrizpor partes o separada en sus renglones o en sus columnas; esto se vio antes en la definición del producto de matrices AB, donde de hecho separamos A en sus renglones y B en sus columnas para poder formar el producto. De manera más general, a veces es útil pensar en una matriz como formada por varias matrices más pequeñas de diferentes formas. De este modo, se puede pensar en lamatriz
I Matrices separadas
1.5
37
en términos de sus columnas
c,
=[:I, =[;l. c2
Y
c.=[-:]
escribiendo A = [C, C2C,] . O se puedepensar en A en términos de sus renglones R, = [ 2 O - y R2 = [ 1 3 21 escribiendo
13
Incluso se podría escribir
donde A,, = [ 2 O], Alz = [ - 1 1 , A2, = [ 1 31, y Azz = [2]; así consideramos a la matriz A separada del siguiente modo:
Observe el uso de las líneas punteadas para indicar la separación cuando los elementos son números y no matrices. (1.39)
Definkidn. Se dice que una matriz A es separada cuando se dibujan líneas verticales punteadas que atraviesan la altura completa de la matriz entre columnas seleccionadas y líneas horizontales punteadas que atraviesan lo ancho de la matriz, dibujadas entre renglones seleccionados. Las pequeñas matrices que seforman a partir de los elementos contenidos dentro de10s rectángulos formados por estas líneas se llaman submatrices de la partición o separación de A.
Suponga que dosmatrices A y B p x q se separan del mismo modo mediante A = [Al
A21
y
B = [Bl
B2],
donde A, y B, son p x r y Az y B2son p x ( q - r ) ; entonces resulta obvio que A + B = [Al + Bl A, + B,]. De modo similar, suponga que una matriz A p
mientras que la matriz B r x q se particiona en
X
r se separa en
.
38
1
/
Algebra matricial
Resulta entonces claro que el producto AB puede separarse así: AB=[ Al,B, + 4 2 B 2 A2 IB, + A 2 P 2
1
siempre y cuando las submatrices sean tales que cada uno de los productos y sumas tenga sentido; para comprobar esto, sólo tiene que escribir el producto en sus dos formas, regular y separada, mostrando los elementos individuales, y verificar que los resultados sean iguales. La regla general es como sigue:
(1.40)
Las matrices separadas pueden sumarse, restarse, multiplicarse entre sí y multiplicarse por escalares comosi las submatrices fueran números, mientras que se conserveel orden correcto enlos productos y las separaciones sean tales que las sumas, restas y productos estén bien definidos.
(1.41)
Ejemplo. Suponga que A seseparaen A = [a,a,
columnas como
...
a,]
y x en renglones
Entonces Ax = xlal (1.42)
+ x+a, +
+ x&.
Ejemplo. Es costumbre pensar en el producto AB como lamultiplicación de los renglones de A por lascolumnas de B. También es posible visualizar AB en términos de las columnas de A y los renglones de B. Suponga que A se separa en sus columnas y B en sus renglones:
Cada aies una matriz columna, mientras que cadabi es una matriz renglón. Según (1.40) se tiene AB = a,b,
+ a,b2 + . . . + arb,,
que expresa el producto AB en términos de las columnas de A y los renglones de B y no al contrario.
1.5
I
39
Matrices separadas
Las matrices separadas son útiles en una gran variedad de formas. Si un sistema físico de interéspuede dividirse en varios subsistemas interconectados, el comportamiento del sistema completo puede describirse utilizando una matriz grande separada detal modo que las submatrices que se encuentranloalargo de la diagonal principal describan los subsistemas separados, y las submatrices fuera dela diagonaldescriban las interconexiones. Estopuede ayudar a aclarar la estructura de un sistema grande y complicado. Ahora podrá resolver los problemas del I al 15.
Matrices separadas e inversas
Nuestra discusión sobre las matrices separadas, se inició notando quelas ecuaciones surgidas al buscar inversas se dividían en conjuntos involucrando incógnitas separadas; ahora se retomará aeste tema. Por ejemplo, al buscar una inversa derecha R para una matriz A de p X q , intentamos resolver AX = I para una matriz X (que sirva comoR). Separe X en sus columnas como X = [x1 x2 . x,] y separe I en sus columnas [e, e, . ep]. De acuerdo a (1.40),el producto AX se puede calcular como
-
ya que cada Axi es sólo una matriz columna, esta representación separa el producto AX en sus columnas. Pero se quiere que AX sea igual a I , que se ha separado en sus columnas ei. Por lo tanto AX = I es equivalente a Ax, = e,, Ax, = e,,. . . ,Ax, = e,.
De acuerdo a (1.36), cada una de estas ecuaciones Axi = e(, es simplemente un conjunto dep ecuaciones lineales con q incógnitas (los q elementos en la matriz columna xi); observe que los coefiientes en cada conjunto de ecuaciones son iguales -sólo los lados derechos difieren. Existe una situación similar para encontrar inversas izquierdas. Antes de enunciarformalmente estos resultados, necesitamos una de definición. (1.43)
Definición. La matriz columnaunidad i-ésima ei de orden p es la matriz columna de p x 1 que es la i-ésima columna de la matriz identidad I, p X p : para 1 5.j 5 p , = 1 si i = j y (eoj = O si i + j .
40
1
/ Algebra matricial
Ahora podemos resumir cómo, el problema de encontrar matrices inversas, se reduce al problema de solucionar varios conjuntos de ecuaciones lineales, cada una con la misma matrizde coeficientes. Más adelante esto resultará ser de extrema importancia para el desarrollo de procedimientos computacionales eficientes para la inversión de matrices en la práctica.
DEMOSTRACION
a) Se demostró en el material contenido antes de la definición 1.43 b) Sabemos que siendo L una inversa izquierda de A significa que LA = I,. Entonces I, = Ir= (LA)T= A T T ,y la condiciónA T T= I, significa que LT es una inversa derecha de AT.De este modo sepuede aplicar el resultado del inciso a) que ya fue demostrado para AT, lo cual demuestra el inciso b). c) Sabemos que X es una inversa bilateral si y sólo si X es al mismo tiempo inversa izquierda e inversa derecha. Ya que los incisos a) y b) se han demostrado;X es una inversa bilateral siy sólo si secumple a) con X = R y b) con X = L. w PROBLEMAS
1.5
1. Encuentre la matriz A, 3 x 2 y la matriz Az 3 x I para que A sea separada como A = [A, A,], donde r1 2 -31
1.5
I Matrices separadas
41
D 2. Encuentre las submatrices B, y B2 en las que debe separarse la matriz B indicada abajo para usar la regla general (1.40) y sumarla a la matriz A del problema 1. Después calcule [A, + B, A2 + B,] y A + B directamente y muestre que las sumas son iguales.
-:]
B=[-i 1 -2
=[-:I,
41 y A la matriz del problema 1. Calculede manera directa
y CA, y verifique que los productos sean los mismos.
4. Sean
Al
B, = [ 1
A,=[-:
41,
y
B,
3
=[-:
i], :].
Evalúe cada una dea lsexpresiones siguientestanto en forma separada como directamente y verifique que los resultados sean los mismos a) [Al
A,]'
D 5. Evalúe AB en forma separada y directamente, y verifique que los resultados sean los mismos, donde A=[ 4 2
-5
3 1I - 2 I 6
1 3
o
-1
I
2
-1
1
3
-1
6. Demuestre que, si B se separa como se indica, entonces BT es como se
indica.
D 7. Verifique(1.41) que Ax
=
x,al 5
+ . . . + x c q para
-1
31
A=[,
2
y
x=[-:]
-6
+ . . . + x$, en el caso general, comprobando que se satisface la definición de matrices iguales.
8. Demuestre (1.41) que Ax = x,a,
42
1
I
Algebra rnatrlcial
9. Verifique (1.42) calculando AB en términos de las columnas de A y de los
renglones de B para
10 Demuestre (1.42) calculando AB en términos de las columnas de A y de los
renglones de B en el caso general, mediante la comprobación de la definición de matrices iguales.
D 11. Suponga que A, B y C son matrices cuadradas. a) Si cualquiera de las tres matrices es singular, demuestre que la matriz separada D = diag(A, B, C) que se indica es singular. lstres matrices A, B y C son no singulares, demuestre que la matrizD es b) Sia no singular y que su inversa es D"
0"
como se indica abajo.
D=[g
O
L]
= diag(A",
y
B-', C-l),
D " = P A" O
m12. Sean A, y A, las matrices 5
X
1
OB - '
O
c-
5 definidas en elproblema 23 de la sección 1.4 y
sea
a) Utilice el MATLAB para calcular D" mediante el uso del análogo del método del problema 1 1 , introduciendo el comandoflops del MATLAB inmediatamente antes e inmediatamente después de los cómputos; determine además cuántas operaciones de punto flotante se usaron para invertir D con este método. b) Utilice el MATLAB para calcular la inversa de D de manera directa, nuevamente, utilizando el comando flops para medir el trabajo involucrado . c) ¿Qué método es más eficiente? D 13. Sea A una matriz no singular p x p , u y v matrices columnap x 1 , y d un número. Demuestre quela matriz limitada h ,que se define en seguida, es no singular si y sólo si elnúmero 6 que se define con 6 = d - vTA"u es diferente de cero, y que la inversa de ;ies entonces como sigue:
1.5
I Matrices separadas
43
donde B = A" + ( 1/8)A-luvTA", w = -( 1/8)A"u, zT = - ( 1 /S)vTA". Además, demuestre queA-' = B - SwzT.(Observe que esto prueba que una vez quese conoce la inversa una de matriz F dada, esfácil calcular la inversa de una matriz obtenidaa partir deF, ya sea agregando un renglón o columna a F o eliminando un renglón o columna de F.) R 14. Considere la matriz simétrica A 7 x 7 y su inversa dada en ejemplo el 1.3 1 de la sección 1.4. a) Utilice el MATLAB o algún programa similar para encontrarla inversa de la matriz 8 x 8, mediante el método del problema 13, que se obtuvo agregando un renglón y una columna aA, que amplía el patrónobvio en los elementos de A. b) Utilice el MATLAB o algún otro programa similar para encontrar la inversa de la matriz 6 x 6, mediante el método del problema 13, que se obtuvo eliminando el séptimo renglón y la séptima columna de A. 15. Considere el producto Kronecker A 0 B, definido en el problema 10 de la sección 1.3 para toda matriz A p x q y toda matriz B r X s. a) Demuestre queun modo equivalente dedefinir el productoC = A O B es como aquella matrizpr x q s separada enp q submatrices Cucada una r X S, donde Cu = ( A ) a y
b) Demuestre que, para toda matriz A, [l] O A = A 0 [l] = A.
c) Demuestre que, para toda matriz A, B y D, AO(B+D)=AOB+AOD.
D 16. Utilice el método del teorema 1.44 c) para encontrarla inversa dela matriz A mostrada abajo, y verifique que es una inversa izquierda y derecha. A=[-'
1
"1
-7
17. Utilice el método del teorema 1.44 c) para encontrar la inversa de la matrizA mostrada abajo, y verifique que es una inversa izquierda y derecha.
18. a) Encuentre la segunda columna de muestra abajo.
la inversa de la matriz A, que se
44
1
I Algebra matricial
-:-!]
b) Encuentre el tercer renglón de la inversa de A. A=[-:
2
-1
D 19. Encuentre el segundo renglón de la inversa izquierda de
20. Sea A la matriz de 10 x 10 del problema 27 a) de la sección 1.4.
a) Utilice el MATLAB para calcular directamente A-I; introduciendo el comando del MATLAB flops inmediatamente antes e inmediatamente después de estaoperación, obtenga el número de operaciones en punto flotante, utilizados para calcular A" de este modo. b) Utilice elMATLAB paracalcular A-' resolviendo los 10 sistemas Axi = ei como en el teorema 1.44 c) con las matrices de columna unidad e i ; use el cornandoflops para medir el trabajo hecho en el cómputo A" mediante este método. c) ¿Qué método es más eficiente? 1.6
PROBLEMAS VARIOS PROBLEMAS
1.6
1. Sea k # O un número diferente de cero; demuestre por inducción que para
todo entero positivo n:
{"Demostrar por inducción" significa: a) verificar para n = 1; b) demostrar que si elresultado es verdadero para cualquiern, entonces es verdadero para n + 1. } D 2. a) Encuentre todas las matrices reales A para la cual ATA = O. b) Encuentre todas las matrices B para la cual BHB = O. D 3. Suponga que K es una matriz cuadrada con K = - K T y que I - K es no singular, defina B como B = (I + K)(I - K)-'. Demuestre que BTB = BBT= I, o sea que B" es BT(dichaB se dice que es una matriz ortogonal).
1.6
/
Problemas varios
45
D 4. Demuestre que: a) Si A tiene un renglón de ceros completo, entonces A no tiene inversa derecha. b) Si A tiene una columna de ceros completa, entoncesA no tiene inversa izquierda. c) Si A es cuadrada y tiene ya sea un renglón completo o una columna completa de ceros, entonces A es singular. 5. Si los elementos(A), de una matrizA son funcionesde una variablet, definimos la derivada dA/dt como la matriz de derivadas: (dA/dt), = d(A),/dt.
a) Si AB está definida, demuestre que
b) Si A es no singular, diferencie AA" = I para obtener
D 6. Para una matriz cuadrada A, defina la traza de A, tr(A), comola suma delos elementos sobre la diagonal principal de A. a) Demuestre que tr(AB) = tr(BA). b) Demuestre que tr(S"AS) = tr(A) si S es no singular. 7 . Si en forma separada,
donde A y P son no singulares, demuestre que A" =
[
- 2 P -
donde W = (S - RP"Q)",
X = P"
+ P"QWRP".
De manera similar, si A y S son no singulares, demuestre que
en donde X
= (P - QS'R)",
W = S"
+ S"RXQS".
Si P y S son no singulares, demuestre directamente las queformas son equivalentes. Compruebe que (S - RP"Q)" = S" + S"RXQS",
un resultado útil en las aplicaciones. Vea el final de la subsección de la sección 3.8, donde la fórmula se deriva desde un punto de vista diferente.
2 Algunas aplicaciones simples y preguntas Este capítulo tiene dos metas: 7) mostrar el poder de las matrices en la organizacidn y clarificacidn de conjuntos complicados de relaciones; y 2) alentar algunas preguntas naturales sobrelas matrices que surgen delas aplicaciones prdcticas -como una motivacidn para continuar con algunos de los estudios posteriores.
Ya que el capítulo no contiene teoremas ni demostraciones, no contiene de material clave, y mds bien presenta una amplia variedad de aplicaciones las matrices en diversos campos, algunosde los cuales serdn de importancia yde interés para la mayoría de los estudiantes. La información sobre las matrices, necesaria para comprender este capítulo, es tan sdlo el Algebra matrrcial presentada en el capítulo l .
Las secciones de este capítulo se utilizan como una fuente de motivacidn ejemplos para capítulos posteriores. Algunas de las preguntas que se g ran en lassecciones 2.2,2.3y2.5 originan parte del material losde capítulos 7,8 y9. El capítulo 3se sustenta en las preguntas de las secciones restantes de este capítulo, elycapítulo 4en las secciones 2.4 y 2.6. El capítulo 8 hace referencia a los artículos de la sección 2.6, mientras que el capítulo11 se dedica a la sección 2.7.
2.1
INTRODUCCION
En muchas aplicaciones, la utilidad de las matrices surge del hecho de que pueden representar un arreglo de muchos números como un solo objeto desig46
2.2
I Competencia entre negocios:cadenasde
Markov
47
nado mediante un solo símbolo, permitiendo que las relaciones entre las variables puedan expresarse deun modo conciso. En realidad, no se realiza nada que no pudiera hacerse sólo en términos de los elementos de las matrices, pero la notación matricial con frecuencia hace que se vea más claramente la relación esencial. En la sección 2.2 se considerauna aplicación de las matrices en un modelo simple de la situación en el mercado, en el los cual clientes cambian de abastecelas matrices en un modelo de competencia dores; lasección 2.3 estudia el uso de entre poblaciones. Ambas aplicaciones, en el lenguaje de las matrices, se reducen esencialmente,al estudio de la multiplicación de matrices y -de manera más precisa- alcomportamiento de las potencias positivas grandes de una matriz fija; se generan preguntas sobre tales potencias paralas cuales se desarrollarán las herramientas de uso necesarias. La sección 2.4 examina una aplicación que conduce a algunas preguntas sobre laresolución de sistemas deecuaciones lineales; el temaes el estudio del equilibrio estático de redes, especialmente en marcos unidos con pasador. Después seexamina un fenómeno oscilatoriosimple, un tema importante en muchas áreasde la ciencia y la ingenieria. La sección 2.5 estudia la oscilación de dos pesos atados por hilos; esto arroja preguntas sobre lasmatrices que depenlos valores de dichos parámetros, los den de parámetrosy sobre cómo encontrar cuales hacen que la matriz sea singular. Esto damotivo al estudio posterior de los llamados eigenvalores. Un tema que ocupa el total de las matemáticas aplicadas es eldel modelado: ¿Cómo se pueden construir modelos matemáticos que reflejen de manera, lo suficientemente precisa, las propiedades del mundoreal? Uno delos aspectos de este problema es: dadoque un modelo deuna situación del mundo real ha de ser se de cierto tipoy forma dependiendo de ciertos parámetros, ¿cómo determinan los valores de estos parámetros?El método de los mínimos cuadrados se introduce en la sección 2.6 para iniciar este tema; surgen preguntas sobre si las ecuaciones lineales que se generan tienen soluciones y -si las tienen- sobre cómo encontrarlas En la sección 2.7 se considera un modelo simplede la planeación de producción, que lleva a la necesidad de resolver lo que se llama un programa lineal. Tales problemas dan un ejemplo excelente del poder de la metodología matricial. 2.2
COMPETENCIA ENTRE NEGOCIOS: CADENAS DE
MARKOV
Muchos modelos matemáticos en la ciencia, la ingeniería y los negocios tienen que cubrir los aspectos de la oportunidad y el azar; no se puede saber con certeza lo que harán nuestros competidores, la bolsa de valores, una partícula subatómodelos utilizan las herramientas matemáticas mica, y así sucesivamente. Tales de la reoría de la probabilidad para hacer, entre otras cosas, predicciones sobre el comportamientopromedio de estosmodelos. Se carece de espacio para tratar la teoría de la probabilidad en este libro; en vez de ello se examina un modelo
48
2
/ Algunas aplicaciones simples y preguntas
simple determinístico-en lugar de probabilístico- que lleva a un aspecto clave de los modelos probabilísticos: la cadena de Markov. Un modelo de competencia entre tres lecherías
Se ilustra la noción de la cadena de Markov mediante la consideración de una competencia entre lecherías que surten el producto leche a ciertapoblación. Con el tiempo, algunos clientes cambian de repartidor pordiferentes razones: publicidad, costo, conveniencia, etc. Se deseamodelar y analizar el movimiento de los clientes entre los proveedores, suponiendo, por simplicidad, que la misma fraccidn de los clientes cambiará de una lechería cualquieraa otradurante cada periodo de tiempo (digamos, un mes). Suponga que al comenzar nuestromodelo -digamos, el 3 1 de diciembre- las tres lecherías, llamadas lecherías 1, 2 y 3 controlan las fracciones xo, y o y zo (respectivamente) del mercado;suponiendo por simplicidad que estas lecherías fueran las únicas repartidoras, se observaque las fracciones deben ascender 1:a x0 + yo + zo = 1 . Suponga que despuésde un mes lalechería 1 ha logrado mantener la fracción a,,de sus propios clientes y además ha atraído las fracciones aI2de los clientes de la lechería 2 y uI3de la lechería 3. Supóngase que el número total de clientes permanece constante en,digamos, N , con lo que puede trasladarse auna fórmula el hecho de queel número de clientes de la lechería después de un mes, esigual al número de clientes que permanecieron en ella, más el número de clientes que adquirió de la lechería 3. adquirió de la lechería 2, más el número de clientes que Sea x, lafraccidn del mercado que tiene la lechería1después de un mes y se tiene entonces xlN = all(xON)
+ a12(yON) + a13(z0N).
Se obtienen ecuaciones similares para el número de clientes de las lecherías 2 y 3 después de un mes, en términos de sus nuevas partes y , y z,. Al separar estas ecuaciones de N se obtiene: (2.1)
+ a12y0 + a1320 y1 = a21x0 + a 2 2 Y 0 + a2320 z 1 = Q31X0 -k a 3 2 y 0 + a33z0,
x1
= allXO
donde aii = fracción de los clientes de la lechería i, conservada por la lechería i. a, =fracción delos clientes de la lecheríaj, perdidos por la lechería i(i# j). Las matrices expresan esto de una manera concisa como (2.2)
x 1 = AX,,
donde x, = [x, y , z , ] ~para r = O o 1 y (A)ij = aij.
I Competencia entre negocios: cadenasde
2.2
Markov
49
Ya que las fracciones ai,son partes del mercado, obviamente O 5 ail 5 1. Observe también, quede los clientes originales de la lechería1, la fracción A , , permanece con la lechería 1, la fracción u2, pasa a la lechería 2, y la fracción a31 pasa a la lechería3; ya que estas fracciones deben considerar todos los clientes originales de la lechería 1, encontramos que a , , + aZ1+ a31 = l.Aplicar el mismo argumento a las lecherías 2 y 3 produce el hecho de que (2.3)
O
S ai,5 1 para toda i y j , y la suma de las entradas en cada columna de A es 1: a,, a,, u3, = 1 para i = 1,2,3;
+ +
en forma equivalente O I (A)ij I 1 (A),,
para toda
+ (A)2i + (A)3i = 1
para i
i y j, Y
= 1,2,3.
Se leconoce ala matriz A como la matriz de transicibn para elmodelo; observe que en gran parte de la literatura, las matrices de transición se definen como la transpuesta de nosotros. Por simplicidad, se supone que lasfraccionesaU de clientes quecambian de repartidores permanece igual cada mes. Si se utilizan x,, y , y z, como los símbolos que designan las fracciones del total de clientes que conserva cada lechería al final de r meses, entonces no sólo se tiene (2.2) para la transición después de un mes sino también x , + ~= Ax,
(2.4) y,
donde x, = [x, Ya que x2 = Ax, general:
= O, 1,2,.
..,
z,]~.
= A(Axo) = A2xoy
(2.5)
para r
x,
de manerasimilar para xr, se obtiene de modo
= Arxo
para r = O, 1,2,. . . .
Ahora podrd resolver los problemas 1 y 2 . Intuitivamente resulta obvio que las partes x, y,, z, del mercado deben siempre sumar 1 ; se demuestra qce esto, de hecho, se sigue dex, + yo + zo = 1 y de las propiedades de A. Para hacerlo,se utiliza el poder de la notación matricial: para que se define l3como la matriz columna de 3 x 1 l3= [ 1 1 l]', l:xr
=
[l
1
l][xr
y,
Z,]T = [x,
+ y, + z,].
50
1
,:
2
'
I Algunas aplicaciones simples y preguntas
'
j'
Por lo tanto, el problema radica en mostrar quelrx, = [l] para todar , lo cud se hará en seguida. Ya que la suma de los elementos en cada columna de A es 1 , resultaclaroque lTA=[l
Ya que [l]
= l:xo,
1:A
=
1
1 ] = 1;.
1T, se razona que
ya que Ax, = xl, examinando el extremo izquierdo y el extremo derecho de estas igualdades, seobservaque [l] = lTxl. Al continuardeeste modo-unargumento preciso requeriría de inducción- se concluye, comose deseaba, que [I] = l;x, para toda r . (2.6)
Ejemplo. Se consideraconcretamenteun ejemplo numérico parailustrar las ideas anteriores. Suponga quex. son las partes iniciales del mercado y que la matriz de transición A es
[CL;] 0.2
x. =
y
0.8 A=
0:; 0.2
Observe que(2.3) se cumple.Fácilmente -en especial si se usa el MATLAB o algún programa similar- se obtiene x, = Axo, x2 = A x l , y así sucesivamente mediante la multiplicación de matrices; redondeados a tres decimales, algunos resultados representativos son
Al formar xI7= Ax,,, se encuentra quex17 = x167 que significa que de hecho todas las x, para r L 16 son iguales, es decir, x16, como se dio arriba. En otras palabras, las partes del mercado después de 16 meses se volvieron constantes (al menos hasta tres decimales). En 45,35 y 2Yo el mercado está e n equilibrio. Comportamiento limite y equilibrio
Se quiere averiguarsi el equilibrio alcanzado en el ejemplo 2.6 Ocurre de manera más general que en ese caso especial. Se examina si las matrices columna x, pudieran tender aalguna matriz columna límite x, a medida que r crece. Ya que x,+ = Ax,, si xk tiende a x,, se sigue que x, = Ax,; de modo similar, ya que se
I Competencia entre negocios:cadenas de Markov
2.2
51
tiene lTxl = [l] para toda r , se sigue que, también, l ~ x ,= [I]. En resumen se tiene lo siguiente: (2.7)Si
las x, tiendenaun
= [xm ym
límite x,
AX, = X,
y
X,
zm
+ y, +
IT, entonces 1 6 0 4 1 5
Z ,
= 1.
Ya que A es 3 x 3 , la ecuación Ax, = xmrepresenta tan sólo un sistema de tres ecuacionescon tres incógnitas; la última condición en (2.7) se combina con un sistema de cuatro ecuaciones lineales en las tres esto para dar como resultado incógnitas X,, y,, y z., Esto es,si x, tiende a un límite, los candidatosposibles para el límite se pueden encontrar al resolver un sistemade cuatroecuaciones con tres incógnitas.
(2.8)
Ejemplo. De modo concreto, considere nuevamente el modelo del ejemplo 2.6. Si las x, tienden a cierta X, -como parece entonces, x, satisface a (2.7). Al escribir esas cuatro ecuaciones con tres incógnitas x,, y,, ,z, se tiene
+ 0.2y, + O.lZ, . 1 +~ 0~. 7 + ~ 0.32, ~ . 1+ ~ 0~ . 1 +~ 0.62, ~ x, + y, + z ,
0.8x,
= x,
0
= y,
0
=Z, = 1.
Con algún esfuerzo sepodría usar álgebra de secundaria para resolver este sistema de ecuaciones lineales, descubriendo que tiene exactamente una solución, es decir X,
= 0.45,
y, = 0.35,
Z,
= 0.20,
que es precisamente lo que seencontró experimentalmente en el ejemplo 2.6. Aún nose haprobado quelas x, tiendan, de hecho, aalgún límite, pero si está demostradoque el Único límite posible es [0.45 0.35 0.20IT-ique de ningún modo depende de las contribuciones iniciales en el mercado!
Volviendo al caso general, se debe recordar que todo límite posible de x, debe satisfacer a (2.7). Para el caso general, se desea saber:
l . ¿Cómo se puede determinar si-como ejemplo en el 2.8- las ecuacionesen (2.7) tienen alguna solución? 2. ¿Cómo se pueden obtener estas soluciones?
52
2
I
Algunas aplicaciones simples y preguntas
Aun cuando se pudiera responder a estas preguntas, todavía no sabríamos si las x, tienden de hecho a un límite. Aún queda la duda: 3. ¿Cómo se puede decir si xr tiende a un límite?
En estemomento se carece delas herramientas para responder a estas preguntas; en los capítulos 3 y 9 se desarrollarán los elementos necesarios. Comportamiento límite de las potencias de matrices
Existe otro método para comprenderel comportamiento general de x,. Recuerde que x, = A'x,;si se puede comprender el comportamiento de Ar para una r grande, entonces se puede deducir el comportamiento de x, para una r grande. (2.9)
Ejemplo. Considere la matrizA en el modelo del ejemplo 2.6. Los cálculos, redondeados a tres cifras, muestran que
0.15
0.15
0.40
0.536 0.338 0.405 0.278 0.412 0.407 0.188 0.188 0.450 0.350 0.200
0.450 0.350 0.200
0.250 0.450
1
0.350 , 0.200
y todas las potencias superiores a A son iguales a Al6 hasta tres cifras decimales. En este caso en particular, resulta que A' tiende a una matriz límite A,.
El ejemplo 2.9 muestra que se podría tener éxito en el estudio de x, estudiando a A' para una r grande. Agregamos una cuartapregunta a las anteriores que deseábamos responder: 4. ¿Cómo se puede distinguir si las potencias A' tienden a un límite A,, y
cómo se le puede encontrar si existe?
Más adelante se conocerá la respuesta a esta pregunta así como la de las tres preguntas anteriores. Cadenas de Markov
El modelo general que seha consideradoes unejemplo sencillo de una cadena de Markov (de primer orden). De manera más general, suponga que se desea estudiar cierto sistema -tal como la competencia entre lecherías- el cual se
2.2
/
Competencia entre negocios:
cadenas de Markov
53
describe en cualquier momentoen el tiempo mediante los valores de p variables -como las partes de mercado de p = 3. Si se escriben estos valores como los elementos de una matriz, p x 1, x, en el r-ésimo instante de tiempo, entonces estos uectores de estadox,describen el sistema. Entonces, si A es una matrizp x p , la ecuación x,+~= Ax, describe la evolución del estado del sistema en el tiempo. Usualmente se desea conocer el comportamiento de x, o A' para una r grande; con frecuencia esto es posible bajo suposiciones especiales deA -tales como (3.3) además de condiciones adicionales.
PROBLEMAS
2.2
1. Demuestre quela ecuación matricial(2.2) expresa a lsrelaciones escritas en
(2.1) 2. Mediante inducción, demuestre que lasx, = Arxode(2.5) se mantienen, dado (2.4). 3. Suponga que -en lugar de lo que se dio en el ejemplo 2.6- las partes iniciales x. en el ejemplo 2.6 son x. = [0.5 0.5 O a) Después de un mes b) Después de dos meses
3'.
D 4. Tres compañías, 1, 2 y 3, introducen al mercado simultáneamente marcas nuevas de pasta dental. Al principio, las acciones iniciales del mercado disponible son de 40, 20 y 40%, respectivamente. Durante el primer año, la compañía 1 mantuvo el 85% de su clientela, obtuvo el 15% de la clientela dela compañía 2, y el 5% de la compañía 3; la compañía 2 obtuvo el 5% de la clientela de la compañía 1, retuvo el 75% de su propia clientela, y obtuvo el 5% de la de la compañía 3; y la compañía 3 obtuvo el 10% de la clientela de la compañía 1, el 10% de la compañía 2 y retuvo el 90% de su propia clientela. Suponiendo que el merca0 total que se comparteen estas tres compañías no varía y que cada año se intercambian entre ellas las mismas fracciones: a) Escriba en la forma (2. I) cómo secambian las acciones del mercado de un año a otro. b) Encuentre la matriz de transición A. 5. Para la situación descrita en el problema 4, calcule el estado de las acciones
del mercado a) Después de un año. b) Después de dos años. D 6. Suponga que la ocupación de cada persona puede clasificarse como de profesional, calificado, o no calificado. Suponga que siempre es cierto que: de los hijos de profesionales, 70:; son profesionales, 20% son calificados, y 10% son no calificados; de los hijos de personas calificadas, 60%son
54
2
/ Algunas aplicaciones simples y preguntas
7.
8. 9.
D 10.
calificados, 20% son profesionales, y 207; son no calificados; y de los hijos de no calificados, 20% son profesionales, 30% son calificados y 50% son no calificados. Suponga queel número total de personas con una ocupación es el mismo cada generación,y que enla generación actual, 35% son profesionales, 35% son calificados, y 30% son no calificados. a) Escriba en la forma (2.1) cómo evoluciona el porcentaje de cadatipo de ocupación de un año a otro. b) Encuentre la matriz A de transición. Para la situación descrita en el problema 6, encuentre la distribución de trabajos: a) Después de una generación b) Después de dos generaciones Para la matriz general A de (2.2), demuestre que l:A = 1;. Demuestre por inducción que, para el modelo(2.3-4), lTxr = [l] para todar 2 1. Resolviendo las ecuaciones de (2.7), encuentre el estado de equilibrio -si existe- del mercado para la situación descrita en el problema 4.
11. Resolviendo las ecuaciones en (2.7), encuentrela distribución de equilibrio -si existe- entre los tipos de empleados parala situación en el problema 6. !Vi 12. Utilice el MATLAB o software similar para verificar el comportamiento de x, mencionado en el ejemplo 2.6. %J1 D 13. Utilice el MATLAB o software similar para comprobar experimentalmente si las acciones del mercado en el problema 4 convergen en un conjunto límite de acciones conforme pasa el tiempo. %n 14. Utilice el MATLAB o software similar para comprobar experimentalmente si la distribución de empleo en el problema 6 convergeen una distribución límite conforme pasa el tiempo. M ! 15. Utilice el MATLAB o software similar para comprobar experimentalmente si las acciones del mercado en el problema 3 convergen enun conjunto límite de acciones conforme pasa el tiempo. 16. Suponga quela matriz A mostrada abajo es la matriz de transición para u n problema del tipo que se considera en esta sección. a) Demuestre que satisface (2.3). b) Resolviendo las ecuaciones en (2.7), demuestre que hay infinitamente muchas posiciones de equilibrio xm= [ a 1 - 2a a]T, para unaa arbitraria con O Ia 5 0.5.
2.3
/
Crecimiento de la poblaci6n: potencias deuna
matriz
55
D 17. Demuestre que para la situación del problema 16, dada x,,, la secuencia de
R 18. R 19. !IR 20.
D 21.
2.3
estados x, no tiende a algún valor a menos que x, misma sea una posición de equilibrio. Utilice el MATLAB o algún software similar para verificar que las potencias A' se comportan como se describeen el ejemplo 2.9. Para la matriz A del problema 4,utilice el MATLAB o software similar para determinar el comportamiento deA' para r grande. Para la matriz A del problema 6, utilice el MATLABo software similar para determinar el comportamiento deA' para r grande. Para lamatriz A del problema 16, demuestre amano que las potencias A' no convergen en ninguna matriz A,.
CRECIMIENTO DE LA POBLACION: POTENCIAS DE UNA MATRIZ
En la sección anterior se consideró un modelo de la evolución de un sistema; en x,+~ = Ax, moldeabael comportamiento del sistema y dicho caso se encontró que que la matriz A satisfacía algunas condiciones muy especiales (2.3) que son comunes a las cadenas de Markov. Enmuchas aplicaciones se puede moldear la evolución de un sistema mediante x,+~ = Ax,., y sin embargo encontrar quelas condiciones especiales (2.3) no se satisfacen; tales sistemaspueden exhibir un comportamiento muy diferente del que se encontró en la sección anterior. Consideramos un ejemplo simple para ilustrar esto. Modelaje del crecimiento de una poblacidn
En estasección se creay estudia un modelo simple delcrecimiento de poblaciones a lo largo del tiempo. Imagine que se cuentala población en ciertos puntos o cada mes, o cada segundo- siendo p i discretos en el tiempo -talcomo cada año el número deindividuos en la población en el punto i-ésimo del tiempo. Aquí no es importante la naturaleza de estos individuos -personas, gallinas, bacterias, etc.- sino su número. El modelo supone que la tasa de natalidad b y l a tasa de mortalidad d son independientes del tiempo, y que se conocen estos números. Así que el número de individuos nacidos entre los tiempos i-ésimo y (i 1)-ésimo individuos que muerenes dpi. Esto da es tan sólo de bpi, mientras el número de pi+ - p i = bpi - dpi, esto es
+
(2.10) Como entonces
p i + l = (1
+ b - d)p,
para i = 1,2,. . . .
56
2
Algunas aplicaciones simples y preguntas
/
y así sucesivamente, se puede concluir que
(2.11)
p i + 1 = (1
+ b - d)'p,
para i
= O,
1 , 2 , . .. ,
donde p1 es la población inicial. A partir de (2.11) se analiza fácilmente el comportamiento dela población en el tiempo: a) si la tasa denatalidad excede la tasa de mortalidad, entonces 1 + b - d > 1y p i tiende a infinito con i ya que (1 + b - d)' tiende a infinito; b) si la tasa de mortalidad excede la tasa de natalidad, entonces 1 + b - d < 1 y p i tiende a cero ya que (1 + b - d)" tiende a cero. (2.12)
Ejemplo. Suponga la tasa de natalidad b = 0.2 mientras que la tasa de mortalidad d = O. 1 ;entonces 1 + b - d = l . 1 y la población tiende a crecer. Si la población inicial es p1 = 10,000, encontramos que p z = 11,000 (aproximadamente), p 3 = 12,100, p4 = 1 3 , 3 3 1 , ~=~14,641, plo= 21,435, pso = 970,137, ploo= 20,483,147, y así sucesivamente.Por otro lado,si la tasa de natalidad b = O . 1 mientras que la tasa demortalidad d = 0.2 entonces 1 + b - d = 0.9 y la población tenderá a desaparecer; comenzando con p 1 = 10,000 encontramos que (aproximadamente)p,= 9000, p 3 = 8100, p 4 = 7290, p 5 = 6561, plo = 4304, ps0 = 63, plo0 = 2 y así sucesivamente.
Observe que éstees tan sólo un modelo -y no necesariamente se obtienen resultados cuantitativosprecisos de él. Por ejemplo, si 1 + b - d = 0.9 ypl = 10, se encuentra que el modelo predice una población de 8.1 individuos en el tercer instante de tiempo. Los números no son perfectos (las poblaciones reales constan de números enteros), pero el comportamiento cualitativo de una población decreciente es correcto.
Ahora podrd resolver los problemas del I al 5. Poblaciones de competencia
El modelo simple anterior fue sólo un antecedente, para luego considerar la situación un poco más compleja de dos poblaciones que compiten una contra otra. Los números enestas poblaciones se denotanmediante Ziy Gi que pueden visualizarse como el conteo de zorros y gallinas. Suponga que las gallinas, sin zorros que las molesten, tienen una tasa de natalidad que excede a la tasa de mortalidad; para ser más específicos, suponga que en esta situación se tiene Gi+l = 1 .2Gi. Sin gallinas para alimentarse, sería de esperar que los zorros comenzaran a extinguirse digamos que Zi+, = 0.6Zi. Se quiere poner un modelo a lo que sucede cuando los zorros tienen éxito devorando cierto número gallinas de encada periodo de tiempo, suponiendo que esto permitiera un incremento en lapoblación de zorros proporcional al número
,
2.3
/
Crecimiento de la poblaci6n: potencias de una matriz
57
de gallinas devoradas. Para ser más específicos, suponga que Zi+l = 0.6Zt + 0.5Gi. La población de gallinas obviamente comenzará a decrecerdebido a los zorros, de modo que se toma Gi+l= 1.2Gi - kZi, donde k representa la tasa de gallinas devoradas por zorros;k permanece comovariable para estudiar el efecto de diferentes tasas demortalidad. Suponiendo que existeun número inicial de 1000 gallinas y de 100 zorros, se obtiene como modelo: (2.13)
Zi+l = 0.621 + 0.5Gi y
Gi+, = -kZi con Z, = 100 y G,
=
+ 1.2Gi
para i = 1, 2,
...
1000.
Se utilizan matrices para analizar el comportamiento de estaspoblaciones conforme pasa el tiempo. Sean
el modelo (2.13) se convierte en (2.14)
x i + l = Axi
para i = 1,2,. . . , con x,
=
[lo0
1000]T
Se sigue de (2.14) que xi+l = Axi = A(AxiPl) = A2xi-,, y así sucesivamente, de modo que de hecho, (2.15)
x i + , = A'x,
para i = O, 1,2,. . . .
De acuerdo con (2.15) el estudiar el comportamiento dexf conforme i crece es equivalente a estudiar el comportamiento delas potencias A*de A, de modo muy parecido a comose hizo en la sección 2.2. Sin embargo, para el presente caso, no se tienen las condiciones adicionales (2.3) de la sección 2.2 que eran responsables del comportamiento simple de Ai en ese caso.De hecho, A' puede comportarse de manera muy diferente para diferentes valores de k. (2.16)
Ejemplo. Considere nuestromodelo con k
=
0.1, de maneraque
La tabla, abajo, muestra los números aproximados de zorrosy gallinas en el punto i-ésimo de tiempo para varios valores de i. El modelo verifica de manera experimental lo que se esperaría: para una tasa de mortalidad k baja, la población de gallinas crece sin límite y esto permite que la población de zorros también crezca sin límite. La tabla indica que, finalmente, las dos poblaciones se igualan.
58
2
I Algunas aplicaciones simples y preguntas
4
i
31
5
2
8
6
1 2 1 6 2 100 0
30
Z , 100 560 931 1244 1523 1783 2292 3470 5107 7483 19,409 15,328,199 Gi lo00 1190 1372 1553 1739 1934 2367 3488 5111 7483 19,409 15,328,199
(2.17)
Ejemplo. Considere una tasade mortalidad de gallinas significativamente la de gallinas tienda a mayor, k = O . 18; se verá que esto causa quepoblación quedar exterminada,lo cual a su vez lleva a la muerte de loszorros -ambas poblaciones se extinguen. Con k = 0.18, se tiene
La tabla, abajo,muestra los números aproximados de zorros y gallinas en el punto i-ésimo de tiempo para varios valores de i. El modelo verifica de manera experimental lo que se esperaría: Ambas poblaciones tienden a desaparecer. i4
13
2
5
8
12
401630 20
Z , 100 560 927 1214 1434 1808 1854 1654 1371 713 312 343 G , lo00 1182 1317 1413 1477 1530 1400 1177 940 459 193
60 80 100 25 2
O O
Estos dos ejemplos muestran que el modelo puede dar dos tipos de comportamiento radicalmente diferentes, para diferentesvalores de k . Se quiere saber: l . ¿Cómo se puede determinar el comportamiento de xia medida que i crece para cualquier valor específico de k?
Ya que (2.15) dice que el comportamiento dexi se determina por el comportamiento de las potencias Ai, de igual manera se quiere saber: 2. ¿Cómo se puede determinar el comportamiento de las potencias A' a medida que i crece para cualquier valor específico de k?
Por el momento se carece de las herramientas necesarias para responder a estas preguntas; en los capítulos 7 y 9 se desarrollarán las herramientas necesarias. PROBLEMAS 2.3 1. Suponga que p i es la población de una sociedad en el instante i-ésimo, y
suponga, como en esta sección, que el número demuertes en el siguiente periodo es dpi -proporcional al tamaño de la población. Sin embargo, su-
2.3
I
Crecimiento de la poblaci6n: potencias de unamatriz
59
ponga que la sociedad es “promiscua” en cuanto a que el número de nacimientos es proporcional al número de posibles apareamientos entre dos miembros de la sociedad. Demuestre que tal suposición lleva a un modelode la forma
2. Suponga que en el problema 1, d = 0.3, b = 0.0008, y p1 = 1000. Determine experimentalmente lo que sucede a la población.
D
3. De manera parecida a como se hizo con la “sociedad promiscua” del
problema 1, encuentre una interpretación para el modelo
4. Suponga que en el problema 3, b = 0.3, d = 0.0008 y p1= 1000. Determine
experimentalmente lo que sucede a la población. D 5. Suponga que se están estudiandohongos de dostipos, A y B , y que sus tasas de natalidad y mortalidad son, respectivamente, bA= 0.2, dA= 0.1, bB= 0.3 y dB = 0.15, y que las poblaciones iniciales son p A , , = 1000 y pB.1 = 10. a) Demuestre que la población de los hongos del tipo B eventualmente excederá a la del tipo A . b) Aproximadamente ¿después de cuántos periodos de tiempo ocurrirá esto por primera vez? 6. Utilice inducción para demostrar (2.15): xifl = A’x, 7. Suponga que en el ejemplo 2.16 secambian las poblaciones iniciales a G, = 100 y Z , = 1000. Encuentre cada población para i = 1, 2, 3, 4. 8. Explique si el modelo (2.13) tiene sentido:
981 D 9.
981 10.
11.
12.
a) si G, = O b) si Z , = O Suponga que en (2.13) el valor de k = O . 16. Utilice el MATLAB o software similar para determinar lo que sucede con Ziy Gia medida que i tiende a infinito. Suponga que en(2.13) el valorde k = O . 16 como enel problema 9. Utilice el MATLAB o software similar para determinar lo que sucede Ai con a medida que i tiende a infinito. Examinando (2.13), demuestre quesi la poblaciónde zorrostiende a desaparecer a medida que i tiende a infinito, entonces la población de gallinas también tiende a desaparecer. Utilice el MATLAB o software similar para experimentar con el modelo (2.13), con elfin de determinar aproximadamente el valor de k para el que el
60
2
Algunas aplicaciones simples y preguntas
/
comportamiento cualitativocambia de un crecimiento ilimitado a una convergencia a cero. 2.4
EQUILIBRIO EN REDES: ECUACIONES LINEALES
La noción general de redes surge en una amplia variedad de Breas: circuitos eléctricos en la ingeniería eléctrica; sistemas distributivos en el comercio y la economía; estructuras de juntas articuladas en la ingeniería civil, y además se considera un ejemplo de estructuras para ilustrar la utilidad de la notación matricial dentro de tales problemas y para ver qué preguntas sobre matrices surgen, de manera natural, a partir de la noción general de redes.
Una estructura plana dejunta articulada Una estructura de junta articulada consta de miembros inflexibles conectado entre sí de tal modo que se encuentran librespara girar en lasjuntas, de manera parecida a un trípode. Por simplicidad, nos restringimos a estructuras planas: todos los miembros se encuentran en un solo plano. Considere una estructura articulada sencilla plana de cinco miembros, los cuales se encuentran unidos en la única junta de la estructura. El extremo opuesto al de la articulación para cada miembro está fijado a una pared vertical y estos extremos permanecen en una línea vertical recta sobre la pared. (Puede visualizar esto considerando la estructura como un soporte asegurado en la pared de la que se cuelga una maceta.) La figura 2.18 muestra esta estructura. (2.18)
2.4
I Eq;ilibrio
en redes: ecuaciones lineales
61
Las líneas con doble flecha numeradas del 1 al 5 en la figura, representan los cinco miembrosunidos en el punto indicado con la letra A . Las flechas señaladas comof, y f,representan fuerzas. aplicadas en la articulación A (de una planta colgante, por ejemplo). 8, y 8, miden los ángulos que los miembros 2 y 3 forman con la horizontal donde se encuentran con la pared vertical; 8, mide el ángulo para el miembro i,y se observa queen la figura 8, y 8, son positivos, mientras que O,, 04, y son negativos. Se desea responder a lapregunta: ¿Cuando seaplican las fuerzasf, yf, a laarticulación A , a quéposición se moverá esa articulación? Sea dl la distancia quela articulación se mueve en la dirección dela fuerzaf,, y sea d , la distancia que cubre en la dirección de f,. Entonces el problema consiste en determinar d (que se define como [dl d , 3') a partir de f (que sedefine como [f,f, Suponga quelos pesos de 10s miembros son despreciables y que sus longitudes y la configuración de la estructura son tales que no hay fuerzas sobre los miembros cuando f,y f, son iguales a cero. Supongatambién que los cambios en los ángulos debidos al cambio de posición de A bajo las fuerzas f, son insignificantes. Matemáticamente el modelo consiste en tres partes: 1) las fuerzas f crean fuerzas compresivas(o extensivas) dentro delos miembros, y éstas pueden ser relacionadas con fórmulas; 2) las fuerzas dentro de cada miembro causan expansiones (o compresiones) dentro del miembro, y éstas pueden ser relacionadas con fórmulas; y 3) las elongaciones (o compresiones) dentro de cadamiembro causan movimientos d en la articulación y éstos pueden ser relacionados con fórmulas. Para la primera parte del modelo, se denota mediante ti la fuerza extensiva (tensión) dentrodel i-ésimo miembro, de modo que ti es negativo si el miembro se comprime. Cada fuerza ti está a lo largo de su miembro y lleva la misma dirección que éste, lo cual permite descomponerla mediante trigonometría en la suma deuna fuerza horizontal y una fuerza vertical; y la suma de las fuerzas horizontales para todos los miembros equilibra a la fuerza horizontalf,, y la suma de las fuerzas verticales equilibra f,. En ecuaciones se tiene que
1').
Se denotó [f, f,
c
1' mediante f; denótese ahora [I,
8, sen 81
-COS
-COS
8,
sene,
-COS
e,
sen 8,
-cos e, sen 8,
r,
t, f 4 t ,
1' mediante t y ,
-cos 8, sen 8,
Entonces (2.19) puede expresarse de manera compacta como (2.20)
At = f.
Ahora, en cuantolo que a serefiere a lasegunda parte delmodelo: la relación de las fuerzas internas t con las expansiones o compresiones que causan. Su-
62
2
Algunas aplicaciones simples y preguntas
/
ponga que las fuerzas y elongaciones son tan pequeñas que sepuede aplicar la ley de Hooke:la deformación e que resulta de una fuerza t es linealmente proporcional a t , con la constante k de proporcionalidad llamada elasticidad: e = kt. Permítase que cadamiembro tenga una elasticidad diferente ki, de modo que su expansión ei = kiti. Si se utiliza e para denotar
y K para representar la matriz diagonal 5 X 5, con (K)**= kl, entonces la segunda parte del modelo (ei = kitipara i = 1 , 2 , 3 , 4 , 5 )puede expresarse como
(2.21)
e = Kt.
Sólo quedala tercera partedel modelo: relacionar las deformaciones e de los miembros con el desplazamiento d que causan en la articulación. El desplazamiento horizontal d , y el desplazamiento vertical d, en la articulación deben ser equivalentes al desplazamiento et en un ángulo O, para cada i ; interpretando esto al primer orden en d, da ei = -dl cos O*+ d, sen O, para 1 5 i 5 5. Si se escribe est0 como e = Bd para una matriz B, 5 x 2, se descubrirá queB es tan sólo AT,donde A es la misma matriz que aparece en (2.20). Por lo tanto, laúltima parte del modelo se expresa como e = ATd.
(2.22)
Al unir las tres porciones (2.20-2.22) del modelo, se tiene (2.23)
At
=f
e = Kt e = ATd. Recuerde que el objetivo era encontrar desplazamiento el d de laarticulación en términos de las fuerzas f aplicadas. De (2.23) se ve que f
= At = A(K"e)
= (AK")e
= (AK")(ATd) = (AK"AT)d;
de que la se ha supuesto aquí que las elasticidades ki son diferentes de cero, modo matriz diagonal K es no singular (ver problema 12 en la sección 1.4). Recuerde que A es 2 x 5 , K (y por lo tantoK") es 5 x 5, y ATes 5 x 2 ; de allí que el producto AK"AT sea 2 x 2. Por lo tanto el modelo se reduce a (2.24) Hd
= f,
de donde H = AK"ATes2 x 2,
que podrá reconocer como un sistema de dos ecuaciones lineales con dos las fuerzas dadas enf. incógnitas dl y d , el cual se desearesolver en términos de
2.4
(2.25)
/
Equilibrio en redes: ecuaciones lineales
63
Ejemplo. Para aclarar (2.24) considere un ejemplo específico. Suponga que los ángulos Oide los miembros son: = 30", g2 = 20", O3 = -30", 9, = -45", 9, = -60" (aproximadpmente como en la figura 2.18). Suponga también que todoslos miembros están hechos delmismo material y tienen la misma elasticidad ki = 0.01. Mediante un breve cálculo se demuestra que, en este caso, la matrizH de (2.24) es
De acuerdo al problema 17 de la sección1.4, esta matrizH es no singular ya que (313.336)(186.677)- (61.137)(61.137) # O (es igual a 54,754.892). Pero comoH es no singular de modo que H" existe, se puede resolver Hd = f de manera única para d en términos de f sin f {ver teorema1.38 c) en la sección1.4 }. importar el valor de las fuerzas En este ejemplo específico, entonces, los desplazamientos d se determinan de manera única mediante las fuerzas f (como sugiere la intuición) y, fácilmente, podemos calcular d a partir de f. En elejemplo 2.25, la importante matrizH de (2.24) resultó serno singular. ¿Sucede esto siempre? Es decir, se desea contestar: l . ¿AK"AT es siempre no singular? 2. si no, ¿cuáles son las condiciones de la estructura que hacen que la matriz sea no singular? Por el momento se carece delas herramientas necesarias para responder a estas preguntas; enlos capítulos 3y 4 se desarrollaránlas que se requieran para ello.
Ahora podrá resolverlos problemas del I al 5. Redes de manera mtis general
Aunque sólo sehan tratado estructuras planas de juntas articuladas, las mismas ideas se pueden aplicar de modo más general. Es posible, por ejemplo, tratar estructuras no planas, estructuras convarias juntas, estructurascon conexiones rígidas en lugar de articulaciones, y así sucesivamente. En todos los casos se termina con tres conjuntos de ecuaciones análogos a (2.20-2.22) que pueden combinarse con la relación fundamental (2.24).
64
2
I Algunas aplicaciones simples y preguntas
El mismo método es útil para redes diferentes a las estructuras, como se mencionó al principio de esta sección; en otras redes, los conceptos de las disciplinas relacionadas reemplazan los conceptos dedesplazamiento interno e, de la fuerza interna t, del desplazamiento de la junta d, y de la fuerza aplicadaf. Al modelar el flujo de bienes entre productores y consumidores, aparecen, por supuesto, conceptos económicos, mientras que al modelar el flujo de la electricidad vemos conceptos dela electrónica. Estos correspondena e, t, d y f como se muestra a continuación: Concepto estructural Deformación, e Esfuerzo, t Desplazamiento, d Fuerza, f
Concepto económico
Concepto electrónico
Diferencia de precio Flujo en el ramal Precio Flujo en el nodo
Diferencia de voltaje Comente en el ramal Voltaje Comente en el nodo
En estosy otros casos de redes, el resultado final es la relación fundamental (d) de la red se determinaa análogaa (2.24) que muestra cómo el comportamiento partir de las acciones externas(f) que actúan sobre él. Así que, desdeun punto de vista computacional, las tareas principales en el análisis de redes son la generación de la matriz A, la generación de la matriz H, y la solución de sistemas de ecuaciones definida por H (o la determinación de lasingularidad de H y de que el sistema no tiene solución). Los métodos matriciales revelan la naturaleza común de todo problema de redes, como la forma de resolverlos.
PROBLEMAS
2.4
1. Verifique que las ecuaciones (2.19) expresan el equilibrio de las fuerzas horizontales y el equilibrio de las fuerzas verticales. 2. Verifique que la e = ATdde (2.22) representa correctamente larelación entre extensiones de los miembros y desplazamientos de las articulaciones. D 3. Supongaque en el ejemplo 2.25f ,= 1yf2 = 10;encuentre los desplazamientos dl Y d2. 4. Suponga queen el ejemplo 2.25 se desea que los desplazamientos sean dl = 0.01 y d2= O . l . Encuentre las fuerzasf, y f2 necesarias para producir estos desplazamientos. 5. En el ejemplo 2.25: a) Encuentre H-l. b) Escriba un fórmula que exprese a dl en términos de f ,y f.y otra expresando a d, en términos defl y f 2 , para valores generales defl yf2.
2.4
I
Equilibrio en redes: ecuaciones lineales
65
6. Unmodelo económico simple supone que una cierta oferta de bienes a individuos puede mantenerse en equilibrio mediante un conjunto apropiado de precios paralos artículos; dadauna oferta deseada, elproblema es deter(I, 11,111, IVen la ilustración minar losprecios. Suponga que cuatro personas de abajo) producen y consumen los artículos; suponga que los individuos reciben y envían artículos comose indica con las seis trayectorias( 1 , 2 , 3 , 4 , 5 , 6, según se muestra abajo) -las flechas indican la dirección del flujo de los productos. Son de hecho las diferencias en los precios las que llevan a las diferencias en las ofertas, así que se puede pensar en el precio de cada artículo como un precio relativo-por ejemplo, en comparación con los del individuo I V ; matemáticamente esto significa que se pueden considerar la oferta y el
#I
I
/ 111
7
precio en I V como cero. Sean f,,f, y f3 los niveles de oferta (relativos) deseados en I , I1 y 111, respectivamente, y sean d l , d y, d3 los precios de los bienes (relativos); nuestro problema es determinar cada di a partir de lash. Sea ti la cantidad debienes que fluyen a lo largo de la trayectoria i ; entonces la oferta para cadaindividuo es igual a los bienes que entran menos los bienes que salen -por ejemplo,f, = t3 + t , - t,. (Esto se expresará abajo como f = At .) Se hace la suposición económica simple de que el flujo de bienes a lo largo de la trayectoria, es directamente proporcional a la diferencia entre los precios de los bienes en los extremos de las trayectorias; denotando estas diferencias entreprecios mediante ei para la trayectoria i-ésima-de modo que e3 = d , - d l y e, = d , - O por ejemplo- entonces se tiene que ti = ei/ki para ciertas constantes ki de proporcionalidad conocidas. Demuestre queal igual que en (2.23), este modelo se representamediante At = f, e = Kt, e = ATd-de modo que d puede determinarse por medio de Hd = f para H = AK-'ATdonde en este caso tomamos
t = [tl
tt,,
t,
t,
tJT,
e
=
[ eee,,,
e,
e,
e,lT,
66
2
/
Algunas aplicaciones simples y preguntas
K es la matriz diagonal, 6 x 6con los elementos de ladiagonal principal (K)¡¡ = ki, Y
o
-1
-1
o
1 O
1
-1
O
A=[
1
0
-
1
o 1
:].
o
1
D 7. Suponga que en el problema 6 los niveles de oferta relativos deseados son de f, = lO,f, = 4 yf, = 12, y que las constanteskison iguales a 1. Encuentre los precios relativos d necesarios para mantener estos niveles de oferta. 8. En la estructura plana articulada que se muestra abajo,el soporte enlajuntaA está fijo, mientras que el soporte en lajuntaB sólo puede moverse haciaarriba o hacia abajo sobre la pared. Sean f, t, d y e las fuerzas aplicadas, fuerzas internas, desplazamientosde las juntas y elongaciones de los miembros como en el modelo para(2.18). Demuestre que(2.23) relaciona nuevamente estos conceptos, donde ahora
x
f
,
1
1 A
0
o
o
0
0
0 - 1
m 9.
2.5
0 -1
0
0
o
1
0
1
o
o
Jz
"
o
-
1
8 o
1
Jz
--
f5
f3
SI]ponga que en el problema 8 las elasticidades kt son iguales a 1 y que las fuerzas aplicadas sonf, = O, fi= 1, f3 = - 10, f4 = 1 y fs = - 10. Utilice el MATLAB o software similar para resolver las cinco ecuaciones lineales (2.24) con cinco incógnitas d para obtener los desplazamientos d.
SISTEMASOSCILATORIOS:EIGENVALORES
En varias áreas de aplicación existen muchosfenómenos que presentan oscilaciones: las alas de los aviones, los puentes y los edificios altos oscilan con el viento: la economía oscila (por ejemplo, entrela inflación y la deflación); y así sucesivamente. Lógicamente,es importante entenderel comportamiento cuali-
2.5
I Sistemas oscilatorios: eigenvalores
67
tativo de estas oscilaciones: ¿se desprenderá el ala, se desplomará el puente, se vendrá abajo el edificio, se desmoronará la economía? El estudio de modelos de estos fenómenos, lleva comúnmente a problemas de matrices en los que se necesita descubrir cuándo ciertas matrices, que dependen de parámetros, serán singulares. Dos
masas
suspendidas y acopladas con resortes
Como una ilustración del fenómeno oscilatorio, consideramos movimiento el de dos masas acopladas mediante un resorte y suspendidas del techo mediante otro resorte, como en el diagrama de abajo; se suponeque el peso de los resortes es insignificante. Los dos pesos tienen masas de m, y m2. Las doslíneas horizontales marcadas como “Reposo” indican las posiciones de las masas en reposo, esto es, donde las fuerzas regenerativasde los resortes y la fuerza dela gravedad están en perfecto equilibrio.
Reposo -
Se desea modelar las oscilaciones verticales de las masas conforme pasa el tiempo cuando no están en reposo. Para ello, se introducen dos funciones de tiempo t:X , ( ? )es el desplazamiento hacia abajo en el tiempo t de la primera masa desde su posición de reposo,y X,(?)es el desplazamiento hacia abajo en el tiempo t de la segunda masa desde su posición de reposo. Entonces las fuerzas que actúan sobrela primera masa son: 1) la fuerza hacia arriba ejercidapor el primer resorte, que se ha estirado una distancia X , ( t ) desde su punto de equilibrio; y 2) la fuerza hacia abajo ejercida por el segundo resorte, que se ha estirado una distancia deX&) - X , ( t ) desde su punto de equilibrio; observeque la fuerza de gravedad ya ha sido considerada en lasposiciones de reposo de lasmasas. Las fuerzas sobre la segunda masa es la fuerza hacia arriba ejercidapor el segundo resorte. Se supone que los desplazamientos involucrados son lo suficientemente pequeños para que la ley de Hooke sea válida para los resortes: La fuerza regenerativa para cada resorte es igual a una constante ki multiplicada por el
68
2
Algunas aplicaciones simples y preguntas
/
estiramiento del resorte. Recordando la ley de Newton quedice que la fuerza es igual a la masa por la aceleración resultante y, recordando además que la aceleración es lasegunda derivada del desplazamiento&(t), se obtiene el modelo matemático del sistema: (2.26)
+ k,(X,
rn,X;'
=
-k,X,
m,X;'
=
-k,(X, - X , ) ,
-
X,)
donde los signos primos indican una diferenciación con respecto a t . El problema matemático consiste en encontrar las funciones X , y X 2 que satisfagan a (2.26). La experiencia y la intuición dicen que los sistemas deben ser oscilatorios: Tanto X , y X , deben oscilar entre valores positivos y negativos de modo muy parecido a las funciones trigonométricas seno y coseno. Por lo tanto, se decide ver si se pueden encontrar soluciones para (2.26) utilizando senos y cosenos; y, de manera más precisa, se buscan soluciones de la forma X,(t) = tlsenot
(2.27)
X,(t)
=
+ q l cos o t
t 2 s e n o t + q z cos ot,
donde t,,T ~,f2, , 9,y w son constantes quese deben determinar para que X , y X , resuelvan (2.26). Si se sustituyen en (2.26) las expresiones para X , y X 2 de (2.27), diferenciando conforme se requiera, y agrupando términos, se obtiene
{ -rnlo2t, -t k l t l + { -rn,w2ql
+ k , t , - k,t,} sen w t + k , q , + k,ql - k Z q Z }cos o t = O
{ -m2w242 + k , t , + { -m,w2q2
+ k g 2 - k,q,}
-
para toda t
k,(,}senot cos ut
para toda t
=O
Ahora, el Único modo en queA sen w t - B cos wt puede ser igual a cero para toda t es cuando A = B = O; esto significa que las expresiones anteriores dentro de corchetes deben ser iguales a cero: {m}
(2.28)
así como (-m1w2
+ k , + k,)q, + (- kJq1
+ (-
(m202
=0
+ k,)q, = o.
2.5
I
Sistemas oscilatorios: eigenvalores
69
La notación matricial hará más claro lo que se requiere en (2.28). Se define
Observe que K y M son matrices conocidas, mientras que 5 y q son lasincógnitas que se desean determinar demodo que X , y X , de la forma en (2.27) resuelvan (2.26). Mediante el uso de estas matrices, se pueden reescribir las ecuaciones necesarias para satisfacer (2.28) como (K - w2M)< = O
(2.30)
y
(K
- 02M)q = O.
Los sistemasde ecuaciones para 5 y para q son idénticos, ambos se representan mediante la matriz de coeficientes K - w2M. (2.31)
Ejemplo. Considéreseconcretamente un ejemplo para aclararestassituaciones. Suponga que las masas son m, = 10 y m, = 5, mientras que las constantes de los resortes son k , = 80 y k , = 40. Entonces las matrices en (2.29) son simplemente
Cada uno de los dos conjuntos de ecuaciones (2.30) tiene la forma (120 - 1002)x -4Ox ~~
+ (40
40y = O -
5 0 , ) ~= O.
~
Ahora podrá resolver los problemas del 1 al 4 . Eigenvalores
Volviendo al problema general; se observa que cada uno de los sistemas de ecuaciones en (2.30) es de la forma Ax = O, donde A es 2 x 2 y x es 2 x l . Resulta obvio que una solución a tal sistema es x = O ; en este caso esto hará que t1= t2= q 1= = O y por lo tantoX,(t) = X,(t) = O , lo cual describe el estado de reposo del sistema en lugar de un estado oscilatorio.Por lo tanto, se necesitan soluciones diferentes de O. De acuerdo al teorema 1.38 c) dela sección 1.4 sobre ecuaciones e inversas, Ax = b para A tendrá exactamente una solución A"b si A es no singular. Se quiere una solución para Ax = O diferente dex = O (=A"O si A es no singular); entonces, para que esto suceda, A debe ser singular. Recuerde que estamos utilizando A para indicar K - d M en (2.30). Entonces sededuce que,
r),
70
2
I Algunas aplicaciones simples y preguntas
(2.32)
<
paraque (2.30) tenga soluciones t y q diferentes de = = O {paraque X , @ ) y X&) no sean idénticos a cero }, la matriz K - 02Mdebe sersingular.
Recuerde quese conocen K y M -ver (2.28)- pero quew es desconocida: se trata de escoger o (junto con 5 y q ) a modo de que(2.27) dé soluciones a (2.26). Por lo tanto, el problema es: (2.33)
Seleccione
o2para
que K - 02M sea singular.
El problema de determinar un número A para el cual K - AM sea singular se conoce comoun problema de eigenvalor, y tal A se conoce comoun eigenvalor. (2.34)
Ejemplo. Considere el sistema concreto del ejemplo 2.31. De acuerdo a lo que se acaba de hacer, el problema es escoger o para que K - wZM sea singular, donde
K-mZM=
120 - 1002 -40
[
-40 40 - 5 0 ’
1.
El problema 13 en la sección 1.4, da u1,a condición necesaria y suficiente para los elementos, para que una matriz 2 x 2 sea singular. En este caso, esto se vuelve (120 - 100~)(40- 50’) - (-40)( -40)
O.
Esto es, ~ O ( W ~-) ~1000 (o2)+ 3200 = O; factorizando este polinomio cuadrático en 02,la ecuación se reduce a 50(02 - 4)(02 - 16) = O. Por lo tanto, o2 = 4 y o2 = 16 son los eigenvalores para este problema. Esto significa que los únicos valores posibles para o son +2, -2, +4 y -4; pero éstos son sólo valores posibles en cuanto a lo que se refiere a encontrar soluciones diferentes de cero5 y q para (2.30) se tiene que comprobarsi, en realidad se puede resolver para 5 y q diferentes de cero. Observe que como lo que apareceen las ecuaciones es w2 en lugar de o sólo se debeexaminar o = + 2 y o = +4. Del mismo modo, el cambiar el signo de o es lo mismo que cambiar el signo de y t2en (2.27), así que sólo se consideran los valores positivos de o. Para o = 2, las ecuaciones para 5 son 806, - 406, = O y -405, + 205, = O, cuyas soluciones son 5, = a arbitraria y t2= 2a; de manera similar las ecuaciones para q llevan a 7,= p arbitraria y 7, = 2p. Para w = 4, por otro lado, las ecuaciones para son, en su lugar,
el
cuyas soluciones son t1 = y arbitraria y t2= - y ; de manera similar, las ecuaciones para q llevan a 7,= 6 arbitraria y 7,= -6.
2.5
I
Sistemas oscilatorios: eigenvalores
71
Volviendo a la situación general, se observa que para poder satisfacer (2.33) para la matriz K - 02M 2 x 2, se tendráque resolver una ecuación para o2igual que en elejemplo 2.34; entonces se tendráque ver si, con losvalores específicos encontrados para w , se puede resolver (2.30) para ,$ y q diferentes de cero. Para una t medidadigamos, ensegundos, y las soluciones tales como sen of y cos wt se repiten cada 27r/o segundos -esto es,o/27r veces por segundo. El número w/27r” es, por lo tanto, lafrecuencia de oscilación. Si se tuvieran p masas en lugar de sólo dos comoen elmodelo, las matrices K y M seríanp x p en lugar de 2 x 2. Así que, de manera más general, se desea saber:
l . ¿Cómo se puede saber si existen números o reales que hagan que K 02M sea singular y determine las frecuencias de oscilación? 2. Si se encontraran tales números o,¿cómo se puede saber si se puede encontrar una x diferente de cero para que (K - w2M)x = O? Por elmomento se carece de las herramientas necesarias para responder a estas preguntas generales; en los capítulos 7 y 8 se desarrollarán las que se requieran. para ello.
Ahora podrá resolver los problemas del 1 al 6 .
Solución del problema de las masas oscilatorias
Aún no se ha demostrado cómo esteanálisis matricial permite resolver el problema de las masas acopladas; por simplicidad, se examinará el caso concreto tratado en los ejemplos 2.26 y 2.34. En el ejemplo 2.34 se encontraron soluciones diferentes de cero para (2.30) con w = 2, t1y & dependientes deun número arbitrario(Y y vl y v2dependientes de un número arbitrariop. De modo similar, se encontraron soluciones diferentes de cero con o = 4 dependiente de los números y y 6. Si se sustituyen estos valores en las expresiones (2.27) para las funciones X,(t) y &(t) que describen el comportamiento del sistema de dos masas, se obtiene
+ p cos 2t 4t + 6 cos 4t
+ 28 cos 2t,
X , ( t ) = c( sen 2t
y
X , ( t ) = 2cr sen 2t
X , ( t ) = y sen
y
X , ( t ) = - y sen 4t - 6 cos 4t
como pares de soluciones a (2.26) para todo valor de (Y, p , y y 6. Combinando estos pares sepueden obtener soluciones que describan los movimientos de las masas una vez quese conoce comocomienzan las oscilaciones. Para ver esto, se las soluciones anterioescribe x(t)como la matriz columnaX(t) = [Xl(t) X2(t)IT; res pueden entonces expresarse como
72
2
Algunas aplicaciones simples y preguntas
/
(2.35)
I + ~ [cos411 -sen -cos 4t 4t
x(t)=.[ sen 2tI + ~ 4t sen [2t cos 2tcos2 2tsen2
para cualquier valor arbitrario de (Y, p, y y 6. Sólo se necesitan escoger estos valores para cumplir las condiciones iniciales de las masas. (2.36)
Ejemplo. Suponga que a ls masas comienzan con la masa superior colocada una unidad por debajo de su punto de reposoy la masa inferior colocada cinco unidades por debajo de su punto de reposo; estorequiere queX,(O) = 1 y &(O) = 5. Suponga además que se acaba de soltar cada masa, de modo que no se le aplica alguna velocidad inicial; esto requiere queX;(O) = X;(O) = O . Si se aplican estas condiciones en t = O en la soluciónrepresentada por p, y y 6 deben satisfacer a (2.35), se encuentra que (Y,
p+ 6=1 2p-
6=5
2a + 4y
o 4a - 4y = o, =
de donde se encuentra que(Y = O, y = O, p = 2 y 6 = - 1 . Esto nos da la solución para el movimiento de los pesos para toda t : X,@)= 2 cos 2t X,(t)
= 4 cos
-
cos 4t
2t + cos 4t.
PROBLEMAS
2.5
1. Verifique que los miembrosderechos de las ecuaciones en (2.26) representen de manera adecuada las fuerzas que actúan sobre las masas. 2. Verifique que (2.28) se sigue de sustituir las expresiones de (2.27) en las ecuaciones de (2.26) y utilizar el hechode que A sen wc B cos wt = O para
+
toda t implica que A = B = O . 3. Suponga que en el modelo de esta sección m, = 12, m, = 16, k , = 36 y k, = 48. Encuentre las matrices y ecuaciones análogas a las del ejemplo 2.31. D 4. El comportamiento de lamolécula triatdrnica lineal -una molécula con tres átomos arregladosen línea- se puede modelar mediante tres masas conectadas por dos resortes como se muestra abajo, dondela masa central tiene una masa M y las otras masa m. Como en el modelo básico de esta sección, las funciones X , miden los desplazamientos de las masas desde puntos de reposo; se ignora la gravedad, y los resortes se suponen sin peso.
2.6
1 Reposo
I
Modelos generales: mínimos cuadrados
I Reposo
73
I Reposo
a) Demuestre que las ecuaciones que expresan “masa por aceleración igual a fuerza” en este caso son rnX;l= - k ( X , - X,) MX;’ = k(X1- 2x2 rnXi
=
+ X,)
-k(X, - X J .
b) Sustituya las expresiones similares a aquéllas en (2.27) -debe incluir una expresión para X , utilizando los coeficientes t3y qr en las ecuaciones de arriba y derive las ecuaciones análogas a aquéllas en (2.28) y (2.30). 5. Para el modelo del problema 3 , encuentre los valores de o,tiy q icomo sehizo en el ejemplo 2.34.
D 6. Para el modelo del problema 4 , suponga que k
= 12, m = 2 y M = 6 . Encuentre los valores de o,tiy q ide modo parecido a como se hizo en el ejemplo 2.34.
7. Verifique para el ejemplo 2.36:
a) Que los valores encontrados a,p, y y 6 resuelven lasecuaciones dadas para esos números. b) Que las funciones X , y X, encontradas, satisfacen las ecuaciones diferenciales (2.26) utilizando los valores relevantes de mi y de ki. c) Que las funciones X1 y X , satisfacen las condiciones requeridas en t
=
o.
8. Encuentre X & ) y X,(?) de manera explícita, para el modelodel problema 3 con
el fin de obtener X,(O) = O, X,(O) = 1, Xl(0) = X;(O) = O.
2.6
MODELOSGENERALES:MlNlMOSCUADRADOS
Como se ha indicado en las secciones anteriores, la modelación es una parte central delas matemáticas aplicadas. Frecuentemente,uno supone ciertaforma general para un modelo y después debe determinar los varios parámetros en dicha forma, de manera que el modelo esté tan cerca de la realidad como se
74
2
I Algunas aplicaciones simples
y preguntas
pueda. Un método muy usado es el metodo,de los mínimos cuadrados,en el cual uno escoge los parámetros de modo que minimicen lasuma delos cuadrados de los errores en la representación del modelo a partir de datos conocidos; este método es también fundamental en el análisis estadístico de datos, de manera particular, en lo que se conoce como andisis de regresidn. Ajuste de líneas rectas a datos
Podría decirse que la forma más simple de un modelo es una línea recta: se modela la manera en que cierta variable y de interés depende de cierta r por la forma yzaabt
(2.37)
donde a y b son los parámetros a determinar, y se escribe " =" en lugar de "= " porque el modelo (2.37) es sólo una aproximación. Para poderaeleccionara y b a fin de reflejar experiencia, se requiere de ciertos datos; por lo tanto, se supone que se tienen p pares de medidas de los valores de t y y que hemos encontrado apareados. (2.38)
(ti,yi) para 1 5 i
5
p son los datos obtenidos por experiencia.
La tarea es seleccionar a y b tales que (2.37) trabaje lo mejor posible, en cierto sentido, para igualar losdatos de (2.38); una vez determinados a y b -si reflejan adecuadamente los datos- se puede considerar el uso del modelo (2.37) para predecir los valores de y para otros valores de r. (2.39)
Ejemplo. Si un cuerpose mueve en una línea perfectamente recta, con velocidad perfectamente constante, entonces su posición y a lo largo de la línea en el tiempot se da de modo exacto mediante y = y o + ut, donde y,, es la posición del cuerpo enel tiempo t = O y u es la velocidad constante. Por supuesto, en el mundo físico, muy seguramente el cuerpo tendrá ligeras variaciones en su velocidad y el modelo yo + v t no describirá exactamente la posición y. Suponga que se ha medido la posición y de u n cuerpo en particular en cincomomentos diferentes y que sehan obtenido los siguientes datos: r l O
3
5
8
10
y 1 2
5
6
9
11
Representando estos datos en una gráfica con ejest y y , se puede ver que, como se esperaba, los puntos casi se encuentran sobre una línea recta:
I
2.6
c
I
I
2
4
Modelos generales: mínimos cuadrados
1 6
I 8
I
10
75
> I
La tarea es escoger y o y v para que y = y o + ut en los cinco puntos de los datos; ya que la ecuación y = y o + ut entre t y y tiene una línea recta como su representación gráfica, geométricamente, se trata de encontrar una línea recta que se acerque más lo posible a los cinco puntos sobre la gráfica de arriba.
+
En el caso general, se desea escogera y b para que a bt se acerque lo más posible a la reproducción de los datos de (2.38). Para cualquier selección de los parámetros a y b, su error se mide en la producción de los datos en el punto del dato ( t i , y * ) mediante el i-ésimo residuo. (2.40)
li =
yi - (U
+ bti)
y se mide el error totalen la reproducción delos datos, mediante la suma delos cuadrados de los residuos: P
P
(2.41)
S(a, b) =
I: i= 1
{yi - (U
= i= 1
+ bti))’.
Se utiliza la notación S ( a , b) para enfatizar que el error depende delos parámetros desconocidos a y b. Ahora se muestra que,para determinar a y b de modo que el error total S sea lo más pequeño posible, se deben encontrar a y b que satisfagan
76
2
I Algunas aplicaciones simples y preguntas
donde
Desarrollando los términos de (2.41), acomodándolos, y utilizando por conveniencia la notación aü y pi de (2.42), se encuentra que
Si se completa el cuadrado en la expresión de arribacon respecto ala variable a se obtiene -28,
+ 2cr,,b
+ términos independientes de a.
Debido a que el Único término que involucra a a en S(a,b ) es el que se encuentra entre llaves,y ya que sedesea minimizar a S(a,b) con respecto de a , y ya que el positivo, se minimiza S(a, b) conrespecto de a coeficiente de all dees haciendo que el término = O. Pero = O convierte ala primera ecuación en (2.42); del mismo modose completa el cuadrado con respecto de b para producir la segunda ecuación. {e}
{a}
(2.43)
Ejemplo. Considere nuevamente el problema del ejemplo 2.39, Utilizando las fórmulas de (2.42), se encuentra que all= 5, aI2= azl= 26, az2= 198, p1 = 33 y p2 = 227. Minimizando la suma de los cinco errores elevados al cuadrado {yi - ( y o + esentoncesequivalente al hechoderesolver
+ 26v = 33 26y0 + 1 9 8 ~= 227. 5y0
Al resolver estesistema resulta y o = 2.01 y z1 = 0.88, la línearecta determinada por estos valores se graficó en la figura del ejemplo 2.39 para demostrar lo bien que se ajusta el modelo de los datos. En estepunto se sabeque, con el finde ajustar un modelo de línea rectay= a resolverlas dos ecuaciones lineales con dos incógnitas a y b de (2.42). En el caso especialdel ejemplo 2.43 se encuentraque estas ecuacionestienen de hecho una solución;no se sabe,sin embargo, queen general, esto sea verdadero. Se desea saber:
+ bt a los datos (2.38), se necesita
l . ¿Siempre tienen solución las ecuaciones en (2.42)? Más adelante se verá que la respuesta es “sí”.
2.6
I
Modelos generales: mínimos cuadrados
77
Ahora pod& resolver los problemas del I al 3 .
Ya que (2.42) da dosecuaciones con dos incógnitas, el problema puede expresarse mediante notación matricial; de hecho también se puede expresar con notación matricial toda el álgebra resultante de (2.42). Definase
Entonces, seleccionar a y b para que a + bti z yi para 1 i 5 p es 10 mismo que seleccionarx para que Ax = y. En estanotación, S -la suma delos cuadrados delos residuos ries el número [S] = rTr; por simplicidaden lanotación, esto se escribe como S = rTr. Esto es, se busca minimizar (2.45)
minimizar S
= rTr = (y
-
AX)^(^ - Ax).
Sorprendentemente, las definiciones de all,a12,azl,aZ2, p1y p2muestran que (2.46) Estas matrices aijy pi son precisamente las del sistema de ecuaciones (2.42). Por lo tanto, en notación matricial, el sistema de ecuaciones(2.42) que se tiene que resolver para determinar a y b es tan sólo (2.47)
ATAx = ATy,
donde se conocen A y y y se tiene que encontrar x. Formalmente -repetimos: formalmente- las ecuaciones (2.47) se obtienenpremultiplicando Ax = y porATy reemplazando = por =. Ahora podrá resolver los problemas del I al 8. Ajuste de datos mediante expresiones más generales
Hasta ahora todo el desarrollo se ha hecho aproximando datos mediante líneas rectas. Pero la notación matricial revela otra manerade visualizar lo que se está
78
2
I Algunas aplicaciones simples y preguntas
haciendo. En la notación matricial se ha dadouna matriz A y una matriz y -ver (2.44)- y se quiere encontrar la matriz x para que Ax= y. Recuerde ahora el ejemplo 1.41 de la sección 1.5; ese ejemplo mostró que, en general, Ax = x l a l
+ x,a2 +
..
+ xqaq,
donde los números xi son los elementos de la matriz x, q X 1 y las matrices q = 2, y por columna a i ,p x 1 sonlas columnas de la matriz A , p X q . En este caso lo tanto, se trata de escogerx,(que es igual a a) y x2(que es igual ab) de modo que y = xlal + x2a2donde
Este problema general surge de manera frecuente; se requiere
(2.49)
Dado A real p x q y y real p x 1, encuentre x q x 1 para que Ax = y;
éste es el problema (lineal) general de mínimos cuadrados. (2.50)
Ejemplo. Suponga quese decide aproximar los datos (ri, y i ) del ejemplo 2.39 mediante una expresión cuadrática enlugar de lineal: y = a + b? + ct2. Esto es equivalente a hacer Ax = y, donde
I~i :2], 1
A =
O
10
1
2
O
x=[!],
100
y
y=
~~.
11
En el caso general (2.48), como enel caso del ajuste de datos mediante una línea recta, se define el residuo para cualquier x como (2.51)
r=y-Ax
y se busca x para
(2.52)
minimizar rTr = (y
-
AX)^(^
-
Ax).
2.6
/
Modelos generales: mínimos cuadrados
79
El material posterior demostrará que la solución a (2.47) resuelve (2.52), igual A es la que en el caso especial del ajuste mediante línea recta, excepto que ahora matriz p x q de (2.48). Sin embargo, con la información que ahora se tiene, se necesita saber:
2. ¿Por qué la solución de x en (2.47) resuelve (2.52)? Aún más, existen preguntas sobre si (2.47) siempretiene una solución, sobre la forma de encontrarla, y sobre lo que pasa cuando los datos son complejos: 3. ¿Tiene siempre ATAx = ATy una solución para x? 4. ¿Cómo se puede resolver para x de manera eficiente y precisa? 5. ¿Qué sucede si ambos A y y son complejos?
Los capítulos 5 y 8 permitirán responder a estas preguntas. PROBLEMAS 2.6
1. Para y,, = 2 y v = 1, encuentre los residuos ri en el ejemplo 2.43. 2. Existen situaciones en las que algunos residuos se les debe darmayor peso en el errortotal S que a otros; estolleva a rninirnos cuadrados ponderados. Suponga que se define -en lugar de S ( a , b) de (2.41)- a "(a, b) =
P
wit-:
para pesos positivos dados wj.
i= 1
Demuestre que lasecuaciones para la determinación de a y b y la minimización de W ( a ,6) sigue siendo las de (2.42), y que excepto las auy pise definen de modo diferente:
con definiciones análogas para pj (introduciendo wi en l a s sumatorias). D 3. La tabla de abajo muestra lapoblación estadounidense aproximada en millones cada diez años desde 1900 hasta 1980. Encuentre las ecuaciones (2.42) que resultarían de intentar ajustar estos datos al modelo (población en millones) = a Año 192019101900
+ b (afío)
19801970 1930 196019501940
226.5 203.2 179.3 150.7 131.7 123.2 Pob. 105.792.0 76.0
4. Verifique que (2.46) se cumple para A y y como en el ejemplo 2.43.
80
2
I Algunas aplicaciones simples y preguntas
5. Para el método de los mínimos cuadrados ponderados descrito en el pro-
blema 2, muestre que la ecuación matricial análoga a (2.47) es A W A x = ATWy,donde W es la matriz diagonal con elementos en diagonal la principal de ( W ) i i= wi.
D 6. Suponga quelos datos del ejemplo 2.39 se reemplazan por los valores de cy y mostrados abajo; ajuste una línea recta a los datos.
w
7. La relación entre los grados Fahrenheit F y los grados Celsius C es de la
forma F = a + bC para a y b adecuadas. Debido a medidas inexactas, la tabla de abajo no refleja perfectamente esta relación. Utilice el método de los mínimos cuadrados para encontrar valores aproximados para a y b a partir de los datos proporcionados. F
-1
C
32
2
10
15
36
51
57
8. Si A esp X q y y esp x 1, el comando delMATLAB x = Aly calculade hecho la solución de mínimos cuadrados x para Ax = y por un método muy preciso. a) Utilice el comando delMATLAB para resolver parael modelo de mínimos cuadrados del problema 3 en lugar de resolver (2.47) b) Utilice el modelo obtenido para predecir la población en 1990. xi, demuestre que la solución de los mínimos cuadrados para el problema general (2.48) puede obtenerse resolviendo ATAx = ATy (A, y reales). D 10. Encuentre la solución de mínimos cuadrados a Ax = y, donde
9. Completando cada vez el cuadrado de una variable
11. Encuentre todas las soluciones mínimos de cuadrados paraAx = y y muestre que ATA es singular, donde
j-;
1
L
1
-2
2.7
/
Planeaci6n de producci6n: programas lineales
81
9.R 12. Suponga queen el modelo de la competencia entre lecherías ejemplo del 2.6
sección 2.2,no se conoce elmodo de calcular la nueva fracción de mercado de la lechería 1 a partir de las fracciones anteriores, no que si sólo se sabe que x1 = ma+ pya+ yz, para parámetrosa,p y y desconocidos. Suponga que se han recolectado datos que muestran que las acciones iniciales del mercado de[0.2 0.3 0.5]Tllevanax, =0.3,que[0.3 0.2 0.5]Tllevaax, = 0.3,que[0.4 0.3 0.3IT llevaa x , = 0.4, que [0.1 0.1 O.8ITlleva a0.2 y que [0.7 0.2 0.1IT lleva a0.6. Utilice el MATLAB o software similar con el método mínimos de cuadrados para determinar los valores aproximados de a , p y y .
D 13. Encuentre explícitamente las ecuaciones ATAx = ATy para el modelo del ejemplo 2.50. W14. Utilice elMATLAB o software similar para resolver para el ajuste cuadrátic0 del ejemplo 2.50. 9.R 15. Utilice elMATLAB o software similar para encontrar el ajuste cuadrático de mínimos cuadrados a los datos poblacionales del problema 3 ; prediga la
población en 1990. 16. SupoRga que A o y o ambos son posiblemente complejos, de modo que la suma de los cuadrados de las magnitudes de los residuos debe evaluarse como F r en vez de rTr.De hecho, entonces, las ecuaciones que determinan una solución de mínimos cuadrados x para Ax = y se convierten enAHAx = AHy en vez de ATAx = ATy como en (2.47). Demuestre esto para el caso especial del ajuste de datos posiblemente complejos (2.38) mediante (2.37) con a y b posiblemente complejos.
2.7
PLANEACION DE PRODUCCION: PROGRAMAS LINEALES
En muchos problemas prácticos se nospide cumplir alguna tarea deuna manera óptima (o casi óptima): paraminimizar costos, para minimizar esfuerzos, para maximizar ganancias, etc. Los modelos matemáticos de muchos de estos problemas se llamanprogramasmatemúticos;aquíla palabra “programa” se utiliza en el sentido de “plan de acción”en vez de como “programa computacional”. De estos programas los más simples son los programas lineales; y aunque simples, han tenido una gran aplicación e impacto en muchas áreas del comercio y del gobierno. Se presenta aquí un ejemplo simple de unaprograma lineal y su solución. Un problema de planeación de producción
Al intentar decidir cómo asignar la capacidad de manufacturar entre varios productos, una industria, por lo general, estáinfluenciada por muchos factores, incluyendo, por supuesto, el deseo de una lograr utilidad razonable. Se considera
82
2
I
Algunas aplicaciones simples y preguntas
ahora un modelo muy simplificado de tal situación en la que se supone que el m i c o deseo es el de maximizar utilidades. Suponga que una planta industrial tiene tres tipos de máquinas ( M , , M 2 y M,), cada unade las cuales debe usarse para manufactura la de los productos de la planta, de los que existen dos tipos (PI y P,). El problema es decidir cuánto producir de cada producto cada semana, de modo que se maximicen las utilidades semanales. Se suponeque, de cada unidad de cada producto manufacturado, se tiene una utilidad fija,de modo que la utilidadtotal es simplemente la suma de las utilidades de cadatipo P , y P,, y la utilidad de cada uno se obtiene, simplemente, multiplicando la utilidad porartículo por el número de artículos manufacturados. Específicamente, se supone que la utilidad por artículo hecho para el producto P , es de$40, mientras que paraP, es de$60. Se observa claramente que el fabricante simplemente debe producir lo más posible; aquí la palabra “posible” resulta clave, ya que, es lógico que el fabricante está limitado por las capacidades de los tipos de máquina M , , M , y M , que se tienen que utilizar. Por lo tanto, se debe suponer que seconoce la cantidad de tiempo disponible en cada máquina y también la cantidad de tiempo que se requiere en cadamáquina para hacer cada tipo de producto. Específicamente, suponga que un artículo de P I requiere de doshoras en las máquinas de tipo M , y una hora en cada una de las máquinas de tipo M , y M,, mientras que un artículo de P , requiere de una hora en cada unadelas máquinas de tipo M , y M2pero tres horas en M,. Además suponga que el número de horas disponible cada semana enlas máquinas de los tipos M , , M , y M3 es 70,40,y 90, respectivamente. Todas estas suposiciones se resumen en (2.53) (2.53)
TipodeHorasnecesariasparaHorasnecesariasparaHorastotales máquina una unidad de P I una unidad de P2 M I M2 M3
disponibles
1 1
2 1 1
Ganancia por unidad de P I = $40
70 40 3 90 Ganancia por unidad dep , = $60
En seguida, sea x, el número de unidades de P , que deben producirse cada semana, mientrasque x, denota el número de unidades de P,. Ya que cada unidad de P , requiere de dos horasen las máquinas de tipo M , mientras que cada unidad de P, requiere de sólo una hora, entonces, se requiere de 2x, + x2 horas en las máquinas de tipo M , ; ya que sólo se disponen de 70 horas en estas máquinas, se necesita
2x, + x I70 Razonando de manera similar con respecto a los tipos limitados de las máquinas P,, se observa de tipo M , y M3 y al tiempo necesario para producirx,de P , y x2 de
2.7
/
Planeaci6n de producci6n: programas lineales
83
también que es necesario que
Ya que es imposible producir un número negativo de unidades también se requiere que x1 2
o,
x2
2 o.
Para calcular la utilidad resultante de nuestroplan de producción, recuerdeque la utilidadde cada unidad de P , es de40, así que xlunidades dan una utilidad de OX,; de modo similar, x2 unidades de P , dan una utilidadde 60x2,de maneraque la utilidad total es de40x, + 60x2. De modo que la versión matemática de nuestro problema de producción es como sigue: (2.54)
maximizar M
= 40x,
+ 60x2
donde x1 y x2 deben satisfacer las restricciones (2.55)
2x,
+
x2 I 7 0
x1
+
x2
X1
i3x2 I 90
I 4 0
x1
2
x2
2
o o.
Este esun problema típico de programación lineal que involucra laoptimización de cierta función lineal de ciertas incógnitas sujetas a restriccioneslineales que limitan los valores permisibles de las mismas; tales problemas se estudiarán después más de cerca y se aprenderá a resolverlos mediante métodos matriciales. Por lo pronto nos limitamos a reescribir el programa lineal en notación matricial y a utilizar métodos gráficos para resolver el problema. Con el fin de expresar las ecuaciones anteriores en notación matricial, se requiere de los siguientes conceptos. Se diceque una matriz P es mayor que Q , escrito como P > Q , cuando P y Q tienen el mismo número de renglones y de columnas, y cada elementode Pes mayor queel elemento de Q correspondiente. Definiciones similares se cumplen para 2 , < y I. Si P > Q , se dice que P es positivo. Si P 2 Q , se dice que P es no negativo. Si se introduce (2.56)
84
2
I
Algunas aplicaciones simples y preguntas
entonces el problema descrito en mediante (2.57)
(2.54)
maximizar M
=
y
(2.55)
puede denotarse fácilmente
cTx,
donde x debe satisfacer las restricciones
x 2 O.
Ax I b,
(2.58)
(Hablando en un sentido estricto, cTx es una matriz 1 x 1, pero se adopta la convención de que cTxpuede también denotar el elemento de la matriz.) Se cumplirán las mismas formas de ecuaciones si se tienen p máquinas diferentes que producen q productos. Entonces A es una matriz p x q , y su elemento (i, 13 representa el número de horas en la máquina i requeridas para producir una unidad del productoj. Elnúmero total de horas disponibles formará una matriz columnap X 1, y la matriz de utilidades c y la matrizx que representa los números de unidades producidas, serán matrices columna q x 1. Ahora podrá resolver los problemas del 1 al 4 . Interpretación geométrica y solución
Más adelante se aprenderánmétodos matriciales para resolver programas lineales generales delas formas en (2.57)-(2.58). Porloprontose describirá el problema específico en (2.54)-(2.55) de manera geornétrica (o gráfica) para visualizar los hechos; así mismo, se podrá resolver el problema mediante este método. Para tratar laprimera desigualdad en (2.55), se observa que2 x 1 + xz = 7 0 es la ecuación de una línea recta -vea la figura 2.59. La desigualdad 2 x 1 + x2 S 70 significa que el punto (x,, x2)debe encontrarseen o por debajode la línea recta. De modo similar, las otras dosdesigualdades en (2.55) definen mediosplanos en los que deben encontrarse los puntos (x,, x2)permisibles. Las desigualdadesx, L O , xz L O significan que (x,, x2) deben encontrarse en el primer cuadrante. El resultado neto es que las desigualdades confinan el punto (x,, xq) a una región poligonal cuyo límite se encuentra sombreado en(2.59). Para cualquier valor de M dado, la ecuación (2.54), es decir 1M = 40x, + 60x2,define una línea recta. Las tres líneas punteadas en (2.59) representan esta línea recta. Las tres líneas punteadas en (2.59) representan esta línea recta para M = O, 1200,2400. El valor de M que correspondea cualquier punto sobre una línea dada es una constante,y las líneas son paralelas. Para maximizar M debe alejarse lo más posible en una dirección perpendicular a estas líneas -en (2.59) en la dirección de la flecha cerca del origen- sin abandonar la región permitida. De este modo se alcanzará el punto 9,que es la intersección de X,
+ 3x2 = 90,
X,
+ x2 = 40,
2.7
I
Planeach de producci6n: programas lineales
85
esto es,x1 = 15, x, = 25. El valor de Mcorrespondiente es de 2100. Partiendo de la figura geométrica, es lógico que dos de las relaciones en (2.55) son ahora igualdades y una es estrictamente una desigualdad. En términos del problema original de planeación de producción, se obtiene una utilidad máxima de $2100 semanales al producir 15 unidades de P , y 25 unidades de P , cada semana; las máquinas del tipo M , y M3 se utilizan a su máxima capacidad cada semana, pero sólo se usan 55 horas de tiempo en las máquinas M,, 15 horas menos de su capacidad. El fabricante deberá considerar vender el algunas de las máquinas M 1 ya que la capacidad de la máquina M , puede reducirsesin reducir la utilidad (ver problema 5). (2.59) a xI
40x I
40xI
XI
= 40
Para problemas como éstos, es necesario saber:
l . ¿Siempre existen soluciones? 2. ¿Cómo se pueden encontrar soluciones de unmodo eficiente y preciso? Tales preguntas se responden en el capítulo1 1, utilizando unagran cantidad de la información de los capítulos 3 y 4. PROBLEMAS
2.7
1. Deduzca la segunda y tercera restricciones de (2.55). 2. Una dieta balanceada debe consistir de, al menos, cantidades mínimas de
ciertos nutrientes. Suponga que de un conjunto dado de alimentos, desea
86
2
/
Algunas aplicaciones
simples y preguntas
determinar una dieta de costo mínimo que satisfaga los requerimientos mínimos propios de ciertos nutrientes; en particular, suponga que la tabla, abajo, da el costo y niveles de nutrientes en cadauno de tresalimentos y que se debecumplir con los requerimientos mínimos que seenlistan de la manera más barata posible.
Alimento 1 Nutriente I Nutriente 2 costo
Alimento 2
Número mínimo de Alimento 3 unidades requeridas
2
1
1
40
I 70
1 40
3 90
60
Denote mediante yl,y, y y3 las cantidades de cada uno de los tipos de alimentos en ladieta. Muestre queel problema se modelapara encontrary,, Y , Y Y3 Y con esto
D 3. Exprese el modelo del problema dos en notación matricial. 4. a) Mediante la resolución de conjuntos de dosecuaciones lineales con dos incógnitas, encuentre las coordenadas x 1 y x2 de cada uno de los puntos Y, 9,9, 9,y O de (2.59).
b) Evalúe M en (2.54) en cada uno de estoscinco puntos, y observe que el punto que dael mayor valor de estoscinco, es el mismo punto encontrado al resolver el programa lineal (2.54)-(2.55). D 5. Suponga que el fabricante en elejemplo principal decide eliminar la capacidad excesiva vendiendo algunas máquinas tipo M , de modo que sólo se dispongan de 55 horas por semana de la máquina M , . Demuestre que aún es posible seguirel plan de producción de x1 = 15 y x, = 25, y que sigue siendo el plan óptimo. 6. Suponga que en el problema 5 el dinero obtenido de laventa de las máquinas
M , se utiliza para comprar suficientes máquinas M3 para incrementar el número de horas disponibles de la máquina M 3 a 100 horas por semana en lugar de 90. Encuentre el nuevo programa óptimo de producción x l , x2 Y la utilidad máxima asociada; ¿,produjo este cambio un incremento en las utilidades?
2.8
/
Problemas varios
87
7. Suponga que en los problemas 5 y 6 , en lugar de que el dinero de laventa de
las máquinas M , sea usado para comprar máquinas M , se utilice para comprar máquinas M 2 , para incrementar el tiempo disponible por semana de la máquina M 2 a 50 horas por semana en lugar de 40. Encuentre el nuevo horario de producción óptimo x,, x,; ¿produjo este cambio un incremento en las utilidades? D 8. Suponga que en (2.59) M se cambia por M = loxl + 4 0 ~ Encuentre ~. el programa de producción óptimo x,, x2. 9. Suponga que en (2.59) M se cambia por M = 90x, + 4 0 ~ Encuentre ~ . el programa de producción óptimo xl, x2.
D 10. Encuentre los números c y d tales que, si se cambia M a M
+
= cx, dx, en (2.59) el programa de producción óptimo ocurra en 2, donde x, = 30 y x2 = 10.
+
11. Suponga que en (2.59) M se cambia por M = 50x1 5ox2. Demuestre que existe un número infinito de planes de producción óptimos, es decir, x1 = a y x2 = 40 - a para cualquier a que satisfaga 15 Ia 5 30.
2.8
PROBLEMASVARIOS PROBLEMAS
2.8
1. Si una matrizA , 3 x 3 cumple con las condiciones apropiadas además de (2.3), es posible demostrar que las potencias de AT tienden a una matriz A, conforme r tiende a infinito; en particular suponga que la condición adicional es que la matriz A sea estrictamente positiva: (A)u L d para ciertonúmero d > O . (Nota: d probablemente no pueda ser mayor que 4; ¿por qué?) a) Sea u , , ~el elemento ( i , j )de A': = a , , i j ;sean m, y M , los elementos más pequeño y más grande respectivamente a,,IIen el primer renglón de AT. Escribiendo los elementos del primer renglón de Arfl = ATA en términos de los elementos del primer renglón de A' y de las columnas de A , demuestre que
m,,, 2 M,d
+ m,(l - d)
y
M , + , Im,d
+ M r ( l - d).
b) Entonces, deduzca que (M,,, = m,,,) I(1 - 2d)(M, - m,). c) Deduzca que M , - m, tiende a cero a medida que r tiende a infinito. d) Demuestre que los números M , decrecen: M , 2 M , 2 M,. . . ,que los m, crecen: m, Im, Im3. . . , y que m, y M , forman sucesiones acotadas. e) Concluya que tantoM,como m,convergen, y al mismo límite:esto es, el primer renglón de A' converge a un renglón de la forma [ a a a] para cierta a.
88
2
I Algunas aplicaciones simples y preguntas
f) Demuestre que, aplicando el mismo tipo de argumento a los renglones segundo y tercero de A' se prueba que A' converge a cierta matriz de la
forma r
2. Generalice el teorema y lademostracióndel problema 1 para matricesp x p . 3. Para explicarel comportamiento de las poblaciones de zorrosy gallinas en el
modelo del ejemplo 2.16 (donde k a) Demuestre que
=
0.1):
Zi+l - Gi+l = 0.7(Zi - Gi) y 5Git.l - Zi+l = 1.1(5Gi - ZJ.
b) Deduzca que (2, - G,) tiende a cero mientras que 5Gi - Zi tiende a infinito cuando i tiende a infinito. c) Concluya que tanto Zicomo Gi tienden a infinito. 4. Para explicar el comportamiento de las poblaciones de zorrosy gallinas en el modelo del ejemplo 2.17 (donde k = 0.18): a) Demuestre que O.lGi+l - 0.06Zi+, = 0.9(0.1Gi - 0.062;)
b) Deduzca que O.lGi - 0.06Zi tiende a cero cuando i tiende a infinito. c) Deduzca que 2Gi - 2, tiende a cero. d) Concluya que tantoZicomo Gi tienden a cero. 5. Suponga que x es una matriz columnap x 1, con elementos (x)i = x, y quefes una función de valor real de las p variables x,, x2, . . . , x,. Se denota Ax,, . . . ,x,) mediantef(x), y se define la matriz columna, p x 1 df/dx de derivadas parciales defcon respecto a sus variables de la forma: ( df/dx)i =
af/axi.
a) Sif(x) es cTx,donde c es una matriz columna constantep x 1, demuestre que i?f/dx = c. b) SiB es una matriz simétricap x p yflx) es (elelemento en la matriz 1 x 1) xTAx, demuestre que dfjdx = 2Ax. c) Dados A p x q y y p x 1, para que x sea solución del problemade mínimos cuadrados (2.52) se requiereque df/aX = O, dondeflx) es(el elemento en la matriz 1 x 1) (y - AX)^(^ - Ax). Utilice a) y b) para mostrar que esta condición en la derivada es tan sólo ATAx = ATy.
2.8
I
Problemas varios
89
6. Los siguientes temas generales -y referencias bibliográficas asociadas-
están muy relacionados con elmaterial cubierto en este capítulo.Es posible discutir el uso de matrices en estas áreas ya sea de manera superficial (basado en el material del primer capítulo y en una brevehojeada a algunas referencias), o de modo profundo (basado en material de capítulos posteriores y de un examen detallado de las referencias y otras fuentes).En un nivel asignado por su profesor, utilice las referencias sugeridas u otras, para discutir los usos de matrices en una de las siguientes áreas. Cadenas de Markov -Karlin (17); y Kemeny y Snell (19 y 20). Equilibrio en redes -Martin (25); Robinson (29); y Strang (34). Circuitos eléctricos-Senturia y Wedlock (32); Strang (34); Tropper (35); y Weiss (37). Dinámica y ecuaciones diferenciales -Bellman y Cooke (7); Braun (8); Frazer, Duncan y Collar (10); Hurty y Rubinstein (16); y Strang (34). Mínimos cuadrados en modelado y estadística -Albert (5); Graybill (12); Linnik (22); Rao (28); Searle (31); y Walpole y Myers (36). Programación lineal -Dantzig (9); Hadley (14); Karmarkar (18); y Simonnard (33). Economía -Karlin (17); Kemeny y Snell (19 y 20); Kemeny, Snell y Thompson (21); Maki y Thompson (23); y Schwartz (30). Ingeniería y ciencias-Amundsen (6); Haberman(13); Heading (15); Pipes (27); Searle (31); Strang (34); Tropper (35); y Weiss (37). Ciencias sociales y del comportamiento-Haberman (13); Kemeny y Snell (19 y 20); Kemeny, Snell y Thompson (21); y Maki y Thompson (23). 7. Una vez que haya estudiado algunos de los capítulos posteriores, podrá discutir eluso de matrices y del álgebra lineal en otras áreas diferentesa las que se sugieren en el problema6; este problemaes una tarea paraesas fechas posteriores. Al igual que en el problema6,utilice las referencias paradiscutir uno de los siguientes temas. Pseudoinversas -Albert (5); y Nashed (26). Programación no lineal "angasarian (24). Teoremas dela alternativa paradesigualdades lineales "angasarian (24). Cálculos con matrices esparcidas -Bjork, Plemmons y Schneider (38); Bunch y Rose (39); Duff y Stewart (41); George y Liu (45); y Rose y Willoughby (5 1). Métodos iterativos para la solución de ecuaciones lineales -Hageman y Young (47); y Varga (54). Solución de problemas de mínimos cuadrados -Golub y Van Loan (46); Lawson y Hanson (49); y Stewart (53). Cálculo de eigensistemas -Golub y Van Loan (46); Parlett (50); Stewart (53); y Wilkinson (56). Matrices no negativas -Varga (54).
3 Solución de ecuaciones y cálculo de inversas: métodos
Este capítulo constituye el corazón metodológico del libro; las herramientas de la eliminación de Gauss, las operaciones elementales de renglón y la sustancia hacia atrds se utilizardn virtualmente en cada capítulo subsecuente y deber&?, porlo tanto, ser dominadas por completo. El teorema los argumentos 3.34 es un teorema clave porque es la base de muchos de teóricos del capítulo4. Las secciones 3.6,3.8 y3.9 serdnde mucho inter& para aqudllos que tengan una orientación de tipo computacional, mientr que la materia de la sección 3.5 es de importancia para aqubllos con una orientación de tipo teórico aplicado o computacional. La sección 3.7 se encuentra en algún lugar entre estos dos; sin embargo, se deben conocer los teoremas cluve 3.48 y 3.53 sobre la descomposición-LU como una alternativa de la eliminación de Gauss.
3.1
INTRODUCCION
En elcapítulo 2, se proporcionó amplia evidencia sobre los sistemas de ecuaciones lineales que surgen a partir de la aplicación de las matemáticas en diversas áreas; esecapítulo, al igualque el capítulo 1 -véase por ejemplo, el teorema 1.38 sobre ecuaciones e inversas- demuestran también que las matrices y sus inversas están íntimamente relacionadas con el problema de la solución de sistemas de ecuaciones lineales. En este capítulo se desarrollará la metodología matricial para resolver sistemas de ecuaciones y encontrar inversas; aquí se enfatiza el c ó m o : cómo descubrir si un sistema tiene solución o si una matriz tiene inversa: cómo encontrar tales solucioneso inversas y así sucesivamente. Entoncesen el capítulo 4 se reexaminarán algunos de estos procedimientos y problemas desde 90
3.2
/
Soluci6n de ecuacionesmediante
la eliminaci6n de Gauss
91
un punto de vista teórico para poder desarrollar un fundamento lógico riguroso para los problemas prácticos. 3.2
SOLUCIONDEECUACIONESMEDIANTE LA ELlMlNAClON DE GAUSS
El método de laeliminación de Gauss es un procedimiento directo pero poderoso para la reducción de sistemas de ecuaciones lineales a una forma reducida sencilla que se resuelve fácilmente por sustitución. Observe que muchos autores utilizan “eliminación de Gauss” para referirse tanto a la reducción como a la sustitución que le sigue, mientras que aquí sólo se hace referencia a la reducción. Para introducirlo, se empieza ignorando la notación matricial y escribiendo detalladamente las ecuaciones; más adelante se traducirá lo que se está haciendo allenguaje matricial. Observe que hayun número de variantes igualmente efectivas en la eliminación de Gauss; se presenta una en detalle y algunas otras se mencionan en problemas posteriores. Eliminación de Gauss para ecuaciones
Considere el sistema de ecuaciones lineales (3.1)
+ 2x2 + 6x2 +
-2xi -3X1
5x1“8x2 x1
+
-
x2
4x3
-
3x3
-
x3
+ Ilx,
6x4 = -4 15x4 =
+ 17x4= + 7x4 =
-
3 9 7.
Para aplicar la eliminacion de Gauss a (3. 1), se utiliza laprimera ecuación de (3.1) para eliminar x, de las otras tres ecuaciones.Para hacer los cálculos más sencillos, primero se divide la primera ecuación por el coeficiente -2 de xl, obteniendo de allí una ecuación equivalente en la cual el coeficiente x, es I : (3-2)
x 1 - x2
+ 2x, + 3x4 = 2.
Después, seutiliza esta ecuación para eliminar x1 de las últimas tres ecuaciones de (3.1) Nota. Esto sepuede hacer de dosformas aparentemente diferentes: 1) por sustitución o 2) mediante lacombinación de ecuaciones. Por sustitución, se resuelve (3.2) para obtener x, en términos de las otras variables y luego sustituir con esta expresión a x1 en cada una de las otras ecuaciones; por ejemplo, la segunda ecuación de (3.1) se convierte en - 3(2
+ x2 - 2x,
-
3x4)
+ 6x2 + 3x3 - 15x4 = - 3,
92
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rnbtodos
que, después de combinar términos, resulta 3x2 + 9x3 - 6x4 = 3. Con el procedimiento combinado, se agrega a cada una de las ecuaciones siguientes un múltiplo apropiado de la primera, seleccionado de tal modo, que el coeficiente de x1 se vuelve cero en lanueva ecuación. Por ejemplo, multiplique la primera ecuación nueva (3.2), mentalmente por 3 y sume el resultado a la segunda ecuación de (3.1); obtendrá -3x1
+ 6x2 + 3x3 - 15X4 + @)(X,
-
x2
+ 2x, + 3x4) = - 3 + (3)2,
que, después de combinar términos, es tan sólo 3x2 + 9x, - 6x, = 3 exactamente como en el primer procedimiento. Los dos procedimientos siempre dan elmismo resultado. Ya que es más fácil de organizar computacionalmente el procedimiento de combinación de ecuaciones y no requiere del intercambio de términos sino de cruzar el signo de igualdad, siempre se usará este método. Por lo tanto. (3.3)
cuando se dice “utilice la ecuación A para eliminar la variable B de la ecuación C ” , se quiere decir“reemplace la ecuación C por sí misma, más aquel múltiplo de la ecuación A que daría una nueva ecuación que no contendría explícitamente a la variable B ” .
Volviendo a la eliminación de Gauss en (3.1): la tarea era usar la ecuación (3.2) para eliminar x1 de cadauna de las otras tresecuaciones. El resultado es (3.4)
x,
-
+ 3x2 + x2
2x,
+ 3x4=
2
9x3
-
6x4 =
3
+ 2x4 = 2x2 + 9x3 + 4x4 =
-3x2 - 1 lx,
-
1 5.
Observe que las últimas tres ecuaciones en (3.4) involucran sólo las tres incógnitas x2, x3y x4 mientras que la primera ecuación permite el cálculo directo dex1 una vez que se hayan encontrado xp, x3y x4 de las ecuaciones inferiores. El siguiente paso es reducir las tres ecuaciones inferiores con tres incógnitas a dos ecuaciones con dos incógnitas. Primero, se divide la nueva segunda ecuación de (3.4) entre su coeficiente 3 , con el fin de simplificar la aritmética; esto permite que a la segunda ecuación la reemplace x2 + 3x,
-
2x4 = 1.
Ahora utilice esta segunda nueva ecuación para eliminar la segunda variable x2 de las últimas dos ecuaciones -por ejemplo, reemplace la tercera ecuación de
3.2
I Solucidn de ecuaciones mediante la eliminacidn de Gauss
93
(3.4) por sí misma más tres veces la segunda ecuación más nueva (3.5). Esto reemplaza el conjunto (3.4) de cuatro ecuaciones por
x1 - x2 + 2x3 + 3x4 = 2 x2
+ 3x3
-
-2x,
- 4x4 = 2
3x3
2x4 = 1
+ 8x4 = 3.
Ahora se tienen que manejar las últimas dos ecuaciones con dos incógnitas con el mismo proceso. Divida la tercera ecuación de (3.6) entre -2, reemplazando esta ecuación por x3 + 2x4 = - 1; entonces utilice esta ecuación para eliminar x3de la cuarta ecuación de (3.6). Después de dividir esta nueva cuarta ecuación entre el nuevo coeficiente 2 encontrado para x4,se ha reducido finalmente el sistema
(3.7)
x1 - x2 + 2x3 + 3x4 = x2 + 3x3 - 2x4 = x3
2 1
+ 2x4 = -1 x‘$=
3.
Esto completa la eliminación de Gauss, dando la firma reducida (3.7) de las define de manera ecuaciones originales (3.1). La expresión “forma reducida” se precisa en el capítulo 4; el término describe una forma que resulta dela eliminación de Gauss. Se utiliza ahora la sustitución en reversa para producirla solución de (3.7) como sigue. La última ecuación en (3.7) tiene, clara y exactamente, una solución: x4 = 3. Ahora, para la sustitución en reversa: al sustituir x4 = 3 en la tercera ecuación de (3.7) se tiene = -1 - 2x4 -1 - 2(3) = -7; sustituyendox4 = 3 y x3 = -7 en la segunda ecuación de (3.7)se obtiene xz = 28; y una última sustitución en reversa en la primera ecuación de (3.7) da como resultado x1 = 35. Si, como comprobación, se sustituyen estos valores en el una sistemaoriginal (3. l), se observará que, efectivamente, se obtuvosolución. Ahora podrá resolver los problemas 1 y 2 . Eliminación de Gauss para matrices aumentadas
Al realizar en el ejercicio anteriorla eliminación de Gauss, todoslos cálculos se hicieron con los nhrneros-los coeficientes y el miembro derecho de lasecuacio-
94
3
/
Soluci6n de ecuaciones y calculo de Inversas:metodos
nes- en lugar de usar para ello los símbolos xi, aunque ciertamente se continuó escribiendo las xi. Se puede ahorrar una cantidad considerable de escritura trabajando solamente con los números y evitando reescribir las variables todo el tiempo; sólo se debe tener cuidado de no perder la pista de qué números son coeficientes de cuáles incógnitas, o de cuáles corresponden a qué miembro derecho. Las matrices son ideales para esto. En lugar de manipular las ecuaciones, se opera con la matriz aumentada [A b] que se forma añadiendo la columna b del lado derecho a la matriz A de coeficientes, para formar una matriz separada; para el ejemploanterior la matriz aumentada es (3.8)
-2 -3 5 1
2 6 -8 1
-4
-6 II - 4 I -15 I -3 I 17 1I 9
3 -1 11
7 1
7
El primer paso en la aplicaciónde la eliminación de Gauss para las ecuaciones en (3.1) fue reemplazar la primera ecuación por sí misma dividida entre -2; en términos de la matriz de coeficientes y de los lados derechos de las ecuaciones, esto significa simplemente reemplazar el primer renglón [-2
2
-4
-6
-41
por sí mismo dividido entre -2:
[l
-1
2 3 121.
Observe que esto es tan só!o la matriz d e números que aparece en la primera ecuacidn nueva (3.2). El siguiente paso, utilizando el método de ecuaciones fue utilizar la nueva primera ecuaci6n para eliminar x1de las otras tresecuaciones; para matrices, esto significa que se usa primer el rengE6n nuevo para eliminar los elementos en la primera columna de los otros tres renglones. Observe que
(3.9)
cuando se dice “utilice el renglón A para eliminar el elemento en la columna B del renglón C,” se quiere decir “reemplace el renglónCpor sí mismo más el múltiplo del renglón A que daráun nuevo renglón con un elemento cero en la columna B” ;
observe la similitudcon el lenguaje en (3.3) utilizado para describir la eliminación de ecuaciones. Al usar el primer renglón nuevo [ 1 - 1 2 3 I 21 para eliminar 10s elementos en la primera columna de los otros tres renglones de (3 2 ) se reemplaza a la matriz aumentada (3.8) por (3.10)
1
O
-1
3
2 9
31 -61
2
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
95
Observe que (3.10) es precisamentela matriz aumentada de (3.4).Después se reemplaza el segundo renglón
[O
3 9
-6 131
en (3.10) reemplazado por sí mismo y dividido entre 3 -es decir
[O
3
1
-2
11
-después utilice ese nuevo segundo renglón para eliminar los elementos en la columna 2 de los últimos dos renglones de (3.10); esto da (3.11)
Observe que (3.11) es precisamente la matriz aumentada de (3.6). Reemplace el tercer renglón de (3.11) con é1 mismo dividido entre -2, y utilice este nuevo renglón para eliminar el elemento en la columna 3 del último renglón, dando como resultado (3.12)
1
O
Reemplazando el último renglón finalmente la matriz reducida
-1
O
2
31
O
2 1 6
con el mismo dividendo entre 2, se obtiene
(3.13)
Esto completa la eliminación de Gauss, dando la forma reducida (3.13) de la matriz aumentada original (3.8). Observe que (3.13) es precisamentela matriz aumentada para (3.7) Si no se hubiese realizado la eliminación ena ls ecuaciones, al llegar a estepunto se hubiera interpretado (3.13) como la matriz aumentada de un sistema de ecuaciones -es decir (3.7)- se hubiera escrito el sistema, y después se hubiera usado la sustitución en reversa para obtener la solución al sistema de ecuaciones original.
96
3
Soluci6n de ecuaciones y cblculo de inversas: rn6todos
/
El hecho de resolver el sistema (3.1) de dos manerasdiferentes pudo haber oscurecido la facilidad de uso de laeliminación de Gaussen lamatriz aumentada. Considere otro ejemplo ilustrativo. (3.14)
Ejemplo. Considere las tres ecuaciones lineales contres incógnitas
En seguida se escribe la matriz aumentada (3.15)
.l. [; : ;I 'l. -3
-2
1
-3 -31 -3 2 -3
1
I
31
o
Reemplace el primer renglón con éI mismo divididoentre -3 y utilice este nuevo primer renglónpara eliminar los elementog en la primera columna de otros dos renglones, lo que da
o
-4
2
-1
Reemplazando el segundo renglón de esta nueva matriz aumentada con éI mismo dividido entre 4 y utilizando el nuevo renglón para eliminar el elemento en la ségunda columna del último renglón,da comoresultado una matriz que -después de dividir su último renglónentre 5- a su vez da como resultado de la eliminación de Gauss la matriz reducida
Si se interpretaesta última matriz reducida como la matriz aumentada para un sistema de ecuaciones, entoncesla última ecuación da claramente xg = O-.2; realizando la sustitución en reversa y poniendo este resultado en la segunda ecuación, da que x2 = 0.35; nuevamente, realizando la sustitución en reversa conestos dosresultados en laprimera ecuación dax, = 0.45. Si sustituye estos resultados en el sistema original de ecuaciones,verá que la eliminación de Gauss aplicada a la matriz aumentada ha producido verdaderamente una solución.
3.2
I Solucibn de ecuaciones mediante la eliminacibn de Gauss
97
Ahora pod& resolver los problemas del 1 al 5. Intercambios en la eliminación de Gauss
En cada uno de los casos anteriores se ha procedido de un modo sistemático, utilizando los renglones (o ecuaciones) de arriba hacia abajo para eliminar valores en las columnas (las variables) de izquierdaa derecha.Sin embargo, esto no es necesario,en algunos casos esimposible, y en loscálculos prácticos-como se verá posteriormente- con frecuencia es imprudente. Si desde el principio se usa un renglón diferente del primero para realizar la eliminación, notacionalmente es más fácil intercambiar este renglón con elprimero y después proceder de la manera acostumbradacon este nuevo primer renglón; observe que intercambiar dos renglones es lo mismoque escribir las ecuaciones en diferente orden -lo cual ciertamente no tiene ningún efecto sobre las soluciones (vea teorema 4.12). (3.16)
Ejemplo. Considerenuevamenteel sistema detresecuaciones con tres incógnitas del ejemplo 3.14 y su matriz aumentada (3.15). Suponga que se del primero para eliminar decide utilizar el tercer renglón de (3.15) en lugar en la primera columna - q u i d porque ya tiene un 1 como primer elemento. Por lo tanto se intercambian el primero y tercero renglones, obteniendo
-3 -3
:].
3;
1 -3 -2 2
I
lI
- 3 ; -3
El reemplazar este nuevo primer renglón por é1 mismo dividido entre su primer elemento 1,por supuesto no cambia nada; se usa este primer renglón para eliminar loselementos en la primera columna delos otros dos renglones y esto da
[: O
-3 -4 -12
3 7
j
:l.
61 - 3
Simplemente para demostrar que se puede hacer, suponga que decide utilizar el tercerrenglón para la eliminación en la segunda columna; por lo tanto intercambie el segundo y tercero renglones actuales para obtener
98
3
/
Soluci6n de ecuaciones y calculo de inversas: rn6todos
Reemplazando este segundo renglón por sí mismo dividido entre -12 y utilizando el nuevosegundo renglón resultante paraeliminar el elemento en la segunda columna del último renglón, se obtiene una matriz que -después de dividir su Último renglón entre 5- da, a su vez, laforma reducida final
(Observe que esto es diferente de la matriz reducida que se obtuvo en el ejemplo 3.14;sin embargo, se obtendrá la misma solución para las ecuaciones). Si se interpreta esta matriz reducida como la matriz aumentada de un sistema de ecuaciones, la última ecuación da por supuestox g = 0.2; la sustitución en reversa produce x2 = 0.35 y x1 = 0.45 - exactamente la misma solución que se obtuvo en el ejemplo 3.14 sin intercambios.
El ejemplo 3.16 ilustra el hecho de que es posible intercambiar ecuaciones; en algunos casos es necesario: (3.17)
Ejemplo. Considere el sistema decuatro ecuaciones lineales con cuatro incógnitas
+
- 2 ~ 1 4x2 - 2x3 - 6x4 =
4
+ 6x3 + 10x4 = 1 + 6x2 - + x q = 1 - 5x, + 4x3 + SX, = -3.
3x1 - 6x2 "2x1 2x,
-
La matriz aumentada es -2
2
4
-2
-6
4
I
-5
-3
Reemplazando el primer renglón por sí mismo dividido entre -2 y haciendo uso del primer renglón resultante paraeliminar loselementos en laPrimera columna de los últimos tres renglones da como resultado 1
-2
o
-1
1
31-2
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
99
Ya que el elemento(2,2) de estamatriz es cero, sepuede usar el segundo renglón para eliminar en la segunda columna: no importa por cuánto se multiplique el segundo renglón, alsumar el resultado un a renglón inferior, el cero en el segundo elemento del segundo renglón deja sin cambio el segundo elemento delrenglón inferior. Existe la necesidad de intercambiar el segundo renglón con el tercero o con el cuarto. Hasta ahoralos ejemplos ha., demostrado quesiempre es posible y a veces necesario intercambiar renglones cuando se utiliza la eliminación de Gauss; se deja a las secciones 3.6 y 3.9 demostrar el hecho de que a veces es prudente hacerlo en los cálculos prácticos. Ahora pod& resolver los problemas del I al 9 .
Eliminación de Gauss para matrices aumentadas en general
Hasta aquí, sólo se han visto ejemplos de sistemas de ecuaciones, dematrices la situación y aumentadas y de eliminación de Gauss; ahora se examinará procedimiento generales. Vuelva a ver (1.36) en la sección 1.4, donde se demostró que el sistema general (3.18)
de p ecuaciones lineales con 4 incógnitas era equivalente a Ax = b parap X 4 A con (A)o = X 4 X 1 con ( x ) t = x, Y b p X 1 con (b), = b j . La eliminación de Gauss para matrices opera en la matriz aumentada [A b]: (3.19)
Definición. La matriz separada [A b] es la matnzaumentada del sistema de ecuaciones descrito Ax = b.
La eliminación de Gauss procedeentonces a eliminar en las columnas comen2, y demás sucesivamente; se zando con la columna 1, siguiendo con la columna usa el renglón rj para eliminar en la columnaj, y además sepuede intercambiar un renglón inferior con el renglón r,-ésimoantes de la eliminación. Se puede describir el proceso utilizando columnas sucesivas "(3.20)- o renglones -ver (4.1). (3.20)
La eliminación de Gauss con intercambios en la matriz aumentadap X (4 + 1) [A b] procede como se indica a continuación:
100
3
I
Solucidn de ecuaciones y calculo de inversas: metodos
l . Seaj = 1 y rl = 1;utilice el renglón rj para eliminar en la columnaj la de matriz aumentada actual como se indica en los pasos del 2 al 6. 2. Seleccione un renglónde entre los renglones numeradosr,, r, + 1, . . . ,p para su uso en la eliminación de la columnaj; llame a este renglón i, de modo que el elemento (i, j ) -llamado pivote- en la matriz aumentada actual sea diferente de cero. Si no hay elementos diferentes de cero en esta parte inferior de la columnaj,entonces no se requiere de eliminación: ponga rj+l = rj para utilizar el mismo renglón, y salte directamente al paso 6. 3 . Intercambie los renglones i-ésimo y rj-ésimo. 4. Reemplace este nuevo renglón r,-ésimo por sí mismo dividido entre el pivote (su elemento diferente de cero en su columnaj-ésima). 5. Utilice este nuevo renglón rj-ésimo para eliminar los elementos en la columnaj-ésima en los renglones rj + 1, r, + 2, . . . , p . Ponga rj+l= r, + 1 para utilizar el siguiente renglón. 6. a) Si j 5 q y r,+l 5 p , entonces aún es posibleseguireliminando: incremente j en 1 y vuelva al paso número 2. b) En caso contrario,se ha completado la eliminación de Gauss: vaya al paso número 7. 7. Interprete la matriz reducida final como la matriz aumentada para un sistema de ecuaciones y proceda a encontrar las soluciones, si existen, mediante la sustitución en reversa. Este bosquejo se aplica para p ecuaciones con q incógnitas, donde p no es necesariamente igual a q . Todos los ejemplos presentados han tenidop igual a q ; la sección 3.3 proporcionará más ejemplos generales. Ahora podrá resolver los problemas del 1 al 1 2 .
Eliminación de Gauss-Jordan
Antes de ver más ejemplos de la eliminación de Gauss, se considera una modificación de este proceso que -aunque ineficiente para cálculos prácticos- con frecuencia es útil para propósitos teóricos. En la eliminación de Gauss, se utiliza un renglón en particular (ecuación) para eliminar, pero sólo enlos renglones (ecuaciones) por abajo de eserenglón (ecuación). Si se escoge eliminar también en los renglones (ecuaciones) por arriba de ese renglón (ecuación), el proceso se llama eliminación de GaussJordan. Se mostrarámás adelante que el método deeliminación de Gauss-Jordan involucra más aritmética que el método de eliminación de Gauss,por lo tanto,se introduce más como unaherramienta teórica que comouna herramienta computacional. Vea, sin embargo, el problema 14.
3.2
(3.21)
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
101
Ejemplo. Considereel empleo de la eliminación deGauss-Jordanpara resolver (3.1); ya que el primer paso es idéntico al del método de la eliminación de Gauss, laeliminación de Gauss-Jordanen la matrizaumentada original (3.8) lleva primeramente a(3.10). Después de queel segundo renglón en (3.10) se divide entre3, el segundo renglón resultante seutiliza para eliminar por arriba de este renglón así como por abajo; esto da
Ahora se reemplazael tercerrenglón por sí mismo dividido entre -2 y el resultado se utiliza para eliminar por arriba de esterenglón al igual que por abajo, y esto da
eliminar por arriba Dividir el último renglón entre 2 y usar el resultado para de é1, produce 1 O O
0 1 0
0 0 1
0 0 0
,o
o
o
1
Interpretar estocomo la matriz aumentada para un sistema de ecuaciones, produce un sistema resuelto demodo trivial con la misma solución encontrada anteriormente mediante la eliminación de Gauss. La eliminación de Gauss-Jordan siemprelleva a un sistema resueltotrivialmente, como se encontró en el ejemplo 3.21; en esencia, la eliminación de Gauss-Jordan realizala sustitución en reversa dela eliminación de Gauss conforme avanza, en lugar de esperar hasta el final. Repitiendo la eliminación la de de Gauss-Jordan resultaen el uso de más aritmética para obtener solución un sistema de ecuaciones que la eliminación de Gauss; vea sin embargo el problema 14.
102
3
I
Soluci6n de ecuaciones y c~lculode inversas: mbtodos
PROBLEMAS 3.2
D 1. Resuelva cada uno de los siguientes sistemas de ecuaciones mediante la eliminación de Gauss para ecuaciones. (b) x1 + 2x, - 5x3 + x4 = 3 (a) 3x, - x2 + x 3 = - 1
+
9x1 - 2x2 X3 = -9 2x1 3x, x2 - 2x3 = -9
+
- 3x2
4x1 5x,
+
+
4x3 -2X4 = 2
x2
-
6x3
+ 9x2
-
20x3
+ 3x4 = 11 + x4 = 10
2. Utilice la eliminación de Gauss para ecuaciones para resolver 2x1 4x,
+ x2 +2x3 + x4= 5 + 3x2 + 7x3 + 3x4 = 8
+3 x 4 ~ 4
- 8 ~ 1-
x2
- x3
+
x2
+ 2x3-
6x1
x4 = 1.
3. Cada una de las siguientes matrices es una matriz aumentada para un sistema
de ecuaciones; escriba el sistema.
o
o
41
D 4. Utilice la eliminación de Gauss para matrices aumentadas para resolver
5. Utilice la eliminación de Gauss para matrices aumentadas para resolver - 3 ~- 6y
+ 9~ =
~ + 4 y +Z = 2~
O 6
+ 8y + 32 = 13.
6. Complete la solución del sistema de ecuaciones del ejemplo 3.17. 7. Intercambie la segunda y tercera ecuaciones del problema4 antes de comen-
zar la eliminación de Gauss para matrices aumentadas; verifique que la
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
103
solución obtenida resuelve tanto el conjunto original de ecuaciones como el conjunto con las dos ecuaciones intercambiadas. D 8. a) Utilice la eliminación de Gauss para matrices aumentadas en
o
3x-y”z=
+ + 62 =
- 6 ~ 2y
4
2 x +y + 6 ~ = 1 3
para obtener tanto forma la reducida del sistema como la solución; tendrá que intercambiar la segunda y tercera ecuacionesdespués de eliminarx. b) Intercambie la segunda y tercera ecuaciones antes de usar la eliminación de Gauss para matrices aumentadas para obtener la forma reducida del sistema y la solución; no se requiere deningún intercambio para la eliminación. c) Compare las formas reducidas de las ecuaciones y soluciones de los dos métodos a) y b). 9. Utilice la eliminación de Gauss para matrices aumentadas para resolver 2 x -y + 2 2 + -4x+ 6y- 32-
3
3w=
6~ = 2
6 ~ Y- + ~ z + 5 w = 9 4x - 2y
+ 62 + 12w = 12.
D 10. Utilice la eliminación de Gauss para matrices aumentadas para resolver O
- 2 ~- 4 y + 2 ~ 6~ =
+ 6y - 22 + 1 3 =~ 6 2x + 4 y + 14w = 12 4~ + - 72 = - 10. 3~
~
J
J
11. Utilice la eliminación de Gauss para matrices aumentadas para resolver 2~
+ 6y - 42 =
4
-x-3y+5z=
4
- 3 x - 9y + 42 = -1 1.
D 12. Encuentre todas las matrices columna b, 3 X 1 para las que existeal menos 9
una solución a Ax = b y encuentre todaslas soluciones x asociadas con esab, donde
104
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rnbtodos
13. Resuelva los dos sistemas de ecuaciones del problema 1 mediante la elimina-
ción de Gauss-Jordan paramatrices aumentadas. 14. Considere el siguiente proceso para resolver las ecuaciones Ax = b. Primero realice la eliminación de Gauss para matrices aumentadas. Después, comenzando en la derecha de abajo y trabajando hacia la izquierda, elimine por arriba de la diagonal principal como se haría en la eliminación de GaussJordan. a) Demuestre que esto produce la misma matriz aumentada resultante que si se hubiera hecho la eliminación de Gauss-Jordan desde el principio. b) Muestre que la aritmética que se requiere es la misma que cuando se realiza la eliminación de Gauss seguida por la sustitución en reversa. c) Explique por qué este método involucra menos trabajo que cuando se . realiza laeliminación deGauss-Jordandesdeel principio. d) Utilice esto en (3.1). 3.3
EXISTENCIA DE SOLUCIONES A SISTEMAS DE ECUACIONES: ALGUNOS EJEMPLOS Y PROCEDIMIENTOS
Cada sistema de ecuaciones consideradoen la sección 3.2 tenía tantas ecuaciones como incógnitas, y los métodos de eliminación vistos siempre arrojaban una solución. Sin embargo, los métodos trabajan de un modo más general. El número de soluciones
Primero considere el caso, aparentemente simple, de una sola ecuación ax = b con una incógnita x ; inmediatamente se tiende a decir que la solución de esta ecuación es x = b / a , pero de hecho existen tres posibilidades: 1. Si Q # O, entonces x = b / a tiene sentido, y ésta es lalinica solución de esta ecuación. 2 . Si a = O, entonces existen dos posibilidades: a) Si b # O, entonces, en la ecuación, sepide encontrar x tal que Ox = b # O, y no existe una solución x . Se dice que “no existe solución” o que “la ecuación es inconsistente” ya que implica que O = b # O , lo cual es una contradicción. b) Si b = O, entonces hay infinitamentemuchas soluciones: Cada númerox esuna solución ya que Ox = O = b sin importar el valor dex.
Es sorprendente que las tres posibilidades -exactamente una (zínica) solución, ninguna solución, o infinitamente muchassoluciones- se cumplen para dos ecuaciones con dos incógnitas. Por ejemplo las ecuaciones x1 + x2 = 2 X I - x2
=o
3.3
I
Existencia de soluciones a sistemas de ecuaciones: algunos ejemplos y procedimientos
105
tienen una solución única,
+ x2 = 2 x1 + x2 = 1
x1
son inconsistentes, y
+ x2 = 2 2x1 + 2x2 = 4 x1
tienen infinitamente muchas soluciones,es decir x1 = k , x2 = 2 - k , para toda k . Aún más sorprendente esel hecho de que, precisamente,las mismastres posibilidades se cumplen parap ecuaciones con q incógnitas: exactamente una (única) solución, ninguna solución, o infinitamente muchas soluciones. Esto se demostrará más adelante; porel momento, se puede confiar en que mediante la eliminación de Gauss, se pueden descubrir todas (si las hay) las soluciones a cualquier sistema concreto de ecuaciones. Eliminacidn de Gauss y la existencia de soluciones: ejemplos (3.22)
Ejemplo. Considere lastresecuaciones
con tres incógnitas
2x,
+ 2x2 - 5x3 = 2 - 3x, + 4x3 = 4
4x1
+
x1
x2 - 6x3 = 8.
La matriz aumentada es -5
2
1 - 6 1 8
la eliminación de Gauss reduce esto a 2
o
o
-5 O10
que se interpreta como la matriz aumentada parael sistema de ecuaciones x,
+ 2x2 - 5x3 = 2 x2 - 2x3 = O
ox, = o.
Esta última ecuación -en la que, por lo general, seconfia para determinar se resuelve mediante x3 = k para cualquier número k arbitrario. La
xr
106
3
I Solucibn de ecuaciones y cAlculo de inversas: mktodos
sustitución en reversa dax, como
= 2k, x1 = 2
+ k y se
puede escribir la solución
Por lotanto, existeninfinitamente muchas soluciones,las cuales se encontraron mediante la eliminación de Gauss. (3.23)
Ejemplo. Considere las tresecuacioneslineales x1
+ 2x,
-
x3
+ 2x4 =
con cuatro incógnitas 4
+ 7X, + x 3 + x4 = 14 + 4x4 = 17 3x1 + 8x2 2x1
cuya matriz aumentada es 7
1
2
2 3
8
2 I 41/14 4\17
-1 1 -1
aplicando la eliminación de Gauss, esta matriz se reduce a
Esto se puede interpretar como la matriz aumentada para x1
+ 2x2 - x3 + 2x4 = 4 x2 + x3 x.$ = 2 -
ox, = 1.
Esta última ecuación -en laque por lo general se confia para determinarx4pide encontrar una x4 tal que Ox, = 1. No puede existir tal x4, así que el sistema de ecuaciones no tiene solución. Estos ejemplos y problemas muestran que, en general, no es posible determinar si las ecuaciones tienen una, ninguna, o infinitamente muchas soluciones sólo a partir de los nimeros de las ecuaciones o incógnitas. Puede suceder que dos ecuaciones con 10 incógnitas sean inconsistentes,mientras que 10 ecuaciones con dos incógnitas tengan una solución única. La eliminación de Gauss es el método para determinar cuál de las situaciones prevalece.
3.3
I Existencia de soluciones a sistemas de ecuaciones: algunos ejemplos y procedimientos
107
Ahora podrti resolver los problemas del 1 al 7 . Primera variable y primera columna
En el ejemplo 3.22 fue posible asignar un valor arbitrario ax3,pero lasvariables restantes se determinaban por completo por ese valor. Esto genera la pregunta de (una vez que seha aplicado la eliminaciónde Gauss) cómo distingue se a qué variables se les pueden asignar valores arbitrarios, y cuáles, entonces, están completamente definidas. Uno de los métodos se describe fácilmente en términos de primeras variables (o primeras columnas). (3.24)
Definición. La primera variable en una ecuación es la primera (leyendo de izquierda a derecha) variable en esa ecuacióncon uncoeficiente diferente a cero. Laprimera columna para un renglón de una matriz, es lacolumna que contiene elprimer elemento (teyendo deizquierda a derecha)diferente de cero en ese renglón.
En el capítulo 4 se desarrolla la teoría necesaria para apoyar la siguiente regla: (3.25)
Vista previaa la solución de ecuaciones. Después de completar laeliminación de Gaussen la matriz aumentada[A b] del sistemade ecuaciones Ax = b, encuentre las primeras variables y (primeras columnas) de las ecuaciones reducidas (matriz aumentada reducida). Entonces.
1. No existen soluciones si y sólo si la última columna es una primera columna para cierto renglón. 2. Si la última columna no es una primera columna para algún renglón: a) Existe una solución única si y sólo si cada variable es una primera variable para alguna ecuación. b) Existen infinitamente muchas soluciones si y sólo si hay algunas variables que no sean primeras variables; a cadauna de estas variables no primeras sele puede asignar un valor completamente arbitrario,entonces cada primeravariableestácompletamentedeterminada en términos de los valores asignados a las variables no primeras. (3.26)
Ejemplo. Considereel sistema de ecuaciones del ejemplo 3.22, donde se aplica la eliminación de Gauss asu matriz aumentada. Lasprimeras columnas en la matriz reducida resultante sonlos números 1 y 2; laúltima columna, número 4, no es una primera columna como tampoco lo es la columna 3. Ya que x3 no es una primera variable, de acuerdo a (3.25) 2) b) hay infinitamente muchas soluciones: se puede asignar un valor arbitrario a
108
3
/
Soluci6n de ecuaciones y calculo de inversas:metodos
x3, en términos del cual los otros estánperfectamente detcmninados, Esto concuerda con lo que se encontró anteriormente en el ejcmplo 3.22. 3.3
PROBLEMAS
D 1. Utilice la eliminación de Gauss para resolver 2 ~ - 3 y = -1
3
2 x y+ = x-3y=
-2.
2. Utilice la eliminación de Gauss para resolver
2x
-
3y = - 1
2x+
3
y=
2.
x -y =
3. Utilice la eliminación de Gauss para resolver
2 x -3 y =
-1
6 y = -2
-4x+
1 2~ 18y = -6.
D 4. Utilice la eliminación de Gauss para resolver
+ 2x2 2x1 + 5x2 x1
X1
-2X1
3x,
+
x4=
o
=
8
+ 8x4 = - 3x2 + 14x3 + 2X4 = - 14x3
-
15
10.
5. Utilice la eliminación de Gauss para resolver -x1
+
x2
1
=
3x1 - 2x2 = 2x1 - x2 =
-
1 1.
6. Dé un ejemplo de a) un sistema con menos ecuaciones que incógnitas pero
sin solución; b) un sistema con menos ecuaciones que incógnitas pero con infinitamente muchas soluciones (vea también el problema 7). 7. Explique por qué se puede encontrar un sistema de dos ecuaciones con tres
incógnitas con exactamente una solución.
3.4
I C6mo encontrarunainversamediante
la elirninaci6n de Gauss
109
8. Cada una de las matrices que se muestran abajo, es la forma reducida que
resulta de la eliminación de Gauss para matrices aumentadas de cierto sistema de ecuaciones. Para Cada matriz: 1) identifique sus primeras columnas; 2) identifique sus primeras variables; 3) utilice la regla de (3.25) para concluir a partir de 1) y 2) si el sistema general tiene exactamente una, infinitamente muchas o ninguna solución.
9. Para cada una de las formas reducidas de las matrices aumentadas del problema 8, escriba el sistema de ecuaciones que representa dichasmatrices y utilice la sustitución en reversa para resolver, si es posible, el sistema. D10. Encuentre todaslas matrices X, 3 x 4, para las cualesAX = O, donde A es
[-;-; -a]. 1 -2
A=
11. Suponga queA es la matriz del problema 10 y que B y C son matrices, 3 x 4 tales que AB = AC. ¿Qué puede concluir a partir dela relación entre B y C ? (Vea el problema 10.) 3.4
COMO ENCONTRAR UNA INVERSA MEDIANTE LA ELlMlNAClON DE GAUSS
En el capítulo 1 se demostró que las inversas de matrices y los sistemas de ecuaciones estaban estrechamente relacionados de varias maneras; en el teorema 1.38 de la sección 1.4 se explicó el modoen quelas inversas proporcionan información sobre lasolución de ecuaciones, mientras que enel teorema 1.44 se explicó cómo encontrar inversas mediante la solución de varios sistemas de ecuaciones. Ya que se acaba dedesarrollar la eliminación de Gauss como un método sistemático para resolver sistemas de ecuaciones, se puede aplicar al problema de encontrar inversas -gracias al teorema 1.44. De acuerdoal teorema 1.44, se puede construir una inversa derechaR de A como
R
=
[rl
r,
. . . r,]
si cada ri resuelve Ari = ei. De modo similar se puede construir una inversa izquierda L con
LT = [11
1,
. . . l,]
110
3
I
Solucidn de ecuaciones y cdlculo de inversas: metodos
si cada Ij resuelve Aq?,= ej. Y, por supuesto, si A es cuadrada (p = 4)y no sin gular, entoncesse puede encontrar la inversa bilateral A" ya sea como R o L. Para cualquier inversade éstas, el problemacomputacional es similar: (3.27) Dada una matriz general C y n matrices columna b,, b,, . . . , b,, resuelva los n sistemas de ecuaciones Cxi = bi para 1 5 i S n para las n soluciones x,, xz, . * . , x,. Para encontrar una inversa derecha R de A; considere C = A; para encontrar una inversa izquierda L de A, considere C = AT,en cualquier caso, las bi son matrices columna unitarias eidel orden apropiado.Sin embargo, la situación en (3.27), surge también en otras circunstancias. Por ejemplo, la ecuación Cx = b puede modelar algún sistema físico, con b representando entradas conocidas yx salidas desconocidas {vea (2.24), donde b describe las fuerzas externas en una estructura y x describe su desplazamiento resultante}; entonces esposible que (3.27) represente un proyecto en el cual se desea examinar la respuesta del sistema a una variedad de entradas. Se podría atacar (3.27) un sistema de ecuacionesa la vez: formar la matriz aumentada [C b,] y usar la eliminación de Gauss para obtener x,; formar C b, y usar la eliminación de Gauss para obtenerx,; . . . ;y por último formar C b, y usar laeliminación deGauss para obtenerx., Esto espoco eficaz por la siguiente razón: las operaciones realizadasen la fase dela eliminación, anteriores a la sustitución en reversa (dividir un renglón entre una constante, intercambiar dos renglones, sumar el múltiplo de un renglón al múltiplo del otro) están completamente determinadas por los coeficientes en las ecuaciones y son independientes del miembro derecho. Por supuesto los miembros derechos de la ecuación entran en los cálculos, pero no afectan a las operaciones realizadas; esto significa que, dados todos los miembros derechos al principio como en (3.27), se puede realizar la eliminación completacon todos los miembros derechos al mismo tiempo. Esto es:
t 3
(3.28)
Para resolver (3.27), realice la eliminación de Gauss en la matrizmiltiploaumentada [C b,b2 * b,], interpretelaforma reducida como la matriz múltiplo-aumentada para n sistemas reducidos, y resuelva cada sistema reducido mediante sustitución en reversa.
(3.29)
Ejemplo. Suponga que se necesita resolver Cxi = bi para i = 1 , 2 , 3 , donde
-
Se forma la matriz múltiplo-aumentada [C b, b2 b3] y se realiza la eliminación como sigue:
3.4
/ Cbmo encontrarunainversamediante
la elirninacibndeGauss
111
entonces, 0.5 1 1.5 1 2.5 j 1.5 1 12 j 3 j 1
1
[: entonces,
0.5 0.5
1
1.5 1 2.5 I 0.5 0.5 I
j
j I
lS] -0.5
y finalmente, 0.5 1.5 j 2.5 j 1 1 1 1 1 1 - 11.51.
Esto se interpreta como la matriz múltiplo-aumentada para tres sistemas de ecuaciones, y para cada solución se sustituye en reversa. Por ejemplo, el primero es x1
+ 0 . 5 ~ 2= 1.5 x2 = 1,
que da fácilmente la primera solución como x1 = [ l 13.' AI manejar el segundo sistema de forma similar se obtiene x2 = [2 1IT. La tercera solución es x3 = [2 - 11'. El método (3.28) puede ser muy efectivo al resolver (3.27);por ejemplo, si p = 4 = 50 y n = 10, (3.28) involucra, únicamente, alrededor del 15% del trabajo que representa resolver cada uno de los 10 conjuntos de 50 ecuaciones con 50 incógnitas repitiendo el proceso de eliminación completo en un conjunto de ecuaciones a la vez.
PROBLEMAS 3.4
b 1. Encuentre la inversaderechaR dela matrizA que se muestraabajo,aplicando la eliminación de Gauss a la matriz múltiplo-aumentada, [A
e1
e2
e31 =
y verifique que R es una inversa bilateral.
A=[-!
21 4
[A
131
-:l.
-1
112
3
I Solucidn de ecuaciones y c21lculo de inversas: rn6todos
2. Utilice la eliminación de Gauss en la matriz múltiplo aumentada para encon-
-q [: : -:] [-; ;:l. [-;-;-;I [-I -!] [-;
trar las inversas derechas de las matrices que se muestran abajo. (a)
[:
42
6
2
(b)
11
3. Utilice la eliminación de Gauss en la matriz múltiple-aumentada para encontrar las inversas izquierdas de las matrices que se muestran abajo. (a) 2 -4 (b) 2 --6 :].
D 4. Utilice la eliminaciónde Gaussen la matriz múltiplo-aumentada para encontrar las tres soluciones xl,x2, xg, de Axi = bi para i = 1, 2, 3 , donde A=[-. 2 6
-22 - 819
ti], b,;[jI],
b2=[I%],
b3=[:!].
5. Un distribuidor de alimentos naturistas desea crear dossuplementos alimenticios en polvo, uno (para adultos) quecontenga un 100% del RMD (requerimiento mínimo diario) de calcio, vitamina D y fósforo, y el segundo (para niños) que contenga75,100 y 75% respectivamente, del RMD. Se dispone de
tres compuestoscomerciales para crear estasmezclas especiales; 1 gramo de estos compuestos contienela fracción del RMD mostrada abajo.
Calcio Vitamina D Fósforo
Compuesto 1
Compuesto 2
Compuesto 3
0.15 RMD 0.26 RMD 0.15 RMD
0.23 RMD 0.27 RMD 0.28 RMD
0.26 RMD O RMD 0.08 RMD
Determine cuántos gramos de cada compuesto debenmezclarse para cada uno de los suplementos alimenticios, de modo que cada uno cumpla exactamente con los contenidos del RMD ya descritos, mediante el planteamiento de dos sistemasde tres ecuaciones con tres incógnitas y el uso de la matriz múltiplo-aumentada. 3.5
OPERACIONES DE RENGLON
Y MATRICES ELEMENTALES
La eliminación de Gauss se introdujo en la sección 3.2 como una forma de manipular ecuaciones; más adelante se vio en términos de matrices, como un proceso para aplicar a matrices aumentadas. De hecho, el proceso en sí puede
3.5
I Operaciones de rengl6n y matrices elementales
113
expresarse en términosmatriciales como la multiplicación por una sucesión de matrices; esto resulta ser una herramienta esencial en el estudio de algunos problemas de matrices. Operaciones de renglón
La eliminación de Gauss consiste en una secuencia de operaciones simples en los renglones de una matriz aumentada. Estasmismas operaciones simples pueden utilizarse para aprender mucho sobre matrices diferentes de las matrices aumentadas como se verá más adelante, y por sí mismas, son de gran interés. (3.30)
Definición. Unaoperaciónelementalde renglón (a veces llamada sólo operación de renglón) en una matriz A es cualquiera de los tres tipos de operaciones siguientes: 1. Intercambio de dos renglones de A. 2. Reemplazo de un renglón r de A por cr para algún número c # O. 3. Reemplazo de un renglón rl de A por la suma r1+ crzde ese renglón y el múltiplo de otro renglón rz de A.
Se ha asegurado que uno de los usos dela notación matricial es el de expresar relaciones u operaciones complicadas en forma concisa; aquí se usará para operaciones elementales de renglón. Matrices elementales (3.31)
Definición. Una matriz elemental, p X p es una matriz que se produce aplicando exactamenteuna operación elemental de renglón a I,. Eit es la matriz elemental que seobtiene mediante el intercambio los de renglones i-ésimo yj-ésimo deI,. Ei (c)es la matriz elemental obtenida multiplicando el i-ésimo renglón de I, por c # O. Ei, ( c ) es la matriz elemental que se renglón al i-ésimorenglón de I,, donde obtiene sumandoc veces el j-ésimo i #j.
Los siguientes son ejemplos de matrices elementales, 2 x 2:
De éstos, los tres primeros son ilustraciones directas2 x 2, de las tres matrices elementales básicasElz,El ( c ) ,y E12( c ) .Desde luego, la cuarta es sólo IS,en la que se puede pensar como E12(0);debido a esta posibilidad, I, por sí misma siempre es una matriz elemental.
114
3
Soluci6n de ecuaciones y cAlculo de inversas: metodos
/
Considere ahora lo que sucede cuando se premultiplicacualquierA,matriz 2
+ q por una de estas matrices elementales de muestra.Por ejemplo, considere E12(c)A:
Esto es lo mismo que aplicar a A precisamente la operación derenglón que se aplicó a I2 para obtener lamatriz elemental Elz(c) que premultiplicó a A. Estas dos operaciones siempre producen el mismo resultado. (3.32)
Teorema (operaciones de renglón y matrices elementales). Suponga que E es una matriz elemental, p X p que se produce aplicando una operación elemental derenglón a I,, y que A es una matriz p X 4.Entonces EA es la matriz que resulta de la aplicación deesa misma operación elemental de renglón en A.
DEMOSTRACION. Se probóel resultado para matrices elementales E,(c) y las demostraciones paralos otros dos tipos de matrices elementales se dejar para los problemas. Observe que EiJ(c)= I, + ce,e;, donde ei y el son las acostumbradas matrices unitarias columna de ordenp . Por lo tanto,
Eijc)A = (Ip
+ ce,ejT)A = A + ceiejTA.
Ahora eTA, por la definición de multiplicación de matrices, es tan sólo el j-ésimo renglón de A ; por la misma definición, ei multiplicado por este renglón es tan sólo una matriz p X q cuyo i-ésimo renglón es igual a Por lo tanto, ceieTAes este renglón y cuyos otros elementos son todos cero. tan sólo la matrizpX 4 cuyo i-ésimo renglón es c multiplicado por elj-ésimo iguales a cero; sumando esto aA renglón de A y cuyos otros elementos son se realiza la operación renglón de que se discute a matriz la A tal y como se afirmó.
Este teorema dice,por ejemplo, quela eliminación de Gauss consiste en una un uso secuencia de premultiplicaciones por matrices elementales; se hará decisivo deesto más adelante, asícomo del hecho de que las matrices elementales son no singulares: (3.33)
Teorema (matrices elementales y la no singularidad). Cada matriz elemental es no singular, y su inversa, por sí misma es una matriz elemental. De modo más preciso:
a) E;' = EJI. . ( = EIJ. . ) b) E,(c)- = E,(l/c) con c # O c) EiXc)" = Eij(-c) con i # j
3.5
I Operaciones de rengl6n y matrices elementales
115
DEMOSTRACION. Recuerde que con el fin dedemostrarqueunamatriz cuadrada G es no singular y que tiene una matriz particular H como su inversa, es necesario demostrar que GH = HG = I. En este caso, las matrices G dadas son matrices elementales, al igual que sus matrices inversas H; por lo tanto se puede aplicar el teorema 3.32. a) Para demostrarque Eji es la inversa de Eo, primero considere EoEji. Ya que Eo es una matriz elemental, el teorema3.32 dice que este producto es elmismo que intercambiar los renglones i-ésimo yj-ésimo deEji-que lógicamente da I. Un argumento similar muestra queEjiEo también es igual a I, lo que demuestra a). b) La demostración, muy parecida a a) se deja para el problema 3. c) La demostración puede modelarse como la de a), pero se selecciona otro método. Observe que E&) = I ceieT, donde ei y ej son las matrices unitarias columna acostumbradas. Entonces,
+
EiJc)EiJ-c)
= (I
+ ceieT)(I- ceieT) = I + ce.eT - ce.eT I J
1 1 -
c2e.eTe.eT 1 J I J
= I - c2ei(eTe.)e? I
l
J
=I -
c2ei[O]eT =I-O=I,
ya que i # j . El producto en el orden inverso también produce I, mediante el mismo argumento. I Ahora se reunirán varios hechos a su disposición: l . Cada operación elemental derenglón es equivalentea la premultiplicación por una matriz elemental. (Ver teorema 3.32.) 2. Cualquier secuencia de operaciones elementales de renglón es equivalente a premultiplicarla por el producto de una sucesión de matrices elementales. {Vea 1) arriba.} 3. Cada matriz elemental es no singular. {Ver teorema 3.33.) 4. Un producto dematrices no singulares es no singular. {Ver teorema 1.35 a) y problema 21, ambos en la sección 1.4.)
Estos hechos juntos demuestran el siguiente teorema clave:
Estos resultados serán básicos para nuestro análisis del uso de las operaciones elementales de renglón para resolver una amplia variedad de problemas.
116
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rn6todos
PROBLEMAS 3.5 1. Demuestre el teorema 3.32 para matrices elementales EU.
D 2. Demuestre el teorema 3.32 para matrices elementales Ei(c), c # o. 3. Demuestre el teorema 3.33 b). 4. Si B se deriva de A aplicando una secuencia de operaciones elementales de
-
-
renglón a A, entonces se dice que B es renglón-equivalente a A y esto se escribe como B A. Demuestre que es una relacion de equivalencia verdadera en el conjunto de todas las matrices p X q en el sentidode que : a) A A para toda A b) Si B A, entonces A B. c) Si A B y B C, entonces también A C .
--
N
-
-
-
X p y que, cuando la eliminación de Gauss se aplica para reducir alguna matriz aumentada [A b] a su forma reducida, el proceso puede llevarse a cabo exitosamente hasta su término para producir una matriz reducida [U b'] (que significa que U es unitaria triangular superior). Demuestre quetal matriz U es no singular, y utilice el teorema clave 3.34 para demostrar que A es, por lo tanto, no singular. D 6. Utilice la eliminaciónde Gauss parareducir la matriz aumentada H mostrada abajo, a la forma reducida G . Para cada operación elemental de renglón realizada, encuentre la matriz elemental correspondiente. Encuentre una matriz no singular F de modo que FH = G .
5. Suponga que A es una matriz,p
H - E
ai:].
X q y considere lapostmultiplicación por matrices elementales, q X q. Demuestre que
7. Sea A, p
a) La postmultiplicación por Eu intercambia las columnas i-ésima yj-ésima de A. b) La postmultiplicación por Ei c ) multiplica la i-ésima columna de A por c #
o.
c) Lapostmultiplicación por Eu c ) suma c veces lai-ésima columna de A a la j-ésima columna de A. D 8. Suponga que A es p x p y no singular. Utilice el problema 7 para demostrar que : a) Si A' se obtiene de A intercambiando dos renglones de A, entonces A' es no singular y su inversa puede obtenerse intercambiando las columnas COrrespondientes de A-l. b) si A' se obtiene a partir de A, multiplicando el renglón i-ésimo de A por c # O , entonces A' es no singular y su inversa puede obtenerse dividiendo la columna i-ésima de A-l entre c ; y
3.6
I Selecci6n de pivotes y elirninaci6n de Gauss en la prhctica
117
c) Si A' se obtienea partir deA sumando c veces el renglónj-ésimo de A a su renglón i-ésimo, entonces A' es no singular y su inversa puede obtenerse restando c veces la columna i-ésima de A" de su columnaj-ésima. 3.6
SELECCION DE PIVOTES Y ELlMlNAClON DE GAUSS EN LA PRACTICA
Ahora se consideraun aspecto práctico importante de la solución de p ecuaciones lineales con p incógnitas mediante la eliminación de Gauss. En ejemplos anteriores -ver ejemplos 3.16 y 3.17 de la sección 3.2- se ha demostrado que, por lo general, esposible y a veces necesario,intercambiar ecuaciones al realizar la eliminación de Gauss;por supuesto, la necesidad surge cuando un elemento que se pretende usar como el siguiente pivote, es igual a cero. En los cálculos prácticos, sin embargo, suele ser inteligente intercambiar ecuaciones, aun cuando no se enfrenten con un pivote cero. Este hecho puede resultar extraño, ya que la eliminación de Gauss siempre produce el (mismo) resultado correcto sin importar qué sucuencia de pivotes diferentes de cero se utilice: pero esto supone que la aritmética se lleve a cabo con exactitud, y las computadoras en las que se resuelvenlos sistemas de ecuacionesen la práctica rara vez realizan una aritmética exacta. Este hecho sobre la aritmética computacional inexacta afecta de manera drástica la eliminación de Gauss -y cualquier otroalgoritmocomputacionaly requierequesereexaminelaselección de pivotes. Esta sección se concentra en el aspecto práctico de la solución de sistemas de ecuaciones lineales cuando la aritmética realizada no es exacta; observe que, por lo común, la aritmética es inexacta aun para cómputosllevados a cabo manualmente con notación decimal. Aritmética en punto flotante
Por logeneral las computadorasy calculadoras representan el cero exactamente como O; los números diferentes de cero, por lo general, se presentan como el loe, donde producto de unaparte fraccionariade t dígitosf y un factor de escala O . 1 5 I f I 5 1 y e está restringida a cierto rango de números enteros.En muchas microcomputadoras con coprocesadores matemáticos,t es 16 y de modo general e está restringida a -308 5 e I308. Por simplicidad, se supondrá quee puede tomar cualquier valor entero. La condición de f significa que el primer dígito diferente de cero def ocurre inmediatamente a la derecha del punto decimal; los números que se representan en esta forma se llaman números en puntoflotante de digito-t.Por lotanto, la representación en punto flotante de3-dígitos de 0.05 es 0.500 x 10". Para manejar números tales comof = 0.333 . . . con una expansión decimal infinita o aun con números que requieren de un número dedígitos muy grande en su representación decimal, en la práctica deben reemplazarse con números muy cercanos pero con un menor número dedígitos. Aunque algunas computadorasy
118
3
/
Soluci6n de ecuaciones y c~%culode inversas: metodos
calculadoras sólo truncan los dígitos no deseados, la mayoría redondean el número. (3.35)
Definición. Para redondear un número diferente decero x a tdigitos en puntoflotante: 1) representex en la notación de punto flotantecomox =fx 10" con O . 1 5 If\< 1, de modo que el primer dígito def(a la derecha del punto decimal) sea diferente de cero;2) retenga comof, los primeros t dígitos def; 3) si el ( t + 1)-ésimo dígitodefes O , 1, 2 , 3 o 4 , entonces defina la versión redondeada -(x)- de x como.f, x 1Oe; 4) en caso contrario, incremente el y defina la versión redondeada t-ésimo dígito def, en 1 paraproducir yo,, -(x> de x como fb x 10'. Cero se redondea a cero: -(O> = O.
Habiendo introducido esta terminología, se puede describir el modelo de aritmética computacional en punto flotante de t-dígitos.En este modelo, por número computacional se quiere decir ya sea O o un número (en punto flotante) representado exactamente por una parte fracciona1 de, a lo mucho, t dígitos con un factor a escala. En estemodelo, el resultadode cualquier operación aritmética básica (+ , - /, X ) entre dosnúmeros computacionalesu y u 41se define como el resultado de redondear a t dígitos (en punto flotante), o el resultado que se obtendría con aritmética perfecta: .t
(3.36)
Definiciún. Sean u y u números computacionales, y sea @ cualquiera de las operaciones aritméticas básicas + , - , /, o X . Entonces elresultado para t dígitos en punto flotante u @ u se define como -.
(3.37)
Ejemplo. Suponga que t = 2, de modo que sólo se tienen dos dígitos, y se evalúan (3 + 3) - 5. Primero, 32 se evaluará como
(0.666 . . . después 0.67 después
> = 0.67;
+ 0.67 se evaluará como 40.67 + 0.67> = 41.34>
= 1.3;
4 se evaluará como 30.333 . . . )- = 0.33;
y por último a la expresión general 3 1 . 3 - 0.33>
(3 + 3) - +
se le dará el valor de
= 40.97)- = 0.97.
Observe que laexpresión "equivalente" 5 + ($ - $) se evaluaría de modo *ente, como 1.O -que es también el valor en aritmética perfecta. La aritmética de 16 dígitos del MATLAB evalúa la expresión original exactamente como 1; Como un ejemplo más realista de su aritmética, evalúa
i+i+*+ 6 "6 ++'i
como 1 +
en lugar de 1.
3.6
I
Selecci6n de pivotes y eliminaci6n de Gauss en la practica
119
Ahora podrá resolver los problemas 1 y 2 . Método de eliminación de Gauss en la aritmética computacional
Se utilizarála aritmética computacionalmodelo para ilustrar la importancia de la selección de pivotes cuando eliminación la de Gauss serealiza en la prácticaen computadoras. Por simplicidad, suponga quet = 2, esto es, que se tiene aritmética de dos dígitos;los mismos argumentos surgen con una t = 16 más realista, pero la suposición de t = 2 hace que aquéllos sean más transparentes. Considere el sistema de ecuaciones x1
(3.38)
O.Olx,
-
x2
=o
+ x2 = 1.
Observe que cada coeficientey lado derecho en (3.38) es un número computacional de dos dígitos: 0.01, por ejemplo, se representa como O . 10 X 10". La solución exacta de(3.38) es x: = x: = 1/1.01 = 0.990099 . . . ; lo mejor que sele podría pedir a la eliminación de Gauss enuna computadora de dosdígitos sería obtener los números computacionales de dos dígitos más cercanos a x: y x:, es decir x; = x; = 0.99. Veamos qué tan bien lo hace. (3.39)
Ejemplo (sin intercambios).Supongaquese realiza la eliminación de Gauss sin intercambios, usando la primera ecuación paraeliminar0.01 de la segunda. Sumar-0.01 veces la primeraecuación ala segunda produce(1 0.01) como el nuevo coeficiente dex,,pero en aritmética de los digitos esto se debe evaluarcomo 1.O1 = 1.O. De modo que el sistema reducido se calcula como
+
>
x1 - x2 = o
x2 = 1.
(3.40)
Lasustituciónenreversa(enaritméticacomputacional) da la solución aritmética computacionalx1 = x, = 1.O -una muy buena aproximación a la mejor posible de x; = x; = 0.99. Ejemplo (intercambiando). Ahorasuponga que se realiza eliminación la de Gauss después de intercambiar las ecuaciones a O.Olx,
+ x2 = 1
x1 - x2 = o.
Añadiendo -100 veces la primera ecuación a la segunda, da en la segunda nueva ecuación un coeficiente parax, igual a-100 + (- 1) y un lado derecho
120
3
/
Soluci6n de ecuaciones y ciilculo de inversas: mktodos
nuevo de -100, para evaluarse nuevamente en aritméticacomputacionalde dos dígitos; se obtiene -< - lOl> = - 100, de modo que el sistema reducido calculado es O.Olx, + x, = 1 - loox, =
-100.
La sustitución en reversada primero x, = 1 (aún una muy buena aproximación a la mejor de x; = 0.99) y entonces x1 = O (una aproximación incomparable con la mejor de x; = 0.99). Estos dosejemplos ilustran que, en la aritmética en punto flotante, pivotes diferentes pueden producir respuestas dramáticamente diferentes en la eliminación de Gauss, que algunas de estasrespuestas pueden ser muy aceptables, pero que otras pueden ser completamente inaceptables. Nuestro problema es entender estefenómeno con el fin de evitar pivotes que llevan a respuestas pobres. Anúlisis de error en reversa
Considere nuevamente la aplicación de la eliminaciónde Gauss a (3.38) sin hacer intercambios, como enel ejemplo3.39. Si la segunda ecuación en (3.38) hubiese ~ 0.99X2, ~ entonces con aritméticaperfecta en este sistema alterado se sido 0 . 0 1 + habría producido la misma forma reducida que se obtuvo conaritmética computacional en el ejemplo 3.39. Por lo tanto:
el efecto de utilizar aritmética computacional de dos dígitos para llevar a cabo laeliminación de Gauss sin intercambiar en (3.38) es exactamente el mismo que seproduciría al usar aritmética exacta enel sistema levemente cambiado x1 -
x2 =
o
+
0 . 0 1 ~ ~O.99X2 = 1.
Por otro lado, considere nuevamente la aplicación de la eliminación de Gauss a (3.38) con intercambio, como en el ejemplo 3.40. Al igual que arriba, se desea encontrarun sistema que, con aritmética perfecta, se reduciráa lo que se obtuvo en el ejemplo3.40 en aritmética de dosdígitos. Imagine que se reemplaza el término x1 - x, por x1 - ax,; ¿qué valor debería tener a para que, con aritmética perfecta en la eliminación como en elejemplo 3.40 resultara igual a - 100como coeficiente dex, enlas ecuaciones reducidas? En aritmética perfecta se tiene como segunda ecuación en elconjunto reducido tan sólo - (100 + a)xz= - 100; por lo tanto es necesario -(lo0 + a) para igualar a - 100, de manera que a = O. Por lo tanto: el efecto de utilizar aritmética computacional de dosdígitos para llevar a cabo laeliminación de Gauss con intercambios en (3.38) es precisamente el
3.6
/
Selecci6n de pivotes y eliminaci6n de Gauss en la practica
121
mismo que se produciría al usar aritmética exacta en un sistema muy cambiado
=O O.Olx, + x2 = 1. X1
El análisis ha mostrado que paralas dos maneras de aplicar la eliminación de Gauss en (3.38), la solución calculada puede visualizarse como la solución exacta a un problema perturbado (es decir, cambiado); este método sellama andlisis de error en reversa: la “culpa” de los errores en el resultado de un proceso enuna computadora seregresa a los datos en lugar de al procesoo a la aritmética computacional. El análisis de erroren reversa es fundamental en la matemática aplicada en lo general, y particular en el análisis de procedimientos computacionales. Los datos utilizados en los cómputos yason por lo general inexactos debidoa errores experimentales y de modelaje; si el análisis de erroren reversa puede mostrar que lasolución calculada esla solución exacta aun problema en el cual los datos han sido cambiados por cantidades aproximadamente iguales en tamaño a los errores que existenya en losdatos, entonces el resultado de la computadora no hacreado errores mayores,que aquéllos ya inherentes al problema. Esto permite la conclusión de que el resultado de la computadora estan bueno como razonablemente pueda pedírsele. no se ha demostrado que laeliminación de Gauss Sin embargo, observe, que siempre da una solución exacta a un problema ligeramente perturbado -al contrario: Lasolución del ejemplo 3.40 es la solución exacta a un problema muy perturbado. Nuestroproblema consiste en descubrir una estrategia para realizar los intercambios -esto es, para seleccionar pivotes- para la cual es válido el hecho anterior. Con una estrategia apropiada,el intercambiar puede mejorar los hechos en lugar de producir un desastre como en el ejemplo 3.40. Es posible que se tenga la impresión de quela razón por la cual la solución sin intercambios fue satisfactoria, mientras que la solución intercambiada no lo fue, se relaciona con el hecho de que el elemento (1, 1) -es decir 1- utilizado como el pivote para obtenerla primera solución es mucho más grande que elelemento (2, 1) -es decir 0.01- utilizado como pivote para obtenerla segunda solución. Por lo tanto, bien se puede sugerir la regla: “Evite pivotes pequeños”. Esta noes una regla mala, pero no puede aplicarse indiscriminadamente. Para visualizar esto, suponga que se reescala (3.38) multiplicando la primera ecuación por multiplicando la segunda por 102, reemplazando x1 por x1 = 102zl, y reemplazando xz por xz = 10-2z,. Esto da como resultado
(3.41)
z1
lOOZ,
-
+
O.o001z, = 22
o
= loo.
122
3
/
Soluci6n de ecuaciones y calculo de inversas: metodos
Si cree que los pivotes pequeños son malos y los utiliza en el elemento mayor 100, en aritmética de dos dígitos se obtiene z, = 100 y entonces z1 = O, que a su vez da lamisma solución errónea dex1 = O y x2 = 1 que se pivotes pequeños noes encontró en el ejemplo3.40. La estrategiade evitar necesariamente exitosa.
Ahora podrá resolver los problemas del I al 4 .
Estrategia de selección de pivotes
Considerando las ecuaciones equivalentes (3.38) y (3.41) que difieren sólo en escala, se demuestra que el hecho de evitar pivotes pequeños no es necesariamente una buena estrategia: dio buenos resultados en (3.38) pero resultados pobres en (3.41). Otra manera de visualizar esto sería que evitarpivotes pequeños podna ser una buena estrategia si se escalaran las ecuaciones de modo “apropiado”. Con “escalar” nuevamente se quiere decirmultiplicar cada ecuación por una constante diferente de cero y reemplazar cada variable por un múltiplo diferente de cero de una nueva variable. Muchos -no todos- buenos programas computacionales para la solución de sistemas de ecuaciones lineales (ver sección 3.9), escalan las ecuaciones de algún modo antesde usar la eliminación de Gauss; los pivotes pequeños se evitan entonces mediante una de dos estrategias: l . Pivoteo parcial,en el cual las incógnitas se eliminandel modo común xl, x2, . . . , x, y en el cual el pivote para la eliminación con xi es el coeficiente de xi en las ecuaciones enumeradas i, i + 1, . . . ,p que tiene el mayor valor absoluto. 2. Pivoteo completo, en el que las incógnitas no se eliminan necesariamente en el orden acostumbrado. La primera variable eliminada es aquella variable xi con el coeficiente mayor (en valor absoluto), y ese coeficiente se utiliza como pivote. La variable r-ésima eliminada es aquella variable con el coeficiente mayor (en valor absoluto) que el de todas aquellas p - r + 1 variables aún sin eliminar, en las ecuaciones p r + 1 restantes y ese coeficiente se utiliza como el pivote.
La experiencia indica que enla práctica, por lo general, es suficiente utilizar un pivoteo parcial; las ventajas posibles del pivoteo completo tienden a ser abrumadas por las desventajas de una “contabilidad” incrementada en su implementación y el hecho de tener que examinar (p - r + 1)2 coeficientes para
3.6
I Selecci6n de pivotes y eliminacibn de Gaussen la practica
123
determinar en cada ocasión el pivoteo en vez sólo de revisarp - r + 1 como en el pivoteo parcial. Los sistemas de ecuacionessurgen que en la práctica-adiferencia de aquéllos creados para los libros de texto con elfin de ilustrar las anomalías- con frecuencia parecen tener un escalamiento “natural” interconstruido que impide que el pivoteo parciallleve a una selección desastrosa de pivotes; en topografía, por ejemplo, raramente miden se algunas distancias enmillas y otras en pulgadas. Otro factor es que es innecesario encontrar me eljor pivote; sólo es necesario evitar pivotespésimos. También existen razones teóricas para usar pivoteoparcial o completo. El análisis de error en reversa puede ser utilizado para demostrar que lasolución calculada x’ resuelve exactamenteun sistema perturbadoen el queel tamaño de las perturbaciones (“tamaño” se mide en relación a los coeficientesoriginales) se relaciona con el tamañolosdepivotes utilizados durante la eliminación. En la práctica, los pivotes rara vez se vuelven grandes. De hecho: (3.42)
La eliminación de Gauss con pivoteo parcial realizado en aritmética en punto flotante det dígitos produce una solución aproximadax’, p X 1, para Ax = b que es la solución exacta a un problema perturbado A’x‘ = b, donde en la prácticaes por lo general el caso que el mayor elemento dela perturba~ 1 0 ”veces, ~ que el mayor ción A - A‘ no es mayor,alrededorde elemento de A.
Por lo tanto, siA se escala demodo que todossus elementos sean de aproximadamente elmismo tamaño, entonces la eliminación de Gauss con pivoteo parcial produce la solución exacta a un sistema de ecuaciones, cada uno de cuyos coeficientes, por lo general, está sólo ligeramente perturbado de su valor correc to. La necesidad de exhibir la A‘ en (3.42) hace difícil ilustrar (3.42) con un ejemplo realista. Sin embargo, existe una consecuencia derivada de(3.42), que r =b por sí misma es interesante y más fácil de ilustrar. Si se calcula el residuo Ax‘ para ver qué tanto se acercax’ a la solución de Ax = b, entonces de (3.42) se puede escribir r = b - Ax‘ = b - A x ’
+ A x ’ - Ax‘ = (A‘- A)x’.
De esto se puede concluir a partir de (3.42) que (3.43)
La eliminación de Gauss con pivoteoparcialrealizadoenaritméticaen punto flotantede t dígitos produce una solución aproximada x’,p X 1 para Ax = b que es la solución exacta a un problema perturbado Ax‘ = b - r donde enla práctica se da por lo general el caso de que el mayor elemento en r no es mayor que ~ 1 0 veces ” ~ el mayor elemento en A por el mayor elemento en x’.
124
3
Solucidn de ecuaciones y cAlculo de inversas: metodos
/
9R (3.44)
Ejemplo. Consideresolucionar Ax
-4
7 1
3 A=
-9 7 -5
2
-6
8 -6
2 -1
-1
-5
-5 4
-8
2
-50
3 -63
-7
9 9
-2
8
"7 -2 -3
4 7 5 -3
3 8
1
-6
53 3
-1 1 -9 8 -6 2 1
-48
71 5
-3 3 -7
2
1
9
6 -60 4 2
=
b, donde 9
5 9 -9
-2 -8 8
7
4
5 6
51 -1
6
-8
-3 4 -6 -46 6
-4
9 8
-6 -7 2 4
-4
8 7 1 -61 -3 4 5 5
9
-73
y
b=
10 4 -6 -3 -2 9 -8 1
5
-5
7
-7
se resolvió el sistema utilizando MATLAB y tuvo lugar una x' cuyo elemento mayor es dealrededor 0.3; y a que p = 10 y el elemento mayor en A es de 73, se espera de(3.43) que elelemento mayor del residuo r = b - Ax' deba ser menor que alrededor de (10)101-16(73)(0.3),que es aproximadamente 2.2 x Con el MATLAB se calculó el residuo r -usando aritmética computacional, y, por lo tanto, se obtuvo un resultado imperfecto- teniendo como elemento mayor a aproximadamente 2 x bastante menor que ellímite superior de (3.43).
PROBLEMAS 3.6
D 1. Evalúe en aritmética de punto flotante de dos dígitos: a) (+++)++. b) (0.58 + 0.53) - 0.53. c) 0.58 + (0.53 - 0.53)--compare este resultado con el de b) 2. Evalúe en aritmética de punto flotante de dos dígitos:
a) b) 3(+)
3. Considere el sistema (3.41) -una versión escalada de (3.38). a) Encuentre su solución exacta. b) Encuentre la mejor aproximación de dos dígitos para esta solución. c) Encuentre la solución que se obtiene de la eliminación de Gauss en aritmética de punto flotante de dos dígitos, suponiendo que el mayor coeficiente de cualquier variable se usa como el primer pivote.
3.6
I Selecci6n de pivotes y eliminaci6n de Gaussen lapractica
125
D 4. Utilizando aritmética de punto flotante de dos dígitos,aplique la eliminación de Gauss sin intercambios para resolver el sistema
+ -0.61~1 + O.23X2 = 0.48. 0 . 9 8 ~ ~o.43X2 = 0.91
b) Compare su resultado con la solución real x: = 0.005946 . . . , xf = 2.102727 . . . y con la aproximación de dos dígitos posible x; = 0.0059, x; = 2.1;
c ) Utilice el análisis de error en reversa y encuentre un sistema perturbado del cual la eliminación de Gaussen aritmética perfectaproduciría x; y x; como la solución real. (Observe que los errores absolutospequeños en las respuestas numéricas representan de hecho errores relativos grandesy podrían no ser aceptables.) 5. Identitique el elemento que se utilizaría como el primer pivote en: 1) pivoteo cada una de las matrices aumentadas mostraparcial y 2) pivoteo completo para
das abajo. 3
I
10
61 3
c)
2
[:
3
21 1
I
D 6. Demuestre que el residuo b
- Ax es pequeño aun parala inaceptable solución aproximadade (3.41) que se encuentraen el libro; demuestreque la regla general (3.43) se cumple para este caso. 7. Muestre que el residuo b - Ax es pequeño aun para la solución aproxima3.39; verifiquequelareglageneral da a (3.38) encontradaenelejemplo (3.43) se cumple para este caso. 8. Demuestre que cada uno de los tres pivotes diferentesdel mayor en (3.41) -incluyendo el más pequeño, 0.0001-da una aproximación satisfactoria a x: y x; en aritmética de punto flotante de dos dígitos. D 9. La regla general (3.43) indica que la solución calculada produceun pequeño residuo; intuitivamente esto significa que “la solución casi resuelve Ax =
126
3
/
Solucidn de ecuaciones y c ~ l c u l ode inversas:rn6todos
b”, lo que puede ser diferente del enunciado “la solución calculada está cerca dela solución verdadera”. Para visualizar esto. considere el sistema
0 . 8 9 ~+~o.53X2 = 0.36
0 . 4 7+ ~ ~0 . 2 8 ~=~0.19, cuya solución exacta es x: = 1, x: = - 1. Demuestre que la “solución aproximada” x1 = 0.47, x2 = -0.11 tiene un pequeño residuo y por lo tanto “casi resuelve” la ecuación, aunque la solución aproximada está lejos de la solución real. Este es un ejemplo de un problema mal acondicionado -ver la sección 6.4. Ixlp
10. a) Utilice el MATLAB o software similar para obtener una solución aproximada x’ para el sistema del problema 9. b) Encuentre el error x’ - x* entre la solución calculaday lasolución real. c) Compare el tamaño de esteerror con el tamaño del residuo r = b - Ax‘, pero con el fin de calcular r de modo exacto, observe que
y calcule r como A(x* - x’). Nuevamente esto demuestra que el sistema está mal acondicionado. 11. Ni el pivoteo parcial ni elpivoteo completo están garantizados para producir buenos resultados. Para visualizar esto, muestre que ambos producen resultados poco satisfactorios cuando se aplica la eliminaciónde Gauss en aritmética de punto flotante de t dígitos a
2x, + x2 +
x3
=1
+ EX2 + EX3 = 2E x1 + EX) = E x1
EX2 -
cuando E es muy pequeño y se le conoce con exactitud. Demuestre que al reescalar mediante z 1 = .x1/€, z 2 = x2,z 3 = x3 y dividir la segunda y tercera ecuación entre E para obtener
2EZ1 + z2 21 21
+ z3 = 1
+ + z3 = 2 + z2 z3 = 1 z2
-
se logra que ambos métodos funcionen satisfactoriamente.
3.7 3.7
I La descomoosici6n-LU
127
LA DESCOMPOSICION-LU
Hasta ahora se ha enfatizado en el proceso de la eliminación de Gauss;el énfasis en esta sección se hará sobre el resultado -que es lo que se consigue con la eliminación de Gauss. Los hechos básicos se resumen en (3.56) y se ilustran en los ejemplos 3.45 y 3.55. Recuerde delejemplo 3.17 que laeliminación de Gausssin intercambios no siempre puede completarse satisfactoriamente porque pueden aparecer ceros sobre ladiagonal principal. Ya que esmás fácilde comprender,primero se trata la de el caso en que tales ceros no aparecen y se puede llevar a cabo eliminación Gauss satisfactoriamente sin intercambios. LU y eliminación de Gauss sin intercambios
Es fácil enunciar el resultado principal: Si la eliminación de Gauss en la matriz A, p X p puede completarse satisfactoriamente como en (3.20) pero sin intercambios, entonces el proceso es equivalente a escribir A como un producto LU de una matriz triangular inferior L y una matriz triangular superior U (vea la definición 1.3) Recuerde el proceso (3.20) de la eliminación de Gauss, pero en el caso especial cuandoA esp X p, todos los pivotes son diferentes de cero, y no se usan intercambios. Al eliminar en la i-ésima columna, primero se dividen los elementos deli-ésimo renglón entre el pivote, el elemento (i, i) de la matriz en suforma parcialmente reducida; denote estei-ésimo pivote como aii.Entonces se reemplaza el renglónj-ésimo (paraj > i) por el renglónj-ésimo más un múltiplomji del i-ésimo renglón a modo de producirun cero enel elemento (j,i); los números mJi se conocen como multiplicadores. Las matrices triangulares involucradasen el producto antesmencionado se define a partir de los números producidos durante la eliminación. (3.45)
Ejemplo. Considere la matriz A, 4 x 4 utilizada para introducir la eliminación de Gauss en la sección 3.2; vea (3 3).Una matriz triangular inferior L y una matriz unitaria triangular superior U. U son simplemente la forma reducida (3.13)de A producida durante la eliminación. Los elementos dela diagonal principal de L son los pivotes: (L),, = aif;los elementos subdiagonales de L sonlosnegativos de los multiplicadores: (L), = -mjt. Se pueden leer los multiplicadores mji y los pivotes ai{de los pasos (3.Q (3.10),(3.1l),(3.12)enlaeliminación:a,,= -2,mzl=3,m3,= -5,ym,,= -lde(3.8);az,= 3,m32=3,ym,z= -2de(3.10);a3,= -2,ym4,= -3de = 2 de (3.12). Al formar L y U como se describió y después de (3.11): y
128
3
I
Soluci6n de ecuaciones y cAlculo de inversas: metodos
comprobar la multiplicación, queda claro que la descomposición de A como A = LU es correcta: A
(3.46)
-2
2
es igual a -4
U
Por
L
ya que
-6
3
Esta es la descomposición LU de A. De ella se puede derivar unadescomposición triangular relacionada. Sea Do la matriz diagonal formada por los pivotes; en este caso Do = diag( - 2, 3, - 2, 2).
Ya que A = LU = LD; 'D,U, también se puede escribir A = LOUo,donde Lo = LD;' y U. = DoU. Se encuentra Lo a partir de L dividiendo cada columna esa columna, mientrasque U. se encuentraa partir de U de L entre el pivote en multiplicando cada renglón de U por el pivotede ese renglón. A = LOUoes la descomposición LOUode A: (3.47)
es igual a
A
-2 -3
2 6
-4
3
Por
Lo
U
ya que
-6 -15
9
1
0
3
9
-6
Primero se describió la eliminación de Gauss como ladivisión del renglón entre el pivote, con el fin de obtener un 1 en ese elemento; esto hace los cálculos más fáciles a mano. Por otro lado, enlos programas computacionales, por lo general no se divide primero entre este pivote, sino que se comienza a eliminar. El efecto es que la forma reducida que se obtienees la U. de arriba en este caso,en lugar de U; los elementos en Lo por debajo de la diagonal principal sontan sólo los negativos de los multiplicadores utilizados duranteesta forma de eliminación. Antes se mostró cómo encontrarLo y U. a partir de Do, la matriz diagonal formada de los elementos de la diagonal principal de L. A la inversa, al tener Lo y Uo, se podría encontrar L = L a o y U = DolUo, donde Do es la matriz diagonal que se forma de los elementos de la diagonal principal de U. En el ejemplo3.45 se pudo descomponer A como A = LU y como A = LOUo, donde L es la matriz triangular inferior con elemento no cero en la diagonal
3.7
/
La descomposici6n-LU
129
principal y U es la matriz unitaria triangular superior, donde Lo es la matriz unitaria triangular inferior y U. es lamatriz triangular superior conelementos en la diagonal principal no cero. El siguiente teorema dice queesto puede hacerse siempre y cuando la eliminación de Gauss puedacompletarse sin intercambio, y lo caracteriza cuando esto ocurre; la demostración, un tanto teórica, puede quedar omitida por la mayoría de los lectores. (3.48)
(3.49)
La demostración se hace por inducción enp. Sip= 1 y A = [a], entonces L = [ a ] ,U = [ 11, Lo = [ 13, U,, = [ a ] ,y a # O si y sólo si los pivote(s) -esto es,a- es no cero. Suponga que el teorema es verdadero parap - 1 y que A es p X p . Efectúe la eliminación de Gauss para A, mediante la eliminación únicamente de los primeros p - 1 renglones usando las primeras p - 1 columnas y luego regresando para eliminar los elementos en el renglón inferior en cada columna de izquierda a derecha; esto es equivalente a la eliminación de Gauss común. La primera parte de este proceso involucra eliminación de Gauss regular para Ap-l, una matriz (p - 1 ) x (p - 1) para la cual se supone que se cumple el teorema. Detal modo, completar la eliminación de Gauss para A es equivalente a completarla en los primeros p - 1 renglones y después terminarla; completarla en es
DEMOSTRACION.
130
3
I
Solucibn de ecuaciones y cAlculo de inversas:rnbtodos
equivalente a Ap-l = L’U’ de la forma apropiada. Considere tratar de escribir A = LU con L y U como sigue:
= L U ’ , que por su construcdonde a,, = (A),,. Esto requiere que ción resulta cierto; L’u = w , lo cual se cumple si y sólo si U = L”lw, ya que L’ es no singular (los elementos en su diagonal principal son los pivotes no cero); ITU’ = vT, que secumple si y sólo si IT= vW”l ya que U‘ es no singular; y a,, = ITu + a, que secumple si y sólo si a = app- ITucon ITy u como ya han sido determinados. Esto da ladescomposición LU deseada. En seguida se relacionaladescomposiciónconlaeliminación de Gauss. La eliminación (como se modificó para tratar primero con los primeros p - 1 renglones) redujo los primeros p - 1 renglones de A de [A,-, w] a [U‘u] sin alterar el último renglón [v’ a,] de A. Al eliminar ahora en este último renglón, simplemente se agrega al último renglón cierta combinación lineal de los primeros p - 1 nuevos renglones [U’ u] a modo de tener [OT app]:
zT[U’
u]
+ [v’
a,,] = [O’
cr,,],
que dacomo resultado zT = - v W ‘ - ~= -IT(es decir,el nuevo renglón en la descomposición LU que ya se ha encontrado es el negativo del renglón de multiplicadores, como se indicaba) y u,, = a,,
+ zTu = a,, - ITu,
que esigual a a, el nuevo elemento en ladiagonal principalencontrado para L. Este pivote a,, = a será diferente de cerocomo se requiere si y sólo si L es no singular; ya que U es no singular y L = A V ’ , L es nosingular siy sólo si A lo es -10 cual es la condición para A, = A que se necesitaba. La construcción de Loy U. a partir de L y de U demuestra la equivalencia de las dos descomposiciones triangulares. w
Ahora podrá resolver los problemas del 1 al 10. LU y eliminación de Gauss con intercambios
En el ejemplo 3.17 se revela que no toda matriz puede reducirse mediante eliminación de Gauss sin intercambios. Sin embargo, si se permiten los inter-
3.7
I La descom~osici6n-LU
131
cambios de renglones, toda matriz no singular puede reducirse mediante eliminación de Gauss a una matriz unitaria triangular superior; esto puede relacionarse como en el teorema clave 3.48 con una descomposición triangular. Sin estándar (3.20) puede realizarse a cabopero embargo, siA es singular, el proceso no producirú una matriz unitaria triangular superior. (3.50)
Ejemplo. Considerela matriz quees evidentemente singular
Con o sin intercambios, la eliminación de Gauss reduce esto a una matriz triangular superior R con un cero sobre la diagonal principal en lugar del uno deseado. Un argumento simple (problema 19) muestra quetal vez no matriz triangular inferior por pueda escribirseA como el producto de una una matriz unitaria triangular superior. De modo que A no puede descomponerse en A = LU como en el teorema 3.48; pero A si puede descomponerse en A = L,U,del segundo tipo, en el teorema con Lo unitaria triangular inferior,sise permiten elementos cero sobre la diagonalprincipal deU,: A
=
LOU,
con Lo = I y U, = A
en este caso. En el ejemplo 3.50 se deja entrever que la segunda descomposición -A = LOU,con U, posiblemente singular (como A), y Lo unitaria triangular inferiorpermite que exista la descomposición de ciertas matrices singulares (la razón en Lo y U,) sin intercambios. Y , por supuesto, si A fuese no singular para la de modo que los elementos diagonales de U, fueran diferentes de cero, se podrían construir L y U de Lo y U, mediante el uso de la matriz diagonal Do(que se forma de los elementos en la diagonal principal de U, en este caso)usando (3.49). Pero, ¿qué pasa si ocurren intercambios? Nuevamente, es fácil enunciar los hechos básicos :
","
Si la eliminación de Gauss en la matriz A, p x p puede completarse el es satisfactoriamente como en (3.20)con intercambios, entonces proceso equivalente a escribir una modificación de A llamada A' (= A con sus renglones reordenados) como un producto LU de una matriz triangular inferior L y una triangular superior U.
Para verificar este enunciado para laeliminación de Gauss con intercambios, imagine que, de algún modo, se sabe antes del proceso de eliminación qué
132
3
I Soluci6n de ecuaciones y cSlculo de inversas: rnktodos
intercambios tendrán que hacerse, y que esos intercambios se realizan en los renglones de lamatrizoriginal A, obteniendo una matriz A', antes decomenzar la efiminacidn. El hecho es que la eliminación de Gauss puede entonces realizarse en A' sin intercambios, y que se usan exactamente los mismos pivotes y multiplicadores para A' que para A, y que resultaexactamente lamisma forma reducida de A' que deA. Por lotanto se puede utilizar la información del teorema clave 3.48 para entender los efectos de laeliminación de Gauss con intercambios, visualizándola con eliminación de Gauss sin intercambios sobre una matriz obtenida de la original permutando -es decir, reordenando- sus renglones. Una definición ayudará a hacer más precisa esta reordenación. (3.51)
Definicidn. Unamatriz depermutación P , p X p es cualquier matrizp X p que resulta depermutar-es decir, reordenarel orden de los renglonesde I,. De modo más preciso: Cada renglón de P contiene exactamente un elemento diferente de cero, esdecir 1; y cada columna de P contiene exactamente un elemento diferente de cero, es decir l .
La sola definición de la multiplicación de matrices aclaró el hecho de que premultiplicar una matriz A por una matriz elemental daba el mismo resultado que aplicar la operación elemental de renglón correspondiente a A. De manera similar, resulta claro que premultiplicar A por una matriz de permutación P produce el mismo resultado que permutar los renglones de A exactamente del mismo modo en el cual los renglones de I, para producir P.
(3.52)
Teorema (matrices de perrnutación). Sea P unamatriz de permutación. Entonces: a) Para cualquier A, PA puede obtenerse a partir de A permutando los renglones de A exactamente comose permutaron los renglonesde I para obtener P. b) P es no singular, y P" = P*: PPT = PTP = I. DEMOSTRACION
a) Esto se sigue fácilmente de las definiciones de la multiplicación de matrices y de matrices de permutación. b) Separe P en sus renglones rl, . . . ,r,, que son tan sólo los renglones e: de I en cierto orden. Entonces PT tiene como sus columnas r:. La definición de lamultiplicación de matrices implica que el elemento (i,j) de PPTes tan sólo (el elemento en la matriz 1 x 1) rirjT, y esto es1 si i = j y O si i # j ; esto es, PPT = I. Un argumento similar en términos de las columnas de P demuestra que también P T = I . Considere una vez más la eliminación de Gauss con intercambios.
3.7
I La descomposici6n-LU
133
(3.53)
(3.54)
DEMOSTRACION. Si A puede escribirse como A = PTLUcomo ena), entonces ciertamente A es no singularya quePT, Ly U son no singulares. La demostración del resto del teorema se hace por inducción en p . Parap = 1, el resultado es justamente el mismo que en el teorema clave 3.48. a) Suponga que a) es verdadero parap - l . Si A es nosingular, entonces su primera columna es diferente de cero y los renglones pueden permutarse de modo que el nuevo &mento (1, 1) sea diferente de cero, entonces se puede llevar a cabo la eliminación de Gauss del modo usual enesa columna. La matriz O, - 1) X o) - 1) que permanece para su reducción también es no singular ya queA es no singular y se ha transformado a esta forma parcialmente reducida mediante matrices elementales (no singulares). Mediante la hipótesis inductiva, puede llevarse a cabo el resto de la eliminación de Gauss con intercambios, siendo el resultado una forma reducida unitaria triangular superior para A. Pero este proceso de eliminación es equivalente (se omite la demostración) a la eliminación sinintercambios en PA, y entonces el teorema clave 3.48 se aplica a PA, obteniendo los resultados que se requieren. b) Problema 18. m
134
3
I
Solucidn de ecuaciones y cBlculo de inversas: mbtodos
(3.55)
Ejemplo. Como se indica, la eliminación de Gauss comienza con un intercambio en lamatriz A que se muestra abajo, pero un poco más adelante se topa con un pivote cero:
[
O 4
-4
-8
:] [
-10
z] [i 8 !]. 4
4 0
intercambio,
-4
-8
-10
m 3 ]= 2
Después, en la eliminación de Gauss estándar (3.20), se usaría el elemento (2, 3), 4 como un pivote y se eliminaría el 2; sin embargo, esto no llevará a una descomposición L U . La modificación que se necesita para demostrar el teorema clave 3.53 b) requiere que, en caso deencontrar una columna inferior cero como en la segunda columna de este caso, se brinque simplemente esa columna (es decir, que tome los multiplicadores igualesa cero) y continúe a la siguiente columna y el siguiente renglón. En este caso, esel elemento (3, 3),de modo que se hacompletado la eliminación. Se obtiene la descomposición LOUoA = PTLoUomediante la formación de P como la matriz de permutación que intercambia los dos renglones superiores, U. como la forma triangular superior a la cual se hareducido A y Lo como una matriz unitaria triangular inferior cuyos elementos son los negativosde los multiplicadores. En este caso, esto daA = PTLoUocomo sigue:
PT
por
Lo
Por
u,
1
igual a A: O
0
como puede comprobarse mediante multiplicación.
Los detalles de las demostraciones oscurecenun tanto las ideas básicas, así que se resume (3.56)
l . A es no singular si y sólo si A puede escribirse en una descomposición L U , A = PTLU siendo P una matriz de permutación, U una matriz unitaria triangular superior, y L una matriz triangular inferior con ele-
mentos en la diagonal principal diferentes de cero. 2. Cada matriz A, p X p , puede escribirse como una descomposición LOUo, A = PTLoUocon P una matriz de permutación, Lo una matriz unitaria triangular inferior(y por lo tanto no singular), y U. una matriz triangular superior. A es no singular si y sólo si U. es no singular. 3 . Para A no singular, las descomposiciones LU y LOUode 1) y 2) pueden relacionarse mediante (3.54).
3.7
I La descomposici6n-LU
135
4 . Estas descomposiciones pueden encontrarse a partir de la eliminación de Gauss. PROBLEMAS 3.7
D 1. Para la matriz A que se muestra abajo, realice la eliminación de Gauss sin intercambios y dé los multiplicadores m,,, m31 y m32,y los pivotes all,aZ2 y al igual que las matrices elementales que logran que se realice cada operación de renglón.
I:1
A=[!
-:]
2. Verifique (3.46). 3. Verifique (3.47). D 4. Demuestre que una matriz triangular inferiorL es no singular si y sólo si los elementos de su diagonal principal son todos diferentes de cero. 5. Demuestre que cada matriz unitaria triangular superiornoes singular y que su inversa es unitaria triangular superior. D 6. Demuestre queel producto demuchas matrices arbitrariasunitarias triangulares superiores (o inferiores) es unitario triangular superior (o inferior). 7. Demuestre que la inversa de una matriz triangular inferior (o superior) no singular -ver problema 4- es triangular inferior (o superior). 8. Demuestre que el producto de muchas matrices arbitrarias triangulares superiores (o inferiores) es triangular superior (o inferior). 9. Para cada matrizA mostrada abajo, encuentresu descomposición LU, A = LU y verifique que LU = A. 2 -1
1
2
o 7
7 3
-6
-11
-31
D 10. Suponga queA = L,U1 = L,U, son dos descomposicionesLU de A, teniendo ambas matrices Li elementos no cero en ladiagonal principal. Mediante el examen deL;'L1 y U,U;', muestre queL, = L2y U, = U2. En otras palabras, la descomposición LU, A = LU de una matriz A no singular es única. 11. Para cada matrizA mostrada abajo, encuentresu descomposición L U , A = PTLU realizando la eliminación de Gauss con intercambios.
136
3
/
Soluci6n de ecuaclones y cBlculo de inversas: metodos
6 -4 3
-12 14
-4 11 -16
12. La matriz A se define mediante la descomposición LU mostrada abajo. Realice la eliminación de Gauss sin intercambios y verifique que los multiplicadores, pivotes, y forma reducida final son como los contenidos en la descomposición L U . A = L U = [ - i- 6
O
:] O
13. Para cadauna de las matrices del problema 11, para el cual se encontróA = PTLU, calcule la descomposición LU sin intercambios; para la matriz A' que sedefine como A' = PA y verifique que se obtienen las mismas matrices L y U.
D 14. Demuestre que la descomposición L U , A = PTLU no es única niaun para las matrices no singulares, encontrando dosde tales descomposiciones diferentes para
15. En las aplicaciones, muchas matrices son esparcidas: la mayoría de sus
elementos son cero. Enmuchos casos son matrices de banda,es decir, que sus elementos diferentes de cero están en una banda vecina a la diagonal principal. Una matriz tiene un ancho de bandainferior 1si ( A)ii = O paraj < i - 1 y ancho de banda superior u si (A)u = O para j > i f u. Una matriz con ancho de banda superior e inferior 1 se llama tridiagonal. a) Demuestre que si se realiza la eliminación de Gauss para producir la descomposición LU sin intercambios para una matriz tridiagonal A, A = LU, entonces L tiene un ancho de banda inferior 1 y U un ancho de banda superior l . b) Demuestre que si se requiere de intercambios, entonces U puede tener ancho de bandasuperior 2 mientras que L puede tener ancho de banda inferior p - 1 para A = PTLU, p X p . c) Generalice a) y b) para matrices generales de banda. 16. Encuentre la descomposición LOUode cada matriz del problema 11 a), b) Y c). D 17. Encuentre la descomposición LOUode A si A es:
3.7
I
La descomposici6n-LU
137
18. Demuestre el teorema clave 3.53 b) como sigue, mediante inducción en p, donde el resultado está claro parap = 1 . Suponga que es verdaderoparap 1 y sea A, p x p. a) Demuestre quéeliminación en la primera columnade A es equivalente a premultiplicar primero A por una matriz de permutación P, y después por una matriz unitaria triangular inferior L, cuyos únicos posibles elementos en la subdiagonal, diferentes de cero, están en la primera columna y son los negativos de los multiplicadores m; ya que la matriz restante (p - 1) X (p - 1) puedeescribirsecomo P’TL’U’ con L‘ unitariatriangular inferior mediante la hipótesis inductiva, demuestre que este producto puede ser separado como P2L2U2,dando LIPIA = P2L2U2,
donde
Premultiplicando por PTL;
esta ecuación cambia a P,TPIA = PTL; 1PzL2U2.
b) Muestre que L; se parece a L, a excepción de que los multiplicadores m se reemplazan por -m. c ) Tomando ventaja de la estructura especial de los términos PT, L; l , P,,y L2 a la derecha y usando multiplicación separada, demuestre que esta ecuación puede escribirse como
donde m’ = Pm; siendo ésta la PA = LOU,deseada 19. Mediante la multiplicación e igualación de elementos, demuestre que la A abajo no puede escribirse como A = LU:
138
3.8
3
I Solucibn de ecuaciones y calculo de inversas: metodos
MEDIDAS DE TRABAJO Y SOLUCION DE SISTEMAS LIGERAMENTE MODIFICADOS
Unmodelo matemático dado de cierto sistema de interés, comúnmente se utiliza de manera extensa para explorar a ls propiedades de esesistema: se puede examinar lasalidadel sistema para varias entradas diferentes;se pueden estudiar los efectos deligeras modificacionesen el propio modeloy así sucesivamente. Si el modelo involucra un sistema de ecuaciones lineales, entonces tales sondeos requieren la solución de varios sistemas de ecuaciones que difieren muy ligeramente uno de otro: se puede requerir de soluciones para variosmiembros derechos diferentes pero la misma matriz de coeficientes; se puede requerir de soluciones después de unos pocos cambios en los coeficientes; y así sucesivamente. En tales situaciones que involucran ecuaciones lineales, por lo general es posible ahorrarse una cantidad de trabajo haciendo uso de cálculos anteriores para resolver, más adelante, sistemas de ecuaciones ligeramente modificados. Con el finde visualizar el menor esfuerzo posible, primero es importante saber qué trabajo involucra la solución de sistemas de ecuaciones lineales. Medidas de trabajo para eliminación y sustitución en reversa
Suponga que elproblema es resolver para x en Ax = b, donde A es p x p , b es p x 1, y x es p X l . ¿Cuánto esfuerzo involucra la eliminación de Gauss para producir un sistema reducido,y cuánto involucra la sustitución en reversa para producir x? Por supuesto, el esfuerzo mayor está en la aritmética -las sumas, restas, multiplicaciones y divisiones esenciales al proceso. Para la mayoría de las calculadoras y computadoras, al igual que para las personas las sumas y restas consumen aproximadamente el mismo tiempo, pero son apreciablemente más rápidas que las multiplicaciones y divisiones(cuestanaproximadamente lo mismo). Por lo tanto, al medir el trabajo se contará la suma/resta separadamente de las multiplicaciones/divisiones pero se agrupará aquél en estas dos categorías. Considere laeliminación de Gauss en lacolumna k de la matriz A , p X p ; se contabilizará el trabajo de procesar b más adelante. El renglón que contiene el pivote debe dividirse entre ese pivote; se puede evitar dividir el pivote entre sí mismo ya que se conoce que la respuesta es 1. Por lo tanto, se realizarán p - k divisiones. A cada renglón de abajo se le debe sumar un múltiplo m del renglón pivotal; el múltiplom es tan sólo el negativodel coeficiente que se busca eliminar (por lo tanto, la obtención de m es gratuita) y no se tiene que calcular ese
3.8
/
Medidas de trabajo y soluci6n de sistemas ligeramente modificados
139
elemento eliminado ya que se sabe que el resultado esO . Por lo tanto, se deben realizar p - k multiplicaciones y p - k sumas para cada uno de los p - k renglones debajo del renglón pivotal. El costo total de la eliminación de Gauss es la sumatoria de todos estos costos:
Usando los hechos de que 1+2+...+n="-
+
n(n 1) n(n 2
y
+ 1)(2n + 1)
1+4+...+n2=
7
6
se puede calcular el trabajo totalcomo p 3 / 3 - p / 3 multiplicaciones/divisiones y p 3 / 3 - p2/2 + p / 6 sumas/restas. Por supuesto, resolver Ax = b requiere que se procese b y también que se realice la sustitución en reversa; esto se expresa fácilmente en términos de la descomposición L U , A = PTLU del teorema clave 3.53. Ax = b significa que PTLUx = b; entonces LUX = Pb, lo que se escribe comoLy = Pb y Ux = y, cada una de las cuales es simplemente u n sistema triangular que puede resolverse inmediatamente con sustitución hacia adelante o en reversa. La matriz columna y es precisamente lo que se hubiera obtenido si se hubieran realizado todos los pasos de eliminación en b durante la eliminación de Gauss. (3.57)
Pararesolver Ax = b dadala descomposición L U , A = PTLU: 1. Permute los elementos de b para obtener b' = Pb. 2. Resuelva el sistema triangular inferior Ly = b' para y mediante la sustitución hacia adelante. 3 . Resuelva el sistema unitario triangular superior Ux = y para x mediante la sustitución en reversa.
(3.58)
Ejemplo. Consideresolucionarelsistema de ecuacionesdelejemplo usando (3.57); la descomposición LU, PTLU de A es
1
-2 1 O
-2
o
1
O
O
3.17
3 -2 2.2 1
Ya que b = [4 - 1 1 -3IT y b' = Pb es tan sólo b' = - 3 1 - 13.' Se calcula fácilmente la solución y de Ly = b como y = [ -2 - 1 - f - 1IT, y la solución x a Ux = y se obtiene fácilmente comox = [ 1 1 2 - 11. Esto resuelve verdaderamente el sistema de ecuaciones en el ejemplo 3.17. [4
140
3
Soluci6n de ecuactones y calculo de inversas:rn6todos
/
Es fácil contabilizar el trabajo involucrado en (3.57) para una m ' triz A, p x p . El paso 1 involucra intercambios pero nada de aritmética. En el paso 2 se requiere encontrar (y)k en el orden de k = 1, 2, . . . , p . AI encontrar (y)k los k - 1 valores anterioresde y se sustituyen, se multiplican por un coeficiente, y se restanal miembro derecho; entonces unadivisiónproduce(y)k.Por lo tanto, para cada k el costoes dek multiplicaciones/divisiones y k - 1 sumas/restas. Esto da un costo total de p ( p + 1)/2 multiplicaciones/divisionesy p ( p - 1)/2 sumas/restas para el paso 2. En el paso 3 se requiere encontrar(x)k en el orden de k = p , p - 1 , . . . , l. El trabajo es similar al del paso2 a excepción de que la igualdad (u},, = 1 elimina la necesidad de una división para cada variable. De allí que costoeltotal seap(p - 1)/2 multiplicaciones/divisiones y p ( p - 1)/2 sumas/restas. Ahora se pueden calcular fácilmente loscostos combinados de los tres pasos de (3.57). (3.59)
Teorema (trabajo en eliminación y solución). Suponga que A es una matriz no singular, p X p . Entonces: a) El costo de calcular la descomposición LU, A = PWJ de A es p 3 / 3 - p / 3 multiplicaciones/divisiones y p 3 / 3 - p2/2 + p / 6 sumas/restas
b) Dada la descomposición LU, el costo de resolver Ax = b mediante el proceso de (3.57) es de p 2 multipticaciones/divisiones y p 2 - p sumas/restas
Los puntos claves a observar son que el trabajo en la eliminación de Gauss para producir ladescomposición LU varíacon el cubodep, mientras que el costo de resolver un sistema-una vez que se dispone de ladescomposición LU- varía con el cuadrado de p . El costo total para un solo sistema, por lo tanto, varia con p3: Duplicar el número de ecuaciones y variables hace que el trabajo sea ocho veces mayor. Sin embargo, observeque el costo de multiplicar simplemente dos matrices p x p es dep3 multiplicaciones yp3 - p 2 sumas -ambas mayores que en ( 3 . 5 9 ) .Observe también, queel resolver un solo sistema de 100 ecuaciones con 100 incógnitas requiere de 343,300 multiplicaciones/divisiones y 338,250 sumas/restas- una tarea enormepara la mayoría de los seres humanos, por lo que es importante resaltar que muchas microcomputadoras realizan 10,000 operaciones aritméticas por segundo, y podrían hacer esto en aproximadamente 70 segundos, mientras que las supercomputadoras modernas requerirían de una pequeñísima fracción de segundo. Puede usarse el mismo tipo de análisis para contabilizar el trabajo en la eliminación de Gauss-Jordan; el costo total para resolver un solo sistema de p ecuaciones lineales conp incógnitas esp3/2 + p 2 / 2multiplicaciones/divisionesy
3.8
I Medidas de trabajo y soluci6n de sistemas ligeramente modificados
141
p3/2 - p / 2 sumas/restas. Aquí los términos dominantes son p 3 / 2 contra p3/3 para la eliminación de Gauss; en la eliminación de Gauss-Jordan se consume alrededor de50°/0 más del tiempo que en la eliminación de Gauss para resolver un sistema de ecuaciones. De hecho, se sabeque ningún método que utilice sólo operaciones de renglón (o de columna)puede tomar menos trabajo paramatrices generales que la eliminación de Gauss.
Ahora podrá resolver los problemas del 1 al 6 . Modifwación de los miembros derechos en ecuaciones
Suponga ahora que es necesario resolver A x t = bi con varios miembros derechos diferentes bi, i = 1, 2, . . . , n ; esto podría fácilmente ocurrir en un estudio de diseño, como se indicó antes. Si desde el comienzo se conocen todas las bi, entonces, de acuerdo a (3.28), simplemente se pueden usar la eliminación de Gauss y la sustitución en reversa en la matriz múltiplo-aumentada
En estudios de diseño y otras aplicaciones, sin embargo, se desconoce con los resultados frecuencia elsiguiente miembro derecho bt+lhasta haber obtenido xidel miembro derecho presente; por lo tanto, no se puede proponer la matriz múltiplo-aumentada.Peroaún así se desea evitar realizar la eliminación de Gauss otra vez para cada uno de los n diferentes sistemas p X p , ya que esto costaría alrededor de n(p3/3) operaciones aritméticas de acuerdo al teorema (3.59). La descomposición LU de A proporciona una resolución eficiente a este problema. Primero se calculala descomposición LU, A = PTLU de A, y después se utiliza (3.57) en cada uno de los lados derechosbt conforme se vadisponiendo de ellos. De acuerdo a las medidas de trabajo en el teorema (3.59): (3.60)
Se puede obtener la descomposición LU: A = PTLU de A y resolver n conjuntos de ecuaciones diferentes Axi = bi, para 1 Ii 5 n a un costo total de p3/3 - p / 3 + np2 multiplicaciones/divisiones, y p3/3 - p2/2 + p / 6 + n(p2 - p ) sumas/restas
Una de las razones para querer resolverAxt = bi para varias bt podría ser la de obtener la inversa A-l, ya que A"
= [x1
x2
. . . xP]
142
3
I
Soluci6n de ecuaciones y calculo de inversas: metodos
si bi = ei, la matriz columna unitaria de orden p -ver teorema clave1.44. En este caso n = p y las medidas de trabajo en (3.60) son de aproximadamente 4p3/3 operaciones. Sin embargo, cada ei es un tanto especial, ya que, básicamente, contiene ceros. Si se puede evitar sumar los ceros y evitar multiplicar y dividir por ceros, se puedereducir bastante el trabajo al aplicar (3.57) a estos miembros derechos ei especiales. El resultado es: (3.61)
La inversa de una matriz no singular, p X p puede calcularse mediante la eliminación de Gauss y la sustitución en reversa con p 3 multiplicaciones/divisiones, y p 3 - 2p2 + p sumas/restas
Aquí hay un hecho sorprendente que se sigue de estas medidas de trabajo: No importa el número n de sistemas Ax+= bi que se necesiten resolver con la misma matriz A, ya que siempre involucra menor esfuerzo en el caso de una A general encontrar la descomposición LU de A y utilizar (3.57) para cada lado derecho, que elcalcular A" mediante eliminación de Gauss y después calcular cada xi como A-'bi. Vea el problema 7 . Esta esuna de las razones por las queen la práctica, es raro quela inversa A-l sea realmente útil -la mayor parte de lo que se puede lograr con A" puede lograrse de manera más eficiente a través de otros medios, tales como la descomposición L U . Por supuesto, existen excepciones, como cuandoA tiene una estructura muy especial o cuando realmente necesitan verse los elementos en A-l; aun así es una buena regla general. ~
~~
~
Ahora podrá resolver los problemas del 1 al 7 . Modqicación de los coefiientes en las ecuaciones
Ahora se pondrá atención al caso en el cual no b sino A cambia de algún modo un tanto simple. Si se cambia el papel que juega unavariable en particular o una ecuación en un modelo, por ejemplo, entonces quizá sea necesario investigar cómo resolver sistemas después de haber cambiado un renglóno una columna de una matriz. Es fácil describir esta situación en lenguaje matricial. Para reemplazar lai-ésima columnacide A por la matriz columna c;, sólo se necesita sumar a A ia matriz (c; - ci)eT; sumar por otro lado ei(ri - rJTen su lugar, reemplaza el i-ésimo renglón ri p o r ri. (3.62)
Ejemplo. Sean A=
3.8
I Medidasdetrabajo y soluci6n de sistemas ligeramente modificados
Por lo tanto A + de: =
[
:]+ [!]
143
3 -1
o
1 -2
2
o
O O]
2
-1
2
-1
-1
:]+[:I['
Mientras que A+e2dT=[t
[l
21 -1
ll]=[;
o
-2
:].
-2
De maneramás general, considere sumar a A una matriz (construida de unas cuantas matrices columna y unas cuantas matrices renglón) de la forma CR, donde C es p x n y R es n X p , con n mucho menor que p . El siguiente resultado describe la inversa de la nueva matriz A' = A + CR y, quizá lo más importante, cómo obtener la solución x' de A'x' = b de la de Ax = b.
(3.63)
Teorema (inversas de matrices modificadas). Supongaque A e s p X p y no singular, que C es p x n y R es n x p con n Ip (por lo general n mucho menor que p ) , y que la matriz K = I, + RA-'C n X n es no singular. Entonces: a) A' = A + CR es no singular, y
b) La solución x' de A'x' = b puede expresarse entérminos de la solución x de Ax = b como X' = X -
A"CY"Rx.
c) Dada A-', se puede calcular A" mediante a) con aproximadamente 3np2 + 2n2p + n3/3 multiplicaciones/divisiones y un número comparable de sumas/restas. d) Dada la descomposición L U , A = PTLU, y la solución x de Ax = b, se puede calcular x' mediante b) con aproximadamente np2 + n2p + n 3 / 3 multiplicaciones/divisiones y un número comparable de sumas/restas. DEMOSTRACION
a) SeaH la inversade A' mencionada; debe demostrarse queA'H = HA' = I, -esto es, el problema 8.
144
3
/
Soluci6n de ecuaciones y ctdculo de inversas:rn6todos
b)
X' = A"'
b = ( A - l - A - l C K - l R A - l ) b = A-lb-A-lCK-lRA-lb como se enunció. c) y d) se basan en las medidas de trabajo antes mencionadas y en el hecho de que requiere alrededor de rst (y un número similar S X t de sumas) calcular producto el por una matriz -&te es el problema 9. m = x - A"CK-'Rx,
(3.64)
Ejemplo. Se ilustra el punto sobre las medidas de trabajo del teorema 3.36. Suponga que p = 100 y n = 5; suponga que yase ha obtenido la descomposición LU de la matriz A, 100 x 100. Ahora, suponga que es necesario resolver Ax"= b para alguna matriz columna b. Si se ignora elteorema 3.63 y se aplica la eliminación de Gauss a A'x' = b, se requiere de alrededor de p3/3 multiplicaciones/divisiones,(= 333,000). Suponga que enlugar deello se utilizael teorema3.63 b). Primero, se necesitax, lasolución aAx = b; ya que setiene la descomposición LU de A; esto se puede obtener a un costo de alrededor de p 2 multiplicaciones/divisiones.Entonces se puede usar el método del teorema 3.63 d) con elfin de obtener x' con un costo de alrededor de np2 + n2p + n3/3 multiplicaciones/divisiones. El esfuerzo total con este método es, por lo tanto, de aproximadamente
multiplicaciones/divisiones -ahorrando alrededor del 80% con respecto al primer método. Parap = 100 y n = 2, como otro ejemplo, el ahorro es de alrededor del 90Y0:el método directo toma aproximadamente 10 veces más tiempo. A primera instancia puede parecer que las circunstancias del teorema 3.63 aparecen raras veces en la práctica, pero éste no es elcaso. Con mucha frecuencia, modelos extremadamente grandesde sistemas complicados -grandes edificios, redes de distribución eléctrica, grandessistemas económicos, etc., consisten en un número pequeño de subsistemas muy grandes y casi independientes, con un pequeño número de interconexiones entre ellos. El teorema 3.63 puede usarse con frecuencia en este caso, siendo A la representación de la situación en la que los subsistemas son realmente independientes con C y R proporcionando los ajustes que reflejen las interconexiones. Por ejemplo, con sólo dos subsistemas, se podría tener que resolver un sistema de 2000 ecuaciones con 2000 incógnitas, con una matriz de coeficientes A' y la forma separada no estándar siguiente: 990 IO
1OOO1OOO
.A.
iooo( B A'= 1000([0
,A. O
D]
A
"
A
10 990 A
A
O O E O [O F O O]'
3.8
I Medidas de trabajo y soluci6n de sistemasligeramentemodificados
145
con lasdimensiones de los bloques como se indican. Sea A la primera de las dos matrices separadas, y suponga que B y D -y por lo tanto A- son no singulares. Se concibe B como la representación de las relaciones internas dentrode un subsistema grande,D como la relación interna dentrodel otro subsistema grande, yEy F como las interconexiones entre los dos subsistemas. Como en el teorema3.63, se puede escribir A' con A' = A CR,donde
+
to
990 10 10 990
10
A
C=
iooo(
"1
F O
y
R=
10(
[o
lO(0
A
A
A
]
oI oI oo '
En tales circunstancias los ahorros al usar el teorema3.63 pueden ser enormes: pueden resolverse algunos problemas que quizá no pudieran resolverse de modos más directos. Se han desarrollado varias técnicas especiales basadas esencialmente en este método,las cuales tienen una amplia variedad de áreasde aplicación. Esta idea básica lleva, por ejemplo, al método de rompimientoen análisis de reses, a métodos de matrices de capacitancia para la solución numérica directa de ciertas ecuaciones diferenciales, avarios métodos modernos para la optimización de programación no linealrestringida y no restringida, y a ciertasimplementaciones del método simplex en la programación lineal
PROBLEMAS 3.8
b 1. Demuestre quecon elfin de multiplicar una matriz r X S por una matrizs
X
t,
se requieren de, a lo mucho, rst multiplicaciones y rt(s - 1) sumas. 2. Utilice las fórmulas 1+2+...+n=-
n(n
+ 1) 2
Y
1 +4+...
+ 1) + n2 = n(n + 1)(2n 6
para demostrar el teorema3 S9 a). 3. Utilice las fórmulas dadas en el problema 2 para demostrar el teorema 3.59 b). 4. Deduzca las medidas de trabajo enunciadasen el texto para laeliminación de Gauss-Jordan.
146
/
3
D
Soluci6n de ecuaciones y ct~lculode inversas: metodos
5. Utilice el teorema 3.59 a) para calcularel número de multiplicaciones/divi-
LU y resolver un siones que se necesitan para encontrar la descomposición sistema de ecuaciones para una matriz p x p , si:
a) p = 10 d) p = 70
b) p = 30 e) p = 90
c) p = 50
6. Considere la descomposiciónL U , A = PTLU que se encontró en elejemplo
3.45 de la sección 3.7. Para dicha matriz A, utilice (3.57) para resolver A x = b = [-4
5
13 20IT
y verifique que la x encontrada resuelve las ecuaciones originales.
D
7. Demuestre que el trabajo que se requiere para obtener la descomposición L U , A = PTLU para una A general es siempre menor que el que se requiere
8. 9.
10.
D 11. 12.
13.
para calcularA" mediante la eliminación de Gauss,y utilícelo para resolver k sistemas A x i = bi para 1 5 i 5 k , y calcular xicomoxi = A"bi para 1 5 i 5 k . Complete la demostración del teorema 3.63 a). Complete la demostración del teorema 3.63 c) y d). Supongaquep = 1000 y n = 10. Al igual que como en el ejemplo 3.64, calcule el ahorro al usar el método del teorema 3.63 d) para resolver A'x' = b. Sea A una matriz no singular p X p y r , 1 X p . Describa el uso del teorema 3.63 a) para encontrar la inversa, si existe, de: 5 ) A + r'e,? a) A + eir Sea A la matriz no singular p X p . Describa eluso del teorema 3.63 a) para encontrar la inversa,si existe, de la matriz que se forma sumando el número (Y al elemento (i, j ) de A. Utilice el teorema 3.63 a) del modo descrito en el párrafo siguiente a (3.64) para encontrar la inversa de
aR 14. Considere la matriz A , 50 x 50 con elementos en la diagonal principal (A')ii = 2 para toda i, elementos arriba de la diagonal (A')i,i+l = - 1 para toda i , y elementos abajo de la diagonal (A')i= - 1 para toda i, y
cualquier otro elemento igual a cero. Igual que en el párrafo siguiente a (3.64), visualice A' como la suma A + CR de la forma
I
3.9
I Programas computacionales para la elirninaci6n de Gauss
147
donde B es la matriz25 x 25 que parece una versión más pequeñade A', donO - . . OITyE=[O O * - . O -13'. d e F y E s o n 2 5 xl c o n F = [ - 1 a) Utilice el MATLAB para encontrar la inversa de A' directamente -utilizando el comandoflops del MATLAB inmediatamente antes y después del cálculo- y encuentre el número de operaciones en punto flotante requeridas. b) Utilice el MATLAB para encontrar la inversa de A' pormedio del teorema 3.63 a) -calcule la inversa de A formando la matriz separada evidente usando la inversa B-l- y compare el número de operaciones en punto flotante requeridas por los dos métodos.
D 15. Considere el problema 15 de la sección 3.7, donde se consideróla eliminación de Gauss con y sin intercambios para matrices tridiagonales y para matrices de banda. a) Muestre que el trabajo para encontrar la descomposición LU de una matriz tridiagonalp X p sin intercambios es igual a (2p - 2) multiplicacionesldivisiones y (p - 1) sumas/restas. se requiere b) Demuestre que si se permiten los intercambios, el trabajo que es alo mucho (4p - 6) multiplicaciones/divisiones y (r, - 1) sumas/restas . c) Generalice a) y b) para matrices generales de banda. 3.9
PROGRAMASCOMPUTACIONALES PARA LA ELlMlNAClON DE GAUSS
En las aplicaciones prácticas, la resolución de sistemas de ecuaciones lineales y el cálculo de inversas sellevan a cabo casi siempre mediante el uso de computadoras -supercomputadoras, macrocornputadoras estándar o microcomputadoras. A través delos años los expertos han desarrollado programas computacionales de propósito general excelentes para la resolución eficiente y precisa de sistemas de ecuaciones y para el cálculo de inversas.En la sección 3.6 se dio una ligera indicación sobre a ls sutilezas involucradas en esta tarea. Ya que los resultados de dichos esfuerzos pueden encontrarse ya sea gratis o a bajo costo, no hay razón para que los inexpertos tengan que crear sus propios programas para estos problemas. Y existen buenas razones para no crear su propio pro-
148
3
I
Solucibn deecuaciones y cblculodeinversas:rnbtodos grama - e s muy probable que proporcione respuestas inexactas(y costosas) sin ningún aviso de quelas respuestas son poco precisas. Aunque pueda encontrar ilustrativo el escribir un programa sencillo para implementar la eliminación de Gauss con o sin intercambios como una herramienta pedagógica para ayudarlo en la comprensión de lo que el proceso hace exactamente, no utilice tal programa en problemas reales cuyas respuestas le sean importantes.
Qué exigir del software
Lo mínimo que sepuede exigir es que el software sea eficiente, exacto, sencillo y fácil de usar, además de informativo con respecto a la confianza con que los resultados puedan aceptarse en cadacaso específico. Característicasadicionales podrian incluir la capacidad de utilizar métodos especiales para problemas especiales (tales como matrices simétricas, matrices cuyos elementos diferentes de cero están cerca de la diagonal principal,y así sucesivamente), la capacidad de evaluar determinantes (ver sección 4 . 9 , y así sucesivamente. No todo el software para las ecuaciones e inversas cumple con este criterio,pero la mayoría lo hace; vea la siguiente subsección para sugerencias específicas. Lo que se quiere decir con eficiencia y precisión puede parecer claro, aunque dehecho aquí existen algunos puntos oscuros; sin embargo, estostemas están más allá del alcance de este libro. Los detalles pueden encontrarse en Golub y Van Loan (46). Un software que esfácil y sencillo de usar debe permitir que las matrices de datos puedan introducirse en algún estilo natural y directo, y no debe pedirle al usuario que proporcione mucha información adicional. Un aspecto especialmente importante es el de proporcionar información sobre la confiabilidad de los resultados. Muchos buenosprogramas en esta área dan un indiciode los llamados números condicionalesc(A) de la matriz A que es la matriz de coeficientes de las ecuaciones e inversas que se están buscando; vea el teorema 6.29. Este número c(A) mide la cantidad por la cual las inexactitudes en los datos de los problemas se magnifican en larespuesta; si los datos contiels nen errores de tamaño relativo, por ejemplo, lop3,entonces puede ser quea respuestas tenganerrores de tamañorelativo tan grande como c(A) X Estos errores no son “culpa” del programa, más bien son inherentes a las respuestas debido a las inexactitudes de los datos. Ya que una realización cuidadosa de la eliminación de Gausspermite estimar este número condicional, el proporcionar tal estimador es una característica razonable a exigir. Qué software obtener
Un software de altacalidad que cumpla con el criterio general anterior, ciertamente puede encontrarse comercialmente; el sistema MATLAB de The Math Works es un ejemplo evidente pero se dispone de sistemas excelentes donde quiera como en las International Mathematical and Statistical Libraries{IMSL
3.9
I Programas computacionales parala eliminacidn de Gauss
149
-vea (57)) (Bibliotecas Internacionales de Matemáticas y EstadísticaBIME) y en la Numerical Algorithms Group {NAG-ver (59)}, (Grupo de Algoritmos Numéricos GAN).Para macrocomputadoras, se dispone de subrutinas actualizadas sin costo en el sistema LINPACK. El LINPACK se desarrolló como un esfuerzo cooperativo entre muchos analistas numéricos en muchas instituciones; la mayoría del trabajo se concentró en el Laboratorio Nacional de Argonne (Argonne National Laboratory), y el apoyo financiero lo proporcionó la Fundación Nacional de Ciencias (National Science Foundation). El resultado fue una excelente colección de programas portátiles FORTRAN de los que se puede disponer gratuitamente en el Laboratorio Nacional de Argonne; los detalles de los programas y de su adquisición están contenidos en elManual del Usuario LINPACK (40) (LZNPACK User's Guide). El LINPACK contiene programas para la mayoría de los cómputos matriciales relacionados con las ecuaciones,incluyendo, por supuesto, la solución de sistemas de ecuaciones y la inversión de matrices. Actualmente existen unas cuantas docenasde programas en LINPACK para la solución de sistemas o para encontrar inversas; vadan por las estructuras y así sucesivamente),el especiales supuestas para la matriz (general, simétrica, tipo de los números usados como elementos delas matrices (real, complejo, etc), s l matrices se almacenan en la computadora,y el modoen quelos elementos dea la precisión deseada. Las rutinasson de dos tipos básicos: aquéllas que calculan las descomposiciones LU, y aquéllas que utilizan las descomposiciones LU (para resolver sistemas, encontrar inversas, evaluar determinantes, y así sucesivamente). La metodología básica es la eliminación de Gauss y la sustitución en reversa, semejante en mucho a la que se ha descrito aquí, pero unavariante es que L es unitaria triangular inferior, mientras que U tiene elementos generales en la diagonal principal -es decir, la descomposición LOUo(3.49) descrita aquí. Las rutinas para encontrar descomposiciones LU estiman el número condicional e informan de estaestimación como un parámetro decalidad accesible al usuario; esto permite que el usuario determine la precisión de cualquier resultado a generarse. Cualquiera que necesite solucionar sistemas de ecuaciones "o realizar otros cómputosmatriciales- en una macrocomputadora debería considerar adquirir el sistema LINPACK.
PROBLEMAS 3.9
1. Determine si la colección de subrutinas LINPACK estádisponible para su uso.
2. Determine de quéprogramas se dispone en su localidad, para la solución dep ecuaciones lineales con p inccignitas y de qué posibilidades especiales se dispone (tales como elementos complejos, estructuras especiales para la matriz de coeficientes, etc.).
150
3
/
Soluci6n de ecuaciones y cAlculo de inversas: metodos
3. Determine de quéprogramas se dispone en su localidad, para invertir matri-
ces, p X p y de qué posibilidades especiales se dispone (tales como elementos complejos, estructuras especiales para la matriz, etc.). 4. Determine si el software disponible en su localidad para sistemas lineales e inversas, provee una estimación del número condicional para el problema. 3.10
PROBLEMAS VARIOS PROBLEMAS 3.10
1. Suponga que A es p X p, B es p x q , y AB singular o bien B = O.
D
= O.
Demuestre que o bien A es
2. La matriz mostrada abajo es la matriz aumentada para un sistema de tres
ecuaciones con tres incógnitas. Demuestre que: a) Si k = O , entonces el sistema tiene un número infinito de soluciones. b) Para otro valor específico de k , que debe determinar,el sistema no tiene soluciones. c) Para cualquier otro valor de k , el sistema tiene una solución única
3. a) SupongaqueAespx q,Besqxq,yAB=O.Demuestreque,yaseaBes
singular o A = O. b) Suponga que A y B son p X p, y AB = O. Utilice a) y el problema I para demostrar que ya sea A = O o B = O o bien, que A y B son ambas singulares. 4. Encuentre la descomposición LU de la matriz A que se muestra abajo, no mediante eliminación de Gauss, sino escribiendo A = LU con L y U como se muestra abajo y después resolviendo para los elementos en L y U.
D 5. Generalice el problema 4 como sigue. Suponga que A es p x p y que tiene una descomposición L U , A = LU para L triangular inferior con elementos en la diagonal principaldiferentes de cero y U unitaria triangular superior. Escriba la forma general para L y U con elementos lij y ui, como en el problema 4. Se conoce el elemento (1, 1) de U. Demuestre entonces que esto le permite encontrar la primera columna de L, la cual permite encontrar el primer renglón de U, el cual permite encontrar la segunda columna de L, y así sucesivamente, hasta quese determinan L y U. Escriba las ecuaciones para calcular L y U de este modo.
3.10
I Problemas varios
151
6. La realización de la eliminación de Gauss utilizada en este libro se conoce
como variante de Crout. La variante de Doolittle es semejante, con la excepción de queno divide.el renglón k-ésimo entre el pivote k-ésimo antes de la eliminación; esto produce la matriz triangular unitaria inferior, Loy una matriz triangular superior(no uniraria) U. con A = LOUo.Utilice la variante A del problema de Doolittle para realizar eliminación la de Gauss en la matriz 4 y encuentre esta descomposición A = LOUo.
D 7. Encuentre la variante de Doolittle-ver problema6 de ladescomposición LU directamente como en el problema 4 para la matriz A del problema 4, escribiendo A = LOUopara Lo y U. como se muestran abajo y resolviendo para los elementos en Lo y Uo.
8. Generalice el método del problema 7 de la misma manera en que en el problema 5 se pidió generalizar el método del problema 4. 9. Demuestre, parala matriz A del problema 4, que A = L,DoU1con L,, U1, y Do
como se indicaabajo. Observe que L, es unitaria triangularinferior y es igual Lo encontrada enlos problemas 6 y 7, mientras que U, es unitaria a la matriz triangular superiory es igual ala matrizU encontradaen los problemas 4 y 5. L,
=
[: y],
Do =
['o
'1,
-5
ul
=[: :]-
D 10. a) Utilice el teorema clave3.48 para demostrar que,si A es una matrizp X p para la cual puede se completar laeliminación de Gausssin intercambios, entonces existen una matriz unitaria triangular inferior L1, una matriz diagonal no singular Do, y una matriz unitaria triangular superiorU, para las cuales A = LIDoUl. b) Enuncie y demuestre la generalización análoga PA = LIDoUldel teorema clave 3.53. (Nota: Esta es la descomposición LDU general de A. Tomando L = LIDo y U = U, da la variante de Crout que se ha estado Lo = L, y U. = DoUl da la variante Doolittle de de utilizando, mientras que los problemas 6-8.) 11. Encuentre la descomposición LOUo,variante de Doolittle, como en el problema 10, de [ 22 - -11
A=
-4 L-2
43
2 -7 1 -1
q
-7 -11
,
152
3
/
Solucibn de ecuaciones y cAlculo de inversas: rnbtodos
12. Demuestre que, si A es no singular, entonces su descomposición LU variante de Doolittle -ver problema 10- es única: Si
LOUo= L O U o , entonces Lo = Lo y U. = U o . D13. Demuestre que, si A es no singular, entonces su descomposición LDU-ver problema 10- A = LIDoU, es única. 14. Para demostrar que, para matrices singulares, ladescomposición LOUovariante de Doolittle -ver el problema 10- no es necesariamente única, verifi-
que que ladescomposición mostrada abajo es verdadera para todo número 1.
Dls.
Suponga que A es simétrica y no singular y que tiene la descomposición LDU, A = LID,Ul del problema 10. Demuestre que U, = LT.
4 Solución de ecuaciones y cálculo de inversas: teoría Este capítulo es el corazdn tedrico del libro; en la mayoria de los capítulos subsecuentes se usan los conceptos forma reducida de Gauss, rango, y la forma de rengldn-escaldn; y, por lo tanto, deben entenderseperfectamente. Como podría esperarse y en vista su de importancia tedrica, este capítulo contiene variosteoremas clave: 4.5,4. I I , 4.13,4.16,4.18 y su corolario, y 4.23. Ademds de estas herramientas tedricas fundamentales, se introduce al concepto de determinante y su uso como un artificio de representacidn.
4. I
INTRODUCCION
En el capítulo 3 se presentaron métodos para la solución de sistemasde ecuaciones lineales y para encontrar inversas de matrices. Sin embargo, se ignoró la teoría fundamental que apoya esos métodos. Por ejemplo, en el capítulo 3 simplemente se supuso que la eliminación de Gauss para ecuaciones no cambiaba el conjuntode soluciones de las ecuaciones -esto es,que las soluciones del sistema de ecuacionesoriginal eran exactamentelas mismas que las del sistema transformado. Tal suposición no es necesariamente verdadera para todas las operaciones posibles en ecuaciones; por ejemplo, elevar al cuadrado ambos miembros de laecuación 2x = 4-cuya única solución es x = 2- produce 4 2 = 16, que tiene la solución x = -2 además dex = 2 de la ecuación original. Así que se requiere de cierta teoríapara respaldar la eliminación de Gauss y demostrar que no altera el conjunto de soluciones. En el capítulo 3 también se ignoró la teoría que ayuda a enrender-entender, por ejemplo, la naturaleza del conjunto de soluciones a un sistema de ecuacio153
154
4
/
Soluci6n de ecuaciones y calculo de inversas:teoría
nes, o entender las circunstancias en las cuales las matrices tienen inversas derechas o izquierdas. Este capítulo proporciona la teoría faltante. 4.2
FORMA REDUCIDA DE GAUSS Y RANGO
Toda lametodologíadel capítulo 3 se basó enlaeliminación de Gauss: la aplicación sistemática de operaciones elementales de renglón para reducir una matriz a una forma simple. Por ejemplo, al resolver el sistema de ecuaciones Ax = b , se aplicó la eliminación de Gauss a l a matriz aumentada [A b] para producir una matriz aumentada reducida de lacual era inmediato encontrar las soluciones al sistema de ecuaciones. Encapítulos posteriores se encontrará queuna forma reducida como la que se produce por la eliminaciónde Gauss es una herramienta poderosa para resolver problemas diferentes a la solución de ecuaciones;así que ahora se desarrolla la teoría para apoyar esta herramienta. Forma reducida de Gauss
Primero, se reescribe la descripción (3.20) de la eliminación de Gauss para aplicarla a una matriz arbitraria A, p x q sin necesidad de considerar algún sistema de ecuaciones o matriz aumentada. Sedice que un renglóno columna de una matriz es diferente de cerosi al menos un elemento en eserenglón o columna es diferente de cero; en casocontrario es unacolumna cero o un renglón cero, y todos sus elementos son cero. (4.1)
Eliminación de Gauss. A es una matriz dada p X q . 0. Si A = O no es necesaria la eliminación -pare. En caso contrario, haga r = 1 (para “renglón = 1”) y proceda con los pasos del 1 al 3. l . Encuentre la primera columna de A (llámese columna c,) que tenga un elemento diferente de ceroen un renglón icon i 1 r; si es necesario haga el r-ésimo elemento de esta columna diferente de cero e intercambie dicho renglón con el renglón r. Divida este nuevo renglón r entre este elemento diferente de ceropara hacer elnuevo r-ésimo elemento de esta columna igual a l . 2. Sume múltiplos adecuados a este nuevo renglón r a todos los renglones inferiores de modo que los elementos (r + 1)-Csimo, (r + 2)-do, . . . , p-ésimo de estacolumna se hagan ceros. Ahorala columna c , tiene un 1 como su elemento r-ésimo y un cero su elemento j-ésimo para j > r; además, elprimer elemento diferente de cero enel renglónr ocurre enla columna c, y es igual a l . 3. Si r = p (se hace usando el último renglónde lamatriz) o, si los renglones (r + l), (r + 2), . . . ,p son todos renglones cero, no se necesita más eliminación -pare. En caso contrario, incremente r en 1 y vuelva al comienzo del paso 1 .
4.2
I Forma reducida de Gauss y rango
155
Al aplicar la eliminación de Gauss como en (4.1), se produce una forma reducida triangular superior A’ de la matriz original A ; a dicha forma reducida se le da un nombre especial. (4.2)
Definición. Se dice que una matriz B, p x q es una forma reducida de Gauss cuando existeun entero k con O 5 k Ip para el cual es válido lo siguiente: a) Los primeros k renglones de B son diferentesde cero,mientras quelos p - k renglones restantes son cero. b) El primer elemento diferente de cero en cada renglón diferente de cero es igual a 1, y por lo tanto la columna en la que esto ocurre es una primera columna (ver la definición 3.24). c) Para lask primeras columnas, laprimera para cadarenglón está más a la derecha que la primera columna del renglón superior. d) El elemento i-ésimo en lai-ésima primera columna es igual a 1, mientras que el elemento j-ésimo es igual a cero paraj > i.
Usando este lenguaje, se tiene que el resultado de aplicar la eliminación de Gauss como en (4.1) es paraproducir una matriz en la forma reducida de Gauss. Algunos autores se refieren a la forma reducida de Gauss como “forma de renglón-escalón”, un término que aquí se reserva para una forma todavía más reducida que se discutirá después enesta sección. (4.3)
Ejemplo. Lasprimerastresmatricesmostradasabajoestán reducida de Gauss; las siguientes tres no lo están
1 -2 O
en laforma
3 0
0
son reducidas de Gauss;
[i no son reducidas de Gauss.
(4.4)
Ejemplo. Considere la matriz A, 2 X 2 que se muestra abajo, a la cual la eliminación de Gauss reduce fácilmente la matriz a A’ mostrada enla forma reducida de Gauss:
A=
[: ;]
sereducepor
(4.1) a A’ =
[:,
:l.
156
4
I Soluci6n de ecuaciones y calculo de inversas: teoría
Si en su lugar, se intercambian primero los dos renglones de A y luego se realiza la eliminación de Gauss, se obtiene la matriz A":
Observe que la matriz A" también estú en la forma reducida de Gauss. Tanto A' como A" están en la forma reducida de Gauss y se obtuvieron de A realizando operaciones elementales de renglón; por lo tanto, puede haber más de una forma reducida de Gauss producida a partir de una matriz dada. Del ejemplo 4.4 se puede observar que no existe una forma reducida de Gauss únicaparacadamatrizA; sin embargo, ciertos aspectos importantes serán los mismos en todas las formas reducidas de Gauss que se producen a partirde una matriz A dada.
DEMOSTRACION. Suponga que A es p X q y que se obtienen dos formas reducidas de Gauss A' y A" de A mediante secuencias de operaciones en elementales derenglón. Sea k' el número derenglones diferentes de cero A', y enumérense las primeras columnas de A' como c;, c,; . . . ,c;,. De manera similar, seak" el número de renglones diferentes de ceroen A", y enumérense lasprimeras columnas de A" como cy, c;l, . . . , c&. Lo que se desea demostrar es quek' = k" y que c; = c'.' ara 1 5 j S k' (= k"). Ya que J? se utilizaron operaciones elementalesde renglon para producir A' y A", mediante el teorema clave 3.34 sobre operaciones de renglón, se sabe que existen matricesno singulares F' y F"con F A = A' y F"A = A". Por lo tanto,
Esta relación es la clave de la demostración. Si A' = O, entonces A" = HA' = HO = O ; también, si A" = O , entonces A' = O. En otras palabras, el k"es O . En seguida, considere cuando k' teorema es verdadero si, ya oseak' y k" son positivos. Ya que la columna c1es laprimera columna deA', las columnas a; de A' para 1 I j < c; deben ser iguales a O; mediante la regla para lamultiplicación separada, lacolumnaj-ésimaayde AlresH por aquélla
4.2
I Forma reducida de Gauss y rango
157
para A’: ay= Ha;. Por lotanto, ya que HO = O, se encuentra quea;’= O para 1 S j Ic;; pero esto quiere decir la que primera columna deA”debe ocurrir en o a la derecha de la columna ci-es decir, c;’ 2 c;. Aplicando el mismo argumento a la relación A’ = H”A” en lugar de a A” = H A ’ , también se obtiene c; 2 cy. Juntas estas dos desigualdades dan c; = cy. Ahora la columna c; es laprimera columna de A’ y, por la definición 4.2 d), viene del primer renglónde A ;de allí que, elprimer elemento de esa columna ysea 1 todos los otros sean O -es decir, esta columna es tan sólo e,, la primera matriz columna unitaria de orden p . El mismo argumento se aplica a la primera columna deA“. La regla para lamultiplicación separada nos dice que las columnas de A‘ y A” se relacionan mediante a’’ = Ha’, así que se obtiene e, = He,. En seguida se utiliza inducción. De k’ y k” uno es el menor; por conveniencia sea k’. Como una hipótesis inductiva suponga que se ha demostrado que c: = c:’ para 1 5 i In, y i- 1
He, = e,
+ 1 aijej
para algunos números aii
j= 1
para 1 Ii In, donde n < k’ 5 k”. Observe que esto se ha demostrado precisamente para n = 1. En + 1, lo que demostrará que es seguida se demuestra que es verdadero paran cierto para toda n hasta k’. Mediante la definición 4.2 sobre las formas reducidas de Gauss, las columnas de A’ enumeradas hasta(c:+ - 1)sólo tienen elementos cero en los renglones n + 1, n + 2, . . . ,p ; es decir cada columna tiene elementos diferentes de cerosólo en los renglones n y por arriba, así que cada una de esas columnas puede escribirse como una sumatoria de múltiplos de e,, e,, . . . , e,. Ya que cada columnaa“ de A” debe ser igual a Ha’ para la columna correspondientea’ de A‘, se observa que cada columna de A” enumerada hasta (ci+ - 1) es igual a H por una sumatoria de múltiplos de las ei para 1 5 i S n. Pero la hipótesis inductiva nos dice que cada Hei por sí misma es una combinación de múltiplos de las ej, así que seconcluye que cada columna de A” enumerada hasta(c:+ - 1) una de es igual ala sumatoria demúltiplos de el para 1 Ii In ;es decir, cada las columnas de A” tiene ceros en el renglón (n + 1) y por debajo, y por lo tanto la primera columna (n + 1)-ésima de A“ no puede ser una de estas columnas-así que c‘,‘+ 2 ci+ Usando H” en lugar de H e invirtiendo los papeles de A’ y A“, se obtiene por el mismo argumento que cb+12c y + ] ,y por lo tanto c i + l = c:+ Si sedenotanestas (n + 1)-ésimas primeras igual a e,,, columnas de A‘ y A“ mediante a’ y a”, se tiene que cada una es más unasumatoria de múltiplos de ei para 1Ii In, así como a ” = Ha‘; esto muestra que la hipótesis inductiva ennunciada secumple para n + l . Ahora se sabe que hipótesis la inductiva se cumple para 1 In Ik’ ( 5 k”). Los últimos p - k‘ renglones de A‘ son renglones cero, lo cual quiere
158
4
/
Solucidn de ecuaciones y cAlculo de inversas:teoría
decir que todas las columnas de A’ a la derecha de la columna c;. son sumatorias de múltiplos de las ej para 1 5. i S k ’ ; el mismo argumento anterior basado en a’’ = Ha’ y la hipótesis inductiva para n = k’ muestran entonces que lo mismo debe ser cierto para todas las columnas de A’ a la derecha de la columna c;. -lo cual significa que no puede haber más primeras columnas para A” más allá de c;.. Es decir,k” = k’ . Entonces, el teoremaquedademostrado. m Ahora podrá resolver los problemas del 1 al 6. Rango
De acuerdoal teorema clave 4.5 sobre la forma reducida de Gauss, el número de renglones diferentes de cero es el mismoen cada formareducida de Gauss de una matriz dada. Este número juega un papel fundamental en gran parte del trabajo subsecuente y, por lo tanto, se le daun nombre especial. (4.6)
Definicidn. El número de renglones diferentes de cero en cualquier forma reducida de Gauss A’ de una matriz A obtenida mediante operaciones elementales de renglón en A se llama el rango de A.
(4.7)
Ejemplo. Los rangos de las tres primeras matrices del ejemplo 4.3 pueden verse directamente, ya que las matrices se encuentran en la formareducida de Gauss: son O , 2 y 3 respectivamente. Los rangos de las tres matrices siguientes pueden encontrarse realizando la eliminación de Gauss para obtener las formas reducidas de Gauss, obteniendo rangos de 2, 2 y 3 respectivamente. El rango de la matriz A del ejemplo 4.4 es 2, como se puede observar de la forma reducida de Gaussya sean A’ o A“. Observe que dichas formas A’ y A“ ilustran el teorema clave 4.5.
Algunos autores se refieren al rango como “rango de renglón”, ya que su definición depende del uso de las operaciones de renglón y cuentan los renglones diferentes de cero.Un concepto similar de “rango de columna” puede introducirse considerando operaciones de columna y contando lascolumnas diferentes de cero en una forma reducida. Resulta que el rango de renglón y el rango de columna siempre son iguales, así que se prefiere usar el término sin adornos de “rango”. Para ciertos propósitos teóricos, en ocasiones es útil reducir una matriz mediante operaciones elementales de renglón, más allá de la forma reducida de Gauss que se obtiene, por ejemplo, mediante la eliminación de Gauss. Una manera de llegar a esta forma es a través de laeliminación de Gauss-Jordan -vea el ejemplo 3.21. El siguiente método -vea el problema 16- es mucho más eficiente; vea también el problema 14 en la sección 3.2.
4.2
(4.8)
I Forma reducida de Gauss y rango
159
La reduccidn de rengl6n-escal6n. Sea A una matriz p X q dada. l . Utilice la eliminación de Gauss (4.1) o cualquier otro método para producir una forma reducid?. de Gauss de A. 2. Utilice el elemento1 de más abajo en cada primeracolumna de la forma reducida de Gauss -comenzando con la primera columna más a la derecha y trabajando hacia la izquierda- con el finde eliminar todos los elementos diferentes de ceroesaencolumna estrictamentepor arriba de ese elemento 1 .
Así como laeliminación de Gauss, esteproceso produce una forma especial con un nombre especial. (4.9)
Definicidn. Se dice que una matriz B,p X q está en la forma de renglónescalón cuando: a) Está en la forma reducida de Gauss(digamos, conk renglones diferentes de cero). b) La i-ésima primera columna es igual a eí, la i-ésima matriz columna unitaria de orden p , para 1 S i Ik.
Observe que algunos autores se refieren a la forma de renglón-escalón como “forma reducida de renglón-escalón”. (4.10)
Ejemplo. Considere la matriz C mostrada abajo;aquí se muestra unaforma reducida de Gauss,G , producida mediante eliminación de Gauss,como se desarrolló de (3.8) a (3.13) en la sección 3.2. -2
2 6
-4 3
-6 -15
1 - 1
-4 -3
2
3
2
Las primeras columnas son las columnas 1 , 2 , 3 y 4. Se usa el cuarto renglón para eliminar los elementos diferentes de ceroen la columna 4 arriba del último elemento, después se hace lo mismo con el tercer renglón y la columna 3 , y por último con el segundo renglón y la columna 2, para obtener 1
o
o
o 3 5
1
O
O 2 8
Esta matriz R está en la forma de renglón-escalón, y es por lo tanto una forma derenglón-escalón de C. A diferencia de la situación de las formas
160
4
/
Solucidn de ecuaciones y cAlculo de inversas: teoría
reducidas de Gauss, es dehecho legítimo referirse a la forma reducida de renglón-escalón de una matriz, como lo muestra el siguiente teorema.
DEMOSTRACION. Sean A' y A" dos formas de renglón-escalón de la misma matriz A. Ya que A' y A" son también formas reducidas de Gauss, se sabe del teorema clave 4.5 sobre las formas reducidas de Gauss que tienen el mismo número k de renglones diferentes de ceroy los mismos números de la primera columna columna desus k primeras columnas. También, i-ésima de cada matriz es tan sólo ei. Usando la notación de la demostración del teorema clave4.5, tenemos por lo tanto, Hei = ei para 1 Ii Ik . Cualquier columna a' de A' es tan sólo una sumatoria demúltiplos de estasprimeras k matrices columna unitarias ei:
a' =
ajei.
La columna a'' de A" correspondiente es tan sólo Ha', así que se tiene
y por lo tanto a" = a' y las columnas correspondientes de A' y A" son iguales. Esto es, A' = A". m PROBLEMAS 4.2 1. Para cada una de las segundas tres matrices del ejemplo 4.3, enuncie cómo se viola en és te la definición de laforma reducida de Gauss y después redúzcalo a su forma reducida de Gauss. 2. Enuncie cuáles de las siguientes matrices están en la forma reducida de
Gauss, y para aquéllas que no lo estén, explique el por qué. a ) 2
[x
c)
1
8
3
-i1
b) O
1
[8 8 O
0
iJ
0
4.2
I Forma reducida de Gauss y rango
D 3. Encuentre una forma reducida de Gauss para
161
cada'una de las siguientes
matrices. a)
[: 2
1 -8 -4 -3 -1 -7
-14
-10
4. Utilice el método dela sección 3.8 parademostrar queal utilizar la reducción de Gauss como en (4.1) en una matriz p X q , se requiere a lo mucho de: a) NpQsumas/restas y Npq+ q 2 / 2 - q / 2 multiplicaciones/divisiones sip 1 q , donde
N,,
=
q2(3p - 4) - q(3P - 1) 6 ' 6
b) NQpsumas/restas y NQp+ p(2q - p - 1)/2 multiplicaciones/divisiones si P
D
5. 6.
7.
D 8. 9.
D 10. 11.
< 4.
Calcule estas medidas de trabajo para: c ) p = 50, q = 100, d) p = 1 0 0 , q = 50 Si A es p X q , demuestre que [I, A] está en la forma reducida de Gauss. Suponga que A es p X p y no singular. Utilice el teorema clave 3.34 sobre operaciones derenglón para mostrar que cualquier forma reducida de Gauss G de A es unitaria triangular superior. Encuentre el rango de cada una de las segundas tres matrices del ejemplo 4.3. Suponga que A es p X q con rango p y que B es p X r ; demuestre que [A B] tiene rango p . Encuentre el rango para cada una de las matrices del problema 3 . Suponga que la matrizA, p X q , tiene n renglones diferentes de ceroy p - n renglones cero. Si k es el rango de A. demuestre que k 5 n . Suponga que A e s p X p y que su rangok satisface k < p . Demuestre queA es singular.
12. Encuentre la forma de renglón-escalón para cada matriz del ejemplo 4.3. 13. Si A es p
X
q , demuestre que [I, A] está en la forma de renglón-escalón.
162
4
/
Soluci6n de ecuaciones y caiculo de inversas: teoría
D 14. Se obtuvieron en el ejemplo 4.4, dos formasreducidas de Gauss diferentes, A’ y A” para una matriz. Obtenga la formade renglón-escalón de A’ y de A” y verifique que resulta la misma forma. 15. Suponga que A esp X q y que se reduce a la forma de renglón-escalón usando (4.8). El trabajo involucrado al realizar esto consisteen, primero, el trabajo medido en el problema 4 para reducir A a la forma reducida de Gauss G , y después en el trabajo adicional para reducirG a la forma derenglón-escalón. Suponga que el rango de A es k . a) Muestre que este trabajo adicional parareducir G requiere de, alo mucho Ckq
=
k(k - 1)(q- k) 2
sumas/restas y Ckqmultiplicaciones/divisiones. b) Se puede usar elcálculo diferencial para mostrarque c k q es mayor para k alrededor de2 q / 3 ; demuestre que para tal k el trabajo adicional Ckaes de aproximadamente
c, = q2(2q27- 3) . c) Encuentre el trabajo adicional ckq para una matriz 50 x 100 de rango 50. d) Encuentre lacantidad de trabajo adicional más grande C, para una matriz 90 x 100. 16. Suponga queA es p x p y que lamatriz aumentada [A b], p X (p + 1) tiene rango p . a) Utilice los resultados de los problemas 4 y 15 para encontrar el trabajo necesario para reducir [A b] a la forma de renglón-escalón mediante
ciones/divisiones necesarias para producirla forma de renglón-escalón mediante la eliminación de Gauss-Jordan. c) Evalúe cada una de las medidas de trabajo de a) y b) cuando p = 50. 17. Demuestre que la forma de renglón-escalón de unamatriz no singular A, p X p , es I,. (Vea el problema 6.) 4.3
POSlSlLlDAD DE SOLUCION Y CONJUNTOS DE SOLUCIONES PARA SISTEMAS DE ECUACIONES
En el capítulo 2, se vio que, con frecuencia, es importante en problemas de aplicación conocer si existen soluciones a ciertos sistemas de ecuaciones lineales, y si es así,cdmo encontrarlas. Por ejemplo, en el problema de equilibrio del mercado se necesitaba resolver Ax = x para unax diferente de cero, mientras que en el problema de mínimos cuadrados se necesitaba resolver ATAx = ATy.
4.3
I
Posibilidad de soluci6n y conjuntos de soluciones para sistemas de ecuaciones
163
En el capítulo 3, se manejó el cdrno: se introdujo la eliminación de Gauss como un método para la manipulación de sistemas de ecuaciones (y matrices aumentadas) amodo de producir un sistema de ecuaciones con solución directa. Sin embargo, como se observó en la sección 4.1 aun esta metodología arroja un imperativo teórico: Es necesario mostrar que esta manipulación no cambia el conjunto de soluciones. Se resuelve ahora este punto y después se utiliza el concepto de rango para caracterizar la posibilidad de solución de sistemas de ecuaciones; esto permite entender-vea problemas 16 y 19-por qué resultaron así los ejemplos del capítulo 2. Posibilidad de solucih de ecuaciones
Se utilizará una forma reducida de Gauss de la matriz aumentada paraanalizar la posibilidad de solución del sistema de ecuaciones Ax = b, así que se debe demostrar que la eliminación de Gauss no cambia el conjunto de soluciones. (4.12)
Teorema (eliminación deGauss y conjuntos de soluciones). Suponga que el sistema de ecuacionesAx = b -o, equivalentemente, la matriz aumentada[A b]- se transforma mediante una secuencia de operaciones elementales de renglón al sistema A’x = b’ -o equivalentemente, a la matriz aumentada [A’ b’]. Entonces los conjuntos de soluciones son idénticos: x resuelve Ax = b si y sólo si x resuelve A’x = b’. DEMOSTRACION. Mediante el teorema clave 3.34 sobre las operaciones de renglón existe una matriz no singular F tal que
[A’ b] = F[A b]
= [FA
Fb],
donde la hltima igualdad se sigue de la regla para la multiplicación separada. Esto significa que A’ = FA y b’ = Fib. Ahora, suponga primero que x resuelve la ecuación Ax = b. Premultiplicando esta ecuación por F se tiene FAx = Fb, es decir, A‘x = b’ y por lo tanto x resuelve igualmente las ecuaciones modificadas. De modorecíproco, si x satisface A’x = b’, entonx resuelve ces, la premultiplicación por F” muestra de manera similar, que Ax = b. Por lo tanto, los dos conjuntos de soluciones son idénticos. m En el teorema 4.12 se establece rigurosamente que se puede estudiar el conjunto de todas lassoluciones de Ax = b, estudiando el conjunto soluciones de del conjunto mucho más simple A’x = b’ que se obtiene al reducir [A b] a una [A’ b’]. Existen tresposibles casos, como se demostró forma reducida de Gauss continuamente mediante ejemplos en el capítulo 3: 1. No existe solución. 2. Existe exactamente una solución. 3. Existen infinitamente muchas soluciones.
164
4
Soluc16nde ecuaciones y c.4lculo de inversas: teoría
/
En la-sección 3.2 (3.25)se vio previamente cómo pueden ocurrir estosdiferentes casos. Para decidir qué caso ocurre en una situación en particular, se escribe la matriz aumentada [A b], se reduce mediante eliminación de Gauss a la forma reducida de Gauss [A‘ b’], y después se examina el aspecto más sencillo de la posibilidad de solución de A’x = b’. Las conclusiones que resultan pueden enunciarse de manera compacta en términos de rango. (4.13)
DEMOSTRACION. Se sabe del teorema 4.12 sobre la eliminación de Gauss y conjuntos de soluciones que el conjunto de soluciones de Ax = b es idéntico aeldeA’x= b’,donde[A’b’]esunaformareducidadeGaussde[Ab].Dela definición 4.2sobre lasformas reducidas de Gaussresulta claro que, si [A’ b’]está enla forma reducidade Gauss entonces también A‘lo está. Sean r el rango de A y S el rangode [A b]; ya queres igual alnúmero de renglones no cero enA’mientras que s es igual al número de renglones nocero en[A’b’], se sigue que r Is. Observe quela matriz A’, p x q , tiene q columnas, y ya r 5 q . Entonces que res el número de primeras columnas de A’debe ser que existen exactamente tresposibilidades: i) r < S ; ii) r = s = q ; y por último iii) r=s q . b) A no tiene inversa derecha si k < p < q . c) A tiene infinidad de inversas derechas si k = p < q. d) ¿Cuándo tiene A exactamente una inversa derecha?
7. Suponiendo que A es p
a) b) c) d)
X q y que tiene rango k, demuestre que: A no tiene inversa izquierda si p < q . A no tiene inversa izquierda si k < q < p. A tiene infinidad de inversas izquierdas si k = q < p . ¿Cuándo tiene A exactamente una inversa izquierda?
D 8. Suponiendo que A es p
X q , que B es q X p y que q < p . a) Demuestre que AB es singular. b) Mediante un ejemplo demuestre que BA puede ser no singular.
9. Demuestre que elrango de AATes menor o igual al rango de A. (Sin embargo,
véase el problema 11, que es más difícil.) 10. Demuestre que el rangode A es igual al de AT,primero para una A reducida de Gauss y después, mediante los problemas 4 y 5, para una A general. D 11. Demuestre que el rango de AAT es igual al rango de A para una A real.
4.5
DETERMINANTES Y SUS PROPIEDADES
Muchos lectores habrán aprendido algunos años atrás cómo resolver sistemas de ecuaciones usando determinantes y se habrán preguntado por qué no se les ha
4.5
/
Determinantes y sus propiedades
175
mencionado, especialmente en el capítulo 3 . El hecho es que los determinantes no son útiles para el c6mputo práctico y eficiente de soluciones de sistemas de ecuaciones mayores que 3 x 3; lo son, sin embargo, si se les usa como artificios conceptuales o descriptivos para representar las soluciones y las inversas. Por esta razón, y no para fines computacionales, se les estudiará brevemente. Determinantes
Se definirá un número Único asociado como una matriz A p X p , llamado el determinante de A representado por det A o det(A). Eldeterminante para matrices p X p se definirá en términos de determinantes para matrices O, - 1) x (p l ) , y así sucesivamente hasta las matrices 1 x 1 [a]para las que se definirá defa] = a. Para lograr una mayor precisión, es necesaria cierta terminología. Definición. Sea A, p x p . a) El menor ( i tj)de A, representado por Mu, es el determinante de matriz la O, - 1) X O, - 1) formada al omitir el i-bimo renglón y la j-ésima columna de A. b) El cofactor (i, j) de A, representado por Ajj, es (-ly+jMu.
(4.26)
Nótese que los signos (- l)ifj de la definicióndel cofactor tienen una disposición en forma de tablero de ajedrez:
Ahora se podrá definir a los determinantes. (4.27)
Definición. a) El determinante de la matriz 1 x 1 [a] se define como det [a] = a. b) El determinante de la matriz A, p X p , se define como
1 (A)ljAlj. P
det A
=
j= 1
En palabras: el determinante de A es la suma de los productos de los elementos del primer renglón y de los cofactores del primer renglón. (4.28)
Ejemplo. Considérese el determinantede la matriz general 2 x2:
176
4
I Soluci6n de ecuaciones y c$lculo de inversas:teoría
Se tiene por la definición 4.27, que det A
= a,,A,,
+ al2Al2
= a11 det Ea2zl - a12 det [a211 = alla22 - a12421.
Por ejemplo,
(4.29)
Ejemplo. Considérese eldeterminante dela matriz general 3 x 3
AI aplicar la definición 4.27 se tiene que
det A
[:-;-:]
= a,,A,,
+ aI2Al2+ aI3Al3
Por ejemplo, 1
det
= 2((2)(3)- (-I)(= 2{5} -
+
1)) - 1{(1)(3)- ( - 1)(2)} 3{(1)(- 1) - (2)(2)}
115) + 31-5)
= - 10.
Si se examina cualquiera de los productos en la expresión del determinante de matrices 2 x 2 o 3 x 3 , se verá que cada productoincluye un término de cada uno de los renglones y un término de cada una de las columnas. E n general, resulta que eldet A es la suma de todos los productos posibles de p elementos de A, con los signos adecuados, y donde en cada producto hay exactamente un término de cadafila y exactamente uno de cadacolumna. De hecho,los determinantes pueden definirse de estemodo, pero no se proseguirá en esta dirección.
I
4.5
Determinantesy sus propiedades
177
Ahora pod& resolver los problemas del I al 5. ’ropiedades básicasde los determinantes
El primer renglón de A jugó un papel especial en la definición del det A: los elementos delprimer renglón se multiplican por sus cofactores, los productos se suman y el resultado es el det A. La primera propiedad importante es que el “primer renglón” puede sustituirse por “cualquier renglón o cualquier columna”. Así, además de laprimera representación del det A para una matriz A 3 x 3 , se tiene det A
+ azzA,, + a Z 3 A z 3
= a,,A,,
+ a21AZl + a 3 1 A 3 1 + a23A23 +
= allAll =
(4.30)
Teorema (desarrollo del det A por columna o renglón). El det A se puede evaluar desarrollándolo con respecto a cualquier renglón o a cualquier columna; esto es, el det A es igual a la suma de los productos de los elementos de cualquier renglón o de cualquier columna por sus cofactores: P
det A =
P
j= 1
DEMOSTRACION.
instructiva. (4.31)
m
(A)isAis
(A)rjArj =
para toda
r y s.
i= 1
Se omite la demostración por ser más complicada que
Corolario.
a) det A = det AT. b) Si cualquier renglón o columna de A es igual a O , entonces det A = O c) Para cualquier número c y para cualquier matriz A p
X
p,
det (cA) = cp det(A) d) Si A tiene dos renglones (columnas) iguales, entonces el det de A = O . e) Si A y B son iguales con excepción de los elementos de su k-ésimo renglón (columna), y C se define como aquella matriz idéntica a A y B con excepción de su k-ésimo renglón (columna) que es la suma de los k-ésimos renglones (columnas) de A y B , entonces, det C
=
det A
+ det B
I76
4
/
Soluci6n de ecuaciones y cAlculo de inversas: teoría DEMOSTRACION.
a) Desarrollar det A con respecto a su primera columna es lo mismo que desarrollar el det AT con respecto a su primer renglón. b) Desarrollar el det A con respecto a un renglón o columna cero, dacomo resultado el det A = O. c ) Esto es trivial parap = 1; cualquier p , se deducefácilmente por inducción sobre p desarrollando con respecto a cualquier renglón o columna de cA. d) La fórmula del ejemplo 4.28 demuestra que esto es verdad para las matrices 2 x 2. Se usará entonces inducción sobre p ; el desarrollo con respecto a cualquier renglón (columna) que no sean las dos citadas,da0 para el valor del det A, ya que cada cofactor es O por la hipótesis de inducción de que el resultado es cierto para p - 1. e ) Se llega fácilmente al resultado desarrollando los tres determinantes con respecto al k-ésimorenglón o columna. Se usarán los determinantes para describir soluciones de ecuaciones; hasta el momento se han descrito las soluciones por medio de operaciones de renglón, ahora es necesario examinar la relación entre las operaciones de renglón y los determinantes.
(4.32)
Teorema (determinantes y operaciones de renglón) a) Si A‘ se obtiene de A intercambiando dos renglones (o dos columnas) de A , entonces det(A’) = (- 1) det(A) b) Si A’ se obtiene de A reemplazando un renglón (columna) de A por el número c veces ese mismo renglón (columna), entonces, det(A’) = c det(A). c) Si A’ se obtiene de A reemplazando un renglón (columna) de A por ese renglón (columna) más algún múltiplo de un renglón (columna) diferente, entonces, det(A’) = det(A). DEMOSTKACION
a) Para precisar, supóngase que seintercambia el i-ésimo renglónricon el j-ésimo, rj de A para obtenerA‘. Se denominará{a; b} al determinante de la matriz obtenida de A mediante reemplazo del i-ésimo renglónde A por alguna matriz renglón a, y del j-ésimo renglón de A por alguna matriz renglón b; por lo tanto, el det(A) es precisamente {ri ; rj} mientras que det(A’)es{rj;ri).Porelcorolario4.31d),sesabeque{a;a}=Oparatoda a. Por el corolario 4.31 e) se sabe que
+ b;c} = ( a ; c } + {b;c} ( a ; b + c} = {a ; b} + {a ; c} para toda (a
Y que
a, b y c.
4.5
I
Determinantes y sus propiedades
179
Por lo tanto,
+ rj} = {ri ;ri + rj} + (rj ;ri + rj} + {Ti;rj} + {rj ; ri} + {rj ;rj}
O = {Ti + rj ; ri = {Ti ; Ti}
+
O det(A) = det(A) + det(A’).
=
+ det(A’) +
O
Lo cual dice que el det(A’) = -det(A) como se había afirmado. b) El resultado se obtiene fácilmente desarrollando con respecto al renglón (columna) de que se trate. c) Suponga que el i-ésimo renglónri se sustituye por ri + crj, en donde r1es el j-ésimo renglón de A y c es un número. Al utilizar la notación de la demostración de a) se tiene que
+
det(A’)= {ri crj ; rj} = (Ti ;rj} + {crj ;rj} = det(A) c{rj; rj} porelcorolario 4.31 d) = det(A) + c(0) = det(A) como se afirmó.
+
m
Las tres operaciones de renglón básicas cuyos efectos sobre los determinantes se describenen el teorema 4.32, son equivalentes ala premultiplicación por matrices elementales -véame ladefinición 3.3 1 y el teorema 3.32. Cada matriz elemental E resulta deaplicar su operación de renglón correspondiente aI , cuyo determinante es claramente igual a 1; ya que los efectos de las operaciones de ls renglón se describieron arriba, se evaluarán fácilmente los determinantes dea matrices elementales básicas de la definición 3.3 1 y esta información se combinará con el teorema 4.32 como sigue: (4.33)
Corolario (matrices elementalesy determinantes). SeanEii, Ei(c)y Eij(c)las matrices elementales de la definición 3.31. Entonces, a) det Eij = - 1 . b) det E~(c)= C. c) det E,(c) = 1 . d) Si E es cualquiermatriz elemental p X p y A es cualquier matriz p x p , entonces
det(EA) = det(E) det(A). Las propiedades básicas de los determinantes contenidas en los teoremas del 4.30 al 4.32 dan la clave para evaluarlos.Lo más fácilserá verlo mediante un ejemplo.
180
4
Soluci6n de ecuaciones y calculo de inversas: teoría
I
(4.34)
Ejemplo. Se evaluará el determinante de la siguiente matriz A, 4 x 4. En vez de desarrollarlo inmediatamente con respecto a algún renglón o columna, primero se efectuarán operaciones de renglón para crear una columna con sólo un elemento no cero en ella; el desarrollo con respecto adichacolum será fácil. Si se suman múltiplos del renglón 2 a los otros renglones para crear ceros en la columna 1, entonces por el teorema 4.32 c) no se ha cambiado el determinante. Esto es,
-: 1
2 - 3
2
detA=det~~
1
o
5
;]=.et[:
-3
'1
-'S
-1
-5
2
-4
-3
o
-1
o
-1
'
el cual se desarrolla con respecto a su primera columna para obtener det A = -(1) det
1"
5
- 1O
-5
'1
.
Ahora se le podría evaluar comoen el ejemplo4.29, pero es más fácil sumar 4 veces por el segundo renglón al tercero -lo cual no cambia al determinante- de modo que la segunda columna sólo tenga un elemento no cero, y desarrollarlo fácilmente con respecto a esa columna. Esto d a
- :I
o 1i -:
-1 det A = -(l)det[ -
=
-(I)(-l)det[
-
y
B' = {vi; v,; v3}
son ambos bases ordenadas deR3. Encuentre la matriz M, en términos de los vi, que hace el cambio de coordenadas con respecto a esas dos bases. 25. Los conjuntos B={l+t;t+tZ;l+t2}
y
B'=(l;l+t;l+t+t2}
son bases ordenadas del espacio Y 3del problema 6. Encuentre la matriz M que hace el cambio de coordenadas con respecto a esas dos bases. 26. Suponga que
B = {vl; v,; v3} y B' = {v3; v,; }'V son ambos bases ordenadas de R3. Encuentre la matriz M que hace el cambio de coordenadas con respecto a esas dos bases. 27. Suponga que B = {vl; v,; . . . ; v,}
y
B' = {vp;v p - l ; . . . ;v,}
230
5
/ Vectores y espacios vectoriales
son dos bases ordenadas deRp. Encuentre lamatriz M que hace el cambio de coordenadas con respecto a esasdos bases. D Z Los conjuntos
2 1IT;[1 O 2 O]’;
B = {[l
2
B’ = {[O
2 O
[2
O 4 -3IT}
Y
13’; [2
1 4
- l I T ; [I
2 2 41’)
son bases del mismo subespacio de R4. Encuentre la matriz M que hace el cambio de coordenadas con respecto a esasdos bases. 29. Suponga queB , B’ y B“ son todas bases para el espacio vectorial real Y; sea M la matriz que traduce de las coordenadas en B’ y sea M’ la matriz que traduce de las coordenadas en B” a las coordenadas en B ‘ . Encuentre la matriz que traduce de las coordenadas en B” a las coordenadasen B .
5.5
BASES Y MATRlCES
La mayor parte de lasección precedente presentó resultados con respecto acosas que pueden hacerse -pueden eliminarse vectores de conjuntos linealmente independientes para formar una base, y así sucesivamente. Sin embargo, la un conjunto generador, sección noexplica cómo llevar a cabo tales tareas. Dado ¿cómo se puede encontrar una base entre sus elementos? Dado un conjunto linealmente independiente, ¿cómo se pueden encontrar vectores adicionales para tenderlo a una base? El material sobre cambio de base es la excepción a esta perspectiva de la sección 5.4; ese material mostró explícitamente cómo “traducir” entre distintas bases para el mismo espacio. Allí, laclave fue usar la teoría de matrices desarrollada en capítulos anteriores. En esta sección, las matrices proporcionarán nuevamente respuestas alas preguntas “cómo”. Para usar matrices, nos restringiremos a Rp, CP, y sus subespacios; observe, sin embargo, que esta “restricción” significa que los resultados serán aplicables atodos los espacios vectoriales reales o complejos de dimensiónp . Para ver esto, recuerde(5.40) el principio del Isomorfismo: para resolver alglin problema concerniente a un conjunto en Y, resuélvalo mejor para el conjunto en Rp O Cp que consiste en todos los vectores de coordenadas de ese conjunto en Y. Así, las técnicasde este capítulo pueden realmente ser aplicadas, a travésde los vectores de coordenadas, para resolver problemas en todos los espacios vectoriales reales o complejos de dimensión finita. Pensando en esto, ahora nos “restringiremos” al uso de matrices columna. Como las matrices p x 1 son vectores en [WP o en CP, conceptos de espacio vectorial tales corno dependencia lineal se aplican a ellos; comoel conjunto de
5.5
I Bases y matrices
231
todas las matrices renglón 1 x q también es un espacio vectorial, los mismos conceptos también se aplicarán a ellas. Operaciones de renglón y dependencia lineal
Dos hechos sencillos pero fundamentales sobre operaciones de renglón proporcionan respuestas a varias preguntas. (5.45)
DEMOSTRACION. Sea F la matrizno singular que el teorema clave3.34 garantiza que cumplirá con FA = B. Sea a,, . . . ,a, una colección de r columnas de A, y sea bl, . . . ,b, la correspondiente colección de columnas de B; por la regla de multiplicación de matrices separadas,bi = FAi para toda¡. Como F es nosingular, Fx = O si y sólo si x = O. Considere ax como una combinación lineal de las a,; Fx es esa misma combinación, pero en las bi. Por lo tanto, una combinación de las ai es O si y sólo si esa misma combinación en las bi es O. Esto significa que una colección es linealmente dependiente si y sólo si la otra lo es. Una matriz renglón y es una combinación lineal de los renglones de A si y sólo si y = xA para alguna matriz renglón x; pero y = xA si y sólo si
y = xF"FA
= x'B dondex' = x F - l ,
porque FA = B ; y y = x'B si y sólo si y es unacombinación lineal de los renglones de B. m Observe que a), en elteorema, se refiere acolumnas y a columnas seleccionadas de entre todas las columnas; b),en contraste, se refiere a renglones, y a todos los renglones juntos. La idea básica para usar este teorema en el estudio de problemas sob. dependencia lineal de columnas o renglones de una matriz A, es sencilla: crear una forma reducida de Gauss o una forma escalón reducida por filas B partiendo
232
5
/
Vectores y espacios vectoriales
de A y entonces estudiartales problemas sobre la matriz B que esmás sencilla y en donde su respuesta será trivial. Problemas sobre dependencias y bases
Para que funcione esta idea básica, se debe entenderla dependencia lineal entre las columnas de una matriz en la forma reducida de Gauss o en forma escalón reducida por renglón. La clave en cualquiera de estas formas es que la i-ésima columna delantera en ambas tiene un 1 en su i-ésimo elemento y ceros abajo mientras que todas las columnas a su izquierda tienen cero en el renglón i así comoen los renglones inferiores. Esto aclara que las columnas delanteras forman un conjunto linealmente independiente y que cadacolumna a la izquierda de la i-ésima columna delantera depende linealmente de las primeras i - 1 columnas delanteras. Cada renglón no cero de una forma reducida de Gauss comienza con ceros hasta queuno se topa con el1 de lacolumna delantera que corresponde a ese renglón; ya que todos los 1 se mueven más hacia la derecha con cada renglón sucesivo, también es claro que esosrenglones forman un conjunto linealmente independiente. Resumiendo: (5.46)
Teorema (matrices reducidas y dependencia). Suponga que G estáen la forma reducida de Gauss y que tiene rango k . Entonces: El conjunto de k columnas delanteras de G es linealmente independiente. Cualquier columna a la izquierda de la primera columna delantera de G es una columna cero. Cualquier columna a la izquierda de la i-ésima columna delantera deG , (para i => 1) es linealmente dependiente de las primeras i - 1 columnas delanteras. Cualquier columna a la derecha de la k-ésima columna delantera es linealmente dependiente de las k columnas delanteras. El conjunto de k renglones diferentes de cero de G es linealmente independiente. Los dos teoremas anteriores son herramientas de cálculo útiles.
(5.47)
Ejemplo. Considere el subespacio Yode C4 generado por
Se buscará una base para Yo,con la que se descubrirá su dimensión. Se usarán las cuatro columnas de arriba como las columnas de una matriz A , se reducirá A a G , su forma reducida de Gauss,se usaráel teorema 5.46 para
5.5
/
Bases y matrices
233
identificar las columnas delanteras deG que son linealmente independientes y generadoras de todas las demás columnas, y entonces se usará el teorema clave 5.45 para deducir que las columnas correspondientes de A forman una base para Yoque contiene k -el rango de G y de A- vectores. Este proceso produce
El rango es 3 , y las columnas delanteras son las primeras tres. Por lo tanto, las primeras tres columnas de A forman unabase para Yo,y la dimensión de “yb es 3 . Este ejemplo muestra el proceso para reducirun conjunto generadora una base. Un problema distinto es el deextender un conjunto linealmente independiente para obtener una base. (5.48)
Ejemplo. Sea Yoel subespaciode R4 de todas las soluciones de x1
+
x2
= x3
+ x4.
Los dos vectores [ 1 O 1 OlT y [O 1 O 13’ están en Yoy forman un conjunto linealmente independiente. El problema es extender este conjunto (si es necesario) para obteneruna base de Yo.El enfoque será formaruna matriz A con esas doscolumnas como susprimeras columnas y con las columnas de alguna base de Yocomo columnas posteriores, reducir A a G, una forma reducida de Gauss, usar el teorema 5.46 para identificar las columnas delanteras de G -las que incluirán las primeras dos columnas de A ya que las dos A son independientes una de otra- como linealmente independientes y generadoras de las demás, y entonces tomar las correspondientes columnas de A como la base aumentada. Para obtener alguna base para yo,se procederá como en el ejemplo 5.26 para encontrar la solución general de la ecuación y luego escribir la base. Se encunetra fácilmente que la solución general es:
de manera que esas tres matrices columna forman claramente una base de Yo.Se formará la matriz A con los dos vectores dadosoriginalmente como
234
5
Vectores y espacios vqctoriales
I
las dos primeras columnas y como las últimas tres, y entonces A se reducirá a la forma reducida de Gauss G: 1
o
1
1
-
1
o
1
1
-
1
0
0
G= 0
0
0
Las columnas delanteras de G son las primeras tres, por lo tanto, las primeras tres columnas de A servirán como base: el conjunto original de dos vectores se expande agregándole el vector [ 1 O O 13’para obtener una base con tres vectores, y por lo tanto la dimensión de Yoes 3.
Ahora podrá resolver los problemas del 1 al 10.
Espacio columna y espacio renglón
Los problemas que se resolvieron en los dos ejemplos anteriores hicieron uso del hecho de que el conjunto de columnas de una matriz A que corresponde a las columnas delanteras de una matriz reducida de Gauss G de A es linealmente independiente, y de que todas las columnas de A son linealmente dependientes de aquéllas. Por lo tanto, cualquier matriz columna que sea una combinación lineal de todas las columnas de A es unacombinación lineal de esas columnas especiales deA. En otras palabras, esas columnas especiales forman una base para el subespacio de IWP o de CP generado por todas las columnas deA. Este espacio tiene un nombre especial, el espacio columna de A; por analogía, también hay un espacio rengldn. (5.49)
Definición. Sea A una matriz p X q . a) El espacio columna real (o complejo) de A es el subespacio de R P (o de @ p ) que está generado por el conjunto de columnas de A. b) El espacio renglbn real (o complejo) de A es el subespacio del espacio vectorial real (o complejo) de todaslas matrices 1 x q que está generado por el conjunto de renglones de A.
Según esta terminología, es sencillo formular un resultado fundamental que es consecuencia inmediata de los teoremas clave5.45 y 4.23, y del teorema 5.46.
5.5
I Bases y matrices
235
(5.50)
De acuerdo conesto, el rango de A podría haberse definido como ladimensión del espacio columna o como la dimensión del espacio renglón; como el espacio columna deA es (isomorfo a) el espacio renglón de AT (o de AH),esto indica que los rangos de A, AT y AH son iguales.
(5.51)
Corolario (rango de renglón = rango de columna). Los rangos de A, AT,y AH son iguales.
Algunas veces nos encontramos con dos subconjuntos SIy S, de Rp o de C P y es necesario saber si generan exactamenteel mismo espacio. Si se toman los transpuestos de los vectores en S, y se usan como los renglones de una matriz A,, y se hace lo mismo con S, para obtener una Az, entonces es posible volver a formular la pregunta de si A, y A, tendrán el mismo espacio columna. Esta se puede contestar fácilmente. (5.52)
Teorema (espacios renglón iguales). Sean A, una matriz r X q y A, S X q. Entonces el espacio renglón de A, y el espacio renglón de A, serán los mismos si y sólo si los renglones diferentes de cero de la forma escalón reducida porrenglón de A, son iguales a losrenglones diferentes de cero de la forma escalón reducidapor renglón de A,. DEMOSTRACION (formas => espacios). Como los renglones diferentes de cero en las formas escalón reducida por renglón (que son formas reducidas de Gauss) formanbases para los espacios renglón,si los renglones diferentes de cero en las formas son iguales, entonces los espacios renglón son iguales. (espacios => formas) Si los espacios renglón Y son iguales, naturalmente tienenla misma dimensiónp, por lo tanto hayp renglones diferentes
236
5
Vectores y espacios vectoriales
e
de ceroen las dos formas escalón reducida por renglón R1y RZ;sean R; y R 2 las matricesp X q formadas por los primerosp renglones diierentes de cero de R, y de Rz.Sean vl, vz, . . . ,v p los renglones de R',en orden, y sean vi, vl,, . . . , vb los renglones de R 2 en orden; cada uno de estos conjuntos material de la sección 5.4 forman una base ordenada para9". Se utilizará el sobre el cambio de base para escribir v: = mIiv,
+ rnZivz + . . . + mpivp
exactamente como en (5.41). En el teorema clave 5.43 se encontró que la matriz M, p X p , formada por (M)Ii= rnti es no singular. La ecuación de arriba, interpretada elemento por elemento, dice (vi), = (MT>il(Vl>k
+ (MT)i2(v2)k + . +
(M*)ip(~p)k.
Como las v; son los renglones de R2mientras que vi lasson los renglones de R l , esto quiere decir que R 2 = MTRl.Ya queM es no singular, también lo es M T ;por lo tanto se puede escribir a MT como un producto de matrices elementales, cada una de las cuales corresponde a la ejecución de una operación elemental de renglón. En otras palabras, R 2 se puede generar partiendo de R l por medio de operaciones elementales; entonces,R 2 es la forma escalón reducida por renglónde R l , la cual a su vez ya está en forma escalón reducidapor renglón. Como la forma escalón reducida por renglón de una matriz es única, R l = R 2 , como se había afirmado.
(5.53)
Ejemplo. Supongaquesenecesitadeterminarsi
los vectores
generan el mismo subespacio de C3 que los vectores
Se formarála matriz A l , 4 x 3, de los transpuestos delprimer conjunto y la matriz A2 3 x 3 con los traxspuestos del segulndo conjunto: 3
1
A,
=
-7
2 3
-1
o
-1
-1
4
-3
2
1 1 1
1-
-1
1 2
-3 -5
5.5
=I i -:]
I Bases y matrices
237
-:l.
Reduciendo estas matricessuaforma escalón reducida por renglón R,y R2, Rl
o
O
-1
0
y
o
R z = E
-1
0
Los renglones diferentes de cero en R, y R2 son iguales; por lo tanto, los conjuntos originales generan el mismo subespacio de C3.
PROBLEMAS 5.5
D 1. Encuentre una base para el subespacio de R4 generado por S=[[-;
1
2-1
O 3
1
2. Demuestre el teorema 5.46. 3. Encuentre una base para el subespacio de R4 generado por los vectores
=lj, 11, =[!l.
4. Encuentre una base para el subespacio de R4 generado por los vectores
VI = [ J ,
vz
v3
y
=
v4
D 5. Encuentre los valores de k para que los vectores [3-k
-1
O]',
[-1
2-k
,']1-
y
[O
-1
3 -klT
generen un espacio bidimensional. 6. Considere el subespacio Tode R4 que consiste en todos los vectores x = [x1
x2
x3
X4]'
238
5
I Vectores y espacios vectoriales
que satisfacenx,+ x2 = x3 + x4.Determine si S es una base para-yb. en donde
D 7. Extienda a S = {[l 1 2 3]T) para formar una base para el subespacio de [w4
que consiste en todos los vectores de la forma [u
b-a
b b+uIT
para todos los números reales a y b . 8. Extender
S = {[3 1
subespacio de
!X4
1 1IT, [3 O 2 11)' para formar una basepara el que consiste en todos aquellos vectores
x = [x1 x2 x j
X4IT
que satisfacen a x1 - x2 = x3 + x4. 9. Extienda el conjunto siguiente para que forme una base para R4:
10. Dé los detalles de la demostración del teorema clave 5.50.
D 11. Encuentre una base para el espacio columna de A de entre sus columnas,en donde A=[
1 2 -1
2 1 2
4 5
o
-5
12. Encuentre una base parael espacio renglón de la matriz A del problema 11: a) Usando el teorema clave 5.50 h) como de costumbre. b) De entre los renglones de A mediante el teorema clave 5.50 a) sobre AT y después tomando transpuestos de las columnas resultantes.
D 13. Encuentre la dimensión y una base para el espacio columna de 1
4
0
5.5
/
Bases y matrices
239
D 14. Encuentre ladimensión y una base parael espacio renglón de lamatriz A del problema 13: a) Como en el problema 12 a) b) Como en el problema 12 b) 15. Demuestre que los dos conjuntos siguientes S, y Sz generan elmismo subespacio de R3.
D 16. Demuestre que los dos conjuntos siguientes, S , y S, generan elmismo subespacio de R3.
17. Determine si losdos conjuntos siguientes S, y S2,generan el mismosubespacio de R3.
18. Como la forma escalón reducida por renglón de una matriz generalmente contiene muchos ceros, puede pensarse que susrenglones dan una base de vectores “simples” parael espacio renglón de A o -después de tomar transpuestos- para el espacio columna de AT.Encontrando la formaescalón reducida para renglón del transpuesto de la matriz A del ejemplo 5.47, encuentre una base de vectores “simples” para el subespacio Yode ese ejemplo.
D 19. Utilice el enfoque del problema 18 para encontrar una base de vectores trabajar con AT“simples” para el espacio columna -por lo tanto tendrá que de 2 -1 3 -4 3 A=
o
5 -1 6
-8 1
-6
-4
5 -1 14
-14 -1
-9
20. Demuestre que el espacio columna de AB es un subevacio del espacio columna de A.
240
5
Vectores y espacios vectoriales
/
21. Mediante el problema20, demuestre que el rango de AB es menor que o igual
al de A. D22. a) Utilice el hecho de queel rango de C es igual al de CT y el resultado del
problema 2 1, para demostrar que el rango de AB es menor o igual al rango de A y al rango de B. b) Dé un ejemplo para demostrar que la igualdad puede ser válida en a) y otro ejemplo para demostrarque la desigualdad también puede ser válida en a).
5.6
LONGITUD Y DISTANCIA EN ESPACIOS VECTORIALES: NORMAS
Se abrió este capítulo con el propósito declarado de tratar aspectosgeométricos de los vectores. Ciertamente, hasta ahora el material sobre subespacios y temas relacionados hatenido un sabor fuertemente geométrico. No obstante, términos tales como ‘‘longitud’’ y “ángulo”, han faltado en todo esto excepto en la sección 5.1, cuando se estudiaron los vectores geométricos. Se tratará ahora tanto la longitud como la distancia de u a v (definida como la longitudde u - v). EnlasecciónS.1 sevioque(uq+ ~2,)~’~dalaacostumbradalongitudfisicadel vector geométrico bidimensional u que corresponde a la matriz u = [u1u2IT;en tres dimensiones, el teorema de Pitágoras nuevamente da, para la longitudfísica, Parece natural entonces, medir la longitud, o magnitud, o a (u; + u: + tamaño de un vector u en [WP por (u:
+ u: + . . . + u;)?
Esto es, en efecto muy útil. Pero hay circunstancias en las que es significativa otra medida para el tamaño de un vector u. En el modelode las poblaciones de zorros y gallinas de la sección 2 . 3 , por ejemplo, era importante la matriz xi = [Zi GilT,donde se representaba con Ziel número de zorros y con Gj el número de gallinas. En este caso, (Z?+ GZ)1/2no tiene significadointuitivo. Es más significativaIZil+ lGil -la -la población mayor. población total- o quizá mix {lZ,l , ICi\} En otras aplicaciones, pueden ser más apropiadas otras nociones de la magnitud y longitud de un vector que cualquiera de las que se acaban de mencionar. Por otra parte la palabra norma se usará para describir la noción general de longitud siempre que satisfaga ciertas propiedades naturales que la mayoría de la gente asocia intuitivamente con una sensación de longitud. (5.54)
Definición. U n a norma (o norma vectorial) en -Ir es una función que asigna a cada vector v en -Ir un número real no negativo, llamado la norma de v y está simbolizada por I(v/I(o algunas veces por IIvIIy), y satisface las siguientes condiciones: a) llvll > 0 para v z O, y ))O))= O
5.6
'
b) c)
/
Longitud y distancia en espacios vectoriales: normas
1 1 ~ ~ 1=1 ltll IIvJJpara todo escalar a y todo vector v 1 1 + V I ( I llull + ( ( ~ ( 1 (la desigualdad del triángulo) para todo
241
vector
u y v.
La tercera condición, c), se llama la desigualdad del triángulo porque es una generalización -véase (5.2) para confirmar- del hecho de que la longitud de cualquier lado de un triángulo es menor o igual a la suma de las longitudes de los otros dos lados. Hay tres formas en Rp y C pque se usanfrecuentemente en las aplicaciones. (5.55)
Definición. Se definen las normas ~ ~ - ~ ~y Il.llm-y 1 , sellaman lanorma 1, la norma 2 y la norma m- para vectores x = [xl x p . . . x , ] ~en RP o en CP, como sigue:
Para comprobar que las cantidades de la definición 5.55 son en realidad normas, se debe verificar que satisfacen las condiciones de la definición 5.54; véanse los problemas del 9 al 11. El Único obstáculo en esto es demostrar que satisface la desigualdad del triángulo la cual es consecuencia de un resultado importante llamado la desigualdad de Schwarz. Para exponerla, se usará la transpuesta hermitiana de la definición 1.20 y la expresión xHy para dos matrices columna p x 1; por comodidad enla notación, se tratará ala matriz I X 1 , xHycomo igual a su Único elemento.
De este modo, six = [ 1 2 - 3IT y y = [ 2 1 I]', se tiene que xHy = 1 en lugar de lo que es técnicamente correcto pero notacionalmente inconveniente x"y = [I]. Con esta notación, se puede escribir If
112
lIxIl2 = (x x) .
242
5
I
Vectores y espacios vectoriales
DEMOSTRACION.
Se tiene que para todos los números cy,
o 5 jlx + ay\\; = XHX + axHy + ClyHx + accyHy = 11x11:
+ axHy -b iyHx + )L%1*11yll;.
Como la desigualdad es verdaderamente válida sixHy = O, suponga que xHy % O y haga a = - I[xll;/x”y en laexpresiónde arriba. Combinando términos y usando yHx = xHy, se obtiene
de donde resulta inmediatamente la desigualdad de Schwarz. ~
Ahora podrá resolver
m
~~
los problemas
del 1 al 11.
Convergencia A menudo es importante, en las aplicaciones, conocer cómo se comporta una sucesión de vectores xi a medida que i tiende a infinito. En la sección 2.2 se presentó un modelo de competencia mercantil en el que la sucesión xi que representaba las acciones del mercado tendía a un límite x,; en la sección 2.3 se presentó un modelo de poblaciones en competencia en el que la sucesión xi, representando poblaciones, a veces tendía a O , a veces explotaba, y demás. Como las normas miden la magnitud de los vectores, proporcionan la herramienta natural para describir de manera precisa lo que se quiere decir cuando, por ejemplo, se dice quela sucesión de vectores xitiende a O: significará queSUS magnitudes l\xill tienden a O. Definicidn. Sea 11- 1 1 una norma en V. Una sucesión de vectores vi converge al vectorv, si y sólo si la sucesión de números reales //vi- v,JJconvergea0.
(5.58)
Con esta definición, se puede hablar ahora de una sucesión de vectores en o en Cp que converge mediante el uso de normas; ¿pero cuál norma se deberá usar? El hecho interesante es: no importa -todas son “equivalentes” como se demostrará ahora. Partiendo de sus definiciones, es claro que I(x11, 5 /lxIll 5 pllxll, si x es p X 1; igualmente, 11x11; S 11xIE. Aplicando la desigualdad de Schwarz a los vectores x en y a y en donde(y) O si u # O , y (u, u) = O si y sólo si u = O. El ángulo 8 entre dos vectores diferentes de cero u y v se define por su coseno:
b) (el caso complejo) Sea 7‘f un espacio vectorial complejo. Un producto interior de 7‘f es un función que asignaa cada par ordenado devectores u y v, un número posiblemente complejo, que se denota (u, v), y que satisface las siguientes condiciones: l . (u, v) = (v,) para toda u y v en V. 2. (au + p v , w) = @u, w) + P(v, w), y (w,au + pv) = a(w,u) + p(w, v) para todau, v y w en -Ir y todos los números complejos a y p. 3 . (u, u) > O si u # O ; y (u, u) = O si y sólo si u = O.
248
5
Vectores y espacios vectoriales
/
Esta definición de productos interiores se da endos partes para simplificar las cosas paraaquéllos que no estén familiarizados con los números complejos. Las únicas diferencias en los casos, implican la aparición del conjugado complejoen 1) y 2) y la omisión del ángulo en el caso complejo. (5.64)
Ejemplo. Se conocecomo el producto interior estu‘ndar (u, v) en producto definido como (el elemento en) U%. (u, v)
= UlUl
[wp
al
+ . . . + UpVpr
en donde ui = (u)~y u i = ( v ) ~ .Siempre se usará este producto interior estándar a menos que se diga otra cosa explícitamente. (5.65)
Ejemplo. Seconocecomo el producto interior esfundar (u, v) en @* al producto definido como (el elemento en) uTv. (u, v)
=
ü,u1
+ . . . + upup,
en donde u i = ( u ) ~y ui = ( v ) ~ .Siempre se usará este producto interno estándar en C P ,a menos que se diga otra cosa explícitamente. (5.66)
Ejemplo. Considere el espacio vectorial real de polinomios de grado estrictamente menor que 3, P3.Se define (u, v) para dos polinomios u(t>y v(t) como
(u, v) = Jolu(t)v(t) dt. Es fácil comprobar que esto define a un producto interior, es decir, que satisface la definición 5.63 a). Al integrar se demuestra,por ejemplo, que (1
+ 2, t2) = 7/12.
LOS productos interiores estándar en RP y en @P definieron la norma 2 de un vector como ( ( v (=( ~(v, V)~’’. Lo mismo es válido para los productos interiores en general, pero se necesita primero de la desigualdad de Schwarz.
(5.67)
Teorema (desigualdad deSchwarz).Sea (u, v) un producto interior en el espacio vectorial real o complejo V. Entonces /(u, v)( 5 (u, U)’’~(V, DEMOSTRACION.
para toda u, v enV.
Esta demostración imita a la del teorema clave 5.57; pro-
blema 13. m (5.68)
Teorema (normas de productos interiores). Sea (u, v) un producto interior en Y, y definase a ( ) V I( = (v, Entonces )I.)) es una norma en V (se dice que es la norma inducida por el producto interior).
5.7 DEMOSTRACION.
(5.69)
I Angulo en los espacios vectoriales: productos interiores
249
Problema 14.
Ejemplo. Considere un producto interior no estándar en (u, v)o
= 3u,q
+
definidopor
U2Q.
Es fácil demostrar que éste es un producto interior,y por lo tanto define a una norma inducida
1111)) = ( 3 4 + u y 2 .
~~~~~~
~
~
Ahora podrá resolver los problemas del I al IS. Ortogonalidad
En geometría elemental, los ángulos rectos y las rectas perpendiculares (también llamadas ortogonales) juegan un papel especialmente importante. Lo mismo sucede aquí. Como el coseno de un ángulo recto es igual acero, setiene que (u, v) = O para vectoresortogonales en IWP . Se usará estamisma relación para definir a la ortogonalidad, inclusive en espacios vectoriales complejos. (5.70)
Definición. Sea .) un producto interior en V y (para el restodel capítulo) sea 11.11 su norma inducida según el teorema 5.68. a) Se dice que dos vectoresu y v son ortogonales si y sólo si (u, v) = O. b) Se dice que un conjunto de vectores esortogonal si y sólo si cada par de vectores del conjunto es ortogonal, (u, v) = O para toda u # v de ese conjunto. c) Si se usa un vector no cero u para producir v = u/11u11 tal que llvll = 1, entonces se dice que u ha sido normalizada para producir el vector normalizado v. d) Se dice que un conjunto de vectores es ortonormal si y sólo si el conjunto es ortogonal y llvll = 1 para todo v en el conjunto. (e,
Por las propiedades de los productos interiores, (O, v) = (Ov, v) Esto es:
=
O(v, v) = O.
En cualquierespacio vectorial con producto interior,O es ortogonal a cada uno de los vectores. PROBLEMAS 5.7
D 1. Encuentre elángulo entre los dos vectoresgeométricos bidimensionales fi y 6 correspondientes a u = [l
J1y
y I
v = [2fi
2y
250
5
/
Vectores y espacios vec!oriales
2. Encuentre el ángulo entre los dos vectores de R5,
u=[1
2
-1
o 11’
y
v=[2
1
-3
1
-13’.
3. a) Encuentre el ángulo entre los dos vectores de R2 (usando el producto interior estándar) u = [l 1IT y v = [ 1 - 1IT. b) Encuentre el “ángulo” entre u y v si se usa el producto interior no estándar del ejemplo 5.69, para definir la geometría. D 4. Encuentre la forma general de todos aquellos vectores v en K t 3 que son ortogonales a n = [l 2 - 1IT. 5. Suponga que Y tiene un producto interior, y que n está en V.Demuestre que el conjunto Yode todos los vectores enV que son ortogonales a n es un subespacio. 6. Suponga que $” tiene un producto interno y que n # O está en Y. Definase VI como el conjunto de todos los vectores en Y que satisfacen (n, v) = l . a) Demuestre que Yl no es un subespacio. Y ; se puede escribir como la suma vo f b) Demuestre quetodo vector v1 en “ n/))n1)2de un vector vo en el subespacio V i del problema 5 y el múltiplo n/)ln112de n, y que efectivamente está en V I todo vector v1 que tenga esa forma. D 7. Supongaque n es un vector no cero en-Y- = Rp. Demuestre que ladimensión del subespacio Yo del problema 5 es p - 1. 8. Sea P3el espacio vectorial real de los polinomios con grado estrictamente
menor que 3; defina el producto interior entre los polinomios f
= fi
+ f2t +
y
f3t2
g = g1
+ g 2 t + 93t2
como
encuentre el ángulo entre f = t y g = t2 - t + 1. D 9. Suponga que ^Y- es un espacio vectorial real con un producto interior. Demuestre que si y sólo si u y v son ortogonales, en donde 11 (1 es la acostumbrada norma inducida. 10. La definición de lanorma inducida se dedujo de ladel producto interior.A la inversa, paraun espacio vectorial real con un producto interior, demuestre que
+
(u, v) = (Jlu
-
jju - v11”)/4.
5.7
/
Angulo en 10sespaclos vectoriales: productos interiores
251
11. Sea C[O, I] el espacio vectorial real de las funciones continuas con valores reales en O 5 c I1. Defina el producto interior de dos funcionesf y g en C[O, 11 como
D 12.
13. 14. D15.
a) Verifique que esto es un producto interior. b) Escriba la desigualdad de Schwarz para este caso. a) Demuestre que el producto interior enC[O, 13 del problema 11 define un producto interior en P3,el espacio vectorial real de los polinomios de grado estrictamentemenor que 3; generalice este resultado para subespacios Yo de espacios vectoriales Y que tienen un producto interior. b) Encuentre el ángulo entre t y t2 - t + 1. Demuestre el teorema 5.67 sobre la desigualdad de Schwarz imitando la demostración del teorema clave 5.57. Demuestre el teorema 5.68 de que la ‘‘noma” inducida por un producto interior es realmente una norma. Sea B una base ordenada para un espacio vectorial real (o complejo) de dimensión p Y, y sea cB el isomorfismo de coordenadas. es cualquier producto interior en Rp (o en C p ) , y defina a) Suponga que (e,
a)
(u, v
)= ~ @,(u), cB(v)) para u, v in Y. O
Demuestre que (., . ) y es un producto interior en Y. b) Suponga que (., .)U es un producto interior en V. Definase b , vB) = ( c i ‘(uB), c i ‘ ( v ~ ) )para ~ uB, v B en RP (o en CP),
en donde CS‘(uB) es el vector Único u en “f cuyas coordenadas en B son uB.Demuestre que es un producto interior. (e;)
16. Determine si el conjunto siguiente es ortogonal y si es ortonormal.
17. Produzca un conjunto ortonormalnormalizando los vectores en el conjunto
ortogonal
252
5
I Vectores y espacios vectoriales
D 18. Suponga quevl, . . . ,v, forman un conjunto ortogonalde vectores enel espacio vectorial Yf con producto interior. Demuestre que IIalvl
+
’
. . + apvpl12 = Ia11*/(v1/12+ . . . + Iap1211vp~\2.
19. Demuestre que { 1, t - 31 es un conjunto ortogonal en el espacio Y 3del problema 12, y normalícelo para obtener un conjunto ortogonal. 20. Demuestre que el conjunto original del problema 19 es una base para el subespacio Y2 de Y 3 .
5.8
PROYECCIONESORTOGONALESYBASES: ESPACIOS GENERALES Y GRAM-SCHMIDT
Los conjuntos ortogonales, tal como se introdujeron en la sección 5.7, son de importancia extrema tanto teórica como computacionalmente. En esta seccióny en la siguiente, se presentarán algunas indicaciones sobre la razón de esto. Proyecciones ortogonales
El primer resultado será esencial para la derivación del resto de la sección;sin embargo, también es importante por derecho propio. (5.71)
Teorema (proyeccionesortogonales).Sea Y un espaciovectorial con un producto interior. Sea Yo el subespacio de Y generado por un conjunto ortogonal S = (V1,
v2,.
. . , vq}
de vectoresdiferentes de cero. Definalaproyeccibnortogonal Po sobre yo como sigue: para cualquier v en y,sea
Entonces: a) v - P,v es ortogonal a todo vector va en Yo. b) Po(u + v) = Pou + Pov para toda u y v en Y. c) P,(cuv) = aPov para todo escalar a y todo vector v en “ f . DEMOSTRACION
a) Primero, observe que v - Pov es ortogonal a cada V I : (Vi,
v - P,v) = (Vi, v)
-
U1(Vi, V I )
- . . . - clq(Vi, VJ = (Vi,
v)
- Cli(Vi, Vi)
=
o.
5.8
I Proyeccionesortogonalesybases:espaciosgeneralesyGram-Schmidt
253
Como cada va en Yoes una combinación lineal dea ls vi,cada una de ellas satisface (vi,v - Pov) = O, se obtiene,como se habíaafirmado, (va, v - Pov) = o. b) y c) son consecuencia inmediata de la definición de los coeficientes ai. Por ejemplo, el coeficiente afen Po(av)es (vi, av)/(vi, Vi) = a(Vi, v)/(vi, vi),
que es exactamente (5.72)
a
veces el coeficiente aide P,v.
m
Ejemplo. Supongaque Y es R3 y que q = 2; entonces Yoes un plano. A continuación se muestra la interpretacióngeométrica de Y' = Pov:
tI
V
Mejores aproximaciones
La sección 2.6 sobre mínimos cuadrados demostróque al determinar parámetros en modelos matemáticos, a menudo es necesario aproximar un vector dado como combinación lineal de otros vectores dados.Si losvectores con los cuales se forma la combinación lineal son mutuamente ortogonafes, entoncesla solución del problema es directa. (5.73)
Teorema (mejor aproximación). Sea un espacio vectorial con un producto interior y conuna norma inducida 11.11, y sea Yo el subespacio vl, . . . , generado por el conjuntoortogonaf de vectores diferentes de cero vq. Entonces, paracualquierv,Poves el únicopunto más cercano en Yoa v, y IIv - Povl(es la distancia de v a Yo,en el sentido deque Pov está en Yo y IIv - PovlI < I(v - voll para todovo # Pov en Yo.
254
5
/
Vectores y espacios vectoriales DEMOSTRACION. Por conveniencia, llámese O, a Pov, el cualestá claramente en Y, por la definición de P,v; para cualquier vo en Y, se calculará I(v - vo(( como sigue:
((v- vo((* = (v - v,, v - v,)
O, + O, - Y,, v - O, + O, - v,) = (v - O, v - O,) + (v - O,, O, - vo) f (O, - v,, v - O,) -t(O, - Y,, O, - v,). = (v
-
Por el teorema 5.71 a), v - O, es ortogonal a todos los vectores en Y, incluyendo a O, - v,; los dos términos intermedios de los cuatro términos a laderecha, arriba,son por lo tanto iguales a cero. Esa igualdad entonces es
Por lo tanto, I]v - vollz > llv
-
6,11* a menos que v, = 9,.
m
Según el teorema 5.73, es fácil encontrar la mejor aproximación en un subespacio dado Y, a un vector dado v siempre y cuando se tenga un conjunto de cero. generador ortogonalpara Yoque esté,formado por vectores diferentes Ya que el problema de una mejor aproximación surge tan a menudo en las aplicaciones, se tratará el tema de los conjuntos generadores ortogonales. Bases ortogonales y ortonormales
Por la notación, se ha ocultado un poco un aspecto importante del teorema principal sobre la proyección ortogonal: todo conjunto ortogonal de vectores diferentes de cero es linealmente independiente. Para visualizarlo, suponga que S = {vl, . . . , vq} es ese conjunto y que
tomando el producto interior con cada vj resulta
o = (Vj, O) = (Vj, ClVl +
'
.
'
+ cqvq)= C j ( V j , Vj),
> O . Por lo tanto, cualquier conjunto generador ortogonal de vectores diferentes de cero es un conjunto generador ortogonal linealmente independiente -esto es, una base ortogonal para Y,. El teorema de la proyección ortogonal dice que las bases ortogonales son extremadamente sencillas de usar cuando se desea encontrar la mejor aproximacióna u c vector v: se puede escribir inmediatamente como lo que significa que c, = O porque (vj, vj)
5.8
I
Proyeccionesortogonalesybases:espaciosgeneralesyGram-Schmidt
255
estando definidas las aien el teorema. Si sucediera que v mismo está en , K O , entonces, verdaderamente, v es la mejor aproximación a sí misma en V0-Yse obtiene
+
v = u1v1
definiéndose las
ai como
*
* .+ aqvq
en el teorema. Es decir,
Es posible expresar un vector v como una combinación lineal de vectores en una base ortogonal sin tener que resolver ecuaciones para determinar los coeficientes -simplemente, se evalúan algunos productos interiores para obtener directamente los coeficientes. (5.74)
Teorema (bases ortogonales) Sea B = {v,, v2, . . . ,vJ una base ortogonal (u ortonormal). Entonces, la representación de cualquier vector v con respecto a la base ortogonal B puede escribirse inmediatamente:
Se encontró un caso especial de estoya hace tiempo, cuando se?io la facilidad de expresarcualquier vector en Rp como una combinación lineal de e,, . . . ,e p , vectores queforman una base ortonormal paraRp, de modo que los coeficientes en la representación de v son
Ahora podrá resolver problemas del 1 al 5. Creaci6n de bases ortogonales y ortonomales: Gram-Schmidt Los problemas relativos amejor aproximación son fáciles de resolveren cuanto se cuenta con una base ortogonalpara el subespacio de aproximación. Pero éste no siempre es el caso enlas aplicaciones. Unabase así es tan conveniente, que a menudo se podría tratar decrear una para un espacio dado.Esto trae a colación la siguiente pregunta:
Dada una base o un conjunto generadorS para un espacio vectorial con un producto interior,jcómo se puede encontrar un base ortogonal u ortonormal para el espacio? En espacios de dimensión finita esto puede hacerse de una manera directa. El método que se usa se llama el proceso de Gram-Schmidt. El teorema siguiente
256
5
I
Vectores y espacios vectoriales
parece complicado, pero la idea es semilla: el proceso de Gram-Schmidt produce una base ortogonal partiendo de un conjunto generador y detecta si el conjunto generador es linealmente dependiente. (5.75)
DEMOSTRACION
a) es b), pero con i = q. b) Se usará la inducción, ya que u1= v,, b) es válido para i = 1, y P , está bien definido. Suponga que b) es válido para i = k < q , de modo que P k puede construirse usando Bk; por definición, se tiene que #)
uk+l=Vk+l-Pkvk+l,
entonces
Vk+l=Uk+l+PkVk+l.
Ya que Pkse proyecta sobrevk,P,v,+ está en vk y, por la hipótesis de inducción, es una combinación lineal de ui, . . . , uk.Por lo tanto, #) expresa V k f l como una combinación lineal de ul, . . . ,u ~ +como ~ ; las vi que antecedenson combinaciones lineales de ul, . . . ,ui(por la hipótesis inductiva),b) es válida para i = k + I , y por lo tanto es válida para toda i. c) Ya que ui= vi - Pi-,v$y Pi-lvi es linealmente dependiente de v,, . . . , vi-,, el resultado es válido. d) La omisión de los vectores cero no cambia la generación de B , y un conjunto ortogonal de vectores diferentesde cero es linealmente independiente.
5.8
I
Proyecciones ortogonales y bases: espacios generales y Gram-Schmidt
257
e) es consecuencia de d), porque puede haber vectores ut diferentes de cero. Para enfatizar se repetirá que: El procedimiento de Gram-Schmidt produceun conjunto generador ortogonal a partirde un conjunto generadory detecta siel conjunto original es linealmente dependiente. Notacionalmente, el proceso de Gram-Schmidt es sencillo: Calcule ui = vi - Pi+vi. Pero aún quedala pregunta: ¿Cómo se calcula Pf-,vf en la práctica?Hay varios caminos para ello, cuando menos dos de los cuales -el “proceso de GramSchmidt modificado’’ y el “proceso de Householder” mencionados en los problemas del 12 al 17- son útiles numéricamente y están disponibles en programas confiables de computadora.El camino tradicional, acontinuación,es menos eficaz en la práctica (véase el problema 11). El problema es calcular Pi-,vf. En el teorema 5.71 se vio que esfácil calcular la proyección ortogonal sobre un subespacio cuando setiene un conjunto generador ortogonal para ese subespacio; el subespacio es %- 1, y la sección b) del teorema deGram-Schmidt dice que ul, . . . ,ufW1 es justamente dicho conjunto generador ortogonal. En cada paso, el procedimiento del Gram-Schmidt Produce el conjunto generador ortogonal requerido para el siguiente paso; en eso radica su elegancia.A la luz de lo anterior, el procedimiento de Gram-Schmidt puede implementarse -aunque no es bueno computacionalmente- como (5.76)
El procedimiento tradicional de Gram-Schmidt. Dado un conjunto generador vl, . . ., vp: 1 . Defina u1 = vl. 2. Para 2 I i Iq , defina
uI . = vI. - a l iu1 - . . . - ai-
1,
en donde aji = (uj, vi)/(uj, uj) si uj # O y aji = O si uj = O. (Véase también el problema 9.) (5.77)
Ejemplo. Suponga quese quiere una base ortogonal para el subespacio de R4 generado por v1
= [I
~3
=[O
1 1 3 3
-l]’, -3]‘,
vz = [2
[-1
-1
-1
2 2
I]‘,
I]’.
258
5
I
Vectores y espacios vectoriales
El procedimiento descrito en (5.76) da u1
= v1 = [l u2
u3
= v2
11-117
- a12u1 = v 2
-
(-+
=
[S 3IT -3 -3 4
9
= v3 - C(13UI - a23u2 = v3 - ($)u1 - ( - l)uz = [O
o o
U4=V4-a14U1
= v4
0-y; - Ct24U2 - c134U3
- (+)ul - (-$)u2
- @)u3 =
[O
1 1 2IT
Ya que u3 = O, se puede ver que el conjunto original de cuatro vectores es linealmente dependiente, siendov3 linealmente dependiente de v1 y v2. El conjunto {ul, uz,uJ es una base ortogonal para el subespacio; es posible obtener una base ortonormal reemplazandoesos tres ui por ui/lluJ12. Un hecho quesigue inmediatamente del teorema para la construcción de una base ortogonal de vectores diferentes de cero amerita mención aparte. (5.78)
Corolario , A excepción de {O}, todo espacio vectorial de dimensión finita tiene una base ortonormal. PROBLEMAS 5.8
D 1. Considerando a {ez, ed como una base ortogonal, encuentre el punto más cercano en el conjunto de todos los vectores [O b) [u b cIT a) [l 2 3IT
a
PI' a
2. Mediante los problemas 12,19 y 20 de la sección 5.7, encuentre el punto en el espacio de { 1, t - 4 ) que es más próximo a t2 en Y 3 . 3. En P 3 con enelproductointerior
del problema 12 de la sección 5.7,
demuestre que (1,t-+,t2-t++]
1
es una base ortogonal para P3. D 4. Demuestre que si v está en el subespacio Yodel teorema 5.72, entonces la proyección ortogonal Pov de v sobre Yo es igual a la misma v. 5. Suponga que Po es la proyección ortogonal sobre "Ya como en el teorema 5.72. Demuestre que, para toda v en "Y-, /lv(12 = ((pov[[2+ llv - povl12.
5.8
I Proyecciones ortogonales y bases: espacios generales y Gram-Schmidt
6. Compruebe que, en el ejemplo 5.77, {vl, mismo espacio para toda i = 1, 2, 3, 4.
259
. . . ,vi} y {u1, . . . ,ut}generan el
D 7. Aplique el procedimiento de Gram-Schmidt tradicional (5.76) a los tres vectores siguientes,y haga una aseveraciónválida sobre la situación general que representa.
8. Aplique el procedimiento tradicional de Gram-Schmidt (5.76) a los tres vectores
[1
1
-1y,
[- 1 2 2",
y
[l
4 O]?
9. La versión (5.76) del procedimiento tradicional de Gram-Schmidt es, en
realidad, una pequeña variante de lo que normalmente se presenta. En esa otra forma, que aquí se llamará normalizada, tan pronto se calcule ui, se reemplaza por su versión normalizada ui/lluill si ui # O. Esto evita el cálculo de los productos interiores (ui, ui) en los pasos subsiguientes porqueaquéllos serán ahora igual a 1. Aplique esta versión a los vectores vi del ejemplo 5.77; las ui que se produzcan sólo serán versiones normalizadas de lasuianteriores -desde luego que con la excepción de us = O. D10. Mediante el producto interior en P 3del problema 8 de la sección5.7 -con el R3 de los coeficientesde los polinomios- aplique productointernoen el procedimiento tradicional de Gram-Schmidt (5.76) a los vectores 1 + t , t + t2yr2+ 1. 11. Para comprobar que el proceso tradicionalde Gram-Schmidt (5.76) -0 su versión normalizada como en el problema 9- no es necesariamente una buena manera de calcular proyecciones las del teorema clave 5.75, considere el siguiente caso. Sea E un númerotal que en la computadora donde se hacen los cálculos, 1 + sea igual a 1, pero que 2 + E y E + se calculen con opera muy bastante exactitud: en una calculadora de 8 a 10 dígitos, E = bien, mientras que E = 10"O funciona bien en la mayoría de las microcomputadoras con coprocesador matemático.Aplique el procedimiento de GramSchmidt tradicional (5.76) (o su versión normalizada) a los vectores
260
5
I
Vectores y espacios vectoriales
Las condiciones para E significan que el producto interior de dos de ellos , que la norma al cualesquiera se calculará con exactitud como 4 + 2 ~ pero 4 + 26, en vez de como 4 + 2~ + cuadrado de cada uno se calculará como Encuentre 10s ángulos entre los vectores que se produzcan: u1 y uz, u1y u3,Y u2 y us. Deberá encontrar que u1 y u2 están a aproximadamente E de la perpendicular, y de modo semejante proceda parau1y us; sin embargo, us y u3hacen un ángulo de 60" en lugar del ángulo recto deseado.
DlZ. El procedimiento deGram -Schmidt modificado es una alternativapara el cálculo delas proyecciones del teorema clave5.75 que evita lasdificultades con el Gram-Schmidttradicional tal comose ejemplificó en elproblema 11. En el método tradicional, en el i-ésimo paso sólo se altera el vector vi: se cambia aui que esortogonal a todaslas u, precedentes. En el procedimiento para hacerlos modificado, en el i-ésimo paso, todos los v irestantes se alteran ortogonales al vector u más recientemente calculado. De una manera más precisa: Comenzando con los v l , . . , vq dados, defina vy, . . . , v," como si ,
v: = V I ,
. . : , v," = vq.
El i-ésimo paso, para i = 1, . . . ,q: defina ui = vi- ';
En la aritmética perfecta, esto produce los mismos vectores u, que el método tradicional. Aplique este procedimiento modificado a los vectores del problema 1 1 y encuentre los ángulos entre las ui que se produzcan; ahora deberá obtener mucho mejores resultados que con el procedimiento tradicional. 13. Aplique el procedimiento de Gram-Schmidt modificado del problema 12 a los vectores del ejemplo 5.77. 14. Aplique MATLAB o software similar para encontrar una base ortogonal u ortonormalpara el espacio generado porlos vectores del problema 11 (escogiendo la E que convenga asu computadora) para comprobarqué tan bien opera ese software en este dificil problema. 15. Otra alternativa del método tradicional para calcular las proyecciones del teorema clave5.75, usa las matrices de Householder(véanse los problemas una del 13 al 17 de la sección 5.9); una matriz (real) de Householder es matriz H, p x p de la forma H = I, - 2 w T / w T w para una matriz columna real diferente de cero w, p X 1. a) Demuestre que toda matriz de Householder es simétrica. b) Demuestre que toda matriz de Householder es nosingular y que H" = H = HT.
5.9
Rp, CP,QR ymínimoscuadrados
I Proyeccionesortogonalesybases:
261
c) Mediante el inciso b) demuestre que las columnas de una matriz de Householder forman un conjunto ortogonal. D 16. Dadas dos matrices reales p X 1, x y y con x # y, defina
y sean H, las matrices de Householder del problema 15 definidas por w+-. Demuestre que H, transforma a x en un múltiplo de y; más precisamente, demuestre que
17. a) Sean x = [2 2 1IT y y = [1 O OIT. Encuentre las matrices H, del problema 16 y veritique que H,x = T3y. b) Demuestre que para todax en Rp hay una matrizde Householder H tal que Hx es igual a m á s o menos Ilxll+,, en donde e, es la acostumbrada matriz columna unitaria. 5.9
PROYECCIONES ORTOGONALES Y BASES:
Rp, CP,QR Y MlNlMOS CUADRADOS Existen muchasaplicaciones que hacen uso importante de las técnicasy conceptos de las proyecciones ortogonales y de las bases que se presentaron en la de IRp (o de sección 5.8 para espaciosvectoriales en general. En el caso especial Cp),esos resultados-cuando se expresan en terminología matricial- proporcionan poderosas herramientas de cálculo. Proyecciones ortogonales
Los primeros resultados -teoremas 5.71 y5.73- de la sección anterior involucraban proyecciones ortogonales en espacios vectoriales arbitrarios con productos interiores; ahora, se reformulará esto en Rp y en C P mediante terminología matricial. Para ser específicos, se considerará V = Rp en la discusión que sigue; sólo se necesita cambiar las transpuestas a las transpuestas hermitianas para hacer que los argumentos se apliquen en Cp. Suponga queYo es un subespacio deRp generado por el conjuntoortogonal de vectores S = {v,, vz, . . . ,v,} y que ves otramatrizpX 1; se deseacalcular la proyección ortogonal Pov del teorema 5.71. Se especializará un poco suponiendo que S es un conjunto ortonormal -es decir que((v&= 1 además delas condiciones de ortogondidad0= (vi, v,) = vTvjparai Z j . Definase la matrizQ,p X q , por
Q = [vi Si calcula QTQ, encontrará que
V~
. . . v,].
262
5
I
Vectores y espacios vectoriales
tiene como elemento(iJ, justamente av,Tvj-que es iguda 1 si i = j , y es igual a 0 si i # j . Esto es, Q'Q = I,; ésta es la reformulación matricial del hecho de que S es ortonomal. Pasando al cálculo de Pov, de acuerdo al teorema 5.71, POV = alvl + . . . + E,V, para ai. adecuadas en notación matricial esto significa queP,v la matriz de arriba y a = [a,
u2
. ..
Nuevamente de acuerdo al teorema 5.71,
ai
= Qa, donde Q es
u,]'.
se calcula como
en este caso; en notación matricial, esto dice que a = Q'v. juntando estos dos hechos, se obtiene P,v = QQ'v. Observe aquí que, en general, QQ' # I,; QTes una inversa izquierda deQ porque Q'Q = I,, pero generalmente no es una inversa derecha porque no se está suponiendo que Q sea cuadrada. Esta fórmula para Po demuestra que la proyección ortogonal no es más que la multiplicación por una matriz especial Q Q T , llamada matriz deproyeccion. Esto completala reformulaciónde los teoremas 5.71 y5.73 en terminología matricial. (5.79)
Teorema (matricesdeproyección.)Sea Q una matriz p columnas ortonormales en Rp (o en C p ) "esto es
Q'Q
= I,
(0
QHQ
=
X q
que tiene
IJ,
y sea Yo el subespacio generado por la base ortonormal para Yoformada por la columnas de Q . Entonces: a) Laproyección ortogonalPoen Yo,como se describió en los teoremas 5.71 y 5.73 se calcula con la matriz de proyección QQ' (o QQ") como Pov = P,v
en donde Po es la matriz p X p , Po = QQ' (o Po = QQ"). b) La matriz de proyección Po satisface lo siguiente: l . Po es simétrica (o hermitiana) 2. P; = Po. 3. Po& - Po) = (I, - Po)Po= o. 4. (I, - P6)Q = O.
5.9
I PrOYeCCiOneS ortogonales y bases: Rp, CP, QR y mínimos cuadrados
263
DEMOSTRACION
a) Ya se ha demostrado. b) 1. P,' = (QQ')' = (QT)'Q' = QQ' = Po (análogamente para el caso complejo). 2. Pi = QQ'QQ' = QIQQT= QQ' = Po (y de igual modo para el caso complejo). 3. Po@,- Po) = Po - Pg = O, e igual para los demás. 4. (I, - Po)Q = Q - QQTQ = Q - QI, = O (análogamente para el caso complejo). (5.80)
Ejemplo. Sea Q 4 X 3 y sean sus columnas versiones normalizadas de los vectores ortogonales diferentes de ceroul, u2,u4que se encontraron en el ejemplo 5.77:
-
2 1 2
Q=
1
"
-
2
--
6
6
J5
"
& ' -
6 J
6 j
6
Entonces Po =
0
$
0
0
1
J
3 -
Por lo tanto, el vector más cercano a v = [ 1 2 3 41' en el subespacio Vode R4 generado por las columnas de Q es P,v = P,v
=
[l
5/2 5/2 41';
Más generalmente, el punto más cercano a v = [a b c b+c 2
b+c 2
dlT
es:
d]T
Ahora podrcf resolver los problemas del 1 al 5. Descomposiciones QR
La siguiente tarea es proporcionar una formulación matricial para el teorema clave 5.75 sobre cómo calcular un conjunto generador ortogonal partiendode un conjunto generador general. Suponga que vl, v2, . . . ,vu son matrices columnap X 1, y considere la implementación tradicional del procedimiento de Gram-
264
5
/ Vectores y espacios vectoriales
Schmidt (5.76). A partir de la definición de matrices columna u, en (5.76) 2), se tiene vj = Ulcr1j
+ u,cr,j + . . . + uj- l a j - + uj. 1,j
Esto, representado en notación de matrices separadas, es tan sólo
(5.81a)
SeaQ,lamatrizp X q,[u, . . * uQ]de(5.81a)yseaRolamatrizunitariatriangular superior q X q allí mismo; como A = [vl vQ], es posible reescribir (5.81a) como
-
(5.81b)
A
=
9
QoRo.
Las ui de Qo se construyen en (5.76),y por lo tanto son mutuamente ortogonales; es decir, que Qo tiene columnas ortogonales, algunas de las cuales podrán ser por la eliminación de las columnas iguales a O. Sean Q y R las matrices obtenidas de cerosde Qo y los renglones correspondientes de Ro,y mediante la división de cada columna no cero de Qa entre su norma 2, y multiplicando cada renglón correspondiente de R, por la misma norma 2. Entonces (5.81b) viene a ser (5.81~)
A=QR
con R como triangular superior y Q con columnas ortonormales. La forma (5.81b) se llama la descomposicion no normalizada QR de A, mientras que (5.81~)es la descomposición QR normalizada. (5.82)
5.9
Rp, CP,QR y mínimos cuadrados
I Proyeccionesortogonalesybases:
265
DEMOSTRACION. Ya que A tiene rango k , su espacio de columnas tiene dimensión k y habrá k vectores en cualquier base. a) Es consecuencia del teorema clave 5.75, del (5.76)y del (5.81a-c)arriba; para 3), observe que ui = v i - Pi-lvi, y utilice el teorema 5.73. b) Es consecuenciadea lsconstrucciones de Q y R a partir deQoy R,; para 3), observe quesi k = q , significa que Q y R sólo difieren de Qoy R, por la escala, y utilice a) 3). M
Estas descomposiciones son análogas a las descomposiciones LU de la sección 3.7 y quizá sean igualmente útiles computacionalmente. Como se hizo notar en la sección 5.8, el procedimiento tradicional de Gram-Schmidt no es eficaz computacionalmente y no deberá usarse en la práctica para encontrar descomposiciones QR;hay otros métodos disponibles -véame los problemas del 11 al 17 de la sección 5.8 y los problemas del 13 al 17 de esta sección. (5.83)
Ejemplo. Considere la matriz A, 4 x 4, cuyas cuatrocolumnas son las matrices columna originales v l , v p ,v3 y v4 del ejemplo 5.77:
r
1
1 A=[-;
O -1 3 -1 3 1 -3
2
-11
De acuerdo conla demostración anterior, esposible construir ladescomposición QJ¿, partiendo delas columnas ui y de los coeficientes ak,calculados durante desarrollo del procedimiento de Gram-Schmidt del ejemplo 5.77. Esto da
Es fácil comprobar que realmente A = Qdt0. Para obtener Q y R, de acuerdo con la demostración anterior, se eliminará la tercera columna de Qo y el tercer renglón deRo, y se ajustatána lsescalas dea lscolumnas de Qo
266
5
I
Vectores y espacios vectoriales
y los renglones de R,. Por ejemplo, se divide la primera columna de Q,entre su norma 2 , 2 ) y se multiplica el primer renglón de Ro por elmismo número 2). Tratando lasegunda y tercera columnas/renglones de modo semejante, finalmente se obtiene
-
Q=
2 -
2
-
.”
6 ”
6
6 -
6
Y
I.
2
O O
1 2
”
g 2 O
9 2 -3& 2 O -
De nuevo, es fácil comprobar que A = QR.
R (5.84)
Ejemplo. Se sabe quela matriz de Hilbert 6 X 6 , H,es “casi singular” en el sentido de que suscolumnas son “casi linealmente dependientes”; H, es la (H6)il= 1/ (i +j - 1). Ahora esposible dar algún significado matriz en la que al concepto “casilinealmente dependiente” porquela descomposición QR contiene información sobre la distancia de cada columna desde el espacio de las columnas anteriores. Se utiliza la función qr del MATLAB para calcular una descomposición QR normalizada de Hg. El MATLAB encontró que H, tiene rango 6 , y produjo una matriz Q, 6 x 6 , con columnas ortonormales y una matriz 6 x 6 triangular superior R. Ya que el rango es igual a 6, los elementos de la diagonal de R miden la distancia de cada columna de H, desde el espacio de las columnas anteriores; mediante el MATLAB se hicieron cálculos de las magnitudes de esos elementosdiagonales resultando aproximadamente en 1.2,0.14,0.0096,0.0048,0.000017 y 0.00000040. Siun vector v está a la distancia d de un subespacio Yo, entonces av está a una distancia ad de Yo; en otras palabras, se debería considerar ladistanciaYorelativa al famaiio d e v mismo. En estecaso,el MATLAB calculó la norma 2 de, por ejemplo, la sexta columna de H, como aproximadamente igual a0.31; la medida de tan quécercana estuvo la sexta columna de H6de ser linealmente dependiente de las primeras cinco está dada por 0.00000040/0.31 z 0.0000013,
lo cual indica por qué H6 se llama “casi singular”.
5.9
/
Proyeccionesortogonalesybases:
Rp, C p , QR ymínimoscuadrados
267
Ahora podm resolver los problemas del 1 al 19.
Aplicacwn: mínimos cuadrados
En la sección 2.6 sobre mínimos cuadrados se explicó cómo, a menudo, en modelos matemáticos, se tiene la forma general del modelo y es necesario determinar parámetrosespecíficos en el modelopara aproximar la conducta real del fenómeno que aquél está modelando. Cuando el modelo es lineal, esto frecuentemente significa que se tiene una matriz A, p X q (el modelo) y una matriz columna y, p X 1 (datos reales del fenómeno) y se necesita encontrar Ax = y. Cuando sequiere determinar una matriz x, 4 X 1 (los parámetros) tal que a x haciendo ((Ax - y(I2tan pequeño como sea posible, se tiene un problema de mínimos cuadrados. Un camino para encontrarla x que minimiza a (/Ax- y((% se describió en la sección 2.6: x hace mínimo a ((Ax- y/Izsi y sólo si x es solución de ATAx = ATy (reemplazando la transpuesta por la transpuesta hermitiana si alguno de los datos es complejo); véase el problema 26. Sin embargo, se hizo notar que en realidad el cálculo de ATA y la solución de estesistema de ecuaciones menudo a produce errores inaceptables cuando los cálculos sehacen en computadorascon aritmética de punto flotante; véase el problema 24. La descomposición QR normalizada -que puede calcularse con exactitud y eficiencia- proporciona un camino para eliminar la dificultad; véase el problema 25. Suponga que A = QR es una descomposición QR normalizada de A, de tal modo que -si A es p X 4 y tiene rango k- Q es p X k y tiene columnas ortonormales, mientras que R es k X q , triangular superior y tiene rango k . Considérense las ecuaciones ATAx = ATy cuando A = QR. Al sustituir A resulta (QR)T(QR)x = (QR)Ty, esto es,
RTQTQRx= RTQTy.
Recuerde que Q tiene columnas ortonormales, así que QTQ= Ik.Por lo tanto, las ecuaciones vienen a ser RTRx = RTQTy.
El corolario 5.51 afirma que los rangos de R y de RTson iguales; por lo tanto, la matriz RT, q X k , tiene rango k . Por el teorema4.22 sobre inversasizquierdas y rango, RT tiene una inversa izquierda L tal que LRT = Ik. Multiplicando ambos miembros dela última ecuación de arriba por L y usando LRT = Ik, se obtiene RX = QTy = RTQTy;a la inversa, es claro quesi Rx = QTy,entonces RTRx = RTQTy. Por lo tanto, x resuelve el problemade mínimos cuadrados si y sólo si Rx = Q T y .
si R%
268
5
/ Vectores y espacios vectoriales
Yaque Resk X q , es triangular superior y tiene rango k , las ecua:iones Rx = QTy pueden resolverse inmediatamente para x por sustitución en reversa. Es decir, que una vez que se ha encontrado la descomposición QR normalizada de A, es posible resolver inmediatamente el problema de mínimos cuadrados. Resumiendo, : (5.85)
Teorema (QR y mínimos cuadrados). SeaA = QR unadescomposición QR normalizada de la matriz A, p X 4. Entonces, todas a ls soluciones al problema de mínimos cuadrados de encontrar una x que haga mínimaa IJAx se puede obtener aplicando la sustitución en reversa pararesolver Rx = QTy (Rx = QHy si A o y son complejos).
(5.87)
Ejemplo. Sea A la matriz 4 x 4
2
o
1 1 -1
A=[-;
3
-; -:
:]
-1
cuya descomposición QR normalizada A = QR se encontró en el ejemplo 5.83. Suponga que se quiere resolver elproblema de mínimos cuadrados Ax%y=[l
-1
2 13'.
Rx = QTy. De acuerdo con el teorema 5.85, solamente es necesario resolver Se encuentra que QTy = [1/2 &/2
4/21'.
Por lo tanto, el sistema a resolver es 9 2 RX = QTy, esto es,
3& 2 O
.__
-
Este sistema se resuelve fácilmente pos sustitución en reversa: primero se obtiene x4 = 4, después, x3 = (Y arbitraria, a continuación x2 = a + $, y
5.9
I Proyecciones ortogonales y bases: RP, Cp, QR y mínimos cuadrados
209
finalmente x1 = -2cr t i . La solución general al problema original de mínimos cuadrados es por lo tanto
PROBLEMAS 5.9
D 1. Suponga que Q es una matriz realp X q con columnas ortogonal. ¿Qué puede decir acerca de QTQ? 2. Suponga que P es una matriz real p X p , que PT = P, y que P2= P; a esas matrices se les llama matrices de proyeccibn p x p . Demuestre que, para cada v en RP, Pv es la proyección ortogonal de v sobre el espacio de columnas de P. 3. Demuestre queP es una matriz de proyección -véase el problema2- si y sólo
si Ip - P es una matriz de proyección.
D 4. Encuentre la matriz 3
X 3 , P, tal que Pv sea la proyección ortogonal de v sobre el subespacio generado por el conjunto ortogond S = { [I 2 2 ] T , [-2 2 -117. X 4, tal que Pv sea la proyección ortogonal de v sobre el subespacio generado por los vectores
5. Encuentre la matriz P, 4 [0.5
0.5
0.5
0.5]',
[-OS
0.5
-0.5
0.5IT.
7. Encuentre la descomposición QR, tanto no normalizada corno normali-
zada de
270
5
/
Vectores y espacios vectoriales
9. Encuentre la descomposición QR tanto no normalizada comonorma-
lizada de
10. Suponga que se están haciendo los cálculos en una computadora y que el número E es tal que 1 + E se evalúa exactamente, pero que 1 + e2 se evalúa como igual a 1; en unacalculadora de 8 a 10 dígitos, E = IO+ operamuy bien, mientras que E = 10“O trabaja en la mayoría de las microcomputadoras con coprocesadores matemáticos. a) Aplique el método Gram-Schmidt tradicional en esta “computadora” para comprobar que se obtiene la descomposición QR no normalizada r
(Observe que ésta es la descomposición correcta -con excepción por supuesto, de que la computadora no dividirá perfectamente entre 3 . La pequeña E, por otra parte, no causó dificultades. (Véanse los problemas 24 y 25.) b) Encuentre la descomposición QR normalizada. D 11. Suponga queA es real y p x q, y que A = Q a o ,en donde Q, es p x q y tiene columnas ortogonales, mientras que R, es q X q y es triangular superior anitaria. Demuestre quelas columnas de Qoforman un conjunto generador ortogonal para el espacio de columnas de A, y que las primeras i columnas de Q , generan el espacio generado por las primeras i columnas de A para l 5 i l q . 12. Suponga queA es real, y p x q y que tiene rango k , y que A = QR, en donde Q es p x k y tiene columnas ortonormalesmientras que R es k X q , triangular superior y de rango k . Demuestre quelas columnas de Q forman una base ortonormal parael espacio de columnas de A, y que P = QQ‘representa una proyección ortogonal sobre el espacio de las columnas de A. 13. Suponga que A es real y p X q , siendo p
L q ; se describirá el uso de las matrices de Householder mencionado en los problemas del 15 al 17 de la sección 5.8 para calcular una descomposición QR de A. Sea A, = A; se calculará A,, . . . , A, como sigue: Ai tiene la estructura especial
Ri Bi Ai= [o c ] ,
en donde Ri es i
X
i y triangular superior;
5.9
/
Proyecciones ortogonales y bases: RP,C p ,OR y mínimos cuadrados
271
esto ciertamente es válido para i = O. SeaHi unamatriz Householder de (p X (p - i) tal que Hi multiplicada por la primera columna de C isea un múltiplo de la matriz columna unitaria e,, (p - 9 X 1, y definase
i)
Ii
o
en donde Ii es la matriz idéntica i x i
a) Demuestre que QiQT = QTQi = I,. b) Demuestre que QiAi tiene la estructura propuesta para Ai+,. Se define Ai+, = QiAi continuando hasta llegar a A,. c) Demuestre que Q q - 1 Q q - 2. . . QIQoA = S, teniendo S la estructura
S=
[:I,
donde R es q
X
q y triangular superior.
Por lo tanto, A = PS, en donde P = QcQT. . . QTd) Demuestre que PPT = P P = I,, y por lo tanto P es no singular y tiene columnas ortonormales. (Véase también el problema 14.) 14. Continuando con el desarrollo del problema 13, definase Q como la matriz p x q que está formada por las primeras q columnas de P. a) Demuestre que A = QR, b) Suponiendo que el rango de A es q y recordando que P es no singular, demuestre queel rango de S es q. Demuestre que el rango de Res q , y por lo tanto R es no singular. Concluya que A = QR es una descomposición QR-normalizada de A. 15. Mediante el método matricial de Householder de los problemas 13 y 14 encuentre la descomposición QR-normalizada de la matriz A del problema6 y compruebe que se obtiene
L L
después O
Y
&
"
3
-$I O
"
3
272
5
I Vectores y espacios vectoriales
En este caso
Y?2 A=PS=
O
Jz
3
L2
T ]
y finalmente
A=QR=
L2
3
1
D 16. Mediante el método matricial de Householder de los problemas 13 y 14 encuentre una descomposición QR-normalizada de la matriz A del problema 8. 17. Si A es p x q , siendo p 2 q y el rango de A estrictamente menor que q , entonces el método matricial de Householder de los problemas 13 y 14 no necesita producir una descomposición normalizada QR. Por ejemplo, A=
[A
= QR
siendo Q = I, y R = A
es la descomposicióa que producía aplicación la directa del método matricial de Householder a A. a) Demuestre que el rango de A es igual a 2. b) Demuestre que ninguna de las dos columnas de Q genera el espacio de columnas de A. c)Concluyaque no es posible obtener una descomposición QRnormalizada de A a partir de las columnas de Q. d) Demuestre que el método tradicional (o modificado) de Gram-Schmidt, cuando se aplica a esta A produce tanto una descomposición QR no normalizada como normalizada. (Cuando el rango de A es menor que q , es posible implementar el método matricial de Householder con lo que se llama pivote0 de columna para obtener la descomposición QR-normalizada de una matriz con columnas permutadas; este método se usa ampliamente en programación de computadoras para obtener descomposiciones QR.)
5.9
I Proyeccionesortogonales y bases: RP,CP, QR ymínimos cuadrados
273
9ll 18. Como se hizo en el ejemplo 5.84 para la matriz de Hilbert H6, utilice
MATLAB u otro software semejante para medir qué tan cerca estála quinta H, de depender linealmente de las primeras columna de la matriz de Hilbert cuatro columnas. 9ll 19. Cuando segrafican las varias potencias tipara O 5 t 5 1, las gráficas parecen
bastante semejantes; intuitivamente, parece que esas potenciasson linealmente dependientes.Por ejemplo, r‘, t5y t6 asilo parecen; se deseamedir qué tan cerca están de ser linealmente dependientes cuando se consideran sus valores en 0.1,0.2, 0.3,0.4,0.5, 0.6,0.7,0.8,0.9 y 1.0. Prepare una matriz adecuada 10 x 3 y mediante MATLAB o software semejante mida qu6 tan cerca están de ser linealmente dependientes, como en el ejemplo 5.84.
D a . Encuentre una descomposición normalizada QR para A y utilícela para resolver el problema de mínimos cuadrados Ax= y, en donde
:]
A=[;
Y=[;].
y
21. Encuentre una descomposición QR-normalizada para A y utilícela para resolver el problema de mínimos cuadrados Ax= y, en donde A=[:
-y]
y
y=[:].
22.En la sección 2.3, se consideróun modelo de crecimiento con poblaciones en competencia; esto condujo a un modelo de la forma
[::I
=
[: :l[‘c:1.
en donde se supuso en el ejemplo 2.16 que x1 = 0.6, x2= 0.5, x3 = -0.1 y x4 = 1.2. En la práctica, el problema fácilmente podría ser el determinar valores de los parámetros del modelo, x,, partiendo de datos reales de la población. Utilice mínimos cuadrados para determinar los parámetros x, a modo de coincidir con los “datos” de población de la tabla del ejemplo 2.16 que muestra la evolución desde el tiempo i + 1 para i = 1,2,3,4,5, y véase cómo se comparan los valores obtenidos con aquéllos que generaron los datos. Podría ser necesario el uso de MATLAB o software semejante. D23. Utilice una descomposición QR-normalizada para resolver el problema de mínimos cuadrados del ejemplo 2.39. 24. Considere la matriz A del problema 10 con E como allí se describió, y considere el problema de mínimos cuadrados Ax = y, en donde y = [2 3 2]*.
274
5
I Vectores y espaclos vectoriales
La verdadera solución de mínimos cuadrados es
a) Recordando que E es tal que la computadora evalúa a3 + 2~ + E* como , qué sería calculado como las ecuaciones ATAx= igual a 3 + 2 ~encuentre ATy para encontrar x. b) Demuestre que la única solución a este sistema calculado es
que está muy lejos de la solucióncorrecta de mínimoscuadrados que se dio anteriormente. (Esto ejemplifica por qué, en la práctica,no es satisfactorio el uso de ATAx = ATycomo método computacional para resolver problemas de mínimos cuadrados .) 25. En el problema 24 se mostró que el cálculo de ATA y posteriormente la solución de ATAx = ATydaban resultados pobresen el problema de mínimos cuadrados queallí se trató.En el problema 10 se encontró la descomposición Q R computada paralamatriz A. Utilice estadescomposición QRcomputada para resolver el problema de mínimos cuadrados del problema 24; después compararla respuesta que se obtiene con la solución verdadera y con la obtenida mediante el uso de ATA. 26. El argumento que llevó al teorema 5.85 demostró que existe una x. que
resuelve AHAxo= AHb (reemplazar por para el casoreal). a) Demuestre que todax = x. + n también es unasolución si y sólo si AHAn = O, y concluya de nH(AHAn) = IIAnll: que esto es válido si y SÓ10 si An = O. b) Sustituyendo AHAxopor AHb, demuestre que ((Ax- q 1 ' 2
=
llbll; - llAXc4'2 +
IJ'W
- x0)Il;
c) Concluya a partir de b), que x minimiza a IIAx - b(Izsi y sólo si x = x. + n , en donde An = O. d) Concluyas partir dea) y c), que x es solución parael problema de mínimos cuadrados Ax= b si y sólo si AHAx = AHb. 5.10
PROBLEMAS VARIOS
PROBLEMAS 5.10
D 1. Demuestre que C puede considerarse como un espacio vectorial real. 2. Demuestre que C puede considerarse como un espacio vectorial complejo.
5.10
I
Problemas varios
275
3. Sea
el espacio vectorial real de los números complejos sobre el campo R; demuestre queel conjunto detodos los números reales es un subespacio de
v.
D 4. Suponga que u>,u2y us forman un conjunto linealmente independiente, y defina VI = u 1
+ + u2
u3, v2 = u 1
+ au2,
y
Y3 =u2
+ Bug.
Encuentre las condiciones de a y /3 para que las vi formen un conjunto linealmente independiente. D 5. Sea Y ; un subespacio de R P . Defina a Y '6 como el conjunto de todos los vectores v en Rp que son ortogonales a todos los vectores en Yo. a) Compruebe que Y; es un subespacio de Rp. b) Suponga que p = 3 y que Yo tiene el conjunt0.de vectores u 1 = [2
i
-3IT,
u2 = [-1
O
-2IT;
como su base. Encuentre una base para Y;. 6. Sea B = { 1 + I; I + r2;t2 + P;P}una base ordenada del espacio vectorial real P4de polinomios congrado estrictamente menor que 4. Mediante el isomorfismo de coordenadas cEpara convertirloen un problema en R4,extienda el conjunto {I + 2t + t2, t} hasta formar una base de y4. 7. Considere la base ordenadaB y el espacio P4del problema 6. Mediante el isomorfismo de coordenadas cE para convertirlo en un problema en R4, forme una base para P4de entre los vectores 1
+ 2t + t2, t + 2 t 2 + t3,
1
+ t - t 2 - t3, t2 + 2t3, t3,
1+t
+ t3
8. Demuestre que el rango k de una matriz A es el orden de la mayorsubmatriz
cuadrada no singular de A completandolos detalles del siguiente esquema de A tiene rango k y considere una submatrizp X la demostración. Suponga que p siendo p > k . Demuestre que los p renglones de la submatriz forman un conjunto dependienteya que los p renglones de A así lo hacen (porque p > k = rango de A); deduzca además que la submatriz es singular. Escoja cualesquiera k renglones de A que formen un subconjunto independiente; entonces el rango de la matriz de esosk renglones es k de modo que hay k columnas de esta matriz que forman un conjunto independiente. Deduzca que la submatriz k X k resultante es no singular. A la inversa, suponga que k es el orden máximo de submatrices no singulares y escoja una submatriz k X k . Como los renglones de la submatriz forman un conjunto linealmente independiente, demuestre que los k renglones correspondientes a A forman un conjunto linealmente independiente y entonces deduzcaque el rango de A no es menor que k . A continuación, suponga quealgún subconjunto de p renglones de A es linealmente independiente; deduzca comoen la primera
276
5
I
Vectores y espacios vectorlales
parte de la demostración de esteteorema, quealguna submatriz p x p es no singular, y entonces p Ik . Como entonces k es el máximo número de renglones de A en cualquier conjunto linealmente independiente, deduzca que k es igual al rango de A.
D 9. Considerando la l\u - av11; y escogiendo cy para hacer cero esta expresión, demuestre que: a) JuTvI= I[u1121\v11z para ciertasu y v en Iwp (si y) sólo si u y v forman un conjunto linealmente dependiente; b) El mismo resultado es válido sustituyendo la por la cuando u y v e s t h en CP. 10. Demuestre quela descomposición QR normalizada A = QR es única si la A, p x q , tiene rango q y si a R se le obliga a tener elementos positivos en su diagonal principal. D 11. Suponga que B = {vl, . . . , v,} es una base y que vg
= CllVl
+ . . + clqvq. ‘
a) Demuestre quecualquier vector v icuyo coeficiente aien la ecuación de arriba sea diferente de cero, puede reemplazarse en B por vo y que el conjunto resultante también será una base. b) Demuestre que si el coeficiente ai es cero, entonces el conjunto resultante no es una base. Sn 12. Mediante el MATLAB o software semejante encuentre una descomposición QR normalizada y úsela para resolver el problema de mínimos cuadrados, problema 3 de la sección 2.6 (para predecirla población de Estados Unidos en 1990). 13. Demuestre que hay una matriz (compleja) de Householder H,
tal que H,x = y si y sólo si
= 1’- (~/w”w)ww’
I(X((~
=
I(Y/(~ y x“y
es real.
6 Transformaciones lineales y matrices Gran parte del poder Algebra del lineal y de las matrices viene no sdlo de la capacidad de representar con vectores muchos objetos de inter& en las aplicaciones, sino tambihn de representar muchas de las operaciones o transformaciones operadas sobre esos objetos por ejemploen modelos en los que las entradas a algunos procesos se transforman en salidas. Este capitulo desarrollala teoria bAsica de tales transformaciones; losteoremas clave son 6.14, 6.20, 6.23, 6.26 y el 6.28.
6.1
INTRODUCCION;TRANSFORMACIONESLINEALES
Muchos problemas en matemáticas aplicadasinvolucran el estudio detransformaciones -el modo enel que ciertos datos de entradatransforman se en datos de salida. Por ejemplo, los factores queproducen ciertas ganancias para un negocio, partiendo de cierta estructura de precios y manufactura, pueden visualizarse y producción) en salidas como una transformación de entradas (datos precios de (estructura de ganancias). En muchos modelos matemáticos muchas veces resulta que las transformacionesson lineales en el sentido de quela suma de dos entradas se transforma enla suma de sus salidas individuales y un múltiplo de una entrada se transforma en ese múltiplo de su salida. La ecuación (2.4) representa una transformación lineal como se ha descrito (de la estructura del del mes siguiente), así como en (2.13) (de la mercado de un mes que determina la estructura de la población en cierto momento que determina la de algún momentoposterior).Elmatemáticoaplicadointentadeducirpropiedadesde las transformaciones relevantes asícomo aprender sobre las propieades de las estructuras reales que se están modelando.En este capítulo se presentaalgo de terminología básica y algunos hechos sobre transformaciones lineales entre espacios vectoriales. 277
278
6
/
Transformaciones lineales
y
matrices
Transfonnaciones lineales (6.1)
Definiciún. Sean Y y W espacios vectoriales ambos reales (o ambos complejos). Una trunsformacion lineal F de Y -llamada el dominiod e F a W-llamada el contradominio de F- es una correspondencia que asigna a cada vector v en Y un vector F ( v ) en W de tal manera que: a) Y ( v l vz) = F ( v , ) + F ( v z ) para todos los vectores v1 y vz. b) F ( a v ) = a F ( v ) para todo vector v y escalar (Y. {Equivalentemente, F ( a l v l + azvz) = a l F ( v l ) + cxzF(vz) para todos los vectores vl, v2 y escalares a l , a2.}
+
(6.2)
Ejemplo. a) Sean Y = R4 y W = Rp, y suponga que A es una matriz real p x q . Entonces F definida por F ( v ) = Av es una transformación lineal de Y a W. Desde luego, lo mismo es válido para C4 y C p . b) Sea Y'" = W = C[a, b], espacio de las funciones continuas de valor real en a It I6; suponga que.flt) es una función continua. Entonces F se define haciendo que F ( x ) aquella función cuyo valor en t esAt)x(t) es una transformación lineal de "fa W. c) Si Y es un espacio vectorialreal de dimensión p y B es una base ordenada de Y'",entonces el isomorfismo de coordenadas cB es una transformación lineal de Y a W = Rp. d) Sea Y = cY2'[0, 11 el espacio de funciones continuas diferenciables dos veces en [O, 11, y sea F ( v ) aquella función cuyo valor en t es igual a
d Y(v)(t) = - (1 dt
+ t) dv(0 - (3 + e')v(t). dt ~
F es una transformación lineal de Y a W = C[O, 11 del inciso b). e) Suponga que V y W son, ambos, espacios vectoriales reales (o ambos complejos), y denomínese 2 = 2(V,W) al conjunto de todas las transformaciones lineales de V a W. La suma Fl + Fzde doselementos en 2 se puede definir como aquella transformación en donde (Y1
+ FZ)(V)
=
F1(v)
+ Yz(v);
Fl + F2 es una transformación lineal de V a W, esto es, que está en2. De igual modo, definiendo a 9 para escalares (Y por (aF)(v)
= a{F(v)};
a y está en 9. La transformación cero O tal que @(Y)= O en W para El conjunto 2(Y,W) con las operaciones como se toda v está en 9. definieron, es un espacio vectorial real (o complejo).
6.1
/
Introducci6n; transformaciones lineales 279
Para comprobar que cadauno de los objetos del ejemplo 6.2 es verdaderamente una transformación lineal, se deberán verificar las dos condiciones de la definición 6.1. Por ejemplo, en 6.2 a) se tiene que F(v,
+ v2) = A(v, + v2) = A V , + AV, = F ( v , ) + Y ( v 2 )
y también .F(c~v)= A(CXV) = C ~ A= V CXF(V).
Véanse los problemas del 4 al 7
Espacio imagen y espacio nulo
El ejemplo6.2 a) muestra que las transformaciones lineales son generalizaciones de multiplicación de matrices por vectores - Y @ ) = Av. Se sabe, desde luego, que las ecuaciones Ax = b son importantes como representaciones de sistemas Por lo tanto, las ecuaciones F ( v ) de ecuaciones lineales con incógnitas xi= (x)~. = w cuando w está dado y hay que encontrar v son generalizaciones de la conocida ecuación Ax = b. Por ejemplo, una ecuación en donde F se define como en el ejemplo6.2 d), es una ecuación diferencial ordinaria y es muy importante en las aplicaciones prácticas. Por lo tanto, se considerará la existencia de soluciones de las ecuaciones F ( v ) = w. Es evidente, desdeluego, que F ( v ) = w tiene una solución v si y sólo si w se produce mediante Fpartiendo de algún vector en V. Considere el conjunto Y1 'o de todos estos vectores en W:Wo es igual al conjunto de todos los vectores wo en W tales que wo = F ( v o ) para algún vo en V. Es fácil usar el teorema 5.12 del subespacio para comprobar que Wo es realmente un subespacio de V. Por Woy a es un escalar, entonces c m o está en Woporque awo ejemplo, si woestá en = a F ( v 0 ) = F(mv0), siendo vo un vector en para el que F ( v o ) = wo. (6.3)
Definición. El espacio imagen de la transformación lineal F de Y a W es aquel subespacio Wode W que consiste en todos los vectores woen W que son iguales a F ( v 0 ) para alguna vo en V.
Con estadefinición, es lógico que laecuaciónF ( v ) = w puede resolverse cuando w se escoge arbitrariamente en W si y sólo siel espacio imagen de Y es efectivamente todo W, se dice que envía a Y s o b r e V. Así, lageneralización de la pregunta que nos preocupó tanto con las matrices -¿puede Ax = b tener siempre solución?- se contesta mediante el estudio del espacio imagen de Y y la comprobación de su igualdad a todo W . Resumiendo: (6.4)
Teorema (existencia de solución de ecuaciones). Suponga quees transformación lineal de V a W .
una
280
6
Transformaclones llneales
/
y matrices
a) Dada w, la ecuación F ( v ) = w se puede resolver si y sólo si w está en el espacio imagen de F. b) Se puede encontrar v que resuelva F ( v ) = w para unaw arbitraria en W si y sólo si 9envía a Y sobre W -esto es, el espacio imagen de .Yes igual a W. Otra pregunta que setenía al resolver Ax = b era la unicidad -¿hay a lo más una solución de Ax = b? En un panorama más general, se preguntará si puede haber más de un v que resuelva F ( v ) = w; si se supone que v, y v2 lo hacen, entonces O = w - w = Y(vl)- F ( v 2 ) = F ( v l - VJ, lo que simplemente dice que v1 - v2resuelve laecuación homogénea F ( v ) = O, exactamente comoen el teorema clave 4.16. Así la cuestión de la unicidad depende del conjunto de todas las soluciones de Y ( v ) = O. El teorema 5.12 del subespacio de nuevo muestra fácilmente que Yo es un subespacio de Y; por ejemplo, si v, y v2 están en Yo,entonces también está v1 + v2 ya que ’
F(vl
+ v2) = q v , ) + q v , ) = o + o = o.
Definicio’n. El espacio nulo (o nlicleo) Yode la transformación lineal F d e Y a W es el subespacio de Y que consisteen todos aquellos vectores v en Y que satisfacen la ecuación F ( v ) = O en W .
(6.5)
El argumento que precededefinición a la 6.5 muestra que fácil es generalizar el corolario 4.17 como sigue. (6.6)
Teorema (unicidad de soluciones). La ecuación .Y(v) = w tiene a lo más una solución v si y sólo si el espacio nulo de F es solamente {O}.
Las relaciones entre el dominio Y, el contradominio W , el espacio nulo %, y el espacio imagen Wo para una transformación se ilustran esquemáticamente en (6.7)
El esquema anterior parecesugerir que el “encogimiento” del espacio nulo Yoen Y hasta el vector O en W es algo similar al“encogimiento” de Y hasta el
6.1
I
Introducci6n; transformaciones lineales
281
espacio imagen Vo. El siguiente teorema muestra que esto es correcto en términos de dimensión. (6.8)
Teorema (dominio, imagen y espacionulo).Suponga quees una transW, entonces: formación lineal del espacio de dimensión finita a a) La dimensión deldominio es igual a la suma de la dimensión del espacio nulo “Yo y la dimensión del espacio imagen Wo. b) Con mayor detalle:Si { y ( v l ) , y ( v 2 ) , . . . , y(vk)} es una base para Wo y {nl,n2, . . . , nr} esuna base paraentonceselconjunto {vl, v2,
. . . > vk,
n l , n2,
...
9
1
“rj
es una base para el dominio V. tiene alguna base finita {xl,
Primero, observe que
DEMOSTRACION.
...,
x}, para algunap. Como toda w,,en Wo es dela forma F ( v ) para alguna v en V, y ya que tal v es igual a a l x l . . . apxp para escalares ai a&-
+
+
cuados, se tiene que
wo = F ( v )
= F(alxl
+ . . . + apxp)= alF(xl) + . . . + a,F(x,),
lo que dice que .?(xl), . . . , Y ( x p ) generan a Y&. Así, Wo es dedimensión finita; igualmente, “Yo es de dimensión finita porque es un subespacio de ^Y,que es dedimensión finita y no puede haber más de p vectores en un conjunto linealmente independiente. Porlo tanto, todaslas dimensiones de la parte a) del teorema tienen sentido y puesto que dicha partees consecuencia inmediata de b), se estudiarásólo ab). Como Wo es de dimensión finita, tiene una base de, digamos, k vectores, cada uno de los cuales es igual a alguna F ( v ) ; es decir, Wo tiene bases de la forma { F ( v l ) , . . . , F ( v k ) ) . Sea {nl, . . . , nr} una base para Yo.Se debe demostrar que B
=
{ v l , . . . ,vk, n l , . . . , n,}
es una base de V: un conjunto generador linealmente independiente. (independencia lineal). Suponga que alvl
+ .. . +
+ Plnl + . . . + Blnr = O.
Entonces alF(v1)
+ . . + akF(vk) = F ( a l v 1 + . . + akvk) ‘
’
$(O - binl - . . . - Brnr) = F(0) - f i l F ( n l ) - . . . - &F(n,) = O
porque las ni están en ^Yo. Pero como las F ( v i ) forman una base para Wo, la únicacombinación de esos vectores queigual es a O usa coeficientes cero,
282
6
Transformaciones lineales
/
y matrices
entonces todas las ai deben ser iguales a O . Pero entonces queda una combinación de las ni (linealmente independientes) queda0 lo que significa que también las pi deben ser iguales a cero. Por lo tanto, B es linealmente independiente. (generación). Para toda v en Y',se escribe Y ( v ) como combinación lineal de F ( v i ) : y ( v ) = "1F(v,)
Entonces vo definida como vg = v
-
+ . . + Mky(vk). '
alvl
-
.
' '
- "kvk
está en V i porque Y(vo)
=
F(v) - Xl.F(Vl) - . - XkT(Vk) I
'
=
o.
Por lo tanto, vo puede escribirse como una combinación de las ni: r
;
vo
=
plnl
+ . . . + &nr.
Pero esto dice que v
= vo
+ z l v l + . . + rkvk = Binl + . . . + Brnr + a l v l + . . . + "kv,', I
y así B genera a V. ~~
Ahora podrá resolver los problemas del 1 al 20. Inversas y adjuntas de transformaciones lineales
Al combinar los teoremas 6.4 y 6.6 se demuestra que la ecuación F ( v ) = w tiene y el una solución única v para cada w si y sólo si el espacio imagen de F es espacio nulo es {O}. Sin embargo, sepuede decir más: la correspondencia dew a esa única v que resuelve F ( v ) = w es en realidad una transformación lineal. ^ w ^
(6.9)
Teorema (inversas). Laecuación F ( v ) = w tiene una solución únicav en para cadaw en W si y sólo si a) el espacio imagen de Y es igual a w, y b) el espacio nulo de es igual a {O}. Cuando son válidos a) y b), la correspondencia de w a la solución v es lineal y se le designa como v = F"(w), de modo que qF-l(w)] =w
y
Y-l{F(v)}
=v
para toda w en W y toda v en F . DEMOSTRACION. La primera parte es consecuencia inmediata de los teoremas 6.4 y 6.6; queda por demostrar que la correspondencia Y-l de w a v es
6.1
I
Introducci6n; transformaciones lineales
283
una transformación lineal -se debe comprobar con la definición 6. l . Primero, considere5 - l (w, + w2);definase v1 = F-l(wl) y v2 = F-l (w2)como la solución únicade F ( v , ) = w 1 y F ( v 2 ) = w 2 . Entonces, debido aque F es lineal,
+ v2) = Y ( v l ) + F ( V & = w1 + w2. Como esto significa que v1 + vg es solución de F ( v ) = w1 + w2y como F(V1
tales
soluciones son únicas, se deduce que
+ v2 = F - l ( w l + w2) F - l ( w 1 + w2) = F - l ( w 1 ) + F - l ( w 2 ) . El argumento para 9 - l v1
-estoes, (awl) es igual a
F(avl)
así que F - ' ( a w 1 ) = a v l pecto a FY-l y a de Y-'.
= a Y ( v l ) = awl,
Finalmente, las afirmaciones resson consecuencia inmediata de la definición
= aF-'(Wl).
La inversa F-l se produce de la transformación lineal Fcuando son válidas las condiciones anteriores. Hay otra transformación lineal que puede producirse de Y que resulta serimportante en las aplicaciones -la transformacion adjunta (no tiene relación con la matriz adjunta que se discutió en relación con los determinantes en la sección 4.6). (6.10)
Definicidn. Sea F una transformación lineal de Y, que tiene producto interior W quetieneproducto interior Si existe una transformación lineal Y* de W a Y tal que (m
,
s
)
~
.
(F(v), w ) = ~ (v, F * ( W ) ) ~ para toda v en Y y w en W
entonces se llama esa F* la transformación adjunta de F . (6.1I )
Ejemplo. Suponga que la matriz realp x q A define la transformación lineal F d e Y = OXq a = RP del modo acostumbrado: Y ( v ) = Av. Suponga que Y" y W tienen los productos interiores estándar:(x, y) = xTy. Entonces se tendrá Y+<
(Y(v), w ) =~ (AV, w ) =~ ( A v ) ~ w= vT(ATw) = (v, ATw),,
lo cual significa que la transformación adjuntaY*justamente se define por AT:Y * ( w ) = ATw. Observe quesi se usaran Cq y C p , entonces F* estaría definida por AHen vez de por AT. Esto demuestra que la transformación
284
6
I
Transformaciones lineales
y matrices
adjunta es unageneralización de la útil transpuesta -lo cual da una idea de su importancia. Véanse los problemas del 24 al 27 para tener en cuenta algunas propiedades importantes de las transformaciones adjuntas.
PROBLEMAS 6.7
D 1. Como se afirmó en ladefinición 6.1, demuestre que las condiciones a) y b) de esa definición son equivalentes a la condición F(a,v,
+ a2v2) = cc,F(v,) + cc2F(v2).
D 2. La transformación identidad 4 de 9-a -Y- se define como Y(v)
=v
toda v en Y. Demuestre que .Y es una transformación lineal. 3. La transformación cero 8 de Y a W se define como cO(v) = O en toda v en V. Demuestre que 0 es una transformación lineal.
para
-1y- para
4. Demuestre que el ejemplo 6.2 a) define una transformación lineal. 5. Demuestre que los ejemplos 6.2 b) y d) definen transformaciones lineales. 6. Demuestre que el ejemplo 6.2 c) define una transformación lineal.
7. Demuestre que Y(V, w') del ejemplo 6.2 e) es un espacio vectorial D 8. Suponga que 9 es una transformación lineal de Y a W y que F es una transformación lineal de W a 2". Demuestre que 9 9 ' es unatransformación en donde FLY se define por (FLY)(v) = F { Y ( v ) } para todav lineal de Y a 3, en Y; demuestre que Y F no está definida a menos que V = 2". 9. Demuestre que el espacioimagen de unatransformación lineal F d e Y a w' es un subespacio de $4". 10. Encuentre unafórmula para todoslos vectores en el espacio imagen de Y, en donde Y va de R2 a IR3 y está definida por F ( v ) = Av para
D 11. Sea F l a transformación lineal de Rq a Rp definida por F ( v ) = Av, en donde A es una matriz p X q . Demuestre que el espacio imagen de F es igual al espacio de columnas de A. 12. Encuentre el espacio imagen de la transformación F del ejemplo 6.2 b) suponiendo queAt) # O para toda t .
6.1
I
Introduccibn; transformaciones lineales
285
13. F es unatransformación
lineal desde P [ O , 11 -el espaciodetodas las funciones continuamente diferenciales en [O, 11- a C[O, 11-el espacio de las funciones continuas en ese intervalo. Para today en P [ O , 11, F(y) es lafunción cuyovalor en t es igual a y'(b) + y ( t ) ,en donde laprima quiere decir diferenciar con respecto a t . Demuestre que el espacio imagen de Y e s todo C[O, 11. D 14. Demuestre que el espacio nulo de una transformación lineal 9 d e Y a W es un subespacio de Y. 15. Demuestre el teorema6.6 sobre la unicidad de soluciones.
16. Encuentre una base para el espacionulo de la transformación F de R5 a R4 definida por 9 ( v ) = Av, en donde
r 1
-2
2 6
-4
1 2-31 4 -1
-3
3
-5
17. Demuestre que 9 ( x ) = F ( y ) si y sólo si x - y está en el espacio nulo de T .
D 18. Sea A una matrizp X
q con rango k , y defina F ( v ) = Av. Demuestre que la dimensión del espacio nulo de Y es igual a q - k . 19. Se dice que una transformación F es inyectiva si y sólo si 9 ( x ) = $(y) implica que x = y. Demuestre que una transformación lineal es inyectiva si y sólo si el espacio nulo de F es igual a {O}. 20. Encuentre una base para el dominiode 5del tipo descrito en el teorema6.8 si F(v) = Av y
D 21. Determine si la transformación definida en el problema 13 tiene inversa. 22. Suponga queY e s la transformación de IRp a R P definida por Y(v) = Av para alguna matriz A, p X p . Demuestre que 9tiene una inversa si y sólo si A es
no singular, y que entonces 9 - ' ( w ) = A"w. 23. Suponga que Y es una transformación lineal de Y a W y que 5 es una 9inversas, transformación lineal de W a 3;suponiendo que tanto Y como '= demuestre que9Y-véase el problema 8- tiene una inversa y que (99)y- I F - 1
D 24. Suponga que F es la transformación lineal de Cq a CP definida por 9 ( v ) = Av para alguna matriz A, p Y*(w) = AHw.
X
q . Demuestre que 9* existe mostrando que
286
6
Transformaclones lhneales y matrices
/
25. Demuestre que (F*)*= F. 26. Extienda el problema 5 de la sección 5.10 como sigue: suponga que Y es un espacio vectorial con un producto interior y que Yoes un subespacio. Defina de Yo comoel conjunto de vectores v el complemento ortogonal VOL ortogonales a todos los vectores en Yo.Demuestre que VOL es un subespa-
cio.
b 27. Suponga que F es una transformación lineal de Y a W , cada uno con productos interiores, y que existe la transformación adjunta Y*. Sea M el espacio nulo de F y sea 9*el espacio imagen de .Y*. a) Demuestre que (a*)' = AT (véase el problema 26). b) Utilice laproyección ortogonal sobre 91?*para demostrar quesi 9*es de dimensión finita. N' = a*. 6.2
REPRESENTACIONES MATRICIALES DE TRANSFORMACIONES LINEALES
En la sección 5.4 se vioque todo espacio vectorial real o complejo de dimensión finita es básicamente R P o C P . Se vio también en el ejemplo 6.2 a) que las matrices p X q definen transformaciones lineales entre R4 y Rp. Estos hechos dan una pista sobre el hecho fundamental con respecto a las transformaciones lineales definidas entre espacios vectoriales de dimensión finita: cada una no es más que una multiplicación matricial. Representaciones matriciales
Suponga que B = {v,; . . . ;v,) es una base ordenada de Y-, que C = {wl; . . . ; wp} es una base ordenadade W , y que Y es una transformación lineal de V a W . Para cada vj en B , ya que Y(vj) está en W , se puede escribir en términos de la base ordenada C: (6.12)
9(Vj)
= QljWl
+ u,jw, + . . . + upjwp.
Esto quiere decir, en términos del isomorfismo de coordenadas cc CC(Vj) = [u1j . .
'
A continuación, se escribe v en "fen términos de sus coordenadas en B: v = X l V 1 + . . + xqvq, '
de modo que c,(v) = [x, . . . x J T . A continuación se calcula F ( v ) : F ( v ) = F(X1V, + . . + xqvq) = x l F ( v l ) + . . . + x q F ( v q ) = x1(cI11w1 u21w2 . . UplWp) . . . Xq(cIlqW1 = y,w, ' . ypwp, '
+
+
'
+
+
'
+
+
+
+
'
. . + apqwp)
6.2
/
Representaciones rnatriciales
de transformaciones lineales
287
en donde las y i son las coordenadas en C de Y(v) y se calculan de (6.13)
yi
= UilXl
+
ffi2x2
+ . . . + uiqxq.
Si ahora sedefine la matriz A, p X q por los elementos (A)U= ail en donde las ail están definidas como en (6.12), ve seque las coordenadas en C y = c,-{F(v)} de la salida F ( v ) se relacionan con las coordenadas en B , x = cB(v)de la entrada v de acuerdo a (6.13) por una multiplicaciónmatricial: y = Ax. De este modo,en vez de aplicarFdirectamente av, es posible, en su lugar, 1) encontrar las coordenadas en B x de v en “Y-,2) calcular y = Ax y 3), usar los elementos de y como las coordenadas en C para formar un vector w en W ;w será lo mismo que F ( v ) . Entonces todas las transformaciones lineales entre espacios vectoriales de dimensión finita reales o complejos son equivalentes a la multiplicación matricial en los vectores de coordenadas. Se ha demostrado: (6.14)
El diagrama 6.15 representa esquemáticamentee1 teorema clave 6.14. (6.15)
Y
.Ir
+
v e n *Y
w
cy:
X
(6.16)
= Y(v) en W
coordenadas en C y de w en 08‘’ o cp:
coordenadas en B x de v en U P o
./lr
A
+
y = AX
Ejemplo. Sea V e l espacio vectorial real P3de los polinomios con grado estrictamente menorque 3 y sea W el espacio análogo P2.Se define Y de *Y- a W por
288
6
/
Transformaciones lineales y matrices
Sea B la base ordenada para Y, B = { 1 + t ; t + t 2 ; t2 + 1) y sea C la base ordenada para W, C = { 1 + t ; 1 - t}. Es posible evaluar T e n términos de los polinomios mismos por Y ( u + bt
+ C t 2 ) = b + ct.
Para representar T por una matriz A, se deben encontrar lasuij de (6.12) como sigue:
+ t ) = 1 = 0.5(1 + t ) + 0.5(1 - t), S(t + = 1 + t = l(1 + t ) + O(1 - t ) F ( t 2 + 1) = t = 0.5(1 + t ) - 0.5(1 t). "(1
t2)
-
Esto resulta en
A
[:::
1
O
0.51
-0.5
como la matrizque representa aFcon respecto a las bases ordenadas By C. Para comprobaresto, secalcula Y(1 + t + t 2 ) de kos maneras: directamente de Y e indirectamente a través de A. Para usar A, se necesitarán primero x, las coordenadas en B de 1
+ t + t2 = OS(1 + t ) + 0S(t + t 2 ) + 0.5(t2 + l),
yentoncesxdebe serx= [ O S 0.5 0.51'. Por lo tanto,a lscoordenadas en C , y, de F ( 1+ t t2)deberían serAx = [ 1 O]'. Usando estos elementos como coordenadas en C, resulta
+
l(1 + t ) + O(1 - t ) = 1
+ t.
Por lo tanto, de acuerdo al cálculo usando A, T ( 1 + t + t 2 ) = 1 + t; es fácil ver que esto es correcto usando la definición de 9. Ahora podrci resolver los problemas del 1
al
12.
Cambio de base
La representación A para una transformación lineal S que se construyó anteriormente depende fuertemente delas bases ordenadasB y C usadas en ^Y y en W. Si se cambian las bases, entonces la matriz A de la representación debe cambiarse. La pregunta es: ¿cómo? El teoremaclave 5.43 explicó cómo se By relacionan las coordenadas de un vector con respecto a dos bases ordenadas
6.2
/
289
Rewesentaciones matriciales de transformaciones lineales
B'; se puede usar fácilmente para explicar cómocambian las representaciones matriciales de transformaciones lineales (6.17)
Teorema (cambio de base y representaciones). Suponga que una transformación lineal F d e -Y- a W se representa por una matriz A con respecto a las bases ordenadas B y C de Y y W , como en el teorema clave 6.14. También suponga que seintroducen nuevas bases ordenadasB' y C' de -Y- y W. Si las coordenadas en B , vBy las coordenadas en B', v,.,, de los vectores Y , están relacionadas por la matriz no singular P (llamada M en el teorema clave 5.43) por vB = Pv,, ,y si las coordenadasen C , wc ylas coordenadas en C' ,wc, de los vectores w,están relacionadas por la matriz no singular S por wc = Sw,. ,entonces la matriz A' que representa con respecto a las bases ordenadas B' y C' es A' = S"AP. DEMOSTRACION. El problema es encontrarla matriz A' tal que w = y ( v ) sea equivalente a wc, = A'v,.. Se sabe quew = r ( v ) es equivalente a wc = AV, y se tiene que V, = Pvw y'wc = Sw,. De todo lo anterior se obtiene que
wcr = S"wc = S"AV, = S"APV,, = A'v,, siendo
que es lo que se había afirmado.
m
Una situación común es que Y = W, B = C y B' (6.18)
A' = S ' A P ,
=
C ' , en cuyo caso S
=
P.
Ejemplo. Considere la matriz A del ejemplo 2.17 sobre las poblaciones en competencia, en donde se encontró experimentalmenteque las distribu= A*x, tendían a cero cuando i se hacía grande, ciones de población aunque no se pudo probar que esto siempre pasaría. A define una transformación lineal Fde -Y- = Iw2 a W = Iwz por F ( v ) = Av y de hecho y está representada por A con respecto a las bases ordenadas B = C = {e,; ez} -véase el problema 10. Suponga queen su lugar se consideran las nuevas bases ordenadas
B' = c
= ([S
De acuerdo al teorema clave5.43 las matrices P = S que hacenel cambio de coordenadas se encuentran fácilmente y son S =P
=
[i y],
y asíseobtiene
S"
= P"
=
[2 ;
!J.
A continuación se usará el teorema 6.17 para descubrir la forma en que F está representada con respecto a las nuevas bases ordenadasB' y C' por
290
6
I
Transformaciones lineales y matrices
Esta representación deY hace mucho más fácilque A la tareade imaginar lo que pasa cuando Y se aplica repetidamente a una distribución inicial de poblaciones xl.Aplicar Y repetidamente a x1 es equivalente amultiplicar A' repetidamente por las coordenadas en B' de xl. Pero esfácil notar, por la forma especial deA', que la multiplicación repetida por A' -esto es,(A')t sólo es
matriz en la cual cada elemento tiende a cero cuando i se hace grande. Así, las coordenadas en C' de xi+l-que es igual a (A')i por las coordenadas en B' de xl- deben tender a cero, lo que demuestra quelas poblaciones xi tienden a cero sin importar la población inicial. Las bases especiales B' y C' del ejemplo 6.18 fueron la clave para obtener una representación tan sencilla de .Fcon la que sepudo ver lo que sucedía a las poblaciones. El cambio de bases para obtener una representación sencillade una transformación lineal a menudo es un pasofundamental enel estudiode una transformación y la aplicación que modela. El problema que queda es cómo escoger una base ordenada para que la representación sea simple.Se retomará esta dificultad en el capítulo 7. PROBLEMAS 6.2
D 1. Sea 9 la transformación identidad 9 ( v )
= v de Y - a Y-,en donde Y- es de dimensión finita y en donde se usa la misma base ordenada para V como matricial dominio y contradomino de 9. Encuentrelarepresentación de Y . 2. Sea 6 la transformación cero f?(v) = O de Y- a W, ambos de dimensión finita. Encuentre la representación matricial de O. D 3. Sea -Y- igual a P 3 ,el espacio de polinomios con grado estrictamente menor que 3 , y sea W el espacio análogo P4, Defina Y de ^t. a %" de modo que, para cada polinomiofen-Y-,S@sea el polinomiode W cuyo valor en t sea igual a rAt>+ (f(r) - AO)}/t.Encuentre la representación matricial de Y con respecto a las bases ordenadas
+ t; 1 + t + t 2 }
B
= {I; 1
-
t; 1 + 2t
para Y",
Y C = { 1; t
+ t 2 ; 1 - 3t + 3t2
-
t3)
para W"'
Compruebe que la representación es correcta calculando Y(-2 dos maneras.
+ 3t
-
P) de
6.2
/
Representaciones rnatriclales
de transformaciones lineales 291
4. Sea V = W de dimensión p y sea 9 la transformación identidad 9 ( v ) = v
para todav. Sea B la base ordenada que se usa para V como el dominiode 9, y sea B una base ordenadadistinta usada paraY como el contradominio de 9. Compare la matriz que representa a 9 con las matrices generadas para cambiar las bases del teorema clave 5.43. 5. Sean P3y P4los espacios del problema 3 y sea F la transformación lineal de P4a P3que transforma cadapolinomio en su derivada. Encuentrela representación matricial de F con respecto a las bases ordenadas
B = { I ; t ; t2; t 3 } para P4 Y
D 6.
7.
8.
D 9. 10.
D 11. 12.
D 13.
c = { 1; t; t 2 }
para P3.
Compruebe quela representación es correcta calculando Y(1 + 2t + t2 + t3) de dos maneras. Sea P4como en el problema 3 y sea la transformación lineal de P4a Y4 que transforma cada polinomio f en la derivada de r f l t ) . Utilice la base ordenada (1; t ; t2; t3} de . P 4 tanto como dominio como contradominio para encontrar una representación matricial de F y compruebe quela representación es correcta calculando F { 2 - 3r + t2 - t“} por dos caminos. Suponga queX representa a Y de -Y- a W con respecto a las bases ordenadas B para V y C para W, y suponga que Y representa a Y y W a %” con respecto C para W y D parab. Demuestre queYX representan a las bases ordenadas 9’Y con respecto a B para V y a D para 2’. Suponga que A representa a F de V a Y con respecto a alguna base ordenada usada en Ycomo dominio y como contradominio. Demuestre que A* representa a F para enteros i > O.. Suponga que A representa a F de %e a W.Demuestre queY-1existe si y sólo si A es no singular, y que entonces A” representa a Y-I. Suponga que A es una matriz p X q y que F ( v ) = Av como de costumbre. Demuestre que A representa a Y con respecto a las bases ordenadas {el; . . . ; eg} del dominio y {el; . . . ; e,} del contradominio. Suponga queA representa a y de Y a W con respecto a las bases ordenadas B para V y C para W. Demuestre que F ( v ) = O si y sólo si Av, = O, en donde V, representa las coordenadas en B de v. Con la nomenclatura del problema 1 1 , demuestre quew está en el espacio imagen de F s i y sólo si las coordenadas en C de w, wc, están en elespacio de columnas de A. Sea la transformación lineal w = F ( v ) de R2 a R 3 definida por w1 = u1 - 0 2 ,
w2 = 20,
+ u2,
y
w3 = u, - 20,
292
6
/
Transformaciones lineales y matrices
en donde v = [v, u J y w = [w,w 2w J T .Encuentre la matriz A que representa a F con respecto a las bases ordenadasB = {e,; eJ para R2 y C = { e , ; e,; eJ para R3. Compruebe calculando F([2 1]T) por dos caminos 14. Sea B’ = {[ 1 OIT; [ 1 1T). Mediante el teorema6.17, encuentre la matriz que representa a Y del problema 13 con respecto a B‘ y C. Compruebe calcu15.
D 16.
17.
18.
6.3
lando F ( [ 2 117 de dos maneras. Sea C’ = {[l 2 1IT; [O 3 - 1IT;[O O 13q. Mediante el teorema 6.17 encuentre lamatriz que representa aY del problema 13 con respecto a B y a C . Compruebe calculando F ( [ 2 1IT) por dos caminos. Mediante el teorema 6.17 encuentre la matriz que representa a del problema 13 con respecto aB‘ del problema 14 y C‘ del problema 15. Compruebe calculandoF([2 117 de dos maneras. Considere el modelo de crecimiento de población de la sección 2.3 con k = O. 1 como en el ejemplo 2.16, en donde se demostró experimentalmente que las poblaciones tendían al infinito. Siguiendo el ejemplo 6.18, analice el comportamiento delas poblaciones a medida quei tiende a infinito mediante dominio como para el la base ordenada {[5 1IT; [ l 1]’> tantoparael contradominio. Considere elmodelo de crecimiento depoblación de la sección 2.3 con k = 0.16. Siguiendo el ejemplo 6.18, analice la conducta de las poblaciones a medida que i tiende a infinito usando la base ordenada {[5 4IT;[S 2T) tanto para el dominio como para el contradominio.
NORMAS DE TRANSFORMACIONES LINEALES Y MATRICES
Como se indicó anteriormente, el matemático aplicado a menudo estudia las propiedades de transformaciones lineales tratando de entender sus efectos sobre las “entradas”. Un problema común es el de comprender el “tamaño” de la transformación en el sentidodel tarnafio de sus efectos sobre las magnitudes de esas entradas. Por ejemplo, en la sección 2.3 podría estar interesado en saber cdánto puede amplificarse la población de gallinas y zorros en un solo periodo de tiempo. Ya que se han presentado métodos precisos -normas- para medir la magnitud de los vectores, esposible usarlos para ayudar medir a eltamaño de los efectos de una transformación lineal; esto a su vez proporciona un método para medir el tamaño de matrices (como transformaciones lineales). NOT~.UJS de transformación lineales
S e a r una transformación lineal deun espacio vectorial Y con una norma lI.IIv a un espacio vectorial W con una norma IJ.lIw.Para cadav diferente de cero en “y-,
6.3
I
Normas de transformaciones lineales y matrices
293
el cociente ~ ~ Y ( Vmide ) ~el~aumento ~ / ~ causado ~ V ~por ~ la~transformación en ese vector específico v; un límite superior a este cociente que fueraválido para toda v mediría entonces el efecto general de Z7sobre $1 tamaño de los vectores en V. Se puede demostrar queen cada espacio-Y- de dimensión finita,el cociente anterior tiene un valor máximo al que se llega con un vector especial v. Por eso, en todos los espacios reales o complejos de dimensión finita, hay un máximo para el valor del cociente IIY(v)llw/llvllvparatodo v # O, y este númeromide eltamaño del efecto de Y:si este número es pequeño, entoncesY reducirá la norma de todos los vectores; si este número es grande, entoncesalgunos vectores aumentarán mucho su norma por 9. Por analogía con las normas vectoriales que miden le la norma de Y inducida por el tamaño de los vectores, a este número sellama las normas dadas sobre Y y W. En algunos espacios de dimensión infinita, el cociente IIY(v)IJw/IJv(lv puede no tener límite superior; inclusive si está acotado, puede ser que no se alcance el valor máximo con ninguna v especial. Sin embargo, cuando el cociente está acotado, tendrá una cota superiormínima llamada su supremum. La definición que sigue por lo tanto usa la palabra “supremum” en lugar de “máximo” para tener en cuenta esta posibilidad, aunque este casono ocurrirá en este libro. (6.19)
Definicidn. Sea 9 unatransformación lineal de -Y a W que tienen normas Il-llv y Il.llw. La norma (de la transformación) II.llv,w inducida por Il*llv Y Il*IIw se define Por
siempre que este supremum sea finito. La normade una transformación tiene la mayoría de las propiedades de las normas vectoriales que se describieron enla definición5.54; de hecho-problema 6- la norma deuna transformación es una normavectorial en elespacio vectorial 9 ( V ,W ) de todas las transformaciones lineales de -Y- a W (de dimensión finita). Además, satisface algunas propiedades especiales debido a que se calcula partiendo de transformaciones.
294
6
/
Transformaciones llneales y matrlces
DEMOSTRACION. Es fácil ver que cadauno de los suprema es finito, porque son finitos para lip, A%', y N . a), d)y e) son consecuencia inmediata de la definición de norma de una transformación. b) Es evidente para a = O y se comprueba fácilmente para a diferente de cero porque (a(puede factorizarse fuera del supremum. c) De la desigualdad del triángulo para normas vectoriales se tiene que
Il@ + 4 ( v ) l l w = I l m ) + .,w)(Iw I I = w l l w + l l J w 9 ~ ~ w 5 ( \ ~ ~ I ~ Y+, W ) ( ~ l l ~ , ~ ) l l v l l usando ( 4 . Lo anterior dice que el cociente que define la norma de Y + A está acotado superiormente por (I$P((v,w + ~ ~ J % 'de ~ ~ modo ~ , ~que , la cota mínima es igual cuando más a esto. f) es consecuencia deun argumento semejante al de c), y entonces g) sigue por aplicación repetida de f ) . Ahora podrá resolver los problemas del 1 al 8.
Normas matricides
En este libro nos ocupamos principalmente de Rp,Cp, y sus subespacios; las transformaciones lineales de interés se definen por multiplicación matricial: Y(v) = Av. En esos casos las normas vectoriales que más se usan son II. ( II, 11.1)2 y ll.llm que se definieron en 5 3 5 . Es natural y útil considerar las normas de transformaciones lineales inducidas por esas normas vectoriales sobre transformaciones lineales definidas por matrices. (6.21)
Ejemplo. Suponga que A es una matrizp x q siendo (A),1 = au y definase a Por a = mbx i
1 laij]. 4
j=1
6.3
/
Normas de transformaciones heales y matrices
295
Para cualquier v en Rq(o Cq), denomine a ( v ) ~con vi, y suponga que el CY máximo que se acabade definir se alcanzapara i = io. Entonces si F ( v ) = Av, se tiene que IJY(v)\\,= \IAvUa, = m i x \(Av),\ = i
I @IIVII,,
yasí ( I ~ ( V ) ~ ~ , / ~ \IV \CY\para , todo v diferente de cero; esto quiere decir que esta norma de la transformación F es, alo más, (Y. De hecho es igual a (Y; para demostraresto, se debe encontraruna v especial para queel cociente acostumbrado seaigual a (Y.Paracadaj, escogemos a v5 con valorabsoluto 1 tal que ai,v5 = luiojl.Claramente IIv((, = 1, por 10 tanto I l ~ ( v ) l l5~ a; a h más,
de modo que, enefecto, IIS(v)llm= CY paraesta v especial. Así, estanorma de la transformación F es igual a CY. Como la transformación del ejemplo 6.21 es justamente una multiplicación porA, parece razonable llamar a la norma que se ha calculado, una normade A así como una norma de F. (6.22)
Definicidn. Para una matriz A, p X q , por normas de la matriz IIAlll,llAl12 y llAll.. -o cualquiera otra normade la matriz IlAll- se entenderán las normas de la transformación F definida por F ( v ) = Av que se inducen cuando se usa la correspondiente norma vectorial tanto en el dominio como en el contradominio de F.En especial,
En el ejemplo 6.21 se encontró que es posible calcular llAllmcon los elementos de A; un argumento semejante -problema 10- conduce ala fórmula relacionada para llAlll. Desafortunadamente, el cálculo de llAl12 es mucho más complejo e
296
6
Transformaciones lineales y matrices
/
involucra un concepto que nose encontrará sino hasta el capítulo siguiente; sin embargo, para completar el tema, se enunciará aquí la fórmula.
(6.23)
(6.24)
Ejemplo. En la sección 2.3 se consideró -enel lenguaje presente- una transformación lineal que modelaba elcrecimiento de poblaciones en competencia de gallinas y de zorros, desde un periodo de tiempo hasta el siguiente. En particular, en el ejemplo 2.17 se trató el modeloen que9 ( x ) = Ax para
Si lo que interesa es el número total de animales en el modelo, entonces calcula esta cifra para cada x de poblaciones. Usando esta norma y la fórmula anterior, resulta en llAlll = 1.7, y así se sabeque la población total puede aumentarse por un factor de 1.7 en cualquier periodo de tiempo. Si, en su lugar, se estáinteresado en el número máximo de animales de un tipo, entonces calcula estenúmero. Mediante esta norma y la fórmula anterior, resulta quellAllm= 1.38, y así se sabeque la población máxima se puede aumentar porun factor de 1.38 en cualquier periodo. Observe también que según el teorema clave 6.20 g) es posible concluir que, por ejemplo, ((A'((, I(1.38y, lo que daría laimpresión de que se debería esperar queAi contuvieranúmeros grandes para i grande; la desigualdadda sólo una coca superior de IJAiJJ,, sin embargo -el ejemplo 6.18 de lasección anterior mostró que en realidad Ai converge a O a medida que i tiende a infinito. Las normas dan información útil sobre las matrices, pero son una herramienta bastante imprecisa-al menos para estudiar el comportamiento de las potencias de una matriz. Recuerde queel teorema 5.59 sobre la equivalencia de normas, mostró que las normas vectoriales 1 , 2 e 00 son todasequivalentes. Es fácil usar las desigual-
6.3
I
Normas de transformaciones lineales
y matrices
297
dades en el inciso b) de ese teorema para desarrollarhechos similares para las normas matriciales inducidas. Por ejemplo, para A, p X q , se tiene que IlA~lll5 pllAxllm 5 ~ I I A l l . o l l ~ I l m
pllAIImllXII1~
lo que significa que IIAxII1/IIxII1está acotado por pllAllm.Como llAlll es la mínima cota superior para este cociente, se concluye que \\Al\,5 pJ\A\\,.Argumentos semejantes conducena semejantes desigualdades entre las demás normas matriciales. Aún más, es posible usar el concepto de convergencia de la definición 5.58 para considerarlas sucesiones Ai de matrices, de modo que Ai converja a A, si y sólo si )\Ai- Awl\converge a O para cualquier norma que estemos usando. Como I(A)jRI5 llAll, para todaj y k , la convergenciaen este sentidosignifica que los elementos deAi convergen a los elementos correspondientesde A,. De este modo se tiene un análogo directo del teorema 5 S9 que trata sobrela equivalencia de las normas vectoriales. (6.25)
Teorema (equivalencia de normasdematrices).Las normas 1 , 2 ede las matrices son todas equivalentes en el siguiente sentido: a) Si una sucesión de matrices Ai convergen a A, en una de las normas, entonces convergeráen las tres normas y los elementos (Ai)Jkconvergerán hacia los elementos (Am)jk. b) Para todas las matrices A, p X q ,
DEMOSTRACION.
Véaseel problema 14. w
PROBLEMAS 6.3
D 1. Suponga que Y es una transformación lineal, y que para todo v en “Ir, se tiene ( l m ) ( ( w5 kllVllY
para alguna k fija. Demuestre que ~ ~ ~i k.~ ~ v , w 2. Demuestre que cada supremum quedefine una norma de transformación en el teorema clave 6.20 b), c), f) y g), es finito.
298
6
/
Transformaclones lineales
y rnatrlces
3. Dé los detalles de la demostración del teorema clave 6.20 a) b) y d)-g).
D 4. Suponga que 4 es la transformación identidad, $(v)
= v para toda v en y , y que 11. / 1 es una norma en V. Encuentre la norma de la transformación 9 .
5. Suponga que 8 es la transformación cero, O(v) = O en W para todo v en "Y-, y que ambos, -Y- y W , tienen normas. Encuentre la norma de latransforma-
6.
D 7.
8.
D 9. 10.
ción O. Suponga que Y y W son espacios vectoriales de dimensión finita, cadauno con una norma. Demuestre que II.lly,w es una norma vectorial en el espacio vectorial 9 ( V " ,W ) detodas las transformaciones lineales de "Y- a W . (Véase el ejemplo 6.2 e.) Para cada función continua x en el espacio vectorial real C[O, 11, defina como el valor máximo de Ix(t)l para O S t S 1. Encuentre la norma de la transformación lineal Y definida en el ejemplo 6.2 b). Suponga que Y es una transformación lineal de Y' a Y' siendo ~ ~ Y 9
sería linealmente independiente contradiciendo el hecho ya conocido V=X-!%rxr=cclx,
+ ‘ ~ ~ + c c r - l x +cIr+lx,+I r-l + . . . + a,x,.
e) Se sabe que llAxll 5 IlAll llxll para toda x, de modo que es válido para el eigenvector. Pero
ya que x # O, entonces esposible dividir a estaúltima ecuación por llxll y usar la desigualdad anterior para obtener (Al i ((Al(.
Los ejemplos de la sección 6.1 ilustran el teorema 7.10. En el ejemplo 7.1 la matriz A, 2 x 2, tiene dos eigenvalores simples diferentes A, = 4 y A2 = 16; es fácil resolver Ax = Ax para encontrar los eigenvectores asociados x1 = [l
2]T
y
x2
=
[l
-1y,
los que forman un conjunto linealmente independiente. La matriz A, 3 x 3 del ejemplo 7.2 tenía tres eigenvalores simples diferentes y tres eigenvectores; se puede demostrar fácilmente que forman un conjunto linealmente independiente. Cada uno de esos casos involucró, únicamente, eigenvalores de multiplicidad asociados con algebraica 1;la situación con respecto al número de eigenvectores un eigenvalor no simple es bastante más complicada, como se verá a continuac ión . Ahora pod& resolver los problemas del I al 13. Eigenvectores de eigenvalores múltiples
Se quiere examinar el asunto del número de eigenvectores asociados con un eigenvalor de multiplicidad algebraica mayor que l . Desde luego se sabeque six es un eigenvector deA asociado con A, entonces también loserá a x para toda Q # O; de estemodo se ha encontrado un número infinito de eigenvectores asociados con A, pero todos ellos son linealmente dependientes del eigenvector x del que se partid. Lo que se quiere saber es si habrá algunos eigenvectores “verdaderamente diferentes” -eigenvectores que sean linealmente independientes de x.
322
7
I Eigenvalores y eigenvectores: una panoramica
(7.1 1)
Ejemplo. Seconsiderarála
matriz sencilla 5 x 5 7 O
0 4
0 1
0 0
0 0
Es fácil encontrar queel polinomio característico deA es (7 - Q2(4 de modo que los eigenvalores de A son h, = 7 de multiplicidad algebraica m , = 2 y A, = 4 de multiplicidad algebraica m, = 3. Los eigenvectoresse consideran asociados a estos eigenvalores. (A, = 7). Considere la ecuación (A - 7I)x = O que se debe resolver para encontrar eigenvectoresx asociados a Al = 7. La matriz aumentada de este sistema es
1 o
o
o
o -3
o 1
o o
; -; ; o
o
010 010 I
j
j
?
o -310
en donde es fácil ver que la solución general
debe serx5 = 0,x4 = k arbitraria, xg= O,x, = O yx, = h arbitraria. De aquí se obtiene x = [h
O O k 017 = h e ,
+ ke,
como el conjunto de todos los eigenvectores asociadoscon A, = 7 para h y k arbitrarias. Por lo tanto, e, y e4 son eigenvectores asociados a A, = 7, y todos los demás eigenvectores semejantes son linealmente dependientes de e, y e4. Seha formado un conjunto linealmente independiente de dos eigenvectores asociados con este eigenvalor de multiplicidad algebraica dos. (Az = 4). De modo semejante, considere (A - 4I)x = O y la matriz aumentada de este sistema se que deberá resolverpara encontrar todoslos eigenvectores asociados a A2 = 4:
o o
o 1
o o
O10
o o
o
o
o
o/o
3
010
7.2
I
Definiciones y propiedaaes basicas
323
Nuevamente, es posible visualizar con facilidad que la solución general debe serx5 = k arbitraria, xg = O, x3 = O, x2= h arbitraria y x, = O. Esto da x = [O
h O O
klT = he, + ke,
como el conjuntode todos los eigenvectores asociadoscon A, = 4. Por lo tanto, e2 y e5 son eigenvectores asociados con A, = 4 y todos los demás eigenvectores semejantesson linealmente dependientes de e, y de e5. Esto A, = 7, pero observeque en este casopara parece similar a lo que pasó con Xz = 4 se ha encontrado un conjunto linealmente independiente desólo dos eigenvectores asociados con un eigenvalor de multiplicidad algebraica tres. Por lo anterior no es posible encontrar un tercer eigenvector asociado a A, = 4 que sea linealmente independiente de los dos que ya se habían encontrado. Observe, sin embargo, que aunque no se puede encontrar ese tercer eigenvector, es posible encontrar un tercer vector -digamose,- tal que, junto con los dos eigenvectores, forme una base {e3,e,, e,} para un subespacio invariante de A de dimensión 3, ya que es fácil visualizar que A(ae,
+ pez + ye,) = 4ae, + (48 + a)e2 + 4ye,.
La situación ilustrada enel ejemplo 7.11 es típica: un eigenvalor Ai de multiplicidad algebraica mi puede o no tener un conjunto linealmente independiente de mi eigenvectores asociados, pero siempre tendrán un subespacio invariante de dimensión mi. A la multiplicidad algebraica se le llamó “algebraica” porque provino del concepto algebraic0 de Ai como raíz múltiple del polinomio característico; el concepto dedimensión del espacio delos eigenvectores asociados es geométrico, y conduce a la noción de multiplicidad geométrica de un eigenvalor. (7.12)
Definición. La multiplicidad geométrica ,ur de un eigenvalor At de A es el número máximo de eigenvectores asociados a hi que son linealmente independientes; es decir, pf es la dimensión del subespacio (cuando se incluye a O) de todos los eigenvectores asociados a Ai.
Con esta nomenclatura, la matriz A del ejemplo 7.11 tiene M , = , u 1 = 2, pero m, = 3 mientras que p2 = 2. Es posible construir ejemplos en los que pisea igual a cualquier entero si 1 5 pi Im,. No será sino hasta el capítulo 9 donde setengan las herramientas para demostrar:
324
7
/
Eigenvalores y elgenvectores: una panoramlca
PROBLEMAS 7.2 1. Demuestre que la matriz
2
-1
o
-1
2 tiene los eigenvalores 2 y 2 dientes.
-I]
* vT,y encuentre los eigenvectores correspon-
D 2. Encuentre un conjunto linealmente independiente de dos eigenvectores de la matriz
[f -2
correspondiente al eigenvalor h eigenvector.
2 -1 -1
= -2.
41 -6
Encuentre el otro eigenvalor y el otro
3. Demuestre que h = O es un eigenvalor de A si y sólo si A es singular. D 4. Encuentre el polinomio característico de la matriz general 2 x 2. 5. Demuestre quelos eigenvalores de una matriz triangular (superior o inferior) T son los elementos ( T ) i i ,y encuentre los eigenvectores asociados. 6. Para la matriz A del modelo de competencia entre poblaciones del ejemplo 2.13 con k = O . 16, encuentre el polinomio característico, los eigenvalores y los eigenvectores. D 7. Encuentre el polinomio característico de la matriz A de transición solicitada en el problema 6 de la sección 2.2. W 8. Utilice MATLAB o algún software semejante para encontrarlos eigenvalores y los eigenvectores de la matriz del problema 7. 9. Generalice el modelo de las masas oscilantes de lasección 2.5, para el caso de p masas m,,m2,. . . , m py p resortes con sus constantes de resorte k,,
7.2
/
Deflnlclones y propiedades bascas
325
k2, . . . , k, demostrando que las ecuaciones que generalizan (2.28) nuevamente se representan por medio de (2.30), en donde ahora K y M son p X p ,
M
= diag(m,, . . . , mp),
siendo K tridiagonal: (K)¡¡ = ki + k,+l (definiendo a ,,k, = O por convenienc i a ) p a r a l s i s p , ( K ) i , i - l = ( K ) i - l , i =- k i p a r a 2 s i s p , y t o d o s l o s d e m á s (K)i, = O . !'Dl 10. Definiendo a A = M"K y a A = w2 como en el ejemplo 7.1, utilice MATLAB o algún software semejante para encontrar los eigenvalores A y las correspondientes w si, en el problema 9, p = 10 y las masas m i= 5 y ki = 40 para toda i . También encuentre las frecuencias de oscilación0/(277) para el sistema de masas acopladas. 11. Si A tiene el eigenvalor Ai, demuestre que: a) La transpuesta de A tiene los mismos eigenvalores que A. b) La matriz kA tiene el eigenvalor kAi. c) La matriz A' tiene el eigenvalor j.;, siendo r un entero positivo. d) Si A es no singular, A-' tiene el eigenvalor l/Ai. e) La matriz A + kI tiene el eigenvalor hi + k .
D 12. Si Ax) es un polinomio en
x y A es una matriz cuadrada, entonces AA) representa a la matriz obtenida sustituyendo a xi por A' (y a xo por I) en la fórmula de Ax). Demuestre que A A ) es un eigenvalor de AA) asociado al eigenvector x si A es un eigenvalor de A asociado a x. 13. a) Demuestre que si A es una matriz hermitiana, entonces A puede escribirse como A = B + r'C, en donde B y C son reales, B = BT y C = - C T . b) Describa la forma de deducir el eigensistema de A en a) partiendo del de la matriz real simétrica
14. Los eigenvalores de una matriz A, 10 x 10, son 3 , 2 , 2 , 2 , 2 , 6 , 6 , 6 , 12, 12.
a) Encuentre el polinomio característico de A. b) Encuentre la multiplicidad algebraica de cada eigenvalor diferente.
15. Encuentre el polinomio característico y las multiplicidades algebraicas y geométricas para cadaeigenvalor diferente de lamatriz idéntica I , p X p , y de la matriz O, cero, p X p . 16. Ya que A = - 2 es un eigenvalor de
326
7
I
Eigenvalores y eigenvectores:unapanoramica
encuentre los eigenvalores de A y sus multiplicidades algebraicas y geométricas, así como tantos eigenvectores (que linealmente sean independientes) como sea posible. D 17. Encuentre los eigenvalores de A, así comosus multiplicidades algebraicas y geométricas, y tantos eigenvectores (que sean linealmente independientes) como sea posible, en donde
18. Haga lo que se pidió en el problema 17, pero para
[-:-; i] 1
A=
7.3
EIGENSISTEMAS, FACTORIZACIONES Y REPRESENTACIONES DE TRANSFORMACIONES
Secomenzó el capítulomotivando al estudiode los eigensistemasdesde cuatro diferentes puntos de vista. Los dos primeros se trataron en la sección 7.2: la singularidad de A - AI y los eigenvectores y subespacios invariantes más generales. Ahora se estudiarán los puntos de vista restantes. Factorizaciones matricides De nuevo, considere la matriz 0.2
0.8
A
=
0.1
[x: x: x];:
que originalmente surgió en el ejemplo 2.6 con el modelo de competencia entre en el ejemplo 7.2 lecherías, y cuyos eigenvalores y eigenvectores se encontraron en donde A, = 0.5, A2 = 0.6 y A3 = 1.0, y x 1 = [I
-2
1IT, x2 = [I
-1
OIT,
x3
=
[S 7 41T
que forman un conjunto de eigenvectoreslinealmente independientes. AI escribir las ecuaciones Axi = Alxi en la forma de bloque A [ X z3I 1
= [J*IX 2 2I Jx ~2 ~ X L I I
7.3
/
Eigensistemas. factorizaciones
y representaciones de transformaciones
327
se ve que, si se define a
la ecuación en bloque anterior puede escribirse AP = PA. Como el conjunto de columnas de P es linealmente independiente, por elteorema clave5.50 c), Pes no singular y así es posible reescribir AP = PA como A = PAP", lo que puede comprobarse fácilmente numéricamente (P-l surgió en el ejemplo 7.3, en donde se le llamó "I). De este modo, la existencia de un conjunto de eigenvectores linealmente independiente permite factorizar la matriz A, 3 x 3, en un punto especial A = PAP" en donde A es diagonal. Esto puede hacerse en general, para una matriz A p X p y de hecho es equivalente a la existencia de un conjunto linealmente independiente de p eigenvectores de A.
(7.14)
DEMOSTRACION. Se procederá de acuerdo almaterial presentado antes del teorema. x], (eigensistema * factorizaciones)Forme una matriz P = [x1 . partiendo de un conjunto de eigenvectores linealmente independiente y forme una matriz diagonal A = diag(A,, . . . , A,) con los eigenvalores asociados. Ax, = htx(significa que AP = PA; como P es no singular por el teorema clave5.50 c), se obtieneA = PAP" Y A = P"AP como seafirmó. (factorización eigensistema) Si A = PAP" o A = P"AP siendo A diagonal,a lsreglas de multiplicación para matrices separadas dicen que Ax, = hixi, en donde las xt son las columnas de P, y las A, son los elementos ls xi diagonales de A (tomados ambosen orden). Ya que P es no singular,a forman un conjunto linealmente independiente y son diferentes de cero; por e l b forman un conjunto linealmente independiente dep eigenvectores, comose afirmó. m
-
328
7
Eigenvalores y eigenvectores: una
i
(7.15)
panor6mca
Ejempb. Considere la matriz sencilla A=[0 1
21
01
O
0
3
cuyo polinomio característico es claramente igual a (1 - 4 ( 2 - 4 ( 3 - A);
entonces los eigenvalores (simples) son A, = 1, Az = 2 y A3 = 3. Los eigenvectores correspondientes se encuentran fácilmente, como columnas de P, forman
Un cálculo directo lleva a que
Se puede comprobar fácilmente que
Ahora podrci resolver los problemas del 1 al 6.
Representaciones de transformaciones Recuerde de la sección 6.2 la forma en que las matrices representan transformaciones lineales con respecto a bases ordenadas; de acuerdo al teorema clave 6.14 la transformación lineal Fse representa por la matriz cuya i-ésima columna se forma a partir de los coeficientes que se usaron para escribir F(vj) en términos de las wi, en donde las vj forman la base ordenada del dominio y las wj la base ordenada del contradominio de .F. Suponga ahoraque F se define por la matriz A, p X p como F ( v ) = Av y que la base ordenada que se usa tanto paradominio el como para elcontradominio RP o Cp'es la canónica {el; . . . ; ep}. Entonces, de acuerdo con la receta anterior, la matriz que representa a F tiene como i-ésima columna a los coeficientes de e,, . . . ,epen la representación de F(ei) = Aei, que esjustamente la i-ésima columna de A. Entonces:
7.3
(7.16)
/
Eigenslstemas, factorlzaciones y representaciones de transformaciones
329
X p , por sí misma, representa la transformación lineal 5definida por 5 ( v ) = Av con respecto a la base ordenada{e,; . . . ;e,} que se usó tanto para el dominio como para el contradominio deF.
A, p
También recuerde de sección la 6.2 la forma en que cambia la representación matricial de una transformación lineal al cambiar las bases ordenadas. De acuerdo al teorema 6.17, la matrizA que representaa 5 con respectoa un par de bases ordenadas, se sustituye por A' = S-lAP con respecto a otro par,en donde las matrices S y P hacen el cambio entre las coordenadas en C y las coordenadas y las coordenadasen B y B' en el dominio respectivaen C' en el contradominio, mente. Con la nomenclaturadel teorema 6.2, suponga que las bases ordenadas originales B y C son B
=C=
{ e l ; . . . ;e,}
y que se usan tanto para el dominio como para el contradominio y, suponga también que las nuevas bases ordenadas son, porejemplo, B'
= C' = {x1;. . . ; x,}.
Entonces las matrices decambio S y P son iguales pero se usará P como matriz común. ¿Cómo es estamatriz P? De acuerdo al teorema clave 5.43, la i-ésima columna de esta matriz se obtiene a partir de los coeficientes usados para escribir el i-ésimo vector de B' = C' como combinación lineal de los de B = C . En este caso, lo anterior significa que la i-ésima columna de P se origina al escribir xi como combinación lineal de {el,. . . ,e,}-y esos coeficientesno son otra quelos elementos de la mismaxi. Estoes, lamatrizdecambio Pes igual a[xl x2 . . * x,], y la nueva matriz A' que representa a F como en (7.16) es A' = P"AP. A continuación se resumirá lo que se ha demostrado.
(7.17)
Teorema. Suponiendo que A es p X p y que la transformación lineal F se define pory(v) = Av, y también que B = {el; . . . ;e,} es la base ordenada canónica mientras que B' = {xl; . . . ;x,} es otra base ordenada; entonces:
a) A por sí misma, representa a F con respecto a la base ordenada B que se usó tanto para el dominio como para el contradominio deF. b) Con respecto a la base ordenada B' que se usó tanto para el dominio como parael contradominio deF , F se representapor A' = P-'AP, en donde P = [x, . x,]. Como A' = P"AP y A = PA'P-l son equivalentes, el teorema 7.17 se combina con el teorema clave 7.14 paradescribir el cuarto punto de vista sobre los eigensistemas.
330
7
/
Eigenvalores y eigenvectores: una panorBmica
(7.18)
Véase el ejemplo7 . 3 para ilustrar este teorema, así como el materialque condujo a dicho ejemplo en la sección 7.1. Hasta ahora, los eigensistemas se han discutido desde cuatro puntos de vista, aunque uno de ellos -la singularidad de A - AI- en realidad sólo se refierea los eigenvalores. Los eigenvectores se han discutido en realidad desde tres puntos de vista: eigenvectores y subespacios invariantes, factorizaciones de matrices, y representaciones de transformaciones lineales. Por ejemplo, en esta sección se ha expresado una sola idea en cada una de estas tres formas: l . A, p x p , tiene un conjunto linealmente independiente de p eigenvectores. 2. A se puededescomponercomo A = PAP-' -de modo que A = P-lAP- en donde A es diagonal. 3 . F ( v ) = Av puede representarse por una matriz diagonal A. Igualmente, se encontrará queestos distintos puntos de vista sonútiles cuando A no tiene un conjunto de eigenvectores con una estructura tan sencilla; dependiendo de la situación, cualquiera de esos tres puntos de vista podría ser de mucha ayuda para comprendernaturaleza la de una matriz en particular o de una transformación lineal. Por consiguiente, es importante captar la equivalencia de los puntos de vista como lo indica la figura (7.19).
Representación de la transformación definida
por A mediante una matriz
más sencilla
7.3
/
Eigensistemas, factorizaciones
y representaciones de transformaciones
331
PROBLEMAS 7.3
D 1. Encuentre una descomposición A
=
PAP" con A diagonal para
2. Encuentre una descomposición A
=
PAP" con A diagonal, para
3. Encuentre una descomposiciónA = PAP-' con A diagonal para lamatriz A
del modelo de competencia entrepoblaciones del ejemplo 2.13 cuando k
=
0.16.
D 4. Determine si la matriz
)1~1
puede descomponersecomo A = PAP" siendo A diagonal; si es así,hágalo, si no, explique por qué no es posible. 5. Compruebe que P"AP = A y que A = PAP" para una P adecuada con A diagonal, para la matriz A del problema 10 de la sección 7.2.
6. Para la matriz de cada uno de los siguientes problemas de la sección 7.2 determine si hay una descomposición A = PAP" con A diagonal. Si es asi, encuéntrela, si no, explique por qué. Problema b) 2 c) Problema 16 a) Problema 1 d) Problema 17 e) Problema 18 D 7. Para la transformaciónlineal del modelo de competencia entrepoblaciones del ejemplo 2.13, conk = O.16, encuentre una base ordenada y la representación diagonal correspondiente de la transformación. 8. Encuentre una base ordenada y la matriz diagonal correspondiente para representar a la transformación lineal F definida por F ( v ) = Av para la matriz A del problema 2. 9. Haga lo mismo que se pidió en el problema 8, pero para la matriz del problema l . 10. Para la matriz de cada uno de los siguientes problemas de la sección 7.2, determine si hay una base ordenada y la correspondiente representación diagonal para la transformación 9 - v ) = Av. Si es así, encuéntrelas; si no, explique por qué. a) Problema 1 Problema b) 2 c) Problema 16 d) Problema 17 e) Problema 18
332
7
Eigenvalores y eigenvectores: una panoramica
/
D 11. Haga lo mismo que se pidió en el problema 10, pero papala matriz del problema 4 anterior. 12. Considere la transformación lineal Fque envía a x en R2 a Y(xj = y en IR2, en donde y 1 = 2x1 + x2 y y2 = x1 + 2x2. Encuentre una base ordenada, de tal modo que la representación correspondiented e 7 sea diagonal, y encuentre la representación. 7.4
TRANSFORMACIONES DE SEMEJANZA; FORMA DE JORDAN
En las secciones anteriores seha acumulado información sobre las relaciones A'=P"AP
y A=PA'P"
entre dos matrices p X p , A y A', y también sobre su importancia y utilidad; véanse por ejemplo, el ejemplo 6.18, el teorema clave 7.14 y el teorema 7.17. Transformaciones de semejanza (7.20)
Definición. Si existe una matriz P no singular tal que P"AP = B, entonces se dice que B es semejante a A y que se obtiene de A por medio de una transformacibn de semejanza.
(7.21)
Ejemplo
o
-1
es semejantea
A
=
2
-3
porque
B = P"AP
siendo P
=
[:
demodoque
-I- 'I
P" -
1
1
-
2 '
como se podrá comprobar inmediatamente. La semejanza tiene algunas propiedades sencillas y evidentes: (7.22)
Teorema (semejanzacomo una equivalencia).La semejanza es una relación de equivalencia porque a) A es semejante a sí misma. b) Si B es semejante a A, entonces A es semejante a B. cj SiCessemejanteaByBessemejanteaA,entoncesCessemejanteaA. DEMOSTRACION
a) Utilice P
= I
de modo que P" AP
=
A.
7.4
b) Si B C) Si c (7.23)
=
=
/
Transformaciones de semejanza; forma
de Jordan
333
P-'AP, entonces A = Q"BQ siendo Q = P-'. Q-1 BQ y B = P-'AP, entonces C = S"AS siendo S = PQ. m
Teorema (semejanza y eigensistemas). a) Matrices semejantes tienen el mismopolinomio característico y los mismos eigenvalores. b) Suponga que B es semejante a A con B = P"AP. Entonces x es un eigenvector de A asociado con el eigenvalor A si y sólo si P"x es un eigenvector de B asociado con el eigenvalor A. DEMOSTRACION
a) Ya que det P"
=
l/(det P), se tiene que
det(B - AI) = det{P- '(A - AI)P) = det(P- ') det(A - AI) det(P) = det(A - AI) y los polinomios característicos son idénticos. Como los eigenvalores son precisamente las raíces de los polinomios característicos, a) queda demostrado. b) x es un eigenvector de A asociado con A si y sólo si Ax = Ax -esto es, (PBP")x = Ax, lo cual es equivalente a B(P" x) = A(P"x), como se afirmaba. Observe también que x es cero si y sólo si P"x es cero. m
(7.24)
Ejemplo. Paralasmatricessemejantes prueba que
A y B del ejemplo 7.21, se com-
mientras que también lo es det(B - Al) (7.25)
= det
1- -l ]1) = A Z - A + l
Teorema (semejanza y potencias). Suponiendo que B es semejante aA con B = P"AP, entonces: a) Para cada entero k positivo, B" es semejante a A" siendo Bk = P"AkP. b) det B = det A. c) B es no singular si y sólo si A es no singular. d) Si A y B son no singulares, entoncesB" es semejante aA" siendo Bk = P-lAkP también para enterosk negativos de modo que en especial B" = P-IA-IP. e ) S i f e s unpo1inomio:Ax) = + * + a, y siAX) para una matriz cuadrada X es
334
7
/
Eigenvalores y eigenvectores: una panorarnica
+ . . + a,I,
a0xm
'
entoncesflB) es semejante aAA) siendo AB) DEMOSTRACION
=
P-'JC(A)P.
-
a) Bk = (P"AP)@'"'AP) (P"AP) -con k términos- y la ley asociativa permite la eliminación de los paréntesis de modo que PP-' repetidamente da I y el producto se colapsa a P-'AkP. b) det B = det(€"'AP) = det(P-') det(A)det(P) = det A. c) Esto es consecuencia de yb)del hecho de que una matriz es nosingular si y sólo si su determinante es diferente de cero. d) B-' = (P-'AP)-' = P-lA-' (P-I)-' = P"A-'P. El resultado para una k negativa arbitraria sigue de aplicar a) a B-' y a A" con Ikl. e)
f(B)
= a0P"AmP =
P-'(a,A"
+ a,P-lA""P + . . . + a,P-'P + alA'"l + . . . + u,I)P= P",f(A)P,
como se afirmó. Observe que la relación B" = P"AkP puede ser en extremo útil si es necesario facilidad; véase el ejemplo 6.18 calcular o analizar B" y si Ak se analizacon mayor sobre elmodelo de competencia entre poblaciones y considérelo a este respecto. Ahora podrrf resolver los problemas del 1 al 8 .
Forma de Jordan En el capítulo 9 se explotarán sistemáticamentelas transformaciones de semejanza para transformarcualquier matrizp X p en otra semejante de alguna forma especial. Gracias a la relación de (7.19) entre la información sobre factorizacioy la información sobre la estrucnes descrita por transformaciones de semejanza tura de eigensistemas, será posible utilizar esta formaespecial para describir en general la estructura de eigensistemas tal y como se adelantó en (7.13). (7.26)
7.4
/
Transformaciones de semejanza; forma
de Jordan
335
Nota. Este teoremasólo menciona la existencia de esta forma; no describe un método constructivo para encontrar a J en la práctica. (7.27)
J=b : :j
Ejemplo. La matriz J está en la forma deJordan: 4
1
0
0
0
O
4
0
0
0
O
0
;; 0
0
4
Los eigenvalores son Al = 4 de multiplicidad algebraica 3 y multiplicidad geométrica 2 , y A2 = 7 de multiplicidad algebraica 2 y multiplicidad geométrica 1. Así, hay tres eigenvectores que son linealmente independientes, como se indicó -deacuerdo con (7.26)- por lapresencia de dos cerosen la primera sobrediagonal de J. Para relacionar el avance ( 7 . 2 6 ) con lo que ya se estudió cuando hay un conjunto linealmente independiente de p eigenvectores para A, p X p , observe que ( 7 . 2 6 )afirma que habráp- 1 ceros en esa sobrediagonal, por lo tanto, J será diagonal (como se sabe por el teorema clave 7.14).
La semejanza es una poderosa herramienta teórica para simplificar el estudio de matrices cuadradas; desafortunadamente,las transformaciones de semejanza en general, crean a menudo serias dificultades numéricas en los cálculos prácticos (véanse los problemas 14 y15). Una subclase especial de transformaciones de semejanza es computacionalmente muy útil, no obstante, y por ello es de extrema importancia en las aplicaciones por esta y por otras razones. La próxima sección examinará en detalle las transformaciones de semejanza unitaria y ortogonal.
336
7
I
Eigenvalores y eigenvectores: una panorhrnica
PROBLEMAS 7.4
D
1. Se sabe que A es semejante a la matriz B que se muestra a continuación;
encuentre los eigenvalores de A.
2. Mediante las matrices semejantes A y B del ejemplo 7.21, compruebe: a) El teorema 7.25 a) para k = 2 b) El teorema 7.25 b) c) El teorema 7.25 d) para k = - 1 y k = -2.
D 3. Suponga que A es semejante a una matriz U triangular superior; describalos eigenvalores de A. 4. Demuestre que dos matrices diagonales son semejantes si y sólo si los
elementos diagonales de una son exactamente los de la otra aunque quizá reacomodados. 5. Encuentre fórmulas explícitas para Ak en términos del entero positivo k , si: a) A=[:
-:]
b) A=[:
:]
D 6. Utilice el teorema7.25 para analizar el comportamiento delos vectores de la poblaciones cuando i tiende a población xi del modelo de competencia entre infinito en el ejemplo 2.13 con: b) k = 0.16 a) k = 0.1
R 7 Sin experimentar con Ak para varias k , utilice MATLAB o algún software semejante para determinar qué les pasaa las potenciasAk cuando los enteros positivos k tienden a infinito si A es la matriz del problema 10 de la sección 7.2. ' 8. Se haafirmado que lamultiplicidad geométricaVi un deeigenvalor hide A no puede ser mayor que la multiplicidad algebraica mi. Demuestre estocon el método siguiente. a) Demuestre que se puede extender un conjunto de eigenvectores pi hasta obtener una matriz P no singular tal que A' = P"AP tenga la forma
siendo C cuadrada. b) Demuestreque pi5 mi considerando los polinomios característicos deA y de A'. 9. Demuestre que A y B son semejantes si y sólo si tienen una forma de Jordan común J.
I Transformaciones de semejanza: forma de Jordan
7.4
337
D 10. Demuestre que A y B no son semejantes si
11. Demuestre que A y B son semejantes si
:]
A=[:
:].
B=[:
y
12. Compruebe directamente las afirmaciones sobre eigenvalores y eigenvectores de la matriz J del ejemplo 7 . 2 7 .
D 13. Paralaformade Jordan J siguiente, encuentrelos eigenvalores y eigenvectores y compruebe en este caso, (7.26) c). 0 0 J= 0 0 0 0
3
1 3 0 0 0 0 0
0 0 5 0 0 0 0
0 0 1 5 0 0 0
0 0 0 1 5 0 0
0 0 0 0 0 3 0
0 0 0 0 0 0 3
14. Se ha mencionado quelas transformaciones de semejanzapueden ser com-
putacionalmente difíciles. Considérense las matrices siguientes: A=[
2"-E - 2 f 2E
-1
l"E + 2E
A, P, y B
=
P"AP
1"E
1
B =p - l ~ p =
siendo cero E diferente de pero pequeño.
A (y por consiguiente B) es no singular, tiene eigenvalores A, = 1, A2 = E y tienedeterminante E . Supongaque E esde talmagnitud que, 1 + E y expresiones semejantes, se calculan con exactitud en una computadora, mientras que - 1 + e2 se evalúa como - l . Demuestre que la versión computada de B en este caso será singular, y compare sus eigenvalores con los de A. sJ1 15. Utilice MATLAB o algún software semejante para calcular A, P-l, B, los eigenvalores deA y B, los determinantes de A y B y los rangos de A y B para las matrices delproblema 14; utilice a E tan pequeñocomo se necesite-por ejemplo E = para la aritmética de 16 dígitos de muchas microcomputadoras con coprocesadores matemáticos.
338
7.5
Elgenvalores y eigenvectores: una panorAmica
7
MATRICESUNITARIAS Y SEMEJANZA UNITARIA; FORMAS DE SCHUR Y DIAGONAL
La sección anterior trató la semejanza: la relación B = P-lAP, en donde P es una matriz arbitraria no singular. Como se hizo notar allí y se indicó en los problemas 14 y 15 de esa sección, podría haber dificultad para trabajar computacionalmente con las transformaciones arbitrarias de semejanza. Por ello, se introducirá un tipo especial de transformación que evita esa dificultad y que es de extrema importancia en el uso práctico de las matrices. Matrices unitarias y transformaciones
Las transformaciones de semejanzaB = P-lAP se introdujeron en parte porque describen la forma en que cambia la matriz A, que representauna transformación lineal, cuando las bases ordenadascambian de {el; . . . ; e,} a {xl; . . . ; xp}, en donde P = [x1 x2 . . . x,]; véase el teorema 7.17 de la sección 7.3. Mucho antes, se mostró -veanse las secciones 5.8 y 5.9- que las bases ortogonales y orronormales eran especialmente útiles y convenientes computacionalmente.Se considerará el uso de tales bases en las transformaciones de semejanza. Suponiendo que {xl, . . . , x,} es un conjunto ortonormal en RP (o en P ) con el producto interior estándar; entonces XTXi =
1 (o
XTXj =
o
XfXi =
1)
para toda i, y (o x:xj = O)
para todai y j siendo i # j , en donde, como de costumbre, se consideró la matriz 1 x 1 x'y (o ."y) como igual a su único elemento. Si entonces se forma la matriz P X P
P
=
[x1
x2
..
'
xp],
por multiplicación de matrices separadas se sigue que PTP = I (o PHP
= I).
Esto es, PT = P" (o PH = P-I). (7.29)
Definicidn. Una matriz P, p X p , para la cual P-l = PH,de tal modo que se dice que PPH= PHP = I, es unitaria. Una matriz ortogonaf es una matriz unitaria real p, tal que p-1 = P* y PPT = P P = I.
(7.30)
Ejemplo. Si
7.5
/
Matricesunitarias y semejanzaunitaria;formas
de Schur y diagonal
339
entonces PI y Pz son unitarias, mientras queP2también es ortogonalcomo lo mostrará el cálculo directo dePYP,, PFP, y de PTP,. Observe que P, no es ortogonal (por ejemplo, porque no es real). Observe que cada matriz ortogonal es unitaria, pero cada matriz unitaria no es ortogonal; cualquier afirmación Úalida para toda matriz unitaria es también vdlida para toda matriz ortogonal. Si no se necesita manejar números complejos, entonces, por simplicidad, interprete cadaafirmación sobre matrices unitarias como hecha para matrices (reales) ortogonales. Las matrices unitarias tienen propiedades importantes. (7.31)
Teorema (matrices unitarias) a) Una matriz P p X p es unitaria (u ortogonal) si y sólo si sus columnas forman un conjunto ortonormal. b) Una matrizP, p X p , es unitaria (u ortogonal) si y sólo si sus renglones forman un conjunto ortonormal. c) Si P es unitaria (u ortogonal) entonces ldet PI = 1 (o det P = k 1). d) Si P y Q son ambas unitarias (o ambas ortogonales),también lo es PQ. e) Si P es unitaria (u ortogonal) y si es el producto interior estándar, entonces: l . (Px,Py) = (x, y) para toda x y y, entonces el ángulo entre Px y Py es igual al ángulo entre x y y. 2. llPxlls = (IxlIzpara toda x, así la longitud de Px es igual a la de x. 3. llPllz = l . f) Si A es un eigenvalor de ,la matriz unitaria (u ortogonal) . P, entonces I N =l. . . g) Si P es p X p unitaria (u ortogonal) siendoA, p x r y B,r x p , entonces ( S , - )
DEMOSTRACION
a) Es consecuencia del material que condujo a la definición 7.29. b) Esto es consecuencia de aplicar a) a PH(o a P q . c) Observe que 1 = det I = det PHP = (det PH)(detP) = (detPI2.
Para una P ortogonal, observe que det P es real ya que P es real. d) (PQY (PQ)= WPHPQ = QHIQ = I. e) 1. (Px,Py) = (Px)H (Py) = xHPHPy= xHy = (x, y), y el ángulo entre los vectores se define por su producto interior 2 . Esto es consecuencia de e) 1) siendo x = y. 3. llPllz es igual al supremum de IIPxllz/llxllz, el cual es igual a 1 para todax # o. D Si Px = Ax, entonces, debido a e) 2 ) ,
340
7
I
Eigenvalores y eigenvectores: una panoramica
IIx112 = IIpxI12
=
II~xll2= lp1IIxlIz;
como x # O, esto da 1x1 = 1 . (IPA1I2es igual al supremum de IIPA~11~/11x11~, y por e) 2) esta relación es cuyo supremum es igual a IIAllz. IIBPIJ2es igual al igual a IIA~11~/llxll~, supremum de IIBP~11~/11~11~, y esta relación es igual a
y a que P es no singular, y recorre todos los vectores diferentes de cero puesto que x recorre todos los vectores diferentes de cero, de modo que el supremum de esta última relación es igual a IIBllz.
El inciso e) es responsableen gran parte de la importancia práctica, computacionalmente, de las matrices unitarias. Interpretada intuitivamente, esta parte dice que la multiplicación por una matriz unitaria no hace grandes alos vectores pequeños (ni hace pequeños a los vectoresgrandes) y no hace a los vectores “casi dependientes” vectores “más independientes” (ni hace “casi dependientes” a vectores “bastante independientes”). Así, por ejemplo, los errores de medición o modelado pequeños seguirán siendo pequeños bajo la multiplicación por matrices unitarias. Si los datos parecen “bastante independientes” después de haber sido transformados por matrices unitarias, entonces los datos originales tambikn eran “bastante independientes.” Otra razón de la importancia práctica de las matrices reales unitarias (esto es, las matrices ortogonales) es que cada una de esas matrices puede calcularse como un producto de matrices ortogonales especiales (“matrices de Householder”) que son especialmente convenientes paratrabajos computacionales; se regresaráen breve a esto. Se introdujeron las matrices unitarias con el propósito de efectuar transformaciones de semejanza; ahora se considerará este uso. (7.32)
Definición. Si existe una matriz P unitaria tal que PHAP = B, entonces se dice que B es unitariamente equivalente a A y que se obtiene de A por medio de una transformación de equivalencia unitaria.Si P es real y por lo tanto ortogonal, entonces sedice que B esortogonalmente equivalentea A, y que se obtiene de A por medio de una transformación de equivalencia ortogonal.
Ya que esos conceptos nuevos son casos especiales de la semejanza en general, en este caso seránválidos todos los resultados sobre matrices semejantes. (7.33)
Teorema (semejanza unitaria) a) Los resultados de los teoremas 7 . 2 2 , 7 . 2 3 y 7 . 2 5 son válidos cuando se
7.5
/
Matrices unitarias y semejanza unitaria; formas de Schur y diagonal
341
reemplaza la palabra “semejante” por “unitariamente equivalente” (u “ortogonalmente equivalente”) y cuando P” se sustituye por PH(O por PT). b) Si A y B son unitaria u ortogonalmente equivalentes, entonces llAlls = IIBIIP DEMOSTRACION
a) Esto es inmediato ya que la semejanza unitaria es una semejanza. b) Si Pes unitaria, también lo será PHporque @‘“)“pH= PPH= I; entonces, del teorema 7.31 g) se obtiene
Ahora podrA resolver los problemas del I al 9 . Reflexiones de Householder
Como en cualquier matriz, sepuede usar una matriz P unitaria para definir una transformación lineal FvíaY(x) = h.El teorema7.3 1 e) afirma que Ypreserva longitudes y ángulos. Se considerará ahora una transformación geométricamente sencilla en el plano, que preserva longitudes y ángulos y se demostrará que está, de hecho, descrita por una matriz unitaria real (esto es, una matriz ortogonal) de un tipo especialmente importante. (7.34)
EjempZo. Considere la recta fija L perpendicular a un vector dado w en el plano. Suponga que se transformará cada vector x en el plano, reflexidn respecro a d.: esto es, x se transforma en F ( x ) = y, la imagende espejo de x
al lado opuesto deL (véase el diagrama). El vector dex ay -esto es, y - xes claramente perpendicular a6 , por lo tanto debe serun múltiplo de w: y -x
= aw.
342
7
/
Eigenvalores y eigenvectores: una
panorarnica
El punto medio z de este vector debe quedar en 8 , por lo tanto debe ser perpendicular a w:
+ 0 . 5 ~=~O,)
W'(X
10 que da (Y
=
-2wTx/wTw. Por lo tanto,
+
y = x UW = x = (I - (~/w'w)ww'}
-
(2WTX/WTW)W
=x
-
(2jw'w)wwTx
X = H,x
en donde H,
= I - (2/wTw)wwT
es una matriz 2 x 2. Esto es,la transformaciónF es, de hecho,la transformación linealF ( x ) = H,x definida por la multiplicación porla matriz H,, 2 x 2. Si, por ejemplo, w = [ l 2IT, entonces H, = I -- $wwT, y así
Observe que H, es simétrica y ortogonal. La misma clase de transformación tiene sentido en espacios de mayores dimensiones; la reflexión es en la dirección de algún vector w reflejando sobre el conjunto de vectores ortogonales a w. Esencialmente, el mismo argumento que el del ejemplo 7.34, demuestra que tales reflexiones elementales también se representan por matrices H,. (7.35)
Definición. Paraw diferente de cero en RP, lamatriz de Householderp x p , H,, se define como
H,
=
I,
-
(A)
WWT.
En elcaso especial del ejemplo 7.34, H, fue simétrica y ortogonal. Esto es cierto en general porque H;H,
= (I
- (2/wTw)wwT}' {I - ( ~ / w ~ w ) w w ~ } {I - (2/wTw)ww'j{I - (2/WTW)WWT} = I - (4/WTW)WWT + (2/wTW)(2i'WTW)WW=WW~ = I - (4/W'W)WWT + (4/wTw)wwT = 1.
=
Resumiendo.
7.5
(7.36)
/
Matrlcesunitarias
de Schur y dlagonal
y semejanzaunitarla;formas
343
Teorema (matrices de Householder). Sea H, la matriz de Householder definida por un w diferente de cero en RP. Entonces: a) H, es simétrica. b) H, es ortogonal. c) Para cada x, H,x es igual a la reflexión de x respecto al subespacio de todas las v ortogonales a w. d) det H, = -1. e) Para cualquier x diferente de ceroy y diferente de ceroen Rp siendo x # y, existe unaH, tal que H,x = ay para algún número real a. Con mayor exactitud: 1. A menos que x sea igual a un múltiplo positivo de y, w se puede considerar como
w
=x -
(B) y
y entonces
H,x =
(R) y.
2 . A menos que x sea igual a un múltiplo negativo de y, w se puede considerar como
w
=x
+
(B) y
y entonces
H,x = - ( B ) y .
DEMOSTRACION
a) , b) y c) son consecuencia de lo expuesto anteriormente. d) Sea A una matrizp X p no singular cuya primera columna es igual a w y cuyas columnas restantes son ortogonales a w; es posible encontrar tales columnas escogiéndolas como una base del subespacio de vectores ortogonales a w. Es fácil ver que H,A tiene a -w como su primera columna y que sus columnas restantes SOAIidénticas, en orden, a las de A. Por lo tanto, det(H,A)
=
-det A;
pero también es igual a det(H,) det (A). Dividiendo por det(A)resulta en det H, = - 1. e) es consecuencia de calcular directamente H,x usando los vectores w dados; las condiciones sobre la relación de x y y garantizan que w # O. m El teorema 7.36 e) seusa con frecuencia en las aplicaciones de las matrices de Householder, especialmente para transformar a una x dada en un múltiplo de e,: H,x = IIx112el. De hecho,la matrizde Householder “hace ceros” los elementos bajo el primero en x. (7.37)
Ejemplo. Considere el vector x = [3 4ITy el problemade transformarlo, por
344
7
/
Eigenvalores y eigenvectoles: una panorhrnica
una matriz de Householder, en un múltiplo de e,. Por el teorema 7.36 e) siendo y = e,, es posible considerar, por ejemplo, W =x -
llxllzel = x - 5e, = [-2
4IT
Esto da H,
= I, - & W W ~=
y
H,x
= 5e,.
El problema 13 de la sección 5.9 describió cómo usar el poder de “hacer ceros” de las matrices de Householder para transformar una matriz A en una matriz triangular superior, multiplicando a A por una sucesión de matrices de Householder; una pequeña modificación a este proceso (problema 18 de esta sección) basada en el teorema 7.36 e) 1) demuestra la parte a) del siguiente resultado, que es de gran importancia para el cómputo. (7.38)
DEMOSTRACION
a) Problema 13 de la sección 5.9 y problema 18. b) Aplique a) a Q, de modo que H, . H,Q = R; R es ortogonal (porque sus factores sonortogonales), es triangular superior y sus elementos en la diagonal principal son no negativos. La primera columna de R es algún múltiplode e,, y esta columna es ortogonal a las restantes columnas de R; por lo tanto, el primer renglón de R tiene ceros en todoslos elementos excepto en el primero. Con argumentos semejantes para la segunda columna y el segundo renglón, así como paralos restantes, se verá que R es diagonal. Como RTR = I, los elementos diagonales son + 1
-
7.5
I
345
Matrices unitarias y semejanza unitarla; formas de Schur y diagonal
o - 1;como son no negativos, deben ser iguales a + 1-esto es, R = I. Por ello, Q = H,Hz . H,.
--
La primera parte del teorema clave 7.38 es crucial paralos procedimientos computacionales más avanzados en áreas tales como los cálculos de mínimos cuadrados y cálculos de eigensistemas. La segunda parte dice que (una sucesión de) las matrices de Householder puede hacer todo lo que hagan las matrices ortogonales en general, y así, ayuda a explicar por qué han llegado a serindispensables en cálculos matriciales. Ahora pod& resolver los problemas del 1 al 20.
Rotaciones elementales
Si se trata devisualizar una transformación F ( v ) = PV definida por una matriz unitaria u ortogonal (demodo que preservelongitud y ángulo), probablemente se imaginará algún tipo de rotación de vectoresmás que imaginarse una reflexión (como se describió por una matriz de Householder). Aunque -a diferencia del caso de las reflexiones- no toda matriz ortogonal puede escribirse como un producto de rotaciones especialmente sencillas (problema 25), las llamadas rotaciones elementales son útiles en las aplicaciones (7.39)
Ejemplo. Considere en R2 la transformación 9que cambia cada vector x rotándolo un ángulo 0 medido en la dirección del eje x1 hacia el eje xz (esto es, contra las manecillas del reloj) para obtener x' = F(x). IIx'112 = lIxlI2
x; = (Ix'IJ2cos(a
+ O) o
=
IIx112cos a cos
=
x1 cos O - x2 sen O
-I
I X ~sen~ ~a sen e
x; = x, sen Q
+ x2 cos O
X1
Mediante la trigonometría, se obtienen las fórmulas anteriores parax' en términos de x. Debido aque las fórmulasson lineales, es posible escribirlas en notación matricial como x' = F ( x ) = Px, en donde cos 6 p = [sene
I.
-sen6 cos e
346
7
Eigenvalores y eigenvectores: una panorhmica
I
Es sencillo verificar que PIP
=
I, por lo tanto P es ortogonal.
Es posible considerar la misma clase de rotaciones planas sencillas y las matrices que las generan, en mayores dimensiones. Definición. La matriz de rotacibnelemental p x p : R = Rkn(0)se define por: kk = (R),, = cos 8. kn = -sen 8 y (R)nk = sen 8. ii = 1 siendo i # k e i # n . = O para todos los elementos que no sean los definidosen a), b) o c).
(7.40)
Las propiedades de las matrices de rotación elemental se pueden deducir directamente. (7.41)
Teorema (matrices de rotación).Sea R = Rkn(0)unamatriz de rotación elemental p x p . Entonces: a) R es ortogonal. girar a x un ángulo8 en el b) Para cadax, Rx es igual alvector que resulta de plano xk-x, en la dirección del eje xk hacia el eje x,. c) det R = 1. DEMOSTRACION.
Problema 40.
Formas de Schur, diagonal y de Hessenberg
En la sección 7.4, después dediscutir las transformaciones de semejanza, sedio un avance del resultado del capítulo 9 sobre la forma especial de Jordan a la que se puede reducir toda matriz A, p X p , mediante una transformación de semejanza; esta formaespecial de información sobre la estructura del eigensistema de A. Se hizo una pausa para discutir las matrices y las semejanzas unitaria y ortogonal debido a los problemas computacionales que surgen con las semejanzas arbitrarias que se evitan mediante estas formas de semejanza. Ahora se estudiarán avances de formas especiales que se pueden producir usando semejanzas unitarias u ortogonales. (7.42)
7.5
/
Matricesunitarias y semejanzaunitaria;formas
de Schur y dlagonal
347
La parte b) de este resultado da información sobre el eigensistema de una matriz normal.
El resultado (7.43) dice que las matrices normales A , p X p , son precisamente aquéllas que 1) tienen un conjunto completo de p eigenvectores formando una base fácil de usar (esto es, una base ortonormal), 2) cuya transformación F ( v ) = Av puede representarse por una simple matriz diagonal con respecto a alguna base ortonormal, y 3) se puede factorizar en un producto sencillo A = P A P siendo A diagonal y P unitaria. Nota. Como en el avance (7.26), esto menciona solamente que tales formas existen; no describe un método constructivo para encontrarlasen la práctica.
Existe una “forma simplificada”, computacionalmente útil, deuna matriz A que puede producirsedirectamenteusando una sucesióndematricesde Householder. (7.44)
Teorema (formade Hessenberg). Suponga que A esp X p que es real. Hay una sucesión de cuandomás p - 2 matrices de HouseholderHI, . . . ,HPp2 que se calcula y que define fácilmente una semejanza ortogonal
tal que la matriz transformadaH estálaforma en (superior)de Hessenberg, la cual sedefine como sigue: H es casi triangular superior en el sentido de que, solamente, su primera subdiagonal puede contener elementosno cero, esto es, (H),l = O para i ’ j + 2. DEMOSTRACION.
Problemas 35 y 36.
m
348
7
I
Eigenvalores y eigenvectores: una panoramica
PROBLEMAS 7.5
1. Demuestre que la siguiente matriz es ortogonal, y encuentre su determinante.
b 2. Encuentre números a , b y c de tal manera que P sea ortogonal, siendo
P=
3. Suponga que P es real. Demuestre que P es ortogonal si y sólo si c'Pes
unitaria. 4. Suponga queR y S son reales. Demuestre que P = R + ;S es unitaria si y sólo si RTR + STS = I y que RTS = -S%. D 5. Demuestre que P es unitaria si y sólo si PHes unitaria. 6. Demuestre que P es unitaria si y sólo si PT es unitaria. 7. Demuestre que P es ortogonal si y sólo si PT es ortogonal.
D 8. Suponga que P es una matrizp X p unitaria. Demuestre que l/*
IllPll4
tanto para la norma 1 como para la norma m. 9. Encuentre el eigensistema de la matriz ortogonal cos 0
A 10. Encuentre la matriz 2 x1 =
X
= [seno
1-
-sen8 cos e
2 que refleja los vectores en
IR2
sobre la recta
x2.
11. Si w es complejo, demuestre que I = (2/wHw)wwH es unitaria.
D 12. Encuentre una matriz Householder H, tal que H p , = e, en
IR2.
13. Encuentre una matriz Householder H, tal que H,[ 1 2IT sea un múltiplo de [2 1]T.
D 14. El trabajo de multiplicar una matriz P, p
X p , por una matriz A, p X p, es generalmente de unas p3 multiplicaciones y p 3 sumas. Demuestre que PA puede calcularse con cuando más 2p2 + p + 1 multiplicaciones y 2p2 - 1 sumas si P es una matriz de Householder H, y si se conoce w.
7.5
/
Matrices unitarias y semejanza unitaria; formas de Schur y dlagonal
349
15. Para tener acceso a los p 2 elementos de una matriz A, p X p , generalmente se requiere dep2lugares de almacenamiento. Demuestre que sólo se necesitan p lugares si A es una matriz de Householder H, Y si se conoce W. 16. Demuestre el teorema7.36 e).
D 17. Demuestre que si los primeros r elementos dew son iguales a cero, entonces los primeros r renglones de H,A son iguales a los primeros r renglones de A en orden. 18. Modifique el problema 13 de la sección 5.9 a modo de obtenerelementos no negativos en la diagonal principal de las matrices Ai usando el teorema 7.36 e) 1) con y = e,. 19. Como en el teorema clave 7.38, premultiplique la siguiente matriz por una sucesión de matrices de Householder para producir una matriz triangular superior R. A
=
[i I E]
a].
D 20. Haga lo mismo que en el problema 19, pero con
[: 1
A=
2
21. Encuentre la matriz de rotación 3 x 3 R,,(45"). D 22. Encuentre la matriz de rotación 3 x 3 R2,(90"). 23. Encuentre la matriz ortogonal 3 x 3 P tal que lamultiplicaciónpor P sea equivalentea girar primero el eje x1 45" hacia el eje xg (véase el problema 21) y a girar después el nuevo eje x2 90" hacia el nuevo eje x, (véase el problema 22). 24. Escriba la rotación general de 2 x 2 , R12(0)como producto de matrices de Householder. D 25. Utilice el detRkn(0)= 1 parademostrar queno toda matriz ortogonal es igual a un producto de matrices de rotación elemental. 26. Demuestre que la forma Schur deuna matriz no es única considerando A y P H A P , en donde A-!
i]
y
P = [ io
-1
81.
27. La matriz A,p x p , define una transformación lineal Y de @ P a @ p por y ( v ) = Av. Demuestre que hay una base ortonormalde con respecto a la cual 9-se representa por la forma Schur deA.
.
350
7
i
Eigenvalores y elgenvectores: una
panoramlca
D 28. Demuestre que toda matriz real simétrica es normal. 29. Demuestre que toda matriz hermitiana es normal.
30. Demuestre que toda matriz unitaria (u ortogonal) es normal. D 31. Demuestre que si A es unitariamente semejante a una matriz diagonal, entonces A es normal. 32. Compruebe que cada una de las siguientes matrices es normal y demuestre que sus eigenvectores forman un conjunto ortogonal.
33. Demuestre que si A es real y normal y tiene eigenvalores reales, entoncesA
es simétrica. 34. Demuestre que la matriz
[’;
A]
tiene sólo un eigenvector que es linealmente independiente, demostrando que las matrices simétricas no reales no necesitan tener un conjunto completo de eigenvectores como sucede con las matrices reales simétricas.
D 35. Suponga que A es real y que es p
X p. a) Demuestre que sepuede escoger a w, de p x 1, con (w) = O de tal modo que los elementos en la primera columna de H,A sean iguales a cero desde el tercer renglón para abajo(pero no necesariamente en los primeros dos renglones). b) Para estaelección de w, demuestre qu H,AH, tiene la misma estructura que la especificada para H,A.
36. Utilice el problema 35 para demostrar que se puede tratar una columna de A cada vez y obtenga una forma de Hessenberg de A como dice el teorema 7.44.
D 37. Utilice el método del problema 36 para reducir a su forma de Hessenberg
!IN 38. Utilice MATLAB o algún software semejante para encontrar una forma de Hessenberg dela matriz de transición A del modelo delmercado dela leche del ejemplo 2.6. !IN 39. Utilice MATLAB o algún software semejante para encontrar una forma de Schur de la matriz del problema 38. 40. Demuestre el teorema 7.41.
7.6
7.6
/
Programas de computadora para encontrar elgensistemas
351
PROGRAMAS DE COMPUTADORA PARAENCONTRAREIGENSISTEMAS
A diferencia de la situación en la resolución de ecuaciones lineales, no se ha discutido el cálculo práctico de eigenvalores y eigenvectores; el tópico es demasiado detalladoy especializado para tratarloen detalle en este libro-véase Golub y Van Loan (46), por ejemplo.-Aunque el problema de calcular los eigensistemas es apreciablementemás complicado que el de resolver sistemas lineales, a través de los años los expertos han desarrollado excelentes programas de carácter general de cómputo para la determinación eficiente y exacta de eigensistemas. Como en el caso de las ecuaciones lineales, talesprogramas están disponibles generalmente gratis o a bajo costo. Método: el algoritmo Q R
Para calcular los eigensistemas, el algoritmo a escoger-análogo a la eliminación de Gauss para lasecuaciones lineales- es elalgoritmo QR para matrices reales y su extensión, elalgoritmo Q Z , para matrices complejas; se indicará el esquema del método QR básico (dejando los refinamientos importantes que lo hacen tan efectivo) para comunicar la idea detrás del método. (7.45)
Esquema del algoritmo QR Msico. l . Dada lamatriz real A p X p , utilice p - 2 matrices de Householder para calcular lamatriz ortogonalmente semejante H de la forma de Hessenberg como en el teorema 7.44. Defina A, = H y haga i = 1. 2. Utilice p matrices de Householder comoen el teorema clave 7.38 para calcular unadescomposición QR de Ai, como Ai = QiRi,en donde Qi es ortogonal y Ri es triangular superior. 3. Defina Ai+, = RiQi. Si Ai+, converge a una forma T de Schur comoen (7.42), deténgase; en caso contrario, aumente 1 a i y vuelva al paso 2.
A primera vista, este método parece misterioso: ¿por quédefinir Ai+, como RiQi? Observe que
RiQi = Q'QiRiQi
=
Q'AiQi,
de modo que A,+, es dehecho ortogonalmente semejante a A,. (También resulta que Ai+, hereda la forma de Hessenberg de Ai, loque reduce el esfuerzo computacional para obtener las descomposiciones QR.) Así, todas las matrices Ai son ortogonalmente semejantes aA; si almétodo básico se le aumentala potencia propiamente, la sucesión de A, converge rápidamente a una forma de Schur T y A como en (7.42). Esto proporcionalos eigenvalores de A; si se desea, se encuentran entonces los eigenvectores (o subespacios invariantes, o eigenvectores seleccionados, o. . .) a partir de T por procedimientos especiales (ver Golub y Van Loan). En la práctica, los eigenvalores de unamatrizp X p pueden aproximarse por este método, de manera exacta a lo más unas 15 p3 -y a menudo
352
7
/
Eigenvalores y eigenvectores: una
panorimca
considerablemente menos- operaciones aritméticas.A manera de ejemplo senciuna matriz de 20 x 20 como una llo, se usó MATLAB para generar al azar tanto matriz simétrica de 20 x 20; para cada matriz, se encontraronlos eigenvalores con MATLAB con unos 3p3 = 24,000 p o p s (iniciales en inglés para floatingpoint operations,operacionesde punto flotante)quenecesitaron de unos 6 segundos en la microcomputadora para cadamatriz, comparados con aproximadamente un segundo para encontrar la inversa de la misma matriz. ,~Qudprogramasconseguir? Así como LINPACK es lo estándar para cálculos matriciales que impliquen ecuaciones, EISPACK lo es paracálculos de eigensistemas.Desarrollado en la misma forma cooperativa que LINPACK, pero anterior aé1, el programa EISPACK está disponible en varias formas y en varias fuentes comerciales y públicas -de hecho las mismas que para LINPACK (véase la sección 3.9). Se pueden obtener documentos sobre las rutinas delEISPACK en Matrix Eigensysrem Routines: EISPACK Guide, 2a edición (52) y en Matrix Eigensystem Routines: EISPACK Guide Extension (44). Quien desee calcular eigensistemas deberá considerar la posibilidad de obtener el sistema EISPACK. PROBLEMAS 7.6 1. Determine si el software EISPACK está disponible para usted. 2. Determine qué software puede conseguir para calcularlos eigensistemas de:
a) b) c) d) )IJz 3.
matrices simétricas reales matrices reales en general matrices hermitianas complejas matrices complejas en general
Utilice MATLAB o algún software semejante para encontrar ladescomposición QR así como para determinar de inmediato el algoritmo QR (7.45) de la siguiente matriz:
y que cadanueva A i Observe que esta matriz está enla forma de Hessenberg estará también en la forma Hessenberg; repítalo hasta que Ai sea aproximadamente diagonal. Compare con los eigenvalores encontrados directamente por el MATLAB o algún software semejante.
/
7.7
7.7
Condici6n del problema de los eigenSiStemaS
353
CONDlClON DEL PROBLEMA DE LOS EIGENSISTEMAS
Recordará de la sección6.4 la noción generalde la condicidn de la respuesta a un problema: cómo cambia la respuesta en comparación a cambios en los datos -como los causados por errores de medición o de modelado. Este tópico es fundamental en cualquier área de las matemáticas aplicadas; se le considerará brevemente con respecto a los eigenvaloresy eigenvectores de A en términos de los cambios en los datos de la matriz A.
Círculos de Gerschgorin El siguiente resultado es fundamental para estudio el de lacondición del problemade los eigensistemas.
(7.46)
Teorema (círculos de Gerschgorin) a) Todo eigenvalor (real o completo) A de B, p X p (B)u = bu satisface cuando menos una de las siguientes desigualdades
[ A - biil 5 ri, en donde ri =
$ lbijl
(i = 1,. . . , p ) .
j= 1 j#i
Esto es, cadaeigenvalor está, por lo menos, en uno delos discos con centro bii = (B),, y con radio r, en el plano complejo. b) Si la unión de n de los discos es ajenaal resto, entonces habrá precisamente n eigenvalores de B en esa unión. DEMOSTRACION
Si A y x # O con ( x ) ~= xi satisfacen Bx P
( A - bii)Xi=
c' bijXj
=
Ax, entonces, (i = 1, . . . ,p),
j= 1
en donde la prima indica que se ha omitido el término paraj = i. Suponga quexktiene el mayor(xk[para todax,,de modo que Ixj/xkl I 1para todaj. Entonces
es válido para todo eigenvalor para algún valor de k , demostrando la primera parte del teorema. Problemas 9 y 10.
m
354
7
I
Elgenvalores y eigenvectores: una panorAmica
(7.47)
Ejemplo. Considere la matriz
La aplicación directa del teorema del círculo Gerschgorin de a lamatriz B muestra que los tres eigenvalores satisfacen
)J.
-
11 I 2 . 1 ,
12 - 101 5 10.01,
12 - 1001 I 1.01
Como el tercer discoes ajeno alos demás, habrá precisamente un eigenvalor A3 siendo IX, - 1001 S 1.01. Sin embargo, como los dos primeros discos se traslapan, solamente es posible concluir que dos eigenvalores quedan en queeigenvaalgún lugar de launión de los dos discos. También se sabe los lores de B y de BT son iguales. El teorema de Gerschgorin aplicado aBT conduce a la existencia de un eigenvalor en cada uno de los tres discos ajenos
Condición del problema del eigenvalor
Considere ahora las perturbaciones que cambian una matriz A en A + SA; suponga queA, p X p , tiene un conjunto linealmente independiente de p eigenvectores, de modo que-véase el teorema clave 7.14- hay una matrizP no singular de eigenvectores deA tal que P"AP = A en donde A es diagonal y contiene los eigenvalores de A. Entonces P"(A
+ SA)P = P"AP + P"SAP
=
A
+ SA,
en donde ,SA = P-lSAP en general, no es diagonal. Como los eigenvalores de matrices semejantes son idénticos, es posible estudiar los eigenvalores de A + SA en lugar de los de A + SA. Como (A)ii = Xi, el i-ésirno eigenvalor de A, el teorema del círculo de Gerschgoriri dice inmediatamente quecada eigenvalor A Se A+ 6A queda dentro de cuando menos uno de los discos con centro enAl con radio dado por la suma de las magnitudes de los elementos no diagonales en el i-ésimo renglón de SA "que cuando más es
Esto demuestra la versión en la norma 00 del siguiente teorema; para las otras normas, véase la segunda edición de este libro, por ejemplo. (7.48)
Teorema (condición del problema del eigenvalor). Suponga que A, p X p , tiene un conjunto linealmente independiente dep eigenvectores xl, . . . , x, con los eigenvalores asociados Ai, y que P es la matriz (no singular)
7.7
problema de los eigensistemas
Condicidn del
I
355
P = [x1 . * * x,]. Si A es un eigenvalor de la matriz perturbada A cuando menos una de las desigualdades II - Ail I l/P-'IlllPll IlSAll
+ 6A, entonces A satisface
para i
=
1,.
. . ,p ,
en donde11.11 es cualquiera de las normas1,2 o m . En especial,si P es unitaria u ortogonal -por ejemplo, si A es real simétrica o hermitiana o más en general normal- de manera que llPllz = IIP-lllz = 1, entonces A satisface cuando menos uno de 11 - Ail I)16A112. Este teoremaafirma que lacondición del problema de los eigenvalores de A cuán grande puede ser ( X - Ail en comparación con (1SAll -depende del factor llPll l[P-lll, el cual es el númerode condición c(P) de la matriz P de los eigenvectores de A. (7.49)
Ejemplo. Considerecómo cambian los eigenvalores cuando A=[: es perturbada a A'=A+SA=
[: Y]-
La matriz A tiene los eigenvalores X, = 1, Az = 2, y los eigenvectores 10-6ez. Así, se obtiene que asociados x1 = e,, xz = e,
+
por lo tanto, -por el teorema 7.48- los eigenvalores A' de A' están en los discos
(1'
- 11 I 2 ( 1
+ 106)€,
11'
- 2) I2(1
+ 106)€,
indicando perturbaciones muy grandes (comparadas con E ) . De hecho, para E = 0.75 x lo"? los eigenvalores perturbados son precisamente = 0.5 y 1; = 2.5, comparados con Al = 1 y AZ = 2; los eigenvalores han cambiado por aproximadamente 10%.
A',
Condicidn del problema del eigenvector Una discusión detallada de la condición del problema de los eigenvectores está más allá del propósito de este libro.Se examinarán solamente tresejemplos de la
356
7
Eigenvalores y eigenvectores: una panoramica
/
condición del problema de los eigenvectores dematrices diagonales para daruna indicación de la naturaleza de las dificultades implicadas. (7.50)
Ejemplo. Considere la matriz
que tiene eigenvectores e, y e,, y la matriz perturbada A
+ SA =
[L 51,
que tiene eigenvectores e, y Eel + e,. Entonces los eigenvectores deA están E; perturbados porlie, - ell[= O y por [le, - (e, + Ee,)ll = Ilee,ll que es de orden observe que en este caso los eigenvectores están bien condicionados. (7.51)
Ejemplo. Considere la
matriz
donde 6 # O que tiene los eigenvectores e, y e,. Considere también la matriz perturbada A + S A = [ 2 +o 6
E]
con eigenvectores e, y e, - (E/6)el. Al perturbar A por E se perturban sus eigenvectores por O y lr/61, lo que es l/lSl veces el tamaño de la perturbación en A. Por ello, lacondición de los eigenvectores depende de la separación 6 de los dos eigenvalores. (7.52)
Ejemplo. Considere las siguientes matrices A y A
+ 6A siguientes
La matriz A + 6A tiene sólo un eigenvector que es linealmente independiente; dígase e, siempre que E sea # O . Sin embargo, la matriz A tiene un conjunto linealmente independiente de dos eigenvectores que pueden escogerse comocualquier conjunto linealmente independiente{x,, .!x, Si, por ejemplo, se tiene que x, = [ 1 13‘ y x, = [ 1 - 1IT, entonces no solo se ha “perdido” un eigenvector alir de A a A + SA, sino que también la perturbación en cualquier eigenvector deA es al menos, demagnitud l . Si en lugar de esto se hubiera escogido x1 = e,, entonces la perturbación en el primer eigenvector de A hubiera sido O.
I
7.7
Condicibn del
problema de los eigensistemas
357
Estos tres ejemplos indican que es posible pensar que una matriz con eigenvalores disrinros y bien separados tengan eigenvectores bien condicionados, pero que matrices con eigenvectores repetidos o mal separados tengan, posiblemente, eigenvectores mal condicionados. En realidad éste es generalmente el caso. Para más detalles sobre este tema, ver Golub y Van Loan (46), Stewart (53) o Wilkinson (56). PROBLEMAS 7.7 1. Utilice elteorema del círculo de Gerschgorin para acotarlos eigenvalores de - 10-5
0.5
B = 4.
[ '
2.10-5
-3.
o. 1
3.10-5
- 10-5
J
.
D 2. Sea S la matriz diagonal 3 x 3 (S)ll = (Y, (S)zz= (S)33= l . a) Encuentre S"BS para la matriz B del problema 1, y encuentre los círculos de Gerschgorin para los eigenvalores de S"BS (que son iguales a los eigenvalores de B). b) Escoja a (Y de tal manera que el radiorl del círculo con centra en (S-lSS),, sea tan pequeño como sea posible sinque se traslape este círculo con los otros dos, y entonces localice Al en un círculo tan pequeño como se pueda. c) Utilice matrices análogas S para calcular hz y AS. 3. Describa las perturbaciones en los eigenvalores de A cuando se perturbe a A
por &A, en donde A=[:
i]
y
&A=[:
i].
4. Utilice elteoremadel círculo de Gerschgorin paraacotar los eigenvaloresde
2 B = [-:I
-; 0.1
0.2 --;l].
5. Utilice el método del problema 2 para refinar las cotas del problema 4. 6. Si A es un eigenvalor de B de modo que B - AI sea singular, existe un y # O (eigenvectorizquierdo) tal que yTB = AyT. Utilice esta y paradar una
demostración análoga a la del teorema 7.46 para probar que los eigenvalores A de B satisfacen [ A -- biil 5 r!, en donde r; es la suma de la columna análoga a la suma del renglón ri. D 7. Suponga que P"AP = A es diagonal y que p y v son un eigenvalor/eigenvector aproximado lo que quiere decir que r = Av - pv se considera "pequeño". aj Demuestre que hay un eigenvalor A de A que satisface
358
7
I
Elgenvalores y eigenvectores: una panoramica
en donde
11- 1 /
denota cualquiera de las columnas 1, 2, o a.
b) Si A es normal, demuestre que
8. Aplique la aproximación del problema 7 b) con p
=
1 y compárela con los
eigenvalores verdaderos cuando
9. Se sabe que las raíces de un polinomio son funciones continuas de sus coeficien-
10.
D 11.
12.
13.
tes. Demuestre que los eigenvaloresde una matriz son funciones continuasde sus elementos. Demuestre el teorema 7.46 b) como sigue. Sea D la matriz diagonal cuya diagonal principal es igual a la de B y defina E = B - D: defina G, como la unión de los n discos de Gerschgorin en cuestión,pero parala matrizD+ tE para O 5 t 5 l . Demuestre que Gocontiene exactamente n eigenvalores, y utilice elproblema 9 para demostrarque Gt siempre contiene exactamente n eigenvalores; GIes la región del teorema 7.46 b). Demuestre que si cada uno de los p discos de Gerschgorin de unamatrizp X p es ajeno alos demás, entonces cada uno contiene exactamenteun eigenvalor; concluya quesi además B es real,entonces los eigenvalores deben ser reales y deben satisfacer bii - ri IA S b,, + r,, empleando la nomenclatura del teorema 7.46. Suponga como en el problema 11, que B es real y que tiene discos de Gerschgorin ajenos. Demuestre que si bij > ri para toda i , entonces los eigenvalores de B son estrictamente positivos. Utilice el problema11 paradar toda lainformación posible sobre los eigenvalores de r6
7.8
1 1 -21 14 1 2 -9 -1 1 -20
-;j.
PROBLEMAS VARIOS PROBLEMAS 7.8
1. Si A es p x p real, demuestre que sus eigenvalores son reales o pares de
7.8
I
Problemas varios
359
complejos conjugados; si además p es impar demuestre que cuando menos hay un eigenvalor real.
11 j
D 2. Demuestre que la matriz n
X
n
k
O ... O
1
..;
tiene eigenvalores xi cuyoj-ésimo elemento es sen { i j r / ( n + 1)). Deduzca los eigenvalores correspondientes. 3. Demuestre que si A es real y p X p con p par y det A estrictamente negativo, entonces A tiene cuando menos dos eigenvalores reales. 4. Demuestre que el polinomio característico de
en dondeB y C son cuadradas, es elproducto de los polinomios característicos de B y C. Investigue la relación entre los eigenvectores de A, B y C. D 5. Demuestre que toda ecuación polinomial es la ecuación característica de alguna matriz. Más específicamente, demuestre que
(-1)ndet
-al - 1 1 O
1
-a2
. . . -a,,-l
-1
... ... ... ...
O
1
0
(1
-a,,
O O
0
1
-1
= A ' ~ + a ~ 1 ' " ~ + -i -.a,,.
6. Si A es p x p con rango k , demuestre que A = O es un eigenvalor cuya multiplicidad algebraica es cuando menos p - k , y proporcione un ejemplo
para demostrar que puede ser mayor que p - k . 7. P es la matriz de permutación n X n (definición 3.51) para la que(P) In = 1 y (P)c.r-l= 1 para2 I i c: n. Demuestre que su polinomio característico es An 1. Si se define
demuestre que los eigenvectores de P son x, = [pr
p2r
...
pnry
(I
= 1,.
. . , n)
correspondientes a los eigenvalores pn", respectivamente. Demuestre que éstos son ortogonales. Demuestre que
360
7
I
Eigenvalores y eigenvectores: una panorgrnica
Pe, = e i + l
(i = 1 , . . . , n - 1);
Pen = e , .
Deduzca que si A es el circulante
Entonces A = f(P) en dondeflx) = co + c,x + + C , - ~ X ~ - ~Deduzca . que los eigenvalores de A están dados por Ap""), r = 1, . . , , n , con los eigenvectores correspondientes x,. definidos anteriormente. 8. Generalizar elteorema clave 7.10 c) demostrando 10 siguiente. Suponga que X,, . . . ,Ares una colecciónde eigenvalores distintosde A y que para cadai el conjunto S , = {xil,xiz, . . . ,xiri}es un conjunto linealmente independiente de eigenvectores asociados con Xi. Entonces la unión de todas las Sies linealmente independiente.
D 9. Pruebe o dé un contraejemplo: si A es semejante A' a y B aB' (y todas sonp x p ) , entonces AB es semejante a A'B'. D 10. Suponga que f es un polinomio. a) Utilice el teorema 7.25 e ) para demostrar quesi A y B son semejantes y AA) = O , entonces AB) = O. b) Demuestre que si A es semejante a una matriz diagonaly f e s e1,polinomio característico de A, entoncesf(A) = O. D 11. Suponga que P es una matriz p X p para la que llPxllz = ( J X I ~ ~para toda x. Demuestre que(Px,Py) = (x, y) para toda x y y usando el producto interior estándar ya sea para R P o para P . 12. Utilice el problema 11 para demostrar que la matriz P, p X p es unitariasi y sólo si J J P x l J , = IIxJlzpara toda x en @ p . 13. Suponga que B es unitariamente semejante a A. Demuestre que BHB es unitariamente semejante a AHA.
Eigensistemas de matrices simétricas, hermitianas y normales, con aplicaciones En este capítulo se explicar4 m4s detalladamente,la teoría señalada en el capítulo 7, concerniente a los eigensistemas de matrices normales. Mediante ella,se desarrollar&)algunas herramientas de utilidad para el trabajo aplicado. Los teoremas clave8.6,8.8,8.19 y 8.26 ademas de los corolarios clave 8.9 y 8.20 s e r h fundamentales en este desarrollo.
8.1
INTRODUCCION
Quizá reflejando una simetría inherente ala naturaleza, los modelos matemáticos delos problemas del mundo real a menudo producen matricessimétricas (o, en general, hermitianas o normales). Considérese, por ejemplo, el problema de las masas oscilantes modelado en la sección2.5. Aunque el problema mismo no parezca simétrico -por ejemplo, el sistema está fijo arriba y libre abajo-, el modelo conduce a matrices K y M en (2.29) que soa simétricas. El problema9 de la sección 7.2 extendió esemodelo a p masas acopladas por p resortes; una vez más, aparecieron matrices simétricas K y M. Las frecuencias naturales de oscilación del sistema son o / 2 r , en donde K - 02M es singular. Anteriormente seha hecho notarque estosignifica que A = w2esun eigenvalorde M-lK (no simétrica); en efecto, es posible reformular esto como un problema de eigenvalor para -una vez más- matrices simétricus. Ya que M = diag(m,, . . . , m,) con mi > O se puede escribir M = D2, en donde
D
= di&&,
. ..,
A). 361
Entonces D es no singular, y así K - w2Mes singular si y sólo si D-l (K - w2M)D-l es singular, estoes, si y sólo si A = w2 es un eigenvalor de B = D"KD", y B es simétrica: B T = ( D - I K D - l ) T = ( D - l )T K TD-1 ( )T = (D-l)K(D-') = B, porque D-l es diagonal (por lo tantosimétrica) y K essimétrica. Así, las frecuencias fundamentalesdel sistema oscilante queson físicamente importantes, se encuentran partiendo los de eigenvalores dela matriz simétrica B aunque el sistema mismo parezca no simétrico. (8.1)
Ejemplo. Considere el modelo concreto de dos masas acopladas del ejemlas matrices K y M. Es fácil encontrar la matriz B plo 2.31, en donde se dan = D-lKD", en donde M = D2:
Esta matriz ciertamente es simétrica. La teoría de los eigensistemas de matrices simétricastambién es importante por otra razón: proporciona una poderosa herramienta -la descomposición en valores singulares- para su uso con matrices arbitrarias.Los resultados de este capítulo reflejan ambas motivaciones parael estudio de matrices simétricas y sus generalizaciones. PROBLEMAS 8.1
D 1. Encuentre la relación entre los vectores 6 que resuelven(K - d M ) t = O , y los vectores x que resuelven(B - &)x = O , en donde B = D-lKD" y Dz = M. 2. Encuentre la matriz B = D-lKD", en donde D2 = M, para el sistema de 10 masas acopladas del problema 10 de la sección 7.2, y demuestre que B es simétrica. 3. Encuentre la fórmula general para la matriz B = D-IKD-', siendo D2= M, para el sistema de p masas acopladas del problema 9 de la sección 7.2 y demuestre que B es simétrica. 8.2
FORMA Y DESCOMPOSICION DE SCHUR; MATRICES NORMALES
Mediante la forma reducida de Gauss y la forma escalón reducida por renglón se vio que las formas especiales a las que puede reducirse cualquier matrizpueden ser en extremoútiles para analizar las propiedades de las matrices. Este también es un método útil para el estudio de los eigensistemas.
8.2
/
Forma y descomposici6n de Schur; matrices normales
363
Forma de Schur (8.2)
Teorema (Forma y descomposición de Schur). Sea A p X p . a) A es unitariamente semejante a una matriz triangular superior T = PHAP con P unitaria y con los eigenvalores de A (repetidos de acuerdo a sus multiplicidades algebraicas) en la diagonal principal de T. Se llama a T una forma deSchur de A y a la descomposición A = PTPHuna descomposición de Schur de A. b) Si A y sus eigenvalores son reales, entonces se puede considerar a P como real y por lo tanto ortogonal.
Las dos partesdel teorema son claramente ciertas parap = l . Se procederápor inducción, suponiendo que el teorema es válido parap = k y se buscará comprobarlo parap = k + l . Suponga entonces queA es (k + 1) X ( k + 1). Sea A, un eigenvalor de A asociado al eigenvector x, normalizado, de modo que IIxlllz = 1; si A y A, son reales, entonces, por el teorema clave 7.10 a) será posible tomar a x, como real. Ya que (x,} se puede extender para formar una base para Ck+' (o Rkfl si x, es real) y entonces usar el proceso de Gram-Schmidt para producir de {x,} una base ortonormal; hay un conjunto de vectores (reales si x, es real) w,, . . . , wk tal que {x,, w,, . . . , wk} es ortonormal. Entonces la matriz u = [Xl w, w2 . . . Wk] = [Xl W] DEMOSTRACION.
es unitaria (ortogonal si x, es real). Se calcula ahora A' = UHAU: A' = UHAU = [X,
WIHA[x,
W]
= [X,
WIH[Ax1AW]
= [x1
porque llx1112= 1 y porque WHx, = O debido a que U es unitaria. Como A' es semejante a A, los eigenvalores de A y A' son idénticos, incluyendo sus multiplicidades. Desarrollando det(A' - AI) respecto a su primera columna, se ve que el polinomio característico de A' es igual a A, - A veces por el de C; de este modo los eigenvalores deA, además de A,, son justamentelos de C. Pero C es k X k (y real, si A y A, lo son), por lo tanto es válida la hipótesis inductiva y será posible encontrar una V unitaria (ortogonalsi A y sus eigenvalores son reales), demodo que VHCV = T' siendo T' triangular superior con los eigenvalores de C (y por lo tanto de A) en su diagonal principal. Si ahora se define P como
364
8
I
y normales, con apllcaclones
Eigensisternas de matricesslm6tricas,hermitianas
la cual tiene la forma apropiada y de estemodo demuestra que la hipótesis inductiva es válida parap = k + 1. Por lo tanto es verdadera para todap. H Observe que &te es un teorema de existencia, el cual nodice, sin embargo, que T se calcule fácilmente: en la práctica, es necesario conocer los eigenvalores para obtener T. No obstante, es una poderosa herramienta teórica. Ahora se expresará este teorema en términos de representaciones de transformación en lugar de en términos de descomposiciones o semejanzas {véase (7.19)). (8.3)
Corolario (representaciones de Schur). Si Y e s la transformación lineal de C p a C P definida por F ( v ) = Av, entonces hay una base ortonormal de C P con respecto a la cual Y se representa por una forma de Schur de A.
(8.4)
Ejemplo. Considérese la matriz de transición A del modelo de competencia entre lecherías del ejemplo 2.6 de la sección 2.2; en el ejemplo 7.2 de la sección 7.1 se encontraron los eigenvalores y eigenvectores de A. Para construir una formade Schur,se empezarácon A, X, y unax, normalizada:
;:; a;],
0.8
0.2
A=
0.1
= 0.6,
Al
y
x1
=$[-a].
Se puede usar a x, como la primera columna de unamatriz digamos
L
Q=
L
4
y'2
2 O
2 O
"
unitaria,
I
O1 1
en dondese han escogido las dos hltimas columnas de Q de lamanera más sencilla posible para hacer a Q unitaria; entonces se calcula 0.6
A,
=
QHAQ = O
"_"" 0.1
I
I
0.9
0.18
0.6
1
A continuación se considerará a la submatriz 2 x 2 indicada anteriormente, que es
8.2
/
Forma y descomposici6n de Schur; matrices normales
de la cual se encuentra fácilmente que tiene un eigenvalor A eigenvector asociado normalizado
=
365
1 con un
Se agrega, como una segunda columna, el vector ortogonal normalizado más sencillo en que se pueda pensar para obtener una matriz unitaria
finalmente, se usa la matriz
para obtener la matriz unitaria semejante aAl, que da la forma triangular deseada para A
Matrices
normales
El teorema 8.2 es sorprendentemente útil: contiene información importante sobre el eigensistema de una matriz simétrica (corolario clave 8.9). De hecho, permite analizar el eigensistema de una clase más amplia de matrices que las simétricas. (8.5)
Definición. Una matriznormal es una matriz A, p x p , que satisfaceAHA= AAH.
366
8
I
Elgensistemas de matricessimktrlcas,hermittanas
y normales, con aplicaciones
Ciertamente, las matrices hermitianas (AH = A) y su caso especial de matrices reales simétricas (AT= A) son normales, porque tanto AHAcomo AAH son igualesa A*. De manera semejante, las matrices unitarias son normales (AHA y AAH son ambas iguales a I). Se usará ahora la forma de Schur de matrices normales para obtener un resultado notable.
DEMOSTRACION. (formadiagonal + normal)Si existe P unitariatal que PHAP= D diagonal, entonces ciertamenteA es normal porque las matrices diagonales conmutan:
AHA = (PDPH)H(PDPH) = PDHPHPDPH = PDHDPH= PDDHPH = PDPHPDHPH = (PDPH)(PDPH)H = AAH.
(normal 3 forma diagonal) Suponga que A es normal, y'sea T una forma de Schur, donde PHAP = T. T también es normal: THT= (PHAP)H(PHAP) = PHAHAP= PHAAHP= (PHAP)(PHAP)H = TTH,
como senecesitaba. Si tij es (T)ij,se tiene que tij = O parai > j . Como TT* = THT, sus elementos ( i , i) son iguales. Se tiene entonces (TTH)ii = Itii12
+ Iti,¡+ + . . . + Itipi2,
mientras que también (THT)¡¡ = ltliI2 + Itzi12 + . . . + Itii12. Igualando esas dos expresiones y restanto el término común lf,,lz de cada lado, nos da ltj,i+,12
+ . . + Itip12 = '
ltli/2
+ . . . + 1tj-J
para toda i. Si se hace i = 1 en esta igualdad, se obtendrá O en el lado derecho ya que no tiene términos; entonces en el lado izquierdo t12= t , , - . . . = tl, = O. Si entonces se hace i = 2, se obtendrá Itli/*dellado derecho, que es igual a cero; entonces t 2 , = tZ4= . . . = t l p = O. Continuando de estemodo se demuestra que, en efecto, T es diagonal, y así se
8.2
I
Forma y descomposici6n de Schur; matrices normales
367
podrá consideraraD = T. La observación de realidad la de P es consecuencia de la misma observación para la forma de Schur. M Como de costumbre, esposible interpretar inmediatamente cualquier resultado de descomposicióno semejanza de estetipo de términos de representaciones de transformaciones. (8.7)
Corolario Suponiendoque Y es latransformación lineal de CP a C p definida por F ( v ) = Av, entonces 9se representa por una matriz diagonal con respecto a alguna base ortonormal si y sólo si A es normal.
Desde luego,también es posible interpretar inmediatamente este resultado en términos de eigensistemas de matrices normales. Esta formadel teorema es tan importante que se colocará en una sección especial para darle énfasis.
PROBLEMAS 8.2 1. Demuestre que una matriz p X p triangular superior yaesti-en laforma de
Schur.
D 2. Como en el ejemplo 8.4, encuentre una forma de Schur de la matriz del problema 2 de la sección 7 . 2 . 3. Como en el ejemplo 8.4, encuentre una forma de Schur de la matriz del problema 1 de la sección 7 . 2 . 4. Como en el ejemplo 8.4, encuentre una forma de Schur de la matriz AT, en donde la matriz A es como la del ejemplo. 5. Demuestre que laforma de Schur no es única, demostrando queA y PHAP
!]
€'=[a
( Z A) son formas de Schur de A, en donde A = E
O
y
o
-1
p]
o
D 6. Demuestre que las matrices antihermitianas (AH= -A) son normales. 7. Suponga que A, p
X p es triangular superiorpero definitivamente no diagonal; demuestre que A no es normal. 8. Si los eigenvalores de la siguiente matriz normal A son 9, 9, -3, encuentre una forma de Schur.
368
8
/
Eigensistemas de matrices sim6tricas, hermitianas y normales,con
aplicaciones
D 9. Determine si A es normal y encuentre una forma de Schur. A = [ 1”i2
y ] .
D 10. Demuestre que A es normal (pero no simétrica, ni hermitiana, ni unitaria, ni antihermitiana) y encuentre una forma de Schur.
11. Para cada una de las matrices A de los problemas 8, 9 y 10, encuentre una base ortonormal y una matriz diagonal D tal que latransformación lineal Y definida por Y(v)= Av se represente por D con respecto a esa base (usada en el dominio y en el contradominio). 8.3
EIGENSISTEMAS DE MATRICES NORMALES
Recuerde de (7.19) que las afirmaciones sobre descomposiciones/semejanzas, representaciones de transformaciones y eigensistemas son todas equivalentes. Se interpretará el teorema clave 8.6 así como su corolario en la versión restante: eigensistemas.
8.3
(8.10)
I Eigensistemas de matrices normales
369
Ejemplo. Considere la matriz B, 2 x 2 del ejemplo 8.1, cuyos eigenvalores dan las frecuencias fundamentales de masas las oscilantes dela sección 2.5. Se encuentra fácilmente que los eigenvalores son X, = 4 y h2= 16 y que los eigenvectores son [ f i 2IT y [& - 1IT. Normalizándolos, resulta el conjunto ortonormal {x, XJ de eigenvectores x1
=[i-&
3]
y
@ T
x2=
[‘I”
-
~
-PIT.
Es necesario hacer un comentario sobre la frase del teorema clave 8.8 y el corolarioclave 8.9 que afirma que “pueden escogerse para que formen un conjunto ortonormal” de eigenvectores. Ya que cx es un eigenvector para c # O si x es un eigenvector, desde luego, es posible forzar a los eigenvectores para que se normalicen a 1 en la norma 2. Los eigenvectores asociados con eigenvalores distintos automáticamente serán ortogonales (problema 8), pero los eigenvectores asociados con un eigenvalor múltiple no necesitan ser ortogonales amenos que se les escoja así. Se aclarará este punto con un ejemplo. (8.11)
Ejemplo. Considere la matriz real simétrica
[--: -:l. 7
A
=
-16
-8
El polinomio característico es a3
- 922 - 405a - 2187,
con raíces X, = 27, h2 = X3 = -9. las ecuaciones (A - h,I)x = O dan, inmediatamente, y de manera precisa, un eigenvector, como se podría esperar, ya que X, es una raíz simple:
en donde (Y es una constanre arbitraria. Las ecuaciones(A - h21)x = O se reducen a una sola ecuación 2 x , - 2x, - X ) = o.
La solución general esx3 = p arbitraria, x2 = y arbitraria, y entonces x, = y + p/2. Así, todos los eigenvectores asociados conX2 = h3tienen la forma
370
8
/
Eigensistemas de matricesslmetrlcas,hermltianas
y normales, con aplicaciones
Los dos eigenvectores en esta combinación lineal son linealmente independientes pero no ortogonales entre sí (nótese queson ortogonales a xl). Por lo tanto, se deben escoger dos combinaciones lineales distintas de la forma anterior para que sean mutuamente ortogonales. Para la primera se tomará simplemente y = 1 y p = O obteniendo [ 1 1 OIT. Para la segunda, sea se deben escoger y y p de tal modo que la resultante [y + p/2 y ortogonal ala primera, [ 1 1 OIT. Esto es, se requiere que y + p/2 + y = O, lo que da p = -4y; tomando y = 1 y por lo tanto p = -4, resulta el otro eigenvector [- 1 1 -4IT. Normalizando los eigenvectores se obtiene finalmente un conjunto ortonormal de eigenvectores
junto con
;[
t]'
para A l
= 27.
Ahora podrd resolver los problemas del 1 al 9 .
Solubilidad de ecuaciones
Suponga que A e s p X p . Se sabe quesólo es posible esperar resolver Ax = b con b arbitraria cuando A es no singular. Sin embargo, se sabe que, aun siendo A singular, hay algunas b para las que se puede resolver Ax = b. La cuestión es: jcómo se puede caracterizar a esas b (además de decir que en el espacio de columnas de A hay una tautología)? Para matrices normales A, hay una caracterización elegante. (8.12)
Teorema (matrices normales y solubilidad). Suponga que A es una matriz normal p x p que tiene eigenvalores hi y un conjunto ortonormal de eigenvectores asociados {xl,. . . , x,}. Considere la pregunta de la existencia de una solución x de (A - XI)x = b, en donde b es una matriz p X 1 dada y A es un número dado. Entonces: a) Si A no es uno de los eigenvalores, entonces la ecuación tiene u n a solución única que es
b) Si A es uno de los eigenvalores hi,entonces la ecuación tiene una solución, si y sólo si b es ortogonal a todos los eigenvectores asociados
8.3
371
Eigensistemas de matrices normales
/
con hi. Cuando hay soluciones, habrá infinidad de ellas, y cacia una se puede obtener agregando a una solución x una combinación lineal arbitraria de los eigenvectores asociados a X i . DEMOSTRACION. Como {xl, . . . , xp} es una base ortonormal, es posible escribir a b y a las soluciones posibles x en términos de esos vectores como
+ . . . + (xp,b)xp x = a l x l + u2x2 + . . . + apxp b = (xl, b)xl
(en donde se desconocen las
ai)
de acuerdoal teorema 5.74 sobre bases ortogonales. Entonces la ecuación b = (A - hI)x es equivalente a
b=
P
(xj,b)xj
= (A - AI)
j=1
ujxj = j= 1
de aquí que existe unasolución x
=
P
1 a,(Aj - A)xj; j= 1
alxl
=
. = apxp si y sólo si
“AAj - 1) = (xj, b) paraj = 1, . . . , p . De aquí el teorema se deduce fácilmente. (8.13)
Ejemplo. Considérese la aplicación del teorema 8.12 cuando
12 = [-4&
- 4 3
cuyos eigenvalores Al = 4 y h2 = 16 y los eigenvectores asociados están dados en el ejemplo 8.10. Se consideraránlas condiciones para la solución de (A - XII)x = b. De acuerdo al teorema 8.12, b debe serortogonal a x1 = [&3 &/3]*. Estoes,
[- 4 k
-“][;I
=
[fi]
tiene auna solución si y sólo si c a l 3 + d&/3 = O-esto es, c
=
-da.
Aplicacidn: oscilacionesforzadas y resonancia
Como ejemplo de la utilización de este teoremaen las aplicaciones, se aplicará aa ls masas oscilantes de la sección 2.5 cuando éstas se encuentran sujetas a fuerzas externas. Para ser específicos, suponga que una fuerza oscilante se aplica a la masa de abajo y nos preguntamos si todavía habrá una solución oscilante de amplitud fija, como en el caso enel que no hay tal fuerza externa. Para tener una apreciación de lo que se debe esperar, considere lo que sucede cuandose empieza a empujar un a niño en un columpio. El columpio tiene
372
8
I
Eigensistemas de matrices srmetricas,hermitianas y normales, con aplicaciones
una frecuencia natural, y si la frecuencia de los empujones es la misma que la frecuencia natural, será posible lograr que el niño vaya másy más alto (esto es, la amplitudno es fija); este es el fenómenode resonuncia. Por otro lado, si empuja a distinta frecuencia, la amplitud de las oscilaciones no crecerá. Se desea ver si el modelo puede indicar algo de estaconducta enel caso delas masas acopladas. Suponga que se aplica una fuerza oscilante hacia abajo F cos(p.t + a) de frecuencia p/(27r) siendo p # O a la masa inferior del caso específico del ejemplo 2.31. Entonces la segunda ecuación de (2.26) se cambia por la adición de este término a su miembro del lado derecho dando m,x; = - k , X , m,X”
=
+ k,(X,
-k,(X, - X , )
- X,)
+ F cos(pLt + a).
Como estas ecuaciones son lineales, su solución general es la suma de dos términos: 1) la solución general del sistema homogéneo (cuando F = O ) ; y 2) una solución particular para F , p y (Y específicas. En la sección 2.5, se desarrolló el punto 1) como combinaciones lineales de sen o?y cos wt para valores especiales de o ;véase (2.27). Para encontrar la solución particular 2), se seguirán buscando soluciones oscilantes de magnitud fija y de frecuencia desconocida w/(27r) como en (2.27), en donde se deberá determinar w # O. Sustituyendo las expresiones para X , y X , en las ecuaciones anteriores, resultan ecuaciones como las inmediatamente anteriores a (2.28), excepto que lasegunda ecuación tiene el cero en el miembro del lado derecho, sustituido por F cos(pt + a ) ,que es igual a ( F cos a) cos p ~ t- ( F sen +en pt.
Con algunos cálculos se demuestra queel Único modo en que una combinación lineal no trivial de sen wt y cos w t puede ser idénticamente igual a una combinación lineal no trivialde senpt y cos pul para toda 1 , es haciendo que w = p y los coeficientes de las funciones correspondientes deben ser iguales. Igualando los coeficientes correspondientes se llega a (2.28),excepto que lasegunda ecuación allí, tiene a - F sen a en el lado derechoy lacuarta tiene a Fcos (Y.Escribiendo en términos matriciales, se obtienefinalmente el análogo de (2.30) como una combinación particular, usando la nomenclatura de (2.29): (8.14)
(K
-
pzM)< = b,
b,
=
[O
(K - p2M)q = b,,
y
-F‘senalT
y
b, = [O
donde
FcosaIT.
Para ser específicos,se regresará a las matrices K y M dadas en el ejemplo 2.31; el ejemplo 2.34 mostró que K - pzM es no singular excepto cuando pz = 4 o p2 = 16. Como K - p2M es simétrica, es ciertamente normal y se puede
aplicarelteorema8.12.Sipz#4ypz# 16,habráunasoluciónúnica5, qa(8.14), lo que significa que X(?) = sen pt + q cos pt es una solución particular de las ecuaciones diferenciales. Agregando esto a la solución general (2.35) del sistema
<
8.3
I
Eigensistemas de matrices normales
373
homogéneo, se demuestraque lasolucióngeneral de las ecuacionesdiferenciales es una combinación lineal de sen p t , cos p t , sen 4t, cos 4t, sen 2t y cos 2t. Esto es, si la frecuencia p/(271.)de la fuerza aplicada es distinta de cada una de las frecuencias naturales 1/71. y 2/71., entonces el movimiento de las masas acopladas consiste en una combinación lineal de tres oscilaciones de amplitudfija a esas tres frecuencias distintas. Pero, ¿qué pasasi p2= 4 o p2= 16 (los númerosque determinan las frecuencias naturales 1/71. y 2/77)? De acuerdo al teorema 8.12, el sistema (8.14) tendrá una solución si y sólo si b, y b2 son ortogonales a los vectores x para los que (K - p W ) x = O. Es fácil encontrar tales vectores x de los resultados del ejemplo 8.10; se descubrirá que bl y b2 pueden ser ortogonales a esasx si y sólo si F = O (esto es, no hay fuerza aplicada).Como se suponeque hay una fuerza aplicada F Z O, bl y b2 no reúnen las condiciones necesarias para que (8.14) tenga soluciones. Por lo tanto si la frecuencia p/(271.)de la fuerza aplicada es igual a cualquiera de las frecuencias naturales 1/71. o 2/71., entonces el movimiento de las masas acopladas no puede consistir en una combinación lineal de oscilaciones de amplitud fija. Como en el caso delniño y el columpio, éste esel fenómeno deresonancia. La fuerza externa se aplica a la frecuencia natural del sistema. Un conocimiento mayor delas ecuaciones diferenciales permitiría demostrar queen este caso hay soluciones que son combinaciones lineales de t(cos p t ) y ?(sen p t ) -soluciones oscilatorias con amplitudes que crecen sin frontera. PROBLEMAS 8.3
D 1.
Si A es p X p , demuestre que h es un eigenvalor de A si y sólo si h es un eigenvalor de AH. b) Si A es normal, demuestreque x es un eigenvector de A asociado con el eigenvalor X de A si y sólosi x es un eigenvector de AH asociado con el eigenvalor de A H . 2. Para la matriz A siguiente, encuentre un par de eigenvectores que no sean ortogonales y un par de ellos que sean ortonormales. a)
x
3. Encuentre los eigenvalores y eigenvectores de A de modo que los eigenvectores formen un conjunto ortonormal,
374
8
donde
/
y normales, con aplicaciones
Elgensistemas de matricesslmbtrlcas,hermltlanas
en
[-a -: -:l. 2
A=
-1
D 4. Si los eigenvalores de A siguientes son 9, 9 y - 3 , encuentre un conjunto
[-: : :I
ortonormal de eigenvectores asociados. 5
A=
4
-4
5. Demuestre que la siguiente matriz es normal (pero no simétrica real, ni hermitiana, ni unitaria y tampoco antihermitiana), y encuentre sus eigenva-
lores y un conjunto ortonormal de eigenvectores.
6. Suponga que A es antihermitiana (AH= -A); a) demuestre que ;A es hermitiana. b) demuestre que los eigenvalores de A son imaginarios puros.
D 7. Demuestre que una matriz normales hermitiana si y sólo si sus eigenvalores son reales. 8. Usando el problema 1 y suponiendo(A, - A2)x~x,,demuestre quesi A , # 1, son eigenvalores asociados con los eigenvectores x, y x2 de una matriz normal, entonces x1 y x2 son ortogonales. 9.R 9. Utilice MATLAB o algún software semejante para encontrar los eigenvalores y eigenvectores de lamatriz B = D"KD", en donde D2 = M (véase el problema 2 de la sección S . l ) , para K y M como en el problema 10 de la sección 7 . 2 ;compruebe quelos eigenvectores son (aproximadamente) ortogonales. b 10. Utilice elteorema 8.12 sobre matrices normales y solubilidad para encontrar las condiciones necesarias y suficientes de 6, y b, para que el sistema
tenga solución cuando: a)l = 1 b)l = 3 11. Utilice elteorema 8.12 sobre matrices normales y solubilidad paraencontrar las condiciones necesarias y suficientes para b, y b,, para que exista una
8.4
/
Aplicaci6n: descomposici6n en valores singulares
375
solución de
D 12. Suponga que A es normal. Utilice elteorema 8.12 sobre matrices normales y solubilidad para demostrar que hay cuando más una solución de Ax = b con b arbitraria si y sólo si al menos hay una soluciónde Ax = b con b arbitraria. 13. Suponga que A, es p X p y normal. Utilice la proyección ortogonal y el teorema 8.12 para demostrar que cada vector v en C P puede escribirse como v = Ax + h para alguna x en C p y alguna h que satisfaga a Ah = O. 14. Dé los detalles de la deducción (8.14). 15. Suponga que enel modelode oscilaciones forzadas (siendo K y M como en el ejemplo 2.31) se hacen F = 2, (Y = ~ / 4 py = 3. Encuentre 6 y q que resuelvan (8.14).
9R 16. Utilice MATLAB o algún software semejante para encontrar las frecuencias
a las que ocurriríala resonancia cuando se aplicaran oscilaciones forzadas a las 10 masas acopladas del problema 10 de la sección 7.2. 8.4
APLICACION: DESCOMPOSICION EN VALORES SINGULARES
Hasta ahora se han explorado cuando menos dos descomposiciones útiles que emplean matrices unitariasu ortogonales: 1) la descomposición Q R , A = QR para A p x q (hay varias versiones de ésta; compare losteoremas clave 5.82 y 7.38); y 2) las descomposiciones de SchurA = PTPH para A, p X p . De acuerdoal teorema 6.17 sobre cambio de base y representación, éstas se pueden interpretar como afirmaciones sobre representaciones de la transformaciónlineal Y definidapor Y ( v ) = Av con respecto a varias bases ortonormales) 1) 5 se representa por R con respecto a la base ordenada ortonormal {el; . . . ; e,} para el dominio y la base ordenada ortonormal que Y; y 2) Y se consiste en las columnas de Q paraelcontradominiode representa por T con respectoa la base ordenada ortonormal que consiste en las columnas de P, que seusa tanto para el dominio como para el contradominio. La primera versión ( Q R )especifica la base para eldominio pero permite que se pueda escoger del la contradominio para producir una representación sencilla. La segunda (Schur) especifica queusesela misma base tanto parae1 dominio como para el contradominio. Se examinará ahora qué se puede conseguir por medio de una selección cuidadosa de bases ortonormales no restringidas y posiblemente distintas, tanto para el dominio como para el contradominio. El resultado es de gran importancia práctica. Descomposicidn en valores singulares
Esta sección demostrará que todamatriz A, p
X
q , puede descomponerse como
376
8
Eigensistemas de matrices sirnktricas, herrnitianas
y normales, con aplicaciones
(8.15)
A = UCVH,en donde U esp X p y unitaria, V es q X q y unitaria, y C e s p X q y “diagonal” porque (C), = O a menos que i = j , en cuyo casose escribirá (C)ii = ui, donde ui es real y no negativo.
(8.16)
Ejemplo. Cada una de las matrices siguientes es una C del tipo descrito en (8.15):
-4
0.
O
6
O
0
Antes de demostrar que se puede obtener (8.15), se considerará primero qué significaría si fuera cierto. Se observó primero que AV = U 2 significa que Avi = upi para 1 5 i 5 min(p, q } , en donde las columnas de U y V son las ui y vi. También se tendría AHA = (UEVH)H(UCVH) = VEHUHUEVH = V(EHE)VH (ya que U es unitaria),
en donde CHC = D = VH(AHA)Ves q X q y diagonal con elementos reales no negativos en su diagonal principal. De acuerdo con el teorema clave 8.6, esto significa que los eigenvectores de AHAforman a V, con los eigenvalores (reales no negativos) asociados en la diagonal de D = CHC.
los eigenvectores de AAHforman a U , con los eigenvalores (reales no negativos) asociados en la diagonal de D‘ = CCH.
Los elementos diagonales tanto de CCH y CHC son justamentelas a? (quizá con algunos ceros agregados), en donde ( Z ) i i = ui. Estos resultados se pueden usar para construir un método mediante el cual se demuestre que(8.15) se puede lograr: es posible definir V de tal manera que contenga los eigenvectores de AHA, definir las ui para que los eigenvalores de
8.4
/
377
Aplicaci6n: descomposici6n en valores singulares
AHAsean lasa,: y definir aU para que contenga los eigenvectores deAAH.Sería necesarioentonces demostrar que,verdaderamente, A = UCVH. Como las demostraciones son bastante técnicas, se dará un ejemplo ilustrativo de cómo funcionaría este método.
(8.17)
Ejemplo. Considere a 1 A= 2 2
1 2 2
Ya que AHA =
[,"
,"I
tiene eigenvalores(¡no negativos!) 18 y O, se pueden considerar v1= 6 8 = 3 4 , y m2 = O. Es posible encontrar con facilidad que un par normalizado de eigenvectores de AHA sería v1 =
[$I2
$PIT
Y
v2 =
[al2
-$/2IT,
O (que es igual a tiene los eigenvalores 18 (que es igual a .I), encuentran fácilmente los eigenvectores normalizados
03,
y O. Se
con los cualesseforma U = [u, u2 us] esperandoobtener (8.15). Se comprobará que A = UZVH y corroborando que realmente lo es:
378
8
1 Elgenststemas de matricessimétricas,hermitranas
y normales, con aplicaclones
Observe también que Avi = wiui y que AHui= wivi siendo i,
=
1 , 2.
Note que se puede construir fácilmente la factorización (8.15) en los casos sencillos: (8.18)
l . Para una matriz A, p X q , cero, se tendrá O = IpOIf, de modo que U = I,, c = o, y v = I,. 2 . Para A, una matriz columna diferente de cero p x 1 a, es posible usar el procesoGram-Schmidtparaobtenerunabaseortonormal a/llal12, u2, . . . , u, de C P y escribir a = u(llall2el)t-~l
donde U
= [a/llal12
u2 . . . u p ] , E = )laj12el,V
=
[l].
3 . Si es posible obtener una descomposición (8.15) para AH = U,C,V~, entonces A
= UXVH
donde U = V,, C = X:, V = U,. 4 . Para una matriz renglón A diferente de cero, sepuede aplicar 2) a AH y entonces usar 3). Ahora se procederá formalmente. (8.19)
8.4
/
379
Aplicaci6n: descomposici6n en valores singulares
DEMOSTRACION. Suponiendo ( 8 . 1 5 ) -que aquí es justamente a)- ya se ha deducido b); de modo que sólo será necesario demostrar a). Debido a ( 8 . 1 8 ) 3) y 1) es posible suponerque p 2 q y que A # O . Enla demostración se hará uso de la inducción: 1 ) por ( 8 . 1 8 ) 2 ) el resultado es válido para matrices (p - q + 1) x 1 ; 2 ) se supondrá válido para matrices (p - q + k) x k y se demostrará válido para matrices p’ x q’ en donde p ‘ = p - q + k + l y q ’ = k + l . Suponga que A es p’ x q’ con p’ 2 q’, que A # O , y que el teorema es válido para matrices (p’ - 1 ) X (4’ - 1 ) . AHA es hermitiana (de aquí en adelante no se mencionará el caso real explícitamente), diferente de ceroy tiene cuando menos un eigenvalordiferente de cero (de otro modo, A = O ) . Si AHAv = Av, entonces L ~ ~ V I=I V ~ ~ I=V vHAHAv= IIAvII~,
v, = olv?v, = o. Esto da A‘ = U?AV, = [u1U,IHA[v1
siendo A, una matriz (p’ - 1 )
V,] X
=
[il
UfAV, O
3
=[;I
OAJ
(q’ - 1). Por la hipótesis inductiva,
en donde Po y Qo son unitarias. Pero entonces
como se necesitaba para completar el argumento inductivo. En la práctica, el cálculo de una descomposición en valores singulares de una matriz A, p x q , se hace con programación de computadora que hace uso de técnicas eficientes -véase la sección 7.6- para encontrar el eigensistema de una matriz simétrica hermitiana; el esfuerzo total involucrado, es generalmente un
380
8
/
Eigensistemas de matricessimétricas,hermitianas
y normales, con apltcaciones
múltiplo pequeño de p 2 4 + p q 2 + {mí&,-aproximadamente varias inversiones de matrices cuando p = 4.
comparable a
Ahora podrd resolver los problemas del 1 al 12.
Valores singulares y rango
La descomposición en valores singulares contiene gran cantidad de información sobre la matriz A. (8.20)
DEMOSTRACION.
Problemas 13 y 14. w
De este modo la descomposición en valores singulares se puede usar para determinar el rango de una matriz. Más importante aún es que puede usarse para analizar los diferentes rangos que podría tener A si sus elementos estuvieran sujetos a errores (por ejemplo, errores de medición o de modelado). Se vio el ejemplo en 6.31 que el número de factores independientes en una reacción química puededeterminarse como el rangode cierta matriz que presentaconcentraciones medidas de aquélla, y se vio cómo los errores en esas mediciones podrían ocasionar el creer que el rango es mayor de lo que en realidad pudiera ser. Esto se trató al buscar el rango mínimo de todas las matrices C + 6C, en donde las perturbaciones 6C de la matriz de concentraciones C deberían ser menores que los errores que se creíaninherentes a las mediciones. El siguiente teorema, cuya prueba se omite, es la base para encontrar el rango mínimo. (8.21)
Teorema (rango aproximado y valores singulares). Sea A unamatriz p x q , y rango k . Consideremos, utilizando la misma notación del teorema clave 8.19 una descomposición de A en valores singulares. a) Parauna r < k dada, lamatriz A, de rango r que hace mínimo a IIA entre todas las matrices p X q , A', de rango r está dada por A, = O ~ U , V ~ D,U,V? . . . + D+I~V,H,
+
y el mínimo es IIA -
Aril2 =
+
8.4
I
Aplicaci6n: descomposici6n en valores
singulares
381
b) Para una E > O dada, la matriz Amin de rango mínimo entre todas las a - A$ IE es igual a la A, de a), en donde matrices A’ que satisfacen IIA 5 E pero (T, > E. m(8.22)
Ejemplo. ConsidéresenuevamentelamatrizdeconcentracionesC del ejemplo 6.3 1 , en donde los elementos están sujetos a errores experimentales de magnitud 0.015 y donde el problema es determinar el número de factores independientes en la reacción estudiada; se sabe quenúmero este es igual al rango de C si sehicieran mediciones perfectas. Mediante MATLAB se calcularonlos valores singulares de C, que fueron crl = 9.5213, ( T ~ = 0.0071 y ( T = ~ 0.0023. Por el corolario clave 8.20, l a c medida tiene ranga k = 3; sinembargo, porel teorema8.21hay unamatrizde rango 2 solamente a una distancia de 0.0023 y una matriz de rango1 sólo alejada 0.0071, ambas distancias medidas en la norma 2. Como ningún elemento deuna matriz A puede ser más grande queIIA(Jen cualquiera de lasnormas 1 , 2 o m (porque llAeill IllAll), los elementos de esas matrices de rango 2 y rango 1 están dentro delos límites del error experimental los de ya medidos en C. Sólo se puede decir con seguridad que el rango de la matriz de concentraciones perfectamente medidas C escuando menos uno, y así, sólo se puede confiar en que haya un factor independiente en lareacción química. Nótese que reemplazar a C por IamatrizC, = O~U,VT,laaproximapodría ser razonable ción más c5rcana de rango 1: 1.0193 C, = olulvT = b.2567 1.7395
2.0280 0.5107 3.4610
1
4.201 1 1.0580 , 7.1696
que queda, en realidad, dentro del error de n;edición de la C medida. La capacidad de la descomposición en valoressingulares para decir cómo obtener aproximaciones de bajo rango a una matriz dada, puede ser útil en la compresióndedatos -por ejemploalenviarfotografíasdesde el espacio. Considérese una cámara en un satélite lejos de la Tierra; ¿cómo se pueden transmitir hacia acá miles de fotos? Cada foto se puede discretizar o digitalizar dividiendo la imagen en muchos cuadrados pequeñosy asignando un tono de gris podría hacer sobrela foto un cuadriculado de a cadauno deellos. Por ejemplo, se 1000 x lo00 y asignar un tono degris de O a 10 para cadacuadro pequeño, mandar y entonces reconstruirla foto a la Tierra el1,000,000 de enteros para cada foto, en la Tierra. El problema con este esquema es el envío de 1,000,000 de datos para cada foto, cuando fácilmente puede haber miles de fotos ligadas a otros datos. Se una necesita un método para comprimir los datos con objeto de transmitir cantidad más pequeña. Un método es encontrar la descomposición en valores
382
8
i Elgensistemas d e matrlces slmétrlcas, hermitianas y normales, con aplicaclones
2)ORIGINAL IMAGEN
c ) RECONSTRUCCION, GRADO
b)DISCRETIZADA IMAGEN
1
d ) RECONSTRUCCION, GRADO
2
singulares de la matriz 1000 x 1000B de tonos de grisesy ver si unaaproximación de bajo rango
8.4
/
Aplicaci6n: descomposici6n en valores singulares
383
representaría adecuadamente la imagen;éSta podría transmitirse a la Tierra no explícitamente comoB,, sino enla forma delos 2r vectores ui y vi y los r números ui. Si r = 5 es suficiente parareconstrur la foto,por ejemplo, sólo 2 x 5 x 1000 + 5 = 10,005datos son necesarios por fotografíaen vez del 1,000,000-un ahorro de casi 99%. W(8.23)
Ejemplo. Seconsiderará un ejemplo burdo y sencillo delmétodoquese acaba de discutir.Suponga que laprimera X de la figura que en el original X , y s610 se aparece en la página382 es una foto deun objeto en forma de un reticulado permiten blanco y negro en laescala de grises. Se sobrepone tosco de20 x 20 sobre la foto,y asignando el valor 1 (negro) a cada cuadro da que cuandomenos seala mitad negroy el valor O en caso contrario. Esto una versión discretizada de la foto, con 20(20) = 400 elementos. Si se transmitieran perfectamente esos 400 elementos y entonces se construyera una foto aproximada haciendo todoel cuadro negro si su valor fuera 1 , se obtendría la segunda X de la figura. Se desea, sin embargo, enviar una menor cantidad de datos;y el problema es si es posible hacerlo y obtener una foto reconstruida que sea tan cercana ala primera X (la foto perfecta) como lo es la segunda X. Mediante MATLAB se calcularon los valores singulares de la matrizB, 20 x 20, que representaba alos tonos aproximadamente como = 7.3, uz= 4.6, c r 3 = 2.2, u4= 1.7, u5= 0.8, c r 6 = 0.7, u7 = 0.5, y las otrasui = 0.0000. Así, el rango de B, calculado conMATLAB es igual a 7. La aproximación de rango 1 más cercana a B es
(+,
la información en B1 está contenida enlos 41 números de u,,u, y vl. Si se calcula B, y se pinta de negro cualquier cuadro que tenga un elemento correspondiente en B, de cuando menos 4, se obtiene la forma escindida de la figura, la cual no es satisfactoria. Sin embargo, hay una matriz Bz de rango 2, Bz= a,u,vr+ (r2u2vTque requieresólo 82 números y con IIB - Bzllz = u3= 2.2. Si sereconstruye análogamente la foto conBz, se obtienela foto final de la página 382. Tiene claramente la forma de X y parece bastante cercana a la versión discretizada de la foto verdadera (ver nuevamente la segunda X ) ; de hecho, esta reconstrucción de rango 2 sólo omite cuatro cuadros que debería haber ennegrecido y ennegrece sólo cuatro que no debería. Ocho errores en cuatrocientos cuadros -98% correcto -parece una representación adecuada. PROBLEMAS 8.4 1. Compruebe que Avi = diui en el ejemplo 8.17. D 2. Encuentre una descomposición en valores singulares de a) [l -217 2 b) [-4 12 31
384
8
I
Eigensistemas de matrices sirn6tricas, hermitianas y normales, con aplicaciones
3. “Derecho” en “vectores singulares derechos vi” se refiere a Avi = milli. Demuestre que uFA = civ?,, como acepción de “izquierdo”. D 4. En la demostración del teorema clave 8.19 con A diferente de cero seafirma que AHA# O y que AHAtiene cuando menos un eigenvalor diferente de cero. Demuestre esas afirmaciones. 5. Suponga que A es p X q. Demuestre quehay bases ortonormales para@4 y CP con respecto aa ls cuales la transformación lineal Fdefinida por T ( v ) = Av se representapor la matriz 2 de una descomposición en valores singulares de A. 6. Encuentre una descomposición en valores singulares de A=[
D 7. Utiliceladescomposición IlAllz
-1
-’ 1
’1.
-2
en valoressingularespara
demostrarque
= Vl.
8. La norma de Frobenius (IAIIFde una matriz A, p X q , se define como laraíz cuadrada de la suma de los cuadrados de las magnitudes de todos los elementos de A. a) Demuestre que llAllF 1 O, y que llAllF = O si y sólo si A = O, que )~cxAI(~ = ICXIIIAIIF? Y que I A + B l l F llAllF + IIBIIF. b) Calcule III,IIF y deduzca que ll.llF no puede ser una norma de transformación inducida por normas vectoriales. 9. Sea A, p
X
q , y sean U y V unitarias. Demuestre que
IlAllF = IlUAllF = IlAVllF = IIUAVIIF,
en donde ll.llF está definida en el problema 8. D 10. Utilice el problema 9 para demostrar que IlAlIZ: es igual a la suma de los cuadrados de los valores singulares de A. 11. Suponga que por razones teóricas se sabe que cierta matriz Qo debería ser unitaria, peropor errores demedición se ha producido una Qo que no lo es. Demuestre que la matriz unitaria Q1que hace mínima a llQ - QollFde entre todas las matrices unitarias Q es Q1 = UVHsi Qo = UCVHes una descomposición en valores singulares de Qo. D 12. Como en el problema 11, encuentre lasmatrices unitarias Q1más próximas a cada una de las matrices Qo.
13. Demuestre el corolario clave 8.20 a) sobre el rango y los valores singulares.
14. Demuestre el corolario clave 8.20 b) y c) sobre vectores singulares y bases.
8.5
I Aplicaci6n: mínimos cuadrados y pseudoinversa
385
R 15. Utilice MATLAB o algún software semejante para calcular aproximación la de rango 3, BB,a la matriz de los tonos del ejemplo 8.24 y reconstruya la foto mediante BS. R16. Haga una discretización 40 X 40 de la X del ejemplo 8.23 y mediante MATLAB o algún software semejantecalcule aproximaciones de bajo rango a la fotografía para ver cuán buenaaproximación se puede obtener usando poca información. A 17. Utilice MATLAB o algún software semejante para encontrar las matrices de rango 5 y de rango 2 más cercanas a la matriz H6del ejemplo 5.84.
8.5
APLICACION: MlNlMOS CUADRADOS Y PSEUDOINVERSA
Los problemas de mínimos cuadrados son centrales en la modelación matemá2 se vio que una buena técnica para encontrar tica. Por ejemplo, desde el capítulo una recta que quedara lo más cerca posible de algunos puntos dados, era la de plantear el problema en términos de mínimos; véase la sección 2.6. Este fue un caso deun fenómeno general: se tieneun modelo que depende de varios parámetros que deben determinarse para modelar, tan exactamente como sea posible, el comportamientoreal de algún sistema en el pasado.El problema12 de la sección 2.6 es de este tipo: se pide encontrar los elementos dela matriz de transición para el modelo de competencia entre lecheríasde la sección 2.2, para que el modelo corresponda alos datos sobrela forma en que han cambiado realmente las partes del mercado. El problema 22 de la sección 5.9 es también de este tipo. Más generalmente, elproblema es determinar los parámetros x para que la predicción Ax del modelo sea cercana a los datos medidos b. Con mínimos cuadrados, se busca encontrar la x que minimiza llAx - bllz entre todas las x posibles, en donde A es una matrizp X q dada, b es una matrizp X 1 dada, y x es q x 1 e incógnita. El problema 26 de la sección 5.9 afirmó que x resuelve esto si y sólo si AHAx = AHb;como se mostró en el problema 26 de la sección 5.9, sin embargo, éste puede ser un mal método computacionalmente.En esasección se demostró que un método mucho mejor puede basarse en la descomposición QR normalizada de A: escriba A, p x q ,de rangok , como A = QR en donde Q esp x k y tiene columnas ortonormales, y R es dek x q , triangular superior y de rango k , y entonces x es solución de Rx = Q%-la cual se puederesolver por una sencilla sustitución. Se considerará ahora otro método para resolver problemas de mínimos cuadrados que es igualmente efectivo. Descomposiciones en
valores singulares y minimos cuadrados
Suponga que A = UZVHes ladescomposición en valores singulares del teorema clave 8.19 parala matriz A,p x q ,de rango k . Se considerará el problema de hacer
386
8
/
Eigensistemas de matrices simétricas,hermitianas y normales, con aplicaciones
mínima a //Ax - bllz con respecto a x. Por el teorema 7.31 sobre matrices unitarias, es posible escribir
en donde y = VHxes la nueva variable con respecto a la cual se está minimizando. Por lo tanto, x minimiza ]/Ax - bllz si y sólo si y (= VHx) hace mínima a 1ICy - b'(I2,donde b' denota a UHb. Pero
en donde y i = (y)i y b: = (b'){. Esta ecuación se minimiza haciendo cero tantos términos como sea posible: yi = &/o, para 1 S i 5 k y y i arbitraria parak + 1 5 i S q . Como llxllz = IIVylJ,= llyllz, la x que tiene la mínima norma entre todas las soluciones al problema de mínimos cuadrados viene de y i = O para k + 1 5 i 5 q ; todas las demás soluciones se pueden obtener agregando a esa x una combinación lineal arbitraria de vkflr . . . , v,, las últimas q - k columnas de V. Esto da un método para resolver problemas de mínimos cuadrados: (8.24)
Para encontrar la x que hace mínima a llAx - bllz en donde A tiene rango k : 1. Encontrar la descomposición en valores singulares A = UCV". 2. Calcular b' = UHb. 3 . Calcular y con y i = &/ai para 1 S i Ik ; en los otros casos, y i = O . 4. Calcular x. = Vy. 5. x. es la solución al problema de mínimos cuadrados, y tiene la menor norma 2 entre todaslas soluciones; cualquier otra x' será una solución si y sólo si x' es igual a x. más una combinación lineal de las últimas q - k columnas de V.
El proceso(8.24) se puede describir más compactamente mediante el sencillo artificio de definir una matriz que controle el paso 3 . (8.25)
Definicidn. Suponga que C es una matriz p X q tal que ( C)ij = O para i # j y con(C)ii=criparatodai,endondecri#Opara1~i~kyai=Oparak+1 i Imín(p, q } .Entonces C+es aquella matriz q x p (nútese fa inversibn d e p y q ) cuyos únicos elementos diferentes de cero son (C')ji = l / a i para 11isk.
Con esta notación, x. en (8.24) es precisamente x. trado el siguiente importante resultado.
= VC+UHb;se ha
demos-
8.5
(8.27)
/
Aplicaci6n: mínimos cuadrados y pseudoinversa
387
de mínimos cuadrados
Ejemplo. Considere siguiente el problema
Ax -- b:
En el ejemplo8.17 se obtuvola descomposición en valoressingulares de A. Siguiendo el procedimiento de (8.24), se calculará b' = UHb,y = Z+b' y entonces x,, = Vy:
1
2
2
-
-
-
7
7
7
1
b'=
-1lJJ 1- 65 d L
O Y=
O
xg =
][ G ]
5 4
"
6 =
O
1
,
388
8
/
Eigensisternas de matrices sirnktricas, hermitianas y normales, con aplicaciones
También se puede calcular la pseudoinversa A+ = VZ+UH: 2 3
O
2 3
-
-
6
O
5
O
JJ
"
15
15
1 18
9
Y
Entonces se calcula x, directamente como x.
=
A+b:
como antes. Todas las demás soluciones x' son de la formax' = x.
x' = x.
+ clvz =
[
+ av2:
"
Cuando se resuelve en la práctica un problema de mínimos cuadrados, a menudo es útil modificar la matriz C de los valores singulares. Suponga, como A están sujetos a errores de frecuentemente seda el caso, que los elementos de medición; entonceslos valores singulares diferentes de ceromás pequeños que las fueran perfectas. Usar se calculen paraA, bien podrían ser cero si mediciones el recíproco de ese valor singular para resolverun problema demínimos cuadrados bien podría ser desastroso. A menudo es mejor reemplazar la matrizI: por una matriz Z, obtenida reemplazandolos valores singularesmás pequeños en C por ceros exactos, lo cual es el efecto de la construcción en el teorema 8.21 ; aquellos valores singulares que fueran de magnitud la de los errores inherentes a los datos normalmente deberían tratarse de este modo. Véase el problema 6.
Ahora podrá resolver los problemas del 1 al 6 .
8.5
I Aplicaci6n: m!nimos cuadrados y pseudoinversa
389
La pseudoinversa El uso de la palabra "pseudoinversa" paradesignar a la matrizA+ del teorema clave 8.26 es bastante razonable: A+ se comporta envarios aspectos como una especie de inversa. Por un lado, x. = A+b resuelve el problema de mínimos cuadrados Ax = b exactamente como x. = A"b resuelve Ax = b en donde A es no singular. También (UZV")' = VZ+UH del mismomodo que (UZV")" = VZ"UH cuando Z es cuadrada y no singular; y, desde luego,A+ = A" cuando A es no singular (problema 9). A+ es un ejemplo de una variedad de inversas generalizadas que se han desarrollado; a este miembro particular de esa clase también se le llama la inversa generalizada Moore-Penroseen honor de aquéllos que desarrollaron su teoría. Aunque la pseudoinversa se dedujo a través descomposición de la en valores singulares, sela puede caracterizar independientemente de ella; este resultado, que se plantea sin derhostración, puede ayudar a calcular A+. (8.28)
Teorema (caracterización de lapseudoinversa). Una maiiiz A p X q tiene exactamente una pseudoinversa A+, y una matriz X q Y p es igual a la pseudoinversa A+ si y sólo si X satisface las siguientes tres condiciones: a) AXA = A b) XAX = X c) AX y XA son hermitianas.
(8.29)
Teorema ({BC}+). Supóngase que lamatriz A, p X q , tiene rango k y que A = BC, en dondeB esp X k y con rango k , mientras que C es k X q y de rango k , entonces A+ = CH(CCH)"(BHB)"BH. DEMOSTRACION. CCH y BHB son no singulares; por ejemplo, BHBx = O implica que O = xHBHBx= 11Bx11?, de modo que Bx = O y de aquí quex = O porque B tiene rango k . El teorema es consecuencia de la verificación directa de las condiciones del teorema 8.28.
En elproblema 1 1 se tiene un ejemplo de cómo se obtieneA = BC para esasB y C. Otro caso importante se deriva de la descomposición QR normalizada, que es precisamentede la forma requerida en el teorema 8.29 en dondeB = Q tiene columnas ortonormales y C = R es triangular superior. (8.30)
Corolcrrio (QR y pseudoinversas). Supóngase que A = QR es una descomA p X q , de rango k de modo que Q es posición QR normalizada de la matriz
390
8
/
Eigensistemas de rnatrlces slmktricas, hermitianas y normales, con aplicaciones X k con columnas ortonormales y R es de k rango k . Entonces
p
X
q y triangular superior, de
A + = RH(RRH)-lQH.
Observe quees más sencilloresolver el problema de mínimos cuadrados Ax = b con la descomposición QR normalizada resolviendo Rxo = QHb,que escribir x,, = A+b en donde A+ es ladel corolario 8.30; como en el caso de laeliminación de Gauss para sistemas de ecuaciones lineales, es másfácil resolver sistemas directamente, que encontrarinversas (pseudo o reales) y usarlas para obtener la solución.
PROBLEMAS 8.5
1. Encuentre 2+para cada Z del ejemplo 8.16.
D 2. Encuentre
O+.
3. Utilice (8.24) para resolver el problema de mínimos cuadrados
9N 4. Utilice MATLAB o algún software semejante para implementar (8.24) y
resuelva el problema de mínimos cuadrados del problema 22 de la sección 5.9. 5. Utilice MATLAB o algún software semejante para implementar (8.24) y resuelva el problema de mínimos cuadrados del problema 12 de la sección 2.6. W 6. Considere el problema de predecir la población de Estados Unidos en 1990 como se describió en el problema 3 de la sección 2.6, pero utilice una ecuación cuadrática para ajustar los datos: (población en millones) = a
+ b(aiio) + c(aiio)2
Use MATLAB o algún software semejante para encontraruna descomposición en valores singulares de la matriz A de esemodelo, y note la variación de tamaño entre los valores singulares. a) Use la descomposición en valores singulares completa para encontrar la solución al problema de mínimos cuadrados y prediga la población en 1990. b) Reemplace el menor valor singular por cero y use la descomposición en valores singulares resultante (de una matriz de rango 2 ligeramente dis-
8.5
/
Aplicaci6n: mínimos cuadrados y pseudoinversa
391
tinta) para obtener una solución al problema mínimos cuadrados y para predicir la población en 1990. c) Reemplace por cero los dos valores singulares más pequeños y de nuevo resuelva y prediga como en b). d) Basado en este experiemento, ¿cuáles su predicción para lapoblación en 1990? Sn 7. Sea E un número tal que 1 + E se calcule con exactitud en su computadora, pero que 1 + e2 se calcule como 1;por ejemplo E = 10"O queda bien para la mayoría de las microcomputadoras con coprocesadores matemáticos. Use MATLAB o algún software semejante para encontrar ladescomposición en valores singulares de lamatriz A y resuelva el problema de mínimos cuadrados correspondientedel problema 24 de la sección 5.9; comparela solución pequeño. con la obtenida cuandose reemplaza por cero el valor singular más D 8. Use la pseudoinversa para resolver el problema de mínimos cuadrados
D 9. Demuestre que A+
=
A" cuando A es no singular.
10. Demuestre que la pseudoinversa X teorema 8.28.
=
A+ satisface las condiciones a)-c) del
11. Suponga que A p x q , tiene rango k y que está separada como
en donde A,, es k x k y no singular.Demuestre que A = B,C, y que A = B,C, en donde
1:
D 12. Use el problema 11 y el teorema 8.29 para encontrar la pseudoinversa de -
A=
1
1
0 1
1 11. 1
2
o
-1
-1
-3
-1
-2
-1
o
392
8
I
Eigensistemas de matricessimbtricas,hermitianas
y normales, con aplicaciones
13. Demuestre que una descomposición en valores singulares no es necesaria-
14. 15.
D 16. 17.
mente única encontrando todas lasdescomposiciones en valores singulares de I con U = V; demuestre que, sin embargo, todas esas descomposiciones conducen a la misma pseudoinversa. Demuestre detalladamente el teorema 8.29. Demuestre: a) El rango de A+ es igual al rango de A. b) Si A es simétrica, entonces A+ es simétrica. c) (cA)+ = (l/c)A+ para c # O. d) (A+)T= (AT)+ e) (A+)+ = A. f) Demuestre con un contraejemplo, que en general (AB)+ # B+A+. g) SiA es m x r , B es r x n y ambas matrices tienen rango r , entonces (AB)+ = B+A+. Suponga que c es p X 1 y que r es 1 x p . Encuentre: a) r+ b) c+ c) Use la descomposición QR normalizada A = QR del ejemplo 5.83 para encontrar A+ vía el corolario 8.30.
18. Use la descomposición QR normalizada A = QR del problema 15 de la sección 5.9 para encontrar A+ vía el corolario 8.30. W 19. Use MATLAB o algún software semejante para encontrar lapseudoinversa A+ para las matrices de rango 3 , rango 2 y rango 1 del problema 6. 8.6
PROBLEMASVARIOS PROBLEMAS 8.6
1. La forma de Schur de una matriz no está determinada de manera única. Analizar la variación posible para una matriz normal. 2. El método de Lanczos que se da a continuación, reduce el problema de los
eigenvalores de una matriz real simétrica n X n al de una matriz mucho más simétrica y u1 un vector real arbitrario. sencilla. Sea A unamatrizreal Establezca v 1 = Au1, u2 = VI - ~ 1 ~ 1 , en donde alse determina de tal modo que haga ortogonales a ut y ul, lo cual implica que al = (ul, vl)/(ul, ul). A continuación, forme ~2
=
Au~,
u3 = ~2
-~
2
-~f i l 2~ 1 ,
en dondeat,p1se determinan de tal modo que ug es ortogonal a u2 y u l . Esto significa que at = ( u z ,vz)/(u2,uz),p1= (ul, v2)/(ul, ul). A continuación, forme
8.6
~3
=Au~,
/
Problemas varios
393
= ~3 - a3113 - P Z U ~- ~ 1 ~ 1 ,
en donde a3,pZ y y , se determinan de tal modo que u4es ortogonal a u3, u2 y u,. Demuestre que estoimplica que y , = O. Demuestre queen el paso general se tiene vr
= Aur,
u,+ 1 = v r - a r u r - P r -
111,- 1,
en donde es ortogonal a u,, . . . , u,. Demuestre también que u,+, debe ser cero. Sea x un eigenvector de A y establezca x = CIUl
+ . . . + c,u,.
Forme Ax y exprese Au, = v, en término de las u, por las fórmulas anteriores. Deduzca quelos eigenvalores de A coinciden con los de la matriz tridiagonal
(Las condiciones de ortogonalidad que se usaron para determinar lasai y las
pi también minimizan a IIuil12.Esta esla razón por laque el método, debido a C. Lanczos, se llama también el método de las iteraciones minimizadas.) D 3. Sea A, p x p , y sea D = diag(E, 2 , . . . , E ~ ) ,en donde E # O. Describa a D-,AD. 4. Sea T = PHAPuna forma de Schur de una matriz A, p x p . Use T y el problema 3 para demostrarque hay una matriz S no singular tal que S"AS es triangular superior y que todos sus elementos que no están en la diagonal principal son de magnitud tan pequeña como se quiera. 5. Dada una matriz no singular S, se puede definir una norma vectorial II. ( l s por llxlls = IIS"xllm; ésta induce la normade transformación lIAlls = IIS-lASII,. Use el problema 4 para demostrar quehay una normainducida IJ.lIs, que depende de A, tal que /\Allsestá tan cerca como se desee de la magnitud máxima de los eigenvalores de A. D 6. Demuestre que los eigenvalores de la matriz normal A son todos iguales si y sólo si A = cI para algún número c. 7. Demuestre que(I - A+A)x es laproyección ortogonal de x sobre el subespacio que consisteen todas lasv tales que Av = O, esto es, sobre el espacio nulo de A.
D 8. Demuestre que AA+x es la proyección ortogonal de x sobre el espacio de columnas de A.
9 Eigensistemas de matrices arbitrarias generales, con aplicaciones
La teoría sobre los eigensistemas de matrices arbitrariasgenerales esbozada en el capítulo 7, se tratarfr mfrs a fondo en este capítulo. Se aprovechar4 despues esa teoría para analizarel comportamiento en el tiempo de los sistemas cuya evolucidn se describe por medio de modelos discretos o continuos, as; como para estudiar metodos iterativos para la solucidn de ecuaciones lineales; para ello, son fundamentales los teoremas clave 9.4, 9.1 I , 9.27 y 9.57. 9.1
INTRODUCCION
En el capítulo 7 se presentaron los hechos básicos sobre los eigensistemas de matrices cuadradas, haciendo hincapié en la equivalencia desde varios puntos de vista: formas especiales y descomposiciones, representaciones de transformaciones, y eigensistemas. Desde la perspectiva de los eigensistemas, los puntos principales fueron: 1 . Toda matriz A p X p , tiene p eigenvalores si cada eigenvalor distinto hi se cuenta de acuerdo consu multiplicidad algebraica mi, como una raíz del polinomio característico de A. 2. Cada eigenvalor distinto hi, tiene cuando menos un eigenvector asociado, y toda colección de esos eigenvectores -cada uno asociado con un eigenvalor distinto- forma un conjunto linealmente independiente. 3 . Cada eigenvalor distinto Xi, tiene un número máximo pi de eigenvectores asociados queforman un conjunto linealmente independiente; esto es, el subespacio de eigenvectores asociados con hitiene dimensión pi -la multiplicidad geométrica de Xi. 394
9.1
I
Introducci6n
395
Existe una pregunta importante con respecto a la relación entre pi y mi: ¿cuántos eigenvectores que formen un conjunto independiente se pueden asociar con un eigenvalor repetido? Algunos ejemplos sencillos mostraron que p i podría ser cualquier número desde 1 hasta mi.Por ejemplo, en cada una de las matrices siguientes, es fácil demostrar queAl = 4 es un eigenvalor de multiplicidad algebraica m, = 3 pero sus multiplicidades geométricas son p1= 3 , pl= 2 y p1= 1 respectivamente:
Desde el punto de vistadelas descomposiciones y semejanzas, sedesarrolló el teorema clave 7.14: Una matriz A p X p , es semejante a una matriz diagonal A -de modo equivalente, A se puede descomponer en A = PAP" endonde A es diagonal- si y sólo si A tiene un conjunto de p eigenvectores linealmente independientes; los eigenvectores son las columnas de P, y los eigenvalores la diagonal principal de A. Este importante resultado serefiereal caso en que las multiplicidades algebraica y geométrica son iguales para todos los eigenvalores: pi = m ipara toda i. Lo que restapor estudiar es el caso más complicado, cuando al menos una pi es menor que su m i , de tal modo que en total hay menos de p eigenvectores formando un conjunto linealmente independiente (9.1)
Definición. Una matriz p X p que no tenga un conjunto linealmente independiente de p eigenvectores se llama defectuosa; en caso contrario sele llama completa o no defectuosa.
Así, el problema que quedaes entender en detalle la estructura del eigensistema de matrices defectuosas. Cuando se estudió en el capítulo ocho la estructura delos eigensistemas de matrices normales, se encontróque era útil enfocar primeroel punto de vista de las descomposiciones o formas sencillas, para después cambiar de perspectiva e interpretar los resultados en términos de eigensistemas. Aquí se seguirá el mismo camino.
396
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
PROBLEMAS 9.1
1. Compruebe las afirmaciones anteriores sobre los eigensistemas de las tres matrices dadas. 2. Resuelva el problema 8 de la sección 7.4, demostrando que pi Imi. 9.2
FORMA DE JORDAN
Esta sección desarrolla una forma especial a la que sepuede reducir toda matriz mediante una transformación de semejanza. La forma especial se desarrollaen tres etapas: la formade Schur, forma la diagonal en bloques triangulares superiores, y , finalmente, la forma de Jordan.Una vez que se sabe qué buscar como la forma de Jordan,es posible encontrar esa forma directamente (en casos sencillos) en lugar de hacerlo a través de las tres etapas. Formas diagonales en bloques triangulares superiores
Supóngase que A es p X p ; por el teorema 8.2 se sabe que A es ortogonalmente T: una matriz triangular superior con los eigenvasemejante a su forma de Schur lores de A en su diagonalprincipal. Por el modo en el que se construyó T en ese teorema, es claro que se puede construir T de tal modo que cada eigenvalor distinto se repita (miveces, desde luego) en posiciones consecutivas a lo largo de la diagonal principalde T. Para alcanzarla segunda etapa en el desarrollo de la forma de Jordan, se demostrará que T, a su vez, es semejante a otra matriz triangular superior con lamisma estructura y con la propiedad adicional de ser diagonal en bloques: se le llamará forma diagonal en bloques triangulares superiores. (9.2)
Lema (forma diagonal en bloques triangulares superiores). Suponga que T es triangular superior y que además, tiene la forma
los elementos en donde cadaTi{es mi X m iy triangular superior, con todos en la diagonal principal de Tii iguales a hi, y las hidistintas para 1 5 i 5 s. Entonces, T es semejante a una matriz diagonal en bloques triangulares superiores
9.2
I
Forma de Jordan
397
en donde cadaVi es mi X mi y triangular superior; todos los elementos de la ls hi son distintas. diagonal principal de Vi son iguales a Xi, y desde luegoa DEMOSTRACION. La idea bAsica es usar transformaciones de semejanza basadas en las matrices elementales EiAc) de la definición 3.31 ; recuerde que EiAc) es no singular y que su inversa es igual a Eij(- c). Suponga que i < j , y considere la transformación de semejanza
y por lo demás, sólo modifica a los elementos en el i-ésimo renglón (a la (i,j)) y en laj-ésima columna (arriba de ese elemento). derecha del elemento a en distintos bloques Si se escogen a i y j para que correspondanrenglones T,, y T,,, entonces (T)ii - (T), = Am - An # 0,
por 10 tanto, esposible escoger ac = -(T)it/(A, - A,) y el elemento ( i , j )de la matriz semejante T’ será igual a cero. Se puede hacer una sucesión de tales transformaciones de semejanza que reemplace los bloques T S - 1 .S)
TS -
en ese orden por bloques cero (siguiendo de abajo hacia arriba y de izquierda a derecha dentro de cada bloque). Esto da V. Forma de Jordan
Recuerde que ladiagonal principal de cadavi tiene todossus elementos iguales a Ai: (Vi),, = Ai para todak . Por medio de algunos argumentos que se omitirán por ser muy complejos técnicamente, es posible demostrar que cada una de esas matrices Vi es semejante auna matriz diagonal en bloques triangulares superiores Jz,cada uno de cuyos bloques es un bloque de Jordan J (Az): (9.3)
Definici6n. Un bloque de Jordan es una matriz cuadrada triangular superior J (A) tal que:
a) Todos sus elementos en ladiagonal principal son iguales a A: (J(X)),, = A. b)Todos sus elementosenlaprimerasobrediagonal son iguales a 1: (J(A))i,t+l = 1. c) Todos los demás elementos son iguales a O .
398
9
/
Eigensistemas de matrices arbitrarias generales,
con aplicaciones
De este modo
Ya que la combinación de semejanzas sucesivas también es una semejanza, las transformaciones de A a T, de T a V y después a bloques de Jordan se pueden expresar como una sola transformación de semejanza:
Observe que éste es un teorema de existencia, perono es un teorema constructivo: no se da ningún método para encontrar J en l a práctica; sin embargo, la mismaexistencia de una J en esa forma especial permite su cálculo. Ya que Q"AQ = J , se tiene que AQ = QJ. Escribiendo Q en términos de sus columnas como
Q = CSl
Pz
'..
SJ
se ve que AQ = QJ es equivalente aAqi = hqi + v i q i p len , donde h es el eigenvalor en el bloque de Jordan que afecta a p i , y vi es igual a O o a 1. De manera más precisa, ya que las J, son n, X n,, las columnas de Q afectadas por el bloqueJ, en el producto QJ = AQ son exactamente las n , numeradas nl
+ n2 + . . . + n,- + 1 hasta
n 1 + n2
+ . . . + n,.
9.2
/
Forma de Jordan
399
Por conveniencia,se designarán esas columnas de Q como vrl, . . . , vmp Resulta entonces de AQ = QJ que (9.5)
+
Av,, = AJ,, y Av, = A,v, v,+, para j = 2, . . . , n,, en donde vTjes la columna de Q numerada n , + * + n,.-l +j y en donde Q"AQ = J y AQ = QJ, en donde el r-ésimo bloque de Jordan de J es n, x n,.
Esta complicada relación (9.5) es la clave para entenderel eigensistema de A; se volverá aella más tarde. Por ahora, se demostrarácómo usar (9.5) como A cuando A es lo suficientemente una guíapara encontraruna formade Jordan de pequeña para cálculos a mano. La observación crucial es que (9.5) significa que v,, es un eigenvector de A; por lo tanto, se encuentran los eigenvectores vrl y después se les usa para ayudar a encontrar los vrj restantes. (9.6)
[-: -;-!I.
Ejemplo. Encontrar una formadeJordande
4
A=
Se encuentra fácilmente quedet(A - AI) = (-2-A)(4 - A),, y que A, = -2 es un eigenvalor simple, mientras queA, = 4 tiene multiplicidad algebraica m, = 2 pero sólo un eigenvector (p,= 1); [ 1 - 1 - 1IT es un eigenvector para A,, que se tomará como v,, en ( 9 . 9 , mientras que uno para A, es [ 1 - 1 13, que se tomará como v,,en (9.5). Yaque p , = p, = 1, sólo hay un bloque de Jordan con cada eigenvalor; como m, = 2, el eigenvalor A, = 4 deberá aparecer dos veces en la diagonal y en consecuencia debe estar en un bloque 2 x 2. De este modo, de acuerdo con( 9 . 9 , se buscará v,, para que Av,, - Azv,, = vzl, esto es
[-: -:I[:]- [-:j, 4 -4
1
-2
-3
su solución
z
[
para (Y arbitraria (porqueAv,, - X,v,, = O). Se considerará a(Y = O, dando la tercera columna de Q como v,, = [O 1 - 1IT. En este caso, (9.5) es Av,,
= 21~11,
Av21
= 2 2 ~ 2 1 ,A v 2 2 =
+
2 2 ~ 2 2
~ 2 1 .
Al formar la matriz Q de las columnasv,,, v,, y vgl se produce la forma de Jordan J: 1
1
0
-1
o
-1
400
9
/
Eigensistemas de matrices arbitrarias generales, con aplicaciones
Y
Q"AQ (9.7)
=
ri
O
0
i]
= J.
Ejemplo. Encuentre una forma de Jordan para
1 1. [ -1
-2 A = -1 -1 Se encuentrafácilmente que det(A - AI) = (1 - A)3; sólo hay un eigenvalor distinto A, = 1 con multiplicidad algebraica m, = 3 . Sólo es posible encontrardos eigenvectores, por ejemplo x1 = [l O 1IT y x2 = [O 1 2IT; entonces p, = 2. Debe haber dos bloques de Jordan,por lo tanto uno será 1 x 1 y el otro 2 x 2. Se considerará av,, = x, como un eigenvector columna de Q ; el segundo eigenvector columna vZ1de Q debe ser alguna combinación de x, y x2 tal que sea posible resolver (9.5) para una tercera columna vZ2.Sea vZl = ox, px2. Se buscarála solución para vZ2partiendo de (A I)VZ2= ax, px2:
+
+
AI tratar de resolverlo, se encuentra que es necesario que p = -a para que hayauna solución, en lacual es x = a y -26, Y = 6, z = y para y Y 6 arbitrarias. Ahora, a # O debe ser distinta de cero para que vZ1# O , Pero desde luego, y por facilidad, es posible hacer que y = 6 = 0 así, seescoge a a
+
=
1, de modo que p v l l = [l
o
=
-1. Esto da
1]T,
v21
=
[l
-1
-1y,
v22
= [l
o oy,
con AV,, = I 1 ~ 1 , ,A v 2 1
= Alv21,
y
Av22
+
=I 1 ~ 2 2 ~ 2 1 .
Q se forma a partir de esas columnas vu y se obtiene
['
Q= O 1
1 -1 -1
i]
Q-lAQ=L
1: 2 O
0:];J.
Ahora podrá resolver los problemas del I al I O .
"1,
-1
9.2
I Forma de Jordan
401
Teorema de Cayley-Hamilton
Al pasar de una forma general diagonal en bloques triangulares superiores, a la forma especial de Jordan,se afirmó que eraútil obtener esta forma más sencilla. Ahora, confines analíticos, se presentará el primero de varios casos de la forma de Jordan. Considere lamatriz sencillaEk = J(A) - AI para un bloque típico de Jordan k x k , J(A) ,como elde ladefinición 9.3; El, tiene unos en su primera sobrediagonal y Ceros en los demás elementos.Es fácil ver que E: tiene unos en su segunda sobrediagonal y ceros en los demás elementos, que E: tiene unos en su tercera sobrediagonal y ceros enlas demás posiciones, y así sucesivamente hasta Ej: = O . A continuación, suponga que J es una forma de Jordan de una matriz A, p X p como en el teorema clave9.4, y considere cualquiera de los bloques de Jordan J, en el que aparezca un eigenvalor &; como Ai aparecerá cuandomás mi veces en toda J, el bloque J, puede ser a lo más m, X m,.Por lo tanto, por el párrafo anterior, (AJ - Jn)mi = O. Ahora considere el polinomio característico f de A: f ( A ) = det(A - AI) = (A, - L)"'1(A2 - A)"'* . . . (A, - A)"'s.
Si se consideraf(J), como las potencias de J conmutan con I y con potencias de J, se tiene que f(J)= (Al1 - J)""(AZI- J)"'*. . (A,I - J)"''.
Debido a lo que ya se ha demostrado, cadabloque (AiI - J,Jmi = O siempre que J, involucre a Ai,y entonces el bloque correspondiente a J, enf(J) debe serigual a cero; pero todo bloque en f(J) es uno de esos bloques, y así, AJ) = O . Esto conduce al siguiente resultado. (9.8)
Teorema (teoremade Cayley-Hamilton). SiAA) esel polinomio característico de una matriz A, entonces AA) = O. DEMOSTRACION. Sea Q"AQ = J una forma de Jordan de A. Ya se ha demostrado queAJ)= O . PeroAA) = Qf(J)Q-' por el teorema 7.25 e), por lo tanto AA) = QOQ" = O . M
(9.9)
Ejemplo. Considérese la matriz A del ejemplo 9.6, en donde AA) = -A3 6A2 - 32; entonces f(A) = -A3 6A2 - 321 =
-[ -;; -;; 112
84
+
-;;]+6[-; 36
24
;
14
;%]-32
como lo afirma el teorema de Cayley-Hamilton.
+
402
9
I
Eigensistemas de matrices arbitrarias generales, con aplicaciones
PROBLEMAS 9.2
1. Reduzca a su forma diagonal en bloques triangulares superiores la matriz
2. Reduzca a su forma dlagonal en bloques triangulares superiores la matriz
D 3. Reduzca a su forma diagonal en bloques triangulares superiores la matriz -1 O O O
3
-2
1
o
o
-1 1
-41
-2
o
- 34 1
3 o
0 4
0 1
O O O
0 0 0
4 0 0
4. Desarrolle (9.5) para J =
O
4
0
O
0
2
1 4 O O O
0 1 4 0 0
e] 1
4
0 0 0 4 0
5. Considere la matriz
a) Suponiendo aritmética perfecta, encuentre la forma de Jordan de A cuando E # O y cuando E = O. b) Suponiendo aritmética de computadora con E tan pequeño que 2 k E sea evaluado como 2, encuentre la forma de Jordan de la matriz A resultante. c) Utilice los resultados de a) y b) para discutir la sensibilidad de la forma de Jordan a las perturbaciones en los elementos de la matriz.
I Forma de Jordan
9.2
403
D 6. Reduzca a la forma de Jordan la matriz 1
6
-1
-4
7. Reduzca a su forma de Jordan la matriz del problema 3. 8. Demuestre que A es semejante a B si y sólo si A y B tienen una forma de
Jordan común. 9. Suponga que A y B son p
p , que cada una tiene un conjunto de p eigenvectores linealmente independientes, y que AB = BA. Suponga también que P-'BP = A, en donde A es diagonal y tiene a los eigenvalores hi como los elementos de su diagonal principal, cada uno de multiplicidad algebraica y geométrica mi. a) Demuestre queP"AP debe serdiagonal en bloques con los bloques de la diagonal principal de tamaño mi x mi. b) Demuestre que Q existe con Q"AQ y Q-lBQ diagonales. c) Demuestre que b) es válido si y sólo si A y B conmutan: AB = BA. X
D 10. Reduzca a la forma de Jordan la matriz r2
-I
2
o o
o
01
O 0 2 -1
11. Compruebe el teorema de Cayley-Hamilton con la matriz del ejemplo 9.7.
12. Para la matriz A del ejemplo 9.7, demuestre que g(A) g(x) = ( 1 - x)2 = 1 - 2x + x2.
=O
si
13. Suponga que h(x) es un polinomio talque h(J) = O , en donde J es la forma de
Jordan del ejemplo 9.7. Demuestre que h(1)
=
h'(1)
=
O, y entonces
h(x) = (1 - x)Zq(x) para algún polinomioq ; concluya que ( 1 - x)' es el polinomiom(x) de menor grado (y coeficiente inicial 1) para el cual m(A) = O -m es elllamado polinomio mínimo de A. D 14. Como en el problema 13, encuentre el polinomio mínimo de 4
1
0
0
A= O
0 0 0
4 0 O0
1 4 O0
O oO
:l. 1 4
404
9
/
Eigensistemas de matrices arbitrarias generales, con aplicaciones
D 15. Generalice los problemas 13 y 14 para describir el polinomio mínimo de una forma general de Jordan J. 9.3
ElGENSlSTEMAS PARA MATRICES ARBITRARIAS GENERALES
La forma de Jordan, desarrollada en la sección anterior, da información detallada sobre el eigensistema de una matriz. La clave es interpretar la relación J = Q”AQ en la forma AQ = QJ como se representa en (9.5): Repaso de (9.5) AV,,
= A,v,,
y
Avrj = A,vrj
+ vr,j-l
para j
= 2,.
. . , n,.
Eigenvectores generalizados y subespacios invariantes
Para hacer más concreta la relación general ( 9 3 , se tratará primero el caso del ejemplo 9.6. Aquí, las relaciones son (9.10)
AV,, = 1 - 1 ~ 1 1 ,
Av21
= 12~21,
y
AV,,
=AZV,~
+
~ 2 1 ,
en donde A, = -2 es un eigenvalor simple y A2 = 4 un eigenvalor de multiplicidad algebraicam, = 2 pero multiplicidadgeométricap, = l . Los vectores vI1yv,, son los dos eigenvectores, mientras que vz2 se dice que es un eigenvector generalizado. Ya que m, = 2 , se podría esperar encontrar dos eigenvectores asociados con A,, pero esto es imposible (si han de formarun conjunto independiente); en lugar de ello,el eigenvector generalizado v2, se asociarácon Az para proporcionar el segundo de dos (=m,)vectores especiales asociados con A,. ¿De qué modo es “especial” v,,? Recuerde que, si se tuvieran dos eigenvectores asociados conA, generanan un subespacio invariante bidimensional. v,, sustituye estacapacidad: vZ1y generan juntos un subespacio invariantebidimensional. Para comprobar esto, se verásicon la aplicación de A acualquier combinación lineal de v2, yv2, se obtiene una de esas combinaciones:
como se afirmó. Esto sucede también en lo general: los vectores vrj de (9.5) para 1 5.j 5 n,, generan un subespacio invariante de n , dimensiones. La unicidad de los números n, y del número de bloques en laforma de Jordan,implica que ninguno de tales subespacios invariantes puede dividirse en subespacios invariantes de menores dimensiones. Esto demuestra la siguiente interpretación del teorema para la forma de Jordan en términos del eigensistema.
I
9.3
Eigensistemas para matrices arbitrarias generales
405
(9.11)
La descripción anterior es complicada, pero también lo es la situación que describe. El esquema siguiente podrá aclarar las cosas. I
(9.12)
Bases para subespacios invariantesVl,.. . ,"v, Para el y 1
1 Eigensistema -+
/ L
(9.13)
""_
vll
Para el ... Para el subespacio subespacio subespacio ... Y; ^v;
3
1
t ""_
vI1
/ . . . ' VWl 1"""_' + ----------
.
"
Ejemplo. La situación del ejemplo 9.7, se describe en ellenguaje del teorema clave 9.11 como sigue: a) {v,,, v,,} es un conjunto de eigenvectores de A linealmente independientes que contienen el número máximo posible, y tanto v,, como vzl están asociados con A, = 1. b) {vll} y {v,,, vz2}generan, cada uno, un subespacio invariante de A. C) AV,, = AlvZz+ vzl. Ahora podrd resolver los problemas del 1 al 3 .
406
9
I
Eigensistemas de matrices arbitrarias generales, con aplicaciones
Eigenvectores izquierdos: solubilidad de ecuaciones
En el caso de las matrices normales, el hecho de que una semejanza unitaria produjo unaforma diagonal, demostró laortogonalidad mutua de los eigenvectores y la validez del teorema 8.12 que caracterizabala solubilidad de sistemas de ecuaciones. Un resultado análogo es válido en casos más generales, pero es necesario introducir un nuevo concepto para sustituir al de la ortogonalidad mutua de eigenvectores. Para desarrollar esta idea, se comenzará de nuevo con la relación clave Q-'AQ = J para la formade Jordan, J. Postmultiplicando por Q" resu1taQ"A = JQ"; sea y? el i-ésimo renglón de Q-l, de modo que
De manerasemejante a la relación encontrada usando las columnas de Q,se tiene la relación y?A = Ay? + &y?+ en donde A es el eigenvalor en el bloquede Jordan que afectaay; en el producto JQ-' y tjes igual a O o a l . Más exactamente, tiserá igual a O y por lo tanto y?A = Ay?, precisamente cuando i sea el número de renglón de un renglón inferioren algún bloque de Jordan de J. Por lo tanto, hay un vector y? de ese tipo para cada uno de los p bloques de Jordan en A. (9.14)
Definicidn. Un vector y diferente de cero para el que yHA= AyHse llama un eigenvector izquierdo asociado con el eigenvalor A de A.
Como esta relación es equivalente a A T j = 27, en donde j es el conjugado complejo de y , se sigue que A es un eigenvalor de AT; yaque detB = det BTpara todaB, sesabe que det(AT - AI) = O si y sólo si det(A - AI) = O, y por lo tanto eigenvectores izquierdos asociados con un número A existen si y sólo si A es un eigenvalor de A, como estaba implícito en la definición 9.14. Recuerde que los eigenvectores izquierdos presentados anteriormente, se seleccionaron de los renglonesy? de Q". Si lascolumnas de Q se denotanpor ~ i , entonces la relación Q"Q = I es equivalente a yfqi
= 1
y
y?qj = O si i # j :
Las yi y las e forman loque sellama un sistema bi-ortogonal. Al recordar quelas de las yi son eigenvectores izquierdos de A, resulta inmediatamente que
p
(9.15)
Teorema (eigenvectores izquierdos). Sean A, hi,m i , pi, p y vri comose definieron en el teorema clave 9.11. Entonces:
9.3
/
Eigensistemas para matrices arbitrarias generales
407
a) Hay un conjunto linealmente independiente de p eigenvectores izquierdos ul, . . . , u, de A, y ninguno de esos conjuntos puede contener más vectores. b) u,. está asociado con el mismoeigenvalor A que eleigenvector (derecho) (ur, vm,) = u,Hvrn, = 1. d) (u,, vij) = urvij = O , a menos que i
C)
(9.16)
=
r y j = n, como en c).
Ejemplo. Se tomará la matriz A y su forma de Jordan J que se encontró en el ejemplo 9.7. Las ui se deben obtener a partir de los renglones de Q" correspondientes al renglón inferior de cadauno de los bloques de Jordan en J. Entonces u7
=
[O
-1
11
es el primer renglón de Q" y Uf=[l
2
-I]
es el último renglón de Q". Es fácil comprobar que uYA
= nu?,
uFA
= nu!,
en donde 2 = 1.
Además, uYvll = ufv,, = 1 como se necesitaba; las condiciones de ortogonalidad también son válidas. Podremos tratar ahorael asunto de lasolubilidad de ecuaciones (A - AI)x = b. Si A no es un eigenvalor, desde luego que A - AI es no singular y habrá una solución única. Sin embargo, ¿qué pasa si A es un eigenvalor? Se escribe A = QJQ-' con su forma de Jordan J y entonces se premultiplica por Q" para convertir la ecuación en (J- AI)t = B, en donde = Q"x y fl = Q"b. Cualquier bloque de Jordan queinvolucre al eigenvalor A, tendrá un 1 en el elemento (i, i + 1) del i-ésimo renglón con excepción del renglón inferior (de ese bloque), el cual será un renglón de cero en toda J - AI. Así, habrá una solución 4 si y sólo si el es igual a O para cada uno de tales renglones; elemento de ese renglón en /l observe que éste es precisamente el renglón que produce al eigenvector izquierdo ui en Q-', así que (B)¡ = uHb. Esto generaliza el teorema 8.12 sobre matrices normales y solubilidad de ecuaciones. (9.17)
Teorema (matrices arbitrarias generales y solubilidad de ecuaciones). Suponga que A es una matrizp X p que tiene eigenvalores Ai con multiplicidad geométrica pi para 1 S i S S y que tiene un conjunto linealmente independiente de p = p1 + . + ps eigenvectores izquierdos uj. a) Si A no es un eigenvalor de A, entonces (A - AI)x = b tiene una solución única para cada b.
- -
408
9
Eigensistemas de matrices arbitrarias generales, con aplicaciones
/
b) Si A es igual a un eigenvalor de A, entonces (A - hI)x = b tiene una solución si y sólo si b es ortogonal a todos los eigenvectores izquierdos uj asociados con A. Cuando existen soluciones, hay un número infinito de ellas, y cada una se puede obtener agregando a una solución x una combinación lineal arbitraria de eigenvectores (derechos) de A asociados con A. DEMOSTRACION.
(9.18)
Problema 6.
Ejemplo. La matriz A de la ecuaciones
+ 2x, = b , 3x, + x2 = b,
6x,
es singular (por lo tanto A = O es un eigenvalor); los eigenvectores izquierdos son múltiplos de u1 = [l -2IT. El sistema de ecuaciones tiene una solución si y sólo si 0 = [l -2][b, b J T , esto es, b , = 2b,. PROBLEMAS 9.3 1. Demuestre que las vrj para 1 5 j
S n, en (9.9, generan verdaderamente un subespacio invariante de dimensión n,.
D 2. Encuentre basesde los subespacios invariantes del teorema clave 9.11 para la matriz:
[B
a) del ejemplo 9.7.
c)
f)
2
I:]
o
-1
[-; -I]
b) del ejemplo 9.8. 5
o4
-2
e)
[; -1 "i] -2
del problema 3 de la sección 9.2.
g) del problema 6 de la sección 9.2.
h) del problema 10 de la sección 9.2. 3. Demuestre que si uno de los subespacios invariantes del teoremaclave 9.11se divide en dos subespacios invariantes no triviales que sólo se intersectan en {O}, cada uno deberá contenerun eigenvector de un bloque de Jordan,lo cual contradiría la estructura de bloque. 4. Verifique la bi-ortogonalidad mencionada para losvectores del ejemplo 9.16. D 5. Encuentre los eigenvectores izquierdos y compruebe la bi-ortogonalidad con los eigenvectores (derechos) de la matriz: a) del ejemplo 9.6
9.4
/ Aplicaci6n: evolucidn de sistemas discretos y potencias de matrices
409
b) del ejemplo 9.7 c) del problema 3 de la sección 9.2 d) del problema 6 de la sección 9.2 e ) del problema 10 de la sección 9.2 6. Demuestre el teorema 9.17 b) sobre solubilidad de ecuaciones.
D 7. Encuentre las condiciones necesarias y suficientes para las bi, paraque exista una solución de 2x1 + 2 x 2 + 4x3 + x 4 = b , -3x,
-
3X2.-
6x3 + 2x4 = b,
- 6 ~ 1- 6x2 - 12x3 + 3x4 = b, x1
+
x2
+
2x3
+
x4 = b4.
8. Sea F la transformación lineal de C p a CP definida porF ( v ) = Av, y defina su
transformación adjunta F*por AH(véanse la definición 6.10 y el problema24 de la sección 6.1). Demuestre que, dadaw F ( v ) = w tiene solución si y sólo si w es ortogonal al espacio nulo de F*. 9.4
APLICACION: EVOLUCION DE SISTEMAS DISCRETOS Y POTENCIAS DE MATRICES
La forma de Jordan es extremadamente importante en las matemáticas aplicadas porque dala clave de la respuesta a un conjunto de preguntas concernientes a una amplia gama de aplicaciones. La sección 2.2 modeló cómo evolucionaban de mes a mes las partes del mercado controlado por tres lecherías; el resultado fue (2.4) -x,+1 = Ax,- en donde las tres componentes de x, representan las fracciones del mercado en manos de cadalechería en el mes r y en donde la matriz A de transición describe el efecto de las fuerzas del mercado. De manerasimilar, en la sección 2.3 se modeló la evolución de poblaciones de zorros y gallinas en competencia con (2.14) -xic1 = Axi- en donde las dos componentes de xi representan los números de zorrosy gallinas en el tiempoi, y la matriz A describe su competencia. En general, los modelos matemáticos conducen a menudo a una matrizp X 1, xi, que describe el estado de algún sistema complicado en el tiempo i y a una matriz A p X p, que representalos procesos internos del sistema, detal modoque (9.19)
xi+
= Axi
modela la evolución del sistema en eltiempo. Denotando el estado inicial porx0, es posible escribir lo anterior en forma equivalente (9.20)
xi = A'x,
para i 2 O.
410
9
I
Eigensisternas de matrices arbitrarias generales, con aplicaciones
Las preguntas importantes formuladas en el capítulo 2 para esos ejemplos específicos, y generalmente de importancia modular, son: ¿qué pasa conforme trariscurre el t.iempo?, ¿tiende el sistema al equilibrio? Los estados xi ¿llegan a ser arbitrariamente grandes?, ¿tienden a cero?, ¿oscilan? Gracias a (9.20), la forma de Jordan de A puede manejar tales asuntos. Escribiendo A = QJQ", en donde J es una forma de Jordan de A, es posible aplicar eí teorema 7.25 a), y entonces (9.21)
A'
=
QJ'Q" y por lo tanto
xi = QJ'(Q- 'xo).
Esto permite estudiar el comportamiento de Ji -un problema mucho más simple que para Ai directamente. Esto se vuelve todavía más sencillo debido al teorema clave 9.4 en el que J misma es una matriz diagonal en bloques con bloques de Jordan J, en la diagonal; entonces, sólo es necesario estudiar las potencias de Jf,ya que
Matrices no defectuosas
Para empezar confacilidad, se supondrá que cadabloque de Jordan J, -y por lo tanto J misma-es diagonal; por elteoremaclave 7.14, esto es equivalente aqueA tenga un conjunto d e p eigenvectores linealmente independiente -esto es, A es no defectuosa. Como de costumbre, eneste caso se escribe A en lugar de J, con los eigenvalores Al, . . . , h, como los elementos diagonales de A. Así, la matriz cuyo comportamiento se estudiará es simplemente (9.22)
Para cualquier número h , es claro el comportamiento de Ai cuando i tiende a infinito: (9.23)
a) Xi tiende a O si y sólo si 1x1 < 1. b) [Ail tiende a infinito si y sólo si Ihl > 1. c) hiestáacotado,estoes,IAii( scparaalgunacconstanteyparatodai-siy sólo si IAI I1 .
9.4
I
Aplicaci6n: evoluci6n de sistemas discretos y potencias de matrices
411
Para extender (9.23) y aplicarlo a hi y a Ai en lugar de a A’, se requieren nociones de convergencia “‘tiende a”-y acotamiento de matrices; lasnormas matriciales de la definición 6.22 y el teorema clave 6.23 dan justamente lo necesario, porqueya se ha tratado la convergenciaen términos denormas de la definición 5.58 y el teorema 5.59. Aquí se reafirmará el resultado decombinar todas esas ideas para fines prácticos. (9.24)
Resumen sobre sucesiones de matrices. a) Sedice queuna sucesión {Ai} de matrices p X 4 convergen a la matriz A, p X 4,si y sólo si convergen las sucesiones de los elementos correspondientes: (Ai)jk converge a (Am),*para t o d a j y toda k . b) Se diceque una sucesión {Ai} de matricesp X q está acotada si y sólo si las sucesiones de elementos están acotadas: I(Ai)jkl s c para alguna c constante y para todas las i , j y k . c) La sucesión de matrices Ai converge a A, si y sólo si la sucesión de números [\Ai- Amll converge a cero, en donde 11- 1 1 es cualquier norma matricial; así,si la sucesión convergeen una norma, convergeen todas las normas. d) La sucesión de matrices Ai está acotada si y sólo si la sucesión de números llAill está acotada, en donde 11.11 es cualquier norma matricial; así, si la sucesión está acotada en alguna norma, está acotadaen todas las normas.
(9.25)
Ejemplo. Lamatriz
2 x 2
tipifica el caso general de (9.22). Mediante la norma 03,se obtiene
Si se hace p = máx(lA,l, [A&, entonces Ilhillm-y por lo tanto la misma Aitiende a cero si y sólo si p < l estará acotadasi y sólo si p s l . Cuando p > l , con seguridad algunos elementos de hi tenderán a infinito en magnitud, pero no todos los elementos lo hacen. Generalmente, es útil el número p que se introdujo en el ejemplo 9.25 (9.26)
Definición. El radio espectral p(A) de una matriz A p magnitud del eigenvalor que tiene la mayor magnitud:
X
p , es igual a la
412
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
Del teorema clave 7.10 e), observe que
para todas las normas matriciales. El análisis del ejemplo 9.25 abarca claramente las matrices diagonales A p x p . Para extenderlo a las matrices A , p X p no defectuosas A = QAQ" y SUS sucesiones relacionadas Aixo, sólo se requiere de las siguientes observaciones que son consecuencia del hecho de que las normasmatriciales están definidas como normas de transformaciones y de que Ai =QAiQ" y Ai = Q-'AiQ: IIA'II 5 IlQll
IIQ- ' I I
IIA'II 2 IlA'll/(llQll IIA'xoII I IIA'II llxoll IIA'vII
=
IIA'II
IIQ-lII) paratoda x.
{p(A)>'llvIIsi v es un eigenvector asociado con un eigenvalor de magnitud p(A).
(9.27)
(9.28)
Ejemplo. La matrizdetransición A delmodelode competenciaentre lecherías del ejemplo 2.6 tenía eigenvalores X, = 0.5, Xz = 0.6 y X3 = 1.0, como se demostró en el ejemplo 7.2, así como un conjunto linealmente independiente de tres eigenvectores asociadosvl, vp y v3. Entonces como p ( A ) = 1, se sigue del teorema clave 9.27 que A' y Aixoestán acotadas para toda xo. De hecho, como vl, vz y v3 forman una base para R3, x. se puede escribir como
x,
= UlVl
+ u2v2 + u3vj.
Entonces, A'x,
=~
+
+
~ ( 0 . 5 ) '~~~~( 0 . 6 )uj(l.0)'v3, '~~
9.4
I Aplicaci6n: evoluci6n de sistemas discretos y potencias de matrices
413
lo que demuestra que Aixoconverge a un múltiplo de a3v3para todaxo. En ese modelo, la suma de los elementos de cada estado xi (= Aixo)es igual a 1, de modo que esto debe ser cierto en ellímite a3v3 también; ellímite entonces debe ser igual a [0.45
0.35
0.20IT
para toda x. como se observó experimentalmente enla sección 2 . 2 . Esto finalmente contesta una de las preguntas fundamentales que allí surgieron sobre ese modelo. Ahora podrd resolver los problemas del 1 al 5. Matrices defectuosas
Queda pendiente el asunto más complicado en el comportamiento de Ai para matrices A defectuosas. Como antes, nos guiaremos por un ejemplo de una matriz 2 x 2. (9.29)
Ejemplo. Un bloque deJordan 2 x 2 tiene la forma
de donde se sigue que
amo tiende a cero si y sólo si 14 < 1, J' tiende a cero si y sólo [A( < 1, mientras que l J i l tiende a infinito si /Al > 1 exactamente como en elcaso de las matrices no defectuosas. El "sólo si" parae1 casoen el que JIJiJItiende a infinito y la situación de 1x1 = 1 son distintos, sin embargo. La fórmula para Ji demuestra que
llJ'llm = lql + @I); resultaen l J'l m = 1 + i. Así, en este
para IAl = 1, esto caso,llJi/l está acotado tiende a infinito si y sólo si /Al < 1, en cuyo casoJ' tiende realmente a O y si y sólo si /Al 2 1.
414
9
I Eigensisternas de matrices arbitrarias generales, con aplicaciones
Está claro que los resultados del ejemplo 9.29se extienden para bloques de Jordan n X n. La extensión a la formageneral de Jordan -y de estemodo para A en general por medio de Ai = QJ’Q-’-es entonces directa; el Único punto delicado involucra eigenvalores A con 1x1 = 1: si sólo aparecen en bloques de Jordan 1 x 1 , entonces las potencias de esos bloques están acotadas, pero si aparecen en bloques IZ X n con n > 1, las potencias de esos bloques se disparan como en el ejemplo 9.29.
(9.30)
(9.31)
Ejemplo. La matriz A del modelo de competencia entre poblaciones con k = 0.18 en el ejemplo 2.17,tenía un eigenvalor doble A, = A2 = 0.9 como se demostró en el ejemplo 6.18 (aunque entonces no estaba disponible esa terminología). Lamatrizes defectuosa porque (A - 0.91)~= O necesita que
para lacual toda solución es sólo un múltiplode [5 3IT.Yaque p(A) = 0.9 < 1, sabemos que Ai tiende a cero comolo hace Aix, para todax,. Esto prueba lo que se indicó experimentalmente en el ejemplo 2.17:las poblaciones en este caso mueren, sin importar la distribución inicial de zorros y gallinas. Ahora podrá resolver los problemas del I al 9.
9.4
I Aplicacibn:evoluci6ndesistemasdiscretos
y potencias de matrices
415
Matrices no negativas y de Markov
El ejemplo 9.28 analizó el modelo de competenciaentre lecherías del ejemplo 2.6 y mostró que en ese caso específico A’x, converge aun múltiplo del eigenvector v3asociado conA3 = 1, sin importar lax,inicial se tome.El ejemplo 2.6 se incluyó en el capítulo 2 para ilustrarmodelos más generales quellevan a lasmatrices de Markov. Definición. Se dice queunamatrizA,p X q , es no negativa si y sólo si todos sus elementos son no negativos: (A)ij z O . Una matriz de Markov es una de elementos en cada una de sus matrizp X p no negativa tal que la suma los columnas es igual a 1.
(9.32)
Gran parte del comportamiento visto en ejemplo el 2.6 es típico de las matrices de Markov. 1IT,entonces lTA = lT,porque los Si se define la matrizp X 1,l = [ 1 1 elementos de cada columna de una matriz Markov de A suman 1;de modo que A = 1 es un eigenvalor de A. Ya que llAlll = 1, [Al I1 para cada eigenvalor A de A debido alteorema clave 7.10 e); estos dos hechos juntosimplican que p(A) = l . Además, comoIIAiII1 5 IlAllf = 1 , se sabeque A’ está acotada; entonces el teorema 9.30 implica que cada eigenvalor de magnitud 1 tiene multiplicidades algebraicas y geométricas iguales -esto es, queA tiene un “conjunto completo” de eigenvectores asociados con tales eigenvalores.Sin embargo, esto no es suficiente para era el caso del ejemplo 2.6. Por demostrar queA’x, converge para toda xo, como ejemplo, la matriz de Markov
tiene eigenvalores+ 1y - 1, y eigenvectores asociadosv 1= [l 1ITyv 2= [ 1 - 1IT; si se escribex, = alvl + a2v2,entonces A’x, es igual ya sea ax, (paraipar) o axo2 a g 2 (para i impar), por lo tanto, A’x, converge (a x. de hecho) si y sólo si a2 = O -esto es, cuando x. es O o algún eigenvector asociado con A = 1. Si fuera posible de algún modotener la seguridad de quetodos los eigenvalores de A distintos deA = 1 tuvieran unamagnitud estrictamente menor que 1, no se daría la situación que se acaba de describir; esto requiere,sin embargo, de algunas condiciones adicionalesen lamatriz A de Markov como lo demuestra el ejemplo de la matriz 2 x 2 que se acaba de presentar. La teoría desarrollada para tratar estesetema aplica más en general y no sólo a las matrices de Markov.Antes de proseguir,es necesaria ciertaterminología. (9.33)
Definición. Se dice que una matrizp matriz de permutación P tal que
X
p es reducible si y sólo si existe una
416
9
/
Eigensistemas de matrices arbitrarias generales, con
aplicaciones
endondeB,esrxryDes(p-r)xO,-r)paral~r~p-l.Unamatrizes irreducible si y sólo si no es reducible. El término “reducible” se refiere al hechode que,para una matriz reducible A con sus renglones y columnas permutadas como en ladefinición, las p ecuaciones Ax = b con p incógnitas se reducen a resolver p - r ecuaciones conp - r incógnitas con la matriz de coeficientes D, y luego a resolver r ecuaciones con r incógnitas con la matriz de coeficientes B (pero observe la tercera matriz siguiente). Las matrices
[i :] [: :] y
son reducibles,
mientras que
[i
L]
y
[ :]
son irreducibles.
El cuarto ejemplo ilustra el hecho de que toda matriz cuadrada con elementos estrictamente positivos es irreducible; el tercer ejemplo muestra que nuestra descripción intuitivadel concepto “reducible”no es equivalenre aladefinición. Mucho de lo que se ha demostrado para las matrices de Markov es válido para matrices no negativas irreducibles; esta elegante teoría recibe el nombre de los que la desarrollaron primero, O. Perron y G. Frobenius. Se plantearán los resultados sin demostración.
(9.34)
Teorema (Perron Frobenius). SeaA una matrizp x p no negativa irreducible. Entonces: a) A tiene un eigenvalor real positivo A, tal que A, = p(A). b) X, del punto anterior tiene un eigenvector asociado x con elementos estrictamente positivos. c) Al tiene multiplicidad algebraica m, = 1. d) Todos los eigenvalores A de A que no son Al satisfacen la desigualdad IAj < [All si y sólo si existe un entero positivo k , tal que todoslos elementos de Ak son estrictamente positivos. Si loselementos en la diagonal principal de A son estrictamente positivos, entoncestodos los elementos de Ap” son estrictamente positivos y -por d)- todos los eigenvalores A de A que nosean Al satisfacen I Al < IAl(. p(A) aumenta estricamente si cualquier elemento de A aumenta estrictamente.
9.4
/
Aplicacibn: evoluci6n de sistemas discretos y potencias de matrices
417
Los incisos de a) a c) dicen que las matrices no negativas irreducibles son muy parecidas a las matrices de Markov. El inciso d) dice que la condición que se necesitaba en una matriz de Markov r,arademostrar queAixoconverge para toda x. es equivalente a que todos los elementos deA* sean positivos para alguna k ; el inciso e) dice que estopasará si los elementos diagonales de A son positivos. Un corolario directo de este teorema maneja la generalización del ejemplo 2.6. (9.35)
Corolario (potencias de matrices de Markov). Suponga que A es una matriz de Markov irreducible con elementos diagonales estrictamente positivos (una matriz de Markov es no negativa y los elementos de cada una de sus columnas suman 1). Entonces: a) Para cualquier xo, Aixoconverge a ax*, en donde x* es un eigenvector asociado con el eigenvalor Al = 1, y x* tiene elementos estrictamente positivos que suman 1, y en dondea es igual a la suma de los elementos de xo. b) A' converge a [x* x* * x*]. DEMOSTRACION.
Problema 11. m
Como ejemplo de este teorema se tiene a la matriz 3 x 3 del ejemplo 2.6; como todossus elementos son estrictamentepositivos, satisface las hipótesis del corolario, mientras que los cálculos de los ejemplos 2.6 y 2.9 ilustran las conclusiones con X* = C0.45 0.35 0.20lT. PROBLEMAS 9.4 1. Demuestre el teorema clave 9.27 b), d) y f)escribiendo x. como una combinación lineal de los eigenvectores y después calculando Aixo. 2. Demuestre el teorema clave 9.27 a), c) y e).
D 3. Analice el comportamiento de xi en el modelo de competencia entre poblaciones del ejemplo 2.13 cuando i tiende a infinito si k = 0.10. 4. Analice el comportamiento de xi en el modelo de competencia entrepoblaciones del ejemplo 2.13 cuando i tiende a infinito si k = 0.16. D 5. Determine el comportamiento de Ai y de Aixo para x. arbitraria si
@ 3 O !!?
3
418
9
I
Eigensistemasde matrices arbitrarias generales, con aplicaciones
6. Demuestre el teorema clave 9.30. 7. Determine el comportamiento de Ai si
A=b -; ;1. 0.5
-4
0.5
O. Cuando x es un número real con 1x1 < 1, se muestra que(1 - x)-l= 1 + x + x2 . demostrando primero que la serie converge y segundo escribiendo (1 - x) (1 x . x”) = 1 - xn+l y tomando el límite cuando n tiende a
+- -
+
+ +
infinito. Utilice unmétodo semejante para demostrar que,si A es una matriz p x p con p ( A )< 1, entonces I - A es no singular y su inversa estádada por la serie convergente (I-A)”=I+A+A2+...
D 9. Utilice el problema 8 para demostrar quesi (Y > p ( A ) ,entonces a1 - A es no singular y
D 10. Demuestre que: a)
Al l7y
es irreducible
-I
b) 3
t5 c)
0
[i :]
es reducible 41
es reducible
11. Utilice el teoremaperron-Frobenius(9.34) parademostrar el corolario 9.35. rXn 12. Compruebe f)en el teorema de Perron-Frobenius(9.34) mediante MATLAB o algún software semejante para examinar explícitamente el radio espectral de la matriz A ( a ) cuando (Y 2 O aumenta, en donde
[:
A(a) = 3
4 0.8~ 5
1 + 0.9a 1
D 13. Caracterice laxotal que Aix, converja a cero parauna matriz A de Markov. 14. Suponga que A es no negativa. Utilice el problema 9 para demostrar que, si (Y > p ( A ) , entonces (a1 - A)-I es no negativa.
9.5
I
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
419
15. Considere IamatrizB no negativa irreducible: (B)ij= O excepto cuandoI i -31 = 1, en cuyo caso(B)it = l . Comparando B con la matriz B' obtenida de B al aumentar a 2 los 1 en los renglones superiores e inferiores y mediante el inciso e) del teorema de Perron-Frobenius, demuestre que p(B) < 2.
D 16. Utilice los problemas 14 y 15 para demostrar que(21 - B)-l es no negativo, en donde B es la matriz del problema 15. '93 17. Utilice MATLAB o algún software semejante para verificar los incisos dela) al d) del teorema de Perron-Frobenius y el corolario 9.35 en: a) la matriz de transición del modelo del problema 4 de la sección 2.2. b) la matriz de transición del modelo del problema 6 de la sección 2.2.
'93 18. Utilice MATLAB o algún programa semejante para comprobar los incisos del a)al d) del teorema de Perron-Frobenius para la matriz de H'lbert 6 X 6 H,, en donde (H& = l / ( i + j - 1).
D 19. Suponga que A es una matriz cuadrada con elementos estrictamente positivos. Demuestre que p(A) IllAlll y que p(A) = llAlll si y sólo si A/p(A) es una matriz de Markov. 9.5
APLICACION: EVOLUCION DE SISTEMAS CONTINUOS Y EXPONENCIALES DE MATRICES
Esta sección da otro ejemplo del valor analítico de la forma de Jordan. En la sección anterior se desarrollaron los ejemplos de las seccicnes2.2 y 2.3 para ver laevolución de sistemas generales cuyo estadoen un punto específico del tiempo se da como una transformación lineal del estado en un tiempo específico anterior. Si el intervalo de tiempo en cuestión es extremadamente pequeño,o si el cambio en el estado es extremadamente pequeño en relacih con el estado, a menudo es útil suponer que el estadox se define para todo tiempo t por la función x(t) y que la información de los cambios de estado se da en términos de la derivada x, en donde x es
si x es p X 1. En otros casos, particularmente en las ciencias físicas y en la ingeniería, se consideraal tiempo como una variable muestreadacontinuamente, de modo que las descripciones naturales de la evolución del estado x de un sistema usan la derivada x y ecuaciones diferenciales ordinarias. Se darán tres
420
9
Eigensistemas de matrices arbitrarlas generales, con aplicaciones
/
ejemplos para ilustrar la forma en quealgunas ecuaciones diferenciales ordinarias que surgen en las aplicaciones se pueden expresar en una forma estándar: x = Ax + f. (9.36)
Ejemplo. Los modelos de crecimiento de población de la sección 2.3 surgieron esencialmente de la hipótesisde queel crecimiento es proporcional a la población presente:
Pi+ 1
-
Pi = ( h - d)pi
con la nomenclatura de esa sección. El modelo continuo análogo para pequeños intervalos de tiempo o para poblaciones con rápido crecimiento usaría la derivada con respecto al tiempo 8:
endonde p y 6 reflejan lastasas de nacimientos y muertes. Para las poblaciones en competencia tales comolas del modelo gallinas-zorros de esa sección, se debería sustituir (2.13) por F(t) = -0.4F(t) C(t) = - kF(t)
+ 0.5C(t),
+ 0.2C(t),
F(t0) = 1 0 0 C(t,) =
1000
o, en notación matricial, X
= AX,
~ ( t ,= ) X,,
en donde
(9.37)
Ejemplo. Suponga que u ( t )es el ingreso total en el tiempo t de una empresa dada (o quizá el PIB de una economía), y suponga también que, si i(t) de este ingreso se reinvierte, la tasa de crecimiento de u será proporcional a i de modo que d ( t ) = gi(t)
para determinada razón de crecimiento y. Se propone reinvertir una parte fijar delos ingresos, de modo que i(t)= rv(t), y se supone queel resto del ingreso, (1 - r)u(t),deberá ser distribuido como ganancias entre los accionistas después de que se han deducido impuestos y otros gastos, demodo que la tasa de crecimiento de la ganancia o utilidad p sea proporcional a (1 - r)u, esto es,
p
= $1 - r)u.
9.5
I Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
421
Entonces, en resumen, se obtiene el modelo d = gru,
p = S( 1 - r)u, o, en notación matricial, k
= AX,
A
=[
en donde x=[;],
Aquí, g , r y (9.38)
S
s(1 gr - r)
i].
son constantes.
Ejemplo. En la sección 2.5 se dedujeron las ecuaciones diferenciales (2.26) para el movimiento de un par de masas acopladas con resortes; suponga que además se aplican fuerzas externashacia abajo Fl(t)y F,(t) a las masas m, y m2. Esto añade a F, al miembro derecho de la primera ecuación en (2.26) y F, al de la segunda. Para eliminar segundas derivadas, seintroducirán variables auxiliares: sean x, = X1, x2 = X,, x3 = X , y x4 = X 2 . Esto necesita de las ecuaciones adicionales 1, = x2 y i3 = xq. El resultado es 1, = x2 m 1 i 2 = -k,x, 13
m214
+
k 2 ( ~ 3-
x,)
+F,
= x4 = - k 2 ( ~ 3 - X,)
+
F2.
Si x = [x, x, x3 x41T, se puede escribir este sistema como x donde
r
o l +_ k 2_ -k _
A=
1
o
O
O
k2
O
m, O
o
m1
O
lk
o
1
m2 k2
"
o
= Ax
+ f, en
O Fl
y
f = m1 O
F, m2.
Cada uno de los tres ejemplos anteriores condujo a una ecuación diferencial (9.39)
X = AX
+ f,
en donde A es una matriz de constantes dadap x p , f es una matrizp X 1 dada de funciones de t y x es una matrizp x 1 de funciones desconocidas de r que deben
422
9
1 Eigensistemas de matrices arbitrarias generales, con aplicaciones
encontrarse para que se satisfaga (9.39) en t. En tales modelos de sistemas en evolución típicamente se da el estado en un tiempo I,, por lo tanto (9.40)
x(to) = x0
para algún I, dado y un vector constante x, dado. Por simplicidad, se supondrá que to = O y -por el momento- que f = O, de modo que se tratará con (9.41j
X =
~ ( 0= ) xO.
AX,
Ecuacwnes diferenciules con matrices no defectuosas
Como es común, el análisis es más sencillo cuando A tiene un conjunto linealmente independiente de p eigenvectores, por esta razón se supondrá ésta; para tal matriz A no defectuosa, es posible escribir P"AP=A
y
A=PAP"
con la matriz diagonal A = diag(h,, . . . , AD). Como P" es una matriz de constantes,si se premultiplica x = Ax por P-l, se obtiene d(P-lx)/dt = (P'APj(P"x), o y = Ay si se hace que y = P"x. Ciertamente, y(0j = P-'x(O)= Pix,, de modo que y(0j también se conoce. Denotando P"x, por y,, es posible escribir el sistema como (9.42)
Y = AY,
Si y = [y1yz (9.43)
-
Y(0) = yo.
yJT, lo anterior no es más que
ji= l i y i ,
yi(0) =
para 1 5 i I p.
Las ecuaciones escalares (9.43) se resuelven con yi(t) = (yo)iexp(&t), en donde exp denota a la función exponencial: exp(sj = es para toda s. En notación matricial esto es (9.44)
y(tj = L(tjyo, endonde
Observe queL(t) es diagonal. Ya que x = Py y yo = P-lx,, (9.44)resulta en x(tj
(9.45)
= PL(t)P- lxo
9.5
I Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
423
como la solución a (9.41). Esto también se puede escribir como
m = alp1 exp(4t) + a2pz exp(A2t) + .
'
. + a,p, exp(L,t),
en donde pi es la i-ésima columna de Py ai= ( P - ~ X ~Se) ~resumirá . lo que se ha demostrado. (9.46)
Teorema (solucionesconmatrices no defectuosas).Sea A, p X p , no defectuosa con P"AP = A diagonal con los eigenvalores hi de A en la diagonal principal de A. Entonces la solución x(t) de (9.41) es X(t) =
PL(t)P"x,,
en donde L(t) es la matriz diagonal de (9.44). (9.47)
Ejemplo. Si k = 0.16enel ejemplo 9.36, entonces
modelo de competencia entre poblaciones del
A
=
[-0.4 -0.16
0.20.51
tiene eigenvalores Al = O, h2 = -0.2, y se reduce a la forma diagonal de Jordan por
Los elementos diagonales de L(t) son entonces exp(0t)= 1 y exp(-0.2t); el teorema 9.46 da fácilmente x(t) = [F(t) C(t)]' en donde F(t) = 2400 - 2300exp( -0.2t)
y
C(t)= 1920 - 920exp(-0.2t).
Conforme pasa el tiempo, las poblaciones tienden a valores estables de 2400 y 1920. Ecuacwnes diferenciales con matrices defectuosas
La situación es casi igual de sencilla para el caso de matrices defectuosas; se tiene que repetir el análisis anterior, pero con J en lugar de A en (9.42): (9.48) Ya que J se compone de p bloques de Jordan, es posible tratar cada bloque independientemente -justo como se trató a cada yi independientemente para matrices no defectuosas. Por el momento se designarán con zl, . . . , z, las
424
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
variables afectadas por algún bloque de Jordan de n X n asociado con eí eigenvalor A. Entonces las ecuaciones para este bloque en (9.48) son (9.49)
+ z2,
i,
=
2zl
inin
=
Rz, - ,
+ z,
= AZ,,
de modo que d { z , exp(-J.t)}/dt
= z2 exp(-At)
de modo que d { z , - exp(- It))/&= znexp(- Al) de modo que d{ z , exp(- E,t)}/dt = O.
Estas se pueden resolver sucesivamente comenzando con la ecuación inferior; el resultado es quez,esigual a exp(At) veces un polinomiode grado n - ren t con coeficientes que involucran a los valores de zi(0) (problema 4). En forma matricial, esto se expresa como (9.50)
z(t) = k,(t)z(O), en donde 11
1
o
1 0
t2
t
-
...
2
tn
-1
~
(n - I)!
...
o
o
0
* * '
1
...
y en dondek,(t)es la k,.(t) de (9.50) siendo A sustituida por el eigenvalor en el i-ésimo bloque de Jordan Ji en una forma de Jordan J de A.
Resumiendo. (9.52)
Teorema (soluciones generales). Sea A, p X p , con una forma de Jordan J P"AP con los eigenvalores de A en elladiagonalprincipal de J.
=
9.5
/
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
425
Entonces la solución x(t) a (9.41) está dada por ~ ( t= ) PK(t)P- ' ~ 0 ,
en donde K(r) es la matriz diagonal en bloques en (9.51). (9.53)
Ejemplo. Si k = 0.18 en elmodelo de competencia entre poblaciones del ejemplo 9.36, entonces A=[
0.51 0.2 -0.18
-0.40
tiene un eigenvalor doble Al = -0.1, y todo eigenvector es un múltiplo de [5 3IT. Esto significa que A tiene un bloque de Jordan 2 X 2 en su forma de Jordan que se encuentra fácilmente: J = P"AP
=
=
[ [
0.02 -0.06
0.3][ -0.40 0.1 -0.18
0.5 0.2
-0.1
o
4 1 1 .
La fórmula (9.51) da entonces x(t) = [ F ( t ) C(t)]', en donde F(t) = (100
+ 470t) exp(-O.lt),
C(t) = (IO00
+ 282t) exp(-0.1t).
Ambas poblaciones mueren cuando r tiende a infinito. Hasta este punto, se ha supuesto que f(r) = O en (9.39). En lugar de tratar ahora el caso no cero, se tomará otro camino. Se podríahaber producido todo lo anterior introduciendo exponenciales de marrices exp(rA) en lugar de reducir el problema a ecuaciones escalares como en (9.43) y (9.49). Para ilustrar los dos enfoques se desarrollará a continuación el tema de exponenciales de matrices y después se usarán para tratar (9.39) cuando f # O. Ahora podrá resolver los problemas del 1 al 7 .
Exponenciales de matrices
De la sección anterior debería quedar claro que las exponenciales juegan un papel fundamental en la resolución de ecuaciones diferenciales: por ejemplo, i = ax con x(0) = x. tiene solución x(r) = exp(ar)x,. Parece natural considerar la posibilidad de resolver x = Ax con x(0)= x. por mediode exp(Ar)x, si se definiera
426
9
1 Eigensistemas de matrices arbitrarias generales, con aplicaciones
adecuadamente exp(At). Haciendo que B sea At, se considerará la expresión exp(B). Para números b , exp(b) se define por la serie de potencias
la cual converge a exp(b) para todos los números b reales o complejos. Usando normas matriciales y el concepto deconvergencia determinado por las normas, se puede demostrar que B2 B3 I+B+-+-+.. 2! 3!
converge para toda matriz cuadrada real o compleja B y por lo tanto se puede usar como una definiciónde exp(B). Es fácil ver hacia dónde converge esta serie. Si se encuentrala forma de JordanJ = P-lBP, entonces, sustituyendo PJP-l por B en la serie, se obtiene P-'
=P
exp(J)P-'.
Además, J y sus potencias son tan sencillas que es posible evaluar explícitamente esta serie en J. De lafórmula que resulta,se puede probar directamente lo siguiente (problemas 8 a 11). (9.54)
Teorema (exponenciales de matrices) a) La serie infinita exp(A) = I + A
A2
A3
-
-
+ 2! + 3! + .
converge para toda matriz A cuadrada real o compleja. b) exp(rA) exp(sA) = exp(sA) exp(rA) = exp{(r + s)A}para todonúmero Y , S , y para toda matriz cuadrada A. c) A exp(A) = exp(A)A para toda matriz cuadrada A. d) La derivada d{exp(fA)}/dt = A exp(fA). e) Suponiendo que J = Q"AQ es una forma de Jordan de A -usando la nomenclatura del teorema clave 9.4- siendo los bloques de JordanJ, n , X n , para 1 5 r 5 p, entonces se puede encontrar al exp(A) haciendo f = 1 en la siguiente fórmula para exp(tA). Para cada número f , exp(fA) = Q exp(tJ)Q", en donde exp(tJ,) O . . . exp(tJ) =
...
O
O . . . exp(tJ,)
9.5
I
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
427
Y en donde exp(tJ,) = k,(t) para el bloquede Jordan J, n, x n, asociado con el eigenvalor A, siendo k,(t) como se definió en (9.50) reemplazando a la n por n,. f) exp(A) es no singular y {exp(A)}-' = exp(-A). g) exp(0) = I.
Con esta información, se puede volver a enunciar el teorema 9.52 sobre la solución de x = Ax. (9.55)
Corolario. La solución de x = Ax con x(0)
=
x. es
x(t) = exp(tA)x,.
(9.56)
Ejemplo. En el ejemplo 9.53 se presentó una matriz A 2 x 2 y su forma de Jordan
[
J= - t l
1 -0.1
]
para A =
[
-0.40 -0.18
0.51 0.2 .
Usando P y P-l del ejemplo 9.53, resulta exp(tA) = exp( -0.1t )
1 - 0.3t
haciendo t = 1, se obtiene exp(A) = exp(1A) = exp(-0.1)
[
-:;8
y::]'
Una vez encontradas las soluciones de las ecuaciones diferenciales estudiadas enlos ejemplos 9.47 y 9.53, se podría ver inmediatamente cómo se comportaron cuando t tendía a infinito. Como se pueden escribir esas soluciones como x(t) = exp(tA)x,, esos resultados debenan ser consecuencia de las propiedades de A y de exp(rA). La fórmula explícita para exp(tA) contenidaen el teorema 9.54, da una prueba inmediata de esosresultados una vezque seha entendido el comportamiento de exp(At) para una A posiblemente compleja. Si A = a + D i con (Y y p reales, entonces la serie infinita para exp(Xt) se divide en la parte real y la parte imaginaria y resulta exp((a + B i ) t } = exp(at) {cos pr + isen pr}. Si a,la parte real de A es negativa, entonces exp(Ar) tiende acero a medida que t tiende a infinito; si la parte real de A es positiva, lexp(At)l tiende a infinito, y la parte real es cero, exp(Ar) está acotada.
428
9
I
Eigensistemasde matrices arbitrarias generales, con aplicaciones
(9.58)
Ejemplo. Los problemas en los ejemplos 9.47 y 9.53 ilustran este teorema. La matriz A 2 x 2 del ejemplo 9.47 tiene A, = O y Az = -0.2; todas las soluciones están acotadas, así como la que allí se presentó. La matrizA2 x 2 del ejemplo 9.53 tieneAl = Az = -0.2; todas las soluciones tienden acero, como lo hizo la que allí se encontró.
Ecuaciones no homogéneas
Finalmente se volverá a la ecuación no homogénea (9.39): (9.59)
X = AX
+ f,
~ ( 0= ) x0,
en donde f es una función de t. El camino a utilizar, basado en exponentes de matrices, se podría haber usado también cuando f = O. Premultiplicando ambos lados de (9.59) por exp(-tA), resulta (9.60) exp(
-
tA)X
-
exp( - tA)Ax = exp(- tA)f.
El lado izquierdo de (9.60) es justamente la derivada de Z ( t ) , si se define Z ( t ) como exp(-tA)x(t), de modo que el miembro derecho también sea igual a Z(t). Como Z ( f ) - Z(0) es igual a la integral de i t ) de O a t , se obtiene exp(- tA)x(t) - exp(OA)x(O)=
ji exp( - tA)f(r) dt.
Ya que exp(0A) = I y exp(fA) = {exp(-tA)}”,la premultiplicación de ambos miembros por exp(fA) completa la solución de la ecuación no homogénea. (9.61)
Teorema (ecuaciones diferenciales no homogéneas). La solución x(t) de X =
AX
+ f,
~ ( 0= ) xO,
9.5
/
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
429
en donde A y x. son constantes y f puede depender de t se da por x(t) = exp(tA)xo+ Observe que si f
= O,
Jiexp((t - z)A}f(z)dz.
esto se reduce al corolario 9.55. PROBLEMAS 9.5
D 1. Escriba lasecuaciones diferenciales de lamolécula triatómica del problema 4 de la sección 2.5 en la forma x = Ax. 2. Resuelva a x = Ax, x(0) = x. en donde
-4
6 -1
12
3. Resuelva las ecuaciones diferenciales para el modelo de competencia entre poblaciones del ejemplo 9.36 para k = 0.1 4. Demuestre que (9.50) es consecuencia de (9.49).
D
5. Resuelva x = Ax, x(0) = [2 6. Resuelva
-2
il= 2x, x2
=
2IT, con la matriz A del ejemplo 9.6.
+
x*, 2x,,
X,(O) =
1
X2(O) =
1.
7. Resuelva las ecuaciones diferenciales del ejemplo 9.37con g = 0.08, r = 0.2,
v(0) = 100, p ( 0 ) = 5. Demuestre el teorema 9.54 g) y encuentre exp(1). Utilice la fórmula de exp(A) del teorema 9.54 e) para demostrar el teorema 9.54 b) y c). del teorema 9.54 a) Demuestre que la serie I + A + A2/2! + A3/3! + converge. Demuestre el teorema 9.54 f). Encuentre exp(tA) y después exp(A) para la A del ejemplo 9.47. Resuelva x = Ax + f, x(0) = x. siendo A y x. las del ejemplo 9.47, pero con f(t) = [l 1-y. Resuelva x = Ax + f, x(0) = x. siendo A y x. las del problema 5, pero con f(r) = [1 o t ] T . Compruebe que {exp(A))" = exp(-A) para la matriz A del ejemplo 9.47. Encuentre exp(A) para la A del ejemplo 9.6. S
D 8. 9. 10.
D 11. 12. 13. 14.
15.
D 16.
= 0.7,
430
9
/
Eigensisternas de matrices arbitrarias generales, con aplicaciones
17. Sin resolver las ecuaciones diferenciales, determine el c omportamiento cuando t tiende a más infinitode la soluciónx(t) del modelo de competencia entre poblaciones del ejemplo 9.36 cuando k = O. l.
D 18. Encuentre un valor de ken el modelo de competencia entre poblaciones del ejemplo 9.36 tal que, a medida que t tiende a más infinito, todas las soluciones estén acotadas, pero no todas las soluciones tiendan a cero. 9R 19. Utilice MATLAB o algún software semejante para sumar varios términos de la serie exp(A) para comprobarexperimentalmente que la serie converge a exp(A) para la matriz A del ejemplo 9.56. 9.6
APLICACION: SOLUCION ITERATIVA DE ECUACIONES LINEALES
Los modelos matemáticos de sistemas físicos o sociales muy complejos a menudo involucran sistemas de ecuaciones lineales con miles de variables, sistemas que sedeben resolver muchas veces en el modelo. Hasta las supercomputadoras modernas podrían no ser capaces de almacenar y resolver las ecuaciones usando la eliminación de Gauss lo suficientemente rápido (si es que pueden) para que resulten útiles o efectivas en lo que respecta a su costo. En tales problemas, a menudo se da el caso de que cada una de las miles de ecuaciones involucra sólo unas cuantas de las milesde variables; esto surge del hecho de que muy a menudo, cada parámetrode un modelo grande sólo interactúa directamente con unos pocos de los demás parámetros. En un modelo de economía, por ejemplo, cada individuo hace negocios con unas cuantas personas; en una estructura física complicada, como otro ejemplo, cada miembro está conectado sólo con unas cuantas personas. La matriz que representa tales ecuaciones es, por lo tanto, poco densa: sólo contiene un pequeño porcentaje de elementos diferentes de cero. (9.62)
Ejemplo. Suponga que se tiene una matriz A, 10 x 10, con la siguiente estructura, en donde “x” representa un elemento diferente de cero en la matriz A original, “O” representa u n cero en la matriz A original, cuya presencia se puede aprovechar durante la eliminación de Gauss, y “0” representa un cero en la A original que se reemplazará por un número diferente de cero durante la eliminación antes de que ésta se haya adelantado lo suficiente como para poder tomar ventaja del cero.
A=
x x x x x x
x x x @ @ @
x
@
x x x
@ @ @
o x x x @ @ @
@ @ @
o o x x x @ @
@ @ @
o o o x x x @
o o o 0 x
x x
@ @ @
@ @ @
o o o 0
o
x x
o o o 0
o o
o o o 0
o o o
x x x x @ x x @ @ x
x x x x x x x x x
x.
9.6
/
A~licacibn:soluci6n iterativa
de ecuaciones lineales
431
Aunque sólo 44 de los 100 elementos de A son diferentes de cero,la mitad completa de los 56 elementos cero se deberán tratar como diferentes de cero durantela eliminación; y al resolver un sistema Ax = b, la sustitución en reversaimplicará multiplicar 28 veces por cero. Si es posible, se deberá evitar la pérdida de “la poca densidad” y el trabajo inútil de multiplicar por ceros. Un enfoque es desarrollar procedimientos especiales de eliminación de Gauss para matrices poco densas; por ejemplo, con sólo notar la localización de los muchos ceros en la forma reducida de Gauss anterior,se evitan las multiplicaciones innecesarias, y el sencillo artificio de reordenar las incógnitas como x2,x,, . . . , xl0,xl,conserva mucha de la poca densidad durante la eliminación: en efecto, se mueve la primera columna hasta la extrema derecha dela matriz, despuésde lo cual una eliminación de Gauss con intercambio puede aprovechar cada cero del triángulo inferior de A, sustituyendo a lo más 13 ceros del triángulo superior Este ejemplo indica los ahorros potencialmente enormes que se pueden hacer diseñando programas especiales de eliminación de Gauss para matrices poco densas. Este importante tópico está más allá del alcance de este libro; sin embargo, véase Bjorck, Plemmons, y Schneider (38); Bunchy Rose (39); Duffy Stewart (41); George y Liu (45); y Rose y Willoughby (51). Hay métodos alternativos para aprovechar la pocadensidad de las matrices, unos que fácilmente pueden explotar la poca densidad de A y mantener un bajo almacenamiento y demás requisitos computacionales. Entre los más poderosos de esosmétodos están los métodos iterativos: en lugar de calcular directamente la solución como en la eliminación de Gauss, calculan una sucesión (teóricamente infinita) de soluciones aproximadas x, con el propósito de que converjan rápidamente hacia lasolución. El resto de estasección examinará tales métodos. Para ejemplificar se tomará Ax = b como problema modelo, en donde (9.63)
A es 20
X
20, simétrica, y tridiagonal:
( A ) ~= ~2 para I 5 i 5 20, ( A ) ~ , +=~ ( A ) ~ - ~=, ¡ - I para 2 todas las demás (A),, = O. b es 20 x 1: (b)i = 0.01i para 1
5
i
5
i 5 20, y
I20.
Observe que sólo 58 de los 400 elementos de A son diferentes de cero; esta cantidad, que representa el 1 S:( es alta comparada con lo que se presenta en la práctica. Observe también que la eliminación de Gauss en A es sencilla y que no se necesitan métodos iterativos; sólo se usará a A para ejemplificar las fórmulas siguientes. Cada uno de los métodos iterativos que se presentan,aunque difieren en la manera de hacerlo, el i-ésimo elemento de una nueva aproximación x’ usando la i-ésimaecuación y los valores de la aproximación anterior x (y quizá algunos
432
9
I
Eigensisternas de matrices arbitrarias generales, con aplicaciones
de los elementos ya calculados de x’). Se produce una serie de aproximaciones
x, comenzando por x como x,,, calculando x’ de x y haciendo x, igual a x‘; ponen ax, en lugar de x, calculan x’a partir de x y hacen xz igual ax’ y así sucesivamente. (Se usa esta notación para reducir el número de subindices y superíndices.) E n toda esta sección, A es p x p , atj es (A)G,xi denota a bi quiere decir (b)i.
(X)iy
xi es (X‘)iy
y
(9.64)
Ejemplo. El método iterativo de Jacobi sustituye a la aproximación anterior x en la i-ésima ecuación para todas las variables excepto para la i-ésima, y calcula esa variable como xi: -a. 1 1 x 1
a..x! = I1
I
-.
. . - a i * i - l X i - l- a i , i + l x i + l . . . - aipxp+ bi para 1 I i I p .
En el problema de ejemplo (9.63), esto viene a ser simplemente 2x; = x i m l + xiil
(9.65)
+ 0.01i
siendo 1 I i I 20.
Ejemplo. El método iterativo de Gauss-Seidel sustituye la nueva aproximación x’en la i-ésima ecuación para aquellas variables x;, . . . ,xi- que se han actualizado, sustituye la aproximación anterior x en todas las demás variables excepto en la i-ésima y despeja esa variable como xi:
a..x! = II
I
-a.I 1 x‘1
-
. ’ . - ui,i- 1x;- 1
1xi+ 1 - . . . -
-
+ bi
para 1 I i I p.
En el problema de ejemplo (9.63), esto simplemente viene a ser
+ x i + l + 0.01i
2x: =
(9.66)
para 1 5 i I 20.
Ejemplo. El método iterativo de sohrerrelajaciones sucesivas o S R S , calcu1a.u; como sigue: primero calcula una aproximación temporal x* a la i-ésima variablecomo en el método de Gauss-Seidel, y después encuentraa x’,= x i + o(x* - x i ) para un parámefro de sobrerrelujucionfijo w, generalmente mayor que 1, cuyo uso tiene el propósito de mover más rápidamente la aproximación hacia la solución. Esto da aiix* = - a i l x i - . . - ur.. .z - l X i‘- 1 -ai,i+lXi+l - . . . - a i p p ‘
x: = x i
+ w(x* - xi)
+ hi,
para 1 I iI p.
En el problema de ejemplo (9.63), esto simplemente es 2x*
= xidl
+ x i + l + 0.01i,
xi
=
xi + w(x* - x i ) para 1 5 i 5 20.
I A~licaci6n:solucibn iterativa
9.6
de ecuaciones lineales
433
No todos los métodos iterativos que seusen producirán aproximaciones que converjan a una solución, ni los tres métodos anteriores producirán una aproximación para todos los problemas. Esos tres métodos -y especialmente el SRS con una adecuada selección de w- son muy efectivos para una extensa clase de matrices que surgen al resolver problemas con valores en la frontera para ecuaciones diferenciales ordinarias y parciales; el problemaejemplo (9.63) es, de hecho, una de esas matrices. Se requiere de algunas herramientas analíticas para determinar si un método específico será efectivo en un problema específico. Particiones de matrices
La aplicación de estos métodos al problema del ejemplo(9.63) revela su simplicidad en computación. Para analizar la conducta quelos caracteriza, se introducirá no se usan las versiones de notación matricial; es importante darse cuenta que matrices en los cálculos reales, sino sólo en el análisis. Escribamos A como (9.67)
A = L + D + U , en donde D es una matriz diagonal, L es una matriz triangularinferior con cero en su diagonal principal, y U es una matriz triangular superior con ceros en su diagonal principal.
Evidentemente, L es igual al triángulo inferior de A, D es igual a la diagonal principal de A, y U es igual al triángulo superior de A. El examen de las fórmulas para los métodos deJacobi, Gauss-Seidel y SRS muestra que pueden reenunciarse como sigue (problemas 5 y 6): (9.68)
a) El cálculo deJacobi es DX' = -(L
+ U)X + b.
b) El cálculo de Gauss-Seidel es (L
+ D)x' = - U X + b.
c) El cálculo SRS es
(L + ~ " D ) x '= - { U
+ ( 1 - ~ - ' ) D } x+ b.
De hecho, cada uno de ellos es un caso especial de una clase de métodos basados en partir las matrices A = M + N;así, se escribe (9.69)
A=M+N
y
Mx'=-Nx+b.
Cada uno de los métodos de (9.68) es de este tipo: Jacobi usa M
= D, N
Gauss-Seidel usa M SRS usa M
=L
=L =L
+ U.
+ D,N
+ o-'D, N
= U. =U
+ (1
-
o")D.
1.75
434
9
I
Eigenslstemas de matrices arbitrarias generales,
con aplicaciones
La sucesión de aproximaciones x, calculada con esos métodos, lasolución verdadera f y los errores 6, = x, - ii satisfacen entonces (9.70)
-Nx,
Mxr+l
+b
Mii
=
-N% + b
Ma,+ 1
=
-N6,,
en donde la terceraecuación resulta de restar la segunda de la primera. Si M es no singular, se obtiene (9.71)
=
6,
Ha,,donde en
H
=
""N,
y así resulta
= H6,.
Como se quiere que x, converja a 2, es necesario que 6, converja a cero sin importar cuál sea el error inicial 6,. Ya que 6, = Hd,, el asunto del comportamiento de 6, está tratado en el teorema clave 9.30: para asegurar que los errores 6, converjan a cero, es necesario que el radio espectral p(H) < l . Evidentemente, la herramienta analítica que se necesita parae1 mientras más pequeño seap(H) es análisis de determinados métodos iterativos aplicados a problemas particulares. 911 (9.72)
1.74
1.7
Ejemplo. Se usaMATLAB paracalcularlos eigenvalores y después el radio espectral de lasmatrices adecuadas H para los métodos de Jacobi, GaussSeidel y SRS (con varios valores de w) en los ejemplos 9.64a 9.66 sobre el problemade ejemplo (9.63);esas matrices se designan respectivamente con H,, HGSy H,(observe que SRS con w = 1 es precisamente Gauss-Seidel, así H, = HGs).MATLAB calculó p(H,) = 0.9888 y p(H,,) = 0.9778, estando ambos bastante cerca de 1 ; como se espera quelos errores llS,lI se comporten como {p(H))*, entonces esto indica una convergencia bastante lenta. Despejando r en {p(H)}' = &j para ver cuántos pasos se necesitan para reducir el error por un factor de 10, se encuentra que se requieren aproximadamente 204 pasos para el métodode Jacobi y 103 pasos para el método de Gauss-Seidel. (Este factor de aproximadamente 2 entre el número de pasos en estos métodos es típico.) Ahora se examinará el desempeño del SRS para distintos valores de w. Se usó el MATLAB para calcular p(H,,) para wde0.0 a 2.0 en intervalos de 0.2, y se observó que era menor entre 1.6 y 2.0; entonces sele calculó en intervalos de 0.05 en esaregión, observando que eramínimo de 1.7 a 1.8. Después se le calculó en intervalos de 0.01 en esa región y se encontró que fue mínimo en w = 1.75. La siguiente tabla muestra valores representativos. 1.6
o 1.2
1
0.6
p(H,)
1
0.8000 0.7600 0.7500 0.7562 0.8479 0.9056 0.9666 0.9905
1.8
9.6
/
Aplicaci6n: soluci6n iterativa de ecuaciones lineales
435
La tabla revela que laselección adecuada dew pilede hacer una diferencia dramática en la rapidez de la convergencia. Al escoger la w óptima de aproximadamente 1.75 da p(H1,,J = 0.75, lo que significa que sólo se necesitarán unos 8 pasos -comparados con los 204 para Jacobi y 103 para Gauss-Seidel-de SRS con w = 1.75para reducir el erroren un factor de10. Las comparaciones ilustradas en el ejemplo 9.72 son típicas de una clase amplia de matrices que surgen en la soluciónnumérica de ecuaciones diferenciales; la rapidez del método Gauss-Seidel es típicamente el doble del de Jacobi, siendo el método SRS (con una selección Úptima de w) dramáticamente más rápido. El siguiente teorema, enunciado sin demostración (véase por ejemplo la segunda edición en inglés de este libro) lo ilustra. (9.73)
Teorema (Jacobi, Gauss-Seidel y SRS). Suponga que A es una matriz tridiagonal con elementos diferentes de cero en la diagonal principal: (A)ii # O,
(A)ij
si l i
=O
-
jl > 1.
Sea HJ, HGs y H, las matrices cuyos radios espectrales gobiernan la convergencia de esos métodos. Entonces: a) p(HGs) = {p(H,)}’ -si Jacobi converge, también lo hace Gauss-Seidel y con doble rapidez; si Jacobi diverge, así lo hace Gauss-Seidel y con doble rapidez. b) Si A tiene eigenvalores reales, entonces el valor de w que minimiza a PW,) es w* = 2 / { 1
+ (1
-
p’)l/’},
en donde ,p = p(HJ); para esta w* óptima, p(H,,)
=
o* - 1.
Para interpretar el teorema 9.73, suponga por elmomento que p(HJ = 1 - E para alguna E pequeña, de modo que el método de Jacobi converjalentamente. Entonces
algo más pequeño. También,
(jJ* =
2
’
-
2 - 2(2E)”’,
”
(1 + ( 2 € - € )
}
Y así p(H,*) % 1 - 2 ( 2 ~ ) l ’ ~el, cual es apreciablemente más pequeño. Si por ejemplo E = 0.00005, entonces
p(HJ)= 0.99995,
p(HGS) % 0.99990,
y
p(H,*)
%
0.98.
436
9
/
Eigensisternas de matrices arbitrarias generales,
con aplicaclones
Un aspecto interesante e importante de este teorema es que sólo requiere información de p(H,) para determinar lawóptima para SRS; esto es útil yaque H, es relativamente sencilla. Escribiendo A = L + D + U comoen (9.67) y encontrando H, = -D”(L + U), se demuestra que el método de Jacobi será < 1; estadesigualdad es válida si y sólo siA es convergente si, por ejemplo, l/HJ//m estrictamente dominante diagonalmente respecto a los renglones -la magnitud de (A)ii es estrictamente mayor que la suma de las magnitudes de (A)i, paraj # ilo cual a menudo es válido en las aplicaciones {o es válida una versión ligeramente modificada de esta condición, enla que se omite lo de “estrictamente”, que es suficiente para garantizar que p ( ~ , K) I}.
PROBLEMAS 9.6
1. Escriba las ecuaciones para aplicar el método de Jacobi a
2u+ v = 4 u
+ 2v = 5.
D 2. Escriba las ecuaciones para aplicar el método de Gauss-Seidel en el problema 1. 3. Escriba las ecuaciones para aplicar el método SRS en el problema l . 4. Compruebe (9.68) a), b) y c) en los problemas 1 , 2 y 3 . 5. Deduzca (9.68) a) y b).
6. Deduzca (9.68) c).
D 7. Encuentre las matrices H,, HG,, y H, que sirven como H en (9.71) en los 8.
D 9. 10.
D 11.
problemas 1 , 2 y 3. Utilice las fórmulas generales para M y N para encontrar las matrices iterativas H de (9.71), en general para losmétodos de Jacobi,Gauss-Seidel y SRS. Encuentre p(HJ),p(HG,), y p(H,.,) en los problemas 1, 2 y 3. Compare, en los problemas 1 , 2 y 3 (con w = l . l ) el , número real de pasos necesarios para reducir el error en un factor de 10 (comenzando con u. = u. = O) con el número n = -log,,{p(H)) que sepronosticó teóricamente como la solución de jp(H))” = h. Intercambie las dos ecuaciones a resolver en el problema 1 . a) Demuestre que el método de Jacobino converge si se aplica a este nuevo sistema. b) Determine si converge el método de Gauss-Seidel. c ) Examine si se puede encontrar o de modo que SRS converja.
9.7
I
Problemas varios
437
= M + N para la matriz del ejemplo 9.62que pudieran ser efectivas para resolver Ax = b; recuerde que se necesita estar en posibilidad de resolver fácilmente M X , + ~= -Nx, + b en cada paso. aR 13. Modifique los elementos en la diagonal principalde lamatriz A del problema de ejemplo(9.63) haciendo (A)ii = 2 + 0.li. UtiliceMATLAB o algún y p(H,) para un rango de programa semejante para encontrar p(H,) , p(H,), valores de w lo suficientemente grande como para permitir la aproximación a una o óptima o*.
12. Describa algunas particiones de matrices A
14. a) Utilice p(H,), para el problema ejemplo (9.63) para determinar la w = w* óptima para el método SRS del teorema 9.73. b) Compare este valor con el valor de 1.75determinado experimentalmente. y c) Utilice MATLAB o algún programa equivalente para calcular p(H,) después compárelo con el valor teórico de o* - 1. aR 15. Haga lo que se pidió en el problema 14, pero para el problema ejemplo modificado del problema 13; para b), compare con la w óptima determinada experimentalmente en el problema 13.
D 16. a) Encuentre los eigenvalores de la matriz H, del problema 3 , y después determine la o que minimiza a p(H,). b) Compare la respuesta con la obtenida usando el teorema9.73 y con p(H,) = 0.5.
9.7
PROBLEMAS VARIOS PROBLEMAS 9.7
1. Demuestre que dos matricespX p no defectuosas son semejantes si y sólo si tienen el mismo polinomio característico.
D 2. Suponiendo que A es una matriz real 2 conjugados
a t
X
2 con eigenvalores complejos
Di, demuestre que existe una P real tal que P"AP
=
[-; :].
3. Demuestre considerando el siguiente ejemplo, que hay matrices no defec-
tuosas, con eigenvalores repetidos que no son normales A
=
[A
4 i].
438
9
/
con aplicaciones
Eigensisternas de matrices arbitrarias generales,
4. El problema 9 de la sección 9.2 muestra que si A y B son no defectuosas y AB = BA, entonces P"AP será diagonal en bloques siempre que P-lBP sea diagonal. Suponga que A es una matriz no defectuosa dada; si se puede encontrar una B que conmute con A cuyo eigensistema sea fácil de encontrar, entonces se podrá producir una P"AP sencilla a partir de la cual será posible encontrar fácilmente el eigensistema de A. Como un ejemplo sencillo, considere el sistema de resistencia y condensadores de la siguiente figura. Si q ies lacarga en el i-ésimocondensador, recordando que el voltaje a través de un condensador C que contiene una carga q es q/C y la corriente a través de éI es i = dq/dr, demuestre que las ecuaciones para el circuito, suponiendo que todas las R, = R y C i= C , son
." 4
3
Por la simetría, el circuito no se cambia si alcondensador 1 se le llama2 , al 2 se le llama 3, y el 3 es el l . Esto sugiere la prueba de la siguiente matriz de permutación para B. Los eigenvectores de B que dan las columnas de P se pueden encontrar fácilmente. Haciendo w = f(- 1 + para que w3 = 1 y w2 + w + 1 = O, se encuentra
ia),
9.7
Problemas varios
/
439
Se encontrará rápidamente queAB = BA, y entonces se podrá usar el método anterior. Esto da
o
-3
y entonces los eigenvalores de A son O , -3 y -3, y los eigenvectores son las columnas de P.
D 5. SupongaqueA,p x p , tiene un eigenvalor simple A, siendo [All = p(A), y que todos los otros eigenvalores A satisfacen IAl < p(A). Muestre cómousar los valores Aixo calculados con una x. inicial para obtener una aproximación a Al.
6. Dé los detalles para el siguiente esquema de una demostración de que
una notiene matriz n X n deMarkovconelementosestrictamentepositivos eigenvalores A con /Al = 1 además del eigenvalor simple A = 1: Si 1x1 = 1 y A es un eigenvalor de A, entonces sea x # O que satisface a xTA = AxT y máx{lx,I, 1x21,. . . > Ixnl} = lxiol = 1 para alguna io. De la ecuación i,-ésima de xTA = AxT deduzca que n
n
lxiol
que por 10 tanto para todaj. De
5
2
j= 1
ajiolxjl = l x i o l
+ jC ajio[lxjl = 1
-
/xio/I,
ajio[lxjl - / x i o l ]= O, y de aquí que lxjl = lxiol t
deduzcaque x 1 = . . . = x, de modo que x Partiendo de
klT
= ,ixT= A 'x
=
=
cl, l T
clTA
=
=
[l, . . . , 13.
cIT,
deduzca que A = l . Concluya que A = 1 es un eigenvalor simple yaque IIAilll Il . Esto demuestra el resultado. D 7. Suponga que A y B son p X p y que A y B conmutan: AB = BA. Demüestre que exp(A + B) = exp(A)exp(B)= exp(B)exp(A), y, muestre por medio de un ejemplo de matrices 2 x 2, que lo anterior no necesita ser válido si A y B no conmutan.
10 Formas cuadráticas y caracterizaciones variacionales de eigenvalores Este capítulo continúa el desarrollo de las propiedades delos eigensistemasconsiderandoalgunasdelaspropiedadesde sus valoresextremos relacionados con funciones cuadrAticas especiales; muchos de los resultados tienen un sabor netamente geom6trico. Los t e o r e m a s c l a v eson I O. 14, 10.18, 10.25, 10.28, y 10.32
,
10.1
INTRODUCCION
Después de las funciones constantes y de las funciones lineales (estudiadas ya exhaustivamente a través de las ecuacioneslineales y de las transformaciones lineales), siguen en nivel de complejidad las funciones cuadráticas. Tales funciones surgen en distintas áreasde aplicación, perolos métodos matriciales permiten un estudio unificado de sus propiedades; ala inversa, las funciones cuadráticas proporcionan puntos de vista importantes sobre conceptos matriciales, especialmente en lo que se refiere a los eigensistemas. Se estudiaránlas funciones cuadráticas especiales llamadasformascuadrúticas: (x, Ax)= xHAx,en donde A es una matrizp X p hermitiana, la variable x se corre RP o CP, y eselproductointeriorestándar en estosespacios. Ilustramos primero cómo surgen en forma matricial estas formas cuadráticas. (.,a)
(10.1)
440
Ejemplo. Endosdimensiones, las llamadas secciones cbnicas son las curvas más sencillas y juegan un papel fundamental en la geometría bidimensional. Clásicamente, se definió a la elipse (hipérbola) comoel lugar geométrico de los puntos tales que la suma (diferencia) de sus distanciasa dos puntos fijos, llamadosfocos, esigual a una constante a. La geometría
10.1
I
Introducci6n
441
analítica permite la descripción de estas curvas por medio de ecuaciones x:/16 = 1 -una elipse con focos en ( + 3 , O) y (I! = 10 tales como x:/25 constante- y x:/16 - xf/9 = 1 -una hipérbola con focos en (+5, O ) y (Y = 8 constante. También es posible describirlas vía formas cuadráticas: (x, Ax) = 1 con
+
para la elipse anterior, por ejemplo. En p dimensiones, la ecuación (x, Ax) = 1 para una A p X p , produce curvas análogas a las secciones cónicas y son fundamentales para la geometría de R P y de CP. (10.2)
Ejemplo. Muchas aplicaciones involucran optimizaciones: alcanzar alguna meta por el mejor (en cierto sentido) método. De este modo se busca minimizar los costos, minimizar el tiempo perdido, maximizar la eficiencia y así sucesivamente. Esto, matemáticamente,significa minimizar o maximizar alguna función Ax) de p variables x l , . . . , x, (escritas como las componentes dela matriz columna x). Si el valor extremo defse encuentra, por simplicidad, en x = O, entonces es posible tener una idea del comportamiento def para valores cercanos a x, con la serie de Taylor . ?
xp) = ( f ) o
+
+ i = 1 (&xi + i1 (&j)oxixj+ . . ., =l j=1 P
f(x,, . .
P
P
en donde
y (.)o indica la evaluación en O. En un punto extremo, desde luego, las local defse primeras derivadas& son cero y entonces el comportamiento describe, aproximadamente,por la forma cuadrática (x, Ax)en donde (A),t = (&)o. Esto generaliza la teoría cuandop = 1, en donde la naturaleza de los valores extremos -mínimo, máximo o punto de inflexión- se determinapor la segunda derivada de f.
(10.3)Ejemplo. En elestudiode la dinámica de los sistemas físicos, valores físicamente importantes como la energía cinética y la energía potencial, a menudo se aproximan por medio de formas cuadráticas (vía la serie de Taylor) a un estado de equilibrio del sistema. La teoría de vibraciones pequeñas alrededor del equilibrio en sistemas dinámicos de muchas coordenadas involucra, en consecuencia, formas cuadráticas.
(10.4)
Ejemplo. En el análisis estadístico de los datosdescritos por variables aleatorias xl, . . . ,x,, el valor esperadode xies el valor promedio de xt de
442
10
I
Formas cuadraticas y caracterizaclones varlacionales
de etgenvalores
un gran número de ensayos y se le llamaE ( x i ) .E es lineal porque E(a,x, + a , E ( x l ) + a,E(x,) para todas las constantes a i . Suponga que las variables aleatorias tienen promedios cero, detal modo que E ( x i ) = O para toda i. La varianza de x i se define como E($), y la varianza total V del i).La matriz S de conjunto de x i se define como V = E(.Y: + . . . + x covarianza es lamatrizpX p en donde( S ) , = sij = E(x,xj).De este modo, la varianza E(x;j es igual a ,yii para toda i, y la varianza total V es igual a a$,) =
S,,
+
' '
. + ,SPD.
A menudo es importante buscar en el análisis estadístico de datosalgún
conjunto pequeño de nuevas variables o factores que expliquen losresultados experimentales. Un método común es buscar una nueva variable y,
= UlX,
+
' ' '
+ upxp
cuyas variaciones reflejen en cierto sentido y tanto como sea posible las variaciones de las x i . Técnicamente,esto requiere que se escoja a = [ a , * . a,]' para que maximice la varianza E(y:) en y,, estando sujetaa la condición que llall, = 1. Como S = E(xxT)si x = [ x , . . . x,]' y y1 = aTx = xTa, se tiene que E(y:)
=
E(a7'xxTa)= aTSa.
Esto es, se busca a a para que maximice a (a, §a) estando sujeta a la condición (a, a) = l . De nuevo, las formas cuadráticas son el corazón del asunto. Habiendo visto algunos ejemplosde los distintos caminos por los que surgen las formas cuadráticas, será posible comenzar su estudio. Primero se verá el caso de dos variables, en el cual serán de gran ayuda laintuición y el sentido geométrico. PROBLEMAS 10.1
D 1. Escriba explícitamente en términos de x 1 y x , las formas cuadráticas generadas por
2. Grafique la elipse cuya ecuación es xfI2.5 3. Grafique la elipse cuya ecuación es x:/16
+ x:/i16 + x:/25
=
1.
=
1.
D 4. Encuentre una ecuación de la elipse que tiene focos en (O, +- 4) si la constante que representa la suma de las distancias es 10. Grafíquela. 5. Grafique la hipérbola cuya ecuación es x:í16 - x:/9 = 1.
10.2
Formas cuadrhticas en R2
/
6. Grafique la hipérbola cuya ecuación es x:/9
-
443
x:/16 = I .
D 7. Encuentre una ecuación de la hipérbola que tiene focos en
( 5 13, O) si la constante (Y que representa la diferencia de las distancias es 24. Grafíquela. 8. Encuentre la serie de Taylor con términos cuadráticos para exp(2x: - 4xl.x~+ 4.4) desarrollada en la vecindad del punto minimizante x1 = x2 = O .
10.2
FORMAS CUADRATICAS EN R2
Antes de explorar a profundidad las formas cuadráticas, es necesario explicar por qué surgen de modo natural las matrices hermitianas (o reales simétricas). Considere una cuadrática general en dos variables reales, Q = ax: + bx,x, + cx:, en donde a , 6 , y c son reales. Varias matrices A producen esta forma cuadrática como resultado de (x, Ax) = xTAx:
[:
3
[;
3
[b: 1
b +C l ] ,
Jh I]> 2
para citar unos pocos ejemplos. Sólo uno de ellos (el último) es simétrico real (por consiguiente hermitiano); ya que en el capítulo ocho se han desarrollado resultados tan poderosos para matrices hermitianas, se buscará tomar ventajade esto escogiendo una A hermitiana para generar la forma cuadrática. La pregunta ahora es cómo hacer uso del hecho de que la matriz
que define la forma cuadrática Q(x) = ( X , AX) = X ~ A = X ax:
+ bx,x, + cx:
es simétrica real (por lotanto hermitiana y por lo tanto normal). Por el corolario clave 8.9 y el teorema clave 8.6, hay una matriz ortogonal P y una matriz A real diagonal tales que PTAP= A; los elementos en la diagonal principal de A son los eigenvalores A, y A2 de A , mientras que las columnas v1 y v2 de P forman un conjunto ortonormal de eigenvectores asociados. Si se sustituye A = P U T en la definición de Q resulta Q(x)
=
xT(PAPT)x= ( P T ~ ) T A ( P T ~ ) .
444
10
/
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
Esto es,
Ax) = (t,A t ) = /2,5: + IL2t2, en donde
Q(x) = (x,
(10.5)
=
PTx.
La forma cuadrática Q toma una forma extremadamente sencilla en términos de las nuevas variables 5. Para que esto sea útil, es necesario contestar dos preguntas:
l . ¿Cuál será la naturaleza de la forma cuadrática enE? 2. ¿Cómo se puede convertirla información de la forma cuadráticaen 5 en información en la forma cuadráticaen x? Un artificio estándar para comprender una función de dos variables es examinar sus curvas de nivel. Las curvasCt que pasanpor todos aquellos puntos en los cuales la función es igual a t para varios valores de t . Esto se hace usualmente en los mapas del clima que muestran curvas de temperatura constante y con los mapas topográficos que muestran curvas de altitud constante; estas curvas permiten ver fácilmente las distribuciones de temperatura en un caso e identificar las colinas y otras características del terrenoen el otro caso. de todos aquellos Por lo tanto, primero se examinarán las curvas de nivel = t , endonde c(t) = + A&. Después, se puntos $. en los cuales demostrará cómo obtenerinformación sobre las curvas de nivel correspondientes C, para Q(x).
et
c(c)
Gráfkas en variables
c
La curva de nivel
et es la gráfica en un plano de coordenadas c1
(10.6)
&(c) = t, en donde o({)= Al O , h2 = O y t > O . Entonces (10.6) viene a ser = +(t/AJ1/2 -un par de
e,
446
10
/
Formas cuadrAticas y caracterlzaciones varlaclonales
de eigenvalores
e,
rectas paralelas al eje t 2 . se puede describir como el conjunto de todos los puntos cuya distancia a la recta 5, = O es igual a l(t/Xl)1’21. €2
Hay también algunos casos “excepcionales” -tales como el de A l > O, X2 > O, es vacío; véanse los problemas 2 y 3.
t < O en cuyo caso
(10.10)
e,
Ejemplo. La forma cuadrática Q(x) = 13x: por la matriz real simétrica
+ 66x,x, + 7x: está generada
Se encuentra que fácilmente los eigenvalores son X, eigenvectores ortonormales asociados
Con P = [vl v,], se obtiene PHAP Se tiene
=
=
16 y X,
=
4 con
A diagonal elementos 16 y 4.
10.2
La relación entre x y
/
Formas cuadraticas en R2
447
6 es
Ahora podrá resolver los problemas del 1 al 4 . Gráfkas en variables x
er
Ahora se convertirá la información detallada en (10.7-9) sobre curvasde nivel en variables 6, en información sobre las curvas de nivel Ct en variables x. Para dos variables, el método tradicional es considerar la transformación de x a 6 como una rotación elemental; sin embargo, esto no se generaliza satisfactoriamente para p variables. En lugar de esto, se tomará un punto de vista que se puede generalizar. El primer pasoes notar querestá en si y sólo si x = PC está en Ct (observe que se tiene el mismo valor t ) . 5 en Ctsignifica que t = AT), lo cual es igual a (x, Ax) de acuerdo a (10.5) y viceversa. En otras palabras,
et
(r,
El segundo paso es recordar el hecho crucial sobre matrices ortogonales: conservan la longitud -llY(t)112= llPrl12 = 11,f(I2 para toda C.
448
I
10
Formas cuadrtdicas y caracterizaciones variacionales de eigenvalores
Finalmente, observe que cada curva nivel de eten variables se definió en términos de longitudes y puntos: en (10.7), et era el conjunto de puntos = [tl (,IT la suma de cuyas distancias delos focos
e
TI = [ C
O]'
y
T,=[-C
O]'
es igual a 2A. Esto significa que C, es el conjunto de puntosx = Pe, la suma de cuyas distancias de P"fyPf,es igual a2A. Estoesjustamenteunaelipse; yaque la distancia 2C entre los focos y la suma 2A es la misma para etque para C, , las elipses son congruentes -Ct se podría haber sobrepuesto a y hubieran coincidido perfectamente. Por lo tanto es posible concluir que, en general,
e,
las curvas de nivel Cten variables x son congruentes conlas curvas denivel Et en variables 4 y por lo tanto son elipses, hipérbolas, rectasparalelas o alguno de los casos excepcionales. (Note que esto depende mucho del hecho de que P es unitaria; véase el problema 5.)
et
Otro modo generalizable para visualizar la transformación de a Ct por P es recordar que P se puede escribir como el producto de, cuando más, dos reflexiones elementales sobre una recta {(teorema clave 7.38 b)}. Si se visualiza una una rotación del planoen el reflexión en un plano con respecto a una recta como espacio tridimensional en 180" usando la recta dada como eje de rotación, entonces será fácil ver que esto transforma cualquier figura geométrica en una figura congruente con la original. De este modo, todatransformación ortogonal -como producto de tales reflexiones- se comporta de manera semejante. (10.11)
Ejemplo. Se encontró que las curvasde nivel elipses, y en particular que E,, tiene focos
TI
=
C]'
[O
y
r, = [O
e, del ejemplo 10.10 eran -cy,
siendo la suma de las distancias importantes igual a 2A, en donde A' = 16
y
C2 = A' - B2 = 16 - 4 = 12.
Por lo tanto los focos x para C, son
Y
10.2
I
Formas cuadrhticas en Iwz
449
y la suma de las distancias relevantesigual es a2A = 8. La gráfica de abajo es la de Cs4:(x, Ax) = 64.
I
PROBLEMAS 10.2 1. a) Demuestre que cada una de
las cuatro matrices al comienzo de esta sección genera la misma forma cuadrática en R2. b) Encuentre todas las matrices reales 2 x 2 A que generan la misma forma cuadrática en R2. c) Encuentre todas las matrices reales simétricas 2 X 2 que la generan. d) Encuentre todas las (posiblemente complejas) matrices hermitianas 2 X 2 A que la generan en Rz. D 2. Encuentre todas las condiciones para hi y f para las cuales las curvas de nivel de (10.6)son vacías. 3. Encuentre todas las condiciones para Xi y t paralas cuales las curvas de nivel 2, de (10.6)son sólo puntos. D 4. Para cada una delas formas cuadráticas en x siguientes, encuentre la forma sencilla (10.5) en 6 y grafique las curvas denivel para varias t para ver la forma en que varía ZI, conforme varia t :
cr
cr
a) x: + 4X1X2 - 2x; c) 2x: + 4x,x2 + 4x2, e) llx: + 2x,x2 + 3x;
b) x: + 12x1x2+ 4x; d) -5~: - 8xIx2 - 5x2,
D 5. Considere el círculo en 6 dado por
,Y
471
o({)
PHAP= A = diag(Al, . . . , Ap),
P = [Y1 . .
v,]
unitaria, PC= x,
y
5 = pHx.
Ya queP es unitaria, lacondición ( c i , x) = O es equivalente ala condición (Ei,r) = O con ti= PHci. a) La demostración sigue a la que condujo a (10.30) para ApPl.Para cualquier conjunto E , , . . . ,Sr, denotemos f i C al conjunto de todas las [ que satisfacen a (Ei,5) = O para 1 5 i Ir y denotemos M ( c ) al máximo de las ph(C) conforme 5 varía en a,,donde las ti = PHci son fijas. Quedaría demostrado si se puede demostrar que el mínimode M ( c ) de entre todas las elecciones posibles de las Zi = PHci es igual a Ap-,.. Primero se ya que M ( c ) es el múximo de p,( O, tal que B = (PD)(PD)H= PD2PH
y
Q"BQ
=
I,
en donde Q = PD". b) Demuestre que existe una matriz R unitaria tal que RH(QHAQ)R= A diagonal.
c) Sea S = QR; demuestre que SHAS= A mientrasque
SHBS = I,
que era lo que se deseaba. 4. En el problema 3 , sea S = [sl . . . sp]
y
A = diag(ll,, . . . , Ap).
Demuestre queXi y si resuelven el problema del eigenvalor generalizado Asi = X$S~.
5. Como en el problema 3, reduzca simultáneamente a A y B a una forma
diagonal, siendo
D 6. Suponga que A es p x p , hermitiana y positiva definida y que B es p
X q. a) Demuestre que A' = BHAB es positiva semidefinida. b) Demuestre queA' es positivadefinida si y sólo si el rango de B es igual a q . 7. Demuestre que toda submatrizprincipal de una matriz hermitiana positiva definida es hermitiana y positiva definida.
476
10
I
Formas cuadrAticas y caracterizaciones variacionales de eigenvalores
O 8. Suponga que A, B y C sonp X p , hermitianas y positivas definidas. Demuestre que si det (A
+ AB + A2C)= O,
entonces la parte real de A es negativa.
D 9. Suponga que A y B son p
X p y hermitianas, y que B es positiva definida. Demuestre que los eigenvalores de BA son reales. D 10. Suponga que B y C son p X p y hermitianas, que B es positiva definida y que C es positiva semidefinida. Demuestre que: a) B + C es positiva definida. b) det B 5 det(B + C). c) B-' - (B + C)-l es positiva semidefinida. 11. Encuentre una forma cuadrática diagonal Q(t)= Q(x) para cada una de las siguientes formas cuadráticas Q ( x ) y haga un esquema delas superficies de = 1. nivel
a) 5xT b) 3x; C)
X:
+ 6x2 + 7x:
-
4x1x2 - 4X2X3
+ 2x2 + 2x: + 2x,x, + 4x,x3 + 2x3x, + X: + X: + 4XlX2 + 4X2X3 + 4X3Xl
D 12. a) Si A es p x p , hermitiana y positiva definida, demuestre que det A 5 a11a22. . . a,,, en donde aii = ( A ) i i . b) Si B es p X p con (B),
=
b,, demuestre que
A esto se le conoce comola desigualdad de Hadamard. El valor absoluto del determinante de una matriz se puede interpretar como el volumen, en el espacio dep dimensiones, de sólido cuyas aristas sedescriben por los vectores renglón que forman los renglones de la matriz. Entonces, la desigualdad de Hadamard dice que estevolumen es menor, o igual al del sólido rectangular en p dimensiones cuyos lados tienen las mismas longitudes. Compruebe esto parap = 2, 3, mediante sus conocimientos de la geometría de paralelogramos y paralelepípedos en dos y tres dimensiones. ¿Bajo qué condiciones se alcanza la igualdad en la desigualdad de Hadamard? Dé una demostración independiente de la igualdad en este caso. Demuestre que si b = máx Ibul, entonces
ldet B1 I hpppi2. 13. Demuestre que x(t) tiende a cero cuandot tiende a más infinito si x = Ax y A es negativa definida.
10.6
I Problemas varios
477
D 14. Se dice que A es idempotente si A2 = A. Demuestre que: a) Todo eigenvalor de una matriz idempotente es o O o 1. b) La única matriz idempotente no singular es la matriz idéntica. una matriz hermitiana p x c) Una condición necesaria y suficiente para que p , sea idempotente, es que k de sus eigenvalores sean iguales a 1,y que los restantes p - k sean cero, en donde k es el rango de la matriz. d) La traza deuna matriz hermitiana idempotente es igual a su rango. 15. Suponga que se representann mediciones por un vector x = [x1, . . . , x,IT. El promedio y la varianza de las mediciones están dados por
Demuestre que S'
16.
D 17.
D 18.
19.
= (x, (I -
n- J}x),
en donde J es una matriz cuadrada con todos sus elementos iguales a 1, y demuestre que I - n"J es idempotente (véaseel problema 14). (La aplicación de matrices idempotentes aparece en estadísticay en teoría de regresión.) Extienda el teorema 10.19 b) sobre definición y eliminación demostrando que, para una matriz real simétrica, los números de pivotes positivos, negativos y cero, sonigualesalosnúmerosdeeigenvalorespositivos, negativos y cero. Demuestre que: a) Si A es hermitiana y positiva definida, entonces hay una B hermitiana y positiva definida tal que B2 = A. b) Si A es hermitiana y positiva semidefinida, entonces hay una matriz B hermitiana y positiva semidefinida tal que Bz = A. c) B es única tanto en a) como en b). Demuestre que: a) {exp(B)}H= exp(BH). b) exp(c'A) es unitaria si A es hermitiana. c) Si U es unitaria, entonces existeuna A hermitiana tal que U = exp(iA). d) Si A es cuadrada, entonces existen unas matrices hermitianas M y N positivas semidefinidas y unas U y V unitarias tales que A = UM = NV. {Se conoce a la parte d) como la representacibn polarde A por analogía con a = r exp(i0) para cada número complejo a. M y N son únicas; si A es no singular, entonces U = V y esta matriz también es única.} Suponga que A p X p , es hermitiana, que Bes la matriz real formada de las partes reales de los elementos de A, y que ;C es la matriz imaginaria pura formada con las partes imaginarias de los elementos deA -esto es,A = B + ;C. Definiendo a la matriz a2 2p X 2 p , como
478
IO
I
Formas cuadraticas
y caracterizaciones variacionales
de eigenvalores
a) Demuestre que d es simétrica real. b) Demuestre que la forma cuadrática generada por A en CP y la forma cuadrática generadapor d e n RZpson equivalentesen el sentido de que, estando u y v en W, ({U
+ i ~ A{u } , + i v ) ) = (X, d
~ ) si
X
= [U'
vTIT.
c) Describa cómo se podría usar esto para encontrar los eigenvalores y eigenvectores dela matriz compleja hermitiana A sin hacer cálculoscon números complejos. 20. El principio de Rayleigh se enuncia para matrices A hermitianas. a) Demuestre que es falso si a # O en la matriz no hermitiana.
b) Aunque son idénticas sus formas cuadráticasen R2,demuestre que A y (A + AT)/2 no tienen los mismos eigenvalores. 21. Suponga que A y B son hermitianas y que B es positiva definida. Sedefine a BPA(X) =
(x, Ax) ~
(x, Bx)'
Extienda el principio de Rayleigh para que seaplique a estageneralización del cociente de Rayleigh, en donde ahora los eigenvalores caracterizados son eigenvalores generalizadosXi siendo Avi = XiBvi (véanse los problemas 3 Y 4). 22. Suponga que A es hermitiana; demuestre que la norma 2 de A es igual al radio espectral de A.
Programación lineal
En este capítulo se aplican Btodos m matriciales a la solucidn de programas lineales, una de las mayores Breas en donde las matrices se usan tantoen los negocios como en la ciencia y la ingeniería. Se presenta informacidn sobre teoría y mBtodos, incluyendo el famoso mBtodo simplex ysu reciente variantedeKarmarkar. Son fundamentales los teoremas clave 11.37, I 1 .44, 1 I .50 y 1 1.53.
11.1
ANALISIS DE UN EJEMPLO SENCILLO
En una amplia variedad de operaciones económicas, políticas, sociales y científicas, se originan situaciones en las cuales uno quiere minimizar o maximizar alguna cantidad que mida la eficiencia o algún otro aspecto importante de una actividad, producción, costo,ganancia y similares. Muchos de los problemas de optimización de este tipo se llaman problemas de programación matemúticao programasmaremúticos. Este capítulo examina una subclase especial pero importante deprogramas matemáticos que sólo involucran ecuaciones lineales y desigualdades; la sección comienza con un problema modelo de la sección 2.7.
Un problema modelo Recuerde el modelode planeación de producción de la sección 2.7 y su problema sobre la distribución de los recursos de una planta (tiempo disponible limitado para tres tipos demáquinas) entre dos productos para maximizar las utilidades. El análisis produjo un programa lineal (2.54), (2.55): (11.1)
maximizar M
= 40x,
+ 60x,
sujeta a las restricciones 2x,
+
x2 5 70 479
480
11
I Programaci6n lineal x1
+
x2
I 40
x1 + 3x2 I 90 2 0
X1
x2
2
o.
Esto se reescribió en notación matricial como (2.56), (2.57) y (2.58): (11.2)
maximizar a M = cTx sujeto a las restricciones Ax
S
b, x
2
O, en donde
La solución óptima x = [15 25IT se obtuvo geométricamente en (2.59) al examinar el conjunto de restricciones (aquellas x que satisfacen las restricciones) y al observar queel problema era el encontrar el valor mayorde M para el cual la gráfica de la línea recta cTx = M intersectaba al conjunto de restricciones.
t
(11.3) 40x1
+ 60x2 = 2400
40x1 + 60x2 = I200
40x1 + 60x2 = O
o, B, 9, y Y son vértices relevantes para el método simplex; %” aparece en el método de Karmarkar. 1 2 ,
Geométricamente, es evidente que las soluciones siempre estarán en 10s vértices del conjunto de restri&iones sin importar el valor de C: el últimoPunto en el cual la gráfica de cTx = M se intersecta con el conjunto de restricciones
11.1
I AnBlisis de un ejemplo sencillo
481
siempre será un vértice. De este modo, un método posible parala resolución de programas lineales es simplemente evaluar a cTx en cada uno de los vértices, sabiendo quelos vértices que danlos valores más grandes proporcionaran una solucidn. Pero de estoresultan cuandomenos dos problemas: 1) puede suceder que cTx se haga arbitrariamente grande y siga satisfaciendo las restricciones, de modo que no se pueda detectar una solución; y 2) cuando segeneraliza a partir de dos variables hasta q , el número devértices crece rápidamentecon elnúmero de variables y de restricciones, resultando demasiado caro computacionalmente el examen extenso de los vértices. El famoso método simplex* usa la idea básica de examinar los vértices pero trata las dos dificultades anteriores mediante l), la implementación de un método garantizado para detectar la falta de cotas, y 2), al evitar el examen de vértices con valores de cTx menores que los que ya sehan encontrado. De este modo, mientras que el método aleatorio anterior probaría a los todos cinco vértices O, Y, 9,8,y 9 en (11.3),el método simplex, comenzando en O ,examinaría a O, 9,y 8 en orden, o a O, 9, 9, y 8 en orden antes de detectar que B es la y 8. solución; de hecho, usa el primer camino, O, 9, Durante aproximadamente 40 años, el método simplex fue, sin duda, el método a escoger para resolver programas lineales. Esto cambió dramáticamente a mediados de los ochentas con la sorprendenteinvención del método de Karmarkar y otros métodos interiores que se derivaron deél. Al tiempo de esta publicación, se ha dicho que ciertas ejecuciones cuidadosas del método de Karmarkar y de sus métodos derivados son varias veces más rápidas que el método simplex en cuanto a clases especiales de problemas altamente estructurudos. En todo el mundo se está realizando la investigación sobre esos métodos interiores asícomo la prueba de sus implementaciones; lo que se aprendade este trabajo puede cambiar totalmente este capítulo parapróxima la edición. Por lo pronto, sólo se intentará indicar lo que involucran los nuevos métodos. La diferencia básica con lo que hasta ahora se ha descrito es que los métodos interiores no consideran simplemente a los vértices si se mueven de uno a otro a lo largo de las aristas; en vezde ello, semueven a travésdel interior del conjunto de restricciones como se ilustrará después en esta sección. lntroduccidn de variables de holgura
Antes de mostrar el método simplex y los métodos interiores, se transformará al programa lineal en unaforma más accesible parasu solución mediante métodos matriciales. La mayor parte de lo que se ha tratado en este libro involucra igualdades más que desigualdades del tipo de(1 1.2);las poderosas herramientas computacionales -operaciones de renglón, eliminación, sustituciones y otras se reformuafines- se han desarrollado paralas ecuaciones. Para aprovecharlas, lará elprograma lineal (1 1.2) de tal modo que aparezcan igualdades con excepción de las desigualdades extremadamentesencillas x 2 O. *También llamado “de Dantzig”, N. del T.
482
11
I
Programaci6n lineal
AI introducir variables de holgurano negativas x 3 , x 4 , en x 5las primeras tres desigualdades de ( 1 l . I), se llega a maximizar M = 40x1 + 60x,
(1 1.4)
sujeta a las restricciones 2x1
+
x2
+xj
x1 + x2
=
+ x4
+ 3x2
X1
70
= 40
+ x5 = 90 ( j = 1,2, . . . )5).
xj20
El hecho de que x 3 , x4 y x 5 sean no negativas hace que (1 1.4) sea equivalente a (1 l . 1). En notación matricial, las matrices A, x y c se extienden para dar cabida a cinco xi: (1 1.5)
maximizar M = c,Tx, sujeta a las restricciones Aexe = b, x, A,= x,
I 2 1 1
= [XI
2 O,
1 1 3 x2
en donde
1
0 O 0
x3
x4
0
O 1
1 0
%IT>
y
b = [70 40
90IT.
Los vértices 0, Y, 9,. 9,y B;son puntos importantes en la formulación original; estos puntossiguen siendo importantesy se identifican fácilmente en la nueva disposición. Los valores x i para cada punto son:
O:O, O, 9: 10, 30, 3: O,
70, O,
30, 40,
40,
90
Y: 35, O,
O,
30
9:15, 25, 15,
O, 555, O. O,
10, O
Observe que cada vkrtice corresponde a una x , quetiene exactamente dos elementos cero y exactamente tres elementos diferentes de cero. Las variables diferentes de cero en esa solución se llaman variables búsicas,las variables cero se llaman variables no búsicas, y a la misma solución x, se le llama unasolución bcisica. Las soluciones a Aexe = b que también satisfacen x, 2 O se llaman ,factibles. Como los vértices corresponden a soluciones básicas factibles, el método simplex se moverá deuna solución básica factible a otra solución básica factible, porque se espera que se dé una solución óptima como una solución básica factible (esto es, un vértice).
I Analisis de un ejemplo sencillo
11.1
483
EL método simplex
El método simplex se mueve de vértice a vértice y por lo tanto deberá comenzar en un vértice, esto es, una solución básica factible. Una de esas soluciones básicas factibles -que corresponde a CO en (1 1.3)- es evidente de (1 1.4): x1 = O,
(1 1.6)
x2 = O ,
x3 = 70,
X,
= 40,
X,
= 90.
Esta se localiza fácilmente porque tanto x3 como y x5 (las x4 variables diferentes sólo en una ecuación y por ello se obtiene de ceroy por lo tanto básicas) aparecen y por lo tanto no básicas) se fácilmente su valor cuando x, y x, (las variables cero igualan a cero. Observe que M = 40x, + 60x2está definida solamente en términos de variables no básicas. Ahora ya es posible moverse hacia otro vértice conun mayor valor para M . Como el valor de M cambia, se trataráMacomo una variable y las ecuaciones de (1 1.4) se reescribirán como
+ OM + OM +
+ lx, + 1x1 +
OM
(11.7)
2x,
1M - 40x,
+ lx, = 70. lx, + + lx, = 40 3x2 + + lx, = 90 lx,
- 6Ox,
=
o.
Como de costumbre, es conveniente el describir las ecuaciones mediante una matriz aumentada: 2 1
(11.8)
1
1
1
: 1
O O O
3 -60
-40
Oi70
O 1 O O
O140
01 O
Ya que x, = x, = O, en este punto M = O . Para aumentar M = 4Ox, + 60x2,es posible hacer ax, o ax, (o aambas) positivas; el método simplex siempre cambia a porque al aumentarla en una unidad, M una variable a lavez, y se escogerá x,, aumenta en60 en comparación de 40 que aumentaríacon el mismo cambio enxl. AI mantener ax1 = O, pero cambiando x,, a se necesita cambiarax3,x4y x5 para satisfacer a (1 1.7): = 70
-~
2 ,
X,
= 40
-~
2
,
y
X, = 90
- 3x2.
Ya que es necesarioquexi 2 O, la primeraecuación anterior necesitainmediatamente que x, 5 70, la segunda, que x, 5 40 y la tercera, que x, I30. Para satisfacer las tres restricciones, es necesario que x, se incremente sólo hasta la cota menor 30; esto resulta en que (1 1.9)
x, = O ,
X, =
30,
X,
=40,
X,=
10, x5 = O ,
con M = 1800
484
11
I Programacibn lineal
como una nueva sofucibn búsicafuctible. Observe queeste punto correspandea W en (11.3). El siguiente paso es repetir el proceso que se acaba de completar. Recuerde que se cumplieron dos condiciones útiles al comenzar con (1 1.7) y (1 1.8): 1) cada variable básica (diferente de cero)sólo aparecía en una ecuación -cada variable básica sólo tiene un elemento diferente de cero en su columna en (11.8); y 2) M se expresa solamente en términos de las variables no básicas (cero)” aparecen ceros en las columnas de variables básicas en el último renglón de (11.8). Estas dos condiciones se unen: (1 l . 10)
Toda variable básica tiene sólo un elemento diferente de cero enla columna que le corresponde en la matriz aumentada y esa variable no está en el renglón inferior.
Ya que ahora las variablesbásicas son xz,x3y x*, el formato estándar descrito por (11.10) ya no será válido para la matriz aumentada (1 1.8)-la columna de x2 viola lo dicho en (1 l . 10). Esto sepuede enmendar conla eliminación de Gauss-Jordan: usando el tercer renglón (para no perturbarlos ceros en las columnas de x3 y x4) para eliminar tanto arriba como abajo en la columna de xz,así (11.8) se transforma en (11.11)
o
5
1 -20
o
1
o
-1’
O
O
O
20
I
1800
Esta matriz tiene la forma de (1 l . 10) para las columnas de xz,x3 y x,; observe también que elrenglón inferiordice que M - 20x1+ 20x, = 1800,en donde x, = x, = O son las variables no básicas. Nuevamente, es posible llegar a otra solución básica factible con un valor aumentado de M . Como ahora M = 1800 + 20x1 - 20x, y xi 2 O, M se puede incrementar aumentando ax, para que seapositivo y manteniendo ax, = O. Esto, desde luego, obliga a que se hagan cambios en las variables básicas:
x3 = 40 - 3x1,
x4 =
10 - #x1, x2 = 30 - +X,.
El mantener a xi 2 O requiere que x, no sea mayor que 24, 15 y 90 respectivamente; por lo tanto es posible incrementarla solamente a 15, la menorde las tres. Esto da una nueva solución básica factible: (11.12)
x1 = 15. x2 = 25, x3 = 15, x4 = O ,
x5 = O ,
con M
= 2100.
Observe que este punto corresponde a 9 en (11.3). Como las variables básicas son ahora x , , xz y x3, (11.11) ya no está-en la forma estándar (1 l . 10). Usando
11.1
/
Analisis de un ejemplo sencillo
485
el segundo renglón (para no perturbar los cerosen las columnas dext y x,) para eliminar arriba y abajo en la columna dex l , se produce (11.13)
Esta matriz tiene la forma (1 1 .lo) para las columnas de x l , x2 y x,; observe también que el último renglón dice que
M
+ 30x4 + 10x5 = 2100,
en donde x4 = x5 = O son las variables no básicas. Es posible pasar a otra solución básica factible. Sin embargo, de M
= 2100 - 30x4 -
10x5
se ve que si x4o x5aumentan, M disminuirá; en el método simplex ésta esla señal de que se ha encontrado ya una solución óptima. En verdad,. x 1 = 15, x2 = 25,
y
M
= 2100
es la solución óptima que se encontró gráficamente El método simplex, ejecutxio con matrices aumentadas, es conceptualmente sencillo: (1 1.14)
Comenzando con una matriz aumentada de la forma (1 l . 10): l . Determinar la variable no básica (cero) que se va a aumentar. 2. Determinar cuánto se puede aumentar, y hacerlo. 3 . Identificar las nuevas variables básicas y no básicas. 4. Usar la eliminación de Gauss-Jordan para poner la matriz aumentadaen la forma(1 1.10)con respectoalas nuevas variablesbásicas y no básicas.
una solución óptima (después El proceso(1 l . 14) se repite hasta que se encuentre se dirámás sobre esto).De hecho, ¡os pasos anteriores son bastantemecánicos: (1 l . 15)
Comenzando con una matriz aumentada en la forma (1 l . 10): 1. Incrementar lavariable no básica que correspondaal término negativo con mayor valor absoluto en el último renglón. 2. Dividir loselementos del lado derecho entrelos elementos positivos de la columna de la variable no básica que aumenta, y aumentarla en el menor de esos cocientes. 3. Las variables básicasson las variables diferentes de cero, mientras que las variables no básicas serán las variables cero. 4. Usar laeliminación de Gauss-Jordan para escribir la matriz aumentada en la forma (1 1.10) con respecto a las nuevas variables básicas y no básicas.
486
11
/
Programaci6n lineal
Observe también que la primera columna de la matriz aumentada no tuvo importancia principal en los cálculos; solamente sirvió para permitir interpretar la relación entre M y las variables x i . Siempre que se recuerde la forma de interpretar el rengl6n inferior, será posible omitir la primera columna de las matrices aumentadas (1 1.8), (1 l. 11) y (1 l. 13).
Ahora podrá resolver los problemas del 1 al 5.
Gradiéntes proyectados: un método interior
Una idea clave en los métodos interioresen general y en los métodos afinesal de Karmarkar en particular, es elevitar la restricción del movimiento a lo largo de los bordes del conjunto de restricciones. Suponga que sehan introducido variables de holgura paraescribir el problemaen la forma (1 1 S ) . Suponga también que la solución aproximada en este momento es x, y que se están considerando direcciones para un posible desplazamiento partiendo de x,. Se buscará aquella dirección que dé el aumento más rápido en la función a maximizar. Como las derivadas miden la rapidez del cambio, se buscará aquella dirección n (esto es, un vector unitario n ) que parta de x, en la cual -si se está maximizando una función Ax,)- la derivada de f en la dirección de n sea mayor. En este caso, la función que se está maximizando es Ax,) = (ce, x,). La derivada es justamente la derivada de A x + m) en t = O ; entonces f(xe + tn) = f(Xe)
+ t(ce, n),
de modo que esta derivada direccional es simplemente (c,, n ) . Así, el problema de escoger una dirección se transforma en: encontrar un vector unitario n -tal que (n, n) = 1- que maximice a (c,, n ) . Recordando que
en donde 8 es el ánguloentre c, y n, se ve que (c,, n) se maximiza con8 = O -esto es, con n en la dirección de c,. En el análisisanterior sepasó por alto un aspecto importante del problema: las restricciones A p e = b. No hay garantía alguna de que x, + tn satisface las restricciones a menos que se fuerce esta condición para n, es decir: b = A,(xe + tn) = Aex, + tAn = b + tAn. Por lo tanto, se deberestringir la dirección npara que quede enel espacio nulo N de A,: A,n = O.
11.1
I
Analisis de un ejemplo sencillo
487
Nuevamente, se tratará de maximizar a (c,, n) pero ahora con n restringida al A,n = O. Sea Pola proyección ortogonal subespacio N de vectores que satisfacen sobre este subespacio comoen la sección5.8; recuerde quec, - P,$, es, por lo tanto, ortogonal a todos los vectores en N . Escribiendo
se demuestra que se debe escoger na de longitud 1 en N para que maximice a (Pot,, n), en donde el mismo P&, está e n N . Por lo tanto, la solución es que n sea un vector unitario en la dirección de Pot,. En resumen: (1 1.16)
El vector unitario n en la dirección del aumento más rápido de (c,, x), restringido por A,n = O para que se satisfagan todas las limitantes, está dado por la dirección de la proyección ortogonal dec, sobre el conjunto de las n que satisfacen A,n = O. A esta dirección se lellama el gradiente proyectado; véase el problema 8. u
V
Encontrar estadirección n en la práctica,no es el formidable problema que podría parecer a primera vista. Recuerde el corolario clave 8.20 c) de la sección 8.4 sobre las descomposiciones en valores singulares de matrices:si A, = UXVH es una descomposición en valores singulares de la matriz A, p x q , de rango k , entonces las últimas q - k columnas de V forman una base ortonormal para el espacio de las n que satisfacen a A,n = O. Si se forma a
v o = [Vk+l
. ’ . v,]
partiendo de esas columnas, la matriz q ortogonal: Pot, = VoVfc,
X
q , VoVt efectúa esta proyección
(véaseteorema 5.79)
Hay otras formas de calcular a Pot,, pero ésta es una de las mejores (cuando y pocas restricciones) debido a la menos en este caso con pocas variables disponibilidad de buenos programas de cómputo para encontrar a V. En el caso específico del programa lineal muestra ( 1 1.4) y ( 1 1 S ) , se debe calcular la proyección ortogonal de c,
=
[40 60 O O O]’
MATLAB produjo la dirección.
sobre M .
488
11
/
Programaci6n lineal
25-8.75 3.75 [2.5(11.17)
- 13.75IT
para desplazarse desde el vector factible inicial [O O 70 4090IT. consideran los vectores x, de la forma
x, = [o
o
70 40 901'
+ tp.5
3.75 -8.75 -6.25
Así, se
- 13.751~,
los cuales satisfacen a A J ~= b para cualquier valor de t . Sin embargo, también es necesario que x, 2 O , por lo tanto t no puede ser mayor que 70/8.75,40/6.25 o que 90/13.75 -el menor de los cuales es 6.4. Usando este valor para t , se obtiene una nueva x, igual a
[ N 14 24
o
21~.
En resumen: se comienza con el mismo punto factible inicial que en el método simplex: (11.18)
x1 = O ,
x2 = O ,
x3 = 70,
x4 = 40,
x5 =90,
con
M =O
y en un paso ha habido un desplazamiento a travésdel interior del conjunto de restricciones para alcanzar a
(11.19)
x 1 = 16,
x2 = 24,
x3 =
14,
x4 = O,
x5 = 2,
con
M = 2080;
esto está bastante cerca de x1 = 15, x, = 25 con M = 2100 -la solución óptima. Observe que no se llegó a un vértice del conjunto de restricciones; este nuevo punto corresponde al marcado con % en (1 1.3). La discusión anterior indica algo del atractivo de los métodos interiores en general, y de este método del gradiente proyectado en particular, pero no contempla una dificultad: i no es posible repetir el proceso tal y como sedescribió y alejarse de (1 1.19)!¿Por qué?Debido a la elección de la dirección n en lacualel desplazamiento no dependió de la x, desde la que parte el movimiento; n simplemente está definida por c, y el espacio nulo .N, y ninguno de los dos cambia. Así, si se aplicará nuevamente el método en (1 1.19), se volvería a encontrar ladirección (1 l . 17)y se descubriría que no es posible aumentar a M en esa dirección; se detendrá en (1 1.19), que no es lo óptimo. La idea básica del método del gradiente proyectado que se describió se ha conocido duranteaños; aunque sehan encontrado formas para evitar el fracaso del método, ninguno ha podido competir con el método simplex. Lacontribución de Karmarkarfue el encontrar un método poderoso para rodearla dificultad, el cual bien puede competir con el método simplex. Un método
afín
al de Karmarkar
El enfoque de Karmarkar se puede considerar como uno que transforma el
I
11.1
Analisis de un ejemplo sencillo
489
programalineal después de cada paso para tenerun nuevo problema para el cual la dirección del gradiente proyectado es distinta la deque había enel problema original. Se han usado varias transformaciones ingeniosas y los investigadores las están estudiando en lo que serefiere a su impacto. Aquí se describirásólo una de las ideas: el reescalado. Suponga que cadavariable se reescala -esto es, sereemplaza porun múltiplo positivo de s í misma: x: = x i / d i .En notación matricial, estoes x: = D- 'x, o x, = DX:, en donde D = diag(d,, . . . ,d5)en este caso. En las nuevas variables x:, las restricciones vienen a ser b = A,x, = A,Dxb
y
O
X,
= DX:;
la función a maximizar es C,X, T = c,TDx: = (Dc,)~x:.
Entonces, el problema reescalado (11.5) es ahora (11.20)
maximizar (Dc,)~x; sujeto a las restricciones (A,D)x:
= b,
X:
2 O.
Si se usala idea del gradiente proyectado, es necesario encontrar la proyección ortogonal deDc, sobre el espacionulo de AD; una vez que encontradaesta dirección n', nos moveremos a una nueva x: + tn'. Como x, = DX:, esto corresponde a un desplazamiento a una nueva x, + tDn'. Así, (1 1.21)
El reescalamiento de x, = DX: tiene el siguiente efecto -la nueva dirección del movimiento desde x, es n = Dn', en donde n' tiene la dirección de la proyección ortogonal Po(Dc,) de Dc, sobre el espacio nulo de A,D.
Esto se puede interpretar de otro modo. Recuerde del teorema5.73 sobrela sobre Yoes el puntomás mejor aproximación, que la proyección ortogonalv de cercano av en Yo.Así, Po@c,) es el punto más cercano aDc, en el espacio nulo de A,D. Ahora, que v' esté en el espacio nulo de A,D significa que
O = (A,D)v' = A,(Dv') = A,v, entonces v = Dv' está en el espacio nulo de A,. Esto quiere decir quePo(Dc,)es igual a D-'v en donde v minimiza a (Dc, - D"v, Dc, - D"v) sobre v recorriendo el espacio nulo de A,. Y es en esta dirección v-o, más bien, n = v/llvllz-en la cual se moverán las variables x,. La expresión de arriba se reescribe como (D"{DZc, - v}, D"{D2c, - v})
490
11
I Programacibn lineal
y se introduce un nuevo producto interior (U, W ) = (D"u,
( . , .) definido por D"w);
entonces v minimiza a (D2c, - v, D'c,
-
v).
Esto es, la dirección del movimiento desde x, es la más cercana a D2c,, medida con este nuevo producto interior. D2c, tiene una interpretación sencilla:la función a maximizar en el programa lineal es igual a
CFX,= ( c ~X,), = (D2ce, X,). Es decir, que DZc,está en la dirección de aumento más rápido cuando se usa el nuevo producto interior. Resumiendo (1 1.22)
Reescalando mediante x, = Dx; tiene el siguiente efecto -la nueva dirección de movimiento a partir de x, es la dirección del gradiente proyectado con respecto al nuevo producto interior no estándar (U, W )
= (D"u, D"w) = u ~ D - ~ w .
Esto es,el reescalado sencillamente introduce una nueva forma de medir longitud y ángulo al encontrar la dirección del gradiente proyectado. Nada de lo dicho anteriormente explica la forma de escoger a D. Una de las ideas de Karmarkares que el estar en la orilla del conjunto de restricciones causa dificultades, de modo que uno nunca se debe mover en una dirección particular a lo largo del camino hacia la orilla, y las variables se deberían reescalar de tal manera quela aproximación x; esté, en cierto sentido, centradaen el conjunto de restricciones. La efectividad de los métodos afines al de Karmarkar depende fuertemente de la manera precisa de diseñar e implementar ese escalado y otras transformaciones. La investigación y experimentación indican que la solución adecuada de estas sutilezas permite aplicar el método, no sólo con rapidez para llegar cerca dela solución óptima, sino también para identificar rápidamente las variables básicas para una solución óptima para después llegar directamente a ella. Los detalles para la realización de esto se investigan y se debaten intensamente por el momento, y están más allá del propósito de este libro.
Ahora podrá resolver los problemas del 1 al 11. Dualidad
Recuerde que (1 l . 1) sirve de ejemplo para ilustrar algunos conceptos generales
11 . I
I
AnAlisis de un ejemplo sencillo
491
de programación lineal. A continuación se ilustrará elimportante concepto de la dualidad, presentándolo desde dos distintos puntos de vista. Primero se examinará la idea en el marco de la aplicación de la que derivó (1l . 1). Recuerde que el problema es determinarlos números x1 y x2de dostipos de productos para fabricarlos a modo de maximizar las utilidades, dado que la ganancia por unidad del primer producto es de40, y de 60 por unidad del segundo producto; las restricciones reflejan el hecho de que las máquinas que se usan en la fabricación sólo tienen 70,40 y 90 horas disponibles, y que una unidad decada producto necesita cierto lapso del tiempo de cada máquina. Véase la sección 2.7 y especialmente (2.53). Suponga queotra división (digamos la división 2) de la compañía quiera usar esas mismas máquinas para fabricar otros productos;la división 2 quiere saber cuánto le deberia pagar a la división 1 por hora de cada máquina para que la división 1 pusiera la máquina a disposición de la división 2, y desde luego que la división 2 desea que esto sehaga de la manera más económica posible. Modelamos matemáticamente esto haciendo que yl, y2 y y, sean los (hasta ahora desconocidos) precios que la división 2 pagará por hora del tiempo de cada uno de los tres tipos de máquinas. El pago total a la división 1, que la división 2 quiere minimizar, será entoncesm = 70y1 + 40y2 + 90y3. Para quela división 1 esté de acuerdo con el trato, debería obtener la misma ganancia haciendo el trato que usando las máquinas. Cuando ladivisión 1 se reducea no hacer una unidadde su primer producto, perderá$40 de sus utilidades;sin embargo, libera 2 , l y 1 hora respectivamente a sus tres máquinas, por lo cual recibirá 2y1 + ly, + ly, de la división 2. De este modo el intercambio le convendrá a la división 1 en lo referente al primer producto siempre que la ganancia sea mayor que su pérdida: 2y1 + y2 + y3 2 40. Al analizar de igual modoel segundo producto seobtiene y , + y2+ 3y32 60. Entonces elproblema para la división 2 es el determinar los precios Y 1 9 Y2 Y Y3 Para (11.23)
minimizar m = 70y, + 40y2 + 9Oy3 sujeto a las restricciones 2Yl Y, y,
+ Y, + Y3 2 40 + Y, + 3Y3 2 60 2 o, y, 2 o,
y3 2 o.
Este programa lineal (11.23) se llama el dual de (1 l . 1). En notación matricial, e s sorprendente su relación con ( 1 1.2): (11.24)
minimizar m
=
bTy
sujeta a las restricciones ATy 2 c,
y 2 O,
492
11
I
Programacidn lineal
en donde A, b y c son como en (1 1.?) y Y
=
[Y,
Y2
Y31T.
Comparando (1 1.2) y (1 1.24) se muestra que “minimizar” queda en lugar de “maximizar”, “AT” reemplazaa “A,” “2” sustituye a “ S , ” “c” reemplazaa “b,” y “b” reemplaza a “c.” Este programa dual (1 1.24) se puede deducir por otro camino, mediante geometría en lugar de la descripción de laaplicación. Examine la figura(1 1.3) y , especialmente, el punto óptimo P . L a perpendicular en dirección “noreste” a la recta 40x, + 60x, = 2100 que pasa por $9’ queda enel ánguloentre las perpendiculares semejantes a 99 y a 99. Esto dice que la primera perpendicular es una combinación lineal no negativa de las otras dos. Ya que estas perpendiculares son precisamente [40 60]‘, [ l 31‘ y [l 1IT, la combinación seencuentra fácilmente: [40 601‘ = 30[ 1 11’ + 10[ 1 3IT.Observe que [40 60IT es precisamente c, mientras que los otros dos vectores son los transpuestos de aquellos renglones de A que correspondena las desigualdades que dehecho serán igualEsto sepuede escribir en notación matricial como dades enel punto óptimo 9. (11.25)
ATy* = c
en donde y*
=
[O 30 1OlT2 O .
La sorprendente verdad es que esta y* resuelve el programa lineal (1 1.24).Para ver esto, suponga que y satisface las restricciones duales ATy2 c y y 2 O, y sea x* la solución óptima [ 15 25IT al programa original -llamado primal- (11.2). Ya que Ax* 5 b mientras que y 2 O, se tiene que yTAx* 5 yTb.
Como también ATy 2 c mientras que x*
2
o, se tiene
x * ~ 2 A x ~* ~ ~c .
Al combinar esas dosdesigualdades y usaryTAx*= (Ax*)’y (11.26)
bTy 2 cTx* para toda
= x*TATy se obtiene
y que satisfaga ATy 2 c, y
2
O.
Recuerde que y* tiene elementos cero en donde Ax* - b tiene elementos diferentes de cero,mientras que los elementos diferentes de cerode y* aparecen en donde Ax* - b tiene elementos cero. Por lo tanto, Y*~(Ax*- b) = O, esto es
Y * ~ A x= * y*Tb.
Ya quey*’A = (A’Y*)~- C’ de (1 1.25), se obtiene cTx*= y*%. De la combinación de esto con (1 1.26),resulta (11.27)
bTy 2 bTy* = cTx* paratoda y que satisfaga ATy 2 c, y
2
O.
I Analisis de un ejemplo sencillo
11.1
493
En otras palabras, y* minimiza a bTy sujeto a las restricciones ATy 2 c y y 2 O -por lo tanto y* resuelve el problema lineal dual (11.24). Observe también que bTy* = cTx*: el valor óptimo (mínimo) m del dual es igualal valor óptimo (máximo) M del primal. En el ejemplo (11.2), (1 1.24), se teníaM = 2100; ahora m
= bTy* =
30 10IT = 1200 + 900 = 2100 = M
[70 40 90][0
como se afirmaba. En nuestra aplicación, estosignifica que la división 2 puede ofrecer el pago por el uso de las máquinas, lo que redituará a la división 1 exactamente la misma ganancia quesi usaran las máquinas (que intuitivamente parece ser lo que se debería ofrecer). En la sección 11.4 se verá que el dual tiene gran importancia práctica. PROBLEMAS 11.1
D 1. Resuelva elsiguiente programa lineal a) geométricamente y b) porel método simplex Maximizar x1 +
Zr,
sujeto a las restricciones I 25
X1
+ x2 I 30
XI
-x1
+ X2 I 10
x1 2 0
x2
20.
D 2. Resuelva el siguiente programa lineal a) geométricamente y b) por el método simplex Maximizar x1 +
2x,
sujeto a las restricciones -x1
+ x2 I 1 0 x2
I 20
x1
+ x2 5 60
X1
< 50
x1 2 o
x2 2 o.
3. Resuelva el siguiente problema lineal a) geométricamente y b) por el método
simplex Maximizar a 3x,
+ 2x,
sujeto a las restricciones
494
11
Programacibn lineal
/
x1
+ 2x2
x1
+
x2 I 4 0
3x,
+
x 2 5 90
x1 2 o,
70
x2 2 o.
4. Explique por qué, en el método simplex, el valor actual de M que corres-
ponde a la solución básica factible x,, aparece comoel elemento (4,7) en las matrices aumentadas en los ejemplos. 5. Reste una variable de holgurax, de ladesigualdad xp - x1 z -5 de modo que se transforme enx, - x1 - x4= -5 parausar el método simplex pararesolver
el programa lineal maximizar a
Zr, + x,
sujeto a las restricciones XI
-x,
+ x2 I 10 + x2 2
x1 2 o,
-5 x2 2 o.
D 6. Demuestre que en lo que concierne a las variables x1 y x2, la dirección del 7.
D 8.
Sn 9.
1131 10. 1131 11.
gradiente proyectado (1 l . 17) es tan sólo unmúltiplo de c , esto es, de [40 60IT. Demuestre que no hay movimiento posible que incremente a M en la dirección del gradiente proyectado (11.17) partiendo de los vectores básicos factibles correspondientes a ’ O, Y, 2 2 , 9,y B que sean distintos de O. Suponga que Ax,, x2, . . . , x,) = cTx, en donde (x)~= xi, y que c y x son ambos p X 1. Demuestre que V f , la matriz p X 1 formada de la primera = af/ax,- satisface V f = c. (Esto explica el derivada parcial de f-(Vf>, término “guadiente proyectado.”) Utilice MATLAB o algún software similar para calcular la dirección del gradiente proyectado del programa lineal del problema 1, y entonces muévase lo más lejos posible en esa dirección desde el vector básico factible inicial. Haga lo que sepidió en el problema9, peroparae1 programa del problema2. Para el programa lineal de ejemplo en esta sección. a) Encuentre el vector factible que resulta de mover sólo el 95% de la distancia sobre la arista del conjunto de restricciones desde el punto básico factible (1 l . 18) hacia (1l . 19) en la dirección (1 l . 17) b) Utilice MATLAB o algún software semejante para encontrar la dirección del gradiente proyectado escalado que se obtuvo usando D = diag(0.95, 1.75, 0.675, 0.18, 0.18).
11.2
I
Un programa lineal general
495
c) Muévase desde el punto alcanzado a)enen la dirección encontrada en b) para alcanzar la arista del conjunto de restricciones. D 12. Encuentre el dual para el programa lineal del problema 1 ; use el argumento geométrico en el puntoóptimo del programa primal para encontrarun vector óptimo para el dual. 13. Haga lo que sepide enel problema 12, pero paraelprograma del problema 2. 14. Haga lo que sepide en el problema 12, pero parael programadel problema 3.
D 15. Reescriba el dual (1 1.23) como un problema de maximización (esto es, maximizar a - m = -7Oy, - 40y, - m,)y use el método simplex para resolver el programa lineal resultante. 16. Haga lo que se pide en el problema 15, pero para el dual del programa del problema l . 17. Haga lo que se pide en el problema 15, pero para el dual del programa del problema 2. 18. Haga lo que se pide en el problema 15, pero para el dual del programa del problema 3. 11.2
UN PROGRAMALINEALGENERAL
Para definir con precisión un programa lineal general se requiere de algo de nomenclatura. Terminología (11.28)
Definición. Suponga que A y B son ambas matrices reales de p X q , se escribirá A 2 B si y sólo si (A)U 2 (Bij) para 1 Ii 5 p y 1 I j Iq ; definiciones semejantes serán válidas para > , S y c.Si A 2 O, entonces A se llama no negativa; siA > O, entonces A se llama(estrictamente)positiua.
Esto proporciona el fundamento parauna definición de un programa lineal general. (11.29)
Definición a) Todo problema para encontrar valores extremos (maximizar o minimizar) una función cTx con x en Iw4 y sujeto a un número finito de restricciones lineales de igualdad y de desigualdad usando Io 1 o ambos, se Llama un programa lineal. b) Se dice queun programa lineal está ensuforma estúndur si y sólo si se escribe como maximizar a cTx sujeta a las restricciones
Ax
5
b,
x
2 O.
496
I
11
Prograrnaci6n lineal
No hay una forma estándar queesté universalmente aceptada para programas lineales; la anterior es una delas muchas posibilidades. Cualquier programa lineal se puede reescribir en esta forma estándar. Todavariable z que originalmente noesté restringida a ser no negativa se puede reemplazar haciendo z = z+ - z- con z+ 2 O y z- 2 O ; toda desigualdad lineal a T x 2/3 se puede reemplazar por ( - a')x I(-p) y toda igualdad linealaTx= p se puede reemplazar por el par a ' x s p y (-a'x) S (--p). Para aplicar los poderosos métodos desarrollados para trabajar con ecuaciones, la forma estándar se convertirá a una que involucre ecuaciones y desigualdades sencillas, exactamente como en la sección 1 1 . 1 . Si A es de p X q , se . . . , x,+, -unapara cada una de las p introducirán variables de holgura desigualdades en Ax S b. Las matrices extendidas A,, x, y c, se definen como en la sección 11.1: (11.30)
Esto nos permite definir laforma devariables de holgura en la definición 11.29: maximizar a c,Tx,
(11.31)
sujeta a las restricciones A,x, = b,
x, 2 O, en donde A, es p
X
(q
+ p).
Observe que un programa lineal se podría enunciar con p restricciones de igualdad conq + p variables como en (1 1.31) sinque su aparición sea la adición de variables de holgura a un problema en la forma estándar;sin embargo, nos referiremos a un programa lineal de la forma (1 1.31) como en su forma de variables de holgura sin tomar en cuenta su origen o la estructura precisa de A, -que no sea otra que p X ( q + p ) . (11.32)
Definición
a) Todo vector que satisface todas las restricciones de un programa lineal se dice que esfactible para ese programa lineal. b) Todo vector factible que extremice la función en un programa lineal se dice que es 6ptimo (factible). El siguiente concepto es el de los vectores bhsicos factibles; en la sección 11.1 correspondieron a los vértices del conjunto de restricciones en R2 para el programa lineal en su forma estándar. Se identificó un vértice como la intersección de, precisamente, dos de las rectas definidas al convertir en igualdades a exactamente dosde las desigualdades para el caso de dosvariables. En la forma de variables de holgura con cinco variables y tres ecuaciones, el método equiva-
11.2
I
Un programa lineal general
497
lente fue hacer cero dos variables (por lo tanto seleccionando aquellas dos las desigualdades a estudiar comoigualdades) y resolver las tres ecuaciones para tres variables restantes. Para un programa lineal en forma estándaren Rq, el procedimiento análogo sería identificar vértices resolviendo como igualdades q de las p desigualdades. En la forma de variables de holgura (1 1.3l), el procedimiento equivalente es hacer cero aq de las variables en x, y resolver entonceslasp ecuaciones A&, = b para las p variables restantes. A tal solución se le llama búsica: (1 1.33)
Definición. Se dice que un vector factible x, para la forma de variables de holgura (11.31) es un vector búsico factible si y sólo si (cuando menos) q de los elementos de x, es igual a cero.
Computacionalmente, el proceso de encontrar vectores básicos factibles implica el hacer cero q de los elementos dex, y resolver entonces lasp ecuaciones con losp elementos restantesx,. de Para estarseguros de poderresolver esas ecuaciones se necesita quela submatriz relevantede p X p , de A,, sea no singular -lo cual en la prácticapuede no serel caso. Manejar estas situacioneses una de las complicaciones de la programación lineal que cae fueradel propósito de este libro; nos restringiremos por lotanto a los casos en los que esto no se puede dar al tratar programas que seanno degenerados(una condición un poco más estricta). (11.34)
Definición. Se dice que un programa lineal en su formade variables de holgura (1 1.31) es no degeneradosi y sólo si cada submatriz dep X p de la matriz aumentada [A, b] es no singular; en caso contrario, se dice que el programa es degenerado.
Teoría fundamental
Las variables “no básicas” en la sección 1 1 . 1 eran aquéllas que se igualaron a cero, y entonces las variables despejadas fueron siempre diferentes de cero (las llamamos “variables básicas”.) Si alguna de esas variables calculadas hubiera sido igual a cero, un observador hubiera entonces tenidodificultad para distinguirla de aquellas variables que inicialmente se igualaron a cero.Se considerará la posibilidad de que ocurra este caso. Suponga que sehace cero a q de los elementos q + p de x, de un programa en la forma de variables de holgura; así, quedan para lineal no degenerado escrito su determinación p elementos y p ecuaciones. Ya que la matriz de coeficientes de este sistema de p ecuaciones con p incógnitas es una submatriz de A,, es no singular por la hipótesis de que esno degenerado. Así,hay una solución a A,x, = b, la cual desde luego hace que b sea una combinación lineal (usando a los elementosde x, comocoeficientes)delas columnas de A,. Si alguno de los elementos de x, es cero además de los q elementos que se igualaron primero a cero, entonces cuando menos q + 1 elementos de x, son cero: esto hace que cuando más p - 1 de los elementos dex, sean diferentesde cero. Por lo tanto, b
498
11
I
Programacibn lineal
podría escribirse como una combinación linealde p - 1 columnas de A, y por lo tanto la submatriz de p x p de [Ae b] formada por esas p - 1 columnas de A, y b sería singular -contradiciendo la hipótesis de no degeneración. Esto completa una demostración del siguiente. (1 1.35)
Teorema (vectores básicos). Si el programa lineal en su forma devariables de holgura (1 1.31) es no degenerado, entonces todo vectorbásico factible tiene exactamente q elementos cero; esas variables cero se llaman no bhsicas, mientras que a las p variables diferentes de cero se les llama búsicas.
El método para resolverprogramas lineales se basóen la idea de que estos tienen soluciones y que siempre se puede encontrar una solución en un vértice (esto es, como una solución básica factible en el planteamiento de Variables de holgura). Desde luego, los programas lineales pueden no tener solución: el problema de maximizar ax, + xz sujeto ax1 2 O y x2Z O no tiene solución porque x1 + x pse puede hacer arbitrariamentegrande aun satisfaciendo las restricciones; y el problema de maximizar a x1 sujeta a que x, 5 1 y x1 2 2 no tiene solución porque no existen tales números xl. Pero de lo contrario, cuando el conjunto de en restricciones es no vacíoy la función a maximizar está acotada superiormente un vector el conjunto de restricciones -parece claro geométricamente que existe óptimo factible y que existe un vector óptimo bhsico factible. Esto se deberá demostrar, esté claro o no geométricamente. (11.36)
Lema. Suponga que la forma de variables de holgura (1 1.31) de un programa lineal es no degenerada, que M = czx, no se puede hacer arbitrariaes , un punto factible, mente grande en elconjunto de restricciones, y que % entonces existe un punto búsico factible x,* con cuando menos un valor igual de M :
DEMOSTRACION. S1 fees en sí mismo un vector básico factible, se podrá considera x,*= P, y con esto queda demostrado.Por lo tanto, se supondrá el programa lineal es no degenerado, el que 1, no es un vector básico, ya que teorema 11.35 implica que f i e tiene a lo más q - 1 elementos cero. Se demostrará que se puede encontrar un vector factiblecon cuando menos un elemento ceromás que en sey con a lo más un valor tan grande comoel de M ; repitiendo este procedimiento se obtendrá un vectorfactiblecon cuando menos q elementos cero,y éste deberá ser el vector básico factible x,* que se necesitaba. Lo Único que se deberá demostrar será que, en realidad, es posible encontrar un x; factible tal que C ~ X ;2 cFfe, y, con cuando menos,un elemento ceromás que en 2,. A continuación se demostrará esto. Como toda submatriz de p x p de la matriz A, de p X (q + p ) , es no
11.2
I
Un programa lineal general
499
singular, A, tiene un rangop; por el teorema6.8 sobre dominios, imágenes y espacios nulos, el espacio nulo de A, -el conjunto de soluciones n para A,n = O- tiene dimensión 4 y por lo tanto tieqe alguna base n,, . . . ,nq.Sea x6 = ie + n, en donde n = alnl + + aqnqdebiéndose determinar las A,xk = b para cualquiervalor de las aique se escoja. Se buscan las ai de tal manera que x: 2 O, que xktenga al menosun elemento ceromás que gey quec,Tn 2 O (lo que implica que cfxk 2 cTie).Sea a = [a, aqITuna solución diferente de cero del sistema de 4 - 1 ecuaciones homogéneas con 4 incógnitas formadas haciendo cero aalgunos 4 - 1 de los elementos de n, incluyendo los a lo más 4 - 1 elementos que correspondena los elementos cero defe; por el teorema clave4.13 3), existe tala diferente de cero porque hay menos ecuaciones(homogéneas) que incógnitas. Como a es diferente de cero y las ni forman un conjunto linealmente independiente n = alnl + + a$q es diferente de cero. Todos losp + 1elementos restantes de ie son diferentes de cero, y cuando menos uno de los correspondientes elementos de n debe ser diferente de cero debido a que n es diferente de cero. Reemplazandon por -n si cTn < O, es posible suponer que czn 2 O. Si todos los elementos diferentes decero den son estrictamente positivos y czn > O, entonces M podría hacerse arbitrariamente grande en el vector factible i,+ tn al hacer a t arbitrariamente grande, contradiciendo la hipótesis de que Mestá acotada;si todos esos elementos son positivos pero czn = O, de nuevo será posible reemplazar a n por -n y seguir teniendo czn 2 O (en realidad, = O ) con algún elemento negativo en la nueva n. De este modo se podrá suponer que cuandomenos un elemento de n es estrictamente negativo. Sea r el número del elemento para el cual-(ji-,),/(n), es menor entre las (n)*estrictamente negativas y sea t igual a este cociente (positivo).Entonces x’, = Fie + tn esfactible, tiene cuando menos un elemento cero más -el r-ésimo- que en ge y cumple czxz 2 c,Tf,.
-
(11.37)
DEMOSTRACION. Como el programa lineal es no degenerado, las soluciones básicas factibles sepueden obtener haciendo cero cualesquieraq elementos de x,, resolviendo para los p elementos restantes de las p ecuaciones A p e = b, y comprobando si x, 2 O. Por el lema 11.36, existe cuandomenos un vector básico factible porqueel conjunto de restriccioneses no vacío. Como existen, a lo más, Npq subconjuntosde q elementos de los p
500
11
/
Prograrnaci6n lineal
+ q elementos que se pueden escoger para hacerlos cero,en donde NpQ= + p)!/(q!p!),el número N de vectores básicos factibles satisface a 1
(q
5 N 5 NpQ.Sea : x el que maximiza a M = czx, para cualquiera x, de los N vectores básicos factibles. Entonces x,* es el vectorbásico factible óptimo que senecesitaba; ningún 2, factible puede dar un valor de M mayor porque entonces, por el lema 11.36, uno de los vectores básicos factibles daría un valor aún mayor de M , contradiciendo a la hipótesis de que x: da el mayor valor deestetipo.
PROBLEMAS 7 7.2
D 1. Escriba en la forma estándar el programa lineal maximizar a -2x1
+ 5x,
sujeto a las restricciones 2x1 - x2 5 7 3X1
+ x2 = 6
x1 2 o,
x2 2
o.
2. Escriba el programa lineal del problema uno en su forma de variables de
holgura. 3. Enuncie en la forma estándar el programa lineal minimizar a 4x1 - 3x,
+ 2x3
sujeto a las restricciones x1
+
x.2
2 4
x1
-
x2
1 6
X1
+ 3x2
6x3 = 5
x1 2 o,
x3 2
o.
D 4. Enuncie el programa lineal del problema tres en su forma de variables de holgura. 5. Enuncie en la forma estándar el programa lineal 3x, + 2x2 2 7 - x 1 - 5x, 2 3 X1
25 x2 2 o.
6. Enuncie el programa lineal del problema cinco en su forma estándar.
I
11.3
Resolucibn de un programa lineal general
501
7. Dé un ejemplo de un programa lineal degenerado y una solución básica factible para éI con, estrictamente, más de q elementos cero. 8. Determine si los programas lineales de los siguientes problemas en lasección
11.1 son degenerados: a) Problema uno b) Problema dos c) Problema tres d) Problema cinco D 9. a) Determine si el siguiente programa lineal es degenerado. b) Resuelva el problema por el método simplex. Maximizar a x,
+ 2x,
sujeto a las restricciones I 10
X1
-x1
+
x2
I 10
x2
I 10
x1 2 0 ,
x2
20
10. Utilice la construcción en el lema 11.36 para encontrar un vector factible para el problema modelo (1l . 1) que tenga (cuando menos)un elemento cero más que en el vector X,
=
[20
15 15 5 25IT.
D 11. Suponga quese necesita maximizar al menor de dos númerosno negativos u
y v sujetos a las restricciones 2u + v S 5 y u + 3v I8. Escriba un programa lineal cuya solución permita calcularu y v , y enuncie el programa en forma estándar.
11.3
RESOLUCION DE UN PROGRAMA LINEAL GENERAL
Como ocurre con los sistemas de ecuaciones lineales y con los problemas de la práctica se resuelven con una sofistieigensistemas, los programas lineales en cada prográmación de computadora. En esta sección solamente se extenderán las ideas básicassobre los métodospresentadosen la sección 11.1 de los programas lineales generales de lasección 11.2 sin entrar en detalle; esta introducción debería ser suficiente para la mayoría de los usuarios de programación la lineal. Mktodos afines al de Kannarkar
Regresamos la versión de variables de holgura (11.3 1)de programas lineales: maximizar a M
= cTx,
502
/
11
Programacibn lineal
sujeto a las restricciones A,x,
= b,
x, 2 O,
siendo A, de p
X (q
+ p),
Los aspectos clave a recordar sobre los nuevos métodos afines al de Karmarkar son que l ) son métodos interiores,y no métodos cuyo movimiento esté restringido a lo largo de las aristasdel conjunto de restricciones; y 2) operan en las versiones transformadas iteratiuamente del programa lineal-esto es, en cada paso se transforma denuevo el programa antes de que se encuentreuna nueva solución aproximada. Aunque son posiblesotros caminos, el aspecto ladeinterioridad del método está bien caracterizado por el procedimiento del gradiente proyectado: desplazarse desde la solución aproximada actualx, hasta una nueva solución aproximada x, + td, en donde d = Pp, y Poes la proyección ortogonal sobre elespacio nulo A” de A, -el conjunto de n que satisfacen aA,n = O . En la sección 11.1 se mencionó que la proyección ortogonal Pp, se puede calcular fácilmente usando la descomposición en valores singulares A, = UZVH de A,; esto es definitivamente cierto para p y q moderadas, pero a menudo los programas lineales implican p y q enormes (y A, dispersas y altamente estructuradas)en cuyo caso serán preferibles otros caminos.El encontrar elpunto más cercano Pp, aceen N es esencialmenteun problemade mínimos cuadrados, aunqueno está en la forma Ax = y como se le trató en las secciones 5.9 y 8.5, cuando se presentaron métodos que usaron las descomposiciones QR o en valores singulares; sin embargo, el siguiente teorema muestraque la proyección y los mínimos cuadrados son lo mismo. (11.38)
Teorema (proyección sobreespaciosnulos).Sea B, p X q y sea Po la proyección ortogonal sobre el espacio nulo N de B -todas las n que satisfacen a Bn = O. Entonces P,yy = y - B%, en donde 1 resuelve el problema de mínimos cuadrados BHx = y. DEMOSTRACION. Recuerde el problema 26 en la sección 5.9 que 2 resuelve a Cx = y si y sólo si CHC1= CHy;en este caso, C = BH, de modo que 1 es
solución de BHx= y si y sólo si BBH1= By. Esto, asu vez, es equivalentea B b - BH5)= O -esto es, ay- en donde BH1está en el espacio nulo N de B. Sea no = y - BH1;el problema será demostrar queno = Poy. Sea n, = no Poy. Comon,estáen N , ( y - Poy, n,)= O pore1 teorema5.71 a). Entonces lln1112 = (n,, n,) = (no - Y + Y - POY,n,) = (-B% = (-2, Bn,) = (-2, O) = O. m
nA
Así, en elproblema de programación lineal, cualquier método para resolver 2 de A 3 = c, permitirá el cálculo de la nueva dirección d por medio de d = Pp, = C, - AZ2. Un método para calcular 2 es por mediode la descomposición en valores singulares, que desdeluego se podría usar directamente para calcular Poc, como
11.3
/
Resoluci6n de un programa lineal general
503
se mencionó enla sección 11.l. También sepodría resolver aAFZ c, mediante la descomposición QR de A,. El problema de resolver sistemas extremadamente grandes y esparcidos demínimos cuadrados ha sido -y está siendo- investigado extensivamente por motivos no relacionados con la programación lineal; este trabajo, se está aplicando ahora en el estudio de los métodos afines al de Karinarkar. Como se subrayó en la sección 11.1, el camino del gradiente proyectado no se puede aplicar repetidamente tal y como se describió, porque se produciría la misma dirección d en cada paso;más la sencilla de las transformaciones propuestas por Karmarkar -el escalado de las variables x, = DX: con una matriz D diagonal- evita esta dificultad,porque la siguiente dirección d es la proyección ortogonal de Dc, (y no de c,) sobre el espacio nulo de A,D (y no sobre el de A,). La naturaleza sencilla de D permite hacer más manejables los problemas de mínimos cuadrados que deben resolverse en cada paso, que en el caso de tratar sólo a A,D comenzando desde el principio cada vez que D cambie. Karmarkar propone transformaciones adicionales que tienen efectos todavíamás dramáticos sobreel problema -reemplazar la función lineal czx, por expresiones logarítmicas tales como log(c,Tx,), cambios no lineales en las variables x,, y así por el estilo.Aunque parece que en la naturaleza de esas transformaciones reside el secreto de la potencia de los métcdos, este tópicoy una discusión posterior de los métodos afines al de Karmarkar queda fueradel alcance de este libro. i=
El &todo simplex: construcción de la tabla
El método simplex trabaja conla matriz aumentada de laforma de variables de , u holgura de un programa lineal, con la adición deuna ecuación final M - C ~ X = para permitir el cambio de valores de M ; recuerde de la sección 11.1 que se acordó omitir la columna de las matrices aumentadas correspodientes a M porque esa columna nunca participa en los cálculos. Así, el métodosimplex trata con lo que se llama la tabla simplex: (11.39)
El método simplex, tal como se describió en la sección 11.1, involucra principalmente al realizar los pasos de la eliminación de Gauss-Jordan en T, produciendo una nueva tabla T’; exactamente como en los sistemas de ecuaciones lineales, primero se deberá tratar el asunto de si las soluciones de los dos problemas son idénticas. (1 1.40)
Teorema (equivalencia de tablas). Suponga que una sucesión de operaciones elementales de renglón transforma una tabla simplex T en una tabla simplex T’
504
11
I
Prograrnacidn lineal
y en donde las operaciones de renglón que serealicen con el último renglón sólo pueden ser de la forma: sumar al último renglón un múltiple de un renglón superior. Entonces, z* es solución del programa lineal
maximizar a M = C ~ X , sujeto a las restricciones A,x,
= b,
X,
2O
si y sólo si z* es solución del programa lineal maximizar a M'
= cLTx:,
sujeto a las restricciones A~X= ; b
2 O.
X:
DEMOSTRACION. Como no se puede usar el último renglón para cambiarlos renglones superiores, [A, b'] se produceapartirde [Ae b] mediante operaciones elementales derenglón; por el teorema 4.12 sobre la eliminalos conjuntos de restricciones ción de Gaussy los conjuntos de soluciones, de los dos programas lineales son, por lo tanto, idénticos. Debido a la restricción de las opgraciones que se realicen en el renglón inferior, los u'] deberán estar relacionadas por renglones inferiores [-c% u] y [-cb' [-chT u'] = [c: u] + wT[Ae b]. De este modo,-ckT = -cT + wTAey u' = u + w%. Se sabe que los dos conjuntos de restriccionesson idénticos; para una z en cualquiera de ellos, se tiene que
M =C
+
y
~ Z U
M'
=
cLTz
+ U'
Por lo tanto, M
-
M'
= (c:
- C;')Z
+ (U
-
U')
= w ~ A , z- WTb =
o.
Ya que los conjuntos de restricciones son idénticos y las funciones M y M' a maximizar son idénticas, los dos programas son equivalentes. 9
El método simplex genera una serie de tablas y cada una de ellas describe programas equivalentes; el análisis del método simplex requiere entonces del conocimiento de:
11.3
/
Resoluci6n de un programa lineal general
505
l . cómo decir a partir de una tabla si se ha encontrado ya una solución; 2. cómo decir a partir de una tabla si existe una solución; 3. cómo producir la siguiente tabla a partir de la que se está tratando.
Se responderá a esos tres “cómos”sin demostración -véame los problemas del 5 al 8- generalizando el método de la sección 1 1 . l . Recuerde que el método
simplex se ejecuta de tal modo que a cada paso (para programas lineales no degenerados) precisamente los elementos q -las varibles no básicas- de x, son iguales a cero, y precisamente los elementos p -lasvariablesbásicasson estrictamente positivos. (1 1.41)
l . Se ha demostrado una solución cuando todos los elementos (además de la posibilidad deu en la última columna) en el último renglónde la tabla son mayores o iguales a cero.
Si (1 1.41) no es válido, entonces se ejecuta otro paso del mttodo simplex. Se identifica al menor elemento negativo (que no está en u ) del último renglón (en caso de empate, escoger cualquier “ganador”); éste corresponderáa una variable, por el momento no básica (cero) x,, y es estavariable la que sehará básica (positiva) en el siguiente paso del método simplex. Para ver qué tan grande se puede hacer x,, todo elemento positivo en la columna de x, se divide entre el elemento correspondiente de la última columna, y el más pequeño de esos cocientes será el nuevo valor de x,. (1 1.42)
2. Se sabe que M se puede hacer arbitrariamente grande en el conjunto de restricciones, de manera que no hay solución óptima cuando no hay elementos estrictamente positivos en la columna que correspondea la variable x, que se esté haciendo básica.
Si (1 1.42) no es válido, suponga que (uno de) el cociente mínimo (o los cocientes) anteriores está en el renglón i de la columna x,. (1 1.43)
3. La tabla siguiente se produce usando el i-bimo renglón para eliminar arriba y abajo de ese renglón en la coiumna x,.
Suponiendo que el método simplex comienza con una solución básica factible, el procedimiento anterior aumenta la variable x, que antes era cero hasta que fuerza a ser cero a otra variable; de este modo quedan cuando menosq variables cero -es decir, se ha producido otro vector básico factible. Como el procedimiento incrementa estrictamente a M cada vez, no podrá nunca regresar a un vector básico factible anterior (de los cuales sólo hay un número finito). En resumen.
506
11
/
Prograrnacibn lineal
(1 1.44)
Ahora podrá resolver los problemas del 1 al 9 .
El método simplex: implementacidn revisada
Un aspecto del método simplex, tal y como se describió, parece bastante inefivariable x, ciente. Para determinarsi se ha encontrado unasolución y si no, cuál no básica habrá que hacer básica, sólo se necesitanlos q elementos diferentes de cero del renglón inferior de la tabla; si se requiere un paso simplex más, entonces x, son los necesarios sólo loselementos 2p de latíltima columna y la columna de para determinar si M es no acotada, y si no lo es, qué tan grande se hace x,, y determinar al siguiente pivote para la eliminación. Esto es: Sólo se necesitan 2p + q de los elementos(p + 1) ( q + p + 1) de la tabla para determinarsi se ha encontrado una solución, si se sabe que no hay solución, y cuáles habrán de ser las siguientes variables básicas y no básicas. El llamado método simplex revisado busca implementar el método simplex sin producir los elementos ajenos qp + p 2 + 1. Ai principio, recuerde que setiene una solución básica factible: q elementos de x, se han igualadoa ceroy los elementos p positivos se han encontrado como la solución a p ecuaciones lineales conp incógnitas. Todo lo que se necesita para estepaso esla inversa (o mejor aun, una descomposiciónLu de la submatriz de p x p de la matriz original A, que esla matriz de coeficientes para este sistema, junto conel lado derecho b. Análogamente, con esta inversa y los renglones de la tabla original se puede calcularel nuevo renglón inferior. Del nuevo renglón inferior se puede saber, como de costumbre, si se ha encontrado un vector factible básico óptimo. Sino, y si se debe proseguir conotro paso simplex, lo quesenecesita a continuación son los elementos en la columna sobre la variable que pronto se hará básica; esta columnano se ha calculado todavía,pero se puede encontrar a partir de la inversa obtenida anteriormentey la columna correspondiente de la tabla original. Con esta columna a la mano, se determina cuál
11.3
I Resoluci6n de un programa lineal general
507
variable, por el momento diferente de cero (básica),se volverácero. De nuevo se tienen q variables cero y p variables positivas y se puede continuar el proceso; es importante observar que sólo una de las p variables diferentes de cero ha sido cambiada; por lotanto la nueva matriz de p X p cuya inversa (o descomposición LU) se necesita,difiere de la anterior submatrizde p X p de A, en solamente una columna, por lo tanto puede modificarse (o “ponerse al corriente”) eficientemente (enlugar de calcularse partiendo del principio) por métodos tales elcomo teorema 3.63. El método simplex revisado, como se esquematizó anteriormente, maneja esencialmente submatrices de p X p de A, y unas pocas columnas adicionales sin calcular nunca las nuevas versiones de tablas completas. Cuando el númerop de restricciones es modestocomparado con el númeroq de variables,los ahorros en la implementación del método simplex revisado pueden ser muy significativos. La mayoría del software actualizado para el método simplex usa la implementación revisada con modificaciones para manejar dificultades numéricas. El mLZtodo simplex: iniciacidn
Un asunto que hasta ahora ha se evitado consistentemente es el de la iniciación: se podría igualar a cómo encontrar una solución inicial básica factible. En teoría, cero q elementos de x, metódicamente, resolverlos p elementos restantes de p ecuaciones y comprobar si x, 2 O. Sin embargo, aun en elpequeño ejemplo de la resolver tres ecuacionescon tres sección 1 1 . 1 , habría 10 sistemas como esos para incógnitas en cada uno,y sólo cinco de los cuales producen en realidad vectores factibles; a medida que aumenta el número de variables y de condiciones, este camino se hace cada vez menos atractivo. La mayoría delsoftware de programación lineal incluye una etapa llamada Phase Z hecha para localizar un vector básico factible para el arranque del método simplex (Phase Ir>. El truco está en definir una nuevo programa lineal con dos propiedades: 1) el nuevo programa tiene un vector básico factible inicial evidente, y 2) toda solución al nuevo programa es un vector básico factible para el programa original. Si se hace adecuadamente, esto detectarási el conjunto de restricciones es vacío para el programa original. Se examinará un ejemplo en detalle. (1 1.45)
(1 1.46)
Ejemplo. Considere el programa de ejemplo enla sección 1 1 . 1 con una modificación en su segunda restricción:
maximizar a 40x1 + 60x, sujeto a las restricciones 2x1 -XI
X1
+
x2 5
-
x2
5
70
-40
+ 3x2 I
x1 2 o,
x2
90 2 o.
508
11
I
Programacibn lineal
Ahora, x1 = x2 = O ya no satisface las condiciones, ni es particularmente evidente que las restricciones se puedan satisfacer. Si se introduce una variable de holgura s en la horrible segunda desigualdad, ésta se transforma en la igualdad -x1
-
+
S
=
-40,
y la dificultad se hace aparente con el hecho de que al probar x1 = x2 = O la variable de holguras se hace negativa-lo cual no está permitido. El truco es introducir todavía otra variable, llamada variable artificial,para manejar la dificultad. Específicamente se agregan, como de costumbre, variables de holgura x3,x4 y x, en las tres desigualdades, pero también se resta una variable artificial (x,J en la desigualdad no deseada:
(11.47)
2x, -x1 x1
+
x2
-
x2
+ xj
+ 3x2
=
+ x4
- XG
+ x5
= =
70 -40 90
todas las xi z O. En este nuevo conjunto de restricciones, es posible hacer x1 = x2 = O, resultando x3= 70 y x, = 90 cOmO en la sección 1 l . 1 , y al hacer x4 = O resulta x6 = 40. Observe que ahora se tiene p = 3 restricciones y q + p = 6 variables, de manera queun vector factible para esas nuevascondiciones debería tener q (= 3) elementos cero; los cuales, de hecho,tiene el vector de arriba. Desafortunadamente, un vector que es factible para ( 1 1.47) no necesariamente seráfactible para el conjunto origina! ( 1 1.46) de restricciones a menosque x6 sea igual a cero:Si x6 = O en (1 1.47), entonces dex1ax5 es factible para (11.46). Como x6 2 O, hacer x6 = O es equivalente a minimizar a x6 sujeto a (1 1.47); y si este mínimo es estrictamente positivo, entonces no hay vector factible para el programa original (1 1.47). Esto es, se puede determinar si hay vectores factibles para (1 1.46) y es posible encontrar si existe uno resolviendo el programa lineal de minimizar a x6 sujeta a las restricciones (1 1.47). AI reescribir el problema como un problema de maximizacibn buscando maximizar a M = -x6 se podrá comenzar con el método simplex; la tabla inicial es
11.3
/
Resoluci6n de un programa lineal general
509
y el vector básico factible inicial es como se encontró arriba:
x1 = x2 = x4 = O como variables no básicas xj = 70, x5 = 90, x6 = 40 como variables básicas. Esto no está en la forma estándar (11 .lo) en donde cada variable básica tiene sólo un elemento diferente de ceroen su columna (y no en el último renglón): la columnax, violaesto, de modo que se usará el segundo renglón para eliminar el elemento ofensivo, entonces se obtiene
2 1 1
-1
1 1 3 -1
1 o 0 - 1 O O O 1
o o 1 O
m]
O / 90' 01-40
lo cual está en la forma (1 l . 10). Hay unempate parae1 elemento negativo de mayor valor absoluto en el último renglón. Se escogerá (al azar) la segunda los elementos positivosen columna. Los cocientesformadoscon esa columna son 90/3, 40/1 y 70/1, de los cuales el menor -30- está en el tercer renglón; el elemento (3,2), por lo tanto, será el pivotepara laeliminación de Gauss-Jordan, resultando la siguiente tabla:
".w,.
'
5 5
o o
3
1
1 o 0 - 1 0 0
o
o
-3
1
-3 3
01
3
3
01-10
El elemento negativo de mayor valor absoluto enel último renglónes los cocientes formados con elementos positivos en esa columna son 30/(3) = 90, lo/(+)= 15,
y
-f;
40/($) = 24,
de los cuales el menor -15- está en el segundo renglón; el elemento (2, l), por Io tanto, será el pivote para la eliminación de Gauss-Jordan, dando la siguiente tabla
510
11
/
Programaci6n lineal
ha encontrado una solución al problema de maximizar a -x6 sujeta a las restricciones (1 1.47). Las variables básicas son aquéllas que corresponden a las matrices columnaunitarias -xl,xz,xr y las variables no básicas son las otras -x4,x5,x& como las variables no básicas son iguales a cero, resulta x4
= x5 =
=z
O,
XI
=
= 25,
15,
= 15.
Observe que x6 = 0 y , por lo tanto, dex1a x5 hay un vector básico factible para el programa lineal original (11.46). Con fines ilustrativos, se continuará con la solución al programa lineal original (11.46) en su forma de variables de holgura. Este da una tabla inicial de
1
2
1
1
-1 3 -60
o
1
-1
-40
0 O
0 1 0 O
O
I
O
El vector básico factible que se encontró por el método de la variable artificial, tiene a xl,xz y x3 como variables básicas y así d e acuerdo con (1 l . 10)- las columnas correspondientes deberán ser matrices columna unitarias. Sólo x3 satisface esta condición,de modo que se deberá efectuar una eliminación de Gauss-Jordan en las columnas de x1 y de x,; esto produce una tabla en la forma adecuada de (11.10):
El elemento negativo de mayor valor absoluto en el renglóninferior es - 30; los cocientes con los elementos positivos de arriba son 25/(# = 50 y Pi/($) = 6, de los cuales el menor" está en el primer renglón. Por lo tanto, se (1,4) como pivote para la eliminaciónde Gauss-Jordan, usará ese elemento produciendo la tabla
Ya que no hayelementos negativos en el últimorenglón, se ha alcanzado un vector básico factible óptimo. Las variables básicas (diferentes de cero)
11.3
/
Resoluci6n de un programa lineal general
511
corresponden a las matrices columna unitarias en la tabla y serán, por consiguiente, xl, xz y x4, dejando a x3 y a x5 como variables no básicas (cero). Haciendoxg = x5 = O resulta quex1 = 24, x2 = 22 y x 4 = 6 como una solución óptima con M = 2280. Esto resuelve el programa lineal original (11.46) con xl = 24, x2 = 22 y M = 2280. PROBLEMAS 11.3 1. Escriba los programas lineales representados por cada una de las tablas (1 l . 11) y (1 l . 13) producidas al resolver (1l . 1).
D 2. Maximice -4x1
+ x3 -
- x2
2x4
sujeto a las restricciones 3x1 - 3x2 i-X J
=3
6x2 - 2x3
+ x4 = 2
todas las xi
2
O.
3. Maximice a x1 + 4x,
+ 3x3
sujeto a las restricciones 3x1 X1
+ 2x2 +
x3 I 4
+ 5X2 + 4x3 I 14
todas las xi 2 O . 4. Maximice a 3x1 - x2 sujeto a las restricciones -2x1 x1
+
x2 5 1
-
2x2 I 2
x1 2
o,
x2 2
o.
5. Demuestre que (1 1.41) es válido al detectar una solución en el método
simplex, como sigue: alguna de las a) Demuestre queM no se puede aumentar haciendo positiva variables no básicas. b) Utilice la no degeneración para demostrar que el vector factible presente es el Único con todas las variablesno básicas presentes iguales a cero. c) Deduzca que el vector factible presente es el óptimo. 6. Demuestre que es válido (1 1.42) al detectar una solución no acotada. D 7 . Demuestre que, en un problema no degenerado, si (11.41) y (11.42) no pueden ser válidas para un vector factible, laúltima columna de latabla en
512
11
Programaci6n lineal
/
8.
D 9.
10.
D 11.
uso (excepto quizá por el elemento inferior)es estrictamente positiva y se puede encontrar una nueva solución básica factible con UnaMestrictamente mayor. Si todos los elementos del últimorenglón de una tabla (con la posible excepción dela últimacolumna) son mayores o iguales a cero,y si uno de los elementos que corresponden a una variable no búsica, es igual a cero, hay más de un vector básico factible óptimo. Demuestre esto describiendo cómo se puede construir otro aumentando la variable no básica. a) Maximice a 40x1 + 40x2 sujeto aa ls restricciones de (7.1) dando razones geométricas, y demuestre que hay un número infinito de vectores óptimos factibles y dos vectores óptimos básicos factibles. b) Utilice el método simplex para resolver este problema y verifique que aparece la condición descrita en el problema ocho para señalar la no unicidad. En el método simplex revisado, la necesidad principal no es para la inversa Bz = w de la submatriz dep X p , B de A,, sino para la capacidad para resolver dadas varias w. B cambia sólo en una columna en cada paso. Explique cómo usar una descomposición LU de B con el teorema 3.63 b) para sacar ventaja de esto. a) Utilice variables artificiales para encontrarun punto inicial básico factible para el siguiente programa lineal. b) Resuelva el problema. Maximizar a x1 + x2 sujeto a las restricciones
+ x2 I 10 x * + x2 2 5 2x1 + x2 40
-x1
x1 2 o,
x2 2 o.
12. Haga lo que sepidió para el problema 11 a) y b) pero para el programa lineal
maximizar a
ZX,+ 3x2
sujeto a las restricciones x1 x1
x2 2 2
+ 0.2x2 2
3x1 x1 2
4
x2 2 14
o,
x2 2
o.
13. Haga lo que sepidió para el problema 11 a) y b) peroPara el Programa lineal
I Resoluci6n de un programa lineal general
11.3
513
minimizar a 2x1 - x2 sujeto a las restricciones
+ 2x2 2
X]
3
+ x2 2 11 4x1 + 3x2 33
lox,
X]
2 o,
x2 2
o.
14. Haga lo que sepidió para el problema 11 a) y b) pero parael programa lineal
maximizar a x1 + x2 + xB sujeto a las restricciones
+
x1
x2
2 3
+ 2x2 + x3 2 4 2x1 + x2 + I2 x1
x3
x1 2 0 ,
x2 2 0 ,
x3 2 0 .
D 15. Utilice variables artificiales paradeterminarsi hay vectores quesatisfagan a 2x1
+
x2 2 70
x1
+
x2 I 4 0
x1
+ 3x2 2 90
x1 2
o,
x2 2 o.
16. Haga lo que sepidió en el problema 1 1 a) y b), pero parael programa lineal
minimizar a 3x1 - 5x, sujeta a las restricciones
+
2x,
x 2 2 70
+ x2 2 40 x1 + 3x2 2 90
x1
X]
2 o,
x2 2 o.
17. Haga lo que sepidió en elprograma 11 a) y b) pero parael programa lineal
maximizar a 3x, - x1 sujeto a las restricciones x1
I
10
x:
+ x2 2
5
514
11
/
Programaci6n lineal
Y,
11.4
DUALIDAD
Enla sección 11.1 sedemostróquedosdistintosprogramaslineales -(1 l. 1)/( 11.2) y (11.23)/( 11.24)- estaban sorprendentementerelacionados tanto geométricamente como a través de la aplicación de la cual surgieron. Esta sección trata de manera más general el asunto de la dualidad e indica su importancia computacional. (1 1.48)
Definición. Un programa linealen la forma estándar
maximizar M
=
cTx
sujeta a las restricciones
x 2 O, en donde A es de p
Ax 5 b,
X
q,
se dice que es un programa lineal primal. El dual de este primal se define como el programa lineal minimizar m
=
bTy
sujeta a las. restricciones y 2 O, en donde AT es de q
ATy 2 c,
(1 1.49)
Teorema
X
p.
El dual deldual es el primal.
DEMOSTRACION. Para escribirel dual del dual se necesita al dual en su forma estándar. Es posible reescribir el dual en la definición 11.48 como
maximizar M'
=
dTy con
E' =
-b,
sujeta a las restricciones A'y Ib , y 2 O siendo A' = -AT y b'
=
-c,
lo cual está en la forma estándar. Su dual es minimizar a m' = brTz(= -cTz) sujeta a las restricciones A'Tz 2 c',
que es equivalente
z 2 O (esto es, -Az
al primal.
m
2
-b, z
2
O).
11.4
I
Dualidad
515
Dualidad y el método simplex
En la tabla final (1 l . 13) para el método simplex aplicado para resolver el programa lineal primal (1 1.2) de la sección 11.1, los elementos O , 30 y 10 en su renglón inferior en las columnas correspondientes a las variables de holgura (básicas) dela tabla original (1 l.@,son precisamentelos números quese usaron como elementos de y* en (1 1.25), la cual se demostr6 que es la solución del programa lineal dual (11.24). Esto es, la tabla simplex para la solución óptima para el programa primal también contenía la solución óptima al programa dual. Esto esverdadero deun modo más general; la relación es la mássencilla cuando x = O se puede tomar como un vector inicial factible (esto es, cuandob 2 O), de modo que esta hipótesis se hará por conveniencia.
(11.50)
DEMOSTRACION. Ya que b 2 O, es posible escoger a x, de tal manera quelos primeros q elementos de xe, sean ceroy se obtenga un vector inicial básico factible. Esto significa que la tabla de partida
A
I O'
-CT
b1
o
tiene la forma estándar(1l . 10) para comenzar el método simplex. La tabla final T' se produce partiendo de T por una secuencia de operaciones elementales de renglón, con la limitante que las únicas operaciones que involucren al último renglón, reemplazan a este renglón por sí mismo más un múltiplo de un renglón superior. Esto significa que elrenglón inferior de T' es igual al último renglón de T másuna combinación lineal de los renglones superiores deT. El renglón inferior deT essólo [-c' O' O] y es posible separar al último renglónde T' como [d' y*T u]del mismo modo. Se ha demostrado que hay algún v tal que
[aT
U ] = [-C'
O'
O]
+ vT[A
I b].
La regla para multiplicar matrices separadas dice que
dT = -cT
+ vTA,
y*' = y T ,
y
U = v'b.
516
11
I
Programaci6n lineal
Ahora, recordando lo que significa para el método simplex el terminar en la tabla T’: el renglón inferior (exceptuando posiblemente a u ) es no negativo, y u es igual al valor óptimo c,Tx, ya que los elementos diferentes de ceroel en renglón inferior de T corresponden a los elementos cero(no básicos) dex, de acuerdo a(1 1.IO). Así, d 2 O , y* 2 O y vT = y*T,de lo cual sesigue que
Es decir que y* es un vector factible para elprograma lineal dual. De u = v% y c,Tx, = u para la x, óptima, y ya que v = y*, entonces bTy* = cTx* para la x* óptima formada de lax, óptima. 2O y Pero entoncessi y es algún vector factible para el programadual y con ATy 2 c, como Ax* 5 b, se obtiene como en casos anteriores’
bTy 2 (Ax*)~Y =x * ~ A ~ 2Y X * ~ C= bTy*,
Pero si bTy 2 bTy* para toda y factible, entonces y* es solución del programa lineal dual. m
(11.51)
Ejemplo. Considere el programa lineal primal maximizar a sujeta a x1
20,
+ 2x2 + 3x3 2x1 + x2 + 6x3 I 1 x1 + 2x2 + xg I I 2x1
x2
x3 20,
20,
y a su programa lineal dual
minimizar a
y, 2y,
sujeta a
+ +
y2
y, 2 2
+ 2Y2 2 2 6Yl + Y 2 2 3 Y,
y1 2 o,
y , 2 o.
La tabla inicial para la versión de variables deholgura del primal es 2
1 -2 -2
6 1
1 2 -3
1
0 / 1
o
o
010
Se toma como pivote al elemento (1, 3) y se produce la tabla
11.4
I Dualidad
517
Se toma como pivote al elemento (1, 1) y se produce la tabla
1 y x3 = O , de modo que la solución en las variables x es x1 = f , x2 = 3, mientras que la solución en las variables y viene del cuarto y quinto elementos delúltimo renglón, es decir,y1 = yz = 4. Observe que, como se afirmó, el valor mínimo y , + yz para el dual (3) es igual alvalor máximo 2x, + 2xz + 31, para el programa primal.
Uso computacwnal de
la dualidad
La relación primal/dual puede ser muy útil computacionalmente, ya que la tabla simplex para la solución de uno de ellosda una solución del otro (porque el dual del dual es el primal). Así, en la práctica es posible resolver cualquiera de los programas lineales que sea más conveniente computacionalmente. Suponga, por ejemplo, que se tienen mucho másrestricciones que variables, método simplex necesita hacereliminaciones de modo que p >> q. Cada paso del en un gran número p de renglones, y el método simplex revisado necesita inversas de grandes matices dep x p . Sin embargo, el programadual esdeq X p ; por ejemplo, el método simplex revisado sólo necesita inversas de lasmatrices aplica a este dual. Una vez resuelto de q x q que son mucho menores cuando se el dual de q X p , se podrá leer una solución al primal de la tabla final como en el teorema clave 11.50. La resolución del dual puede ser mucho más eficiente cuando p >> q. Suponga, como otro ejemplo, que se deben resolver varios programas lineales que sólo difieren por laadición de nuevas restricciones,una situación que se presenta en las aplicaciones. Unavez que seha encontrado una solución óptima de usarse para resolver el para un programa primal, no es clara la forma enha que siguiente programa con mayor facilidad, porqueesa solución óptima no necesita satisfacer la restricción adicional. Sin embargo, agregar una restricción al primal significa solamente agregar una variable al dual, y la solución óptima del primer dual da un vector factibleinicial para el nuevo dual sólo igualando a cerola nueva variable dual. El programa dual puede manejar fácilmente esta situación.
518
11
(1 1.52)
/
Prograrnaci6n lineal
Ejemplo. Suponga queen el programa linealprimalmodelo(11.1) que mostró un problema de planeación de producción, la gerencia de planta se da cuenta que debido a reglamentos gubernamentales de seguridad sobre sus productos, se necesitará un paso adicional de manufactura en un cuarto tipo de máquina, y que las necesidades de tiempo para la nueva máquina, así como los requisitos de uso de la máquina para cada producto, se traducen en la restricción adicional
+
1 . 5 ~ ~2x, 5 7 0 .
La solución óptima original es x1 = 15, x2 = 25, pero ellas no satisfacen la nueva restricción. En lugar de reescribir el método simplex desdex, = xz = O para resolver el nuevo programa lineal formado al unir esta nueva restricción a las de (1 l.l), se tratará mejor el programa dual (replanteado en lenguaje de maximización): maximizar -70y1 - doy2 - 9 0 ~ 3- 7oY4 sujeto a las restricciones
Esto difiere del programa dual original (1 1.23) sólo por la presencia de una variable adicionaly,. El resultado final de lasección 11.1fue demostrar que y1 = O , y 2 = 30, y3 = 10 era un vector óptimo factible para el dual original; esto, juntocon y, = O da un vector factible (aunque ya no óptimo) para el nuevo programa dual. Es, en efecto,un vector bhsico factible porque tiene dos elementos cero. Agregando variables de holguray, y y 6en las desigualdades se produce una tabla inicial
[:
1 1
1
3 2
3
2 70
90 40 70
1
O140 -1160. O 0
-1 O O
Las variables básicas (diferentes de cero) son yz = 30 y y3 = 10, de modo que las columnas de yz y y3 deberán ser matrices columna unitarias. La eliminación de Gauss-Jordan produce una tabla que cumple con (11.10): 5 1 0 5 -3 1 ’ 4 2 21 0 1 $ L2 - I2 ’1 15
O
O
-I2
15
25
-2100
11.4
I
Dualidad
519
El método simplex lleva a tomar como pivote al elemento (1, 4), 2 lo que resulta en la tabla 2 -1
20
4
0
-15
1
o
2
O
O 2612
1
-5
5
$
2
'
5 1
-31
j
2].:
-2040
Como los elementos del renglón inferior son no negativos (además de posiblemente la última columna), se tiene una solución y 1 = y2 = y5 = y 6 = O, y3 = 4 y y5 = 24. Esto, sin embargo, no era lo que se buscaba;se resolvió el dual para resolver el primal (eldual del dual). De acuerdo con el teorema clave 11.50, es posible leer la solución primal de los elementos en el renglón inferior bajo las variables de holgura: x1 = 12, x2 = 26. Este plan de producción da una nuevautilidad máxima de 40( 12)+ 60(26) = 2040. El uso del dual sólo necesitó de un paso simplex en una tabla de 3 x 7; el uso del primal hubiera requerido de dos pasos simplex en tablas de 5 x 7. Teoría de la dualidad
La teoría de la dualidad en programación lineal es elegante y profunda, con interpretaciones -como se vio en la sección 11.1 en el problema e i e m p b algebraicas, geométricas y de aplicación. Ya se han desarrollado y demostrado algunas partes de estateoría -por ejemplo el teorema 1I .48 y el teorema clave 11.50. Se reenunciará algo de estoy se presentarán algunos hechos adicionales en los siguientes resultados. (1 1.53)
520
11
I
Prograrnaci6n h e a l DEMOSTRACION
a) Véase el teorema 11.49. b) Calcular simplemente: cTx 5 (yTA)x = yT(Ax) 5 y% = bTy. c) Si x es factible parae1 primal, entonces, por b), cTx5 bTy*,lo que esigual el a cTx*por hipótesis; pero crx S cTx*porque todax factible para primal parala significa que x* es óptimaparael primal. De manera semejante es y* óptima del dual. d) Esto es consecuencia inmediata de b). e) Por d), ambos programas están acotados; por el teorema clave 11.44 sobre soluciones simplex, ambos programas tienen soluciones óptimas que se pueden obtener por el método simplex. El teorema clave 11.50 sobre el primal, el dual y el método simplex, muestra que el mínimo (bTy*en ese teorema) parael dual es igual al máximo(cTx*allí) para el primal. f) Si el dual tiene un vector óptimo, entonces el teorema clave 11.44 establece que se puede encontrar por el método simplex, y el teorema clave 11.50 establece que de esa tabla final es posible construir un vector (óptimo) factible parael primal, el cual por hipótesis no existe; por lo tanto, el dual no puede tener un vector óptimo.De modosemejante para el enunciadoalterno. m (11.54)
Ejemplo. Considerar las desigualdades 2x1 x, 2 70
+ x 1 + x, I 4 0 X1 + 3X, 2 90 x , 2x02,2 0
y la pregunta es si existe algún vector que las satisfaga. Se agregará una función a maximizar, M = cTx, en donde c = [l 1]*, y se considerará el dual (multiplicando las 2 desigualdades por - 1 para obtener la forma adecuada de encontrar al dual):
minimizar a -7Oy, + 4Oyz - goy3 sujeto a las restricciones
-2Y1 -Y1
+ Y,
-
Y3 2 1
+ Y2 - 3Y3 2
y, 2 o,
y, 2
1
o,
y3 2 o.
Si se hacey,= 2a,y z = 1 + 5a, y y3 = a,entonces las restriccionesdel dual se satisfacen si a 2 O: también
11.4
I
Dualidad
521
lo cual no está acotado inferiormente porque se puede tomar arbitrariamente una (Y grande y positiva. Por el teorema clave 11.53 d), no podrán existir puntos factibles para las restriccionesprimales Hay conexiones elegantes entredualidad en programación lineal y la teoría dea lsdesigualdades lineales, especialmente los llamados leoremas dela alternativa (algo parecido a la alternativa de Fredholm para las igualdades). Como un ejemplo de la conexión, suponga que esimposible encontrar una x que satisfaga a Ax S O, x 2 O y cTx > O . Como x = O satisface alas primeras dos desigualdades, esto significa que O es solución del programa lineal de maximizar cTx sujeto aAx 1. O y x 2 O. Si este programalineal fuera no degenerado-que no lo es; dehecho, es degenerado- se podría usar f) del teorema de la teoría de la dualidad para deducir quehay un vector y que es factible parael dual, demodo que ATy2 c, y y 2 O. Aunque aquí no se ha desarrollado una teoría lo suficientemente poderosa para probarlo,es cierto que taly existe. También es fácil de ver que es válida la inversa: si existe esa y, entonces no puede haber una x como arriba porque, si la hubiera, se tendría que O < cTx I(yTA)x = yT(Ax) 1. O , una contradicción intrínseca. De modoque el siguiente teorema de la alternativa es de hecho válido ls herramientas para una corta demostración). (aunque se carece dea (1 1.SS)
Teorema (un teorema dela alternativa). Sean A dep X q conp 2 q y q 2 1y c dos matrices reales. Entonces será válida exactamente una de lassiguien-
tes alternativas: 1. Existe una x que es solución de Ax IO , x 2 O y cTx > O ; o bien 2 . Existe una y que es solución a ATy B c y y B O. Hay muchos teoremas de este tipo relacionados entre sí, algunos de los cuales son equivalentes. Se concluirá con uno de los más famosos como un corolario del teorema anterior. Geométricamente dice que si un vector d, no puede formar un ángulo agudo con ningún vector z que forma ángulos obtusos con cadauno de los vectoresbi de cierto conjunto, entoncesd es una combinación lineal no negativa de las bi. (1 1.56)
Corolario (teorema de Farkas de la alternativa).Sean B y d matrices reales de p X y y q X 1 respectivamente. Entonces ocurriráuna de las siguientes dos alternativas: Ya sea que 1. exista una z que e s solución a Bz 5 O , dTz > O;
o bien que 2 . exista una y que es solución de BTy = d, y
2
O.
522
I
11
Programaci6n lineal DEMOSTRACION. SeaA = [B-B], cT = [dT -d'], X' = [u' v']. Entonces 1) equivale a resolver a Ax 5 O , x 2 O, en dondepodemos escribir z = u - v con u L O y v L O. Así, por el teorema 113 , el no resolver a 1) es equivalente adespejar a y con ATy L c y y 2 O ; pero ATy 2 c es precisamente
lo que es equivalente a By'
=
d.
PROBLEMAS 11.4
D
1. Reescribiendo el programa en forma estándar, encuentre el dual del pro-
grama lineal maximizar a F z sujeto a las restricciones BZ = d,
z 2 O.
2. Reescribiendo el programa en forma estándar, encuentre el dual del pro-
grama lineal (no hay restricciones de no negatividad) maximizar a frz sujeto a las restricciones BZ = d.
D 3. Encuentre eldual de cadauno de los siguientes problemas de lasección 11.2: a) problema 1 b) problema 3 c) problema 5 4. Encuentre eldual del dual de (1l. 1) y demuestre que es precisamente (1 l . 1)
de nuevo. 5. Utilice el método simplex en el dual para resolver el programa lineal
maximizar x1 + x2 sujeto a las restricciones
+ x2 I10 x 1 + 2x2 I50 5x1 + x2 I 160
-x1
x 2 5 15 x1 2 o,
x* 2
o.
11.4
I
Dualidad
523
6. Suponga queA es depX q en un programa lineal en formaestándar,de modo que latabla para la versión de variables de holgura del primal es de(p + 1) x (q p 1) mientras que la tabla para la versión de variables holgura de del 1) X (q p 1). Cuentelasoperacionesaritméticas dualesde (q
+ +
+
+
+
implicadas en laeliminación Gauss-Jordan en una columna de cada tablay entonces expliquepor qué, porlo general, es mejcr resolver el dual en lugar del primal cuando p >> q .
7. Adjunte una nueva restricción 4x1 + x, I80 al programa lineal (1 1.1) y entonces use la dualidad como en el ejemplo 11S 2 para resolver el primer primal. 8. Use el método simplex para resolver el dual en el ejemplo 11.54 y de allí tiene vectores descubra que el dual no es acotado y que elprimalno factibles. 9. Use la dualidad para demostrar queel programa lineal delproblema 16 de la sección 11.3 no tiene solución óptima. D 10. Utilice la dualidad para descubrir la naturaleza de o la solución al programa lineal minimizar -x1 + 2x, sujeto a las restricciones
+
-5X1
x1 2
o,
X2
22
x2 2
o.
11. Utilice la dualidad para descubrir la naturaleza de o la solución al programa lineal maximizar x1 - x,
sujeto a las restricciones -2x,
+
x2 I 2
x1 - 2x2 I 1
x1
+
x1 2 o,
x2
5 4
x2 2 o.
D 12. Se usó el teorema 11S 5 para demostrar e¡ teorema de Farkas sobre la alternativa; demuestre que esos dos teoremas son equivalentes usando el teorema de Farkas para demostrar el teorema 11.55. 13. Aplique adecuadamente el teorema de Farkas sobre la alternativa [z' a a]' para demostrar el siguiente teorema sobre la alternativa: Ya sea que hay una solución a Bz S f,
524
11
/
Programaci6n lineal
o bien, hay una solución a BTw pero nunca ambas alternativas. 11.5
=
O, w
2
O, Fw
= - 1,
PROBLEMASVARIOS PROBLEMAS 11.5
1. Demuestre que el .programa lineal
+ 0 . 0 2 ~-~6x4
maximizar 0 . 7 5 ~-~ 15Ox, sujeto a las restricciones $XI
- 60x2 - &x3
+XI
- 90x2 - &X3
+ 9x4 IO + Io 3x4
x3
I 1
todas las xi e O es degenerado. Cuando se aplica el método simplex, hay “empate” para decidir cuál renglón se debe usar en la eliminación; si se decide el empate escogiendo el renglón máscercano a la parte superior de latabla, entoncesel método simplex se hace cíclico y nunca converge. Demuestre esto aplicando el método simplex. (La degeneración se presenta a menudo en las aplicaciones, pero que seacíclico ocurre rara vez en estas situaciones; el inventor del método simplex, George Dantzig, recuerdahaberse encontrado sólo con un caso en la práctica desde queinventó el método.) 2. El programa lineal minimizar cpTx, sujeto a las restricciones A,x,
x, 2 O,
= b,
en donde A, es de m X n y ( n / 2 ) < m < n, y A, tiene rango completo m. Demuestre cómo reduce esto a un problema mús pequefio en tamaño (n - m) X n como sigue. Demuestre que sepuede encontrar una matriz S de n X n , tal que A,S
=
[B O],
en donde B es de m x m y no singular. Sea y de modo que y
=
S-lx,
=
[;:I,
= S-lx,,
S = [S,
y sepárense las matrices S,],
11.5
I
Problemas varios
525
en donde y, está en Rm, y, estáen R""", S, es denX m y S, es den X (n - m ) . Demuestre entonces queA,x, = b, y que x, 2 O si y sólo si y, = B"b Y Slyl + Sg,z O. Deduzca que el programa lineal primal es equivalente a minimizar cTS2~2 sujeto a que S,y2 2 -S,B"b, cuyo dual es maximizar -(S1B"b)Tx2 sujeto aque STX, = Syc,
x2 L O
y la matriz de las restriccionesde igualdades ahora sólo de (n - m) X n (esta técnica fue comunicada por David M. Gay). 3. a) Utilice el métododel problema dos sobrela forma de variables de holgura
del problema modelo(1l . 1) para cambiar de cinco variables y tres igualdades a cinco variables y dos igualdades. b) Resuelva el programa lineal en la nueva forma y úselo para obtener una solución al programa original. D 4. Una biblioteca universitaria abre las 24 horas del día, y cada bibliotecario a las 12 de la noche, 4 trabaja un turno continuo de ocho horas comenzando AM, 8 AM, 12 del medio día, 4 PM u 8 PM. Para manejar la demanda de servicio, la biblioteca necesita el siguiente número de bibliotecarios trabajando durantevarios periodos de tiempo : 3 de media noche a 3:59 AM; 2 de 4 AMa7:59AM;lOde8AMal1:59AM;14demediodíaa3:59PM;8de4PMa 759 PM; y 10de 8 PM a 11:59 PM. Sean xl, x,, . . . ,x6 el númerode personas que inician su turno de ochohoras a la media noche, a las 4 AM, . . . , 8PM respectivamente, planteé como un programa lineal elproblema de minimizar el número total de bibliotecarios necesarios para operar la biblioteca. Demuestre que unasolución óptima está dada porxl= 2, x, = O , xg = 14, x4 = O, xg = 8, x6 = 2 una vez que el sistema esté en operación. 5. A menudo se han discutido maneras de escogera z para que Bz quede lo más cerca posible a w en el sentido dela norma dos, estando dadasB y w; esto es sólo elproblema de mínimos cuadrados que se puede resolver, por ejemplo, con las descomposiciones QR o en valores singulares. Se puede usar la programación lineal para resolver estoen un sentido de normam. Para hacer que el máximo de los valores absolutos de dos variables u y v sea lo más pequeño posible, se puede minimizar a m sujeta a las restriciones u S m, --u S m,vSmy-vIm. a) Explique por qué esto minimiza al máximo de J u Jy a Jul. b) Utilice esta ideapara formar un programa lineal cuya solución determine a la z que minimiza a IlBz - wllm. D 6. La programación lineal se puede usar de modo semejante a corno se usó en el problema cinco, para determinar la z que minimiza a llBz - wII1. Para minimi-
526
11
/
Programaci6n lineal
zar a IuI + tul, se puede minimizar a m , + m2 sujeto a las restricciones K Im,, "u Im,, u Im,, -u Im,. a) Explique por qué esto minimiza a /u1 + Iv(. b) Utilice esta idea para formar un programa lineal cuya solución determine a una z que minimice a llBz - wI(,. 7. Utilice el problema cinco para resolver el siguiente problema. Se supone que
el número N de divisiones celulares en determinado organismo en cada periodo de tiempo es aproximadamente N , + bp, en donde p es la cantidad que se añade de cierto estimulante del crecimiento, y N , y b son parámetros del modelo a determinar. Se efectúaun experimento usando tres cantidades distintasp, = 1, p 2 = 3 , p , = 6 del estimulante, y se encuentra que los números respectivos de divisiones celulares son N , = 40, N , = 102 y N , = 190. Determine los parámetros del modelo N , y b para minimizar elerror máximo en el modelo para los tres experimentos, esto es, para minimizar a máx { I N ,
+b
-
401, IN,
+ 3b - 1021,
IN,
+ 6b
-
1901)
8. Suponga que una compañía panificadora tiene tres panaderías con capacida-
des deproducción de 5000,7000 y 9000 panes diarios. Suponga también que la empresa embarca a cinco bodegas para su ulterior distribución, y que las demandas diarias en esas bodegas son de 2000, 6000, 8000, 4000 y 1000. Debido a las diferentes distancias entre las tres panaderías y las cinco bodegas, los costos detransporte varían dependiendo de quién manda y cuál es el destino. Suponga que el costo monetario de remitir 1000 panes desde la elemento (i,j) es la siguiente matrizde costo: panadería i hastala bodegajes el 70 60 30
30 50 20
20 80 50
40 30 70
20. 40 10
Construya un programa lineal para determinar cuántos panes habrá que mandar cada día desde cada panadería a cada bodega para satisfacer las demandas de las mismas con el menor costo. (Estees un ejemplo del famoso problema de transporte y es de enorme importancia práctica para grandes negocios.) Resulta que la solución es que la panadería i debería enviar a la bodegaj el número de panes especificado por el elemento i, j de la siguiente matriz solución X: O O 2000
o 3000 3000
O
5000 O
4000
3000
o
1000
11.5
I Problemas varios
527
El costo mínimo es de $650 diarios. Verifique que esta solución sea factible para el programa lineal y que su costo sea el citado. D 9. Suponga que x* es óptima para elprimal y que y* es óptima para el dual de la definición 11.48, y sean S, y S, las variables de holgura correspondientes: Ax* + S, = b, y ATy* - S, = c, siendo S, 2 O y S, 2 O. a) Demuestre la condicibn de complementaridad para programas lineales:
s:y*
= s;x*
= o.
b) Deduzca quecT es una combinación lineal no negativa de los renglones de A correspondientes a aquellas restricciones satisfechascomo igualdades en x*, y de -e? para aquellas i para las que (x*)* = O.
Apéndice uno
Respuestas a problemas seleccionados Capítulo1
Problemas 1.1
1. a) 7;. d) 6 - 4i. 4. b) y . f) O.
g) -46 - 9.;
k) -$ - i .
Problemas 1.2
1. x = 6,z = 2. 4. (A + A)i, = (A)ij + (A),, = 2(A),, = (2A)ij. 8. (A + O)ij = (A)¡, + (O)ij = (A)¡, + O = (A)ij para toda A. 11. (A + (-A)),. = (A)i, (-A)i, = (A)¡, (-(A)ij) = O = (0);j. 14. (( -r)A)ij = (-r)(A)¡, = -(r(A)¡,) = -(rA)ij = ( -(rA))¡,.
+
+
Problemas 1.3
4. (A)3j = 4(A)lij> y (AB),, = O es equivalente a Bx IO , c'x > O siendo B
=
[-;l.
Esto
es equivalente a no poder resolver B'y = c, y 2: O por el teorema de Farkas. Pero lo anterior es sólo [AT-I]y = c; separando a y para que yT = [y: yg, estose transforma en A'y, = c + y2 2 c, siendo y1 2 O .
Problemas I I S 4. Minimice x1 + x2 + x3 + x4 + x5 + x8
sujeto a las restricciones X1 +x62 3 x1
+ x2 x2
2 2
+ x3 x3
2 10
+ x4 x4
+ x5 x5
+
2 14 2 8 x6 2 10
Toda x i 2 0 : Para mostrar que la solución factible dada sea óptima, forme la tabla y póngala en el formato acostumbrado para las variables básicas actuales.(x,, x3, x5, x6, x?, .x9); observe que no hay elementos negativos en el reglón inferior (excepto en la irrelevante columna final). 6. b) Minimice [OT lT][zT m'] - e n donde 1 = [ l 1 . 1]Tsujeto a las restricciones Bz-m< w -Bz - m "w. 9
552
Apendice uno 9. a) Por el teorema clave 11.53 e), cTx* = bTy*. Por lo tanto, cTx* = (ATy* - sJTx* = Y * ~ A x *- s:x* = y*T(b - S,) - s:x* = bTy* -$y* - sFx*de modo que STY* s;x* = O. Pero todas las sx, S,, x* y y* son no negativas, de modo que S,',* = s:x* = O. b) La ecuación ATy* - S, = c resulta en cT = Y * ~ A- S?, lo cual explícitamente dice
+
que cTes una combinación lineal no negativa de todos los renglones de A y todos los de -e? Siendo S, 2 O y y* 2 O, des,Ty* = O se sigue que (y*)t = O siempre que (Sx)¡ > O ; esto es, el i-ésimo renglón de A en realidad no está relacionado con la representación de cT arriba si la restricción corresponde a ese renglón no es una igualdad en x*. De modo semejante, SF.* = O resulta en que( s , ) ~= O siempre que (x*)i > O ; esto es, aquellas -e: para las cuales (x*)( > O en realidad no están relacionadas en la representación anterior de cT.
Apéndice dos
Bibliografía leoria de Clgebra lineal y matrices
1. F. R. Gantmacher, Theory of Matrices, Vols. I. 11, Chelsea (1959). 2. P. R. Halmos, Finite-Dimensional Vector Spaces, Van Nostrand (1958). 3.M. Marcus and H. Minc, A Survey of Matrix Theory and Matrix Inequalities, Allyn and Bacon (1 964). 4. T. Muir, Determinants, Dover (1960).
Aplicaciones de Clgebra lineal y matrices
5. A. Albert, Regression and the Moore-Penrose Pseudoinverse, Academic Press (1972). 6. N. R. Amundsen, Mathematical Models in Chemical Engineering; Matrices and Their Applications, Prentice-Hall (1966). 7.R.Bellman and K. R. Cooke, ModernElementary DzSferential Equations, 2nd edition, Addison-Wesley (1971). 8. M. Braun, Drfferential Equations and Their Applications, Springer Verlag (1975). 9. C. B. Dantzig, Linear Programming and Extensions, Princeton University Press (1963). 10. R. A. Frazer, W. J. Duncan, and A. R. Collar, Elementary Matrices and Some Applications to Dynamics and Diferential Equations, Cambridge University Press (1938). 11. F. R. Gantmacher, Applications of the Theory of Matrices, Interscience (1959). 12. F. A. Graybill, An Introduction to Linear Statistical Models, Vol. I, McGraw-Hill (1961). 13.R. Haberman, Mathematical Models, Prentice-Hall (1977). 14. G. Hadley, Linear Programming, Addison-Wesley (1962). 15. J. Heading, Matrix Theory for Physicists, Wiley (1960). 16. W. C. Hurty and M. F. Rubinstein, Dynamics of Structures, Prentice-Hall (1964). 17. S. Karlin, Mathematical Models and Theory in Games, Programming, and Economics, Vols. I, 11, Addison-Wesley (1959). 18. N. Karmarkar, “A new polynomial-time algorithm for linear programming,”Combinatorica, Vol. 4, No. 4, 373-395 (1984). 19. J. G. Kemeny and J. L. Snell, Finite Markov Chains, Van Nostrand (1960). 20. J. G. Kemeny and J. L. Snell, Mathematical Models in the Social Sciences, MIT Press (1972). 553
554
Apendice dos 21. J. G. Kemeny, J. L. Snell, and G. L. Thompson, Introduction to Finite Mathematics,PrenticeHall (1957). 22. I. Linnik, Method of Least Squares and Principles of the Theory of Observations, Pergamon Press (1 961). 23. D. Maki and M. Thompson, Mathematical Models and Applications, Prentice-Hall (1973). 24. O. L. Mangasarian, Nonlinear Programming, McGraw-Hill (1969). 25. H. C. Martin, Introduction to Matrix Methods of Structural Analysis, McGraw-Hill (1966). 26. M. Z. Nashed, Generalized Inverses and Applications, Academic Press (1976). 27.L.A. Pipes, Matrix Methods in Engineering, Prentice-Hall (1963). 28. C. R. Rao, Advanced Statistical Methods in Biometric Research, Wiley (1952). 29. J. Robinson, Structural Matrix Analysis for the Engineer, Wiley (1966). 30. J. T. Schwartz, Lectures on the Mathematical Method in Analytical Economics, Gordon and Breach (1961). 31. S. R. Searle, Matrix Algebra for the Biological Sciences (including Applications in Statistics), Wiley (1966). 32. S. Senturia and B. Wedlock, Electronic Circuits and Applications, Wiley (1975). 33. M. Simonnard, Linear Programming, translated by W. S. Jewell, Prentice-Hall (1966). 34. G. Strang, introduction to Applied Mathematics, Wellesley-Cambridge Press (1986). 35. A. M. Tropper, Matrix Theory for Electrical Engineers, Addison-Wesley and Harrap(1962). 36. R. E. Walpole and R. H. Myers, Probability and Statistics for Engineers and Scientists, 2nd edition, Macmillan (1978). 37. A. V. Weiss, Matrix Analysis for Electrical Engineers, Van Nostrand (1964).
CLlculos matriciales y de Llgebra lineal
38. A. Bjorck, R. J. Plemmons, and H. Schneider, Large-Scale Matrix Problems, North Holland (1981). 39. J. R. Bunch and D. J. Rose (eds.), Sparse Matrix Computations, Academic Press (1976). 40. J. J. Dongarra, C. B. Moler, J. R.Bunch, and G. W. Stewart, LINPACK User’s Guide, SIAM Publications (1979). 41. I. S. Duff and G. W. Stewart (eds.), Sparse Matrix Proceedings, SIAM Publications (1979). 42. G. E. Forsythe, M. A. Malcolm, and C . B. Moler, Computer Methods for Mathematical Computation, Prentice-Hall (1977). 43. G. E. Forsythe and C. B. Moler, Computer Solution of Linear Algebraic Systems, PrenticeHall (1967). 44. B. S. Garbow, J. M. Boyle, J. J. Dongarra, and C. B. Moler, Matrix Eigensystem Routines: EISPACK Guide Extension, Springer Verlag (1972). 45. J. A. George and J. W. Liu, Computer Solution of Large Sparse Positive Definite Systems, Prentice-Hall (1981). 46. G. H. Golub and C. F. Van Loan, Matrix Computations, Johns Hopkins University Press (1983). 47. L. A. Hageman and D. M. Young, Jr., Applied Iterative Methods, Academic Press (j9P! j. 48. A. S. Householder, The Theory of Matrices in Numerical Analysis, Blaisdell (1964).
Bibliografía
555
C . L. Lawson and R. J. Hanson, Solving Least Squares Problems, Prentice-Hall (1974). Prentice-Hall (1980). 51. D. Rose and R. Willoughby (eds.), Sparse Matrices and Their Applications, Plenum Press
49.
50. B. N. Parlett, The Symmetric Eigenvalue Problem, (1972).
52. B. T. Smith, J. M. Boyle, J. Dongarra, B. Garbow, Y. Ikebe, V. C. Klema, and C. B. Moler, Matrix Eigensystem Routines: EISPACK Guide, 2nd edition, Springer Verlag (1976). 53. 54. 55. 56. 57. 58.
C . W. Stewart, Introduction to Matrix Computations, Academic Press (1973). R. S. Varga, Matrix Iterative Analysis, Prentice-Hall (1962). J. H. Wilkinson, Rounding Errors in Algebraic Processes, Prentice-Hall (1963). J. H. Wilkinson, The Algebraic Eigenvalue Probiern, Oxford (1965). IMSL mathematical software, International Mathematical and Statistical Laboratories, Inc., 7500 Bellaire Blvd., Houston, TX 77036. MATLAB matrix software, TheMath Works, Inc., 158 Woodland St., Sherborn, MA 01770.
59. NAG mathematical software, Numerical Algorithms Groups, Inc., 1101 31st St., Downers Grove, IL 60515.
lndice de símbolos A, X, a, x, . . .
D det A, det(A) diag(d,, . . . , dp) exp en exp(t) exp en exp(A) ei Eij, EiXc), EXc) 556
negritas mayúsculas: matrices -definición l. 1 negritas minúsculas: matrices de renglón y de columna y vectores definiciones 1.1 y 5.8 cursivas: números complejo conjugado de A -sección l . 1 transpuesta de A -definición 1.20 transpuesta hermitiana de A definición 1.20 inversa de A -definiciones 1.34 y 1.26 pseudoinversa de A definición 8.25, teorema clave 8.26. matrices aumentadas en programas lineales -( 11.30), (11S ) cofactor ( y , j ) de A definición 4.26 matriz adjunta de A -definición 4.38 conjunto de los números complejos -sección l . 1 espacio vectorial complejo de matrices columna p X 1 -ejemplo5.9 c), definición 5.15 curva de nivel de una forma cuadrática en x -sección 10.2 curva de nivel de una forma cuadrática en 4 -sección 10.2 espacio vectorial real de funciones continuas diferenciables k veces en el intervalo [ u , b] -ejemplo 5.9 e) número de condición de A -teorema 6.29 isomorfismo de coordenadas con respecto a la base ordenada B definición 5.35 a menudo una matriz diagonal definición 1.3 determinante de A -definición 4.27 matriz diagonal p X p definición 1.3 función exponencial: exp(r) = et función exponencial de una matriz -teorema 9.54 matriz columna unitaria definición 1.43 matrices elementales -definición 3.31
lndice de símbolos
557
matriz de Householder definida por w -problema 15 de la sección 5.8, definición 7.35 matrices de iteración paralos métodos de Jacobi, Gauss-Seidel y SOR-ejemplo 9.72, teorema 9.73 imaginario puro, J-l-sección 1.1 enteros matriz identidad r X r definición l . 18 matriz identidad -definición l. 18 transformación lineal idéntica -problema 2 de la sección 6.1 forma de Jordan-teorema clave 9.4, (7.26) bloque de Jordan definición 9.3 matriz triangular inferior en las descomposicionesLU -sección 3.7, definición 1.3 multiplicidad algebraica de un eigenvalor -definición 7.8 símbolo para un ejemplo o problema o resolver con computadora espacio nulo de una transformación lineal -definición 6.5 generalmente una matriz unitaria-definiciones 7.29 y 7.32, (7.42),y teorema
clave 8.6
Q en QJQ"
y Q"AQ
matriz no singular -definiciones 1.34 y 7.20, teorema clave 7.14 matriz de permutación definición 3.51 proyección ortogonal sobre un subespacio -teorema 5.71 espacio vectorial real de los polinomios de grado arbitrario-ejemplo 5.99 espacio vectorial real de polinomios de grado estrictamente menor que k -ejemplo 5.9 g) matriz con columnas ortogonalesu ortonormales en descomposiciones QR -teorema clave 5.82 matriz no singular definición 1.34, teoremaclave 9.4 formas cuadráticas definición 10.13, teorema clave 10.14, (10.5) QR definición 1.3,teorema matriz triangular superior en descomposiciones
clave 5.82 R RP
conjunto de los números reales espacio vectorial real de matrices columnap X 1 -ejemplo5.9 b), definición 5.15 matriz de rotación elemental -definición7.40 superficie de nivel de una forma cuadrática en x -sección 10.3 superfieie de nivel de una forma cuadrática en 5 sección 10.3 mayúsculas script: generalmente transformacioneslineales definición 6.1 transformación adjunta de.F-definición 6.10 transformación inversa de 9- -teorema 6.9 traza de A -problema 6 de la sección 1.2, teorema 7.6 c) matriz unitaria en la descomposición en valores singulares -definición 7.29, (8.15), teorema clave 8.19
558
lndice de símbolos
V enUEVH y VEHUH
“Ir, w,. . .
enAi enF* -en5 y A en u +
* 3
x
m D
.
.
matriz unitaria en descomposiciones en valores singulares -definición 7.29, (8.15), teorema clave 8.19 letras mayúsculas script quegeneralmente denotan espaciosvectoriales -definición 5.8 generalmente subespacios -definición 5.11 matriz cero o vector cero “definiciones 1.9 y 5.8 transformación lineal cero -problema 3 de la sección 6.1 eigenvalor -definición 7.4 matriz diagonal de eigenvalores -definición 1.3, teorema clave 7.14 multiplicidad geométrica de un eigenvalor -definición 7.12 radio espectral de A “definición 9.26 cociente de Rayleigh para A en x -definición 10.23 valor singular -teorema clave 8.19 matriz “diagonal” de valores singulares -(8.15), teorema clave 8.19 elemento ( i , j ) de una matriz -definición l . 1 elemento ( i , 1) o (1, i ) de una matriz columna o renglón -definición l . 1 producto interior -definición 5.63, ejemplo 5.64 valor de x después deredondear a t dígitos de punto flotante-definición 3.35 norma de un vector o de una matriz -definiciones 5.54 y 6.22, teorema 5.68 norma de un vector en Y -definición 5.54 normas 1, 2 e 00 de una matriz “definiciones 5.55 y 6.22, problema 7 de la sección 8.4, corolario 10.26 norma de Frobenius de una matriz -problema 8 de la sección 8.4 norma de transformación de una transformación lineal -definición 6.19 paréntesis rectangulares que definen una matriz -definición l. 1 intervalo cerrado de números t que satisfacen a a 5 t 5 b desigualdades para matrices -definiciones 11.28 y 9.32 transpuesta de una matriz “definición 1.20 transpuesta hermitiana de una matriz definición 1.20 inversa de una matriz o de una transformación lineal “definición 1.34, teorema 6.9 pseudoinversa de una matriz -definición 8.25, teorema clave 8.26 transformacion adjunta de una transformación lineal “definición 6.10 complejo conjugado de un número o de una matriz -sección 1.1 vector geométrico -sección 5.1 igualdad aproximada 42.37) final de una demostración ?roblema que tiene respuesta o guía en el apéndice uno
lndice analítico A Ajuste de datos,74-81, 385-386 (véase también Mínimos cuadrados) Algebra de matrices 1-45 Algebra matricial, 1-45 Algoritmo QR. 352 Alternativa, teoremas de la, 521-522, 523 Análisis de error retrospectivo, 120-124 Ancho de banda, 136 (véase también Matriz, banda /de) Angulo (véase Producto interior) Angulo entre vectores, 196,246-247 (véase también Producto interior) Aplicaciones (véase Modelos) Aritméticacomputacional (véase Puntoflotante, aritmética de, dígito-t) Aritmética de matrices, 1-45 B Banach, lema de, o premisa, 300 Base, 216-218 cambio de, 224-225 en representaciones de transformaciones lineales, 289-290 relación entre coordenadasd, 224-225, 290 conjuntos infinitos, 226 definición de, 217 de un conjunto generador, 216-218, 232 de un conjunto linealmente independiente, 219220,232-233
número de vectores, 219 ordenada, 220 ortogonal, 254-274 de una columna o un espacio nulo, 381 representación única de vectores, de una, 218 Base ordenada, 220 (véase también Base) Base ortogonal, 254-274 existencia de la, 258 procedimiento Gram-Schmidt: formulación matricial, 263-266 mediante proyecciones, 256 modificado, 259,272-273 tradicional, 257, 258-259, 263-264, 272-273 representación en términos de la, 255
BIME, 149 (Bibliotecas Internacionalesde Matemáticas y Estadística)
C
Cambio debase, 224-225 (véase también Base, cambio de) Cancelación, ley de, 13-14 Cayley-Hamilton, teorema de, 401-402 Cero: columna, 4 6 , 154,177 matriz, 5,6,13,21,45 renglón, 45,154,177 transformación, 279, 284 vector, 201,203 y ortogonalidad, 249 Cerrada bajo multiplicación por escalares, 205 Cerrada bajo suma de vectores,205 Cholesky, descomposición de, 459 (véase también descomposiciones-LU A = LLr) Cilindro, 454 Circulante, 360 Cofactor (véuse Determinantes) Columna, 1 Combinación lineal, 198,205,208 de los renglones de una matriz, 231 Competencia entre lecherías(véase Modelos, competencia entre lecherías) Complejo conjugado, 2 y la transpuesta hermitiana, 14-15 Complemento ortogonal, 287 (véase también Subespacioortogonala un subespacio dado) Condensación de datos, 382-384 Condición, 126,302-305 (vPasetambién Número condicional;Problema bien acondicionado;Problema mal acondicionado) de rango, 190-191 de sistema de ecuaciones, 126, 190-191,302,303 y número condicional, 303, 306-307 determinante, 189 eigensistemas, 353-358 forma de Jordan de matrices, 403 Congruencia hermitiana, 459, 475 550
560
lndice
Conjunto de soluciones: sistemas de ecuaciones, 162-171 efecto de Ia eliminación de Gauss, 162-163 efecto de transformar, 153,162-163
teorema clave, 166
Conjunto generador, 208-209 como una base, 219-220 definición de, 209 eliminación de un vector, 209-210, 216-217, 232 formación de una base de un. 216-217. 232 justificación, 207-208 número de vectores, 226 Conjunto linealmente dependiente: columnas de una matriz, 231 conjuntos infinitos, 216 definición de, 210 y linealmente dependiente de, 211-212 Conjunto linealmente independiente: bases, 219-220 columnas de una matriz, 231 en la forma reducida de Gauss, 232 conjuntos infinitos, 216 definición de, 210 extensión a una base, 219-220, 232-233 número de vectores en, 218, 219, 220 razón para el, 208-209 subconjunto de, 212 y la no singularidad, 221 y representaciones únicas, 216, 218 Conjunto ortogonal: definición de, 249 independencia lineal, 253-254 que define una proyección ortogonal, 253 Conjunto ortonormal, 249 Contradominio, 278 Convergencias: de potencias de matrices, 299, 407, 408 de sucesión de matrices, 298, 405-406 secuencia de transformación, 299 sucesión de vectores, 241-242 Convolución (véase Producto, convolución) Coordenadas, 220-225 (véasetambién Vector decoordenadas-B) Coordenadas-B, 222 (véasetambién Vector de coordenadas-B) Cramer, regla de, 187 Curva de nivel, 443-449 definición de, 443 relación entre aquélla en, x, y aquélla en 5, I~
448-449
D Demostración, 5 Dependencialineal, 207-216 (véuse también Linealmente dependiente en; Conjunto linealmente independiente) Derivada, 45, 9 0 , 419 Descomposición de matrices mediante eigensistemas, 315, 326-327 (véase también
Descomposición de valor singular) mediante una matriz diagonal,326-327, 366-367 Descomposición de valor singular, 375-385 base para espacio de columna o espacio nulo, 380
casos simples, 377 eigensistema de AAH y AHA, 376, 380-381 existencia de, 378 gradientes proyectados en programación lineal, 441
mínimos cuadrados, 385-387 procesamiento de imagen, 382-384 seudoinversa, 387 trabajo necesario para encontrar la, 381 unicidad de, 391 valores singulares, 380-381 y rango, 381-384 vectores singulares, 380-381, 384 Descomposición-LDU, 151-152 (véase también Descomposiciones-LU) Descomposicionesde matrices (véase Descomposición de matrices mediante eigensistemas; Descomposiciones-LU; DescomposicionesQR; Descomposición en valor singular) Descomposiciones-LU, 127-138,149-159 A = LDLT,152,458 A = LLT,152,459 A = LU, 127-135,458 unicidad del, 136 sin eliminación de Gauss, 151 A = LOU, 128-135 unicidad de, 151 sin eliminación de Gauss, 151 A = PTLDU, 151-152 A = PTLU, 134-135 en la evaluación del det A, 185, 188-189 en la solución de ecuaciones, 139-141 unicidad de, 136 trabajo que involucra el encontrar, 139 A = PTL,Uo, 133-134,136-137 con intercambios, teorema clave, 133 resumen, 134 sin intercambios, teorema clave, 129 software, 147-150 y matrices singulares, 130,134,138 Descomposiciones QR, 263-266 con Q como matriz ortogonal, 345 mediante matrices Householder, 271-273, 345 no normalizadas: A = Q&, 264-266 normalizadas: A = QR, 264-266 y seudoinverso, 389 unicidad (existencia única) de, 276 y mínimos cuadrados, 266-268 Desigualdades de matrices,83,91, 495 (véase también Desigualdades lineales) Desigualdades lineales, 520-522 Determinantes, 174-190 caracterización de matrices definidas, 457-477
lndice cofactor-(i, j ) , 174 con límite superior, 476 definición de, 175 de la descomposición-LU, 184,188-189 de la matriz identidad, 183 de la transpuesta, 176 de matrices adjuntas, 188 de matrices de 3 X 3, 175-176 de matrices de 2 x 2,33,175 de matrices elementales, 179 de matrices hermitianas, 192 de matrices triangulares, 183 de Vandermonde, 192 ecuaciones para gráficas, 184,193 evaluación de, 176,180,183,184,188-189,193 expansión alo largo delrenglón o columna, 177 Hadamard, desigualdad de, 476 interpretación geométrica, 476 menor-(;, j ) , 174 operaciones de renglón, 178-179 potencias de los, 184 producto de, 181-182 propiedades básicas, 177-180 'que representan matrices inversas, 184-186 que representan soluciones de ecuaciones,186187
software, 147-150 y no singularidad, 33,181 Diagonal principal, 2 Diferencia (véase Substracción) Dimensión, 218-220 definición de, 219 intervención geométrica, 197,219 Distancia: entre dos vectores, 240 de vector a subespacio, 253, 264, 273 Dominio, 278 (véasetambién Transformación lineal, dominio de la)
E
Ecuación característica, 317-318, 359 matriz que satisface la, 401-402 Ecuación diferencial, 419-430 modelo de masas acopladas, 66-72 (véase tambien Modelos, masas acopladas) t=Ax A no deficiente, 421-423 A posiblemente deficiente, 423-425 soluciónutilizandolamatriz exponential, 426 x = Ax f, 428-429
+
Ecuaciones homogéneas (véase Sistemas homogéneos) Ecuaciones inconsistentes, 104-105 Ecuacioneslineales (véasetambién Sistemasde ecuaciones) Eficiencia (véase también Medidas de trabajo): cómo encontrar en cálculo de matrices inversas, 42,44,186
561
condensación de datos, 382-384 eliminación de Gauss, 101,110,111,161 eliminación de Gauss-Jordan, 101,104,159 en la solución de ecuaciones, 35, 187 formas de renglón-escalón, 159 programación lineal, 505-506, 517-518, 524-525 Elgensistemas (véase Eigenvalor; Eigenvector) condición, 353-358 de A y de AH,relacionadas, 373 definición de 316-317 de la forma de Jordan, 404-406 de matrices hermitianas,368-370 (véase también Matriz hermitiana) de matrices permutadas, 403 de subespacios invariantes, 311-312, 319-323 de una matriz normal, 368-370 (véase también Matriz normal ) de una matriz simétrica,368-370 (véase también Matriz simétrica) del algoritmo QR,352,405 diagonalización de formas cuadráticas, 443,452 diagonalización de los cocientes de Rayleigh, 46 1
en representaciones simples de transformaciones, 314-315, 328-330, 364, 367 estructura de, 405-406 singularidad de A - XI, 310-311,316-324 software, 351-353 valores mínimos o máximos de una forma cuadrática o delcocientedeRayleigh, 462,464-465, 470471 (véase también Mín-máx,principiosde;Rayleigh, principio de,) y descomposicióndematrices, 284,326-328, 362-366 (véase también Descomposición de matrices mediante eigensistemas) Eigenvalor (véase Eigensistema; Eigenvector): aproximación mediante el cociente de Rayleigh, 46 -462 1 aproximado, 357-358 caracterización de matrices definidas, 457 condición del, 355 definición de, 316-317 de una matriz singular, 325 de una matriz triangular, 325 dependencia funcional de los términos de una matriz, 358 distinto, 318 en el modelo de masas acopladas, 69-71,31 I,473 estructura del conjunto de, 319 generalizado, 474, 478 método de Lanczos para encontrar el, 392 multiplicidad (véase Eigenvalor, multiplicidad algebraica; Eigenvalor, multiplicidad geométrica) multiplicidad algebraica: ls potencias de una macomportamiento de a triz, 413
562
lndice
definición de, 318 y multiplicidad geométrica, 324, 337, 405 multiplicldad geométrica, 318-322 comportamiento de las potencias de una matriz, 413 definición de, 324 y la forma de Jordan, 398 y multiplicidad algebraica, 324, 337, 405-406 para comparación de matrices diferentes, 472473,474
real, 319 simple, 318 valores máximos o mínimos de una forma cuadráticao un cociente de Rayleigh, 462, 465-466,470-471 (véasetambién Mín-máx, principio de; Rayleigh, principio de) y la transpuesta, 325 y oscilaciones, 66-72,310-311 (véase rambién Modelos, sistemas oscilatorios) y potencias de una matriz, 325 y rango, 359 y una matriz inversa, 325 Eigenvector (véase Eigensistemas: Eigenvalor): aproximado, 357-358 condición del, 356-357 conjunto asociado con un eigenvalor, 319-321 conjunto linealmente independiente de, 319-323, 327-328, 347, 405-406
conjunto ortonormal de, 347, 368-370 definición de, 316 de matrices defectuosas, 395 de matrices no defectuosas, 395 estructura del conjunto de, 319-321, 405-406 generalizado, 404-406 izquierdo, 406-408 maximizador o minimizador de una forma cua462, dráticao un cociente de Rayleigh, 465-466,470-471 (véasetambién Mín-mix,principiode;Rayleigh, principio de) real, 319 EISPACK, 352-353 Elementos de una matriz, 1 Eliminación de un elemento, 94 Eliminación de una variable, 92 Eliminación, métodos de(véase Gauss, eliminación de; Gauss-Jordan, eliminación de) Elipse, 440-441,445 Elipsoide, 453 Equilibrio: competencia entre lecherías, 50-51, 53, 170-171, 185
en redes, 60-66,90, 171 Equivalencia de renglón, 115 Errores (\*éase Análisis de error retrospectivo: Inexactitudes: Modelos, errores en) Escalamiento, 121-122, 126 Escalar, 7, 201
Espacio de columna, 234-237 cubierto por vectores ortogonales, 264-265,270 definición de, 235 de matrices que representan una transformación lineal, 291 del producto AB, 240 dimensión y rango del, 235 Espacio de imagen, (véase rambiénTransformación lineal, espacio de imagen) Espacio de renglón, 234-237 definición de, 235 dimensión y rango, 235 equivalencia para dos matrices, 235-237 Espacio nulo, 280-281 (véase también Transformación lineal, espacio nulo) Espacio vectorial, 194-276 (véase también Espacio vectorial complejo; Espacio vectorial real) complejo, 201 (véase también Espacio vectorial complejo) Cp, 202,206 (véase también Espacio vectorial complejo,,C. ) dimensión de, 219 definición de, 201 de transformaciones lineales, 278 dimensión de, 218-220 (véase Dimensión) dimensionalmente finito, 219 ejemplos, 201-202, 278 espacio de producto, 202-204, 207 general, 200-276 p-dimensional, 219 real, 201 (véase también Espacio vectorial real) R p, 202, 206 (véase también Espacio vectorial real, W P) dimensión de, 219 subespacio de, 203-206 (véase también Subespacio) { O } , 206,207,219,228
Espacio vectorial complejo:
c p , 202, 206
producto interior estándar, 248 definición de, 201 isomórfico a CP, 223 Espacio vectorial real: definición de, 201 producto interior estándar, 248 RP, 202,206
Estadística, 441-442, 465, 466-467, 477 Evolución de sistemas: modeloscontinuos, 419-430 (\,Pase tarnbir;n Ecuación diferencial) modelos discretos, 47-60, 289, 311-312,409-419 Existencia de soluciones (\,éase también Soluciones, cómo encontrar; número desoluciones): con programas lineales, 490-492, 519-520 de ecuaciones de transformaciones lineales, 279, 282
de desigualdades lineales, 519-522
lndice
de mínimos cuadrados, 268 ensistemas de ecuaciones, 162-171,370-371, 406-408
e inversas derechas, 31 e inversas (bilaterales), 31 ejemplos de, 104-109 equivalentes a la unicidad, 166-167 matrices normales, 370-371 teorema clave cuando p = q , 166 y rango, 163-164 Exponencial de una matriz, 426-428, 435 comportamiento para una t grande, 427-428 de matrices hermitianas, 477 en la solución de t = Ax, 427
F Farka, teorema de, 521-522,523 Flops (véase Eficiencia) Forma cuadrática, 440-478 (véase también Rayleigh, cociente de) curva de nivel, 401 (véase también Curva de nivel) definida:definidapositiva,semidefinida positiva,definidanegativa,semidefinida negativa,indefinida, 456-458 (véase también Matriz, definida) definición de, 451 diagonal y diagonalización, 452 ejemplos, 440-442 en W , 442-449 gráficas de, 444-448 forma simple mediante el uso de eigensistemas, 443-448 equivalencia sobre C y R 2P, 478 extremamente, 459-474 (véase también Mínmáx, principios de; Rayleigh, principio d e ) forma simple mediante el uso de eigensistemas, 452-458
principio de mín-máx, 470-471 (véase también Mín-máx, principio de) principio de Rayleigh, 465-466 (véase también Rayleigh, principio de) restringida a matrices hermitianas o simétricas reales, 450-45 1 superficie de nivel,453 (véase también Superficie de nivel) valor real, 450-45 1 y el cociente de Rayleigh, 460-461 (véase también Rayleigh, cociente de) Forma Jordan de una matriz, 335 37; 396-404 cómo encontrar la, 399-401, condición para la, 403 de matrices similares, 334, 403 existencia de la, 335-336, 398-399 y el polinomio mínimo, 403-405 y estructura del eigensistema, 336
i”
563
Forma de Schur de una matriz, 349, 362-366, 392 Forma reducida de ecuaciones 93 (véase también Gauss, eliminación de; Gauss, forma reducida de) Fourier, análisis de (véase Fourier, análisis discreto de) Fourier, análisis discreto de, 22-23, 35-36 Fourier, series de, 22-23, 36 Fourier, transformada de (véase Fourier, transformada discreta d e ) Fourier, transformada discreta de, 23, 35-36 Fragmentación de matrices, 433-436 Fredholm, alternativa de, 168,519 Frobenius, norma de, 385
G GAN, 149 (Grupo de algoritmos numéricos) Gauss, eliminación de (véase también Gauss, forma reducida de, Soluciones cómo encontrar sistemas de ecuaciones): costo (véase Medidas de trabajo) intercambios en, 97-99 (véase también Pivote, selección de) buen criterio de, 117-126 necesidad de, 98-100 posibilidad de, 97-98 para ecuaciones, 91-93 para encontrar matrices inversas, 109-112 costo de, 141-142 para la forma reducida de Gauss, 154 para matrices aumentadas, 93-104 algoritmo definido, 100 para una matriz general, 154 reducción de una matriz, 154 software para, 147-149 variante de Crout, 151 (véase también Descomposiciones-LU, A = LU) variante de Doolittle, 151-152 (véase también Descomposiciones-LU, A = IOUo) y aritmética de punto flotante, 119-126 y descomposiciones-LU, 127-138 y matrices definidas, 457-458, 477 Gauss, forma reducida de, 93, 154 definición de la, 154-155 dependencidindependencia lineal de las columnas, 232 matriz no singular, 173 no singularidad de la, 155-157 teorema clave de la, 155-157 Gauss-Jordan, eliminación de, 100-101 costo (véase Medidas de trabajo) forma modificada, 104 (véase rambién Renglón-escalón, reducción de) Gauss-Seidel, método de, 432-434 Generar, 208 (véase también Conjunto generador) Gerschgorin, círculos de, 353-354, 357, 358 Gram-Schmidt, proceso de, 255-258
564
lndice
H Hadamard, desigualdad de, 476 Hessenberg, forma de, 348-349, 351 Hipérbola, 440-441, 445-446 Hiperboloide, 454
I Igualdad de matrices, 3 Inducción matemática, 44 Inercia, ley de Sylvester sobre la, 459 Inexactitudes: cómputo del punto flotante,117-1 18(véase rambién Puntoflotante,aritméticade, dígito-t) efectos de las (véase Condición) en modelos, 73-76, 122, 299-300 medición de las, 73-76, 122, 299-300, 388 Interpolación, 168,170 Inversa: d e una matriz, 23-36 (véase también Matriz inversa;Matriz nosingular;Inversaderecha; Inversa bilateral) de una transformación lineal, 283-284 existencia de, 283, 309 producto de, 285 Inversabilateral (véasetambién Matrizinversa; Matriz no singular): cómo encontrar la, 40, 109-1 12 definición de, 24 de la inversa, 28 de un producto, 28, 32-33 existencia de la, 26-27, 45, 166 matriz de bloque diagonal, 191 relacionada a la inversa izquierday derecha, 27, 166,170 representación en determinantes, 32, 183-185 transpuesta hetmitiana y transpuesta, 28 unicidad de, 26-27 verificación de, 28 Inversa derecha: cómo encontrar la, 24-26, 40, 109-112 definición de, 24 existencia de, 26-27, 45, 166, 171-172, 173 matrices cuadradas, 26-27, 166 matrices de bloque diagonal, 192 transpuestas, 32 unicidad, 170, 173 y rango, 171-172 Inversas de matrices (véase Inversa izquierda; Inversa derecha; Inversa bilateral) Inversa izquierda: cómo encontrar la, 24-26, 40, 109-112 definición de, 24 existencia de, 26-27, 45, 172, 173-174 matrices cuadradas, 26, 27, 170 matrices de bloque diagonal, 192 transpuestas, 32, 40 unicidad de, 173-174 y rango, 172
Isomorfismo, 222 principio del, 224, 226 base del, 227 dependencidindependencia lineal, 227 normas vectoriales, 245 productos interiores, 252 Isomorfismocoordenado, 223 (véasetambién Mapeo coordenado) como transformación lineal, 278 inverso, 227 y base, 227 y dependencidindependencia lineal, 227 y normas vectoriales, 245 y productos interiores, 252
J Jacobi, método de, 432-436 Jordan, bloque de, 397
L Lanczos, método de, 392 Ley asociativa: de la convolución, 22 de la suma de matrices, 4-5 de la suma de un vector geométrico, 197 del producto cruz, 18 del producto de elemento por elemento, 19 del producto de vectores, 18 del producto Kronecker, 18 del producto tensorial, 18 de multiplicación de matrices, 12-13 de suma de vectores, 201 Ley conmutativa: de la convolución x * y , 22 de la multiplicación de matrices, 11-14, 19 de la suma de matrices, 4-5 de la suma de vector geométrico, 197 de la suma vectorial, 201 del producto elemento a elemento, 19 L e y distributiva: de vectores geométricos, 197 de la multiplicación de matrices, 12-14 Límite (véase también Convergencia): sucesión matricial, 51-55, 87-88, 298, 299 sucesión vectorial, 241-242 Linealmente dependiente de: base geométrica de, 198 definición, 208 y conjuntos linealmente dependientes, 21 1-212 Linealmente independiente de, definición de, 208 LINPACK, 149 Longitud de un vector, 196,239-243 (\!éase también Norma vectorial)
M Magnitud de un complejo, 2 Mapeocoordenado, 222-223 (véasetambién morfismo coordenado)
Iso-
lndice
Marco (véase Modelos, marco) Markov, cadenas de, 47-55, 87, 89 (véase también Matriz, de Markov) Masas acopladas(véase Modelos, masas acopladas) MATLAB, 149 Matriz(ces): adjunta, 184 (véase también Adjunta, matriz) adjugada 184 (véase también Adjunta, matriz) aumentada, 100(véase tambiénAumentada, matriz) cero, 5 (véase también Cero, matriz) covarianza de una, 441-442 componente principal de la, 465, 466-467 cuadrada, 2 de banda, 136,147 de Hilbert, 267, 273 de Markov, 414416, 438-439 de un sistema de ecuaciones lineales, 29 defectiva, 395 definición de, 1 definida:defmidapositiva,semidefinidapositiva, definida negativa, semidefinida negativa, indefinida, 455-457 caracterizada por determinantes, 456, 477 caracterizada por eigenvalores, 456 caracterizada por la eliminación de Gauss, 456457, 477
diagonal, 2 (véase también Matriz diagonal) diagonal principal, 2 dominante diagonalmente (véase Matriz, estrictamentedominantediagonalmente por columna;Matriz,estrictamente dominantediagonalmenteporrenglón) elemento+, j ) , 1 esparcida, 8 9 , 136, 430 estrictamente dominante diagonalmente por columna, 306 estrictamentedominantediagonalmentepor renglón, 305,436 hermitiana, 16 (véasetambién Matrizhermitiana) idempotencia de, 477 irreducible, 415 limitada, 42 multiplicación de,9-23 (véase también Multiplicación, de matrices) múltiplo escalar de, 6 (véase también Múltiplo escalar de una matriz) no defectiva, 356 no negativa, 89, 414-416,495 inversa, 418 teorema de Perron-Frobenius, 416-417 no singular, 28-36 (véase también Matriz no singular) normal, 348,350-351,366-367 (véasetambién Matriz normal) potenciasde, 11, 13 (véase tambiénPotencias de una matriz)
565
proyección de, 262-263, 269 raíz cuadrada de, 477 reducible, 416 representación polar de, 477 separada, 36-44 (véase Matriz separada) simétrica, 15 (véase Matriz simétrica) suma de, 4-5 (véase también Suma de matrices) tridiagonal, 137,146 unitaria, 305 (véase también Matriz unitaria) Matrices elementales, 113-1 16 determinantes de las, 179 multiplicación anterior por, 113 multiplicación posterior por, 115-116 no singularidad de, 114 producto de, para matrices no singulares, 172-
173 y operaciones de renglón, 113 Matrices semejantes, 332-334 (véase también Matricesortogonalmentesemejantes; Matricesunitariamentesemejantes; Transformación de semejanza) definición de, 332 eigensistemas de, 332-333 no singularidad de, 333-334 potencias de, 333-334 y la forma Jordan, 336, 403 Matrices unitariamente semejantes, 340-349 (véme también Matricessemejantes; Ortogonalmentesemejantes,matrices; Transformación de semejanza unitaria) definición de, 340 norma de, 341 Matriz adjugada,186-187 (véase también Matriz adjunta) Matriz adjunta, 185-186 determinante de la, 187 de una matriz singular, 188 fórmula para A-l, 186 Matriz aumentada, 93, 100 múltiplo-aumentada, 112-1 13, 141 Matriz aumentada multiplicada, 112-113,141 Matriz columna, 1 multiplicación de, 9 Matriz columna unitaria, 40 Matriz cuadrada, 2 Matriz de Householder, 261, 276, 342-344 definición de, 340 para descomposiciones-QR, 271-272, 344 para la forma de Hessenberg, 348-349, 351 para obtener ceros, 271-272,343-344 propiedades básicas de la, 342-343 trabajo mediante, 349-350 Matriz de permutación, 133-134 determinante de la, 184 Matriz de proyección, 262-263, 268 Matriz de renglón, 1 multiplicación de,9, 39 Matriz de rotación elemental, 345
566
lndice
Matriz de transición, 50 Matriz diagonal, 2 hermitiana, 21 no singular, 33 simétrica, 21 Matriz: forma de bloque triangular y forma diagonal de bloque, 396-397 Matriz hermitiana (véase también Matriz normal; Matriz simétrica): definición de, 15 eigensistema de la, 368-369 (véase Matriz normal,eigensistemadela;Mín-máx, principio de: Rayleigh, principio de) inversa, 33 potencias de la, 20 producto de la, 16, 20 Matriz hermitiana oblicua, 21, 368, 374 Matriz identidad, 12-13, 20 Matriz inversa, 23 (véase también Matriz no singular; Inversa bilateral) cómo encontrarla, 40 eliminación de Gauss, 109-1 12 costo de, 141-142, 186 forma renglón-escalón, 173 software, 147-150 de una matriz modificada, 42, 45, 116-117, 143145,448 de una matriz perturbada, 299-301 fórmula de la, mediante la matriz adjunta, 185 lema o premisa de Banach, 300 positiva definida, 459 representada por determinantes, 185-187 Matriz no negativa (véase Matri7. no negativa) Matriznosingular, 28-36 (véase también Matriz singular; Inversa bilateral) ATA y rango de A , 192 como producto de matriceselementales, 172-173 definición de, 28 determinante de una, 181 e independencia lineal de columnas o renglones, 235 dominante diagonalmente, 305-306 forma de renglón-escalón, 173 forma reducida de Gauss de una, 173 inversa como una, 28 I + P, 300 matrices elementales, 172-173 perturbaciones de, 300-301, 304-305 producto como, 173, 174 producto de, 28 rango de una, 169, 172 transpuesta hermitiana y transpuesta, 28 y el teorema clave sobre existencia igual a unicidad en ecuaciones, 166 Matriz normal, 347,349-350,366-367 (véase Matriz hermitiana; Matriz simétrica) definicióndelarepresentacióndiagonalde transformación, 367
eigensistemas de una, 368-370 posibilidad de solución de ecuaciones, 370, 371 similitud unitaria a una matrizdiagona1,566-367 Matriz nula, 5 (véase también Cero, matriz) Matrizortogonal, 44-45,338-349 (véasetambién Matriz unitaria) como productode matrices de Householder,348 definición de, 339 matriz de rotación elemental, 347 matriz Householder, 342 (véase también Matriz de Householder) no como producto de rotaciones, 350 Matriz separada, 36-44 álgebra de, la, 37-38 definición de, 37 en los modelos, 38 inversa de la, 41, 42, 45 transpuesta de la, 40-41 Matriz simétrica (véase tambiénMatriz herrnitiana: Matriz normal): compleja, 351 definición de, 16 eigensistema de una, 368-369 inversa, 33 potencias de una, 21 producto de una, 16, 20 Matriz simétrica oblicua, 21 (véase también Matriz hermitiana oblicua) determinante, 183 Matriz singular (véase también Matriz no singular; Inversa bilateral) ATA y rango, 171 definición de, 28 producto como, 174 Matriz triangular (véase Matriz triangular inferior: Matriz triangular superior; Matriz unitaria triangular inferior; Matriz unitaria triangular superior) Matriz triangular inferior, 2 determinante de la, 183 inversa de la, 135 producto de la, 135 Matriz triangular superior, 2 determinante de, 183 inversa de, 135 producto de, 135 Matriz unidad (vease Matriz identidad) Matriz unitaria, 338-349 (véase también Matriz ortogonal) definición de, 340 más cercana a una matriz dada, 385 propiedades básicas de una, 340-341, 360 Matriz unitaria triangular inferior, (véase 2 también Matriz triangular inferior) Matriz unitaria triangular superior,(véase 2 también Matriz siangular superior) Medidas detrabajo, 138-147 (véase también Eficiencia)
lndice
con matrices Householder, 349-350 descomposición en valor singular, 381 en la eliminación de Gauss, 139-141, 161-162 matrices de banda, 147 matrices tridiagonales, 147 en la eliminación de Gauss-Jordan, 141 forma modificada de, 161-162 reducción d e renglón-escalón, 161-162 solución de ecuaciones mediante el uso de A = PTLU, 140-142 soluciónde sistemasde ecuaciones modificados, 141-145
Mejor aproximación, 253 uso de programación lineal, 525-526 Menor, 175 Métodositerativos, 89,430-437 (véasetambién Gauss-Seidel, método de; Jacobi, mttodode;Sobre-relajacionessucesivas, método de) Mínimos cuadrados, 73-81, 267-269 aritmética de punto flotante, 274 descomposiciones-QR, 267-269 descomposición en valor singular, 386-388 ecuaciones equivalentes de los, 76, 78,80,89, 170, 276
existencia de soluciones de los, 267 ponderados, 78-79 seudoinversos, 387-388 y proyección ortogonal en espacios nulos, 502 Mín-máx, principio de, 468-474 para el segundo eigenvalor mayor, 468-470 para todos los eigenvalores, 470-471 teorema clave del, 470-47 1 Modelos: competencia de dentífricos, 53 competencia entre lecherías,47-55, 81, 170-171, 184,322,326
eigensistema de la, 312-313 forma de Schur de la matriz que representa la, 364-365 competenciaentrezorros y gallinas, 56-59, 88-89, 273, 289, 297, 403-404
versión continua de la, 420, 422-423, 424 comportamiento cualitativo de, 56 crecimiento poblacional, 55-59 dieta balanceada, 86-87 embarques de pan, 526 errores en los, 74, 76, 299-300 horario de una biblioteca, 525 ingresos-utilidad, 379 marco, 60-66 masas acopladas, 66-73, 311, 325, 361-362, 371373, 42 1, 473
mínimoscuadrados
y cuadradosgenerales,
73-81,88,267,38.5-386 molécula triatómica lineal,72-73 movimiento lineal, 74-76 patrones de ocupación, 52-53 planeación de la producción, 81-86, 491-493
567
población estadunidense, 79-81, 276, 390 poblacionesencompetencia (véase Modelos, competencia entre zorros y gallinas) problema en los transportes, 526 procesamiento de imágenes, 382-384 reacciones químicas, 302-303, 379, 380 red electrónica, 63, 88, 437-438 red mecánica, 60-66 redes, 60-66 referencias sobre, 87-89 sistema económico, 63-65, 88 sistemasoscilatorios, 66-72,88,310-311,325, 361-362, 371-373, 463, 472,
473
subsistemas de, 142 suplementos alimenticios, 112 vibraciones (véase Modelos, sistemas oscilatorios) Moore-Penrose, inversa generalizada de, 387-391 (véase también Seudoinversa) Multiplicación (véase rambién Producto): de matrices, 9-23 definición de, 9 desde la izquierda, 11 desde la derecha, 11 de transpuestas hermitianas, 15, 20 orden de, 11-15 propiedades de, 11-23 resultado hermitiano de, 16 resultado simétrico de, 16 transpuestas, 15,20 y determinantes, 181-182 por u n escalar (vPase también Múltiplo escalar de una matriz) de vectores geométricos, 197 en transformaciones lineales, 278 vectores, 212, 214 transformaciones lineales en la, 278 Multiplicación posterior, 11 Multiplicadores, 128 Múltiplo escalar (véase Multiplicación, porun escalar) Múltiplo escalar de una matriz: definición del, 7 transpuestas hermitianas y transpuestas, 15
N Negación: matricial, 5, 6 vectorial, 212, 214 Negativo (véase Negación) Norma (véase Norma deuna matriz; Norma de una transformación; Norma vectorial) Norma de una matriz, 293-298 definición de, 294 eigenvalores, 319-321 equivalencia de la, 297-298 fórmulas de la, 297,385,463,478
lndice
568
mayor eigenvalor más cercano, 393 y potencias de una matriz, 297 Norma de una transformación, 292-293 como norma vectorial, 298 definición de, 292 de potencias, 294 del producto, 294 inducida por normas vectoriales, 293 propiedades básicas de, 293 transformación cero, 294 transformación de identidad de, 294 Norma vectorial, 240-245 definición de, 241 desigualdad triangular de una, 241 en W P y Cp, 241 en el espacio de todas las transformaciones lineales, 298 equivalencia en iQp y CP, 243 inducida por producto interno, 248, 250 Núcleo, 280-281 (véase también Transformación lineal, espacio nulo de la) Número complejo, 2 Número condicional, 150,302-305 (véase también Condición) Número de soluciones (véase también Unicidad de soluciones) ecuaciones de transformaciones lineales, 308 sistemas de ecuaciones: revisión previa, 109 y rango, 164-165 Número en punto flotante, 117-118 Número imaginario, 2 Número imaginario puro, 2
O Operacionesderenglón, 112-117 (véase también Operaciones elementales de renglón) Operaciones elementales de renglón, 112-117 y determinantes, 178-179 y matrices elementales, 113 teorema clave sobre las, 116 Operacionesenpuntoflotante (véase Eficiencia; Punto flotante, aritmética de, dígito-t) Ortogonalidad, 249-276 (véase también Conjunto ortogonal; Vectores ortogonales) Ortogonalmentesemejantes,matrices, 340-349 (1,éase Matrices semejantes: Matrices unitariamentesemejantes;Transformaciónmediantesemejanzaortogonal) definición de, 340 Oscilaciones (véase, Modelos,sistemasoscilatorios)
P Perpendicular, 1% (véase también Vectores ortogonales) Perron-Frobenius, teorema de, 415-416 Pivote, 100 selección de, 117-126 (véase también Gauss, eliminación de, intercambios en la ) en pivoteo completo, 122-123 en pivoteo parcial, 122-123 y matrices definidas, 457-458, 477 Planeación de producción (véase Modelos, planeación de producción) Polinomiocaracterístico, 316-317,332-333,359, 401-402,437
Polinomio mínimo, 4 3 - 4 4 Posibilidad de solución (véase Existencia de soluciones) Potencias de una matriz: comportamiento de las, 12, 19,54,57,55-59,81, 289, 299, 409-419
definición de las, 11,13,33 determinantes de las, 185 ley conmutativa de las, 11,13,33 matrices de Markov, 414-416 matrices no defectivas, 410-412 matrices no negativas, 414-416 matrices posiblemente defectivas, 412-414 y semejanza, 333-334 Premultiplicación, 11 Primera columna, 107 Primera variable, 107 Principio Mín-máx (véase Mín-máx, principio de) Problema bien acondicionado, 302 Problema mal acondicionado, 126, 300 Procesamiento de imagen, 382-384 Producto (véase también Multiplicación; Múltiplo escalar; Producto interior): convolución, 21-22, 35-36 cruz, 17 elemento por elemento, 19,22, 35-36 Kronecker, 17,39 matriz estándar, 19-22 (véase rambién Multiplicación de matrices) tensor, 18,43 vectorial, 18 Producto interior, 245-251 definición de, 247 estándar en RP y 248 norma, inducida por el, 248, 250 Programa lineal, 89, 479-527 interpretación geométrica modelode planeación de producción, 81-87,
cp,
479-495
lndice
m - a.
¡¡Ax - ylll 0 526-527 problema de transporte, 526 problema general de un, 495-523 definición del, 495-496
paraminimizar
degenerado y no degenerado, 497, 524 dirección del gradiente proyectado, 501-502 dualidad, 514-523 complementariedad, 526 teorema clave, 519-520 eficienciaen la solución de,505-506,517-519 existencia del vector básico óptimo, 499-500, 4 19-420
forma de variable remisa, 4% forma estándar, 495-496 matrices extendidas, 496 método simplex, 503-51 1 convergencia del, 505 cuadro del, 503-505 implementación estándar, 503-505 implementación revisada, 505-507 métodos similares alde Karmarkar, 501-502 programa lineal dual, 514-521 primo,agregarunarestricciónal,518-519 primo,vectoróptimodelcuadrofinal para el, 515-517 programa lineal primo, 514-515 unicidad del vector óptimo, 512 variable artificial, 509-51 1 variable básica, 498 variable no básica, 498 vector básico factible, 497-498 vector factible, 5% existencia del, 519-521 vector inicial básico factible, 508-51 1 vector óptimo, 496 problema modelo, 479-480 solución básica factible, 482 descripción geométrica, 480-481 dirección del gradiente proyectado,487-488, 489, 494
dualidad en la aplicación del, 490-491 dualidad en la geometría, 491-492 forma de variable remisa, 481482, 494 matrices extendidas, 482 métodos interiores, 481, 487, 489-491 método similar al de Karmarkar, 489-491 método simplex, 483-485 procedimientos para el, 485 programa lineal dual, 492-493 programa lineal primo 492 solución básica, 482 solución factible, 482
569
variable básica, 482 variable no básica, 482 Programación lineal 479-526 (véase fambién Programa lineal) Proyección ortogonal, 252-276 definida por un conjunto ortogonal, 253 en el lenguaje matricial, 261-263, 269 interpretación geométrica de la, 253 sobre un espacio columna o espacio nulo, 393,
502 y gradientesproyectadosenprogramación lineal, 487-488, 489-490 y longitud, 259 Punto flotante, aritmética de, dígito-r, 117-118 determinantes, 189,192 eliminación de Gauss, 119-125, 307 mínimos cuadrados, 276 que produce una base ortonormal, 260 transformaciones de semejanza, 303-304 Punto más cercano. 252
R Radio espectral, 307 como matrices hermitianas de norma 2, 478 convergencia de métodos iterativos del, 434-436 matrices no negativas del, 311-312 potencia de matrices del, 308-309 Rango, 158-160 aproximación de rango mínimo, 382-384 aproximado, 382 condición de, 190-r91 de AT, 175,235 de AAT, 175 de matrices cercanas, 382-384 de una matriz multiplicada por una matriz no singular, 174 de una submatriz, 190 definición de, 158 del producto AB, 215 dimensión del espacio renglónkolumna, 235 existencia de la inversa izquierda, 173, 174-175 existencia de la inversa derecha, 172-173, 175 existencia de soluciones, 162-174 no singularidad del, 170, 173 sensibilidad, 190-191 teorema clavesobre la existencia igual a la unicidad, 166 unicidad de soluciones, 163-164 valores singulares de, 381-384 y multiplicidad algebraica de A = O y número de soluciones, 163-164 y submatrices no singulares, 277 Rango de renglón, 158 (\@ase fambiPn Rango)
570
lndlce
Rango de unacolumna, 158-159 (\,éase ramhien Rango) Rayleigh, cociente de, 460-462 definición del, 461 diagonal y diagonalización, 461 en la aproximación de eigenvalores. 462-463 extremamente, 462, 464-465, 469-470 principio de mín-máx, 469-470 (\léase también Min-máx, principio de) principio de Rayleigh, 464-465 (véase también Rayleigh, principio de) y formas cuadráticas, 460-461 Rayleigh, principio de, 459-467 falsedad para matrices no hermitianas, 478 para los eigenvalores mayores y menores, 462463 para todos los eigenvalores, 464-465 teorema clave del, 464-465 Red (t$Puse Modelos, redes) Redondeo de números, 118 Reflexión, 341-344 Reflexión de Householder, 341-344 Relación de equivalencia, 116, 332 Renglón, 1 Renglón-escalón, forma de, 156 definición de, 159 igualdad de espacios renglón, 235-237 matrices no singulares, 174 reducida, 159 teoremaclave, 160 unicidad, 160 Renglón-escalón, reducción de, 159 (\,Pase también Gauss-Jordan, eliminación de, forma modificada) Renglón o columna no cero, 154 Representación matricial de una transformación lineal, 286-29 1 cambio de base de la, 288-290 como un isomorfismo, 308 definición, teorema clave, 287 producto de transformaciones, 291 simple, 289-290 eigensistemas, 310-311 transformación definida por Av, 291 transformación inversa de la, 291 Residual, 74-79 Resolución (\&we Soluciones, cómo encontrar) Resonancia, 371-373 Restricción, 83 Rotación, 345-346 Rotación elemental, 345-346
S Schur, descomposición de, 362-363 Schwarz, desigualdad de: productos internos generales, 248 x'y, 241 igualdad en, 275 Sección cónica, 440-441, 445-446, 474-475 Sensibilidad (\&se Condición) Seudoinversa, 387-391 de la descomposición QR normalizada, 389 propiedades de la, 391 si y sólo si, 3 Sistema bi-ortogonal, 406-408 eigenvectores y eigenvectores izquierdos deun, 407 Sistemas de ecuaciones (véase también Existencia de soluciones: Soluciones, cómo encontrar: Unicidad.de soluciones): dispersas, 388-389 modificada, 109-111,138-142 representación matricial de, 29 Sistemas homogéneos, 166, 206 para transformaciones lineales, 252 teorema clave de la existencia es igual a la unicidad, 167 Sobre-relajaciones sucesivas, 390-394 Sobre-relajaciones sucesivas, método de (SRS,método de), 390-394 Software: eigensistemas, 35 1-353 eliminación de Gauss, 147-149 Solución diferente de cero, 67-69 en sistemas homogéneos, 168 y determinantes, 184 Solución general: de Ax = b, 166, 370-371, 407-408 de Ax y , 268, 276, 486-487 de y ( v ) = w, 308 Soluciones (véase Existenciadesoluciones; NÚmerodesoluciones:Soluciones, cómo encontrar; Unicidad de soluciones) Soluciones, cómo encontrar (véase tarnhien Existencia de soluciones): con programas lineales (véase Programa lineal) de mínimos cuadrados, 170, 267-276, 386-388 en sistemas de ecuaciones: costo (véase Medidas de trabajo) eliminación de Gauss para matrices aumentadas, 91-101 eliminación de Gauss para ecuaciones,90-92 esparcidas, 430-431 mediante métodos iterativos, 430-437 5
lndice sistemas modificados, 109-111, 138-142 Subespacioinvariante, 311-312,319-324 (véase Eigensistemas; Eigenvectores) definición de, 316-317 dimensión del, 324 dimensión mínima del, 405-406, 408 Subespacio, teorema de, 205 Submatriz, 37 de eigenvectores (con O) asociados con un eigenvalor, 219-221 definición, 204 justificación geométrica, 198 principal, 128 producto interno en, 250 ortogonal aun subespacio dado,275 (véase también Complemento ortogonal) ortogonal a un vector, 250, 343 rango, 190 subespacio, 204-206 verificación del, 205 Substracción: matricial, 5 transpuestas hermitianas y transpuestas, 15 vectorial, 201 Sucesión acotada, 410-41 1 Suma: de matrices, 4-5 transpuestas hermitianas, 15 transpuestas, I5 de vectores geométricos, 195-197 transformaciones lineales de la, 278 vectorial, 182 Suma de columna máxima absoluta, 297 Suma de renglón máxima absoluta, 297 Suma, leyes de la, 4-5 Superficie de nivel, 453-455 relación entre aquélla en x , y aquélla en 6 , 453454 Supremo, 292 Sustitución retrospectiva, 94 Sylvester, ley de inercia de, 459
T TeGremas de la alternativa, 521-522, 523 Término-(i, j i , I Transformaciónadjunta, 283-284 (véase tambie'n Transformación lineal, adjunta) Transformacióndesemejanzaunitaria, 340-349 (Ijéase tambiénMatricesunitariamente semejantes;Transformaciónde semejanza; Transformación de semejanza ortogonal) imagen, 286 definición de, 340
571
como una transformación de semejanza, 307 Transformación lineal, 277-309 adjunta, 283-284 complementoortogonaldelespacio de la imagen, 286 de la adjunta, 286 de un producto, 309 dimensión del espacio de la imagen, 309 transformación inversa, 309 biunívoca, 285 cero, 278, 284 contradominio de la, 278 definición de, 278 definida por Av, 278 adjunta, 284, 409 espacio de la imagen, 285 espacio nulo, 285 inversa, 285 representación matricial, 291 mediante eigensistemas, 329-330 mediante bases ortonormales, 364,369, 384 dominio de, 278 base del, 28 1-282, 309 dimensión del, 280-281 ejemplos de, 278 en, 279 espacio de la imagen, 279-281 base del, 280-281 definición del, 281 dimensión del, 280-281 espacio correspondientea columna de la matriz, 291 'posibilidadde soluciónde las ecuaciones, 279 y el espacio nulo, 280-281, 309 espacio nulo de la, 280-281 base del, 280-281 complemento ortogonal del, 286 definición de, 280 dimensión del, 280-281 existencia de la transformación inversa, 309 existencia única; Unicidadde solución de las ecuaciones, 281, 309 y el espacio de la imagen, 280-281, 309 y uno a uno, 285 identidad de la, 284 inversa, 283-284 (véase también Inversa, de una transformación lineal) norma de la, 292 (véase también Norma de una transformación) núcleo 281 (rléase también Transformación l i neal, espacio nulo de la) representaciónmatricial, 286-291 :véase tam-
572
lndice
bien Representación matricial de una transformación lineal) 286-291 representaciónmediantematrices, (véase rambién Representaciónmatricial de una transformación lineal) 340-349 Transformaciónortogonaldesemejanza, (véase también Ortogonalmentesemejantes,matrices;Transformación semejante;Transformaciónsemejante unitaria) Transformación semejante, 332-334 (véase también Matrices semejantes: Transformación mediante semejanza ortogonal: Transformaciónunitariadesemejanza) definición de, 332 Transpuesta (véase tombién Transpuestahermitiana): definición de, 14 sumas, diferencias, múltiplos escalares, y productos, I5 Transpuestahermitiana (véasetambién Transpuesta): definición de la, 14-15 y sumas, diferencias, múltiplos escalaresy productos, 15 Traza, 8, 9, 45
U Unicidad de soluciones: deecuacionesdetransformacioneslineales,
279-280, 282
programas lineales, 512 sistemas de ecuaciones: ejemplos de, 104-109 equivalente a la existencia, 166-167 inversas bilaterales, 31 inversas izquierdas, 31 rango de, 164-165, 168, 170 sistemas homogéneos, 165,168 teorema clave para p = q, 166
V Valor esperado, 442-443 Variable aleatoria, 442-443, 465 Varianza, 442-443, 465, 466-467 Varianza t o t a l , 442-443, 465 Vector, 194,276 de coordenadas-B, 195, 199 definición de, 202 geométrico, 194-201 Vector de coordenadas-B: definición de, 222 en la representación de transformaciones lineales, 287-290 Vector normalizado, 249 Vectores ortogonales, 249 Velocidad de avión relativa a la Tierra, 201 Velocidad en el aire, 201 Vibración (véase Modelos, sistemas oscilatorios)
z Zorro-gallina, competencia entre (véase Modelos, competencia entre zorros y gallinas)
View more...
Comments