Lineaire algebra voor ingenieurs Guido Herweyers KHBO Campus Oostende Oostende, 3 mei 2006 1 Inleiding De ingenieursopleidingen aan de K.U.Leuven en de KHBO Campus Oostende gebruiken voor lineaire algebra het boek “linear algebra and its applications, third edition update” van David C. Lay. De website http://www.laylinalgebra.com bevat nuttige documenten in de student resources en instructor resources. Het boek bevat tevens een CD met o.a. een prima Study Guide van 349 pagina’s (in pdfformaat) met nuttige tips, samenvattingen en oplossingen van oefeningen. De CD bevat tevens de gegevens van ongeveer 900 oefeningen in de tekst, zowel voor de pakketten Matlab, Maple, Mathematica als voor de rekentoestellen TI-83+/86/89 en de HP-48G. Voor de opleiding academische bachelor en het schakelprogramma in de KHBO Campus Oostende wordt er gewerkt met het symbolisch rekentoestel TI-89 Titanium. Het is de bedoeling om de inzet van dit toestel voor de lessen lineaire algebra te illustreren in onderstaande tekst. 2 Didactische aanpak van het matrixproduct in het boek van Lay. Definities en bewijzen in het boek bekijken vaak de kolommen van een matrix i.p.v. de individuele elementen van de matrix. Een vector is een kolommatrix. Eerst worden de bewerkingen met vectoren besproken en de meetkundige voorstelling van vectoren in 2 en 3 . Het product van een m × n matrix A met een vector x uit n is een lineaire combinatie van de opeenvolgende kolommen van A met als gewichten de corresponderende elementen van x: ⎡ x1 ⎤ Ax = [a1 a1 … a n ] ⎢⎢ ⎥⎥ = x1a1 + x2a 2 + + xn a n ⎣⎢ xn ⎦⎥ Voor het product van een m × n matrix A met een n × p matrix B wensen we dat A ( Bx ) = ( AB ) x voor elke x in p . Deze eis leidt tot de definitie AB = A ⎡⎣b1 b 2 … b p ⎤⎦ = ⎡⎣ Ab1 Ab 2 … Ab p ⎤⎦ Elke kolom van AB is dus een lineaire combinatie van de kolommen van A met gewichten uit de corresponderende kolom van B. 1 Deze visie op het matrixproduct is zeer waardevol in de lineaire algebra, we illustreren dit met een oefening (op te lossen zonder rekentoestel): ⎡1 1 1 0 ⎤ Stel A = ⎢ ⎥. ⎣0 1 1 1 ⎦ a) Construeer een 4 × 2 matrix B met elementen gelijk aan 0 of 1, zodat AB = I 2 . b) Zijn er meerdere mogelijkheden voor B indien de elementen gelijk zijn aan 1, -1 of 0 ? c) Bestaat er een 4 × 2 matrix C zodat CA = I 4 ? Waarom wel of waarom niet? d) Kan je voor elke 2 × 4 matrix A een 4 × 2 matrix B vinden zodat AB = I 2 ? Wat moet er gelden voor de kolommen van A ? 3 Beknopte voorstelling van de TI-89 Titanium De TI-89 Titanium is een symbolisch rekentoestel, voorzien van computeralgebra op basis van het pakket DERIVE. Tijdens de uiteenzetting worden de mogelijkheden van dit toestel kort besproken. Enkele voordelen: • Computeralgebra in vestzakformaat. • De onmiddellijke beschikbaarheid, het snelle aan- en uitzetten. • De veelzijdige inzet niet alleen voor wiskunde en statistiek, maar ook voor labtoepassingen (chemie, fysica, elektronica) bij het opmeten van data gekoppeld aan sensoren. 4 Toepassingen In de onderstaande toepassingen worden veel schermafdrukken van de TI-89 getoond. Dit geeft een idee van de mogelijkheden van het toestel. Het is echter niet de bedoeling om hier in te gaan op de syntax van het rekentoestel. 4.1 Kegelsneden a) Een cirkel door 3 gegeven punten: lineair stelsel Uit de meetkunde weten we dat er één cirkel gaat door drie punten die niet gelegen zijn op een rechte. 2 2 De standaardvergelijking ( x − x0 ) + ( y − y0 ) = R 2 van de cirkel met middelpunt ( x0 , y0 ) en straal R kan worden herschreven als x 2 + y 2 + lx + my + n = 0 (1) . Substitutie van de coördinaten van de gegeven punten ( x1 , y1 ) , ( x2 , y2 ) , ( x3 , y3 ) in (1) levert een stelsel van lineaire vergelijkingen waaruit de onbekenden l, m, n worden opgelost: ⎧lx1 + my1 + n = − x12 − y12 ⎪ 2 2 ⎨lx2 + my2 + n = − x2 − y2 ⎪ 2 2 ⎩lx3 + my3 + n = − x3 − y3 2 (2) Voorbeeld: vind de vergelijking van de cirkel door de punten (1, 7 ) , ( 6, 2 ) en ( 4, 6 ) . Het stelsel (2) wordt ⎧l + 7 m + n = −50 ⎪ ⎨6l + 2m + n = −40 . ⎪4l + 6m + n = −52 ⎩ De gereduceerde echelonvorm van de uitgebreide matrix van het stelsel levert de oplossing ( l , m, m ) = ( −2, −4, −20 ) . De vergelijking van de cirkel wordt x 2 + y 2 − 2 x − 4 y − 20 = 0 of ( x − 1) + ( y − 2 ) 2 2 = 25 . Een grafische bevestiging: Wanneer heeft het stelsel (2) geen oplossingen of oneindig veel oplossingen? b) Een cirkel door 3 gegeven punten: vergelijking in determinantvorm De vergelijking x 2 + y 2 + lx + my + n = 0 van de cirkel kan, na vermenigvuldiging met a ≠ 0 , worden geschreven als a ( x 2 + y 2 ) + bx + cy + d = 0 (3) . De coördinaten van de gegeven ( x1 , y1 ) , ( x2 , y2 ) , ( x3 , y3 ) moeten voldoen aan (3). Ook de coördinaten van een willekeurig punt ( x, y ) van de cirkel voldoen aan (3). Dit levert het volgende homogeen punten stelsel: 3 ⎧a ( x 2 + y 2 ) + bx + cy + d = 0 ⎪ ⎪a ( x12 + y12 ) + bx1 + cy1 + d = 0 ⎪ (4) ⎨ 2 2 ⎪a ( x2 + y2 ) + bx2 + cy2 + d = 0 ⎪ 2 2 ⎪⎩a ( x3 + y3 ) + bx3 + cy3 + d = 0 Dit stelsel heeft een oplossing ( a, b, c, d ) verschillend van de nuloplossing als en slechts als de kolommen van de coëfficiëntenmatrix lineair afhankelijk zijn; de coëfficiëntenmatrix heeft geen inverse of zijn determinant moet gelijk zijn aan nul: x2 + y 2 x y x +y x1 y1 1 x +y x2 y2 1 x +y x3 y3 1 2 1 2 2 2 3 2 1 2 2 2 3 1 = 0 (5) Dit levert de vergelijking van de cirkel in determinantvorm. Voor de cirkel door de punten (1, 7 ) , ( 6, 2 ) en ( 4, 6 ) verkrijgen we x2 + y 2 x y 1 50 1 7 1 40 6 2 1 52 4 6 1 = 0 of 10 ( x 2 − 2 x + y 2 − 4 y − 20 ) = 0 Deze werkwijze met determinanten is enkel praktisch met computeralgebra. We slaan de algemene coëfficiëntenmatrix op als functie van de coördinaten van de punten: Merk op dat drie verschillende punten gelegen op een rechte wel degelijk de vergelijking van die rechte levert. 4 c) Een kegelsnede door 5 gegeven punten De algemene vergelijking van een kegelsnede is ax 2 + by 2 + cxy + dx + ey + f = 0 waarbij de 6 coëfficiënten niet allemaal nul zijn. Het aantal coëfficiënten kan worden herleid tot 5 door te delen door een coëfficiënt verschillend van nul, zodat 5 verschillende punten in het vlak volstaan om de vergelijking van de kegelsnede te bepalen. Analoog met voorgaande paragraaf vinden we de vergelijking in determinantvorm: x2 y2 xy x y 1 2 2 x1 y1 x1 y1 x1 y1 1 2 2 x2 y2 x2 y2 x2 y2 1 =0 x32 y32 x3 y3 x3 y3 1 x4 2 y4 2 x4 y4 x4 y4 1 x5 2 y5 2 x5 y5 x5 y5 1 Ter illustratie bepalen we de vergelijking van de kegelsnede door de punten (1, 2 ) , ( −2,3) , ( 4, 6 ) , ( −5, 2 ) , ( 3, −4 ) . We verkrijgen 228 x 2 − 163 y 2 − 517 xy + 1946 x + 1833 y − 4154 = 0 (na deling door 36). Aangezien 228 −517 / 2 < 0 is het een hyperbool. −517 / 2 −163 De kegelsnede door de punten (1,1) , ( −1,1) , ( −1, −1) , (1, −1) , ( 0, 0 ) levert x 2 − y 2 = 0 , ze is ontaard en bestaat uit twee rechten. 5 d) De ellips als meetkundige plaats Een ellips is de meetkundige plaats van de punten waarvoor de som van de afstanden tot twee gegeven brandpunten constant is. Kies een orthonormaal assenstelsel. Zij p = ( x, y ) een willekeurig punt van de ellips en f = ( x f , y f ) , g = ( xg , y g ) de brandpunten, dan geldt: d ( p, f ) + d ( p, g ) = 2a (6) Omwille van de driehoeksongelijkheid moet d ( f , g ) ≤ d ( f , p ) +d ( p, g ) of d ( f , g ) ≤ 2a (7). We eisen echter strikte ongelijkheid d ( f , g ) < 2a aangezien d ( f , g ) = 2a het lijnstuk oplevert dat f met g verbindt. Nu is: d ( p, f ) = p − f = (x − x ) +( y − y ) 2 f 2 f Eerst werken we de wortelvormen weg die gepaard gaan met (6): Kwadrateren van (6) levert of opnieuw kwadrateren: d ( p , f ) = 4 a 2 − 4 a ⋅ d ( p, g ) + d ( p , g ) 2 2 4 a ⋅ d ( p, g ) = 4 a 2 + d ( p , g ) − d ( p, f ) 2 ( 2 16a 2 ⋅ d ( p, g ) − 4a 2 + d ( p, g ) − d ( p, f ) 2 2 ) 2 2 = 0 (8) Het uitwerken van (8) gebeurt met computeralgebra, dit levert de vergelijking van de ellips waarvan we het linkerlid opslaan in de functie ellips ( xf , yf , xg , yg , a ) met als variabelen de coördinaten van de brandpunten en de lengte a van de halve brandpuntenas. Dit is een lange uitdrukking (zie vierde plaatje onderaan). x2 y2 Zo levert ellips ( 4, 0, −4, 0,5 ) = 0 de vergelijking 144 x + 400 y − 3600 = 0 of 2 + 2 = 1 . 5 3 2 6 2 ellips ( c, 0, −c, 0, a ) = 0 wordt (16a 2 − 16c 2 ) x 2 + 16a 2 y 2 − 16a 4 + 16a 2 c 2 = 0 of (a 2 − c2 ) x2 + a2 y 2 = a2 ( a2 − c2 ) met b 2 = a 2 − c 2 verkrijgen we het gekende resultaat x2 y 2 + = 1. a 2 b2 De keuze van de brandpunten is vrij. ellips ( 5, 2, −4, −2,8 ) = 0 wordt 700 x 2 − 288 xy + 960 y 2 − 700 x + 144 y − 40529 = 0 : Opmerking: Wat gebeurt er als we een waarde a kiezen met d ( f , g ) > 2a , zodat niet voldaan is aan de driehoeksongelijkheid (7)? Proberen met ellips ( 5, 0, −5, 0,3) = 0 levert −144 x 2 + 256 y 2 + 2304 = 0 of x2 y2 de hyperbool − = 1 !! 16 9 Men kan narekenen dat ook een hyperbool met d ( p, f ) − d ( p, g ) = 2a en d ( f , g ) > 2a voldoet aan vergelijking (8). De functie ellips ( xf , yf , xg , yg , a ) levert dus een ellips of een hyperbool met gegeven brandpunten f = ( x f , y f ) en g = ( xg , y g ) , naargelang de afstand tussen f en g kleiner of groter is dan 2a . 7 4.2 Eigenwaarden en eigenvectoren Het probleem waarbij men een getal λ en een vector x ≠ 0 nodig heeft zodat Ax = λ x kent veel toepassingen. a) De stelling van Cayley-Hamilton De stelling van Cayley-Hamilton kan als volgt worden ingeleid: • kies een 2 × 2 matrix A en bereken zijn karakteristieke veelterm p ( λ ) = det ( A − λ I ) • vervang λ in de veelterm p ( λ ) door A (hierbij wordt λ 0 vervangen door A0 = I ) • wat is het resultaat? Probeer ook eens met een 3 × 3 en een 4 × 4 matrix. We verkrijgen telkens de nulmatrix, we vermoeden dus algemeen dat elke matrix A voldoet aan zijn eigen karakteristieke vergelijking: als p ( λ ) = 0 de karakteristieke vergelijking is van A, dan is p ( A ) = 0 (de nulmatrix). Dit is de stelling van Cayley-Hamilton. ⎡ −4 4 ⎤ wordt de karakteristieke vergelijking λ 2 + λ − 12 = 0 zodat Voor A = ⎢ ⎥ ⎣ 0 3⎦ A2 + A − 12 I = 0 of A2 = 12 I − A . Merk op dat A3 = A2 A = (12 I − A ) A = 12 A − A2 = 12 A − (12 I − A ) = 13 A − 12 I Voor elk natuurlijk getal k ≥ 2 geldt dat afhankelijk van k. Ak = α A + β I , waarbij α en β constanten zijn 8 b) De cirkels van Gerschgorin Zij A = ⎡⎣ aij ⎤⎦ een vierkante matrix van orde n, dan is elke eigenwaarde van A gelegen binnen (of op) ten minste één van de cirkels in het complexe vlak met middelpunt aii en straal ri = n ∑ j =1, j ≠ i ⎛ n ⎞ ai , j = ⎜ ∑ ai , j ⎟ − aii (i = 1, 2,3,… n) . ⎝ j =1 ⎠ Alle eigenwaarden van A liggen dus in de unie van de schijven Di = { z ∈ : z − aii ≤ ri } (i = 1, 2,3,… n) . Deze stelling van Gerschgorin is handig om snel een grafisch idee te krijgen van de ligging van de eigenwaarden van een matrix: ⎡ 8 −1 0 ⎤ Stel A = ⎢⎢ −1 2 3⎥⎥ . De drie Gerschgorin cirkels zijn ⎢⎣ 0 −1 3⎥⎦ (i) z − 8 = −1 + 0 = 1 (ii) z − 2 = −1 + 3 = 4 (iii) z − 3 = 0 + −1 = 1 We zien dat de eigenwaarden gelegen zijn binnen de unie van de schijven. Bovendien vormt de unie van twee van die schijven een samenhangend gebied dat disjunct is met de derde schijf, hieruit mogen we concluderen dat er binnen die unie exact twee eigenwaarden liggen (rekening houdend met de multipliciteit). Aangezien A en AT dezelfde eigenwaarden hebben kunnen we ook drie cirkels bepalen met stralen berekend uit de kolomsommen i.p.v. de rijsommen. Dit levert de volgende cirkels: De eigenwaarden liggen dus in de doorsnede van de twee unies van drie schijven. Toepassingen: • Als de oorsprong niet gelegen is in de unie van de schijven bepaald door een matrix A, dan is 0 geen eigenwaarde van A. Dit betekent dat A een inverse heeft. 9 • • Een stelsel u′ = Au van lineaire eerste orde differentiaalvergelijkingen, met A diagonaliseerbaar, is stabiel als alle eigenwaarden van A een strikt negatief reëel deel hebben. Dit is zeker zo als al de cirkels van Gerschgorin in het halfvlak x < 0 gelegen zijn. ⎛ n ⎞ Alle eigenwaarden liggen binnen de schijf z ≤ max ⎜ ∑ aij ⎟ ( i = 1, 2,… n ) (analoog i ⎝ j =1 ⎠ voor de kolomsommen). c) Markov ketens Een firma van huurfietsen heeft drie vestigingsplaatsen, die we noteren met A, B, C. Een klant kan een fiets ophalen en terug afleveren op elk van die plaatsen. De klanten leveren de fietsen terug af op de verschillende plaatsen met de volgende kansen of proporties: 0.2 0.8 0.1 B A 0.3 0.5 0.1 0.6 0.2 C 0.2 Deze overgang wordt beschreven door de volgende stochastische matrix (kolomsommen =1): A van : B C naar : ⎡0.8 0.3 0.2 ⎤ A P = ⎢⎢ 0.1 0.2 0.6 ⎥⎥ B ⎢⎣ 0.1 0.5 0.2 ⎥⎦ C ⎡0.4 ⎤ 1) Kies een starttoestandsvector, bijvoorbeeld x 0 = ⎢⎢ 0.5 ⎥⎥ (d.i. een kansvector met som ⎢⎣ 0.1⎥⎦ der elementen gelijk aan 1). Op die avond na sluitingstijd bevinden zich 40% van alle fietsen van de firma in A, 50% in B en 10% in C. De Markov keten wordt gevormd door de opeenvolgende toestandsvectoren x 0 , x1 = Px0 , x 2 = Px1 , x3 = Px 2 ,… (met x k de fietsverdeling na k werkdagen). 10 Er geldt dus dat x k +1 = Px k of x k = P k x0 , met k = 0,1, 2,… Bereken de opeenvolgende toestandsvectoren en bestudeer hun evolutie op de lange duur. 2) Bepaal een evenwichtstoestandsvector, d.i. een kansvector q waarvoor Pq = q . 3) Bestudeer de evolutie van P k , met k = 0,1, 2,… Het rekentoestel levert de volgende resultaten: 1) ⎡ 0.557 ⎤ De toestandsvectoren stabiliseren klaarblijkelijk naar ⎢⎢ 0.230 ⎥⎥ . ⎢⎣ 0.213 ⎥⎦ 2) Merk op dat Pq = q zeker een oplossing heeft aangezien een stochastische matrix P ⎡1⎤ T steeds eigenwaarde 1 heeft (voor P is ⎢⎢1⎥⎥ een eigenvector met eigenwaarde 1). ⎢⎣1⎥⎦ Met de cirkels van Gerschgorin kun je overigens concluderen dat alle eigenwaarden een modulus hebben kleiner dan of gelijk aan 1 (werk met de kolomsommen). De eigenruimte horende bij eigenwaarde 1 wordt gegeven door de vectoren 11 ⎡34 ⎤ . Met x3 = 13 vinden we de eigenvector ⎢⎢14 ⎥⎥ , delen ⎢⎣13 ⎥⎦ ⎡ x1 ⎤ ⎡34 /13⎤ ⎢ x ⎥ = x ⎢14 /13 ⎥ met x ∈ 3⎢ 3 ⎢ 2⎥ ⎥ ⎢⎣ x3 ⎥⎦ ⎢⎣ 1 ⎥⎦ ⎡34 / 61⎤ door 34 + 14 + 13 = 61 levert de enige kansevenwichtsvector q = ⎢⎢14 / 61⎥⎥ met Pq = q . ⎢⎣13 / 61⎥⎦ We stellen vast dat de rij toestandsvectoren x0 , x1 , x 2 , x3 ,… convergeert naar q , onafhankelijk van de gekozen startvector x0 (probeer eens met een andere startvector). Waarom is dat zo? Kies een basis {v1 , v 2 , v 3} van 3 , bestaande uit eigenvectoren van P die horen bij de ⎡34 ⎤ eigenwaarden λ1 = 1 , λ2 = 0.55 , λ3 = −0.35 . We stellen alvast v1 = ⎢⎢14 ⎥⎥ . ⎢⎣13 ⎥⎦ De vector x0 kan op een unieke manier geschreven worden als lineaire combinatie van de basisvectoren: x0 = c1 v1 + c2 v 2 + c3 v 3 x1 = Px0 = c1 Pv1 + c2 Pv 2 + c3 Pv 3 = c1 v1 + c2 0.55 v 2 + c3 (−0.35) v 3 Nu is en x 2 = Px1 = c1 Pv1 + c2 0.55 Pv 2 + c3 (−0.35) Pv 3 = c1 v1 + c2 ( 0.55 ) v 2 + c3 ( −0.35 ) v 3 2 2 algemeen: x k = c1 v1 + c2 ( 0.55 ) v 2 + c3 ( −0.35 ) v 3 k k We zien dus dat lim x k = c1 v1 k →∞ De limietvector is bijgevolg een vector uit de eigenruimte der vectoren met eigenwaarde 1. Omdat elke x k een kansvector is met kolomsom 1, is de limietvector ook een kansvector. ⎡34 ⎤ ⎡34 / 61⎤ c1 v1 = c1 ⎢⎢14 ⎥⎥ met 34c1 + 14c1 + 13c1 = 1 , waaruit c1 = 1/ 61 zodat c1 v1 = q = ⎢⎢14 / 61⎥⎥ . ⎢⎣13 ⎥⎦ ⎢⎣13 / 61⎥⎦ Dit is zo voor elke startvector x0 = c1 v1 + c2 v 2 + c3 v 3 , merk op dat de eerste term c1 v1 = q steeds dezelfde is voor elke startvector! 12 3) We observeren de opeenvolgende machten van de overgangsmatrix P: We vermoeden dat lim P k = [q q q ] k →∞ Waarom is dat zo? Merk op dat P k = P k ⋅ I = P k ⋅ [e1 e 2 = ⎡⎣ P k e1 Nu geldt P k e2 lim P k = ⎡ lim P k e1 k →∞ ⎣ k →∞ e3 ] P k e3 ⎤⎦ lim P k e 2 k →∞ lim P k e3 ⎤ = [q q q ] k →∞ ⎦ aangezien e1 , e 2 , e3 kansvectoren zijn. Stelling: Als P een reguliere n × n stochastische matrix is (d.w.z. dat er een k bestaat waarvoor P k uitsluitend strikt positieve elementen bevat), dan heeft P een unieke evenwichtsvector q, waarvoor Pq = q . Als x0 eender welke starttoestand is en x k +1 = Px k met k = 0,1, 2,… , dan convergeert de Markov keten { xk } naar q en P k naar [q q … q ] als k → ∞ . 13 d) Diagonalisatie van een vierkante matrix Een vierkante matrix A is diagonaliseerbaar als hij gelijkvormig is met een diagonaalmatrix, d.w.z. dat er een inverteerbare matrix P bestaat waarvoor A = PDP −1 . De kolommen van P zijn lineair onafhankelijke eigenvectoren van A en de diagonaalmatrix D bevat de opeenvolgende corresponderende eigenwaarden op de hoofddiagonaal. Diagonalisatie speelt o.a. een rol bij • Het diagonaliseren van een kwadratische vorm. • Lineaire discrete en lineaire continue dynamische systemen (stelsels van lineaire differentievergelijkingen of lineaire differentiaalvergelijkingen van eerste orde). • Het berekenen van matrixfuncties. Als voorbeeld berekenen we 3 ⎡ 7 2⎤ A met A = ⎢ . Er geldt dat A = PDP −1 met ⎥ ⎣ −4 1 ⎦ ⎡1 1⎤ ⎡5 0⎤ P=⎢ en D = ⎢ ⎥ ⎥. ⎣ −1 −2 ⎦ ⎣0 3⎦ We definiëren eigenschap 3 ( A) 3 ⎡3 5 A = P⎢ ⎣⎢ 0 3 0 ⎤ −1 ⎥ P . Men rekent vlug na dat deze matrix de gewenste 3 3 ⎦⎥ = A heeft. Is dit echter een goede definitie, onafhankelijk van de gekozen eigenvectoren in P? Klaarblijkelijk vinden we dezelfde matrix voor 3 14 A bij een andere keuze van P. Stelling: Zij A = PDP −1 een diagonaliseerbare matrix waarbij de gelijke eigenwaarden in D = diag ( λ1 I , λ2 I ,… , λk I ) gegroepeerd zijn. Voor een functie f ( z ) die gedefinieerd is in elke eigenwaarde λi definiëren we ⎛ f ( λ1 ) I ⎜ 0 −1 f ( A) = P ⋅ f ( D ) ⋅ P = P ⎜ ⎜ ⎜⎜ ⎝ ⎞ ⎟ ⎟ P −1 ⎟ ⎟ f ( λk ) I ⎟⎠ 0 0 f ( λ2 ) I Deze definitie is onafhankelijk van de gekozen diagonalisatie van A. Oefening: ⎡ 7 2⎤ Bewijs dat sin 2 ( A ) + cos 2 ( A ) = I en controleer dit met A = ⎢ ⎥. ⎣ −4 1 ⎦ 4.3 Orthogonaliteit en kleinste kwadraten methode a) Orthogonale basissen van een vectorruimte vereenvoudigen het rekenwerk, zij spelen een belangrijke rol in de numerieke wiskunde, o.a. bij de “QR ontbinding” waarbij een m × n matrix A met lineair onafhankelijke kolommen wordt geschreven als A = QR , met Q een m × n matrix waarvan de kolommen een orthonormale basis vormen van de kolomruimte van A, en R een n × n inverteerbare bovendriehoeksmatrix met strikt positieve getallen op de hoofddiagonaal. 15 b) Orthogonale projecties zijn de sleutel tot het “oplossen” van overgedetermineerde stelsels. In de praktijk komen er vaak stelsels voor van lineaire vergelijkingen, met meer vergelijkingen dan onbekenden, die geen oplossingen hebben. Hoe vinden we bijvoorbeeld de “beste” rechte y = ax + b “door” de punten ( 0, 0 ) , (1,1) , ( 2, 2 ) , ( 3, 2 ) ? We wensen dat yi = axi + b ( i = 1, 2,3, 4 ) maar dit stelsel ⎧0 a + b = 0 ⎪a + b = 1 ⎪ of ⎨ ⎪ 2a + b = 2 ⎪⎩3a + b = 2 ⎡0 ⎤ ⎡1⎤ ⎡ 0 ⎤ ⎢1 ⎥ ⎢1⎥ ⎢ 1 ⎥ a⎢ ⎥+b⎢ ⎥ = ⎢ ⎥ ⎢2⎥ ⎢1⎥ ⎢ 2 ⎥ ⎢ ⎥ ⎢⎥ ⎢ ⎥ ⎣3⎦ ⎣1⎦ ⎣ 2 ⎦ ⎡0 ⎢1 of ⎢ ⎢2 ⎢ ⎣3 1⎤ ⎡0⎤ 1⎥⎥ ⎡ a ⎤ ⎢⎢1 ⎥⎥ = 1⎥ ⎢⎣ b ⎥⎦ ⎢ 2 ⎥ ⎥ ⎢ ⎥ 1⎦ ⎣2⎦ of Ax = y heeft geen oplossing x. Een “beste” oplossing x̂ is een vector zodat Axˆ zo dicht als mogelijk gelegen is bij y , in de zin dat Axˆ − y ≤ Ax − y voor elke x ∈ 2 . We noemen x̂ een kleinste kwadraten oplossing, de bijbehorende kleinste kwadraten rechte minimaliseert de som van de kwadraten van de verticale afwijkingen van de gegeven punten t.o.v. de rechte. De vector Axˆ behoort tot de kolomruimte van A (notatie kol A ). De vector die in kol A het dichtst gelegen is bij y is de orthogonale projectie van y op kol A, dit is de unieke vector projkolA y met de eigenschap dat y = n + projkolA y met n ⊥ kol A . Er bestaat zeker een vector x̂ met Axˆ = projkolA y want als x de verzameling dan doorloopt Ax de volledige kolomruimte van A. 2 doorloopt Er moet dus gelden dat y = n + Axˆ met n ⊥ kol A of y − Axˆ ⊥ kol A . De kolommen van A genereren kol A . De vector y − Axˆ staat bijgevolg loodrecht op kol A als en slechts als y − Axˆ loodrecht staat op de twee kolomvectoren van A = [a1 a 2 ] . Dit betekent dat a1T ( y − Axˆ ) = 0 en a 2T ( y − Axˆ ) = 0 of 16 AT ( y − Axˆ ) = 0 . Er geldt bijgevolg dat AT Axˆ = AT y . Een beste oplossing x̂ van Ax = y vinden we dus door het stelsel AT Axˆ = AT y op te lossen. Aangezien de matrix AT A een inverse heeft als en slechts als de kolommen van A lineair onafhankelijk zijn (zoals in ons voorbeeld) vinden we in dat geval een unieke vector xˆ = ( AT A ) AT y . −1 Als de kolommen van A lineair afhankelijk zijn, dan heeft AT Axˆ = AT y oneindig veel oplossingen x̂ waarvoor Axˆ = projkolA y . Concreet vinden we voor ons voorbeeld: ⎡ a ⎤ ⎡7 /10 ⎤ Als beste oplossing vinden we xˆ = ⎢ ⎥ = ⎢ ⎥ zodat de beste rechte gegeven wordt door ⎣ b ⎦ ⎣ 1/ 5 ⎦ y = 0.7 x + 0.2 . Dit wordt bevestigd door de lineaire regressie met het rekentoestel uit te voeren. 17 5 Besluit Met de bovenstaande voorbeelden hebben we geïllustreerd dat de TI-89 kan helpen bij • • • • • het snel verkrijgen van een correct resultaat zonder rekenfouten, het volgen van een werkwijze die manueel te tijdrovend is, het verwerven van inzicht bij het invoeren van nieuwe wiskundige begrippen, het onderzoeken van verschillende situaties die leiden tot het formuleren van uitspraken, de belangrijke visuele grafische ondersteuning. De TI-89 is een rekentoestel voorzien van computeralgebra. Het toestel bevat tevens veel numeriek ingebouwde algoritmen, o.a. voor het berekenen van eigenwaarden, eigenvectoren en matrixonbindingen. Deze algoritmen worden bestudeerd in de numerieke wiskunde, waarbij men vaak een heel andere weg inslaat dan de didactische aanpak in een cursus lineaire algebra… 6 Bronnen 1. H. Anton, C. Rorres, Elementary Linear Algebra, Applications Version, John Wiley & Sons, 1991. 2. S.I. Grossman, Elementary Linear Algebra, fourth edition, Saunders College Publishing, 1991. 3. G. James, Advanced Modern Engineering mathematics, third edition, Pearson Education, 2004. 4. D.C. Lay, Linear Algebra and Its Applications, third edition update, Pearson Education, 2006. 5. C.D. Meyer, Matrix Analysis and Applied Linear Algebra, Siam, 2000. 18