Variatierekening Deborah Cabib, Gerrit Oomens 25-06-2008 Eindverslag Project Wiskunde 2 Begeleiding: dr. Henk Pijls Korteweg-de Vries Instituut voor Wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam Samenvatting De variatierekening betreft het vinden van de extrema van functionalen op functieruimtes. In dit verslag wordt de klassieke theorie van de variatierekening besproken. De Euler-Lagrange vergelijking wordt afgeleid en toegepast om enkele voorbeelden uit te werken. De multiplicatorenmethode van Lagrange voor het oplossen van optimaliseringsproblemen met nevenvoorwaarden wordt bewezen, zowel in het geval van Rn als in het geval van variationele problemen. Verder wordt de stelling van Noether bewezen en wordt hiermee een manier gegeven om de Euler-Lagrange vergelijking te vereenvoudigen als het probleem bepaalde symmetrieën heeft. Ten slotte worden de geodeten — de kortste paden tussen twee punten op een oppervlak — besproken als toepassing van de theorie van de variatierekening. Gegevens Titel: Variatierekening Auteurs: Deborah Cabib, [email protected], 5654386 Gerrit Oomens, [email protected], 5619637 Begeleider: dr. Henk Pijls Einddatum: 25-06-2008 Korteweg de Vries Instituut voor Wiskunde Universiteit van Amsterdam Plantage Muidergracht 24, 1018 TV Amsterdam http://www.science.uva.nl/math Inhoudsopgave Inleiding 2 1 Eindige dimensie 1.1 Functies op R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Functies op Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 2 Variationele problemen 2.1 Euler-Lagrange vergelijking . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Voorbeelden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 7 9 3 Nevenvoorwaarden 3.1 Impliciete-functiestelling . . . . . . . . . . 3.2 Multiplicatorenmethode van Lagrange . . 3.3 Open afbeeldingsstelling . . . . . . . . . . 3.4 Multiplicatoren bij variationele problemen . . . . 12 12 15 17 18 4 Stelling van Noether 4.1 Invariantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 5 Geodeten 5.1 Kortste paden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Geodeten op een sfeer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 25 Appendix 26 Populaire samenvatting 28 Bibliografie 30 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inleiding De variatierekening is de tak van de wiskunde die zich bezighoudt met het vinden van extrema van functies op functieruimten. Dat wil zeggen dat men een functie F bekijkt van een functieruimte V — een (meestal oneindig-dimensionale) vectorruimte waarvan de elementen zelf weer functies zijn — naar de reële getallen en dat men dan elementen van V zoekt waarvoor F maximaal of minimaal is. Dit kan gezien worden als een generalisatie van de bekende problemen uit de calculus waarbij men functies bekijkt van Rn naar R. De variatierekening heeft veel toepassingen, onder andere in de natuurkunde en de econometrie. Echter, we zullen ons hier vooral beperken tot de wiskunde achter de variatierekening. In dit verslag proberen we de klassieke theorie van de variatierekening samen te vatten. Voordat we hiermee beginnen, bekijken we het bekende probleem van functies op Rn en werken we dit uit in hoofdstuk 1. Hierbij kijken we naar noodzakelijke en voldoende voorwaarden voor extrema bij differentieerbare functies op Rn . Na deze korte herhaling gaan we in hoofdstuk 2 verder met het oneindig-dimensionale probleem. We zullen eerst enige begrippen introduceren en daarna een noodzakelijke voorwaarde voor een extremum van een functie op een functieruimte afleiden: de zogenaamde Euler-Lagrange vergelijking. Hiermee werken we enkele voorbeelden uit. In hoofdstuk 3 bewijzen en generaliseren we een bekende methode uit de calculus: de multiplicatorenmethode van Lagrange. Met deze methode is het mogelijk — ook in het oneindigdimensionale geval — een optimaliseringsprobleem met nevenvoorwaarden op te lossen, dus een probleem waarbij we extrema van F zoeken op een deelverzameling van de functieruimte V die bestaat uit alle functies die aan een extra voorwaarde voldoen. Onder andere in de natuurkunde komt men vaak problemen tegen die invariant zijn onder bepaalde transformaties. Het blijkt dat deze invarianties het mogelijk maken om de EulerLagrange vergelijking te herschrijven tot een meer eenvoudige differentiaalvergelijking. In hoofdstuk 4 bewijzen we dit resultaat van Emmy Noether. Ten slotte passen we in hoofdstuk 5 de theorie toe om de kortste paden te vinden tussen twee punten op een willekeurig oppervlak. 2 Hoofdstuk 1 Eindige dimensie Het blijkt vaak handig te zijn om eerst het specifieke geval goed te begrijpen alvorens aan een algemener geval te beginnen. Daarom zullen we eerst het relatief bekende geval van functies van Rn naar R geheel uitwerken. We zullen hierbij noodzakelijke en voldoende condities voor extrema van deze functies formuleren — maar eerst geven we aan wat er precies bedoeld wordt met “extremum”. Definitie 1.1. Zij V een metrische ruimte en f : V → R een reëelwaardige functie. Dan heeft f een lokaal maximum in x0 ∈ V als er een open omgeving U van x0 bestaat zodat voor alle x ∈ U geldt dat f (x) ≤ f (x0 ). Evenzo neemt f een lokaal minimum aan in x0 als f (x) ≥ f (x0 ) voor alle x ∈ U . We zeggen dat x0 een lokaal extremum is van f als f een lokaal minimum of maximum heeft in x0 . 1.1 Functies op R Ten eerste bekijken we functies op R. We formuleren en bewijzen de bekende noodzakelijke voorwaarde voor een extremum: een nulpunt van de afgeleide. Propositie 1.2. Zij f : R → R een functie die in x0 een extremum heeft en differentieerbaar is in x0 . Dan is f 0 (x0 ) = 0. Bewijs. We nemen aan dat f een lokaal maximum heeft in x0 . Het geval dat het een minimum is gaat analoog. De functie f is differentieerbaar in x0 , dus er geldt f 0 (x0 ) = lim h→0 f (x0 + h) − f (x0 ) . h We weten dat f een lokaal maximum in x0 heeft, dus f (x0 +h)−f (x0 ) ≤ 0 voor h klein. Hieruit (x0 ) (x0 ) volgt dat voor h positief f (x0 +h)−f ≤ 0 en dan ook limh→0 f (x0 +h)−f ≤ 0. Evenzo is h h f (x0 +h)−f (x0 ) deze uitdrukking positief voor h negatief, dus krijgen we ook limh→0 ≥ 0. De h limiet moet dus gelijk zijn aan 0, dus f 0 (x0 ) = 0. We hebben nu bewezen dat dit een noodzakelijke voorwaarde is voor het hebben van een extremum, maar het is zeker geen voldoende voorwaarde. Een eenvoudig voorbeeld is de functie f (x) = x3 . Deze heeft afgeleide 0 in het punt x = 0, maar heeft daar een buigpunt in plaats van een extremum. Als de functie echter ook twee keer differentieerbaar is kunnen we een voldoende voorwaarde geven. 3 Propositie 1.3. Zij f : R → R een functie die differentieerbaar is in een omgeving van x0 met f 0 (x0 ) = 0. Stel dat f 00 (x0 ) bestaat en f 00 (x0 ) > 0. Dan heeft f een lokaal minimum in x0 . Evenzo heeft f een lokaal maximum in x0 als f 00 (x0 ) < 0. Bewijs. Stel dat f 00 (x0 ) > 0. We willen nu laten zien dat f een minimum heeft in x0 . De afgeleide f 0 is differentieerbaar in x0 , dus er geldt f 0 (x0 + h) = f 0 (x0 ) + f 00 (x0 )h + o(h) voor h → 0. Verder is f 0 (x0 ) = 0 en voor alle > 0 bestaat er een δ zodat −|h| < o(h) < |h| voor |h| < δ. Dus ook voor = f 00 (x0 )/2 bestaat er zo’n δ, maar dan is voor |h| < δ: 1 f 0 (x0 + h) = f 00 (x0 )h + o(h) > f 00 (x0 )h − f 00 (x0 )|h| > 0 2 1 f 0 (x0 + h) = f 00 (x0 )h + o(h) < f 00 (x0 )h + f 00 (x0 )|h| < 0 2 als h > 0 als h < 0. Dus voor h kleiner dan 0 is de afgeleide van f negatief. Maar voor h groter dan nul is de afgeleide van f positief. Dit bewijst dat f een lokaal minimum heeft in x0 , want de functie stijgt rechts van x0 en daalt links van x0 . Het bewijs dat f een lokaal maximum in x0 heeft als f 00 (x0 ) < 0 verloopt analoog. Merk op dat hoewel deze propositie een voldoende conditie geeft voor een lokaal extremum, deze conditie niet noodzakelijk is. Als de tweede afgeleide in x0 gelijk is aan 0 vertelt de propositie niets, maar kan de functie nog wel een extremum in x0 hebben. De functie f (x) = x4 is een voorbeeld van een functie met een minimum in x0 = 0 en f 00 (x0 ) = 0. Voor functies als x4 is het mogelijk het gedrag in 0 te bestuderen door naar hogere orde afgeleiden te kijken, 2 maar ook dit kan niet voor alle functies. De functie e−1/x is een voorbeeld van een functie met f (n) (0) = 0 voor alle n ∈ N, dus hier is het niet mogelijk met behulp van afgeleides in 0 te bepalen of deze functie een extremum heeft in 0. 1.2 Functies op Rn De resultaten uit de vorige paragraaf laten zich vrij eenvoudig generaliseren naar Rn : Propositie 1.4. Zij f : Rn → R een functie die in x0 een extremum heeft en differentieerbaar is in x0 . Dan is f 0 (x0 ) = 0. Bewijs. Neem h ∈ Rn . Dan is g(t) := f (x0 + th) een functie van R naar R met een extremum in 0. Verder is g 0 (0) = f 0 (x0 )h en dit is gelijk aan 0 volgens propositie 1.2. Dit geldt voor alle h ∈ Rn , dus f 0 (x0 ) = 0. De generalisatie van propositie 1.3 is wat ingewikkelder. De tweede afgeleide is nu een symmetrische matrix geworden. Om dit terug te schrijven naar het de meer eenvoudige situatie gebruiken we het volgende lemma. Lemma 1.5. Zij S een symmetrische n × n matrix met eigenwaarden λ1 , . . . , λn en h ∈ Rn . Als S positief definiet (dus λi > 0 voor alle i) is, geldt S(h, h) = hT Sh > 0. Evenzo geldt S(h, h) < 0 als S negatief definiet is. Bewijs. De matrix S is symmetrisch, dus er bestaat een orthonormale basis van eigenvectoren v1 , . . . vn zodat S = V T DV , waarbij V de matrix is met als kolommen de eigenvectoren en 4 Pn Dan is * n + n n X X X S(h, h) = hT Sh = hT V T DV h = hDV h, V hi = ai λi vi , ai vi = λi a2i . D = diag(λ1 , . . . , λn ). Schrijf V h = i=1 ai vi . i=1 i=1 i=1 Voor h 6= 0 is dit positief als alle eigenwaarden positief zijn en negatief als alle eigenwaarden negatief zijn. Propositie 1.6. Zij f : Rn → R een functie die differentieerbaar is in een omgeving van x0 met f 0 (x0 ) = 0. Stel dat f 00 (x0 ) bestaat en positief definiet is. Dan heeft f een lokaal minimum in x0 . Evenzo heeft f een lokaal maximum in x0 als f 00 (x0 ) negatief definiet is. Bewijs. Neem h ∈ Rn en beschouw gh (t) := f (x0 + th). Nu is g 0 (t) = f 0 (x0 + th)h en g 00 (0) = f 00 (x0 )(h, h). Dan geldt volgens bovenstaand lemma g 00 (0) > 0 of g 00 (0) < 0, dus kunnen we propositie 1.3 toepassen. Hieruit volgt dat gh een lokaal extremum heeft in x0 voor alle h. Dus heeft f zelf ook een lokaal extremum in x0 . In dit hoofdstuk hebben we de voorwaarden voor extrema in het eindig-dimensionale geval herhaald. Dit is niet alleen handig om te begrijpen voordat we het algemene geval gaan bekijken, maar het zal ook blijken dat we vaak oneindig-dimensionale problemen terug zullen brengen naar eindig-dimensionale problemen en daarbij kunnen wede theorie van dit hoofdstuk toepassen. 5 Hoofdstuk 2 Variationele problemen We hebben in het vorige hoofdstuk gezien hoe extrema werken in Rn en gaan nu door met het oneindig-dimensionale geval. We beschouwen functies op functieruimten zoals C 1 ([a, b]), de ruimte van continu differentieerbare functies op een interval [a, b]. Als eerste geven we een aantal definities. Definitie 2.1. Zij V een vectorruimte over R. Een functionaal op V is een functie F : V → R. Een functionaal heet lineair als F [λu + µv] = λF [u] + µF [v]. Voorbeeld 2.2. Neem V = C([a, b]), de ruimte van continue functies van het gesloten interval [a, b] naar R. Dan is de evaluatieafbeelding in x ∈ [a, b], F [u] = u(x), een lineaire functionaal. Rbp Rb Ook de integraal G[u] = a u(x) dx is lineair, maar H[u] = a 1 + u0 (x) dx is dit niet. Meer algemeen definiëren we voor een gegeven functie f : R3 → R een functionaal F ∈ C 1 ([a, b]) → R als volgt Z b F [u] = f (x, u(x), u0 (x)) dx. a Als op V een norm k · k gegeven is, kunnen we op de gebruikelijke manier begrippen als afgeleide definiëren: Definitie 2.3. Zij F een functionaal op een vectorruimte V met norm k · k. Dan heet F differentieerbaar in u ∈ V als er een lineaire functionaal L bestaat zodat voor h ∈ U geldt dat F [u + h] − F [u] = L[h] + o(h) voor h → 0, waarbij voor alle > 0 er een δ > 0 bestaat zodat o(h) < khk voor khk < δ. We noemen L de afgeleide of variatie van F en noteren deze met F 0 . Analoog aan het eindig-dimensionale geval is een “nulpunt” van de afgeleide een noodzakelijke conditie voor een extremum: Stelling 2.4. Zij F een functionaal op een vectorruimte V . Stel dat F een extremum heeft in u. Dan geldt F 0 [u] ≡ 0. Bewijs. Neem 0 6= h ∈ V willekeurig. Definieer een functie G : R → R door G(t) = F [u + th]. Dan geldt G(µ) − G(0) F [u + µh] − F [u] = lim µ→0 µ→0 µ µ F 0 [u]µh + o(µh) = lim = F 0 [u]h. µ→0 µ G0 (0) = lim 6 (2.1) De laatste stap volgt uit het feit dat o(µh) ⊂ o(µ). Immers, voor alle > 0 is er een δ > 0 δ zodat o(µh) < khk kµhk = µ voor kµhk < δ. Als nu µ < khk is o(µh) < µ. Nu volgt 0 uit 2.1 dat F [u]h = 0, want G is een reëelwaardige functie met een extremum in 0, dus G0 (0) = 0. 2.1 Euler-Lagrange vergelijking We hebben gezien dat een nulpunt van de variatie van een functionaal een noodzakelijke conditie is voor het hebben van een extremum. We kunnen ons afvragen hoe we dit kunnen gebruiken om de extrema van een functionaal te vinden. Hiervoor moeten we de vergelijking F 0 = 0 oplossen. Het blijkt dat voor een functionaal van de vorm Z a f (x, u(x), u0 (x)) dx F [u] = b het mogelijk is deze vergelijking te herschrijven tot een differentiaalvergelijking, de zogenaamde Euler-Lagrange vergelijking: ∂f d ∂f − = 0. ∂u dx ∂u0 Voordat we deze vergelijking zullen afleiden geven we een lemma dat hierbij nodig is. Lemma 2.5. (Hoofdlemma van de variatierekening) Zij g ∈ C 1 ([a, b]) en stel dat voor alle h ∈ C 1 ([a, b]) met h(a) = h(b) = 0 geldt dat Z b g(x) · h(x) dx = 0. a Dan is g(x) = 0 voor alle x ∈ [a, b]. Bewijs. Kies h(x) = (a − x)(x − b) · g(x), dan voldoet h aan de aannamen. Er geldt dus Rb Rb 2 a h(x) · g(x) dx = a (a − x)(x − b) · g(x) dx = 0. Ook is (a − x)(x − b) > 0 voor alle x ∈ (a, b) en g(x)2 ≥ 0 voor alle x, dus geldt g(x) = 0 voor alle x ∈ (a, b). Hiermee kunnen we de bovenstaande vergelijking afleiden. 1 ([a, b]) = {u ∈ C 1 ([a, b]) : u(a) = α, u(b) = β} en Stelling 2.6. (Euler-Lagrange) Schrijf Cα,β 1 zij F : Cα,β ([a, b]) → R een functionaal met Z F [u] = b f (x, u(x), u0 (x)) dx, a waarbij f : R3 → R een tweemaal continu differentieerbare functie is. Stel dat v(x) een extremum is van F , dan geldt er: ∂f d ∂f (x, v(x), v 0 (x)) − (x, v(x), v 0 (x)) = 0. ∂u dx ∂u0 Bewijs. We nemen h ∈ C 1 met h(a) = h(b) = 0 en definiëren de functie Z b G(t) = F [v + th] = f (x, (v + th)(x), (v + th)0 (x)) dx. a 7 (2.2) 1 ([a, b]) en is 0 een lokaal extremum van G. Er geldt h(a) = h(b) = 0, dus is v + th ∈ Cα,β Aangezien G een functie van R naar R is, geldt dan dat de afgeleide van G in 0 gelijk is aan 0. We berekenen nu deze afgeleide met behulp van differentiatie onder het integraalteken (zie stelling 1 in de appendix) en de kettingregel: Z d b f (x, (v + th)(x), (v + th)0 (x)) dxt=0 dt a Z b d = f (x, v(x) + th(x), v 0 (x) + th0 (x))t=0 dx a dt Z b ∂f ∂f · h + 0 · h0 dx. = ∂u a ∂u Ġ(0) = In de laatste gelijkheid gebruiken we dat x, v en v 0 niet van t afhangen, dus 0 en dv dt = 0. We passen op de tweede term partiële integratie toe en krijgen ∂f ·h 0 = Ġ(0) = ∂u0 b b Z + a a ∂f · h dx − ∂u b Z a d ∂f · h dx = dx ∂u0 Z a b ∂f · h dx − ∂u ∂f dx ∂x dt Z a b = 0, dv dt =0 d ∂f · h dx, dx ∂u0 want h(a) = h(b) = 0. Dit geldt voor alle h ∈ C01 ([a, b]) , dus volgt uit het vorige lemma dat ∂f d ∂f (x, v(x), v 0 (x)) − (x, v(x), v 0 (x)) = 0. ∂u dx ∂u0 Het is eenvoudig na te gaan dat deze stelling nog steeds geldt als we een functionaal bekijken van de vorm Z b F [u1 , . . . , un ] = f (x, u1 , . . . un , u01 , . . . u0n ) dx a en we zullen later ook functionalen van deze vorm beschouwen. Zie stelling 2 in de appendix voor een bewijs hiervan. Merk op dat de Euler-Lagrange vergelijking 2.2 in het algemeen een tweede-orde differentiaalvergelijking is. Immers, als we deze vergelijking met behulp van de kettingregel uitschrijven, krijgen we het volgende: ∂f d ∂f − ∂u dx ∂u0 ∂f ∂2f ∂2f du ∂ 2 f du0 = − 0 − 0 · − 02 · ∂u ∂u ∂x ∂u ∂u dx ∂u dx 2f ∂f ∂2f ∂2f ∂ = − − · u0 − 02 · u00 . ∂u ∂u0 ∂x ∂u0 ∂u ∂u 0= Ten slotte geven we nog een algemener resultaat. We hebben gezien dat de afgeleide van een functionaal F gelijk aan 0 is in een extremum, en we hebben een vergelijking afgeleid waaraan een extremum moet voldoen, maar wat is nu het verband tussen de afgeleide van de functionaal en deze vergelijking? De volgende stelling geeft het antwoord op deze vraag. Stelling 2.7. Zij F : C 1 ([a, b]) → R een functionaal met Z F [u] = b f (x, u(x), u0 (x)) dx, a 8 waarbij f : R3 → R een C 2 -functie. Neem op C 1 ([a, b]) de norm k · k met kuk = max |u(x)| + max |u0 (x)|. x∈[a,b] x∈[a,b] Dan geldt er Z b 0 F [u]h = a d ∂f ∂f 0 0 (x, u, u ) h(x) dx. (x, u, u ) − ∂u dx ∂u0 (2.3) Bewijs. Neem h ∈ C 1 ([a, b]) en bekijk Z b f (x, u + h, u0 + h0 ) − f (x, u, u0 ) dx = f 0 (x)h̃(x) + o(h̃(x)) dx a a Z b Z b ∂f ∂f 0 = o(h̃(x)) dx, h(x) + 0 h (x) dx + ∂u a ∂u a Z b F [u + h] − F [u] = Rb waarbij h̃(x) = (0, h(x), h0 (x)). We willen laten zien dat a o(h̃(x))dx ∈ o(h) voor h → 0, want daarna volgt (2.3) na partieel integreren. Neem > 0 en schrijf r = kuk + khk. Omdat f een C 2 -functie is, zijn de partiële afgeleiden van f uniform continu op de compacte verzameling 0 [a, b] × [−r, r] × [−r, r], dus er bestaat een δ > 0 zodat er voor kv − v k < δ geldt dat ∂f ∂f ∂f ∂f en ook ∂u0 (v) − ∂u0 (v 0 ) < b−a . Dan is ∂u (v) − ∂u (v 0 ) < b−a ∂f ∂f 0 0 0 0 |o(h̃(x))| = f (x, u + h, u + h ) − f (x, u, u ) − h(x) − 0 h (x) ∂u ∂u ∂f ≤ f (x, u + h, u0 ) − f (x, u, u0 ) − h(x) ∂u ∂f 0 0 0 0 + f (x, u + h, u + h ) − 0 h (x) − f (x, u + h, u ) . ∂u Z h(x) ∂f ∂f (x, u + t, u0 ) − (x, u, u0 ) dt = 0 ∂u ∂u Z 0 h (x) ∂f ∂f 0 0 + (x, u + h, u + t) − (x, u, u ) dt 0 0 0 ∂u ∂u Z Z 0 h(x) h (x) (|h(x)| + |h0 (x)|) khk < ≤ . + = 0 b − a 0 b − a b−a b−a Dit geeft ons Z b Z o(h̃(x)) dx < a 2.2 a b khk dx = khk. b−a Voorbeelden We geven enkele voorbeelden waarbij we de gevonden Euler-Lagrangevergelijking toegepassen om optimaliseringsproblemen op te lossen. Voorbeeld 2.8. We zoeken een kromme y = u(x) in het vlak R2 van minimale lengte met eindpunten (0, 0) en (1, 1). Stel dat we geen idee hebben hoe die kromme er uit moet zien, dan 9 willen we de Euler-Lagrange vergelijking toepassen om een oplossing te vinden. De lengte van R een dergelijke kromme γ wordt gegeven door de lijnintegraal γ 1 ds. Dus als we functies u(x) bekijken met x ∈ [0, 1] die voldoen aan u(0) = 0 en u(1) = 1, wordt de kromme γ gegeven door de parametrisatie (x, y) = (x, u(x)) en krijgen we als functionaal Z Z 1p Z 1p Z 1 0 2 0 2 0 2 F [u] = 1 ds = x (x) + y (x) dx = 1 + u (x) dx = f (x, u, u0 ) dx, γ 0 als we nemen f (x, u, u0 ) = 0 0 p 1 + u0 (x)2 . De Euler-Lagrange vergelijking toepassen geeft nu ∂f u0 d ∂f d u00 2u02 √ √ 0= . − = 0 − = − 1 + ∂u dx ∂u0 dx 1 + u02 1 + u02 1 + u02 02 02 2u 2u Dit is waar als u00 = 0 of 1 + 1+u 02 = 0, oftewel 1+u02 = −1. Maar dit laatste kan niet, dus er moet gelden u00 = 0, oftewel u(x) = ax + b. We weten ook u(0) = 0 en u(1) = 1, dus u(x) = x. Verrassend genoeg vinden we dat het korste pad tussen (0, 0) en (1, 1) een rechte lijn is. Opmerking 2.9. In dit geval was de functie f : R3 → R van vrij eenvoudige vorm, deze functie hing niet van x af (en zelfs ook niet van u). Het toepassen van de Euler-Lagrange vergelijking geeft toch nog een vrij uitgebreide berekening. Dit kan echter ook makkelijker — de Euler-Lagrange vergelijking is in dit geval: 0= ∂f d ∂f ∂f ∂ 2 f 0 ∂ 2 f 00 − = − u − 02 u . ∂u dx ∂u0 ∂u ∂u0 ∂u ∂u Vermenigvuldigen met u0 geeft ∂2f ∂2f d ∂f 0 u − 0 u02 − 02 u00 u0 = 0= ∂u ∂u ∂u ∂u dt 0 ∂f f −u ∂u0 en integreren geeft nu dat voor een zekere constante c ∈ R geldt f − u0 ∂f = c. ∂u0 We hebben in dit geval het probleem teruggebracht naar een eerste-orde differentiaalvergelijking in de onbekende u. Met deze vereenvoudiging kunnen we een enigszins ingewikkelder probleem aanpakken. Voorbeeld 2.10. (Brachistochronen) We zoeken de kromme y = u(x) in het vlak waarover een deeltje in zo min mogelijk tijd onder de invloed van de zwaartekracht van één punt (x0 , u(x0 )) naar een ander punt (x1 , u(x1 )) rolt. We verwaarlozen hierbij de wrijving, zodat we de snelheid kunnen vinden door gebruik te maken van behoud van energie: 21 mv 2 = mgy. √ Dit geeft ons v = 2gy. Voor een kromme γ wordt de tijd gegeven door de afgelegde weg gedeeld door de snelheid - dit geeft de lijnintegraal Z Z x1 Z x1 p 1 1 p ds = · 1 + u0 (x)2 dx = f (x, u(x), u0 (x)) dx. v 2gu(x) γ x0 x0 q R x1 02 0 waarbij we nemen f (x, u, u0 ) = 1+u 2gu . We willen dus de functionaal F [u] = x0 f (x, u, u )dx minimaliseren, waarbij f niet afhangt van x. Hiervoor passen we de bovenstaande opmerking 10 toe, dus we berekenen eerst de afgeleide van f naar u0 : 02 )1/2 · (2gu)− 12 ∂ (1 + u ∂f u0 √ = = . √ ∂u0 ∂u0 1 + u02 · 2gu Dit geeft ons voor zekere c ∈ R dat √ 1 + u02 1 u02 0 ∂f √ √ √ c=f −u = =√ − √ 02 ∂u0 2gu 1 + u · 2gu 2gu · 1 + u02 en kwadrateren geeft c2 = 1 (2gu)(1 + u02 ) oftewel (1 + u02 )u = 1 . 2gc2 Voor het gemak schrijven we k = 1/(2gc2 ). Nu willen we de eerste-orde differentiaalvergelijking (1 + u02 )u = k oplossen. Herschrijven geeft: r r k−u u 0 0 u = oftewel u · = 1. u k−u Met behulp van de substitutie u = k sin2 t (met du = 2k sin t cos t dt) integreren we: Z r Z s u k sin2 t x= du = 2k · sin t cos t dt k−u k(1 − sin2 t) Z Z Z sin t = 2k · sin t cos t dt = 2k sin2 t dt = k 1 − cos 2t dt cos t 1 = k(t − sin 2t) + C voor zekere C ∈ R. 2 Dit geeft ons als vergelijkingen 1 sin 2t) + C 2 y(t) = k sin2 t. x(t) = k(t − en dit blijkt een cycloı̈de te zijn (zie figuur). Figuur 2.1: Cycloı̈de met k = −1 en C = π y 1.0 0.8 0.6 0.4 0.2 x 0.5 1.0 1.5 11 2.0 2.5 3.0 Hoofdstuk 3 Nevenvoorwaarden In dit hoofdstuk bekijken we optimaliseringsproblemen met een extra “nevenvoorwaarde”. Hierbij gaat het om het vinden van de lokale extrema van een functie op de nulverzameling van een andere functie. Dus we zijn bijvoorbeeld geı̈nteresseerd in de lokale extrema van een functie f : Rn → R binnen de verzameling M = {x ∈ Rn : g(x) = 0} voor een zekere functie g : Rn → R. Dit is een bekend probleem uit de calculus en wordt opgelost met behulp van de zogenaamde multiplicatorenmethode van Lagrange, waarbij we zoeken naar oplossingen (λ, x) van de vergelijking f 0 (x) − λg 0 (x) = 0. Wij zullen in dit hoofdstuk een bewijs geven van deze multiplicatorenmethode dat eenvoudig kan worden gegeneraliseerd naar het geval waar f en g functionalen op oneindig-dimensionale ruimten zijn. Hierbij volgen we grotendeels [2]. Ten eerste bewijzen we enkele algemene resultaten uit de analyse en topologie die we nodig zullen hebben voor het bewijs, daarna passen we deze eerst toe om de multiplicatorenmethode zowel in Rn als in de situatie van hoofdstuk 2 te bewijzen. 3.1 Impliciete-functiestelling Ten eerste zullen we de impliciete-functiestelling bewijzen voor volledige genormeerde vectorruimten. Dit kunnen we ook afkorten: Definitie 3.1. Een Banachruimte is een volledige genormeerde vectorruimte, dus een genormeerde vectorruimte waarin iedere Cauchyrij convergeert. Het zal duidelijk zijn dat Rn een Banachruimte is. In paragraaf 3.4 zullen we zien dat ook C 1 ([a, b]) een Banachruimte is in een goed gekozen norm. We bewijzen eerst de inversefunctiestelling en we laten daarna zien dat de impliciete-functiestelling hieruit volgt. Voordat we met dit bewijs beginnen, leiden we enkele eigenschappen van continue lineaire afbeeldingen tussen Banachruimten af. Definitie 3.2. Zij X, Y Banachruimten. We schrijven Lin(X, Y ) voor de ruimte van alle continue lineaire afbeeldingen van X naar Y . Het is eenvoudig in te zien dat dit weer een vectorruimte is. We zullen op Lin(X, Y ) in het algemeen de operatornorm gebruiken, gedefinieerd door kL(x)k kLk = max . x∈U kxk 12 Definitie 3.3. Zij X, Y Banachruimten. Een afbeelding f : X → Y heet differentieerbaar in x ∈ X als er een L ∈ Lin(X, Y ) bestaat zodat f (x + h) − f (x) = L(h) + o(h). We noemen L de afgeleide van f in x en we noteren dit met f 0 (x). We zeggen dat f een C 1 -afbeelding op O ⊂ X is als f differentieerbaar is in ieder punt van O en de afbeelding x 7→ f 0 (x) continu is op O. Propositie 3.4. Zij X, Y Banachruimten en L ∈ Lin(X, Y ) met kLk < 1. Dan is I − L P∞ −1 n inverteerbaar met (I − L) = n=0 L . P n Bewijs. Ten eerste gaan we na dat ∞ n=0 L convergeert in de operatornorm. Neem > 0, dan geldt er m m X X Ln ≤ kLkn < , k=n k=n P∞ n waarbij we gebruiken dat n=0 kLk convergeert voor kLk < 1. Dan is (I − L) ∞ X n=0 Ln = ∞ X Ln − n=0 ∞ X Ln+1 = I. n=0 Gevolg 3.5. Zij f : X → Y een C 1 -afbeelding. Stel dat f 0 (a) inverteerbaar is voor een zekere a ∈ X. Dan is er een open omgeving U van a zodat f 0 (x) inverteerbaar is voor x ∈ U . Bewijs. De afgeleide van f is continu, dus er bestaat een δ > 0 zodat voor kx − ak < δ geldt dat kf 0 (a) − f 0 (x)k < kf 0 (a)−1 k−1 . Dan is kI − f 0 (a)−1 f 0 (x)k = kf 0 (a)−1 (f 0 (a) − f 0 (x))k ≤ kf 0 (a)−1 k · kf 0 (a) − f 0 (x)k < 1. Dus f 0 (a)−1 f 0 (x) is inverteerbaar, maar dan is f 0 (x) zelf dat ook. Lemma 3.6. Zij X, Y Banachruimten. Definieer G = {L ∈ Lin(X, Y ) : L is inverteerbaar}. Dan is de afbeelding G → G gegeven door L 7→ L−1 continu in de operatornorm op Lin(X, Y ). Bewijs. Neem L0 ∈ G. We bekijken voor L ∈ G de uitdrukking −1 −1 −1 −1 kL−1 − L−1 0 k = kL (I − LL0 )k ≤ kL k · kI − LL0 k −1 −1 = kL−1 k · k(L0 − L)L−1 0 k ≤ kL k · kL0 − Lk · kL0 k. −1 dan is kI − L−1 Lk < 1/2, dus We willen nu kL−1 k afschatten. Als kL0 − Lk < (2kL−1 0 k) 0 P ∞ −1 n volgens propositie 3.4 is L−1 0 L inverteerbaar met inverse n=0 (I − L0 L) . Dan is ! ∞ ∞ n ∞ X X X 1 −1 −1 −1 −1 −1 n n −1 kI − L0 Lk < kL0 k (I − L0 L) L0 ≤ kL0 k = 2kL−1 kL k = 0 k. 2 n=0 n=0 n=0 Dit geeft ons −1 2 kL−1 − L−1 0 k < 2kL0 k · kL0 − Lk < 13 als 2 −1 kL0 − Lk < (2kL−1 · . 0 k ) Stelling 3.7. (Lokale inverse-functiestelling) Zij X een Banachruimte en f : O → X een C 1 -functie met O open in X. Neem a ∈ O en schrijf b = f (a). Als f 0 (a) inverteerbaar is, dan zijn er open omgevingen U van a en V van b zodat f : U → V een C 1 -diffeomorfisme is. Bewijs. Ten eerste merken we op dat we zonder verlies van algemeenheid mogen aannemen dat a = b = 0 en f 0 (a) = I. Immers als dit niet zo is, kunnen we overgaan op de functie g(x) = f 0 (a)−1 f (x + a) − b, en als de stelling waar is voor deze functie g dan ook voor f . Omdat f 0 (a) inverterbaar is, bestaat er volgens gevolg 3.5 een r0 > 0 zodat f 0 (x) inverteerbaar is voor kxk < r0 . Definieer R(x) := f (x) − f 0 (0)x. Dan geldt kR(x) − R(y)k = kf (x) − f (y) − f 0 (0)(y − x)k ≤ kf (x) − f (y) − f 0 (x)(y − x)k + k(f 0 (x) − f 0 (0))(y − x)k. Vanwege het feit dat f een C 1 -afbeelding is, bestaat er een δ1 ∈ (0, r0 ) zodat voor kxk < δ1 geldt dat kf 0 (x) − f 0 (0)k < 1/4. Verder geldt ook f (x) − f (y) = f 0 (x)(y − x) + o(y − x), dus er bestaat ook een δ2 ∈ (0, r0 ) zodat voor ky − xk < δ2 geldt dat kf (x) − f (y) − f 0 (x)(y − x)k < kx − yk/4. Neem r = min(δ1 , δ2 /2), dan geldt voor x, y met kxk < r en kyk < r dat kR(x) − R(y)k ≤ kf (x) − f (y) − f 0 (x)(y − x)k + kf 0 (x) − f 0 (0)k · k(x − y)k < kx − yk/2. We mogen aannemen dat f 0 (0) = I, dus we krijgen voor x, y ∈ Br (0) dat kf (x) − f (y)k = kR(x) − R(y) + x − yk ≥ kx − yk − kR(x) − R(y)k > kx − yk/2. Hieruit volgt dat f : Br (0) → f (Br (0)) injectief is en dus een bijectie. Nu rest nog te bewijzen dat de inverse continu is. Neem x = f (x0 ), y = f (y 0 ) ∈ f (Br (0)), dan krijgen we kf −1 (x) − f −1 (y)k = kx0 − y 0 k ≤ 2kf (x0 ) − f (y 0 )k = 2kx − yk. (3.1) Dus f −1 is (Lipschitz) continu, en hieruit volgt dat f : Br (0) → f (Br (0)) een homeomorfisme is. We willen laten zien dat er een open verzameling bevat is in f (Br (0)). Daartoe kiezen we s ∈ (0, r/2) en nemen we q ∈ Bs (0) willekeurig. We zoeken een x ∈ Br (0) met f (x) = q, oftewel x + R(x) = q. Definieer Fq (x) = q − R(x) en merk op dat Fq de gesloten verzameling B2s (0) afbeeldt binnen B2s (0), immers kFq (x)k = kq − R(x)k ≤ kqk + kR(x) − R(0)k < s + kxk/2 ≤ 2s. Ook is Fq een retractie, want kFq (x) − Fq (y)k = kR(x) − R(y)k < kx − yk/2. Dan heeft F een uniek dekpunt in B2s (0) ⊂ Br (0) (zie lemma 5.3 in de appendix), dus er is een x ∈ Br (0) met x = Fq (x) = q − R(x) = q + x − f (x), oftewel f (x) = q. Dus Bs (0) ⊂ f (Br (0)). Neem V = Bs (0) en U = f −1 (V ), dan is f : U → V een homeomorfisme. Ten slotte bewijzen we dat f −1 een C 1 -afbeelding is. Neem y = f (x) ∈ V en schrijf h̃ = f −1 (y + h) − f −1 (y). Omdat f differentieerbaar is in x, geldt h = f (x + h̃) − f (x) = f 0 (x)h̃ + o(h̃), oftewel f −1 (y + h) − f −1 (y) = h̃ = f 0 (x)−1 (h − o(h̃)) = f 0 (f −1 (y))h − f 0 (x)−1 o(h̃). 14 Er rest te bewijzen dat f 0 (x)−1 o(h̃) ∈ o(h). Neem > 0, dan bestaat er een δ > 0 zodat voor h̃ < δ geldt dat ko(h̃)k < kh̃k/(2kf 0 (x)−1 k). Als nu khk < δ/2 geldt wegens (3.1) dat kh̃k < δ en dus kf 0 (x)o(h̃)k ≤ kf 0 (x)−1 k · ko(h̃)k < kh̃k/2 ≤ khk. We concluderen dat f −1 differentieerbaar is in y met afgeleide f 0 (f −1 (y))−1 . Omdat f −1 , f 0 en de afbeelding A 7→ A−1 allen continu zijn, is ook de afbeelding y 7→ f 0 (f −1 (y))−1 continu, dus f −1 is C 1 . Stelling 3.8. (Impliciete-Functiestelling) Zij X, Y Banachruimten en f : X → Y een C 1 afbeelding. Stel dat X = L1 ⊕ L2 , met L1 en L2 gesloten lineaire deelruimten van X en neem (a, b) ∈ X. Stel dat f (a, b) = 0 en dat f 0 (a, b)|L2 een isomorfisme L2 → V is. Dan bestaan er open omgevingen U van a en V van b en een C 1 -afbeelding g : U → V zodat voor (x, y) ∈ U × V geldt f (x, y) = 0 dan en slechts dan als y = g(x). Bewijs. Definieer φ(x, y) = (x, f (x, y)). Dan geldt voor h = (h1 , h2 ) dat φ(a + h1 , b + h2 ) − φ(a, b) = (h1 , f 0 (a, b)h + o(h)) = φ0 (a, b)h + o(h), waarbij φ0 (a, b) een lineaire afbeelding is met φ0 (a, b)|L1 = id en φ0 (a, b)|L2 = f 0 (a, b)|L2 . Dit is inverteerbaar, want f 0 (a, b)|L2 en de identiteit zijn beiden inverteerbaar. Dus volgens de inverse-functiestelling zijn er open omgevingen U, V van a en b zodat φ : U × V → φ(U × V ) een C 1 -diffeomorfisme is. Schrijf φ−1 (x, z) = (x, g̃(x, z)) en definieer g(x) = g̃(x, 0). Er geldt f (x, y) = 0 ⇔ φ(x, y) = (x, 0) ⇔ φ−1 (x, 0) = (x, y) ⇔ g̃(x, 0) = y ⇔ g(x) = y. Ook is φ−1 een C 1 -afbeelding en dus ook g̃ en g zelf zijn C 1 . 3.2 Multiplicatorenmethode van Lagrange In deze sectie zullen we de volgende stelling over extrema van functies van een Banachruimte naar R met nevenvoorwaarden bewijzen: Stelling 3.9. (Multiplicatorenmethode van Lagrange) Zij X, Y Banachruimten en f : X → R een C 1 functie. Zij verder M = {x ∈ X : g(x) = 0} de nulverzameling van een C 1 -afbeelding g : X → Y , waarbij g 0 (x) surjectief is voor alle x ∈ M . Stel dat f op M een lokaal extremum aanneemt in a, oftewel f (x) ≤ f (a) (of f (x) ≥ f (a)) voor alle x ∈ U ∩ M voor een zekere open omgeving U van a. Stel verder dat geldt X = ker g 0 (a) ⊕ L voor een zekere lineaire deelruimte L. Dan bestaat er een λ ∈ Lin(Y, R) zodat f 0 (a) − (λ ◦ g 0 (a)) = 0. Het bewijs dat we hier geven, berust op de volgende ‘homomorfiestelling’ uit de Lineaire Algebra: Propositie 3.10. Zij X, Y, Z vectorruimten en f : X → Z, g : X → Y lineaire afbeeldingen. Stel dat g surjectief is en dat er geldt ker g ⊂ ker f . Dan bestaat er een unieke lineaire afbeelding λ : Y → Z zodat het volgende diagram commuteert: 15 g X Y λ f Z Bewijs. Voor x = g(x0 ) ∈ Y definiëren we λ(x) = f (x0 ). We moeten alleen nagaan of dit goedgedefinieerd en lineair is. Stel dat er ook geldt x = g(x̃), dan is g(x0 ) = g(x̃), dus x0 − x̃ ∈ ker g. Dan volgt ook x0 − x̃ ∈ ker f , dus f (x0 ) = f (x̃). De afbeelding λ is dus goedgedefinieerd. Stel dat ook geldt y = g(y 0 ) ∈ Y en α ∈ R, dan is λ(αx + y) = f (αx0 + y 0 ) = αf (x0 ) + f (y 0 ) = αλ(x) + λ(y). Dus λ is lineair. De uniciteit van λ volgt direct uit de surjectiviteit van g en uit de eis dat voor alle x ∈ U geldt λ(g(x)) = f (x). Om dit toe te passen bij het bewijs van stelling 3.9, moeten we alleen inzien dat ker g 0 (a) ⊂ ker f 0 (a). Hiervoor bekijken we de raakruimte van M : Definitie 3.11. Zij X een Banachruimte en M een deelverzameling van X. Neem a ∈ M . Als γ : (−, ) → M een C 1 kromme is met γ(0) = a dan noemen we γ 0 (0) een raakvector aan M in a. De raakruimte Ta (M ) in a is de verzameling van alle raakvectoren aan M in a, dus h ∈ Ta (M ) dan en slechts dan als er een γ : (−, ) → M bestaat die C 1 is met γ(0) = a en γ 0 (0) = h. Lemma 3.12. Zij X, Y Banachruimten en g : X → Y een C 1 -functie. Stel dat g 0 (a) surjectief is voor alle a ∈ M = {x ∈ X : g(x) = 0} en stel dat geldt X = ker g 0 (a) ⊕ L voor een zekere lineaire deelruimte L. Dan geldt Ta (M ) = ker g 0 (a). Bewijs. Neem a ∈ M . Dan is g 0 (a)|L injectief en surjectief, dus een isomorfisme. Volgens de impliciete-functiestelling zijn er open omgevingen U, V van a1 , a2 en een C 1 -afbeelding f : U → V zodat voor (x, y) ∈ U × V geldt dat g(x, y) = 0 dan en slechts dan y = f (x). Dan geldt M ∩ (U × V ) = {(x, y) ∈ U × V : g(x, y) = 0} = {(x, f (x)) : x ∈ U }. Kies h = (h̃, 0) ∈ ker g 0 (a) en neem γ(t) = (th̃ + a1 , +f (th̃ + a1 )). Dan is γ(0) = a en γ 0 (0) = (h̃, f 0 (a1 )h̃). Verder geldt er dat g ◦ γ ≡ 0, dus 0 = (g ◦ γ)0 (0) = g 0 (a)(h̃, f 0 (a1 )h̃) = g 0 (a)(h̃, 0) + g 0 (a)(0, f 0 (a1 )h̃) = g 0 (a)(0, f 0 (a1 )h̃). Dus (0, f 0 (a1 )h̃) ∈ ker g 0 (a), maar er geldt ook (0, f 0 (a1 )h̃) ∈ L, dus (0, f 0 (a1 )h̃) = 0. Dan is γ 0 (0) = (h̃, 0), dus h ∈ Ta (M ). Er geldt dus ker g 0 (a) ⊂ Ta (M ). Als nu h ∈ Ta (M ) dan bestaat er een γ : (−, ) → M met γ(0) = a en γ 0 (0) = h. Maar dan is g ◦γ ≡ 0 op (−, ), dus 0 = (g ◦γ)0 (0) = g 0 (a)h. We concluderen dat Ta (M ) = ker g 0 (a). Nu we deze gelijkheid hebben, kunnen we de benodigde inclusie van kernen bewijzen en daarmee ook de stelling: Bewijs van stelling 3.9. Neem h ∈ ker g 0 (a). Dan geldt volgens het bovenstaande lemma dat h ∈ Ta (M ), dus er is een γ : (−, ) → M met γ(0) = a en γ 0 (0) = h. Bekijk nu de functie f ◦ γ. Omdat f een lokaal extremum heeft in γ(0), is 0 een lokaal extremum van f ◦ γ, dus 0 = (f ◦ γ)0 (0) = f 0 (a)h. Dus h ∈ ker f 0 (a), oftewel ker g 0 (a) ⊂ ker f 0 (a). Stelling 3.10 geeft nu een lineaire afbeelding λ : Y → R zodat f 0 (a) = λ ◦ g 0 (a), oftewel f 0 (a) − λ ◦ g 0 (a) = 0. 16 De bekende multiplicatorenmethode van Lagrange in Rn is hier een direct gevolg van: Gevolg 3.13. Zij f : Rn → R een C 1 functie. Zij verder M = {x ∈ X : g(x) = 0} de nulverzameling van een C 1 -afbeelding g = (g1 , . . . , gm ) : Rn → Rm , waarbij g 0 (x) surjectief is voor alle x ∈ M . Stel dat f op M een lokaal extremum aanneemt in a, dan bestaan er λ1 , . . . , λm zodat 0 f 0 (a) − λ1 g10 (a) − · · · − λm gm (a) = 0. (3.2) Bewijs. Stelling 3.9 geeft ons een lineaire afbeelding λ : Rm → R zodat f 0 (a) − λ ◦ g 0 (a) = 0. Een dergelijke lineaire afbeelding Rm → R is niets anders dan een liggende vector, dus we kunnen schrijven λ = (λ1 , . . . , λm ). Dit geeft ons precies (3.2). 3.3 Open afbeeldingsstelling Voor het bewijs van de multiplicatorenmethode in oneindige dimensie hebben we nog een extra resultaat nodig uit de theorie van de Banachruimten — de open-afbeeldingsstelling. Deze stelling zegt dat iedere continue surjectieve lineaire operator op een Banachruimte een open afbeelding is. Het bewijs van deze stelling berust op de zogenaamde “Baire Category Theorem” uit de topologie. In deze paragraaf zullen we beide stellingen formuleren en bewijzen. Definitie 3.14. Een topologische ruimte X heet een Baire ruimte als voor elke aftelbare collectie gesloten deelverzamelingen C1 , C2 , . . . van X die voldoet aan Ci◦ = ∅ voor alle i, S∞ geldt dat i=1 Ci een leeg inwendige heeft. Stelling 3.15. (Baire Category Theorem) Elke volledige metrische ruimte is een Baire ruimte. Bewijs. Zij X een volledige metrische ruimte met metriek d en S laat C1 , C2 , . . . gesloten deelver◦ zamelingen van X zijn met Ci = ∅ voor alle i. Definieer D := ∞ i=1 Ci . We willen nu bewijzen dat voor iedere open verzameling U ⊂ X er een x ∈ U is met x 6∈ D. Neem y1 ∈ U \ C1 (dit kan, want anders zou U ⊂ C1 en dus C1◦ 6= ∅) en definieer U0 = B(y1 , r0 ) ⊂ U . Nu zijn {y1 } en C1 disjuncte gesloten verzamelingen, dus er is een r1 ∈ (0, 1) zodat U1 = B(y1 , r1 ) voldoet aan U1 ∩ C1 = ∅ en zodat U1 ⊂ U0 . Stel nu dat we voor i ∈ {1, . . . , n − 1} punten yi en open omgevingen Ui van de yi hebben met Ui ⊂ Ui−1 en Ui ∩ Ci = ∅. Kies yn ∈ Un \ Cn . Dan kunnen we zoals boven rn ∈ (0, 1/n) vinden zodat Un = B(yn , rn ) voldoet aan Un ⊂ Un−1 en Un ∩ Cn = ∅. Nu hebben we een rijtje (yn )n∈N dat Cauchy is. Immers, neem > 0 en kies N = 1/. Dan geldt voor n ≥ m > N dat yn ∈ B(yn , rn ) ⊂ B(ym , rm ) en dus d(yn , ym ) < rm = 1/m < 1/N = . Schrijf y = limn→∞ yn . Dan zit y ∈ Ui voor alle i, want anders zou er een B(y, ) ⊂ X \ Ui bestaan, maar dit is in tegenspraak met het feit yn ∈ Ui voor n ≥ i. Dan geldt dus ook y ∈ U , maar tevens y 6∈ D. Immers, als y ∈ D dan is er een i zodat y ∈ Ci , maar dat kan niet, want y ∈ Ui ⊂ Ui en Ui ∩ Ci = ∅. Stelling 3.16. (Open afbeeldingsstelling) Zij X, Y Banachruimten en T : X → Y een continue en surjectieve lineaire afbeelding. Dan is T open, dat wil zeggen dat het beeld van een open verzameling onder T weer open is. Bewijs. ([7], p. 5–6) Het is voldoende om te bewijzen dat het beeld van de open bol BX (0, 1) ⊂ X een open bol BY (0, r) ⊂ Y bevat. Immers, een willekeurige bol is te verkrijgen als het beeld van deze bol onder een lineaire transformatie. Bekijk nu de open bollen B(r) = BX (0, r). 17 S Vanwege de surjectiviteit van T is Y = ∞ n=1 T (B(n)), dus volgens de bovenstaande stelling ◦ is er een n ∈ N zodat B(n) 6= ∅. Dan bestaat er een r > 0 en y ∈ Y zodat BY (y, r) ⊂ B(n). Merk op dat er geldt BY (0, r) ⊂ {y1 − y2 : y1 , y2 ∈ BY (y, r)} ⊂ T (B(2n)) vanwege de lineairiteit van T . Evenzo geldt voor ρ > 0 dat BY (0, ρr/2n) ⊂ B(ρ). Neem nu > 0 en y ∈ Y met kyk < 1. Omdat BY (0, 1) ⊂ T (B(2n/r)) kunnen we x1 ∈ B(2n/r) kiezen met ky − T x1 k < . Er geldt BY (0, ) ⊂ T (B( · 2n/r), dus we kunnen x2 ∈ B( · 2n/r) kiezen zodat ky − T x1 − T x2 k < /2. Zo kunnen we doorgaan en xi ∈ B(/2i−2 · 2n/r) kiezen zodat i X T xk < /2i−1 . y − k=1 Definieer nu de rij si = Pi k=1 xi . Dan is si Cauchy, want j j j X X 2n X k−2 2 xk ≤ kxk k < r k=i k=i k=i P i en de reeks ∞ i=0 2 convergeert. Schrijf x = limn→∞ sn . Dan geldt er vanwege de continuı̈teit van T dat T x = limn→∞ T sn = y. Verder is ! ∞ X 2n 2n kxk ≤ = (1 + 2). 1+ i r 2 r i=0 Voor iedere y ∈ Y met kyk kunnen we zo’n rij si vinden, dus er geldt 2n BY (0, 1) ⊂ T B (1 + 2) r voor willekeurige > 0, oftewel BY (0, 1/(1 + 2)) ⊂ T (B(2n/r)). Maar dan geldt er [ BY (0, 1) = BY (0, 1/(1 + 2)) ⊂ T (B(2n/r)) >0 en dus BY (0, 1) ⊂ T (B(2n/r)), oftewel BY (0, r/2n) ⊂ T (B(1)). 3.4 Multiplicatoren bij variationele problemen Om stelling 3.9 toe te passen op functionalen C 1 ([a, b]) → R, moeten we eerst nagaan dat C 1 ([a, b]) inderdaad een Banachruimte is: Propositie 3.17. De ruimte C 1 ([a, b]) is volledig in de norm k · k gegeven door kf k = max |f (x)| + max |f 0 (x)|. x∈[a,b] x∈[a,b] 18 Bewijs. Stel dat (fn ) een Cauchyrij is in C 1 ([a, b]) en neem > 0. Dan bestaat er een N zodat voor n, m > N geldt dat kfn − fm k < /2. Dan geldt voor x ∈ [a, b] ook |fn (x) − fm (x)| < kfn − fm k < , dus (fn ) convergeert puntsgewijs, en we kunnen definieren f (x) = limn→∞ fn (x). Voor n > N geldt nu kfn − fm k < /2 en dus kf − fn k = k lim fm − fn k = lim kfm − fn k ≤ /2 < . m→∞ m→∞ De rij (fn ) convergeert dus uniform naar f . Vervolgens bewijzen we dat deze limietfunctie f continu is. Neem x, y ∈ [a, b], dan geldt er |f (x) − f (y)| ≤ |f (x) − fn (x)| + |fn (x) − fn (y)| + |fn (y) − f (y)| < want iedere term is kleiner dan /3 vanwege de convergentie en continuı̈teit van fn . Nu rest nog te bewijzen dat f differentieerbaar is met continue afgeleide. Volgens een zelfde argument als boven convergeert ook (fn0 ) uniform naar een continue functie f 0 , immers er 0 (x)| < kf − f k < . Bekijk nu geldt |fn0 (x) − fm n m Z x 0 f (x) = lim fn (x) = lim fn (x) dx + fn (a) n→∞ n→∞ a Z x Z x = lim fn0 (x) dx + f (a) = f 0 (x) dx + f (a). a n→∞ a Rx Volgens de hoofdstelling van de calculus is a f 0 (x) dx differentieerbaar met afgeleide f 0 (x), dus is ook f (x) differentieerbaar met afgeleide f 0 (x). Nu kunnen we stelling 3.9 toepassen: Stelling 3.18. Zij F : C 1 ([a, b]) → R en G : C 1 ([a, b]) → R functionalen met F [u] = Rb Rb 0 0 0 a f (x, u, u ) dx en G[u] = a g(x, u, u ) dx. Stel dat G [u] surjectief is voor u ∈ M = {u ∈ C 1 ([a, b]) : G[u] = 0}. Als v een lokaal extremum op M heeft in v, dan bestaat er een λ ∈ R zodat d ∂f d ∂g ∂f ∂g − − λ − = 0. (3.3) ∂u dx ∂u0 ∂u dx ∂u0 Bewijs. Volgens stelling 3.9 is het voldoende om te bewijzen dat C 1 ([a, b]) = ker G0 [v] ⊕ R. Immers, als dit zo is geldt voor alle h ∈ C 1 ([a, b]) met h(a) = h(b) = 0 dat 0 0 Z b 0 = F [v]h − λG [v]h = a ∂f d ∂f ∂g d ∂g − −λ +λ 0 ∂u dx ∂u ∂u dx ∂u0 h(x) dx, waarbij de tweede gelijkheid volgt uit stelling 2.7. Dan volgt (3.3) onmiddelijk uit lemma 2.5. Omdat G0 [v] surjectief is, bestaat er een u ∈ C 1 ([a, b]) met G0 [v]u = 1. Neem nu x ∈ C 1 ([a, b]), dan is G0 [v](x − G0 [v]u) = 0, dus x = x̃ + λu voor zekere x̃ ∈ ker G0 [v] en λ ∈ R. Dan hebben we een isomorfisme φ : C 1 ([a, b]) → ker G0 [v] ⊕ Ru gegeven door φ(x) = (x̃, λ) als x zoals boven is. De afbeelding φ is duidelijk continu, dus volgens de open afbeeldingsstelling is φ een homeomorfisme. Dan is C 1 ([a, b]) = ker G0 [v] ⊕ R en hiermee is de stelling bewezen. 19 Voorbeeld 3.19. We zoeken de kromme y = u(x) in het vlak met vaste lengte l zodat de oppervlakte de functionaal p R b tussen de grafiek van u en de x-as maximaal is. Dus, we R bwillen F [u] = a u(x) dx maximaliseren onder de voorwaarde dat G[u] = a 1 + u0 (x)2 dx = l. Volgens de bovenstaande stelling moeten we de volgende vergelijking oplossen: 1+λ u0 (x) d p = 0. dx 1 + u0 (x)2 Integeren geeft nu u0 (x) x + λp = k1 1 + u0 (x)2 oftewel λ2 u0 (x)2 = (x − k1 )2 . 1 + u0 (x)2 We schrijven u0 als functie van x: s 0 u (x) = (x − k1 )2 λ2 − (x − k1 )2 en we krijgen door nogmaals te integreren Z s Z (x − k1 )2 1 u(x) = dx = ± −2(x − k1 )(λ2 − (x − k1 )2 )−1/2 dx λ2 − (x − k1 )2 2 p 1 p = ± · 2 λ2 − (x − k1 )2 + k2 = ± λ2 − (x − k1 )2 + k2 . 2 p Dus we hebben nu y = ± λ2 − (x − k1 )2 + k2 , oftewel (x − k1 )2 + (y − k2 )2 = λ2 , dus dit is een cirkel. We concluderen dat een cirkelboog de maximale oppervlakte geeft bij constante lengte. We hebben in dit hoofdstuk een korte inleiding gegeven in de theorie van de analyse op Banachruimten. Hierbij hebben we enkele belangrijke resultaten uit de analyse gegeneraliseerd tot oneindig-dimensionale ruimten. Vervolgens hebben we deze theorie toegepast om een methode te vinden waarmee een grotere klasse van optimaliseringsproblemen opgelost kan worden. 20 Hoofdstuk 4 Stelling van Noether In eerdere hoofdstukken hebben we gezien hoe we verschillende variationele problemen op kunnen lossen. Hiervoor moest echter vaak een tweede-orde differentiaalvergelijking opgelost worden. Meestal is het oplossen van een dergelijke vergelijking vrij gecompliceerd. In dit hoofdstuk zullen we een methode bespreken waarmee we in bepaalde situaties deze differentiaalvergelijking terug kunnen brengen tot een eenvoudigere (eerste-orde) differentiaalvergelijking. 4.1 Invariantie Bekijk een functionaal F : C 1 ([a, b], Rn ) → R van de vorm Z F [u] = b f (x, u, u0 ) dx, a waarbij f zoals gewoonlijk een C 2 -functie is. Het kan voorkomen dat de functie f invariant is onder bepaalde transformaties van x of u. Bijvoorbeeld hebben we in hoofdstuk 2 een functionaal gezien die niet van x afhing — dit komt overeen met invariantie onder de transformatie x 7→ x + . In dat geval konden we de Euler-Lagrange vergelijking terugbrengen tot een eerste-orde differentiaalvergelijking. De stelling van Emmy Noether die we nu zullen bewijzen, laat zien dat dit voor een veel algemenere klasse van transformaties mogelijk is. Stelling 4.1. (Noether) Zij F een functionaal zoals boven en h : (−, ) × Rn → Rn een C 2 -afbeelding die voldoet aan h(0, z) = z voor alle z ∈ Rn . Stel dat voor alle s ∈ (−, ) en alle u ∈ C 1 ([a, b], Rn ) geldt dat d f x, h(s, u(x)), h(s, u(x)) = f x, u(x), u0 (x) . (4.1) dx Dan geldt er als v(x) een extremum is van F dat ∂f d (x, v(x), v 0 (x)) h(s, v(x))|s=0 ≡ k 0 ∂u ds 21 voor zekere k ∈ R. Bewijs. ([4], p. 27) Neem x0 ∈ [a, b]. Er volgt uit (4.1) dat Z x0 d d f x, h(s, u(x)), h(s, u(x)) dx|s=0 0= ds a dx Z x0 d d f x, h(s, u(x)), h(s, u(x)) dx|s=0 = ds dx a Z x0 d ∂f x, u(x), u0 (x) h(s, u(x))|s=0 = ∂u ds a d d ∂f h(s, u(x))|s=0 dx. + 0 x, u(x), u0 (x) ∂u ds dx Nu geeft de Euler-Lagrange vergelijking voor F ons dat (4.2) ∂f d ∂f (x, u(x), u0 (x)), (x, u(x), u0 (x)) = ∂u dx ∂u0 en hiermee kunnen we de laatste term van (4.2) herschrijven. We krijgen Z x0 d ∂f d 0= (x, u(x), u0 (x)) h(s, u(x))|s=0 0 dx ∂u ds a ∂f d d + 0 x, u(x), u0 (x) h(s, u(x))|s=0 dx ds dx Z x0 ∂u d ∂f d 0 = (x, u(x), u (x)) h(s, u(x))|s=0 dx. dx ∂u0 ds a Volgens de hoofdstelling van de integraalrekening krijgen we nu ∂f d ∂f d (a, u(a), u0 (a)) h(s, u(a))|s=0 = (x0 , u(x0 ), u0 (x0 )) h(s, u(x0 ))|s=0 . 0 0 ∂u ds ∂u ds Dit geldt voor willekeurige x0 ∈ [a, b], dus x ∈ [a, b]. ∂f d 0 ∂u0 (x, v(x), v (x)) ds h(s, v(x))|s=0 is constant voor Voorbeeld 4.2. Als eenvoudige toepassing van deze stelling bekijken wat er gebeurt als de functie f invariant is onder een rotatie. We bekijken een functionaal F : C 1 ([a, b], R2 ) gegeven door Z b F [x, y] = f (t, x, y, ẋ, ẏ) dt, a waarbij f invariant is onder de transformatie cos s − sin s x h(s, x, y) = . sin s cos s y Oftewel, er geldt f (t, x, y, ẋ, ẏ) = f (t, x cos s − y sin s, x sin s + y cos s, ẋ cos s − ẏ sin s, ẋ sin s + ẏ cos s). Nu geeft stelling 4.1 ons dat voor een extremum v geldt ∂f d ∂f ∂f −y −x sin s − y cos s k= h(s, v(x))|s=0 = = . x cos s − y sin s ∂u0 ds ∂u0 ∂u0 x s=0 Dus er volgt dat −y · ∂f ∂f (x, v(x), v̇(x)) + x · (x, v(x), v̇(x)) ∂ ẋ ∂ ẏ constant is in t. 22 Hoofdstuk 5 Geodeten In hoofdstuk 2 hebben we gezien wat het kortste pad is tussen twee punten in het platte vlak. In dat geval was het probleem vrij eenvoudig, maar wat gebeurt er als we nu het platte vlak vervangen door een ander oppervlak? We kunnen hierbij bijvoorbeeld denken aan het kortste pad tussen twee punten op het oppervlak van een bol — we zoeken dan naar het analogon van een “rechte lijn” op een bol. Het blijkt dat we ook hier de Euler-Lagrange vergelijking kunnen toepassen om een kortste pad te vinden. 5.1 Kortste paden Bekijk een oppervlak S in een willekeurige ruimte. Om Euler-Lagrange toe te kunnen passen, parametriseren we eerst het oppervlak met twee reële parameters u en v: r = r(u, v). Als we nu een kromme op het oppervlak nemen, wordt deze gegeven door een kromme γ(t) = (u(t), v(t)) tussen twee punten P, Q in het parametervlak met P = γ(a) en Q = γ(b). We kunnen de lengte van de kromme op het oppervlak r◦γ berekenen met de volgende functionaal: Z b d (r ◦ γ) dt. F [u, v] = dt a Hiervoor berekenen we eerst het kwadraat van deze lengte in termen van de partiële afgeleiden ru , rv van r naar u en v: 2 2 d (r ◦ γ) = kr0 (γ(t))γ 0 (t)k2 = (ru , rv ) u̇(t) dt v̇(t) = kru u̇(t) + rv v̇(t)k = hru u̇(t) + rv v̇t, ru u̇(t) + rv v̇ti = u̇(t)2 hru , ru i + 2u̇(t)v̇(t) hru , rv i + v̇(t)2 hrv , rv i . We schrijven nu voor het gemak: E = hru , ru i F = hru , rv i G = hrv , rv i . Dan wordt F [u, v] gegeven door Z bp F [u, v] = E u̇2 + 2F u̇v̇ + Gv̇ 2 dt. a 23 De Euler-Lagrange vergelijkingen die bij deze functionaal horen, zijn 2(E u̇ + F v̇) Eu u̇2 + 2Fu u̇v̇ + Gu v̇ 2 d √ − √ = 0 dt E u̇2 + 2F u̇v̇ + Gv̇ 2 E u̇2 + 2F u̇v̇ + Gv̇ 2 d 2(F u̇ + Gv̇) Ev u̇2 + 2Fv u̇v̇ + Gv v̇ 2 √ − √ = 0 2 2 dt E u̇2 + 2F u̇v̇ + Gv̇ 2 E u̇ + 2F u̇v̇ + Gv̇ (5.1) en deze vergelijkingen geven de zogenaamde geodeten op het oppervlak geparametriseerd door r — de “rechte lijnen” op een oppervlak dat niet recht hoeft te zijn. Deze vergelijkingen zijn √ nog vrij gecompliceerd, maar we kunnen een vereenvoudiging aanbrengen. De wortel E u̇2 + 2F u̇v̇ + Gv̇ 2 die in beide termen in de noemer staat is namelijk niets anders dan d k dt (r ◦ γ)k, de norm van de snelheid waarmee we de kromme doorlopen. Het zal blijken dat we de kromme kunnen parametriseren op zo’n manier dat deze snelheid altijd gelijk is aan 1. Ten eerste merken we op dat herparametriseren zinnig is — de lengte van een kromme hangt niet af van de parametrisatie: Lemma 5.1. Zij V een ruimte met norm k · k en γ : [a, b] → V een C 1 -kromme. Stel dat ϕ : [α, β] → [a, b] een coördinatentransformatie is. Dan geldt Z b Z β d d γ(t) dt = γ(ϕ(τ )) dτ. dt dτ a α Bewijs. We mogen zonder verlies van algemeenheid aannemen dat ϕ0 (τ ) > 0 voor alle τ ∈ [α, β], want ϕ0 is continu en nooit nul. We berekenen de laatste integraal met behulp van de substitutie t = ϕ(τ ). Dit geeft dτ = dt/ϕ0 (ϕ−1 (t)) = 1/ϕ0 (τ ), dus we krijgen: Z β Z b Z b Z β d ϕ0 (τ ) 0 γ(ϕ(τ )) dτ = kγ̇(ϕ(τ ))kϕ (τ ) dτ = kγ̇(t)k 0 dt = kγ̇(t)k dt. dτ ϕ (τ ) α a a α Dit willen we gebruiken om voor een willekeurige kromme γ een parametrisatie te vinden zodat geldt kγ̇k ≡ 1. Als voorbeeld kunnen we het lijnstuk in R2 tussen de punten (0, 0) en (1, 1) bekijken. Een mogelijke parametrisatie hiervan√is γ(t) = (t2 , t2 ) waarbij t tussen 0 en 1 loopt. In dit geval is γ̇(t) = (2t, 2t), dus kγ̇(t)k = 8 · t. Hierbij varieert de snelheid dus naarmate we de kromme doorlopen. Een andere parametrisatie, die hier geen last van heeft, is γ(t) √ = (t, t), waarbij t nog steeds tussen 0 en 1 loopt. Dan is γ̇(t) = (1, 1), en dit heeft lengte 2. Nu is de snelheid constant. Om de snelheid 1 te maken, kunnen we overgaan op √ −1 √ een parameter τ , waarbij γ(τ ) = 2 (τ, τ ) en τ loopt tussen 0 en 2. In het algemeen is dit ook mogelijk: Lemma 5.2. Zij V een ruimte met norm k · k en γ : [a, b] → V een C 1 -kromme. Stel dat kγ̇(t)k6= 0 voor alle t ∈ [a, b]. Dan bestaat er een coördinatentransformatie ϕ : [a, b] → [0, l] d zodat ds γ(ϕ−1 (s)) = 1. Bewijs. We definiëren t Z kγ̇(ξ)k dξ, ϕ(t) = a dan is ϕ̇(t) = kγ̇(t)k 6= 0, dus volgens de inverse-functiestelling is ϕ inverteerbaar met differentieerbare afgeleide. Dan geldt −1 d γ(ϕ−1 (s)) = γ̇(ϕ−1 (s)) d ϕ−1 = γ̇(ϕ (s)) = 1. γ̇(ϕ−1 (s)) ds ds 24 Volgens dit lemma kunnen we nu in plaats van naar (5.1) ook naar de volgende vergelijkingen kijken: d 2(E u̇ + F v̇) = 0 dt d Ev u̇2 + 2Fv u̇v̇ + Gv v̇ 2 − 2(F u̇ + Gv̇) = 0. dt Eu u̇2 + 2Fu u̇v̇ + Gu v̇ 2 − d Immers, iedere kromme γ met dt (r ◦ γ) 6= 0 die aan deze vergelijkingen voldoet, is na herparametrisering ook een oplossing van (5.1) en vice versa. 5.2 Geodeten op een sfeer Een voorbeeld van een oppervlak waarop we dit kunnen toepassen om de kortste paden te vinden, is de sfeer. In R3 wordt deze gegeven door r(θ, ϕ) = (cos θ sin ϕ, sin θ sin ϕ, cos ϕ). Dit geeft rθ = (− sin θ sin ϕ, cos θ sin ϕ, 0) rϕ = (cos θ cos ϕ, sin θ cos ϕ, − sin ϕ), en dus E = sin2 ϕ, F = 0, G = 1. Als we hiervoor de bovenstaande vergelijkingen opschrijven krijgen we d (θ̇ · sin2 ϕ) = 2ϕ̇ · θ̇ · sin ϕ cos ϕ + θ̈ · sin2 ϕ dt d 0 =2θ̇2 · sin ϕ cos ϕ − 2ϕ̇ = 2θ̇2 · sin ϕ cos ϕ − 2ϕ̈. dt 0= We zullen niet proberen dit stelsel differentiaalvergelijkingen op te lossen, maar we kunnen wel onmiddelijk inzien dat een mogelijke oplossing gegeven wordt door θ̇ = 0, ϕ̈ = 0. Dit zijn krommen met θ constant en ϕ lineair, dus θ(t) = c, ϕ(t) = at + b en deze zijn precies de meridianen van de bol. We hebben nu het kortste pad gevonden tussen twee punten op de bol met gelijke hoek θ en we kunnen de symmetrie van de bol gebruiken om hiermee ook het kortste pad tussen twee willekeurige punten op de bol te vinden. Immers, we kunnen de bol altijd draaien zodat deze twee punten op een enkele meridiaan liggen. We zien nu dat dit pad altijd in een vlak door de oorsprong ligt. Immers, na draaiing is het pad een stuk van een meridiaan, die duidelijk in een vlak door de oorsprong ligt. Als we nu terugdraaien blijft dit een vlak door de oorsprong, dus we kunnen concluderen dat het kortste pad tussen twee punten op de sfeer altijd in een vlak door oorsprong ligt. Uit dit voorbeeld blijkt dat het zelfs in het (relatief eenvoudige) geval van de sfeer niet eenvoudig is om de geodetenvergelijkingen op te lossen. Toch geven deze vergelijkingen ons wel informatie waarmee we iets over de geodeten kunnen zeggen. In dit geval kunnen we zelfs gebruik maken van de symmetrie om het kortste pad tussen twee willekeurige punten op een bol te vinden. 25 Appendix In deze appendix bewijzen we enkele stellingen die we in eerdere hoofdstukken hebben gebruikt. Het bewijs van onder andere de Euler-Lagrange vergelijking berust op het omwisselen van afgeleide en integraalteken. We bewijzen eerst dat het meer algemeen onder bepaalde voorwaarden mogelijk is om limiet en integraal te verwisselen. Stelling 1. (Verwisseling van limiet en integraalteken) Zij f : [a, b]×[t0 , t1 ] → R een continue functie. Stel dat t 7→ limx→x0 f (x, t) continu is in t. Dan geldt: Z t1 lim x→x0 Z f (x, t) dt = t0 t1 lim f (x, t) dt. t0 x→x0 Bewijs. Definieer g(t) = limx→x0 f (x, t) en neem > 0. Dan bestaat er volgens de definitie van limiet voor iedere τ ∈ [t0 , t1 ] een δτ > 0 zodat voor alle x geldt |x−x0 | < δτ ⇒ |f (x, t)−g(t)| < /3. Ook zijn f en g continu op een compacte verzameling en dus uniform continu. Er bestaat nu een δ̃ > 0 zodat voor alle p1 , p2 ∈ [a, b] × [t0 , t1 ] geldt dat als d(p1 , p2 ) < δ̃ dan is |f (p1 ) − f (p2 )| < /3 en ook nog voor alle τ1 , τ2 ∈ [t0 , t1 ] geldt |τ1 − τ2 | < δ̃ ⇒ |g(τ1 ) − g(τ2 )| < /3. Verder kunnen we voor iedere τ ∈ [t0 , t1 ] een bol Bτ = B((x0 , τ ), min(δτ , δ̃)) nemen. Deze bollen vormen een open overdekking van S de compacte verzameling x0 × [t0 , t1 ], dus er zijn enig veel τ1 , . . . , τn zodat τ ∈ [t0 , t1 ] ⊂ ni=1 Bτi . Dan bestaat er een δ > 0 zodat voor alle (x, τ ) geldt dat als |x − x0 | < δ dan is (x, τ ) ∈ Bτi voor zekere i. Dan geldt er ook |f (x, τ ) − g(τ )| ≤ |f (x, τ ) − f (x, τi )| + |f (x, τi ) − g(τ )| < /3 + |g(τ ) − g(τi )| + |g(τi ) − f (x, τi )| < /3 + /3 + /3 = . Hiermee krijgen we Z Z t1 f (x, t) − g(t) dt ≤ t0 t1 Z t1 |f (x, t) − g(t)| dt < t0 dt = (t1 − t0 ) · . t0 Dus er geldt inderdaad Z t1 lim Z t1 f (x, t) dt = x→x0 t0 g(t) dt. t0 Stelling 2. (Euler-Lagrange in meer dimensies) Zij F : C 1 ([a, b], Rn ) → R een functionaal gegeven door Z F [u] = F [u1 , . . . , un ] = b f (x, u1 (x), . . . , un (x), u01 (x), . . . , u0n (x)) dx, a 26 waarbij f : [a, b] × Rn × Rn → R een C 2 -functie is en u = (u1 , . . . , un ) een vector C 1 -functies. Stel dat v een extremum is van F , dan geldt voor i ∈ {1, . . . , n} dat d ∂f ∂f (x, v, v 0 ) − (x, v, v 0 ) = 0, ∂ui dx ∂u0i (5.2) Dit geeft dus n differentiaalvergelijkingen waaraan het extremum v moet voldoen. Bewijs. Het bewijs verloopt analoog aan het geval waar u een functie van 1 variabele is. We nemen h = (h1 , . . . , hn ) ∈ C ( [a, b], Rn ) met h(a) = h(b) = 0 en definiëren G(t) = F [v + th]. Dan is G een functie R → R met een extremum in 0, dus b d 0 = Ġ(0) = f (x, u + th, u0 + th0 )|t=0 dx dt a Z b ∂f ∂f ∂f ∂f · h1 + · · · + · hn + 0 · h01 + · · · + 0 · h0n dx = ∂un ∂u1 ∂un a ∂u1 Z b ∂f ∂f d ∂f d ∂f = · h1 + · · · + · hn − · h1 − · · · − · hn dx. 0 ∂un dx ∂u1 dx ∂u0n a ∂u1 Z Dit geldt voor willekeurige h, dus in het bijzonder als we een vaste i nemen en functies h bekijken met hj = 0 voor j 6= i en hi ∈ C01 [(a, b)] willekeurig. Dan hebben we Z b 0= a ∂f d ∂f − ∂ui dx ∂u0i hi dx en een toepassing van het hoofdlemma van de variatierekening geeft nu (5.2). Lemma 5.3. Zij X een volledige metrische ruimte. Stel dat de continue afbeelding f : X → X de gesloten en begrensde verzameling M ⊂ X binnen zichzelf afbeeldt en dat f een retractie is, dat wil zeggen dat er een c ∈ (0, 1) bestaat zodat d(f (x), f (y)) ≤ c · d(x, y). Dan heeft f een uniek dekpunt binnen M , dus er is een unieke x ∈ M met f (x) = x. Bewijs. Neem p0 ∈ M willekeurig en definieer de rij (pn ) met pn+1 = f (pn ). Kies L > 0 zodat M ⊂ B(p0 , L). Dan geldt er voor n ≤ m dat d(pn , pm ) = d(f (pn−1 ), f (pm−1 )) ≤ c · d(pn−1 , pm−1 ) ≤ · · · ≤ cn · d(p0 , pm−n ) ≤ cn L, dus (pn ) is een Cauchyrij. Schrijf x = limn→∞ pn , dan is x ∈ M omdat M gesloten is. Wegens de continuı̈teit van f geldt dan x = lim pn = lim f (pn ) = f (x), n→∞ n→∞ dus x is een dekpunt. Stel nu dat x0 ook een dekpunt is, dan is d(f (x), f (x0 )) = d(x, x0 ) > c · d(x, y) en dit is een tegenspraak. Het dekpunt is dus ook uniek. 27 Populaire samenvatting Een eenvoudig wiskundig probleem dat men vaak tegenkomt, is het vinden van de maximale of minimale waarden van een zekere functie f (x) van één parameter x. Deze functie voegt aan ieder getal x een ander getal f (x) toe, en we kunnen ons afvragen voor welke waarde van x de waarde f (x) maximaal of minimaal is (meer algemeen noemen we een maximum of een minimum een extremum). Zo’n functie kunnen we voorstellen als een kromme in het platte vlak door f (x) op de verticale as uit te zetten tegen x op de horizontale as: f HxL 4 3 2 1 1 2 3 4 5 x We zien hier dat deze functie maximaal is, als x ongeveer gelijk is aan 4. Echter, in de werkelijkheid is het maximum aflezen uit een afbeelding niet altijd even handig. Immers, de waarde die we krijgen zal altijd een benadering van de echte waarde zijn. Hoe kunnen we dit probleem nu wiskundig aanpakken? Hiervoor gaan we kijken naar de raaklijnen aan de kromme — lijnen die de grafiek in een zeker punt raken. Als we hiervan er enkele tekenen krijgen we de volgende grafieken: f HxL f HxL f HxL 4 4 4 3 3 3 2 2 2 1 1 1 1 2 3 4 5 x 1 2 3 4 5 x 1 2 3 4 5 x Raaklijnen aan de kromme in de punten 1, 3 en 4 (van links naar rechts) We zien dat in het maximum de raaklijn horizontaal loopt. Meer algemeen is het waar dat als een functie een maximum of minimum heeft in een punt, de raaklijn in dat punt altijd horizontaal loopt. Wat we nu kunnen doen om extrema te vinden, is in ieder punt de helling 28 van de raaklijn bepalen. Hiermee bedoelen we de verandering in de verticale (f (x)) richting gedeeld door de verandering in de horizontale (x) richting. Een horizontale lijn verandert niet in de verticale richting, dus deze heeft helling 0. Voor een functie f definiëren we nu de afgeleide functie f 0 als de functie die aan iedere waarde van x de helling van de raaklijn in x toekent. Nu kunnen we de extrema van f vinden door de vergelijking f 0 (x) = 0 op te lossen. In de variatierekening doen we eigenlijk hetzelfde, alleen zijn de functies nu van een ander type. De parameter is hier niet meer een getal, maar een kromme. Bijvoorbeeld, we kunnen alle krommen tussen de punten A en B bekijken en dan een functie nemen die aan iedere kromme zijn lengte toekent. Ook in deze situatie kunnen we extrema gaan vinden — voor welke kromme tussen A en B is deze lengte minimaal? In dit voorbeeld is het niet moeilijk in te zien dat de oplossing een rechte lijn is, want als we een willekeurige kromme in het vlak bekijken tussen twee punten, kan die nooit korter zijn dan de rechte lijn door deze punten. A B We kunnen echter ook meer ingewikkelde problemen bekijken. Een bekend voorbeeld is het probleem van de brachistochronen. Het gaat hierbij om het vinden van de kromme tussen twee punten A en B zodat een balletje onder invloed van de zwaartekracht in minimale tijd van A naar B rolt. In eerste instantie lijkt dit misschien ook een rechte lijn te zijn, maar Galileo ontdekte al in 1638 dat er krommen zijn waarover het balletje sneller naar B rolt dan op de rechte lijn. In 1696 loste Johann Bernoulli dit probleem wiskundig op en vond dat deze kromme een zogenaamde cycloı̈de is (de groene kromme in de figuur). Het blijkt dat we in dit geval het probleem op een vergelijkbare manier als het eerste probleem kunnen oplossen. We kunnen nu ook een “afgeleide” definiëren. De vergelijking f 0 (x) = 0 wordt in dit geval de zogenaamde Euler-Lagrange vergelijking: ∂f d ∂f − = 0. ∂u dx ∂u0 Deze vergelijking is een stuk minder elegant dan “f 0 (x) = 0” en is dan ook in het algemeen gecompliceerder om op te lossen. In het geval van de brachistochronen lukt het wel om een oplossing te vinden en die is inderdaad een cycloı̈de (voorbeeld 2.10). Naast deze Euler-Lagrange vergelijking bespreken we in dit verslag enkele uitbreidingen van dit probleem, zoals het toevoegen van een extra voorwaarde — bijvoorbeeld zoeken we de kromme met een lengte van 1 meter die een zo groot mogelijk oppervlak insluit — en bekijken we verder manieren om deze vergelijking eenvoudiger te maken en op te lossen. 29 Bibliografie [1] I.M. Gelfand en S.V. Fomin. Calculus of Variations, Prentice-Hall, 1963. [2] H. Pijls en J. Wiegerinck. Werkboek Analyse 2, Universiteit van Amsterdam. [3] B. Moonen. Syllabus Topologie, Universiteit van Amsterdam. [4] J. Jost en X. Li-Jost. Calculus of Variations, Cambridge University Press, 1998 [5] B.A. Dubrovin, A.T. Fomenko en S.P. Novikov. Modern Geometry - Methods and Applications, Springer-Verlag, 1984. [6] K. Menger. What is calculus of variations and what are its applications? Sci. Monthly 45II , 1937, 250–253. [7] P. Garrett. Normed and Banach Spaces. University of Minnesota, 2005. 30