Solving Multi-Agent Sequential Decision Problems Using Learning

advertisement
Solving Multi-Agent Sequential Decision Problems Using Learning Automata
Abstract
Deze doctoraatsverhandeling behandelt de studie van het gedrag van hierarchische leerautomaten in
sequentiele beslissingsproblemen.
In het eerste deel van de verhandeling gaan we in op het aspect exploratie. Eerst en vooral tonen we aan
dat leerautomaten theoretisch verbonden zijn met policy gradient agenten. Verder tonen we hoe deze policy
gradient agenten eenzelfde exploratie kunnen toepassen als de leerautomaten omdat de exploratie van
leerautomaten in een multi-agent omgeving ook gegarandeerd convergeert naar een attractor van het
beslissingsprobleem. Als we ons beperken tot agenten met 2 acties, dan is het mogelijk om het
leerautomaten model theoretisch te verenigen is met de Boltzmann exploratie, een exploratie techniek die
veel gebruikt wordt in multi-agent leeralgoritmen. Indien deze constraint echter niet geldt, dan kunnen we
aantonen dat leerautomaten beter presteren dan de veelgebruikte Boltzmann functie met een dalende
temperatuur.
Indien we leerautomaten samenvoegen tot een complexere structuur zoals een hierarchie kunnen we de
exploratie verbeteren omdat de hierarchische leerautomaten geen garantie bieden om de optimale
oplossing in een beslissingsprobleem te vinden. Hiervoor hebben we de Hierarchical Exploring Selfish
Reinforcement Learners (HESRL) ontwikkeld. HESRL is bedoeld om onafhankelijke agenten goede of zelfs
optimale oplossingen te laten leren in stochastische, gedistribueerde systemen. Het algoritme werkt door 2
fases onderling af te wisselen. In de eerste fase (de exploratie-fase) leren de agenten, onafhankelijk van
elkaar, een goede oplossing. Hierna vindt een korte synchronisatie-fase plaats waarin de agenten
onderhandelen over het uitsluiten van een actie om de zoekruimte te verkleinen. In deze verkleinde
zoekruimte start dan een nieuwe onafhankelijke exploratie-fase, opnieuw gevolgd door een exploratie-fase,
enz. Voor de synchronisatie-fase hebben we twee algoritmen ontwikkeld, het Top-Down en het Bottom-Up
algoritme, die aangeven waar de uitsluitingen beginnen: van boven of van onder in de hierarchie.
Gebaseerd op het Bottom-Up uitsluiten hebben we ook een versie van het algoritme ontwikkeld voor
problemen waarin agenten hun persoonlijke voorkeuren niet samenvallen, genaamd periodic policies.
Het tweede deel van de doctoraatsverhandeling spits zich toe op hoe de performantie en de snelheid van
hierarchische leerautomaten verhoogd kan worden door bootstrapping in het systeem te brengen.
Traditioneel gebruiken hierarchische leerautomaten een Full Path update waarbij elke automaat geüpdate
wordt met alle beloningen die over het gehele pad verzameld zijn. Bij deze manier van updaten daalt de
performantie en snelheid van convergentie drastisch in functie van het
aantal stappen dat genomen dient te worden alvorens het spel eindigt. Ook kunnen de leerautomaten enkel
hun actieprobabiliteiten aanpassen indien het spel een expliciete eindtoestand bereikt heeft. Deze
problemen hebben we opgelost in verschillende stappen. Eerst en vooral hebben we het Intermediate
Rewards algoritme geïntroduceerd. Hierbij werden de leerautomaten niet langer geüpdate met alle
beloningen van het gekozen pad maar enkel met de belongingen van de rest van het gekozen pad. Dit heeft
tot gevolg dat de leerautomaten eigenlijk minder informatie ter beschikking hebben, maar de informatie die
ze wel krijgen kunnen ze direct beïnvloeden en is dus relevanter als evaluatie van hun eigen gedrag. Het
Intermediate Rewards algoritme heeft dezelfde convergentie garanties als de traditionele Full Path update.
Echter, het algoritme heeft nog steeds nood aan een expliciete eindtoestand. Om dit probleem op te lossen
hebben we het n-step algoritme geïntroduceerd voor hierarchische leerautomaten. Hierbij gaan de
automaten geüpdate worden met de eerste n beloningen die de omgeving teruggeeft. Een laatste algoritme
dat het geheel vervolledigt, maakt gebruik van eligibility traces waarbij de leerautomaten enkel onmiddellijke
beloningen van de omgeving gaan gebruiken. Empirische studies tonen aan dat dit algoritme zowel qua
convergentienauwkeurigheid als qua convergentiesnelheid beter presteren dan de andere technieken.
Tenslotte worden de periodische policies toegepast op een realistische applicatie. We tonen aan dat
hierarchische leerautomaten, uitgebreid met sociale vaardigheden, faire oplossingen kunnen vinden in realtime, asynchrone controle en planning in een chemische batch productie. Deze toepassing toont enerzijds
de robuustheid van het algoritme in onverwachte situaties en anderzijds dat lerende multi-agent systemen
een goede oplossing kunnen bieden voor complexe problemen.
Maarten PEETERS
Download