10.1 Wofür können wir sie verwenden?
173
10.2 Ein sehr einfaches Netzwerk
173
10.3 Universelles Approximations-Theorem
174
10.4 Ein noch einfacheres Netzwerk
176
10.5 Die mathematische Manipulation im Detail
177
10.6 Häufige Aktivierungsfunktionen
181
10.8 Beispiel: Approximation einer Funktion
183
10.10 Backpropagation
185
10.11 Beispiel: Buchstabenerkennung
188
10.12 Training und Testen
190
10.13 Mehr Architekturen
194
10.15 Weiterführende Literatur
197
11 Verstärkendes Lernen
199
11.1 Wofür können wir es verwenden?
199
11.2 Geländeausfahrt mit Ihrem Lamborghini 400 GT
200
11.4 Ein erster Blick auf Blackjack
203
11.5 Der klassische Markow-Entscheidungsprozess für Tic-Tac-Toe
204
11.6 Noch mehr Jargon
206
11.7 Beispiel: Der mehrarmige Bandit
207
11.8 Etwas anspruchsvoller 1: Bekannte Umgebung
211
11.9 Beispiel: Ein Labyrinth
214
11.10 Notation zu Wertefunktionen
218
11.11 Die Bellman-Gleichung
220
11.12 Optimale Policy
221
11.13 Die Bedeutung der Wahrscheinlichkeit
222
11.14 Etwas anspruchsvoller 2: Modell-frei
223
11.15 Monte Carlo Policy Evaluation
224
11.16 Temporal-Difference-Lernen
227
11.17 Vor- und Nachteile: MC versus TD
228
11.18 Finden der optimalen Policy
229
11.21 Beispiel: Blackjack
233
11.22 Große Zustandsräume
245
11.23 Weiterführende Literatur
245