6.2* Renforcement Learning#
Спасибо Андрею Панфёрову за написание этого семинара!
Содержание семинара:
Мотивация
Постановка задачи
Какие задачи решают с помощью RL
Среда, действия, награды
Марковские среды
Принятие решений
Награда
Value Iteration - Задана малая среда + вероятности переходов
Уравнения Бэллмана
Алгоритм
Имплементация алгоритма
Визуализация результата
Q-Learning - Задана малая среды без вероятностей переходов
Алгоритм
Имплементация
Обучение
Approximate Q-Learning - Задана большая среда без вероятностей перехода
Минусы Q-Learning
Среда и архитектура
Обучение
Визуализация