6.2* Renforcement Learning

6.2* Renforcement Learning#

Спасибо Андрею Панфёрову за написание этого семинара!

Содержание семинара:

  • Мотивация

    • Постановка задачи

    • Какие задачи решают с помощью RL

  • Среда, действия, награды

    • Марковские среды

    • Принятие решений

    • Награда

  • Value Iteration - Задана малая среда + вероятности переходов

    • Уравнения Бэллмана

    • Алгоритм

    • Имплементация алгоритма

    • Визуализация результата

  • Q-Learning - Задана малая среды без вероятностей переходов

    • Алгоритм

    • Имплементация

    • Обучение

  • Approximate Q-Learning - Задана большая среда без вероятностей перехода

    • Минусы Q-Learning

    • Среда и архитектура

    • Обучение

    • Визуализация