В этой главе показано, как использовать знания о мире для принятия решений, даже если результаты действий являются неопределенными, а вознаграждения за действия могут оставаться недоступными до тех пор, пока не будет осуществлен целый ряд действий. Основные идеи этой главы кратко изложены ниже.
• Задачи последовательного принятия решений в неопределенных вариантах среды, называемые также марковскими процессами принятия решений (Markov Decision Process — MDP), определяются с помощью моделей перехода, задающих вероятностные результаты действий, и функции вознаграждения, которая показывает, какое вознаграждение соответствует каждому состоянию.
• Полезность последовательности состояний представляет собой сумму всех вознаграждений вдоль этой последовательности, которая, возможно, со временем подвергается обесцениванию. Решением задачи MDP является стратегия, в которой с каждым состоянием, достижимым для агента, связано некоторое решение. Оптимальная стратегия максимизирует полезность встречающейся последовательности состояний при ее осуществлении.
• Полезностью состояния является ожидаемая полезность последовательностей состояний, встречающихся при осуществлении оптимальной стратегии, начиная с этого состояния. Алгоритм итерации по значениям для решения задач MDP действует по принципу итеративного решения уравнений, связывающих полезности каждого состояния с полезностями его соседних состояний.
• В алгоритме итерации по стратегиям чередуются этап вычисления полезностей состояний согласно текущей стратегии и этап усовершенствования текущей стратегии по отношению к текущим полезностям.
• Задачи MDP в частично наблюдаемой среде, или задачи POMDP, являются гораздо более трудными для решения, чем задачи MDP. Они могут быть
решены путем преобразования в задачу MDP в непрерывном пространстве доверительных состояний. Оптимальное поведение при решении задач POMDP должно предусматривать сбор информации для уменьшения неопределенности и поэтому принятия лучших решений в будущем.
• Для вариантов среды POMDP может быть создан агент, действующий на основе теории решений. В таком агенте для представления модели перехода и модели наблюдения для обновления его доверительного состояния и проектирования возможных последовательностей действий в прямом направлении используется динамическая сеть принятия решений.
• Теория игр описывает рациональное поведение для агентов в тех ситуациях, в которых одновременно взаимодействуют множество агентов. Решениями для игр являются равновесия Нэша — профили стратегий, в которых ни один из агентов не имеет стимулов, под влиянием которых он мог бы уклониться от определенной для него стратегии.
• Проектирование механизма может использоваться для определения правил, по которым должно быть организовано взаимодействие агентов в целях максимизации некоторой глобальной полезности благодаря функционированию отдельных рациональных агентов. Иногда удается найти механизмы, позволяющие достичь этой цели, не требуя от каждого агента, чтобы он учитывал то, какие варианты выбраны другими агентами.
Мы вернемся к тематике задач MDP и POMDP в главе 21, где описаны методы обучения с подкреплением, позволяющие агенту совершенствовать свое поведение на основании опыта, полученного в последовательных, неопределенных вариантах среды.
Back