Принятие сложных решений

Back
17.8. Резюме
В этой главе показано, как использовать знания о мире для принятия решений, даже если результаты действий являются неопределенными, а вознаграждения за действия могут оставаться недоступными до тех пор, пока не будет осуществлен це­лый ряд действий. Основные идеи этой главы кратко изложены ниже.
•    Задачи последовательного принятия решений в неопределенных вариантах среды, называемые также марковскими процессами принятия решений (Markov Decision Process — MDP), определяются с помощью моделей перехода, задаю­щих вероятностные результаты действий, и функции вознаграждения, которая показывает, какое вознаграждение соответствует каждому состоянию.
•    Полезность последовательности состояний представляет собой сумму всех вознаграждений вдоль этой последовательности, которая, возможно, со вре­менем подвергается обесцениванию. Решением задачи MDP является страте­гия, в которой с каждым состоянием, достижимым для агента, связано неко­торое решение. Оптимальная стратегия максимизирует полезность встречаю­щейся последовательности состояний при ее осуществлении.
•    Полезностью состояния является ожидаемая полезность последовательностей состояний, встречающихся при осуществлении оптимальной стратегии, на­чиная с этого состояния. Алгоритм итерации по значениям для решения задач MDP действует по принципу итеративного решения уравнений, связывающих полезности каждого состояния с полезностями его соседних состояний.
•    В алгоритме итерации по стратегиям чередуются этап вычисления полезностей состояний согласно текущей стратегии и этап усовершенствования текущей стратегии по отношению к текущим полезностям.
•    Задачи MDP в частично наблюдаемой среде, или задачи POMDP, являются гораздо более трудными для решения, чем задачи MDP. Они могут быть решены путем преобразования в задачу MDP в непрерывном пространстве до­верительных состояний. Оптимальное поведение при решении задач POMDP должно предусматривать сбор информации для уменьшения неопределенно­сти и поэтому принятия лучших решений в будущем.
•    Для вариантов среды POMDP может быть создан агент, действующий на ос­нове теории решений. В таком агенте для представления модели перехода и модели наблюдения для обновления его доверительного состояния и проек­тирования возможных последовательностей действий в прямом направлении используется динамическая сеть принятия решений.
•    Теория игр описывает рациональное поведение для агентов в тех ситуациях, в которых одновременно взаимодействуют множество агентов. Решениями для игр являются равновесия Нэша — профили стратегий, в которых ни один из агентов не имеет стимулов, под влиянием которых он мог бы уклониться от определенной для него стратегии.
•    Проектирование механизма может использоваться для определения правил, по которым должно быть организовано взаимодействие агентов в целях макси­мизации некоторой глобальной полезности благодаря функционированию от­дельных рациональных агентов. Иногда удается найти механизмы, позво­ляющие достичь этой цели, не требуя от каждого агента, чтобы он учитывал то, какие варианты выбраны другими агентами.
Мы вернемся к тематике задач MDP и POMDP в главе 21, где описаны методы обу­чения с подкреплением, позволяющие агенту совершенствовать свое поведение на ос­новании опыта, полученного в последовательных, неопределенных вариантах среды.


Back