Кыргызско-Российский Славянский Университет
ЕТФ
Кафедра математики
Дисциплина: Интегральные уравнения и вариационное исчисление
На тему:
«Задача оптимального управления. Принцип максимума Понтрягина»
Выполнил: студент гр. ЕМЭ-1-00 Салихов Р.Р.
Проверил: к.ф.-м.н, доцент Шемякина Т.А.
Бишкек-2002
Виды управления
В задачах управления встречаются два вида управления. Один из них – управление по разомкнутому контуру. В этом случае оптимальное управление определяется как функция времени
{u*(t)}. (1)
Управление по разомкнутому контуру полностью определяется в начальный момент t0, а фазовая траектория {x (t)} отыскивается в результате интегрирования уравнений движения при фиксированных начальных условиях. Другой вид управления - управление по замкнутому контуру (с обратной связью). В этом случае оптимальное управление определяется как функция текущих фазовых координат и времени
{u* (x(t), t)} (2)
В отличие от управления по разомкнутому контуру, когда все решения принимаются заранее, при управлении по замкнутому контуру решения можно пересматривать с учетом новой информации, которую несут текущие фазовые координаты. Задача определения оптимального управления по замкнутому контуру называется задачей синтеза.
Различия между управлением по разомкнутому контуру и управлением по замкнутому контуру хорошо видны на примере работы двух простых устройств: сушилки для белья и отопительной системы в здании. Большинство типов сушилок для белья представляет собой системы с управлением по замкнутому контуру: режим работу их задается с помощью реле времени. Отопительная система, напротив, обычно регулируется с помощью термостата, который включает обогревающее устройство, если температура в помещении понизилась, и включает его, если температура становится слишком высокой. Следовательно, управление обогревающим устройством зависит от текущего значения фазовой координаты – температуры в помещении.
Примеры этих двух видов управления существуют также и в экономике. Автоматические стабилизаторы, такие, как страхование по безработице и прогрессивный подоходный налог, представляют собой системы управления с обратной связью. Так, например, рост числа безработных приводит к росту суммы выплат пособий по безработице, что в свою очередь противодействует росту безработицы. Аналогично этому расширение инфляции приводит при действующей системе прогрессивного налогообложения к соответствующему увеличению подоходного налога, что противодействует росту инфляции. Управляющие параметры в каждом из этих случаев (пособия по безработице или налоговые отчисления) соответствуют текущему состоянию экономики. Другой пример системы управления с обратной связью – это денежная политика в том виде, как она осуществляется федеральной резервной системой США, которая регулирует выпуск денег и определяет условия кредита в соответствии с текущими значениями экономических переменных.
На рис.1 в виде схемы показаны два вида управления и некоторые другие аспекты задач управления на примере задачи с закрепленным временем. Здесь кружками обозначены исходные данные: начальный момент и начальное состояние, уравнения движения, область (множество) управления и целевой функционал. В прямоугольниках указано, что требуется найти – управление и фазовую траекторию. Ромбами обозначены два вида управления: управление по замкнутому контуру и управление по разомкнутому контуру. Взаимосвязи, существующие между различными частями задачи, показаны с помощью стрелок. Так, например, поскольку для определения скорости изменения фазовых координат с помощью уравнений движения используется текущее состояние, определенное управление и время, то эти величины влияют на фазовую траекторию.
В дальнейшем, как правило, предполагается, что задача управления не содержит случайных переменных и что все необходимые параметры, функции и множества полностью определены. В этом случае управление по замкнутому контуру и управление с обратной связью приводит к одинаковым результатам. Поэтому основное внимание будет уделено управлению по разомкнутому контуру, которое обычно легче определить, чем управление по замкнутому контуру. Однако в двух типах задач управления, указанных ниже, управление по замкнутому контуру имеет преимущество перед управлением по разомкнутому контуру, так как первое доставляет большее максимальное значение целевого функционала. Этими двумя типами задач являются задачи стохастического управления, которые содержат случайные переменные с фиксированными распределениями, и задачи адаптивного управления, которые содержат неопределенности относительно начальных условий на параметры, функции или множества, которые уменьшаются или полностью устраняются по мере развертывания процесса.
Задача управления как задача программирования в бесконечномерном пространстве; обобщенная теорема Вейерштрасса
Задачу управления можно считать задачей математического программирования в бесконечномерном пространстве. Рассмотрим следующую задачу управления:
(3)
t0 и x(t0)= x0 фиксированы, t1 фиксирован
{u(t)}U.
Эта задача отличается следующими своими свойствами: она автономна, т.е. уравнения движения и целевой функционал не зависят явно от времени; данная задача относится к классу задач Лагранжа, так как целевой функционал не зависит от конечного состояния или от конечного момента времени; это задача с закрепленным временем, так как t1 задано, а x(t1) произвольно; задача содержит только один управляющий параметр и одну фазовую координату.
Заданный промежуток времени (t0?t?t1) можно разбить на N интервалов равной длины
(4)
Время измеряется в дискретных единицах
(5)
где индекс q изменяется от 0 (что соответствует t=t0) до N ()что соответствует t=t1). Состояния и управления замеряются в отмеченные дискретные моменты времени
(6)
Рассмотрим теперь задачу математического программирования с N+1 переменной u0, u1, …, uN:
(7)
где - фиксированный положительный параметр. Пределом целевой функции этой задачи при N, стремящемся к бесконечности, и , стремящемся к 0, и при фиксированной величине N, равной (t1-t0), является целевой функционал задачи (3), т.е.
(8)
При указанном переходе к пределу разностные уравнения в (7) превращаются в дифференциальные уравнения задачи (3). Таким образом, задачу управления можно считать задачей математического программирования в бесконечномерном пространстве. Этим пространством является множество всех кусочно-непрерывных вещественных функций u(t), определенных на промежутке t0?t?t1.
Основная теорема математического программирования – теорема Вейерштрасса указывает условия, достаточные для существования максимума. Эти условия состоят в том, что целевая функция должна быть непрерывной, а допустимое множество – компактным. Обобщая эту теорему на случай бесконечномерного пространства, можно получить основную теорему существования для задач управления – обобщенную теорему Вейерштрасса. Согласно этой теореме, решение общей задачи управления существует, если целевой функционал J{u(t)} является непрерывным функционалом от функций управления и если подмножество U бесконечномерного пространства, которому принадлежат управления, является компактным. Важным частным случаем, когда решения существуют, является задача, в которой функция J(…) и f(…) линейно зависят от u.
Задачи оптимального управления.
Допустим, что математическая модель некоторого процесса характеризуется зависящими от времени t фазовыми координатами x1(t), …, xn(t), поведение которых описывается системой обыкновенных дифференциальных уравнений
(9)
где u1(t),…, um(t) – параметры управления, определяющие ход процесса. Будем считать, что допустимые управления u=(u1,…,um), содержатся в некотором множестве U и в этом множестве существует управление u(o)=(u1(0)(t),…,um(0)(t)), переводящее управляемый объект из начального состояния S0(t0,x1(0),…,xn(0)) в конечное состояние S1(t1,x1(1),…,xn(1)). Пусть начальное и конечное состояния удовлетворяют краевым условиям
(10)
а фазовые координаты x=(x1,…,xn) и управление u=(u1,…,um) подчинены изопериметрическим ограничениям
(11)
Предположим также, что функционал
(12)
выражает некоторую характеристику процесса, которую условно рассматривают как цель, цену или качество процесса. Задача оптимального управления заключается в отыскании в множестве U такого управления u*=(u1*(t),…,um*(t)), которое осуществляет переход управляемого объекта, поведение которого описывается системой (9), из состояния S0 в состояние S1 при выполнении краевых условий (10) и изопериметрических ограничений (11) таким образом, чтобы функционал (12) достигал экстремального значения. Для определенности в дальнейшем будем говорить только о минимуме функционала (12).
Четверку (x(t), u(t), t0, t1) называют управляемым процессом в задаче оптимального управления (9)-(12), если
а) управление u(t) – кусочно-непрерывная функция на отрезке [t0, t1], содержащаяся в множестве U;
б) фазовая траектория x(t) непрерывна на отрезке [t0, t1];
в) для всех t[t0, t1], кроме, быть может, точек разрыва управления u(t), функции x1(t),…,xn(t) удовлетворяют системе управлений (9).
Управляемый процесс называется допустимым, если удовлетворяется условия (10) и (11). Допустимый управляемый процесс (x*(t), u*(t), t0*, t1*) называются оптимальным, если найдется такое >0, что для всякого допустимого управляемого процесса (x(t), u(t), t0, t1) такого, что
при
выполняется неравенство
Необходимые условия экстремума задачи оптимального управления, позволяющие определять оптимальный управляемый процесс, если он существует, были получены Л.С. Понтрягиным и носят название принципа максимума Понтрягина. Для формулировки этого принципа предположим, что =(0, 1, …, l) и =(0, 1, …, k), 0=0?0, - некоторые постоянные векторы, а (t)=(1(t), …, n(t)) – кусочно-гладкая на [t0, t1] вектор-функция. Введем функции Лагранжа
(13)
Пусть существует оптимальный управляемый процесс (x*(t), u*(t), t*0, t*1). Для произвольной функции H(x, u, t0, t1) обозначим H*(t)=H(x*(t), u*(t), t*0, t*1). Имеет место
Принцип максимума Понтрягина. Если (x*(t), u*(t), t*0, t*1) - оптимальный процесс для задачи (9)-(12), то найдутся множители Лагранжа, и (t), не равны одновременно нулю и такие , что для функционала (13) выполняется
Уравнения Эйлера
(14)
Условия трансверсальности по x:
(15)
Условия трансверсальности по t:
(16)
Принцип максимума по u: (17)
Условия согласованности знаков с соотношениями (10) и (11): если при некотором j в соотношении (11) (или при некотором s в (11)) стоит знак <, то соответствующееj?0 (s?0); при тех j и s, у которых в соотношениях (10) и (11) стоят знаки равенства, знаки j и s могут быть произвольными;
Условия дополняющей нежесткости:
(18)
Нужно отметить, что при соответствующем выборе фазовых координат и управления принцип максимума Понтрягина может быть использован для решения всех задач классического вариационного исчисления, однако область его применения гораздо шире.
Рассмотрим пример на применение принципа максимума.
Пример 1. Найти оптимальный управляемый процесс в задаче
Составим функции Лагранжа
Отсюда находим уравнения Эйлера: Пусть ?0=0. Тогда ?1=С1, а из условия ?1(1)=0 (см. (15)) следует, что С1=0 и ?1(t)=0. Поэтому ?2(t)=С2, а так как согласно условию (17) , то
Поэтому
из уравнения
связи x’2=u,
x2(0)=0,
находим
Однако по условиям задачи x2(1)=-1, что противоречит полученному выражению для x2(t). Поэтому ?0?0. Возьмем ?0=1. Тогда ?1(t)= t+С3. Учитывая, что ?1(t)=0, находим ?1(t)= t-1. Из уравнения Эйлера ?’2=-?1 получаем ?2(t)=-t2/2+t+C4. Пусть C4?0. Так как ?2(t)= 1/2-1/2(t-1)2+С4, то при 0?t?1 будет ?2(t)?0 и, учитывая (17), имеем u*=1, x*2(t)=t, что противоречит условию x2(1)=-1. Следовательно C4<0. Если взять C4?-1/2, то ?2(t)?0 при всех t и, следовательно, u*=-2, x*2(t)=-2t, что противоречит условию x2(1)=-1. Итак –1/2? C4<0. Тогда ?2(0)= C4<0, ?2(1)= ?+ С4?0 и согласно принципу максимума (17) получаем
где ? – достаточно малое число.
Теперь из уравнения связи x’2=u находим
Функция
непрерывна на отрезке [0, 1], поэтому существует такая точка t2, в которой оба полученных выражения для x2(t)равны между собой, т.е. –2t2=t2-2, откуда t2=2/3. Итак,
При рассмотрении многих задач полезно применять функцию Понтрягина
. (19)
С ее помощью системы уравнений (9) и (14) могут быть записаны в виде
, , i=1, …,n. (20)
а принцип максимума по u (условие (17)) принимает вид
(21)
В качестве примера на применение функции Понтрягина рассмотрим простейшую задачу о быстродействии.
Пример 2. Пусть материальная точка единичной массы движется под действием внешней силы u(|u|?1). Считая, что в начальный момент времени точка находится в положении x0 и имеет начальную скорость ?0, требуется остановить ее в кратчайшее время в начале координат.
Формализованно эта задача может быть записана в виде
Функция Понтрягина H в рассматриваемом случае будет иметь вид
а вторая группа уравнений (20) – вид
Из условий трансверсальности (15) находим
а из принципа максимума (21), опустив не зависящее от u слагаемое, получаем
т.е. (22)
Далее, Функция ?2(t) не может тождественно равняться нулю, так как отсюда следовало бы ?1=?2=?3=?4=0, и все множители Лагранжа оказываются нулями. Поэтому функция ?2(t) может обращаться на (0, Т) в нуль не более одного раза и возможны только следующие случаи:
а) ?2(t) ?0 при 0?t?Т, u*=1. Из уравнений связи и условий на правом конце находим Тогда на левом конце отрезка [0, T] справедливы равенства ?0=-Т, x0=Т2/2. Следовательно, этот случай возможен лишь тогда, когда начальная точка (x1(0), x2(0)) лежит на параболе x1= x22/2, причем x1(0)>0, x2(0)<0. Имеем также Т*=-?0.
б) ?2(t)?0 при 0?t?Т, u*=-1. Аналогично получаем x2(t)=T-t, x1(t)=-(T-t)2/2, ?0=Т, x0=-Т2/2. Этот случай возможен тогда, когда начальная точка лежит на кривой x1= -x22/2, причем x1(0)<0, x2(0)>0, Т*=?0.
в) ? 2(t) ?0 при 0?t??, ?2(t) ?0 при ??t? Т. Тогда
Для определения ? и T воспользуемся непрерывностью функций и . Это дает ?+?0=T- ?, ?2/2+ ?0?+x0=-(T- ?) 2/2. Исключая из последнего равенства T, получим уравнение
?2+2?0?+x0+?02/2=0, откуда
Так как T>?>0, то ?+?0>0 , и мы имеем Если ?0>0, то это возможно лишь при x0<-? 02/2. Если ?0<0, то x0?? 02/2. Таким образом, если ?0>0, то начальная точка
(x1(0), x2(0)) должна лежать левее параболы x1= -x22/2, а если ?0<0, то начальная точка
(x1(0), x2(0)) лежит левее параболы x1= x22/2. В этом случае
г) ?2(t) ?0 при при 0?t??, ? 2(t) ?0 при ??t? Т. Тогда
Аналогично предыдущему, получаем
?-?0=T-?, - ?2/2+ ?0?+x0=(T- ?) 2/2.
Исключая из последнего равенства T, получим уравнение
откуда
Так как T>?>0, то ?>?0. Поэтому Следовательно, если ?0<0> то из условия ?>0 получаем x0>? 02/2 , а если ?0>0, то x0?-? 02/2, так как стоящее под знаком корня выражение не может быть отрицательным. Таким образом, если ?0<0> то начальная точка
(x1(0), x2(0)) лежит правее параболы x1= x22/2, если ?0>0, то начальная точка (x1(0), x2(0)) лежит правее параболы x1= -x22/2. В этом случае Разобранными случаями исчерпываются все возможные расположения начальной точки на фазовой плоскости.
Литература:
М. Интрилигатор
Математические методы оптимизации и экономическая теория.
Сборник задач по математике для ВТУЗов. Специальные курсы.
Под редакцией А.В. Ефимова