© К.Х.Крамер (США), Т.Б.Кайзер (Германия), С.Е.Шмидт (Германия), Дж.Е. Дависон (США), В.А. Лефевр (США)
Рефлексивное управление – это специальное воздействие на противника с целью склонить его принять решение, предопределенное контролирующей стороной. Такое воздействие использовалось с древнейших времен, но до шестидесятых годов минувшего века оно не включалось в процессы принятия решения как необходимая компонента (Лефевр, 1965). Только после того, как появилась первая модель интеллекта противника, стало возможным делать хотя бы грубые оценки эффективности информационного воздействия до того, как это воздействие произведено.
Это явилось стимулом к развитию новых методов информационного воздействия и новых моделей субъекта, у которого есть внутренние образы себя и противника. Понятие рефлексивного управления оказало значительное влияние на исследование столкновения двух интеллектов. В теории принятия решений мысль, что интеллект противника есть неконтролируемый фактор, традиционно считалась очевидной. Естественное развитие этой идеи привело к парадигме предсказания: принимающий решение старается предугадать возможные реакции противника в различных ситуациях.
Используя рефлексивное управление, можно существенно сузить рамки парадигмы предсказаний, заменив ее парадигмой предопределения будущего. Мы будем использовать термин рефлексивное решение для таких решений, которые включают посылку информационного сообщения противнику с целью детерминирования его поведения.
В этой статье мы описываем некоторые принципы, лежащие в основе рефлексивных решений, и иллюстрируем эти принципы специальными компьютерными программами, разработанными нашей группой.
Главная идея рефлексивного управления представлена на рисунке 1. Предположим, есть две стороны, мы будем называть их Синие и Красные. Пусть Синие хотят управлять процессом принятия решений Красными. Чтобы достичь этой цели, Синие решают послать Красным некоторый «информационный пакет» – i. У Синих уже есть общая модель Красных, построенная ранее. Одновременно с посылкой пакета информации Красным, Синие вкладывают этот пакет в свою модель Синих. Эта процедура эквивалентна получению информации о Красных. Используя этот метод, Синие могут предсказывать процесс принятия решения Красными и их поведение во многих случаях лучше, чем если бы они не посылали никакой информации.
Рис.1. Исходная схема рефлексивного управления (Лефевр, 1966; Lefebvre, 1977)
Рассмотрим взаимодействие двух сторон A и B. Сторона A стремится управлять процессом принятия решений стороной B. Пусть SA есть множество возможных состояний A, а SB множество возможных состояний B:
SA = {A1, A2, ..., Ai, ...},
SB = {B1, B2, ..., Bj, ...}.
Каждое состояние характеризуется физическими характеристиками сторон: местонахождение, движение, боевые действия. Кроме того у A есть набор «трюков» – посылка информационных единиц противнику:
TA = {T1, T2, ..., Tk, ...}.
Мы полагаем, что принимая решение, A использует одну из следующих схем:
(I) Ai → Bj → Tk
(II) Tk → Bj → Ai
Рассмотрим схему (I). Пусть A имеет интенцию перейти в состояние Ai, которое обозначает, например: нанести удар по левому флангу противника. Но A сможет реализовать свою интенцию, только если B перейдет в состояние Bj, соответствующее концентрации сил на правом фланге. B сконцентрирует свои силы на правом фланге, только если он получит информацию, что A собирается ударить по правому флангу. Трюк Tk состоит в том, чтобы послать такой «информационный пакет», который убедит его в необходимости укрепить правый фланг. Таким образом, сначала A регистрирует свою интенцию Ai, затем определяет состояние противника Bj, которое позволит ему реализовать свою интенцию, наконец, A выбирает информационный трюк Tk, чтобы перевести B в состояние Bj.
Рассмотрим теперь схему (II). Сначала A выбирает трюк Tk, склоняющий противника защищать свой правый фланг, что соответствует переходу B в состояние Bj, а затем выбирает такой план Ai, чтобы его действия были наиболее эффективны. Выбор схемы зависит от многих факторов. Например, схема (I) может быть выбрана, если у A есть только один реализуемый план. Схема (II) подходит для случаев, когда у A есть много планов, но только один трюк, который переведет B в определенное состояние.
Начатая 24 февраля 1991 года операция «Буря в пустыне» является примером использования первой схемы рефлексивного управления. Она предполагает ситуацию, в которой человек, принимающий военное решение, располагает только одним способом разрешения стратегической, операционной или тактической дилеммы. Именно такова была ситуация во время «Бури в пустыне», согласно описанию Шуберта и Крауса (Schubert & Kraus, 1995).
Возможности генерала Шварцкопфа были ограничены политической необходимостью закончить наземные операции как можно скорее и опасением больших жертв со стороны войск американской коалиции. Имея в своем распоряжении модель Саддама Хусейна, командир коалиционных войск выбрал план, получивший известность под названием «ловушка». После разработки детальных планов для осуществления «ловушки» стратеги использовали особый «трюк», чтобы заставить Хусейна принять ключевое решение, необходимое для эффективного проведения своих действий. Американская коалиция успешно использовала первую схему рефлексивного управления.
С самого начала у коалиции была достаточно полная информация о противнике. Хусейн не считался «военным гением»; было известно, что он ведет себя как главный авторитет по всем вопросам и лично принимает все важные решения, касающиеся расстановки военных сил. Было также известно, из анализа Ирано-иракской войны, что Хусейн склонен к статичной, позиционной войне и что он мало доверяет своим генералам, за исключением нескольких, возглавляющих Национальную гвардию. Наконец, в модель была добавлена информация о склонности Саддама Хусейна к секретности и собственной безопасности. Не случайно он держал свои лучшие и наиболее преданные силы рядом с собой, а в пустыню, на границу с Саудовской Аравией, под удар коалиции, он отправлял необученных новобранцев, под руководством неквалифицированных командиров. При такой геополитической и стратегической ситуации у разработчиков коалиции не было другого выбора, кроме охватывающей атаки. «Ловушка» давала наилучшую возможность закончить все быстро и решительно. Теперь оставалось найти «трюк», соответствующий «ловушке».
Стараясь воздействовать на принятие решения Саддамом Хусейном, коалиция использовала ложное движение одного из подразделений американской морской пехоты, чтобы укрепить ожидания Хусейна, что коалиция будет атаковать непосредственно Кувейт-Сити с прибрежного шоссе. Уверенность Хусейна опиралась на донесения о массированном скоплении американской морской пехоты, египетских, сирийских и саудовских сил к югу от оборонной полосы Хусейна вдоль побережья Персидского залива. Обманные движения американских амфибий у берега Кувейт-Сити, появление большого количества американских частей особого назначения на берегах Кувейта и массированное скопление главным образом арабских военных сил прямо к югу от Кувейт-Сити подтверждали ожидания Хусейна.
В это время американские 18-й и 7-й корпуса продвинулись примерно на 300 миль к западу, чтобы приготовиться к атаке, охватывающей Национальную гвардию Ирака. Условием западного продвижения двух американских корпусов было регулярное разрушение информационной инфраструктуры Хусейна; это оставило ему возможность видеть только скопление сил к югу от Кувейт-Сити и маневры амфибий у берега, готовящиеся к прямой атаке на север вдоль побережья. Готовясь к предполагаемой атаке, Хусейн распорядился переместить значительное число иракских дивизий ближе к берегу и поставил Национальную Гвардию на иракско кувейтской границе между Кувейт-Сити и Багдадом в качестве второй линии обороны и своей собственной защиты.
Таким образом, коалиции удалось снабдить Хусейна такой информацией, чтобы он принимал военные решения, выгодные для коалиции и для ее плана окружения иракских сил далеко на западе. Через сто часов война закончилась победой коалиции. Сегодня операция «Буря в пустыне» является одним из лучших примеров использования первой схемы рефлексивного управления.
Этот пример мы взяли из Руководства по полевым действиям (FM 90-2) (1988). Горный хребет Алам-эль-Халфа тянется примерно на 15 миль за линией Аламейна, являясь естественной крепостью и создавая удобную оборонительную позицию для британских войск. Германские войска, однако могли обойти его с флангов и атаковать Александрию. Превосходные британские карты местности были были сделаны на основе захваченных итальянских карт, скорректированных с помощью аэрофотосъемки. Один тип британских карт считался особенно ценным и в британской, и в германской армиях: это так называемые «дорожные карты». На них цветными кодами была обозначена трудность прохождения местности и указана скорость, с которой разные средства передвижения могут по ней перемещаться.
Британцы решили напечатать фальшивые «дорожные карты», которые указывали бы на сложную дорогу с флангов вокруг Алам-эль-Халфа и легкую прямо через Алам-эльХалфа. Такие карты были секретно напечатаны и помещены в бронетранспортер, который немцы могли легко захватить. План сработал. Немцы пошли прямо на Алам-эль-Халфу («случайно по очень плохой дороге»).
Этот пример иллюстрирует использование второй схемы рефлексивного управления, в которой у человека, принимающего военное решение, есть «трюк»: он посылает врагу эту информацию, чтобы склонить его к действиям, выгодным для того, кто принимал решение; т.е. принимающий решение использует трюк, чтобы построить свой собственный курс действий.
В этом разделе мы дадим пример ситуации, к которой можно применить схемы рефлексивного управления, рассмотренные выше, и опишем программу, позволяющую автоматически вырабатывать рефлексивные решения. Представим себе, что разведка некоторой страны (Синие) получила информацию, что террористы (Красные) собираются контрабандным путем ввезти в страну Синих оружие массового поражения. Разведка также установила, что террористы будут стараться проникнуть в страну через один из пограничных районов: X1, X2, ..., Xn. Конкретные программы сделаны для трех пограничных районов (т.е. n = 3), но для полного понимания метода важно рассмотреть общий случай.
Синие решают охранять свои границы, используя рефлексивное управление. Следовательно, они должны выработать рефлексивное решение, состоящее из двух частей: какую информацию об охране границ послать террористам и как на самом деле разместить военные силы на границе. Для каждого пограничного района Синие могут выбрать высокую, среднюю или низкую степень защиты. Кроме того, Синие открыто распространяют информацию о степени защиты каждого района. Эта открытая информация и есть тот информационный пакет, который используется как трюк. Естественно, что открытая информация может не совпадать (и скорее всего не совпадает) с реальным размещением пограничных сил.
По схеме (I) Синие намерены разместить свои силы определенным образом и хотят найти трюк, чтобы заставить террористов действовать так, что уже выбранное расположение сил дает Синим преимущество. Этот процесс показан на рис. 2. Размещение сил Синих обозначается вектором D = (d1, K, dn), где di уровень защиты в районе Xi. Пусть у Синих есть начальный порядок предпочтения <b защиты районов: X1 <b Λ <b Xn. У Красных также есть начальный порядок предпочтения районов для проникновения в страну <r : Xi1 <r Λ <r Xin. Затем Синие моделируют попытку Красных перейти границу и вычисляют вероятность успеха si для каждого района Xi при размещении войск D. Этот шаг необходим, поскольку уровень защиты границы Синими не единственный фактор, определяющий успех или провал попытки Красных перейти границу. Нужно еще принимать во внимание состояние местности и необходимые ресурсы. (Более подробно модель пересечения границы будет обсуждаться дальше.) Зная все это, Синие определяют порядок предпочтения <B по районам:
Xi >B Xj , если si < sj , или
если si = sj и Xi >b Xj.
Пусть Xj1 <B Λ <B Xjn , т.е. для Синих будет лучше всего, если Красные выберут район Xjn для попытки перейти границу, потому что вероятность их успеха в этой точке наименьшая. Мы можем рассматривать этот порядок как перестановку π на множестве {1, K, n}, где π (h) = jk. Теперь можно записать порядок предпочтения Синих как вектор P = (p1, K, pn), где pk = π–1(k). Этот вектор называется предпочтением Синих.
Мы называем трюком ту информацию, которую Синие посылают террористам о размещении своих сил. Его можно записать как вектор T = (t1, K,tn), где ti – объявленный уровень защиты района Xi. Предположим у Синих есть список возможных трюков Λ = {T1,K,Tm}. Для каждого трюка Ti мы можем установить порядок предпочтения Красных <i аналогично тому, как мы устанавливали порядок предпочтения для Синих. Предположим Красные приняли трюк и поверили, что силы Синих расположены именно так, как указывает трюк. Используем теперь нашу модель пересечения границы, чтобы представить процесс разведывания Красными границы и определения ими вероятности успеха sij в каждом районе Xj. Определим <i:
Xj >i Xk , если sij > sik, или
если sij = sik и Xj >r Xk.
Как и прежде, мы можем записать <i как вектор Ri.
Рис.2. Схема (I)
Синие хотели бы найти такие трюки Ti, для которых существующее расположение сил было бы самым выгодным, т.е. Синие хотят, чтобы Красные поверили, что их шансы на успех высоки там, где они на самом деле низкие, и наоборот. Мы приводим в исполнение эту идею, выискивая трюки, для которых Ri = P. Этот критерий означает, что Красные, приняв трюк за правду, предпочитают районы в порядке, прямо противоположном их вероятности успеха там! Пусть L список всех трюков в Λ. Если L ≠ ∅, мы выбираем такой трюк Tk, чтобы
Если существует больше, чем один трюк, мы выбираем любой из них случайным образом. Если L = ∅, система не может дать никаких рекомендаций.
Пример. Предположим, что Синие хотят установить высокий уровень защиты в районе X и оставить районы Y и Z относительно незащищенными со средним и низким уровнями защиты, соответственно. (Возможно, более высокий уровень защиты в этих районах чрезмерно дорог.) Предположим теперь, что Синие вычислили вероятность успеха перехода границы Красными: для района X – 0,375, Y – 0,125 и для Z – 0,5. Тогда порядок предпочтения Синих будет Y > X > Z. В этом случае Синие хотели бы, чтобы террористы выбрали для перехода границы район Y и отказались использовать районы X и Z. Следовательно, Синие выискивают трюк, который склонил бы террористов сделать именно такой выбор.
Синие выискивают трюки, в результате которых порядок предпочтения Красных совпадал бы с порядком предпочтения Синих, и составляют список L таких трюков. Наконец, Синие выбирают такой трюк Тk, который покажется Красным наиболее подходящим для успешного проникновения в страну. В схеме (II) Синие не имеют в виду какого-либо определенного расположения своих сил. Вместо этого они оценивают все возможные трюки, выискивая такие, которые подтолкнут террористов к тем действиям, на которые рассчитывают Синие. Схема (II) показана на рис. 3.
Рис.3. Схема (II)
Для каждого трюка Тi Синие устанавливают предпочтение Красных Ri, как это делалось выше. После этого Синие определяют наилучшее расположение Bi, следующим образом. Пусть Н обозначает высокий уровень защиты, М – средний и L – низкий. Расходы Синих не должны превышать некоторую величину С, кроме того, для каждого района Xt и каждого уровня защиты d ∈ {H,M,L} они не должны превышать величину Сi,d . Предположим, Xk1 >i Λ >i Xkn есть порядок предпочтения Красных. Синие хотели бы установить самый высокий уровень защиты, который они могут себе позволить в районе Xk1, наиболее предпочтительном для Красных, при этом Синие не хотят оставить ни один район полностью незащищенным; хотя бы самый низкий уровень должен быть обеспечен в каждом районе. (Таким образом, наше исходное предположение
Синие выбирают d1 в качестве самого высокого уровня защиты, который не превышает разрешенной величины расходов и позволяет организовать в других районах, по крайней мере, низкую защиту. В более формальных терминах, d1 – это такой наиболее высокий уровень защиты, при котором
Аналогично Синими выбирается d2 с новым ограничением расходов C – Ck1,d1.
В общем случае, для каждого района Xk1 наиболее высокий уровень защиты dj выбирается так, чтобы
Мы можем представить защиту Bi как n-значное трехмерное число Ni, положив j-й знак равным 2 при dj = H, равным 1 при dj = M и равным 0 при dj = L. В этом случае система рекомендует такие рефлексивные решения (Ti, Bi), для которых Ni ≥ Nj для всех j = 1, ... , n.
Существенной компонентой процесса принятия решения Синими является модель того, как Красные будут реагировать на информационный пакет (трюк), посланный им. В данной ситуации мы пользуемся моделью пересечения границы в нескольких районах. Мы полагаем, что террористы будут разведывать разнообразные возможные пути через границу в каждом районе, стараясь запланировать операцию так, чтобы иметь наибольшую вероятность успешного проникновения. Чтобы построить модель поведения террористов, мы наносим на карту возможные пути через границу в каждом районе. Мы отмечаем ключевые точки и тропы между ними. Каждый возможный путь это серия троп от одной ключевой точки к другой. Каждой тропе приписывается две оценки: первая отражает трудности передвижения, вторая – вероятность того, что террористы будут на этой тропе задержаны. Конечно, вторая оценка будет зависеть от уровня защиты данного района.
Поскольку Синие хотят проверить, как Красные будут реагировать на посланную им дезинформацию (трюк), мы включаем в модель уровень защиты, обозначенный в информационном пакете. Теперь мы можем моделировать попытку террористов пересечь границу по определенной тропе (Подробности будут обсуждаться в следующем разделе.) Для отражения того факта, что террористы сначала исследуют границу в поисках увеличения вероятности успеха, мы начинаем с исходного набора дорог через границу и используем генетический алгоритм (а именно, пропорциональное воспроизведение, пересечение и мутацию), чтобы получить другие дороги, которые могут оказаться более успешными, чем исходный набор. Используя эту модель, Синие могут определить порядок предпочтения Красных в результате определенного трюка.
Мы считаем, что противник – это не отдельный человек, а особый макроиндивид: в его распоряжении имеется стратегическая и тактическая информация в масштабе большого военного штаба, который может оценивать трудность выполнения различных акций и риск, связанный с ними, и который способен имитировать возможные встречные акции своего противника. Кроме того, этот макроиндивид может проигрывать в уме одну и ту же ситуацию много раз с различными параметрами, что позволяет ему получить статистические характеристики успеха своей будущей акции. Мы полагаем, что это существо рационально, т.е. оно выбирает те варианты возможных действий, которые кажутся наиболее полезными. В этом разделе описывается моделирование процессов мышления Красных, относящихся к их возможным действиям в попытке проникнуть через пограничную защиту Синих.
Рис.4. Район северо-западной Тихоокеанской границы между Канадой и США
Каждый приграничный район моделируется как сеть; отмечаются ключевые точки, которые представляются как узлы сети. Связь между двумя узлами отмечается, если возможно перейти непосредственно из одной ключевой точки в другую, например, по дороге или на пароме.
На рис. 4 изображен в качестве примера северо-западный Тихоокеанский район границы между Канадой и США с отмеченными узлами. Каждый узел обозначает определенное место в Соединенных Штатах или в Канаде. На рисунке 5 показан сетевой граф, который мы построили для этого района.
Мы используем следующие условные обозначения. В Канаде: V – Ванкувер, ВС – Британская Колумбия, Sa – остров Солтспринг; на острове Ванкувер: Na – Нанаимо, SB – залив Шварца, Si – Сидней, Vi – Виктория. В США все точки находятся в штате Вашингтон: В1 – Блайн, Ly – Линден, Su – Сумас, Be – Беллингам, Oso – Осо, An – Анакорт, Sea – Сиэттл, РСТ - Тихоокеанская дорога по гребню. На полуострове Олимпик: РТ – порт Таунсенд, РА – порт Анжелес, Sek – Секью. На островах пролива Хуана де Фуки: FH – гавань Фрайдей, Еа – Истсаунд. Линия из FH в An отражает тот факт, что между этими двумя точками ходит регулярный паром.
Каждому ребру нашего графа приписывается коэффициент риска r и коэффициент трудности d. Определение ключевых точек, нанесение связей и приписывание им коэффициентов риска и трудности являются результатом анализа местности. Масштаб модели управляется этими результатами; например, большее число ключевых точек приводит к модели с более тонким разрешением, чем та, в которой точек в сети меньше. Мы полагаем, что сеть построена так, что граф связан.
Рис.5. Сетевой граф северо-западной Тихоокеанской границы
Чтобы успешно проникнуть через границу, агент должен двигаться по сети от начального пункта до намеченной конечной точки – цели. При движении агента по определенному ребру трудность этого ребра d дает оценку вероятности того, что агент провалился и продолжает оставаться в исходной точке до следующего шага. Риск г показывает вероятность того, что агент будет арестован, когда он начнет двигаться. Для Тихоокеанского северо-западного района мы берем Ванкувер в качестве исходной точки и Сиэтл в качестве конечной.
Для построения стратегии успешного проникновения агента через границу используется генетический алгоритм. (Обсуждение генетического алгоритма см. у Koza (1992).) Стратегия агента – это путь от начальной точки до конечной. Каждый узел сетевого графа имеет «ярлык». Будем полагать, что существует не более одного ребра между любыми двумя узлами, так что любое ребро может быть идентифицировано названиями узлов, которые оно связывает. Пусть п число узлов; начальный узел имеет ярлык ν0, и конечный – νn. Стратегия агента может быть представлена последовательностью узлов, начинающейся в ν0 и кончающейся в νn. Например, одна из возможных дорог на сетевом графе Тихоокеанского северо-западного района будет V ВС SB Vi Sea.
Стратегия, обсуждаемая в этом разделе, может быть легко распространена на случай, когда между двумя точками сетевого графа есть более чем одно ребро. Для такого графа мы отметим ярлыком не только узлы, но и ребра, и представим путь последовательностью чередующихся узлов и ребер.
Предположим, мы решили реализовать на компьютере модель проникновения через границу для Т временных шагов. Агенты, которые не смогли пройти из ν0 в νn за Т шагов, считаются провалившимися.
Мы начинаем с рассмотрения всех разумных путей от начального узла к конечному. Разумный путь – это такой путь, который не проходит дважды через одну и ту же точку и избегает ненужные обходы, увеличивающие общую трудность и общий риск. Чтобы пояснить, что мы называем «ненужным обходом», заметим, что есть области в рассматриваемом пограничном районе, по поводу которых Красные могут считать, что риск и трудность в них постоянны. Поэтому Красные могут полагать, что веса (и для трудности, и для риска), приписываемые разным ребрам сети в этом районе, существенно не отличаются друг от друга, и поэтому для заданных входного и выходного узлов такого однородного района оптимальным является самый короткий путь. Например, в Тихоокеанском северо-западном районе континентальная часть штата Вашингтон представляет собой именно такой район, поскольку между любыми двумя точками есть дороги и нет необходимости пересекать границу. Поэтому путь V ВС Su An Sea содержит ненужный крюк к An, в то время как путь V ВС Su Sea не содержит никаких ненужных обходов. После того как мы составили набор разумных путей (каждый из них может повторяться), мы случайным образом выбираем один из них в качестве первого поколения генетического алгоритма.
Пусть G это сетевой граф и V(G) множество узлов этого графа. Для описания операции рассечения примем, что существуют две пересекающиеся стратегии σ и τ.
Положим σ = ν0 νi1 νi2 ... νn, где каждое νik ∈ V(G). Пусть с – число общих узлов у σ и τ (помимо ν0 и νn). Если с = 0, мы просто объединяем σ и τ. Если с > 0, случайным образом выбираем общий узел νiq, отличный от ν0 и νn, как место рассечения. Теперь σ разделена на две части: начальный сегмент от ν0 до νiq и конечный сегмент от νiq до νn. Аналогичным образом стратегия τ тоже разделяется на начальный и конечный сегменты. Наши две новые стратегии теперь это стратегия σ′, состоящая из начального сегмента исходной стратегии σ и конечного сегмента τ и стратегия τ′, состоящая из начального сегмента стратегии τ и конечного сегмента σ. Чтобы приложить мутацию к стратегии σ, мы просто заменяем ее новой стратегией σ′, которая генерируется также, как наш исходный набор стратегий.
Многократная реализация алгоритма, составляющего модель проникновения агента или группы агентов через границу со стратегией s работает следующим образом. Пусть σ = ν0 νi1 νi2 ... νn, где каждое νik ∈ V(G). Агент пытается двигаться по G следуя пути, даваемому стратегией σ, проходя одно ребро за каждый шаг. Пусть в момент t агент находится в узле νis и собирается пройти по ребру из узла νis в узел νis+1. Трудность, связанная с этим ребром, есть вероятность того, что агент не сможет по нему пройти и останется в узле νis в момент t + 1, если его не поймали. Риск, связанный с этим ребром, есть вероятность того, что агента поймали; в этом случае моделирование останавливается, и конечное место нахождения агента есть νis.
Оценка того, насколько стратегия является подходящей, основывается на том, как близко агент находится от цели в момент остановки реализации алгоритма модели. Пусть для любого νi ∈ V(G) величина L(νi) есть длина кратчайшего пути по G из νi в νn. Если L(νi) > L(νj), мы говорим, что νi находится дальше от νn , чем νj. Пусть L = max{L(νi)|νi ∈ V(G)}, т.е. L есть длина самого короткого пути из самого далекого узла к конечному узлу. Предположим агент а со стратегией σ находится в узле νi в конце реализации алгоритма. Введем функцию F(a,σ), оценивающую насколько хорошо агент а со стратегией σ подходит для проникновения через границу:
Таким образом, агент а со стратегией σ больше подходит, чем агент b со стратегией τ , если F(a,σ) > F(b,τ).
Чтобы создать следующее поколение стратегий, мы начинаем с пропорционально-подходящих копий для создания набора, из которого выбираются стратегии для рассечения и мутации. Предположим у нас имеются агенты а1, а2, ..., аN связанные со стратегиями σ1, σ2, ..., σN. Чтобы применить пропорционально-подходящее копирование, мы вычисляем F(a1,σ1), F(a2,σ2), ..., F(aN,σΝ) и их сумму
Каждая из N стратегий набора отбирается из числа стратегий σ1, σ2, ..., σN, и вероятность выбора стратегии σi равна
Отбор каждой стратегии совершается независимо от других, и повторение разрешено.
После того как набор сформирован, фиксированный процент стратегий рс берется для пересечения, и из этих стратегий случайным образом образуются пары. Другой процент, рт, берется для мутации. Оставшиеся стратегии не меняются. После выполнения операций пересечения и мутации получаем следующее поколение стратегий.
Рис. 6. Снимок экрана:
[Display Table for Reflexive Control as starting point - Таблица рефлексивного управления в начальный момент Display Table for actual Deployment as starting point - Таблица действительного расположения войск Cost Table - Таблица стоимости ReflC 1 - Рефлексивное управление 1 TerroRiskl - Риск для террористов 1 Deploy 1 - Расположение 1 low - низкий, medium - средний, high - высокий]
На рис. 6 показан результат реального применения схемы (II) в компьютерной программе. Выделенная в таблице строчка содержит рефлексивное решение (Т4, В4) = ((низкий, средний, низкий), (средний, низкий, высокий)), которое рекомендуется компьютерной программой как лучшее. Возможный риск оценивается путем многократного выполнения описанного выше алгоритма, чтобы промоделировать суждение противника по поводу данной ситуации. Значение риска модифицируется согласно проводимому трюку, где «высокий» добавляет 0.3, «средний» – 0.15, а «низкий» не добавляет ничего. На модифицированном графе мы прогоняем десять поколений описанного выше генетического алгоритма. Мы измеряем успех прохождения через каждый район отношением числа раз, когда террористы успели достичь конечного пункта в последнем поколении, к общему числу путей в поколении.
Теперь наша модель противника дает строгий порядок предпочтения по различным районам: первым выбором противника будет район с наиболее высоким индексом успеха. Если в двух районах индекс успеха одинаков, мы полагаем, что противник ставит на первое место тот, который стоял на первом месте в начальный момент. Второй выбор противника – район со вторым по успешности индексом, последний в списке предпочтений – район с самым низким индексом успеха. Предполагая, что противник будет действовать в соответствии с порядком предпочтений, мы вычисляем контрстратегию. Для каждого района мы задаем стоимость каждого уровня защиты для начала выполнения программы и максимальную общую стоимость. Мы используем эти значения стоимости, чтобы вычислить самый высокий уровень защиты, который мы можем себе позволить, имея в виду район, являющийся первым выбором Красных. Система рекомендует рефлексивные решения и выделяет их на таблице. Мы обозначаем защиту как трехзначное число: первый знак соответствует району первого предпочтения Красных, второй знак – второму предпочтению, и третий знак – последнему предпочтению. Если защита в данном районе «высокая», мы пишем 2, для «средней» – 1, для «низкой» – 0. Например, защита, показанная на рис. 6 имеет номер 210. Мы отмечаем ряды, для которых это трехзначное число максимально при прогоне алгоритма.
Метод рефлексивного управления, описанный выше, приводит к успеху, только если управляемая сторона не знает, что ею управляют. В противном случае рефлексивное управление может нанести вред управляющей стороне, ибо после обнаружения трюка управляемая сторона может реконструировать интенции своего оппонента.
Вернемся к модели проникновения через границу. Предположим, что следуя первой схеме рефлексивного управления, Синие намереваются осуществить защиту D, которая приведет к следующему порядку предпочтений: Z >B Y>B X. Поэтому Синие посылают Красным трюк Ti , который, если будет принят Красными, приведет к следующему порядку их предпочтений: Z >i, Y>i X. В этом случае террористы, вероятно, примут решение переходить границу в районе Z, т.е в месте, где вероятность успеха меньше всего.
Рассмотрим теперь случай провала рефлексивного управления. Красные поняли, что их порядок предпочтений является результатом скрытого воздействия противника. Естественно предположить, что понимание этого факта приведет к противоположному порядку предпочтений: район X станет наиболее привлекательным, затем район Y, а Z будет последним. В этом случае Красные скорее всего решат переходить границу в районе X, где защита Синих наименее эффективна. В этом и заключается опасность провала рефлексивного управления.
Зададим вопрос, могут ли Синие хотя бы частично застраховаться от провала своего трюка? Да, могут. Предположим, вместо Ti Синие используют такой трюк Тj, что если Красные примут эту информацию, их порядок предпочтения будет Z >j X >j Y. Тогда, если трюк сработает, террористы будут пытаться перейти границу в районе Z, как и раньше, что является самым лучшим для Синих. Но если трюк провалится, порядок предпочтения Красных Aj будет Y Bj X Bj Z , и они решат переходить границу в Y, что не является самым неблагоприятным для Синих. Таким образом, Синие избежали самого плохого варианта, изменив свой трюк.
Эта идея приложима к любому числу районов. Предположим есть n районов: X1..., Хn . Синие намерены создать защиту D, которая приведет к порядку предпочтений Xn >B Xn-1 >B ... >B X1. Теперь Синие хотят найти такой трюк, что если Красные примут эту информацию, они будут пытаться переходить границу в районе, наиболее благоприятном для Синих, но если Красные заподозрят, что их обманывают, их решение не должно быть слишком плохим для Синих. Синие выбирают такой трюк Тj, что если Красные его принимают, их порядок предпочтения будет совпадать не с порядком предпочтения Синих, а с тем, что можно назвать «ограждающим порядком».
Для описания ограждающего порядка представим себе последовательность из n мест. В исходный момент первое предпочтение находится на 1-м месте, второе – на 2-м и т.д. до n-го предпочтения на n-м месте. Теперь мы ставим Xn на 1-е место, Хn-1 – на n-е место, Хn_2 – на 2-е и Хn_3 на (n-l)-e:
Мы продолжаем эту процедуру до тех пор пока все районы помещены на свои места в ограждающем порядке.
Если Красные примут информацию, заключенную в трюке Тj террористы будут пытаться пересечь границу в районе Xn, самом выгодном для Синих. Но если трюк проваливается, Красные примут решение пересекать границу в районе Хn-1, втором по порядку предпочтения для Синих. Синие успешно «оградили свою ставку».
Для применения идеи ограждения при использовании второй схемы рефлексивного управления, предположим, что Синие решили использовать трюк Тi, который, в случае успеха, приведет к такому порядку предпочтений Красных: Xn >i ... >i X1. На случай провала рефлексивного управления Синие размещают свои силы согласно не этому порядку предпочтений, а используя ограждающий порядок. Для этого мы заполняем места, чередуя районы самого высокого предпочтения Красных и самого низкого. В результате ограждающий порядок Синих AB таков:
Таким образом, если трюк Синих сработает, Красные будут пытаться перейти границу в районе Хn, где у Синих самая сильная защита; в противном случае, Красные выберут район Х1 (первый в своем порядке предпочтений), где Синие разместили вторую по силе защиту.
В приведенном выше анализе мы использовали следующие предположения о внутреннем мире Красных:
1. Красные в состоянии осознать, что их порядок предпочтений навязан им Синими.
2. Это осознание ведет к изменению их порядка предпочтений на противоположный.
3. Красные не осознают, что Синие предусматривают возможность провала рефлексивного управления.
Между понятием рефлексивного управления и теорией информации Шеннона существует ясная связь. Предположим, Синие знают, что у Красных есть n альтернатив (n > 2) и что они установили строгий порядок предпочтений, неизвестный Синим. Существует n! порядков на множестве из n альтернатив, следовательно, неопределенность знания Синих относительно порядка предпочтения альтернатив Красными есть Iog2 n! бит. Предположим теперь, Синие осуществили трюк, но не знают был ли он успешен. Если внутренний мир Красных описывается тремя условиями, приведенными выше, неопределенность знания Синих равна одному биту. Следовательно, в результате рефлексивного управления Синие получили Iog2 (n!/2) бит информации.
В заключение заметим, что описанные методы не могут быть широко применены без специальных предварительных психологических экспериментов.
Army Field Manual (FM 90-2) (1988), Battlefield Deception, Headquarters Department of the Army, Washington, D.C.
Koza, J. R. (1992). Genetic Programming: On the Programming of Computers by Means of Natural Selection, MIT Press, Cambridge, Massachusetts,
Лефевр, В.А. (1965). Основные идеи логики рефлексивных игр. Проблемы инженерной психологии”, изд-во АН СССР, Москва.
Лефевр, В.А. (1966). Элементы логики рефлексивных игр. Проблемы инженерной психологии”, Ленинград, 4.
Lefebvre, V. A. (1977). The Structure of Awareness: Toward a Symbolic Language of Human Reflexion, SAGE, Beverly Hills.
Schubert, F. N . and Kraus (Eds.) (1995). The Wirlwind War, Center of Military History, Washington, D.C.