算法1:求解HJI方程的多智能体策略迭代

要求:设 u i k 0 , i = 1 , , N 为任何稳定的初始控制策略。

p = 0 , 1 , ,给定 u i k p , i = 1 , , N

重复p

l = 0 , 1 , ,给定 w i k = 0

重复l

求解 V i ( ε i ( k + 1 ) ( p , l ) ) 使用零和贝尔曼方程

( V i ( p , l ) ( ε i ( k + 1 ) ) ε i ( k + 1 ) ) T ( A ε i k + ( d i + g i ) B i u i k p j N i a i j B j u j k + ( d i + g i ) D i w i k l j N i a i j D j w j k ) + 1 2 ( ε i k T Q i i ε i k + ( u i k p ) T R i i u i k p + j N i u j k T R i j u j k γ 2 ( w i k l ) T T i i w i k l γ 2 j N i w j k T T i j w j k ) = 0 (33)

更新 w i k l + 1

w i k l + 1 = 1 γ 2 ( d i + g i ) T i i 1 D i T V i ( p , l ) ( ε i ( k + 1 ) ) ε i ( k + 1 ) (34)

直到 V i ( ε i ( k + 1 ) ( p , l + 1 ) ) V i ( ε i ( k + 1 ) ( p , l ) ) ε 收敛

结束

更新 u i k p + 1

u i k p + 1 = ( d i + g i ) R i i 1 B i T V i ( p , l ) ( ε i ( k + 1 ) ) ε i ( k + 1 ) (35)

直到 V i ( ε i ( k + 1 ) ( p + 1 , l ) ) V i ( ε i ( k + 1 ) ( p , l ) ) ε 收敛

结束