算法1:求解HJI方程的多智能体策略迭代
要求:设 u i k 0 , ∀ i = 1 , ⋯ , N 为任何稳定的初始控制策略。
p = 0 , 1 , ⋯ ,给定 u i k p , ∀ i = 1 , ⋯ , N
重复p
l = 0 , 1 , ⋯ ,给定 w i k = 0
重复l
求解 V i ( ε i ( k + 1 ) ( p , l ) ) 使用零和贝尔曼方程
( ∂ V i ( p , l ) ( ε i ( k + 1 ) ) ∂ ε i ( k + 1 ) ) T ( A ε i k + ( d i + g i ) B i u i k p − ∑ j ∈ N i a i j B j u j k + ( d i + g i ) D i w i k l − ∑ j ∈ N i a i j D j w j k ) + 1 2 ( ε i k T Q i i ε i k + ( u i k p ) T R i i u i k p + ∑ j ∈ N i u j k T R i j u j k − γ 2 ( w i k l ) T T i i w i k l − γ 2 ∑ j ∈ N i w j k T T i j w j k ) = 0 (33)
更新 w i k l + 1
w i k l + 1 = 1 γ 2 ( d i + g i ) T i i − 1 D i T ∂ V i ( p , l ) ( ε i ( k + 1 ) ) ∂ ε i ( k + 1 ) (34)
直到 ‖ V i ( ε i ( k + 1 ) ( p , l + 1 ) ) − V i ( ε i ( k + 1 ) ( p , l ) ) ‖ ≤ ε 收敛
结束
更新 u i k p + 1
u i k p + 1 = − ( d i + g i ) R i i − 1 B i T ∂ V i ( p , l ) ( ε i ( k + 1 ) ) ∂ ε i ( k + 1 ) (35)
直到 ‖ V i ( ε i ( k + 1 ) ( p + 1 , l ) ) − V i ( ε i ( k + 1 ) ( p , l ) ) ‖ ≤ ε 收敛