算法2:评价网络调优
第一步:选择一个初始权向量 W ^ i k 0 ,它可以产生允许的策略
第二步:当 l = 0 , 1 , ⋯ 时,计算 e H i l 使用
e H i l = ( W ^ i l ) T ( φ ( ε i k ) − φ ( ε i ( k + 1 ) ) ) − 1 2 ( ε i k T Q i i ε i k + ( u ^ i k l ) T R i i u ^ i k l + ∑ j ∈ N i ( u ^ j k l ) T R i j u ^ j k l − γ 2 ( w ^ i k l ) T T i i w ^ i k l − γ 2 ∑ j ∈ N i ( w ^ j k l ) T T i j w ^ j k l ) (82)
第三步:我们使用(81)更新权重 W ^ i l + 1 。
第四步:如果 ‖ W ^ i l + 1 − W ^ i l ‖ ≤ ξ , ξ 是一个小的实数,停止并输出 W ^ i l ;否则,设置 l = l + 1 ,通过下列两个式子更新控制策略 u ^ i k l 和干扰策略 w ^ i k l ,返回步骤2。
u ^ i k l = − ( d i + g i ) R i i − 1 B i T ∇ V ^ i l ( ε i ( k + 1 ) )
w ^ i k l = 1 γ 2 ( d i + g i ) T i i − 1 D i T ∇ V ^ i k l ( ε i ( k + 1 ) )