算法2:评价网络调优

第一步:选择一个初始权向量 W ^ i k 0 ,它可以产生允许的策略

第二步:当 l = 0 , 1 , 时,计算 e H i l 使用

e H i l = ( W ^ i l ) T ( φ ( ε i k ) φ ( ε i ( k + 1 ) ) ) 1 2 ( ε i k T Q i i ε i k + ( u ^ i k l ) T R i i u ^ i k l + j N i ( u ^ j k l ) T R i j u ^ j k l γ 2 ( w ^ i k l ) T T i i w ^ i k l γ 2 j N i ( w ^ j k l ) T T i j w ^ j k l ) (82)

第三步:我们使用(81)更新权重 W ^ i l + 1

第四步:如果 W ^ i l + 1 W ^ i l ξ ξ 是一个小的实数,停止并输出 W ^ i l ;否则,设置 l = l + 1 ,通过下列两个式子更新控制策略 u ^ i k l 和干扰策略 w ^ i k l ,返回步骤2。

u ^ i k l = ( d i + g i ) R i i 1 B i T V ^ i l ( ε i ( k + 1 ) )

w ^ i k l = 1 γ 2 ( d i + g i ) T i i 1 D i T V ^ i k l ( ε i ( k + 1 ) )