算法:资格迹–梯度算法

1. 输入:K,最大迭代次数M,采样轨迹数N,幕长T,随机项参数r,维度D

2. for n = 0 , 1 , , N 1

3. for i = 0 , 1 , , I 1

4. for t = 0 , 1 , , T 1

1) 从 x 0 i D 开始,根据 ( K t , K ^ t i ) = ( K 0 , , K t 1 , K ^ t i , K t + 1 , , K T 1 ) 采样,

其中 K ^ t i = K t + U t n i U t n i F = r .

2) 记录单幕代价 c ^ t i .

5. 计算资格迹的估计值:

δ ^ t n = { 1 I i = 0 I 1 D r 2 c ^ t i U t i n = 0 λ δ ^ t n 1 + 1 I i = 0 I 1 D r 2 c ^ t i U t i n > 0

6. K n + 1 = K n α δ ^ n