输入:带有特权信息的图像集

输出:

1:根据公式(2)和(3)初始化包的标签

2:将文本和图像划分成两个视角

3:初始化

4:让t = 0

5:重复步骤6至19

6:t = t + 1

7:对于A视角和B视角中的每个正包,重复步骤8至18