输入：带有特权信息的图像集

输出：

1：根据公式(2)和(3)初始化包的标签

2：将文本和图像划分成两个视角

3：初始化

4：让t = 0

5：重复步骤6至19

6：t = t + 1

7：对于A视角和B视角中的每个正包，重复步骤8至18