输入:带有特权信息的图像集
输出:
1:根据公式(2)和(3)初始化包的标签
2:将文本和图像划分成两个视角
3:初始化
4:让t = 0
5:重复步骤6至19
6:t = t + 1
7:对于A视角和B视角中的每个正包,重复步骤8至18