| 算法名称 | 每帧检测速度(s) | 参数量(M) | 测试集中的识别准确率 |
| STA-TSN [27] | 0.243178 | 60 | 0.89 |
| STAR-Transformer [29] | 0.565114 | 11 | 0.93 |
| MM-ViT [28] | 0.480212 | 24 | 0.95 |
| Our method | 0.149286 | 5 | 0.97 |