方法

目标函数

奖励

Li’s method

策略梯度算法

易答性

语义连贯性

信息流

Our method

多样化集束搜索

易答性

自评序列训练

语义连贯性

REINFORCE算法

情商