方法
目标函数
奖励
Li’s method
策略梯度算法
易答性
语义连贯性
信息流
Our method
多样化集束搜索
易答性
自评序列训练
语义连贯性
REINFORCE算法
情商