12.2.3 强化学习与文本生成