2.3.2 结果评价与奖励建模阶段