9.3 在多智能体环境中训练策略