1.3 研究内容及目标
1.3.1 研究内容
本书致力于深入理解深度强化学习的运行机制,研究车间生产问题的内在特征,将深度强化学习和其他技术用于求解流水车间调度、作业车间调度、多目标车间调度和分布式车间调度等问题。
本书的主要内容包括三个部分:
第一部分由第1、2、3、4、5章组成,主要介绍本书的研究背景、研究现状、研究目标、研究内容和技术路线,以及深度学习、强化学习和深度强化学习的基本理论,内容在节次安排上有较强的逻辑关系。首先,介绍了新一代人工智能与生产制造的关系,论述了新一代人工智能技术用于生产制造领域的可行性和必要性,详细介绍了前馈神经网络、卷积神经网络和循环神经网络三种典型的神经网络模型。在深度神经网络基础上,介绍了基于深度卷积神经网络的深度学习、基于深度稀疏自编码器的深度学习和基于核函数方法的深度学习三种典型框架。其次,介绍了强化学习相关内容,包括马尔可夫决策过程、值迭代、策略迭代等内容。最后介绍了深度强化学习,包括深度强化学习的基本原理,深度强化学习与深度学习和强化学习之间的联系和区别,并介绍了当前主要的深度强化学习方法。
第二部分是本书的核心部分,由第6、7、8、9、10共五章组成,详细介绍本书的主要内容。
第6章研究了基于监督学习的两种序列模型求解作业车间调度问题。首先,设计了以长短期记忆神经网络为主框架,同时嵌入指针网络和条件随机场的模型,然后利用析取图来描述作业车间调度问题和相应的可行解,通过实际问题提取样本,并利用启发式调度规则构建样本标签。将作业车间调度问题理解为一类特殊的序列决策问题,采用长短期记忆网络为主框架来学习工件之间的特征映射关系并确定调度规则,进而得到工件的优先级。其次,在自注意力机制和多头自注意力机制的基础上,设计模型对作业车间调度问题进行求解,模型的编码组件和解码组件分别由多个同结构的编码器和多个同结构的解码器组成,可以根据实际需要加深模型层次,并通过自注意力机制的并行能力提升模型训练效率。本章内容为后续通过深度强化学习求解相关生产调度问题提供了支撑。
第7章研究了基于值函数的深度强化学习方法求解流水车间调度问题。分析了流水车间调度问题的状态、动作和值函数的表达方式,通过工件的时间特征和加工机器的负载状况来构建强化学习局部和全局状态特征。将特定状态下对应的调度规则作为动作,并训练神经网络来完成状态与动作的映射关系,将流水车间调度问题的最大完工时间问题转化为相当的机器空闲时间最小问题来构建奖励值函数。通过训练得到有监督学习网络的初始权重,构建深度神经网络来逼近强化学习值函数,实验结果表明以基于值函数的强化学习方法解决生产调度问题的有效性。本章内容承接了第6章的理论和技术支撑,同时为后续基于策略梯度的深度强化学习方法求解生产调度问题提供了一定的支撑。
第8章研究了以基于策略梯度的深度强化学习算法求解作业车间调度问题。首先分析了基于策略梯度的深度强化学习方法求解作业车间调度问题的可行性,将工序排列空间中不同的序列差异作为即时奖励信号,将生产调度问题的评价目标作为累积奖励值。将长短期记忆网络、指针网络、策略梯度优化应用到作业车间调度问题上,借助长短期记忆网络的长程记忆能力有效收集工件之间的特征和相互依赖关系,通过指针网络确定当前状态下工件的优先级概率分布,并形成有效的调度序列。为了提高算法的求解质量,在策略梯度优化中同时构建神经网络来预测相应的基线以降低策略梯度优化的方差。实验结果表明,基于策略梯度的深度强化学习算法具有解决作业车间调度问题的能力,且模型在解决此类问题时具有较好的可复制性。通过第7章和第8章的研究,基于值函数和策略梯度的深度强化学习方法共同构成了深度强化学习求解生产调度问题的理论和技术基础,为应用深度强化学习方法解决更复杂的多目标生产调度问题和分布式生产调度问题提供了支撑。
第9章研究了基于混合Q-learning的多目标车间调度优化问题。在作业车间调度问题背景下,研究了考虑工件运输的生产调度完工时间、拖期时间、能源消耗等多目标的问题,对带精英策略的非支配排序遗传算法的交叉和变异机制进行改进,加入基于N5邻域结构的局部搜索策略,对设计的新的带精英策略的非支配排序遗传算法进行多目标问题求解。在Pareto解的基础上针对能耗目标进一步优化,将加工机器抽象为二维坐标点,设计了强化学习遗传蚁群算法进行求解,利用扫描法求解初始搬运机器人的数量,然后将子路径节点的几何中心设置为虚拟节点,利用嵌入遗传算子的蚁群算法求解连接虚拟节点的最优路径,再利用强化学习算法求解子路径的最优结果。这部分工作进一步拓宽了强化学习的应用场景,实验结果证明了算法求解多目标生产调度问题的有效性。
第10章研究了基于NASH-Q-learning的分布式车间调度问题。在分布式流水车间调度问题背景下,将多智能体强化学习方法作为问题求解模型的主框架,对多智能体强化学习理论进行了梳理。同时,在NASH均衡和NASH-Q-learning的理论框架下,将平均场理论和多智能体结合提出了多智能体车间调度算法,在分布式流水车间调度情境下进行验证。同时,还对迭代贪婪算法进行改进,最后对两种算法的求解结果进行比较,实验证明了所提出的多智能体车间调度强化学习方法求解分布式生产调度问题的有效性。第8章和第9章的研究进一步证实了深度强化学习与其他相关理论和技术结合可以解决更加复杂的生产调度问题。
本书的第三部分由第11章组成,主要是对本书的总结以及对未来研究的展望。
首先,对全书的内容做了总结,对深度强化学习等技术用于求解车间调度问题的方法、思路、建模、算法设计等做了系统梳理,对各种方法的优点做了分析,对深度强化学习技术用于解决复杂组合优化问题的局限性做了总结。其次,针对应用和理论方面存在的不足,阐明了下一步的研究目标和努力方向。
本书的结构框架如图1.2所示。
图1.2 本书框架
1.3.2 研究目标
使用深度学习、强化学习和深度强化学习技术,在深入研究生产调度领域现有成果的基础上,探究车间生产调度问题的规律和特点,借助于新一代人工智能技术和启发式调度规则,对车间生产调度问题进行建模和算法设计,研究深度学习、强化学习和深度强化学习技术的相关理论,并进行补充和完善,构建车间生产调度问题框架下的机器学习方法和理论体系,基于深度强化学习等技术求解生产调度优化问题。
研究基于监督学习的作业车间调度方法,在作业车间调度问题情形下验证基于长短期记忆神经网络框架和注意力机制的序列模型有效性,并为后续以深度强化学习算法求解生产调度问题提供理论和技术支撑。
研究以基于值函数和策略梯度的深度强化学习方法解决车间生产调度问题,并在相应的车间调度问题情形下验证方法的有效性,并为后续综合应用深度强化学习求解多目标和分布式调度问题提供理论和技术支撑。
研究强化学习与其他启发式智能算法结合的新算法求解多目标车间调度相关问题,并通过实验验证算法的有效性。
研究以基于深度强化学习和NASH均衡理论的新算法求解分布式车间调度问题,通过实验验证算法的有效性,进一步拓宽深度强化学习算法的应用范围。