1.2 车间生产调度问题及研究现状_计算智能算法及其生产调度应用-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2　车间生产调度问题及研究现状

1.2.1　车间生产调度问题

加工任务中有明确的工件个数，每个工件有相应的工序，每个工序要经过相应的加工机器，车间生产调度是指在各种约束条件下，完成生产成本、行为情景等一个或多个目标，实现人们对生产调度问题的规划愿景。科学系统的方法论应用到生产调度问题中以后，逐渐形成较为完整的理论体系以及相应的模型和算法，取得了一系列具有理论和应用价值的研究成果，为复杂的生产调度问题提供了解决方案。

工件、加工机器和优化准则是车间生产调度问题的三个基本要素，通常采用三元组α、β、γ进行描述［9］，其中α域表示加工机器环境，通常只包括单一的选项；β域表示加工特征和约束细节，可能包括多个选项，也可能不包括任何选项；γ域表示调度优化的目标，通常只包括一项。α域表示的加工机器环境情况如表1.1所示。

表1.1　加工机器环境

续表

β域表示的加工特征和约束细节情况如表1.2所示。

表1.2　部分加工特征和约束细节

γ域表示的调度优化的目标如表1.3所示。

表1.3　部分调度优化目标

续表

车间生产调度问题一般具有如下特征：

复杂性：生产调度问题通常比较复杂，求解模型多为NP-hard性质的问题，精确解优化方法难以得到令人满意的结果。

动态性：在生产调度过程中，随机工件到达、机器故障、加工时间的不确定等因素都会导致调度问题具有一定的动态不确定性或模糊性。

多约束性：在生产调度过程中，机器的生产能力、工人的作息、产品的完工时间、生产成本等约束条件都会增加问题的求解难度。

多目标性：在进行一项生产任务时，为了获得最佳的经济效益和社会效益，需要用不同的指标来衡量，导致在生产调度问题中会有不同的目标，通常这些目标是相互冲突的。

1.2.2　研究现状

1.车间生产调度问题算法研究现状

生产调度问题受到了工程技术、优化、数学、计算机等领域研究者的共同关注，从调度问题的建模、算法设计和工程应用等多个角度开展了深入的研究。随着经济社会发展和科学技术的进步，新技术结合新时代生产调度问题的特点，涌现出了很多新的生产调度优化方法，从问题解决方法的角度一般可分为运筹学方法、启发式方法和智能优化方法。

将传统的运筹学方法应用到生产调度问题中，比如用动态规划法求解流水车间调度问题的最小加工时间问题［10］，分支定界法求解车间调度问题［11］，以及拉格朗日松弛法［12］和整数规划法［13］求解生产调度问题。启发式方法指人们在解决问题时所采取的一种根据经验规则解决问题的方法，在有限的搜索空间内寻求问题的解决方案，这类方法未必能找到最优解，但可通过建立科学合理的启发式规则，利用启发式函数在多项式时间内找到问题的满意解。比如随机工件到达和机器故障等不确定问题，结合动态车间调度问题模型和启发式算法进行问题求解［14］。在作业车间中受干扰的重调度或动态不确定问题，利用切换调度、无置换和纯置换调度等启发式算法，实现工件的加工时间加权延迟最小的目标［15］。也有研究者基于已输入的重调度中断信息，产生新的时间表并输出它们相关的性能度量，克服了其他重调度方法的缺点［16］。Lodree等［17］针对以最小拖期为优化目标的流水车间调度问题，将多机器问题分解为若干个单机器问题，通过求解单机问题的最优解来获取调度问题的最优解。

研究表明，由于实际工程问题的复杂性、大规模性、不确定性、多约束性、非线性、多极值和建模困难等特点，要寻找最优解非常困难，有工程意义的求解算法是在合理、有限的时间内寻找到近似最优的可行解。因此，基于统计式的全局搜索技术、遗传算法和神经网络等元启发式方法在生产调度领域得到快速发展，引起了国内外研究者的共同关注。

（1）遗传算法求解车间生产调度问题。

遗传算法是一种通过模拟自然进化过程搜索最优解的方法，具备并行性和鲁棒性等特点，被人们广泛应用于组合优化、机器学习、信号处理和自适应控制等领域［18］。基于规则的遗传算法以最小化空闲时间和拖期惩罚为目标，被成功应用于求解工件随机到达、批量可变的最小化延迟问题［19］。Chen等［20］在考虑优先规则的基础上，将基于遗传算法的调度方法成功应用于动态生产系统。马卫民等［21］在典型遗传算法的基础上对算法进行改进，利用改进的多种群遗传算法求解作业车间调度问题，引入移民和升降级等机制提高算法的寻优效率。Rezaeian等［22］结合遗传算法提出了一种新的混合整数线性规划模型，通过实例对遗传算法的性能进行了分析，结果表明在合理的计算时间内具有良好的性能。学者张纪会等研究了双层优化算法的外层工艺路线优化问题［23］，学者刘爱军等用基于自适应遗传算法的多目标柔性动态调度算法解决多目标调度问题［24］。

（2）蚁群算法求解车间生产调度问题。

蚁群算法是一种仿生算法，以信息素作为启发信息，在复杂的组合优化问题中得到广泛应用，具有计算精度高、速度快、易于实现等特点，较早就被用于解决流水车间调度问题。在开放车间和作业车间混合场景下，Blum［25］将作业车间调度问题中的工序映射为对应的工序组，把蚁群算法与其他算法结合构建了混合算法。陈暄等［26］在蚁群算法中采用质量函数和收敛因子来保证信息素更新的有效性，结合蛙跳算法中交叉因子和变异因子来提高局部搜索效率。李燚等［27］设计了改进的蚁群算法，使用一种特定启发式函数，并更改迭代过程中最优解的评价方法后将其用于求解汽车混流装配调度问题。Engin等［28］提出一种基于交叉变异机制的混合蚁群算法求解无等待流水车间调度问题的最大完工时间。对于多阶段混合车间调度问题，Qin等［29］提出了一种两级进化蚁群算法，将原问题分解成两个高度耦合子问题，实验证明了该算法在计算时间和稳定性方面的优越性。

（3）粒子群算法求解车间生产调度问题。

粒子群算法源于对鸟群等动物群体行为规律的研究，具有典型的群体智能特性，粒子群算法提出以后在生产调度领域得到了广泛的应用。Pan等［30］在完工时间和总流经时间等多目标的流水车间调度问题中，通过离散的粒子群算法和邻域搜索算法有效提高了解的质量。Eddaly等［31］应用粒子群算法求解具有阻塞约束的流水车间调度问题。韩文民等［32］结合混合离散粒子群算法形成新的重调度决策方法，并用于解决重调度非线性整数规划问题。李振等［33］通过在粒子的位置更新公式中加入创新因子，使之获得了更好的探索能力，增强了种群在进化过程中的多样性，提高了算法的全局搜索能力。顾文斌等［34］针对相同并行机混合流水车间调度问题，提出一种基于激素调节机制的改进粒子群算法，用于求解并行机混合流水车间调度问题，并验证了所提算法的优越性。吕媛媛等［35］针对多目标混合多处理任务作业车间调度问题，以最小化最大完工时间和最小化总拖延时间为目标建立双目标问题模型，提出一种新的改进多目标粒子群算法对其求解。该算法以IPOX交叉和多轮变异策略更新粒子，根据动态邻域思想设计新的外部种群寻优机制寻找每一代较优解，结合个体拥挤距离删减并维护外部种群。结果表明，该算法在选取邻域粒子数量为2时求解效果最好，并且通过与NSGA-Ⅱ算法进行对比，验证了算法的有效性。

（4）其他元启发式算法求解车间生产调度问题。

袁帅鹏等［36、37］针对两阶段流水车间成组调度问题，在同时考虑序列不相关准备时间和阶段间双向运输时间约束的情况下，以最小化最大完工时间为目标建立了混合整数线性规划模型，结合问题特征提出一种协同进化迭代贪婪算法。算法将工件组之间排序和各工件组内部的工件排序两个子问题进行统一编码，设计了不同的启发式规则产生问题的初始解，并提出一种协同导向迭代贪婪规则对两个子问题进行联合优化，进而给出了问题的三个下界以评估算法的性能。通过不同规模的数据实验和与对比算法的比较分析，验证了所提算法的高效性和稳健性。张源等［38］针对混合流水车间调度问题，以最小化最大完工时间为目标函数建立了仿真优化模型，并提出了一种改进差分进化算法进行求解，将算法结合反向学习策略生成初始种群，在差分进化中进一步引入自适应差分因子，并在个体选择机制中引入模拟退火算法的Metropolis准则，有效提高了该算法的全局搜索能力。黎阳等［39］为解决大规模（工件数＞100）置换流水车间调度问题，提出一种改进的模拟退火算法，改进了初始退火温度的设置，给出相应的计算函数；采用基于概率的多策略协同搜索生成新解，并引入并行搜索和记忆功能概念，以提升大规模问题下解的质量，以及把发动机连杆部件实际制造车间等作为数值和工程案例，对算法进行了性能验证，表明了所提方法的有效性。

（5）神经网络和深度学习求解车间生产调度问题。

深度学习源于人工神经网络，其模型通常由多层非线性运算单元组合而成，将原始样本数据作为输入，将低层的输出作为更高一层的输入来学习数据的抽象特征。深度学习通过监督学习或非监督学习的方式进行训练，其中监督学习是通过外部带标注的训练集进行学习，而非监督学习是通过训练来寻找未标注数据中的隐含结构。本书的深度学习特指通过非线性神经网络进行函数或曲面的逼近，以端到端的方式进行特征学习，取代了手工标注特征的传统方法，通过多层神经网络来识别数据间的关系，学习到的特征具有更强的泛化能力；同时，为了能够充分利用相关先验知识，提升深度学习对中间特征层的高层语义表达能力，将深度学习方法与知识引导模型进行结合，可以构建更加有效的深度学习机制［40］。

2016年3月，DeepMind公司研发的以深度学习等技术为核心的围棋程序AlphaGo以4∶1的成绩战胜围棋世界冠军李世石［41］；2017年5月，围棋程序AlphaGo Master以3∶0的成绩战胜世界围棋冠军柯洁。在16万个围棋棋谱基础上，它通过学习获得的围棋能力已超过人类职业围棋顶尖水平。此后，DeepMind公司发布以强化学习为核心技术的新围棋程序AlphaGo Zero［42］，在给定规则的情况下，不依靠人类棋谱，仅通过强化学习等技术进行自我对弈学习，自主学会围棋中的高级概念和博弈技巧，经过3天的训练，以100∶0的成绩战胜AlphaGo版本；经过40天的训练，成功击败了AlphaGo Master版本。

2006年，Hinton等［43］提出先通过非监督学习方式对网络进行逐层贪婪预训练，再通过监督学习方式对整个网络进行微调的基本训练原则，这种新颖的方法在很大程度上降低了神经网络的优化难度。Azadeh等［44］提出一种离散事件模拟与人工神经网络相结合的元模型，利用神经网络的反向传播机制成功求解调度问题的最大完工时间。有学者利用神经网络对现有基准问题最优解提取特征知识，再通过训练好的神经网络对新的调度问题预测序列位置信息，经验证对更大规模的调度问题同样有效［45、46］。Sim等［47］将神经网络用于调度规则实时选择，根据当前系统状态和车间工况参数选择最合适的调度规则，通过仿真优化确定了神经网络参数，结果表明神经网络能够动态选择有效的调度规则。Adibi等［48］在事件驱动的策略重新调度问题中，由可变邻域搜索响应动态事件触发，将目标函数作为多目标绩效测度来训练神经网络，再利用训练好的人工神经网络更新变邻域搜索参数，也得到了令人满意的结果。Zhou等［49］结合深度学习提出一种工件调度系统，使用一种简单的贪婪机制定期对全部工件完成调度排序。

（6）强化学习算法求解车间生产调度问题。

强化学习通过与环境交互获得反馈信号，其目的是最大化奖励信号。因此，一般将强化学习理解为监督学习和非监督学习之外的第三种机器学习方式。需要在学习过程中权衡“探索”和“开发”之间的关系，智能体根据信号采取相应的动作，在交互中逐步改进策略，以获得最大的累积奖励。

强化学习通过马尔可夫决策过程对序贯决策问题进行建模，通过与环境不断交互试错来实现状态到动作的映射［50］。Zhang等［51］利用平均奖励强化学习方法求解平行机调度问题。Gabel等［52］将作业车间调度问题理解为顺序决策问题，提出了一种使用少量实值参数的调度表示方法，使用策略梯度强化学习来调整算法参数以提高策略的性能。崔建双等［53］提出了一种基于Q-learning的超启发式模型求解多模式资源约束项目调度问题，结果表明算法在目标值、通用性、鲁棒性等多项性能指标上均表现优异。Aydin等［54］根据模拟环境的实际情况，实时选择最合适的优先级规则，通过改进的强化学习算法对智能体进行训练，使其在学习阶段中作出调度决策。潘燕春等［55］将强化学习算法与其他算法结合用于解决生产调度问题，针对流水车间调度问题设计了一种遗传强化学习算法，引入状态变量和行动变量，把组合优化的排序问题转换成序贯决策问题加以解决。Cunha等［56］提出一种基于机器学习的作业车间调度问题新方法，通过创建一个新的体系结构，将强化学习整合到调度系统中，以强化学习代理解决作业车间调度问题，实验证明了算法可以在极短的时间内高质量地解决任何问题，并接近于最优方法。贺俊杰等［57］针对等效并行机在线调度问题，以加权完工时间和为目标，提出了一种基于长短期记忆近端策略优化强化学习的在线调度方法。作者通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略，进而根据状态信息进行在线调度。

动态调度问题是一类更复杂的生产调度问题，Aissani等［58］提出一种多智能体的动态调度方法用于石油工业，并取得了很好的实验结果。赵也践等［59］提出了一种基于改进Q-learning算法和调度规则的动态调度算法，以“剩余任务紧迫程度”的概念来描述动态调度算法的状态空间；设计了以“松弛越高，惩罚越高”为宗旨的回报函数，通过引入以Softmax函数为主体的动作选择策略来改进传统的Q-learning算法，调度结果明显优于使用单一调度规则以及传统优化算法等常规方法。陈勇等［60］针对大型装备制造企业扰动多、影响大的问题，以元胞机模型为框架构建了多扰动车间生产调度模型，设计了基于设备平均利用率与工件平均流程时间双目标最优的目标函数，采用强化学习算法优化了元胞机的自组织演化规则，建立了基于元胞机与强化学习算法的多扰动车间柔性调度模型，并通过仿真求解验证了算法与模型的有效性与可靠性。Shahrabi等［61］针对动态调度问题，考虑随机工件到达和机器故障等因素，采用强化学习算法来选择重调度的参数，并将参数质量作为强化学习的奖励函数，通过与普通变邻域搜索算法进行对比，实验证明所提方法的有效性。韩忻辰等［62］构建了以各列车在各车站延误时间总和最小为目标函数的高速铁路列车动态调度模式，在此基础上设计了用于与智能体交互的仿性环境，采用Q-learning算法进行求解。最后，通过实例验证了仿性环境的合理性以及Q-learning算法用于高铁动态调度的有效性，为高铁调度员作出优化决策提供了良好的依据。尹爱军等［63］提出一种基于强化学习的改进NSGA-Ⅱ算法，利用强化学习动态优化种群迭代过程中的拆分比例参数以保持多样性，改善算法收敛性能。最后，通过Kacem标准算例进行了仿真实验与性能分析，验证了算法的有效性与优越性。

多智能体强化学习在调度优化问题中也得到了成功的应用。Gronauer等［64］综述了当前多智能体深度强化学习领域的研究进展，列举了多智能体领域独有的挑战，回顾了用来应对这些挑战的方法，讨论了进展和可能的发展方向。Lee等［65］基于单智能体强化学习案例中的实证提出了一种预处理增强的多智能体强化学习算法，使用行为克隆的方式作为预处理神经网络手段，通过求解模型来验证所提方法的有效性，三种场景的实验结果表明，所提出的方法是可行的解决方法，在求解质量和计算时间方面具有一定的优越性。Kim等［66］提出了一个使用多智能体系统和强化学习的智能制造系统，其特点是具有智能体的机器使系统具有决策自主权，与其他系统交互的社交性，以及智能学习动态变化的环境。在该系统中，具有智能代理功能的机器对作业的优先级进行评估，并通过协商进行分配。通过比较提前完工、生产率和延迟调度问题的结果，验证了该系统和调度规则的性能。结果表明分布式人工智能制造系统在动态环境下具有竞争力。

多目标优化调度问题是当前优化调度学科的另一个热点研究方向，袁景凌等［67］针对异构云环境多目标优化调度问题，设计了一种AHP定权的多目标强化学习作业调度方法。首先定义了执行时间、平台运行能耗、成本等多个目标，其中定义服务延迟成本用来描述用户对服务质量的满意程度。其次设计了面向异构资源的多目标调度综合评价方法，该方法利用层次分析法确定了各个目标的权重。最后将该方法引入Q-learning的奖励值计算，使其能反映异构云环境下作业的总体执行情况，并对后续抵达的作业起到良好的经验借鉴作用。实验结果表明本书提出的方法优于大部分对比方法，能较好地优化作业执行效率和保障用户及服务提供商的利益。

（7）深度强化学习算法求解车间生产调度问题。

深度强化学习将深度学习的感知能力和强化学习的决策能力结合起来，为解决复杂的决策问题提供了方法。在围棋、机器人等领域的瞩目成果显示了其强大的学习能力与序贯决策能力。鉴于此，近年来涌现出了多个利用深度强化学习方法解决组合优化问题的新方法，具有求解速度快、模型泛化能力强的优势，为组合优化问题的求解提供了一种全新的思路［68］。较典型的深度强化学习技术框架有深度Q网络（Deep Q-Network，DQN）［69］，其核心思想是利用深度神经网络计算动作值函数，使DQN具有稳定的学习结构。此外，在DQN网络基础上，还有一系列成功的应用，如Prioritized Experience Replay［70］、Double DQN［71］和Dueling Network［72］等。

深度强化学习以通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并通过端对端的学习方式实现从原始输入到输出的直接控制［73］。针对Q值在一定条件下容易震荡和过估计的问题，Chen等［74］提出了一种基于价值函数逼近的深度强化学习集成网络结构，通过降低目标方差来稳定训练过程，从而提高训练效果。黎声益等［75］提出了一种面向设备负荷稳定的智能车间调度方法，通过一个含有深度神经网络调度模型的调度智能体，分析车间生产状态与设备负荷间的相关性，及时输出满足期望目标的调度方案。其所提出的方法在MiniFab半导体生产车间模型中进行了验证，实验验证了其所提出的调度方法能实现对智能车间设备负荷的控制。Elfwing等［76］通过深度强化学习在雅达利2600游戏中获得了人类水平的表现，且表明策略学习方法是取得成功的关键因素。Adamski等［77］对分布式深度强化学习进行了研究，提出了一种可扩展的深度强化学习算法，针对多产品单服务器调度问题构建动态控制策略，以在制品库存和缺货惩罚成本等因素中优化成本函数，得到了合理的动态调度策略。Hubbs等［78］在化工生产调度中，将深度强化学习用于在线动态调度，通过强化学习系统实现调度系统的实时优化。Wang等［79］在动态资源调度中，通过深度强化学习实现了一种新的动态调度方案，以提高自动、高效的优化和端到端服务的可靠性。Shahmardan等［80］基于深度强化学习框架研究了车辆调度问题，将问题构建为一个混合整数规划模型并加以解决。刘冠男等［81］针对救护车动态重定位调度问题，提出了一种基于强化学习的调度策略结构，基于深度Q值网络方法提出了一种考虑多种调度交互因子的算法RedCon-DQN，以在给定环境状态下得到最优的重定位调度策略，最后在模拟器中通过大规模数据实验，验证了模型得到的调度策略相比已有方法的优越性，并分析了在不同时段下调度策略的有效性及其特点。Shi等［82］提出了一种基于深度强化学习的智能调度算法求解自动化生产线的调度问题。崔鹏浩等［83］针对机器劣化过程的多机流水线，基于马尔可夫链构建了流水线瞬态性能评估模型，综合考虑在制品库存成本、缺货惩罚成本和预测性维护成本，以最小化系统总成本为目标，基于马尔可夫决策过程建立了流水线预测性维护决策优化模型，利用深度强化学习算法对问题进行了近似求解，获得了有效的流水线预测性维护策略。Cals等［84］提出了将深度强化学习方法用于决定如何确定订单的处理顺序，以最小化延迟订单的数量，创建了一个深度强化学习解决方案，通过与环境交互学习策略，并通过一个近端策略优化算法解决问题。结果表明，深度强化学习方法可以开发出良好的解决方案，并且在大多数测试案例中比所提出的启发式算法性能更好。

2.启发式调度规则研究现状

研究启发式调度规则对构建调度算法具有重要意义，Baker等［85］较早进行了启发式规则的相关研究，并分析了不同情况下调度规则对调度结果的影响。Gere［86］对调度规则、分配规则、优先规则等进行了定义，明确了这些概念的区别与联系。Ren等［87］对启发式规则的内涵和分类进行了系统的研究，从三个不同方面详细分析了启发式规则在生产调度问题中的应用。王家廞［88］提出了一种新的启发式调度规则，在以拖期时间为评价目标的问题中，该规则优于简单的调度规则。针对敏捷制造调度环境的不确定性、动态性以及混合流水车间调度问题的特点，王芊博等［89］提出一种针对混合流水车间环境的插值排序算法。范华丽等［90］以最小化工件平均加权拖期为调度目标，考虑了加工准备时间的动态作业车间调度问题，用基于遗传规划的方法设计了用于问题求解的调度规则。王成龙等［91］针对复杂大规模动态调度问题提出基于调度规则的求解方法，实验证明了算法的有效性。朱伟［92］、王芳等［93］针对柔性作业车间调度问题，将优先级调度规则和其他算法结合，形成了针对柔性作业车间的调度规则组合。

综合国内外文献可见，智能算法在求解车间生产调度问题中取得了丰硕的研究成果，在调度方案质量和时间效率等方面有很大的优越性。但同时也存在不足之处，比如为了降低求解难度，问题求解中过多的假设使得问题模型与实际的生产环境存在较大差异；数据之间的关键特征及其相互约束关系难以识别和提取，模型未能真正反映调度问题的真实特征。另外，不同智能算法蕴含了不同自然机理，所用知识差别较大，算法的应用范围较小，甚至在同类问题中由于问题规模或参数的不同，解的质量也存在非常大的差异。由以上元启发式方法对车间生产调度或其他类似问题的求解可见：所求解的问题需要建立有效的数学模型，而实际应用中问题的约束因素非常多，只能根据经验选择若干约束因素进行建模，实际上是对问题的一种理想化处理方式，如果考虑更多的约束因素，又会导致问题过于复杂而无法建立模型，这种简化处理方式导致所得到的解决方案只能是问题的近优方案；当要处理的问题规模较大时，计算时间复杂度和空间复杂度呈指数级增长，有时甚至难以收敛；应对动态因素的能力较差，在出现紧急插单、机器故障、客户需求变更等动态因素时，对算法的设计改进方面工作量极大，同时处理结果难以满足实际需求；对分布式调度问题处理能力较差，缺乏成熟的分布式调度问题的模式和思路，调度结果难以满足需要。

因此，还需要结合实际应用，深入挖掘相关领域知识，实现自动识别生产任务的数据特征关系，以达到自主学习和决策的目的。通过深度学习、强化学习和深度强化学习在生产调度中的成功应用可以发现，深度神经网络具有强大的识别感知能力，通过学习工业数据，可以自动识别生产任务和调度方案之间的对应关系，无须人为提取任务特征，使算法具备解决不同类型的生产调度问题的能力。同时，利用强化学习的决策能力，将生产任务作为特殊的序贯决策问题，结合深度学习的感知能力，可以进一步提高算法的性能，扩大应用领域。

通过梳理分析强化学习或深度强化学习解决生产调度问题的成果可以发现，此类方法和元启发式方法相比具有以下优势：强化学习通过智能体与环境进行交互学习得到最优策略，减少了对组合优化问题建模的依赖程度；强化学习方法采用值函数逼近或直接策略搜索的相关算法，可以有效应对问题的高维度困境；强化学习在与环境交互中学习最优策略，可以敏感捕捉到环境的动态因素，具有天然的应对紧急插单、机器故障等动态随机因素的能力；强化学习在与环境交互时可以在线生成并存储样本，因此在不确定环境下处理序列决策问题时对线下样本的依赖程度较低；强化学习具备应对复杂环境的泛化能力，具有更好的适应性和通用性。

可见强化学习在处理序贯决策问题时具有明显的优势，但同时也存在一些问题和困难：强化学习算法的数学理论基础不完善，部分核心算法步骤缺乏严格的数学推理证明；强化学习序列决策中易出现不稳定性、奖励值的稀疏性、离散状态的稀疏性、高维空间中动作的稀疏性，这些因素导致算法容易陷入局部最优，甚至难以收敛；强化学习在求解车间生产调度问题时，算法框架中的状态、奖励值、动作等较难定义，缺少成熟的定义标准，过于依赖专家经验，不当的状态、奖励值、动作定义导致解的质量不稳定，甚至会导致问题求解失败；复杂的多智能体强化学习或分层强化学习在组合优化领域的应用还处于初步探索阶段，现有成果较少。

通过对强化学习求解车间生产调度等组合优化问题的优点和存在问题的分析，立足几种典型的车间生产调度问题，可采用深度强化学习和其他相关算法进行求解：提升马尔可夫决策模型的精准程度，使之更加符合车间生产调度问题的实际情况，具备更好的通用性；探索车间生产调度问题的强化学习算法动作、奖励值、动作等要素的定义方式，降低主观因素的不利影响；基于深度强化学习求解车间生产调度问题，以深度学习、强化学习和深度强化学习等新一代人工智能技术为主，但同时充分利用其他算法的优点，通过成熟的元启发式算法来提高深度强化学习等算法的有效性，弥补其不足；对多智能体强化学习在车间生产调度问题中的应用展开初步探索，在马尔可夫博弈框架下，研究分布式生产调度问题的多智能体强化学习解决方法，考虑智能体的回报函数彼此之间的相互关联性，引入NASH均衡概念并将多智能体学习收敛到均衡点。

1.2 车间生产调度问题及研究现状

1.2.1 车间生产调度问题

1.2.2 研究现状

1.车间生产调度问题算法研究现状

2.启发式调度规则研究现状

1.2　车间生产调度问题及研究现状

1.2.1　车间生产调度问题

1.2.2　研究现状