1.3 大数据分析和流程工业智能制造
目前,业界对大数据还没有统一的定义,常见的大数据定义如下。
“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。”
—麦肯锡
“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。”
—维基百科
“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”
—Gartner
大数据具备4V特征,即数据体量巨大、处理速度快、数据类型繁多和价值密度低。
Volume:表示数据体量巨大。数据集合的规模不断扩大,从GB级、TB级到PB级,甚至现在开始以 EB 和 ZB 来计量。例如,一个中型城市的视频监控头每天就能产生几十TB的数据。
Variety:表示大数据类型复杂。以往产生或处理的数据类型较为单一,大部分是结构化数据。而如今社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生了大量半结构化或非结构化数据,如XML、邮件、博客、即时消息等,导致新数据类型剧增。企业需要整合并分析来自传统和非传统信息源的复杂数据,包括企业内部和外部的数据。
Velocity:表示大数据产生、处理和分析的速度在持续加快。加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快,处理模式已经开始从批处理转向流处理。
Value:表示大数据价值密度低。大数据由于体量不断增大,单位数据的价值密度在不断降低,但数据的整体价值在提高。以监控视频为例,在1小时的视频中,有用的数据可能只有一两秒,但它往往非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据中蕴含了无限的商业价值。通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。
1.3.1 大数据的内涵
近年来,信息技术迅猛发展,尤其是以互联网、物联网、信息获取、社交网络等为代表的技术日新月异,促使虚拟网络快速发展,现实世界快速虚拟化,数据的来源及数量正以前所未有的速度增长。
伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业的数字化转型,数据量呈现几何级数增长。若以现有的蓝光光盘为计量标准,那么将 40ZB 数据全部存入蓝光光盘,所需要的光盘质量将达到424艘尼米兹号航母的质量。而在这些数据中,约80%是非结构化或半结构化数据,甚至有一部分是不断变化的流数据。数据的爆炸性增长态势及其构成特点使得人们进入“大数据”时代。
如今,大数据已经被赋予多重战略意义。从资源的角度,大数据被视为“未来的石油”,被作为战略性资产进行管理。从国家治理的角度,大数据被用来提升治理效率,重构治理模式,破解治理难题,它将掀起一场国家治理革命。从经济增长的角度,大数据是全球经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分。从国家安全的角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。总之,国家竞争焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数据强国与数据弱国。这一点,和阿尔文·托夫勒在《力量的转移》一书中的观点是一致的。
从宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略响应,将大数据置于核心位置,推出国家级创新战略计划。美国于 2012 年发布《大数据研究和发展计划》,并成立“大数据高级指导小组”;2013年又推出“数据—知识—行动”计划;2014 年进一步发布《大数据:把握机遇,维护价值》政策报告,启动“公开数据行动”,陆续公开50个门类的政府数据,鼓励商业部门进行开发和创新。欧盟正在力推《数据价值链战略计划》。英国发布了《英国数据能力发展战略规划》。日本发布了《创建最尖端IT国家宣言》。韩国提出了“大数据中心战略”。中国多个省市发布了大数据发展战略,国家层面的《关于促进大数据发展的行动纲要》也于2015年8月19日正式通过。
从微观上看,大数据重塑了企业的发展战略和转型方向。美国企业以GE 提出的“工业互联网”为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有的生产体系,构成一个“以数据为核心”的智能化产业生态系统。德国企业以“工业4.0”为代表,将通过信息物理系统把机器、物品、人、服务、建筑连接起来,形成一个高度整合的生产系统。中国企业以阿里巴巴提出的“DT时代”为代表,认为未来驱动发展的不再是石油、钢铁,而是数据。这3种新的发展理念可谓异曲同工,共同宣告“数据驱动发展”成为时代主题。
1.3.2 大数据和人工智能的关系
有人可能会问,既然人工神经网络的第一个实验在20世纪50年代就完成了,那为什么基于深度学习的人工智能直到最近才被认为是关键技术?基于深度学习的人工智能和大数据分析是什么关系?
实际上,20世纪90年代,深度学习就被成功用于商业应用。但其通常被视为一种只有专家才可以使用的艺术,而不是一种技术,这种观点一直持续到最近。要使一个深度学习算法获得良好的性能确实需要一些技巧。幸运的是,随着训练数据的增加,所需的技巧正在减少。目前用于解决复杂的任务而达到人类水平的机器学习算法,与20世纪80年代解决玩具问题(Toy Problem)的学习算法几乎是一样的,尽管使用这些算法训练的模型经历了变革,即简化了深度学习神经网络的训练过程。最重要的新进展是现在有了这些算法成功训练所需的资源,数据集的规模随着时间的推移而显著增大,这种趋势是由社会日益数字化驱动的。由于人们的生产经营活动越来越多地发生在计算机上,人们做什么也越来越多地被记录下来,并且联网的计算机越来越多,使这些记录变得更容易集中管理,并且更容易将它们整理成适于机器学习应用的数据集。
因为统计估计的主要负担(观察少量数据以在新数据上泛化)已经减轻,所以“大数据”时代的机器学习变得更加容易。截至 2016 年,一个粗略的经验法则是,监督深度学习算法在每类给定约5 000个标注样本的情况下一般能达到可以接受的性能,当将至少有1 000 万个标注样本的数据集用于训练时,它将达到或超过人类的表现。此外,在更小的数据集上获得成功是一个重要的研究领域,为此应特别侧重于如何通过无监督或半监督学习充分利用大量的未标注样本。
20世纪80年代,神经网络只能取得相对较小的成功,而现在神经网络非常成功的一个重要原因是现在拥有的计算资源可以运行更大的模型。联结主义的主要观点之一是,当动物的许多神经元一起工作时会变得聪明,但单独的神经元或小集合的神经元不是特别有用。几十年来,机器学习模型中每个神经元的连接数量已经与哺乳动物的大脑在同一数量级上。
自从引入隐藏单元以来,人工神经网络的规模大约每 2.4 年扩大一倍,这种增长是由更大的内存、更快的计算机和更大的可用数据集驱动的。更大的网络能够在更复杂的任务中实现更高的精度,这种趋势将持续数十年。当然,除非有能力迅速开发新技术,否则至少要到21世纪50年代,人工神经网络才能具备与人脑相同数量级的神经元。
尽管现在的网络从计算系统的角度来看是相当大的,但实际上它比相对原始的脊椎动物如青蛙的神经系统还要小。由于更快的 CPU 和通用 GPU、更快的网络连接和更好的分布式计算等软件基础设施的出现,模型规模随着时间的推移不断增大是深度学习最重要的发展趋势之一,人们普遍预计这种趋势将很好地持续到未来。
1.3.3 工业大数据与流程工业智能制造
1.工业大数据
工业大数据从来源上主要分为管理系统数据、生产系统数据和外部数据三类。
(1)管理系统数据是指传统工业自动控制与信息系统中产生的数据,如产品生命周期管理(PLM)、企业资源计划(ERP)、生产执行系统、供应链管理(SCM)和客户关系管理(CRM)等企业信息系统。这些系统中积累的产品研发数据、生产制造数据、物流供应数据及客户服务数据,存在于企业或产业链内部,是工业领域传统数据资产。
(2)生产系统数据是来源于工业生产线设备、机器、产品等方面的数据,多由传感器、设备仪器仪表进行采集。近年来,物联网技术快速发展,机器设备数据成为工业大数据增长最快的来源,通常是实时自动采集的生产设备和交付产品的状态与工况数据。一方面,机床等生产设备物联网数据为智能工厂生产调度、质量控制和绩效管理提供了实时数据;另一方面,由传感器采集的大规模时间序列数据,包括装备状态参数、工况负载和作业环境等信息,可以帮助用户提高装备运行效率,拓展制造服务。
(3)外部数据是指来源于工厂外部的数据,主要包括来自互联网的市场、环境、客户、政府、供应链等外部环境的信息和数据。当前互联网与工业深度融合,企业外部互联网已成为工业大数据不可忽视的来源。例如,小米手机利用社交媒体数据成功地实现产品创新研发。此外,外部互联网中还存在着海量的“跨界”数据,如影响装备作业的气象数据、影响产品市场预测的宏观经济数据、影响企业生产成本的环境法规数据等。
与一般工业企业相比,流程工业大数据来源更为复杂。以炼油化工行业大数据为例,一方面来自原料、中间产品、成品的物性分析,另一方面来自中间控制过程和生产管理过程。单就原料中的原油而言,每种原油的详细评价数据就多达两三百个。生产过程则更为复杂,各种不同类型的数据来自分布于炼油化工装置现场的各类检测仪器,如何对这些多源数据进行分析、处理和存储,成为炼油化工大数据应用面临的首要问题。
2.流程工业智能制造
与一般意义上的智能制造相比,流程工业智能制造必须解决以下几方面的技术创新,而工业大数据在其中扮演着核心角色。
1)生产全流程一体化控制
流程工业综合自动化是采用自动化技术,以计算机和网络技术为手段,将生产过程的生产工艺技术、设备运行技术和生产过程管理技术进行集成,实现生产过程的控制、运行、管理的优化集成,从而实现管理的扁平化与精细化,以及与产品质量、产量、成本、消耗相关的综合生产指标的优化控制。因此,需要从总体上创新生产全流程一体化控制的体系结构、设计技术、集成技术和实现技术。
主要内容包括:
● 生产全流程一体化过程控制系统的模型体系、模型结构与建模;
● 大数据、机理分析和知识驱动的复杂工业过程整体优化控制;
● 生产制造全流程运行优化控制;
● 全流程运行优化控制和企业生产与运作管理的优化集成;
● 综合自动化系统的半实物仿真系统的研制与仿真;
● 综合自动化系统的体系结构、设计方法和实现技术。
2)企业生产与运作管理中的建模与优化决策
生产管理与经营决策是综合自动化的一项核心内容。“管理与决策”将设备级的底层自动化系统与企业面临的产品、原料两个市场联系起来,使企业成为一个“资源配置合理、物料流动有序、生产井井有条”的有机整体,在整个综合自动化系统中起着“提纲挈领”的作用。
主要包括:
● 大数据和模型相融合的多目标非线性智能优化;
● 企业运作管理中的建模与优化决策;
● 流程工业生产计划调度和物流与供应链计划调度中的建模与优化理论和技术;
● 流程工业一体化计划调度;
● 制造执行系统的体系结构、设计方法与实现技术;
● 企业资源计划系统的体系结构、设计方法与实现技术。
3)具有综合复杂性的工业过程混合智能建模与控制
主要包括:
● 复杂工业过程混合智能建模;
● 非线性鲁棒自适应控制;
● 多变量智能解耦控制;
● 大数据驱动的具有综合复杂性的工业过程智能控制;
● 复杂工业系统的分析与优化控制;
● 重大耗能设备智能优化控制系统。
4)难测工艺参数与生产指标的软测量与检测技术及装置
流程工业工艺参数与生产指标是确保生产全流程安全、可靠、高效运行的关键参数与指标。其检测、监控、分析、测试技术和装置是综合自动化系统的“神经中枢”。
主要包括:
● 黑体空腔辐射测温理论及其钢水、板坯测温;
● 气力输送粉体流动参数检测;
● 高精度固液相混合流体流量检测;
● 管道破损内检测与实时泄漏检测定位;
● 难测工艺参数与性能指标的软测量;
● 与生产过程质量、效率、能耗、物耗相关的生产指标在线检测。
5)生产过程的运行工况故障预测、诊断与自愈控制
生产过程的故障诊断与安全运行技术是大型生产制造装备安全、可靠运行的前提,是保证生产制造全流程优化运行的关键技术,也是综合自动化系统正常运行的保障。其涉及的理论与方法是对已有的以控制器、执行机构和检测装置为对象的故障诊断与容错控制方法的挑战。
主要包括:
● 复杂工业过程的监控;
● 模型与大数据驱动的复杂工业过程运行工况的故障预报、诊断与自愈控制;
● 生产过程全流程控制与管理决策中的故障诊断、预报与安全运行控制;
● 工业过程故障诊断与安全运行系统的体系结构、设计方法与实现技术。
流程工业基本是连续化生产和自动化控制,在生产领域从20世纪70年代开始就可由计算机集散控制系统(DCS)采集用于过程控制与设备状态监控的传感器数据,主要是各种物料的连续物理化学状态信息,还有部分在线分析的物料组成信息。所以,流程工业的数据基础非常好,数据存储量高于其他行业,而且增速远高于其他行业。另外,流程工业在企业经营领域普遍建设了大量企业信息系统,包括传统工业设计和制造类软件、企业资源计划、产品生命周期管理、供应链管理、客户关系管理和环境管理等系统,通过这些企业信息系统已积累大量的产品研发数据、生产性数据、经营性数据、客户信息数据、物流供应数据和环境数据。
流程工业大数据具有数据量大、类型多样、存储格式复杂及数据分散等特点。必须通过大数据技术的创新与应用,帮助流程工业应对节能、新能源发展、两化融合等方面的挑战。
首先,大数据为流程工业决策管理提供了手段。可通过语义分析技术和元搜索引擎,完成相关信息采集,并对数据进行存储、检索和智能分析,从数据深度关联、可视化查询、数据报告等方面,为企业实现决策和生产管理智能化提供数据支持。
其次,大数据积累和大数据分析是流程工业生产稳定运行的保障。对流程工业的海量历史数据进行深层分析挖掘,有望快速获取有价值的信息,形成可供推广的生产操作指导方案和风险评估技术,开创应用大数据技术解决装置生产问题的新途径。另外,可将远程在线监测及故障诊断系统升级为远程工业智能服务平台,把各类动设备、静设备、仪表、备件的参数、振动、工艺信号等数据纳入其中,应用大数据关联分析技术,预测检修,保证不发生事故、少发生事故,提高装置的在线率。
再次,大数据是流程工业取得经济效益的重要手段。通过掌握大数据的用法,寻找有效数据用于生产优化,并通过分析重点数据寻求生产规律,实现生产优化,并降低能耗。
最后,大数据是提升流程工业安全管控水平的手段。