1.8 研究展望
当前,上述几个方向的研究工作都面临着网络大数据带来的新问题,也就意味着每个方向都有着不少的挑战。面对网络大数据,以下几个方面的研究将是问题的核心。
网络大数据的复杂性度量 网络大数据使人们处理计算问题时获得了前所未有的大规模样本,但同时网络大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象,其典型的特性是类型和模式多样、关联关系繁杂、质量良莠不齐。网络大数据内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战,导致了传统全量数据计算模式下时空维度上计算复杂度的激增,很多传统的数据分析与挖掘任务,如检索、主题发现、语义和情感分析等变得异常困难。然而目前,人们对网络大数据复杂性及其背后的物理意义缺乏理解,对网络大数据的分布与协作关联等规律认识不足,对大数据的复杂性和计算复杂性的内在联系缺乏深刻理解,加上缺少面向领域的大数据处理知识,极大地制约了人们对大数据高效计算模型和方法的设计能力。有鉴于此,如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是一个重要的研究问题。
数据计算需要新模式与新范式 网络大数据的诸多突出特性使得传统的数据分析、数据挖掘、数据处理的方式方法都不再适用。因此,面对网络大数据,需要有数据密集型计算的基本模式和新型的计算范式,需要提出数据计算的效率评估方法等基本理论。由于数据体量太大,甚至有的数据本身就以分布式的形式存在,难以集中起来处理,因此对于网络大数据的计算需要从中心化的、自顶向下的模式转为去中心化的、自底向上的、自组织的计算模式。而且,网络大数据来自于数量众多的网络用户。由于人为因素的随机性,网络大数据常常具有很高的噪声,同时也富含着冗余数据,甚至是垃圾数据。因此,面对网络大数据,去芜存精、化繁为简可能是必要的处理范式之一。另外,面对网络大数据将形成基于数据的智能,可能需要寻找类似“数据的体量+简单的逻辑”的方法去解决复杂问题。
新型的IT基础架构 网络大数据对于系统,无论是存储系统、传输系统还是计算系统都提出了很多苛刻的要求,现有的数据中心技术很难满足网络大数据的需求。因此,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构,不仅满足scale-up式的可扩展性,而且还能满足scale-out式的可扩展性,已成为IT系统的关键。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。此外,网络大数据平台(包括计算平台、传输平台、存储平台等)是网络大数据技术链条中的瓶颈,特别是网络大数据的高速传输,需要革命性的新技术。
数据的安全和隐私问题 数据有价值,有价值就可能产生争夺和侵害。只要有数据,就必然存在安全与隐私的问题。随着数据的增多,网络大数据面临着重大的风险和威胁,需要遵守更多、更合理的规定,传统的数据保护方法无法满足这一要求。因此,面对网络大数据的安全与隐私保护,有大量的挑战急需得到解决,具体包括:数据计算伦理学、数据密码学、分布式编程框架中的安全计算、远程数据计算的可信任度、数据存储和日志管理的安全性、基于隐私和商业利益保护的数据挖掘与分析、强制的访问控制和安全通信、多粒度访问控制以及数据来源和数据通道的可信等。
开放网络知识计算 面对复杂关联、动态变化、来源多样的网络知识,如何保证开放网络知识的有效模型表示是一个重要基础,它应该支持对开放网络知识自适应的感知、增量的更新、自动或半自动的新知识抽取等,并具有较为完备的基础理论支撑。同时,从应用角度,开放网络知识计算需要建立一套算子体系,实现面向领域的开放网络知识库的快速构建,并更好地支持处理知识演化、多源知识融合、隐性知识推断和时序知识预测等一系列问题的解决。