1.7 企业如何迎接大数据
大数据问题不单单发生在互联网等新的事物的数据上,有很多问题发生在企业的传统应用所产生的数据上。随着数据量的增长,现有的IT架构慢慢地不能满足其要求。也就是说,大数据一半是新的业务,另外一半是解决传统业务的性能问题和管理数据的成本问题。比如,中国移动的某个阅读基地,在数据库上的数据为几百亿行,单表在10亿行左右。这使得数据库系统经常接近崩溃的边缘,技术人员把大多数时间放在系统管理和维护上。从2014年开始,中国移动的阅读基地把数据系统移向Hadoop系统,从而彻底解决了大数据量所引起的问题。
大数据新的应用是一个补充,是一个创新应用,而不是去替换传统的应用。如今的数据是多种数据的混合体,它不能事先预知数据的格式和形态。实际上很多的数据可能不是由企业本身所拥有的,而是从外部收集或购买,这样的话,传统的应用就施展不开了。
大数据不应该只是IT部门的事情,而是全公司协同作战的事情。管理层可以从大数据中获得洞察做决策,运营部门可以根据数据分析结果来改善运营策略,市场部门可以从数据分析中来优化广告投放策略,甚至是客服部门也可以从数据分析结果中来优化自己的工作,更别提销售部门了,他们更需要大数据的支持。
大数据是个机遇,也是个挑战,它是一个用传统的技术方法无法解决的数据问题,这对于企业来说是一个挑战。企业要迅速接受大数据的概念,这不单单是从解决现有的IT问题的角度考虑,更多的应该从未来的新的利润增长点和新的竞争点的角度来考虑,应该采用非常积极的态度。企业要认识到大数据不是在现有架构上新增应用,而是彻底改变现有架构。实施大数据前确定每一步的投资规模,设立里程碑和阶段目标,了解其技术和商业不成熟性可能带来的失误和风险,避免陷入厂商的炒作陷阱。从IT部门的角度来看,数据的价值应该说是由业务部门来决定的,所以必须要充分了解业务的需求。
关于大数据,企业首先应该考虑的问题不是这些数据能为我赚多少钱,而是如果我不去整合内部和外部的数据、存储数据、分析数据,那么未来我会失去多少钱?我会比竞争对手落后多少?数据的整合不是一朝一夕的事情,而是需要经过一段时间的累积。有些数据是需要从其他渠道拿到。整合数据和数据分析本身就不是先有鸡还是先有蛋的问题,而是你不养鸡,你肯定就不会有蛋。在未来的竞争格局中,数据往往能发挥先发制人的作用和优势。
1.7.1 评估大数据方案的维度
对于企业而言,构建大数据平台,是个系统性的工程。企业可以选择以增量方式实现大数据解决方案。不是每个分析和报告需求都需要大数据解决方案。随着大数据技术的到来,我们会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了新的业务机会?”“企业IT部门需要掌握哪些技能来理解和分析软件厂商的大数据解决方案?”“现有企业数据和来自外部的数据的复杂性”“哪些维度可帮助评估大数据解决方案的可行性?”。
为了回答上述这些问题,业内专业人士提出了以下多种维度来评估大数据解决方案的可行性。企业应该依据自身业务的特点,为每个维度分配一个权重和优先级。
●数据整合和分析所带来的业务价值。
●数据整合(无论是新来源的数据还是原有数据)后的数据治理考虑。
●企业是否自己拥有大数据技术人员,厂商是否有足够的技术支持人员。
●整个数据量。
●各种各样的数据源、数据类型和数据格式。
●生成数据的速度,需要对它处理的速度。
●数据的真实性,或者数据的不确定性和可信赖性。
1.7.2 业务价值维度
许多企业想知道,大数据产品能否帮助他们找到业务机会。所以,业务价值维度是指通过大数据技术可以为企业获取哪些新业务或者解决哪些现有的问题?这需要确定和识别大数据的业务场景,并给出关键绩效指标。这包括研究竞争对手的行动,知晓客户在寻找什么。表1-1按照行业给出了一些大数据的应用示例。
表1-1 分行业大数据的应用示例
续表
1.7.3 数据维度
数据维度包括数据优先级维度、数据复杂性维度、数据量维度、数据种类维度、数据处理速度和数据可信度。
首先要为企业(或政府部门)的现有数据整理出一个编目(清单),用于识别内部的应用系统中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么就不需要使用来自外部的数据。有些客户有一些归档数据,分析归档数据来获得新的业务价值。在有些时候,包括日志文件、错误文件和来自应用程序的操作数据都是宝贵信息的潜在来源。
其次要确定数据复杂性是否在增长?数据复杂性的增长可能表现在数据量、种类、速度和真实性方面。然后要判断数据量是否已增长?如果满足以下条件,企业可考虑大数据解决方案:
●数据大小达到PB和EB级,而且未来有可能增长到ZB级别。
●数据量给传统系统(比如关系型数据库)的存储、查询、共享、分析和可视化数据带来挑战。
还有一点是,数据种类是否已增多?如果满足以下条件,那可能需要大数据解决方案:
●数据内容和结构无法预期或预测。
●数据格式各不相同,包括结构化、半结构化和非结构化数据。用户和机器能够以任何格式生成数据,例如:Microsoft Word文件、Microsoft Excel电子表格、Microsoft PowerPoint演示文稿、PDF文件、社交媒体、Web和软件日志、电子邮件、来自相机的照片和视频、传感设备数据、基因组和医疗记录。
●不断出现新的数据类型。
最后还要考虑的是,数据的增长和处理的速度。是否需要即时响应,是否需要实时处理传入的数据。对于数据是否值得信赖,如果满足以下条件,那么需要考虑使用大数据解决方案:
●数据的真实性或准确性未知。
●数据包含模糊不清的信息。
●不清楚数据是否完整。
如果数据的量、种类、速度或真实性具有合理的复杂性,那么就采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。
1.7.4 现有IT环境和成本维度
对于想要通过大数据分析获取业务价值的情况,我们还要考虑当前的IT环境是否可扩展。与企业IT部门沟通,询问以下问题,确定能否扩展现有的IT平台?
●当前的数据集是否非常大,是否达到了TB或PB数量级?
●现有的数据仓库系统是否包含所有数据?
●是否有大量冷数据(人们很少接触的数据)未分析?可以通过分析这些数据获得业务价值吗?
●是否需要丢弃数据,因为无法存储或处理它?
●是否希望在复杂且大量的数据上执行数据探索?
●是否希望对非结构化数据进行分析?
对于这些问题的回答,可以帮助企业判断是扩充现有数据仓库系统还是部署一套新的大数据平台软件。还有一点,我们要比较这两个方案的成本。扩展现有IT环境与部署大数据系统的成本和可行性取决于:
●现有工具和技术。
●现有系统的可伸缩性。
●现有环境的处理能力。
●现有平台的存储能力。
●执行的治理和策略。
●现有应用系统的异构性。
●企业IT部门的技术能力(包括为此需要新招人员的成本)。
●从新数据源收集的数据量和成本。
●新业务的复杂性。
我们要考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升幅度。企业可仔细列出问题的范围和解决方案带来的预期收益。如果该范围太小,业务收益将无法实现;如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。
对于成本维度,我们还需要考虑是否已有合适的技术人员?大数据解决方案需要特定的技能来理解和分析大数据需求,并维护大数据系统。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的知识。这包括大数据建模、统计、分析等方面的能力。在实施一个新的大数据项目之前,确保已安排了合适的人员,他们熟悉该领域、能分析大量数据,而且能从数据生成有意义且有用的业务机会。
1.7.5 数据治理维度
在决定是否实现一个大数据平台时,企业要特别关注那些新数据源和新的数据元素类型,这些数据所有权可能尚未明确定义。国家的一些规章制度可能会禁止企业获取和使用的数据。例如,在医疗行业,直接获取病人数据是否合法?企业的业务流程可能需要修改,以便能够获取、存储和访问外部数据。下面是一些数据治理的问题。
●安全性和隐私:在不违反法规和隐私等前提下,可以访问哪些数据?可以存储哪些数据?哪些数据应加密?谁可以查看这些数据?
●数据的标准化:数据是否有标准格式?是否有专用的格式?部分数据是否为非标准格式?
●数据可用的时段:数据是否只在一个允许的时段才可用?
●数据的所有权:谁拥有该数据?是否拥有适当的访问权和权限来使用数据?
●允许的用法:允许如何使用该数据?
总之,不是所有大数据情形都需要大数据解决方案。竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?使用上面的几个维度,可以帮助企业确定大数据解决方案是否适合它的业务情形。