1.2 企业数据应用方式
数据激增是当今企业的一大特性,如何有效地利用企业经营过程中产生的数据,从海量信息中提取出有用的模式并对其进行分析、挖掘、应用已成为人们的迫切需求。企业正不断将数据分析、数据挖掘视为重要部分,将数据转化为商业智能,提高企业的核心竞争力。企业中数据从产生到应用依次需要经过数据源层、数据仓库层、数据建模层,最后到数据应用层,经过层层加工,从原始的海量数据经过各层的清洗、建模、挖掘之类的加工后逐渐支持到上游的应用环节。企业数据应用流程如图1-2所示。
图1-2 企业数据应用流程
1.数据源
数据是商务智能的基础,数据种类通常包括企业内部的OA数据、财务数据、BD数据、业务数据、日志数据、埋点数据和外部第三方数据。数据需要经过抽取、转换和装载,即经过ETL后才可以存储在数据仓库中心,为数据分析奠定基础。
❑OA数据:企业内部办公系统相关数据。
❑财务数据:包括现金流、资产、负债、成本等数据,财务数据是企业数据的重要部分。
❑业务数据:即用户在Web、App、H5三端与产品发生操作行为而产生的业务类数据,如下单、收藏、支付等行为。
❑日志数据:用户访问Web、App、H5三端过程中留下的行为日志,例如用户在某个时间访问了Web上的一篇帖子,即留下该条行为日志。
❑埋点数据:用户在Web、App、H5三端单击行为带来的相关数据,例如用户在App端单击了某个页面的某个banner位,即上报该条行为日志。
❑外部第三方数据:包括爬虫得到的外部第三方数据和政府、行业等公开的市场数据。
2.数据仓库
数据仓库建立在数据源之上,通过ETL对数据进行加工并存储到数据仓库中。数据仓库是一个面向主题的、集成的、相对稳定的,反映历史变化的数据集合。数据仓库的数据包括元数据和经过ETL的业务数据。元数据是关于数据的数据,主要包括数据源的描述。操作型环境到数据仓库的数据更新同步在夜间完成。
数据仓库一般采用分层设计,具体包括ODS层、DW层、DM层数据,如图1-3所示。数据经过一层层加工屏蔽掉了底层负责的业务逻辑,将尽可能简单、完整地在接口层呈现业务数据,最终为业务人员的数据提取和分析提供支持。下面分别介绍各层的数据来源及应用方式:
图1-3 数据仓库分层模型
❑ODS层(Operation Data Store):原始数据层,数据来源是各业务系统的源数据,是操作型环境与数据仓库的隔离。在从操作型环境到数据仓库环境抽取的过程中会对数据做格式解析、多数据源的合并、设置字段默认值等ETL操作。
❑DW层(Data Warehouse):数据仓库层,对ODS层数据做进一步的建模加工,提供统计汇总数据,是根据企业信息需求而非部门业务需求而建立的。数据仓库为非常大的群体提供服务,因此在面向业务主题层面而言,性能和便捷性不如数据集市层。
❑DM层(Data Market):数据集市层,该层数据来自DW层,为各业务单元定义的集市,输出相关的主题宽表。提供各主题业务的明细层数据主要用于数据分析人员查询、数据分析。
数据仓库的每一层都有其作用域,方便使用者在使用时的定位和理解。
一般企业的数据部门为了方便经营分析人员对业务各版块分析、为了搭建大数据管理平台,会对散落在数仓中各业务线的有价值的表进行梳理,整理出一份数据字典。该数据字典中明确了每个业务主题所包含的表,以及各张表的业务含义、获取方式和关联规则。数据分析人员借助数据字典可以更好地了解公司的全景数据,明确数据的分布和蕴含意义,有助于将大数据引导到运营工作中来。
3.数据建模
数据经过数据仓库的层层清洗、加工,经过资深BI人员整理出一份数据字典后,就可以方便地对数据分析人员对数据进行查询与分析、企业BI系统报表的实时展现以及数据挖掘人员对数据的深度建模与挖掘提供支持。数据建模层需要对数据进行深度的价值挖掘。
4.数据应用层
数据应用层是数据价值产生的出口,在数据分析层经过数据挖掘人员对数据进行数据挖掘、用户画像建模、推荐算法的制定,可以支持业务应用层面向用户的智能营销和个性化内容推荐的功能。
数据驱动企业的运营需要成熟的方法论来进行支持,这些支持工作需要通过日常各业务线报表、专题分析挖掘、用户画像建模等方式展开。