网站数据挖掘与分析:系统方法与商业实践
上QQ阅读APP看书,第一时间看更新

1.2 网站数据分析的5个误区

网站数据分析能实现对所有在线活动的数据洞察,通过数据我们可以总结规律、挖掘价值、剖析原因,甚至可以优化企业的战略和战术并确定其发展方向,使其直接服务于决策者和执行者,因此它是企业日常运营和发展的必要组成部分。但仔细审视数据本身,我们会发现隐匿于美好之下的残缺,这些残缺是由于信息的不对称、价值观的指向、个人能力的不足,甚至是公司的流程和体制等原因而产生的。误用数据不但对公司业务发展没有正向帮助,反而会为业务团队带来决策风险。

1.网站数据的价值真的有那么大吗

作为网站数据分析的从业者,是否问过自己这样一个问题:网站数据分析可以为公司网站端运营活动提供决策支持,但价值真的有那么大吗?假如公司没有网站数据分析,各项业务运作体系是否会受到影响?如果你的回答是不确定甚至是确定没有影响,那足以证明你在整个公司流程中所从事的网站数据分析工作没有多少价值。对于不同类型的公司,网站数据分析工作的价值大小有所差异。

在线营销类或服务类广告公司的业务核心是通过为广告主提供广告投放、评估和优化业务,从而获得费用差价、佣金返点、服务费等,由此形成公司的核心利润业务。网站数据分析所处的角色是对这些业务体系提供数据评估和优化,此时由于从业者的工作与公司核心业务结合紧密,因此其职业价值会比较高。

线下苏宁、国美的大卖场能为其各自集团的销售类业务贡献90%以上的利润,而线上的电商业务体系分割了不到10%甚至需要利润补贴进行运作,此时针对线上业务的网站分析体系的价值在整个苏宁和国美集团中显得微不足道。此时由于从业者的工作与公司核心业务所创造的价值相差较大,因此其职业价值会比较低。

上述两大卖场的例子阐述了网站数据分析在不同公司的不同存在意义,从本质上讲网站数据分析价值的外部环境取决于公司的运营架构,即公司的核心业务模式是否与网站分析相关以及相关性的强弱。

注意

在所有公司的运营体系中,网站数据分析只能满足业务类的数据分析需求(如营销分析),职能类的分析需求(如财务分析)是无法通过网站数据分析解决的。因此,网站数据分析需要与公司整体数据整合,形成企业大数据支持下的商业智能,从全局性的角度建立数据运营支持体系。

2.网站数据的质量真的那么好吗

数据的质量是所有数据工作中最基础但也是最容易被忽视的一个环节,如果你对数据的质量没有概念,看下面列举的几种简单的数据情况:

·三个数据系统中同样定义的“销售额”指标数据不一致。

·数据库中的“邮箱”字段80%为空。

·数据库的“性别”字段中某些值为10。

·数据库中“产品名称”字段出现乱码。

以上问题的出现就是数据质量差造成的,出现这些情况既有公司内部原因又有外部原因。内部原因包括数据采集方式错误、数据验证机制不全面、数据同步不及时、ETL过程错误、数据提取错误等;外部原因包括用户填写的信息不规范、用户数据采集环境存在客观差异等。

在网站数据分析师或数据分析师接触到所要分析的数据之前,这些数据会经过数据采集(包含异常值处理和采集入库)、数据存储(主从备份和不同库表间数据同步)、数据提取(ETL、SQL取数)三个阶段,如果事先不对数据进行质量校验,会因为基本数据问题导致后期数据分析和挖掘无法进行,甚至会在分析数据后才发现整个结果都是错的——用错误的数据进行分析必然会导致错误的结论。

在大多数情况下,数据质量由于其隐秘性以及难以产生业务和技术应用价值而不被公司重视,但作为数据分析师需要具有数据质量意识,拒绝“Rubbish in rubbish out”!

注意

数据质量校验是所有数据预处理的第一步,因此数据分析师一定要养成习惯,在做数据分析之前应进行数据质量验证,下文会讲到如何进行数据验证。

3.数据需求不总是与业务需求相吻合

要进行分析挖掘的数据必须具备一定的前提条件,即符合数据规律且符合业务需求的数据才能用来为业务服务,但在很多情况下数据自身的这种严谨性要求会与业务分析需求产生冲突。业务方通常需要快速、及时、正确、全面地给出结论、做出反馈意见,进而落地执行优化,但这种需求与数据的严谨性通常是冲突的,这种冲突的本质是数据需求的严谨性要求数据是稳定的、全面的、长期的、及时的,因此通常需要有一定的周期和时间才能产生数据价值。

数据需求的严谨性主要体现在数据采集阶段。在数据采集阶段要求数据样本量必须具备在一定周期内相对稳定的特征,并且这种特征能在后期的数据处理中排除异常值波动的影响,进而得到完整、真实反馈业务效果的数据。

数据采集通常会受两方面因素的影响,一是数据采集单位效率,即每天能采集多少数据;二是周期,即使数据单位采集的效率很高,也不能只使用一天的数据进行分析,因为当天的数据可能存在异常值,而且该异常值不通过数据对比分析是无法进行验证和剔除的。因此,数据采集阶段通常至少需要采集一周的数据,如果采集效率低,则需求时间会更长。

但在业务方看来,如此“长”的时间通常是无法忍受的。业务方通常想要在较大业务完成后立即反馈结果进行优化矫正,但我们看到业务方的这种“短、快、全”的需求直接与数据需求的严谨性产生冲突。这种冲突的场景包括:

·某站内广告在首页焦点图的A位置只放3天,3天后马上下架换新素材。

·某站内UED部门做产品体验提升,每周进行一次产品方案优化。

以上两种业务场景从客观上直接导致数据需求严谨性的缺失,因此会对数据质量和后期的分析挖掘产生一定的影响。

注意

数据需求的严谨性并不意味着数据结果的产生一定需要很长的时间,时间长短取决于业务需求中数据需求对时间和数据样本的要求。通常实时数据、即席报表都能以很快的速度反馈业务关键节点的效果,以帮助业务做及时调整,比如某渠道推广效果、站内某活动实时效果等。但某些长期、对全局性有影响的关键业务节点需要更慎重的决策支持以避免数据决策失误,比如首页改版、购物车改进等。

4.数据能帮你分析问题吗

通常数据在相关系统和工具的预设工作机制下,会自动呈现出我们想要看到的关键KPI,甚至在我们把一些数据分析和挖掘算法模式化后,数据可直接通过自动化的流程产出我们想要的价值结果。

实际上,数据作为一种客观实体,其本身并没有价值,它并不能帮助我们分析问题,而只是提供了数据分析的“素材”。唯一能让数据发挥作用的是人,包括数据分析师、挖掘工程师等数据从业者,因此大多数企业的现状不是缺少数据,而是缺少能将数据价值活用出来为企业提供辅助决策甚至是数据驱动能力的“人才”。

不过,即使有了“人才”,数据就能发挥作用、帮助我们解决所有的问题吗?在数据从业者的工作环境中,永远都会涉及两种人:数据从业者和业务人员。即使数据从业者的能力再强,仍然无法完整重现业务场景,但这种场景恰恰是业务人员自身的经历,他们的这种经历是数据分析和挖掘的宝贵财富,甚至很多数据结果只需要凭借他们的经验就可以解释清楚,举例如下。

某公司要进行妥投率的分析,调用了所有的从订单、分拣、出库、配送到收货的数据,发现某个配送节点的妥投率较低。数据分析师使用各种算法和模型进行分析都百思不得其解,而其配送站点的物流经理的一句话让整个数据分析的难点迎刃而解——该配送站的某快递员请假导致货物没有及时发出。

提示

数据从业人员一定要多与业务人员沟通,从需求发起到报告落地验证和再优化的整个过程,业务人员都是必不可少的环节,他们的很多业务经验和常识往往能为数据从业者指明方向并降低数据项目的失败概率。

5.数据真的是公正客观的吗

数据有没有立场吗?

数据的公正客观在大多数人看来是与生俱来的,因为数据的存在就是客观的。数据的存在的确是客观的,但数据的应用主体是“人”,不同人对同一数据的分析结果会有所不同,这取决于数据从业者的立场。

这会影响什么?

我们对数据存在的初始期望是希望数据能客观的反馈业务结果,并服务于业务,从而对其进行优化和改进。如果对数据的分析和解读不客观、不公正,那么结果必然有失公允,基于数据的决策将会面临风险。

为什么会这样呢?

数据从业者的立场决定了数据的立场,这种立场受以下两方面因素的影响:

一是数据从业者在公司所处的角色。如果数据从业者在企业组织架构中位于采销中心,在对公司级数据进行整理并汇报采销相关数据时,出于对采销中心或其他因素的保护意识,可能会出现不客观的结果,比如只报喜不报忧,甚至会颠倒是非。

二是数据从业者基本的价值观。任何人都有基本的认知价值观,对于数据从业者而言,如果在拿到一个案例之后,先有了结果偏向,那么整个分析和挖掘过程必然会只选择与其结果一致性的样本和方法进行验证,这可能会直接导致对客观数据分析结果的扭曲。

注意

客观、公正是数据从业者的职业要求和个人素质之一,任何基于数据的决策项目都要求从业者秉着客观、公正的态度去对待。