二、基础知识
电商行业发展至今,精细化运营已成为行业共识。相对于其他行业来说,电商行业的数字化其实已经走在了前面,应该说是在迈向智能化、精细化的路上不断深入。随着电商领域的竞争进入“高级阶段”,企业现在更多考虑如何提升用户体验、如何留住更多用户、如何提高用户复购率、如何增加企业营收等问题,而这些都离不开数据分析。
(一)电子商务数据分析概述
1. 数据分析
数据分析是收集、处理数据并获取有价值的信息的过程。具体地说,数据分析是在业务逻辑的基础上,运用简单有效的分析方法和合适的分析工具对获取的数据进行处理的过程。电子商务数据分析是指对电子商务经营过程中产生的数据进行分析与挖掘,从中提取有用的信息,从而帮助商家降低成本,提高业务运营效率,改进产品,优化决策。
(1)数据分析的目的
数据分析的目的是把隐藏在一大批看似杂乱无章的数据中的信息提炼出来并集中,以找出所研究对象的内在规律。在实际生活中,数据分析可以帮助人们做出判断,以便人们采取适当的行动。例如,数据分析帮助电商企业向消费者推荐商品,设计促销方案,设置直播互动的奖品等。
(2)数据分析的价值
数据分析的价值主要体现在3个方面,一是帮助领导做出决策,二是预防风险,三是把握市场动向,如图1-4所示。通过数据分析,企业可以发现自己做得好的方面、需要改进的地方及明确出现的问题。
图1-4 数据分析的价值
(3)数据分析的作用
数据分析在电商企业日常经营分析中具有以下3个方面的作用。
① 现状分析,展示企业现阶段整体运营情况及各项业务的构成情况,包括各项业务的发展及变动情况。
② 原因分析,发现企业存在的问题的原因,并依据原因制订相应的解决方案。
③ 预测分析,对企业未来的发展趋势做出预测,便于企业制订运营计划。
(4)数据分析的应用
数据分析有极广泛的应用范围,在产品的整个生命周期内,从产品的市场调研到售后服务及最终处置,都需要适当地运用数据分析。例如,企业会通过市场调查分析所得数据来判定市场动向,从而制订合适的生产及销售计划。同样,在淘宝店铺运营过程中,数据分析也起着积极的作用。
(5)数据分析的分类
数据分析一般可以分为3类:探索性数据分析(Exploratory Data Analysis,EDA)、验证性数据分析(Confirmatory Data Analysis,CDA)和定性数据分析。
EDA是指在尽量少的先验假设下对已有的数据进行探索,侧重于从数据之中发现新的特征。EDA讲究从客观数据出发,探索其内在的数据规律,让数据自己说话。从逻辑推理上讲,EDA属于归纳法,有别于从理论出发的演绎法。因此,EDA成为大数据分析中不可缺少的一步。
CDA是指在进行分析之前,一般都有预先设定的数据模型或研究假设,侧重于对已有模型或假设进行证实或证伪。
定性数据分析是指对词语、照片、观察结果之类的非数值型数据进行分析。
2. 大数据
大数据本身是一个比较抽象的概念,仅从字面意思来看,它表示数据规模的庞大。人们一般将通过对海量信息的采集、存储、分析、整合、控制而得到的数据称为大数据。大数据通常需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity),即具有海量的数据规模、多样的数据类型和快速的数据流转。
3. 云计算
Google作为大数据应用最为广泛的互联网公司之一,在2006年率先提出云计算的概念。云计算是一种大规模的分布式模型,通过网络将抽象的、可伸缩的、便于管理的数据能源、服务、存储方式等传递给终端客户。根据维基百科的说法,狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按照需求量和易扩展的方式获得所需资源;广义的云计算是指服务的交付和使用模式,指通过网络以按照需求量和易扩展的方式获得所需服务。目前云计算被认为包含3个层次的内容:基础设施即服务(IAAS)、平台即服务(PAAS)和软件即服务(SAAS)。国内的阿里云与云谷公司的XenSystem,以及在国外已经非常成熟的intel与IBM都是云计算的忠实开发者和使用者。
云计算是大数据的基础平台与支撑技术。如果将各种大数据的应用比作一辆辆“汽车”,那么支撑起这些“汽车”运行的“高速公路”就是云计算。正是因为云计算技术对数据存储、管理与分析等方面的支撑,大数据才有用武之地。
4. 区块链
区块链是一种以链的方式把区块组合在一起的数据结构,选取新节点时需要将新区块里前一个区块的哈希值、当前时间戳、一段时间内发生的有效交易及其梅克尔树根值等内容打包成一个区块向全网广播。密码学保证了数据的不可窜改和不可伪造,能够使参与者对全网交易记录的事件顺序和当前状态建立共识。由于每一个区块的块头都包含了前一个区块的交易信息压缩值,这就使从创世块(第一个区块)到当前区块连接在一起形成了一条长链。如果不知道前一个区块的“交易缩影”值,就没有办法生成当前区块。因此,每个区块必定按时间顺序跟随在前一个区块之后。这种所有区块包含前一个区块的引用结构,让现存的区块集合形成了一条数据长链。
区块链主要应用于支付和托管等领域,可以加快交易、减少欺诈并增强财务安全性。它也是比特币采用的分布式数据库技术。由于高度安全,区块链对敏感行业的大数据应用系统也是出色的选择。
5. 数据湖
数据湖是一个庞大的数据存储库,从不同来源收集数据,并将其以自然状态存储起来。切忌将数据湖与数据仓库混为一谈,数据仓库基本上与数据湖执行的是同样的功能,但不像数据湖那样以自然状态存储数据,而是明确数据结构以便将其存储起来。为了进一步阐明两者之间的区别,不妨打个比方:数据湖如同未经过滤的河水,而数据仓库更像是一堆瓶装水。
6. 数据埋点
后台数据库和日志文件一般只能满足常规的统计分析,对于具体的产品和项目来说,一般还要根据项目的目标和分析需求进行有针对性的数据埋点工作。所谓埋点,就是在额外的正常功能逻辑上添加有针对性的逻辑统计,即期望的事件是否发生,发生后应该记录哪些信息。例如,用户在当前页面是否用鼠标滚动页面,有关页面区域是否曝光,当前的用户操作时间是多少、停留时长是多少,这些都需要前端工程师进行有针对性的埋点才能满足有关的分析需求。数据埋点工作一般由产品经理和分析师预先确定分析需求,然后由数据开发团队对接前端和后端开发以完成具体的埋点工作。
7. 数据挖掘
大数据分析的理论核心就是数据挖掘。数据挖掘的各种算法基于不同的数据类型和格式,能更加科学地呈现出数据本身的特点,从而帮助人们更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据的价值也就无从说起了。因此,算法不仅能够满足处理大数据的数据量要求,也能一定程度地满足处理大数据的速度要求。
数据挖掘的重点不在数据本身,而在于能够真正地解决数据运营中的实际商业问题。因此,要解决商业问题,就得让数据产生价值,就得做数据挖掘。
8. 数据可视化
数据可视化是指将数据分析结果用简单且视觉效果好的方式展示出来,一般运用文字、表格、图标和信息图等方式进行展示。Word、Excel、PowerPoint、水晶易表等都可以作为数据可视化的展示工具。现代社会已经进入速读时代,好的可视化图表可以清楚地表达数据分析的结果,节省人们思考的时间。
数据分析的使用者包括大数据分析专家和普通客户,他们对于数据分析最基本的要求就是数据可视化,因为数据可视化能够直观地呈现大数据的特点,让数据自己说话,让观者直接看到结果。
9. 数据质量
更好的数据意味着更好的决策,数据分析的前提就是要保证数据质量。因此,在进行数据分析和数据挖掘之前,我们必须完成提高数据质量的工作。
提高数据质量的工作主要包括两个方面——数据的集成和数据的清洗,关注的对象主要有原始数据和元数据两个方面。
知识链接:元数据
元数据是指描述信息的属性数据、结构数据等相关数据。比如一本书包含的元数据有书名、作者姓名、出版社、出版日期、书号、版次、字数、页码、定价等,它的作用是使信息的描述和分类实现格式化,确保系统各项业务口径一致。数据库和数据模型都建立在元数据之上。一个信息的元数据通常分为3类:固有性元数据,是指事物固有的与事物构成有关的元数据;管理性元数据,是指与事物处理方式有关的元数据;描述性元数据,是指与事物本质有关的元数据。以摄像镜头为例:摄像镜头的固有性元数据包括品牌、参数、类型、重量、光圈、焦距等信息;摄像镜头的管理性元数据包括商品类型、上架时间及库存情况;摄像镜头的描述性元数据包括用途、特色,如人文纪实和人像摄影。
10. 数据预测分析
数据预测分析就是使用历史数据来推测未来的事件或行为,它与“可能发生的事情”有关。数据预测分析用于电商销售分析时,可以通过分析人口统计数据和购买数据来计算客户流失率,或预测主要客户是否已经淘汰了该品牌。当使用数据预测分析来持续关注客户时,电商企业可以调整业务范围,避免客户流失以及寻找潜在的新增长点。
知识链接:数据分析师
数据分析师是不同行业中专门从事行业数据收集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。他们需要拥有数学、统计学等多个领域的知识,熟悉业务逻辑,掌握数据分析方法并能熟练使用数据分析工具。事实上,一个不懂业务逻辑的数据分析师,其分析结果不会产生任何使用价值;而一个只懂业务逻辑、不精通数据分析方法与工具的数据分析人员,只能算数据分析爱好者。
11. RPA技术
RPA(Robotic Process Automation,机器人流程自动化)技术能够代替或者协助人类在计算机、RPA手机等数字化设备中完成重复性工作与任务。只要预先设计好使用规则,RPA技术就可以模拟人工进行复制、粘贴、点击、输入等操作,协助人类完成大量“规则较固定、重复性较高、附加值较低”的工作,如证件票据验证、纸质文件录入、跨系统数据迁移、从电子邮件和文档中提取数据、企业IT应用自动操作等。基于RPA技术打造的软件机器人可以快速、准确地完成这些工作,这样一方面可以节约员工的时间,让员工去从事更高价值、更有挑战性的工作;另一方面可以减少人工错误,以保证企业业务实施过程中的零失误,能够提高企业运营效率、大幅度降低企业运营成本,真正帮助企业实现降本增效。
RPA技术具有非侵入性和灵活配置性两大特点:企业在进行RPA技术的部署时,不需要改变其现有的信息系统,从而可以避开遗留系统冰山;RPA技术具有非常强的灵活配置性,可以非常贴近企业的业务,实现无缝结合。这两个特点可以让RPA技术在企业内部逐步落地。
(二)电子商务数据分析的流程
最初的数据可能杂乱无章且毫无规律,我们要通过作图、制表和各种形式的拟合来计算某些特征量,探索规律性的可能形式。这时就需要研究用何种方式寻找和揭示隐含在数据中的规律性。数据分析有一套比较规范的操作流程,如图1-5所示,具体介绍如下。
图1-5 数据分析流程
1. 明确数据分析目的
识别数据分析需求、明确数据分析目的是确保数据分析过程有效性的必要条件。因此,电商企业在进行数据分析之前需要想清楚,要通过数据分析解决什么问题:是为了提高销售额,还是为了扩大目标客户群?或者是为了找到产品迭代的方向?又或者是为了进行科学的排班,以便在闲时不浪费人力?明确数据分析目的是至关重要的。
2. 梳理数据分析思路
数据分析目的明确后,接着需要梳理数据分析思路。数据分析思路是指运用营销和管理的相关技术与方法,结合实际业务将数据分析的目的层层分解,形成一个结构化的数据分析框架。这个框架是数据分析展开的依据。
知识链接:费米问题
有人曾经问费米:“芝加哥有多少位钢琴调音师?”钢琴调音师是从事检查和校正钢琴音准的工作人员。费米将这个问题用逻辑树分析方法进行拆解,如图1-6所示。
图1-6 用逻辑树分析方法拆解芝加哥钢琴调音师数量
芝加哥钢琴调音师数量=全部钢琴调音师1年的总工作时间/1位钢琴调音师1年的工作时间
全部钢琴调音师1年的总工作时间=芝加哥钢琴数量×钢琴每年调音次数×调音时长
1位钢琴调音师1年的工作时间=1年工作周数×每周工作天数×每天工作时数
已知芝加哥有250万人,估计每百人拥有2架钢琴(统计范围含机构,如音乐学院),1架钢琴1年调1次音,每次调音时长估计为2.5小时(包括途中耗时),1年工作周数为50周,每周工作5天,每天工作8小时。费米根据这些数据计算出芝加哥钢琴调音师数量约为63位,后来费米找到了一份芝加哥钢琴调音师的名单,上面一共有83人,表明这次估算已经相对准确了。
3. 数据收集
数据收集是按照数据分析框架收集数据,包括结构化的数据和非结构化的数据。当通过数据分析揭示变化趋势时,数据量越大越好。对于任何类型的统计分析而言,样本量越大,所得到的结果越精确。例如,仅仅追踪电商企业1周的销售数据很难看出未来的发展趋势,追踪3个月的销售数据会好一些,6个月的更佳。数据分析人员要试着弄清楚获得所需最优数据的途径,然后开始数据收集。
数据收集是将数据记录下来的环节。在这个环节中需要着重说明的两个原则是全量而非抽样、多维而非单维。
(1)全量而非抽样。数据分析人员要设法对商务活动的全部数据进行收集和分析。
(2)多维而非单维。数据分析人员要将数据针对客户行为实现5W1H(Why、What、Where、When、Who、How)的全面细化,将交互过程的时间、地点、人物、原因、事件全面记录下来,再进一步细化。例如,时间可以从起始时间、结束时间、中断时间、周期间隔时间等细分,地点可以从城市、小区等细分,人可以从多渠道注册账号、家庭成员、薪资、个人成长阶段等细分,原因可以从爱好、需求层级等细分,事件可以从主题、步骤、质量、效率等细分。这些细分维度可增强分析的多样性,并有助于从中挖掘规律。
有目的地收集数据是确保数据分析过程有效的基础,数据分析人员需要对收集数据的内容、渠道、方法进行策划,主要考虑:①将识别的数据分析需求转化为更具体的要求,如评价供方的供应能力时,需要收集的数据可以包括生产能力、测量系统不确定性等;②明确由谁在何时、何地通过何种渠道(内部渠道或外部渠道)和何种方式(线上方式或线下方式)收集数据;③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统产生干扰。
4. 数据处理
数据处理是对已经收集到的数据进行适当的处理,包括清洗去噪及进一步的集成存储。常用的数据处理方法有脏数据清洗、数据抽取、数据转换、数据计算、数据排序和数据分组等。
(1)脏数据清洗
脏数据是指不规范数据(如数据的日期格式有的是2022/2/20,有的则是2/20/2022)、标准不统一数据(如客户对同一售后问题的描述不一致)、重复数据、缺失数据、错误数据、异常数据等。常用的脏数据清洗方法有查找替换、填充、映射、透视、去重、补缺、纠错等。如果脏数据呈现很强的规律性,数据量又很大,可以采用VBA编程的方式来清洗。
对重复数据进行去重处理,能够减少其对后续数据分析步骤的干扰。去重工作可采用WPS表格工具进行,具体步骤如下。
步骤1 从网上获取原始空调型号12个,如表1-1所示。
表1-1 原始空调型号
去重的第一步是标识重复项,单击“数据”选项下的“高亮重复项”按钮,结果显示“Midea/美的KFR-26GW/WCBD3@”有2条重复项,如图1-7所示。
图1-7 高亮重复项
步骤2 单击“数据”选项下的“删除重复项”按钮,打开“删除重复项”对话框。在“删除重复项”对话框的列中选中“空调型号”复选框,单击“删除重复项”按钮,删除2条重复项,如图1-8所示。
图1-8 删除重复项
步骤3 删除后保留10条唯一项,将B2单元格中“原始空调型号”改成“去重后的空调型号”,修改序号,如图1-9所示。
图1-9 去重后的空调型号
去重可以节省存储空间,大大减少需要的存储介质数量,进而降低成本,提升磁盘的写入性能,节省网络带宽。
(2)数据抽取
数据抽取是指从原始数据表中抽取某些字段的部分信息,形成一个新的字段。数据抽取可以采用“数据”选项卡里的分列工具或者文本函数进行。图1-10所示为“文本分列向导”对话框,其根据分隔符号或固定宽度对原始数据进行分列。图1-11所示为使用MID函数从身份证号码中抽取出生日期。
图1-10 “文本分列向导”对话框
图1-11 使用MID函数抽取数据
(3)数据转换
数据转换是指将数据的排列方式和类型进行转换,包括行列转置、数据类型转化等。行列转置可在“选择性粘贴”对话框中选中“转置”选项实现。数据类型转化包括文本转数值、数值转文本、数值转日期等,可采用“选择性粘贴”工具或分列工具。例如选中文本型数据单元格区域进行复制,再单击目标单元格,按“Ctrl+Alt+V”组合键打开“选择性粘贴”对话框,选择“加”运算,单击“确定”按钮,即可转化为数值型数据。在分列工具中将“列数据格式”设置为“常规”也可实现。
(4)数据计算
数据计算是对数据表中的数据进行简单的计算,计算方法包括加、减、乘、除、数据标准化、加权求和等。在多指标评价体系中,各评价指标由于性质不同,通常具有不同的量纲和数量级,不适合做直接的比较,而需要对原始指标数据进行标准化处理。数据标准化的常用方法有“0-1标准化”和“Z-score标准化”等。
0-1标准化的计算公式为,可以消除变量间的量纲,使数据具有可比性。
Z-score标准化的计算公式为,其中μ为平均值,σ为标准差。
(5)数据排序σ
整理数据时,排序也是重要的方法之一,因为数据经过排序后会方便商家从中识别哪个数据最大,哪个数据最小,进而发现数据反映出的问题。数据排序的具体操作步骤如下。
步骤1 打开各类型空调月销量数据表,如表1-2所示。单击“数据”选项卡下的“排序”按钮,开始排序。
表1-2 各类型空调月销量
步骤2 打开“排序”对话框,将列的主要关键字设为“月销量”,排序依据设为“数值”,次序设为“降序”,单击“确定”按钮进行排序,如图1-12所示。
图1-12 排序设置
排序结果如表1-3所示,可以发现TCL移动水冷气扇小空调月销量最高,TCL KFRd-23GW/BF33-I月销量最低。
表1-3 排序结果
(6)数据分组
商家日常会收集数据,日积月累,数据量就会变得很大。面对这些毫无规律的数据,商家会不知如何进行数据分析。如果能对这些数据进行分组,分析时就容易找到头绪。下面介绍通过建立数据透视表来对数据进行分组的方法。
步骤1 打开空调销售记录表,如图1-13所示。单击“数据”选项卡下的“数据透视表”按钮,打开“创建数据透视表”对话框。
图1-13 空调销售记录表
步骤2 设置“创建数据透视表”对话框,选择放置数据透视表的位置为“新工作表”,单击“确定”按钮,如图1-14所示,创建数据透视表。
图1-14 创建数据透视表
步骤3 设置“数据透视表”任务窗格,字段列表选中“日期”“空调型号”“成交件数”“成交金额”,将“日期”字段拖入“筛选器”区域、“空调型号”字段拖入“行”区域、“成交件数”和“成交金额”字段拖入“值”区域,如图1-15所示。
图1-15 设置数据透视表
步骤4 生成的数据透视表如图1-16所示。5月15日—17日,AUX/奥克斯KFR-35GW/NFI19+3空调的成交件数为37件,成交金额为73963元;Midea/美的KFR-26GW/WCBD3@空调的成交件数为67件,成交金额为140633元,TCL KFRd-23GW/BF33-I空调的成交件数为23件,成交金额为39077元。
图1-16 生成的数据透视表
5. 数据分析
数据处理好之后,数据分析人员就可以对其展开分析,结合实际业务从中获取有价值的信息,并提供给管理层做决策。因此,数据分析人员需要充分了解公司的业务活动,熟练掌握数据分析方法,以确保数据分析结论是可靠的和最优的。
常用的数据分析方法有回归分析法、相关分析法、交叉分析法、趋势分析法、对比分析法等。如果数据过于庞大和复杂,需要发现深层次的原因或隐含的未知关系,则应采用人工智能、机器学习、模式识别、统计学、专家系统等技术进行数据挖掘,从中找出潜在的模式或趋势,帮助管理层及时调整市场策略,减少风险,做出正确的决策。数据挖掘常用的算法包括神经网络法、决策树法、聚类分析法、遗传算法、粗糙集法、模糊集法、关联规则法等。
6. 数据解释与展现
广大的数据信息客户最关心的并非是数据的分析处理过程,而是对数据分析结果的解释与展现。因此,在一个完善的数据分析流程中,数据分析结果的解释与展现至关重要。如果数据分析的结果正确,但是没有采用适当的方法解释或者没有运用合适的图表展现,那么所得到的结果很可能会让客户难以理解,甚至会误导客户。
数据解释与展现的方法有很多,比较传统的就是以文本形式输出结果或者直接在计算机上显示结果。这种方法在面对小数据量时是一种很好的选择,但是大数据时代的数据往往是海量的,同时结果之间的关联关系极其复杂,传统的解释与展现方法基本不可行。数据分析人员可以考虑从下列两个方面提升数据解释与展现能力。
(1)引入可视化技术
可视化技术作为解释与展现大量数据最有效的手段之一,率先被科学与工程计算领域采用。通过对分析结果的可视化,数据分析人员可以用更形象的方式向客户展示结果,同时图形化的方式比文字更易让人理解和接受。
常见的可视化技术有排列图、因果图、分层法、调查表、散布图、直方图、控制图、关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图、标签云、历史流、空间信息流等。数据可视化工具中,报表类工具有JReport、Excel、水晶报表、FineReport等,商业智能分析工具有Style Intelligence、BO、BIEE、象形科技ETHINK、Yonghong Z-Suite等。国内的数据可视化工具有BDP商业数据平台、大数据魔镜、数据观、FineBI商业智能软件等。数据分析人员可以根据具体的应用需要选择合适的可视化技术和数据可视化工具。
(2)让客户参与分析过程
让客户在一定程度上了解和参与具体的分析过程,能够提升数据解释效果。客户参与分析过程有两种方式:一种是采用人机交互技术,利用交互式的数据分析过程来引导客户逐步进行分析,使客户在得到结果的同时更好地理解结果的由来;另一种是采用数据起源技术,通过追溯整个数据分析的过程,帮助客户理解数据分析结果。
数据分析完成后一般会要求撰写数据分析报告,它是对整个数据分析过程的总结,是提供给企业决策者的参考报告,可以为决策者提供科学、严谨的决策依据。一份优秀的数据分析报告,需要有一个明确的主题、一个简洁的背景、一个清晰的目录、图文并茂的数据阐述及逻辑严密的内容呈现,最后加上有理有据的结论和建议,并提供解决问题的方案和想法,以便决策者在决策时作为参考。
(三)电子商务数据分析的方法
从根本目的来说,数据分析的任务在于通过抽象数据形成对业务有意义的结论。单纯的数据是毫无意义的,直接看数据是很难发现其中规律的,只有通过使用分析方法将数据抽象处理后,人们才能看到隐藏在数据背后的规律。
1. 数据分析方法分类
选取恰当的数据分析方法是整个数据处理过程中的关键步骤,从分析方法复杂度来讲,一般可以将数据分析方法分为3个层级,即常规分析方法、统计学分析方法和自建模型。
(1)常规分析方法
常规分析方法不对数据做抽象的处理,主要是直接呈现原始数据,多用于针对固定的指标且具有周期性的分析主题。常规分析方法直接通过原始数据呈现业务意义,主要的分析方法有两种——趋势分析和占比分析,其对应的分析方法分别为同环比分析和帕累托分析。同环比分析的核心目的在于呈现本期与往期之间的差异,如销售量增长趋势;而帕累托分析则是呈现单一维度中的各个要素占比的排名,如“各个城市本期的销售量增长趋势的排名”,以及“前80%的增长量由哪几个城市贡献”这样的结论。常规分析方法已经成为最基础的分析方法,在此不再详细介绍。
(2)统计学分析方法
统计学分析方法能够基于以往数据的规律来推导未来的趋势,通常有3种分析策略:描述性统计分析、探索性统计分析和推断性统计分析。描述性统计分析侧重于对数据的描述,凸显数据的统计特征,如数据的频数、集中趋势、离散程度、分布状况等。探索性统计分析主要用于发现数据背后隐藏的内在规律或联系,挖掘数据中出现异常的原因。例如,探索分析两个变量之间是否存在一定的相关性,两组样本之间是否存在显著性差异,广告点击率没有达标的原因,以及预测销售额变化趋势等。推断性统计分析是指根据样本特征推断总体的情况,例如运用t检验推断样本均值是否满足某个常数,或者用卡方检验推断两个离散型变量之间的独立性。
(3)自建模型
自建模型在数据分析方法中是最高阶也是最有挖掘价值的,多用于金融领域。业界专门为自建模型的人群起了一个名字——“宽客”,这些人就是靠数学模型来分析金融市场的。统计学分析方法所使用的算法是具有局限性的,虽然能够运用于各种场景中,但是存在不精准的问题,在有指导和没有指导的学习算法中,得出的结论很多都不精准。而在金融领域中,这种算法显然不能满足需求的精准度,因此数学家在这个领域专门自建模型,通过输入数据得出投资建议。
2. 对比分析
对比分析也称比较分析,是指将客观的事物进行比较,以认识事物的本质和规律,进而判断其优劣的研究方法。对比分析是识别事物最基本的数据分析方法之一,也是其他数据分析方法的基础。
在使用对比分析时,首先必须有两个事物或同一事物的两个状态,其次必须要有一个对比的标准或指标。对比的两个事物,一个是对比的主体,另一个是对比的客体。对比的标准或指标被称为对比的度量。对比分析根据对比事物的不同可以分为纵向对比和横向对比两种。
纵向对比是对同一事物不同时期的状态或特征进行比较,是基于时间维度的对比方法,目的是认识事物的过去、现在及未来的发展趋势。其主要包括环比(如本月销售额与上月销售额之间的对比)、同比(如本月销售额与去年同月销售额之间的对比)和定基比(如每月销售额与本年1月销售额做对比)。
横向对比是指同类型的不同对象在统一的标准或指标下进行比较,是基于空间维度的对比方法,目的是从对比中找到差距、判断优劣。例如不同等级客户在客单价上的差异,不同品类利润率的高低,不同渠道流量的支付转化率比较。
在对比分析中,选择合适的对比标准或指标是十分关键的步骤。对比标准或指标选择合适,才能做出客观的评价;选择不合适,则可能得出错误的结论。
3. 分类分析
分类分析是按照某种标准给对象贴标签,再根据标签进行分类,然后使用汇总或对比进行分析的方法。其本质是把事物分开,归到不同的类别中加以识别,以获得对事物的重新认知。它是人类认知事物的基本方法。
例如服装行业中常用于分类分析的标签有“年份”“季度”“折扣带”“类目”等。从“年份”“季度”维度对商品库存进行分类分析,可以获知每种商品的库存量,可以知道哪些商品属于适销品,哪些商品属于滞销品;从“折扣带”维度对销售流水进行分类分析,可以获知盈利情况;从“类目”维度对销售流水和库存同时进行分类分析,可以获知各品类的销售状况与库存状况。
知识链接:分类分析示例
某电商企业6—8月在各渠道的销售额如表1-4所示,请用百分比堆积条形图对比分析各渠道销售额变化趋势。
表1-4 某电商企业6—8月在各渠道的销售额
4. 矩阵分析
矩阵分析是指从两个维度对事物进行分类分析的方法。例如,波士顿矩阵从市场增长率和市场占有率两个维度将公司业务分成4类,如图1-17所示。市场增长率和市场占有率“双高”的业务被称为明星型业务;市场增长率和市场占有率“双低”的业务被称为瘦狗型业务;市场增长率高但市场占有率低的业务被称为问题型业务;市场增长率低但市场占有率高的业务被称为金牛型业务。
图1-17 波士顿矩阵
5. 杜邦分析法
杜邦分析法是衡量企业经营业绩常用的方法,其核心是将企业净资产收益率逐级分解为多项财务比率的乘积,如图1-18所示。通过这些财务指标,分析者可全面深入了解企业的经营业绩与盈利状况。在电商领域,杜邦分析法常被应用于查找店铺经营过程中存在的问题。
图1-18 杜邦分析法
6. 回归分析
回归分析(Regression Analysis)是研究一个随机变量(Y)对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,其运用十分广泛。回归分析按照涉及的自变量多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
(1)线性回归模型
线性回归是最为人熟知的建模技术,是人们学习如何预测模型时的首选技术之一。在此技术中,因变量是连续的;自变量可以是连续的,也可以是离散的。回归的本质是线性的。
一元线性回归模型为Y=a+bX+ε。其中Y为因变量;X为自变量;a为常数项,是回归直线在纵坐标上的截距;b为回归系数,是回归直线的斜率;ε为随机误差,是随机因素对因变量所产生的影响。
(2)回归分析应用
回归分析工具是一种非常有用的预测工具,既可以对一元线性或多元线性问题进行预测分析,也可以针对某些可以转化为线性问题的非线性问题预测其未来的发展趋势。一般线性回归预测分析主要有以下5个步骤。
① 根据预测目标,确定自变量和因变量。
② 绘制散点图,确定回归模型类型。
③ 估计模型参数,建立回归模型。
④ 对回归模型进行检验。
⑤ 利用回归模型进行预测。
(3)回归分析案例
某网店某商品1—7月的支付商品件数、件单价、支付金额如表1-5所示,将表格中的时间作为自变量,支付商品件数作为因变量,并假设它们之间存在线性关系Y=a+bX+ε,Y表示支付商品件数,X表示月份,要求利用回归分析预测下一个月的支付商品件数。
表1-5 某网店某商品1—7月销售统计
注:支付金额与(支付商品件数×件单价)稍有差异是由件单价取整造成的。
知识链接:表格类型
日常数据分析中,数据类表格通常分成3类:一维表、二维表、三维表。
一维表是指表格的每一行都是一条完整而独立的信息,主要用于基础数据的存储。
二维表是指表格的行与列上的字段相结合才能形成一条完整而独立的数据,主要用于简单场景的数据分析,如表1-5所示。
三维表是指表格的行与列上的两个字段相结合才能形成一条完整而独立的数据,如针对不同品类商品的月销售统计表。
步骤1 在Excel中单击“数据”选项卡,在“分析”组中单击“数据分析”按钮,在弹出的“数据分析”对话框中选择“回归”选项,单击“确定”按钮,如图1-19所示。
图1-19 选择回归分析工具
步骤2 弹出“回归”对话框,单击“输入”选项下的“Y值输入区域”文本框右侧的按钮,选择B2:B8单元格区域,再单击“X值输入区域”文本框右侧的按钮,选择A2:A8单元格区域,如图1-20所示。
图1-20 选择输入区域
步骤3 选中“置信度”复选框,其数值通常设置为95%;取消选中“标志”复选框(如果“Y值输入区域”和“X值输入区域”包含A1和B1单元格则需要勾选)。在“输出选项”下选中“输出区域”单选按钮,再单击“输出区域”文本框右侧的按钮,在工作表中选择F1单元格,接着选中“残差”选项区与“正态分布”选项区中的所有复选框,并单击“确定”按钮,如图1-21所示。
图1-21 回归设置
知识链接:回归设置
残差——称为剩余值,为观测值与预测值之间的差值。
标准残差——由“(残差-残差的均值)/残差的标准差”得到。
残差图——以回归模型的自变量为横坐标、因变量为纵坐标绘制的散点图。
线性拟合图——以回归模型的自变量为横坐标、因变量和预测值为纵坐标绘制的散点图。
正态概率图——以百分位排名的因变量为横坐标、自变量为纵坐标绘制的散点图。
步骤4 在工作表中输出回归分析要点,回归分析完成,如图1-22所示。
图1-22 回归分析结果
知识链接:回归统计表中的指标解释
Multiple R——相关系数,用来衡量自变量x与因变量y之间的相关程度。
R Square——判定系数,是相关系数R的平方,其数值越接近1,表示拟合效果越好。
Adjusted R Square——矫正测定系数,用于多元回归分析。
df——自由度(Degree of Freedom),通常df=n-k,其中n为样本数量,k为变量个数。
SS——误差平方和,也称变差。
MS——均方差,它是误差平方和除以相应的自由度得到的数值。
F——F值,用于对所有自变量整体显著性的检验。
Significance F——显著性水平下的Fα临界值,其实等于P值。
Coefficients——回归模型中各自变量系数及常量,包括截距和斜率。
标准误差——各自变量系数及常量的标准误差,误差值越小,表明参数的精确度越高。
t Stat——回归系数的t检验数值,用于判断参数的显著程度,需要查表才能决定。
P-value——各自变量系数及常量对应的P值(双侧),即弃真概率,当P<0.05时,可以认为模型在α=0.05的水平上显著或者置信度达到95%。
步骤5 从回归分析结果中,可以得到时间与支付商品件数的一元线性回归分析方程为Y=565.2857-47.6071X,其中判定系数R2=0.876949,回归模型F检验与回归系数的t检验相应的P值都小于0.01,即有显著线性关系;再将自变量“8”代入回归分析方程,得到8月份预测的支付商品件数为184件。
回归分析方法可以应用到市场营销的各个方面,方便管理者了解用户、深度分析用户行为,从而实施相应的预防措施和解决办法。
7. 聚类分析
聚类分析(Cluster Analysis)是指按照一定的方法将杂乱无章的事物根据某些特征的相似性聚集成几类,类与类之间差异较大,而同一类中的事物具有较高的相似性。分类是把一个事物拆分成不同的部分,而聚类是将分散的多个事物归集到不同类别,两者本质相同,都是为了实现对事物的分类管理。分类与聚类都是人类认知事物的基本思路之一。
针对复杂事物,一般采用聚类算法来实现对事物或者对象的聚类。R型聚类是指针对描述事物的变量进行聚类,让具有相似性的变量聚集成一类。Q型聚类是指根据对象的属性对对象进行聚类。我们把聚成的各个类称为“簇”。
聚类分析是数据挖掘的主要任务之一,而且聚类分析能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,再对特定的簇展开进一步分析。常用的聚类算法包括K-means(K均值)算法、DBSCAN算法、CURE算法等。
知识链接:聚类分析案例
宝洁旗下的洗发水品牌有很多,如澳丝、海飞丝、植感哲学、潘婷、飘柔、沙宣等,这实际上是宝洁对消费者需求进行聚类分析的结果。消费者对洗发水的需求聚集成多种类型,如敏感型、时尚型、经济型、舒爽型、营养型、柔顺型、染发保护型、飘逸型等。宝洁根据细分需求开发的产品更加符合消费者的喜好,使消费者更加忠诚,这也是宝洁成功的关键所在。
8. 相关分析
相关分析(Correlation Analysis)是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法,可以用相关系数反映变量之间相关关系的密切程度。相关系数r的取值范围为[-1,1]。
(1)相关关系分类
① 根据相关程度,相关关系分成以下3类。
如果相关系数0<|r|≤0.3,则相关程度为低度相关。
如果相关系数0.3<|r|≤0.8,则相关程度为中度相关。
如果相关系数0.8<|r|≤1,则相关程度为高度相关。
② 根据相关方向,相关关系分成以下两类。
当-1≤r<0时,为负相关。
当1≥r>0时,为正相关。
当r=0时,变量之间无相关关系。
(2)相关分析案例
某网店某商品1—7月的支付商品件数、推广费用如表1-6所示。假设支付商品件数与推广费用之间存在线性相关关系,要求计算支付商品件数与推广费用的相关系数。
表1-6 某网店某商品1—7月的支付商品件数及推广费用
步骤1 在Excel中单击“数据”选项卡,在“分析”组中单击“数据分析”按钮,在弹出的“数据分析”对话框中选择“相关系数”选项,单击“确定”按钮,如图1-23所示。
图1-23 选择相关系数分析工具
步骤2 打开“相关系数”对话框,单击“输入区域”文本框右侧的按钮,在工作表中选择B1:C8单元格区域,并在“分组方式”栏中选中“逐列”单选按钮,选中“标志位于第一行”复选框,并在“输出选项”下方单击“输出区域”文本框右侧的按钮,在工作表中选择E1单元格,如图1-24所示。
图1-24 相关系数设置
步骤3 单击“确定”按钮之后,相关分析即完成,计算得到的相关系数如表1-7所示。支付商品件数与推广费用的相关系数为0.906243768,属于高度正相关。
表1-7 相关系数
知识链接:关联分析
关联分析是分析事物间依存关系的方法,它是指从大量数据中发现项集之间的关联和相关联系。关联是指多个数据项之间联系的规律。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而对事物某些属性同时出现的规律和模式进行描述。由于其不受因变量的限制,所以有着十分广泛的应用。常用的关联分析算法有Apriori算法、FP增长算法等。
关联分析隶属于灰色系统方法,相关分析则包含在数理统计的范畴之内。灰色系统意指因素间具有不确定性的系统,数理统计是揭示不确定性的随机现象的统计规律的学科,因此对于因素间具有不确定性的系统,如社会、经济、农业等领域的大量因素分析问题,既可应用相关分析方法,也可应用关联分析方法。
9. 描述性统计分析
描述性统计分析是指运用制表和分类、图形及概括性数据计算来描述数据特征的方法。描述性统计分析是对调查总体所有变量的有关数据进行统计性描述。
描述性统计分析在表示数量的中心位置的同时,还能表示数量的变异程度(离散程度)。描述性统计分析一般包括两种方法:频数分布分析和列联表分析。
(1)描述性统计分析项目
描述性统计分析是最基本、最常见的数据分析形式,常用的描述性统计分析项目如下。
① 描述数据的集中趋势:计算平均数、众数、中位数等。
② 描述数据的离散程度:计算最大值、最小值、平均差、极差、方差、标准差等。
③ 描述数据的分布形状:计算偏态与峰度。
描述性统计分析通常是其他数据分析的起点,它对于生成客户交易数据报告和KPI仪表板等非常有用。
(2)描述性统计分析案例
某网店8月8日共成交30笔订单,每个用户的客单价如表1-8所示,要求对客单价进行描述性统计分析。
表1-8 某网店8月8日的用户客单价
步骤1 在Excel中单击“数据”选项卡,在“分析”组中单击“数据分析”按钮,在弹出的“数据分析”对话框中选择“描述统计”选项,单击“确定”按钮,如图1-25所示。
图1-25 选择描述统计分析工具
步骤2 打开“描述统计”对话框,单击“输入区域”文本框右侧的按钮,在工作表中选择C2:C32单元格区域,并在“分组方式”栏中选中“逐列”单选按钮,选中“标志位于第一行”复选框,如图1-26所示。
图1-26 描述统计输入
步骤3 单击“输出区域”文本框右侧的按钮,选择E2单元格并选中“汇总统计”“平均数置信度”“第K大值”“第K小值”复选框;将“平均数置信度”设为95%、“第K大值”和“第K小值”分别设为5,如图1-27所示。
图1-27 描述统计设置
步骤4 单击“确定”按钮之后,即完成了客单价的描述性统计分析,如表1-9所示。从客单价的描述性统计结果可得出用户的消费能力,其中最高客单价为9995元,最低客单价为355元,平均客单价为3646.7元,客单价数据呈现尖峭峰高度偏态分布。
表1-9 客单价的描述性统计结果
知识链接:描述性统计指标
平均数——N个数相加除以N。
中位数——一组数据按大小顺序排列,排在中间位置的数据。
众数——一组数据中出现次数最多的数。
峰度——一种对称分布曲线峰顶尖峭程度指标,峰度系数<0,则呈现平阔峰分布;峰度系数>0,则呈现尖峭峰分布。
偏度——数据对称性指标,偏度系数<0,负偏态分布;偏度系数>0,正偏态分布;偏度系数>1,高度偏态分布;0.5<偏度系数<1,中等偏态分布。
方差——各个数据分别与其平均数之差的平方的平均数。
标准差——方差的算术平方根,反映一组数据的离散程度。
10. 方差分析法
方差分析法是指从观测变量的离散程度入手,研究诸多控制变量中哪些变量对观测变量有显著影响的方法。方差分析法(Analysis of Variance,ANOVA)又称变异数分析或F检验,是由现代统计科学的奠基人之一的费希尔发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,运用方差分析法研究所得的数据呈现波动状。
造成波动的因素可分成两类:一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。
11. 交叉分析法
交叉分析法通常是把纵向对比和横向对比综合起来,对数据进行多角度的综合分析的方法。案例如下。
① 交叉分析角度:客户端+时间。
某App第二季度(4月、5月、6月)的iOS端和Android端的客户数如表1-10所示。
表1-10 某App第二季度客户数
从表1-10可以看出,iOS端每个月的客户数在增加,而Android端每个月的客户数在减少,总计数据几乎没有增长的主要原因在于Android端数据的下降。
接下来分析为什么Android端第二季度的新增客户数在减少,这时一般需要加入渠道维度。
② 交叉分析角度:客户端+时间+渠道。
某App第二季度(4月、5月、6月)的iOS端和Android端的客户来源渠道分布如表1-11所示。
表1-11 某App第二季度客户来源渠道分布
从表1-11可以看出,Android端A预装渠道占比比较高,而且呈现下降趋势,其他渠道的变化并不明显。
由此得出结论:Android端第二季度新增客户数减少主要是因为A预装渠道的新增客户数减少。
所以说,交叉分析法的主要作用是从多个角度细分数据,从中发现数据变化的具体原因。
12. 时间序列分析法
时间序列是指按时间顺序进行排列的一组数字序列。时间序列分析法就是应用数理统计方法对相关序列进行处理,以预测未来事物的发展。时间序列分析法是定量预测方法之一,它遵循两个基本原理:一是承认事物发展的延续性,应用过去的数据就能推测事物的发展趋势;二是考虑到事物发展的随机性,任何事物的发展都可能受偶然因素的影响,为此要利用统计分析中的加权平均法对历史数据进行处理。该方法简单易行、便于掌握,但准确性差,一般只适用于短期预测。时间序列预测一般反映3种实际变化规律:趋势变化、周期性变化、随机性变化。
一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
① 趋势是时间序列在一段较长的时期内呈现出来的持续向上或向下的变动状况。
② 季节变动是时间序列在一年内重复出现的周期性波动,它是受气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
③ 循环波动是时间序列呈现出的非固定长度的周期性变动。循环波动可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落幅度相同的交替波动。
④ 不规则波动是时间序列中除去趋势、季节变动和循环波动之后的随机波动。不规则波动通常夹杂在时间序列中,使时间序列产生一种波浪形或振荡式的变动。
13. 文本分析法
文本分析(也称为文字分析或数据挖掘)法是指使用自然语言处理(Natural Language Processing,NLP)和机器学习探索、处理和分析非结构化文本数据,以便可以对其进行适当分析以获取有价值的信息的方法。文本分析是定性分析的一种形式,它不仅仅涉及统计信息和数值。
通过将人类语言转换为机器可读数据,文本分析工具可以按主题对文本进行排序,提取关键字并进行阅读。它以特定的、主观的数据告诉我们“正在发生的事情”,能够提供更深入、更有针对性的观点。例如,电商企业可以使用文本分析法来检测客户反馈中的意图,并了解品牌的哪些方面对客户来说很重要。
情感分析也是一种文本分析法,用于分析数据并将其分类为肯定、否定或中性,以获取客户对相关方面的情感倾向。百度开发了基于深度学习的中文情感分析工具Senta。
(四)电子商务数据分析的工具
1. R语言
R语言是一个用于统计计算和统计制图的优秀工具,它既是一种用于统计分析、绘图的语言,也是一种操作环境。R语言被广泛应用于数据挖掘、统计软件开发和数据分析中,Eclipse和Visual Studio等集成开发环境均支持这种语言。近年来,R语言因具有较好的易用性和可扩展性大大提高了知名度。除了数据,它还提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等。其分析速度可媲美GNU Octave,甚至商业数学软件MATLAB。RStudio是R语言的一个集成开发环境,在安装好R语言的官方版本后安装RStudio可以方便地使用R语言。RStudio界面如图1-28所示。
① R语言完全免费、开源。用户可在官方网站及其镜像网站中下载任何有关的安装程序、源代码、文档资料等,标准的安装文件自身带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。
② R语言是一种可编程的语言。R语言拥有开放的统计编程环境,语法通俗易懂,而且目前大多数新的统计方法和技术都可以在R语言中找到。
③ R语言具有很强的互动性。除了图形输出在另外的窗口,它的输入输出都是在一个窗口进行的;输入语法如果有错,马上就会在窗口中给出提示;对以前输入过的命令有记忆功能,可以随时再现、编辑、修改,以满足用户的需要;输出的图形可以直接保存为JPG、BMP、PNG等图片格式,还可以直接保存为PDF文件。此外,R语言和其他编程语言及数据库有很好的接口。
图1-28 RStudio界面
2. SPSS
SPSS软件平台提供高级统计分析、大量机器学习算法、文本分析等功能,具备开源可扩展性,可与大数据集成,并能够无缝部署到应用程序中。它的易用性、灵活性和可扩展性使得各种技能水平的用户均能使用。此外,它还适合各种规模和复杂程度的项目,可帮助企业找到新商机、提高效率并最大限度降低风险。在SPSS软件产品系列中,SPSS Statistics支持利用自上而下的假设测试方法处理数据,而SPSS Modeler可通过自下而上的假设生成方法揭示隐藏在数据中的模式和模型。SPSS官网界面如图1-29所示。
SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示各种功能选择项。用户只要掌握一定的Windows操作技能,了解统计分析原理,就可以使用该软件。
图1-29 SPSS官网界面
3. MATLAB
MATLAB是数百万工程师和科学家都在使用的编程和数值计算平台,支持数据分析、算法开发和建模。MATLAB官网界面如图1-30所示。
图1-30 MATLAB官网界面
MATLAB将适合迭代分析和设计过程的桌面环境与直接表达矩阵和数组运算的编程语言相结合,可让用户看到不同的算法如何处理数据。MATLAB包括假设检验(参数检验和非参数检验)、回归分析(一元回归和多元回归、线性回归和非线性回归)、方差分析(单因子、多因子、一般线性模型等)、时间序列分析、图表(散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、单值图、饼图、区间图、Pareto、Fishbone、运行图等)、并行计算、蒙特卡罗模拟和仿真、统计过程控制(Statistical Process Control,SPC)、可靠性分析(分布拟合、检验计划、加速寿命测试等)等功能。
4. Excel
Excel是常用的数据分析工具,在制图方面也较为优秀。与当前流行的数据处理图形软件MATLAB、SigmaPlot、SPSS等相比,Excel不需要用户具备一定的编程知识和矩阵知识,图表类型多样,图形精确、细致、美观,操作灵活、快捷,图形随数据变化呈即改即现的效果,既能用于绘制简单图形,也能用于绘制较为复杂的专业图形。Excel与SPSS之间可以进行数据、分析结果的相互调用。
Excel作为数据分析的入门级工具,是快速分析数据的理想工具,但是用Excel分析出的结果包含的信息量少,且在颜色、线条和样式等方面的选择有限,这也意味着用Excel很难制作出符合专业出版物和网站需要的数据图。
5. 水晶易表
水晶易表(Crystal Reports)为小型企业提供智能报表功能,可以创建、设计和交付格式化的动态业务报表,进而简化并加速决策流程。水晶易表利用简单的拖放功能即可创建直观的报表,并提供排序和分组指导。水晶易表采用高度格式化的内容,提供视觉效果较好的文档和表单,可嵌入动态图像和条形码。对于超出常规的业务报表,水晶易表可创建发票、信函、销售和运营报告、促销活动和会员卡报告等,并可即时分享。水晶易表官网界面如图1-31所示。
图1-31 水晶易表官网界面
6. Power BI
Power BI是微软推出的可视化数据探索和交互式报告工具,包含一系列的组件和工具。它的核心理念就是让用户不需要拥有强大的技术背景,只需要掌握Excel这样简单的工具就能快速进行商业数据分析及实现数据可视化。Power BI界面如图1-32所示。
图1-32 Power BI界面
7. 百度统计
百度统计是百度推出的一款稳定、免费、专业、安全的数据统计分析工具,它能够为Web系统管理者提供准确、实时的流量质量和访客行为分析,帮助监控日常指标,为实现系统优化、提高投资回报率等目标提供指导。百度统计界面如图1-33所示。
图1-33 百度统计界面
百度统计目前能为用户提供几十种图形化报告,帮助用户完成以下工作。
(1)监控网站运营状态
网站分析最基本的应用就是监控网站运营状态。百度统计能收集网站日常产生的各类数据,包括浏览和访客数据等,并通过统计这些数据生成网站分析报表,对网站的运营状态进行系统的展现。从浏览数据的变化趋势到比较新老用户比率等,运营者可以利用数据从多角度观察网站状况是否良好。
(2)提升网站推广效果
常见网站推广方式主要包括SEO(Search Engine Optimization,搜索引擎优化)、SEM(Search Engine Marketing,搜索引擎营销)和广告投放推广。SEO分析主要是分析网站在各搜索引擎上的搜索词排名和点击情况,以及网站在各搜索引擎上的收录、排名和展现情况。SEM分析是通过了解从搜索引擎商业推广结果页导入的流量后续表现,进而调整网页在搜索结果页上的排名,并针对搜索引擎用户展开营销活动。另外,网站分析可以定制化地细分来源和访客,从而进行有针对性的广告投放推广。
(3)优化网站结构和体验
百度统计通过分析网站的转化路径,定位访客流失环节,有针对性地查漏补缺,后续通过热力图等工具有效地分析点击分布和细分点击属性,摸清访客的常规行为和人口学属性,从而提升网站的吸引力和易用性。
8. Google Analytics
Google Analytics(谷歌分析)是Google为网站提供的数据统计服务工具,其提供的各种API(Application Programming Interface,应用程序接口)能帮助企业收集、配置及报告用户与网站内容进行互动的数据。开发者可通过丰富的界面、客户端库和API与数据处理过程互动并对其施加影响。这些界面、库和API可分为4个主要组件:数据收集、配置、数据处理和报告。Google Analytics界面如图1-34所示。
图1-34 Google Analytics界面
(五)电子商务数据分析的模型
常用的电子商务数据分析模型主要有AIPL模型、AARRR模型、漏斗模型等。漏斗模型将在任务四进行详细讲解。
1. AIPL模型
AIPL模型即用户人群分类模型,将品牌人群细分为如下4类。
A(Awareness):品牌认知人群,一般指与品牌被动发生接触的人群,如品牌广告触达和用品类词搜索的人。
I(Interest):品牌兴趣人群,一般指与品牌主动发生接触的人群,如广告点击、浏览品牌/店铺主页、参与品牌互动、浏览商品详情页、用品牌词搜索、领取试用、订阅/关注/入会、加购收藏的人。
P(Purchase):品牌购买人群,包括发生过购买行为的人。
L(Loyalty):品牌忠诚人群,如购买人群中发生了复购行为或对品牌有正面评价、分享的人。
AIPL模型本质上是将各类电商行为数据进行清洗,建立一个综合模型。行为数据包括品牌商品的曝光、点击、浏览,用户的搜索、成交、加购、分享等行为形成的数据。AIPL模型属于一个综合的计算模型。表1-12以阿里AIPL为例,展示其计算逻辑。
表1-12 阿里AIPL的计算逻辑
在AIPL计算逻辑的基础上,计算某个品牌有多少认知用户、多少兴趣用户、多少购买用户、多少忠诚用户,这4类用户的总和就是该品牌的消费者资产。电商企业可据此对消费者资产进行数据监控,以衡量各营销活动的效果。与传统营销活动相比,它有了量化的衡量尺度,规范了营销活动的评价标准。阿里巴巴品牌数据银行就是基于该模型进行多维度的洞察分析。
2. AARRR模型
AARRR模型是产品经理需要掌握的一个数据分析模型,是由硅谷的风险投资人戴维·麦克鲁尔在2008年创建的。AARRR分别是指获取(Acquisition)、激活(Activation)、留存(Retention)、收入(Revenue)和推荐(Refer),分别对应某一款产品生命周期中的5个重要环节,如图1-35所示。
图1-35 AARRR模型
(1)获取
运营一款产品的第一步,毫无疑问是获取用户;没有用户,就谈不上运营。
所谓获取用户,其实就是商家从各个渠道发布产品的相关信息,然后吸引用户前来访问的过程。既然是从各个渠道获取用户,那么每个渠道获取用户的数量和质量都是不一样的,这个时候商家就要留心每个渠道转化过来的用户数量和质量,重点关注那些投资回报率比较高的推广渠道。
(2)激活
获取用户后,如何把他们转化为活跃用户,是商家面临的第一个问题。用户能否被激活,一个重要的因素是推广渠道的质量。质量差的推广渠道带来的是大量的一次性用户,即只访问一个页面就离开的用户。严格意义上说,这种用户不能算是真正的用户。质量好的推广渠道往往能有针对性地圈定目标人群,其带来的用户和网店设定的目标人群有很高的吻合度,这样的用户通常比较容易被激活,成为活跃用户。另外,商家在挑选推广渠道的时候一定要先分析自己网店的特性(如销售的产品的品牌是否为小众品牌)及目标人群,可能某一推广渠道对有的网店来说很不错,但对另外一些网店不一定合适。
用户能否被激活的另一个重要因素是产品本身是否能在用户访问之初的几秒内吸引用户。再好的产品,如果给人的第一印象不好,也可能会无人问津。
用户被激活,说明产品对于用户是有吸引力的,用户愿意在网店里发生一系列行为。
(3)留存
用户被激活后,又会出现另外一个问题——“用户来得快,走得也快”,即用户没有黏性,因此商家需要考虑如何留住用户。
保留一个老用户的成本通常要远远低于获取一个新用户的成本,“狗熊掰玉米”(掰一个、丢一个)的情况是网店运营的大忌。但是很多商家并不清楚用户是在什么时候流失的,于是一方面不断地开拓新用户,另一方面又不断地有大量用户流失。
要想解决这个问题,商家首先需要通过日留存率、周留存率、月留存率等指标监控网店的用户流失情况,并在用户流失之前采取相应的手段,激励这些用户继续光顾网店。
(4)收入
商家可以通过很多种方法增加收入,如通过营销手段获取更多的用户来购买产品,拓展广告业务,通过提高单个用户的价值来增加收入等。
获取收入是电商运营最核心的部分,所以运营人员要关注一个指标——投资回报率(Return on Investment,ROI),计算公式为:
投资回报率=某个时间周期的利润/投入成本×100%
从公式可以看出,商家可以通过降低投入成本提高投资回报率,或者通过提高单位投入的产出提高投资回报率。投资回报率的优点是计算简单,它往往具有时效性——回报通常是基于某些特定时间段的。
前面提到的激活用户、提高留存率对获取收入来说是必需的,只有用户基数大了,收入才有可能大规模增加。
(5)推荐
随着社交网络的兴起,运营增加了一个推荐环节,就是基于社交网络的病毒式传播,这已经成为商家获取用户的一个新途径。推荐的成本很低,但效果可能非常好;推荐的前提是产品自身要足够好,有很好的口碑。推荐效果可用K因子(K-factor)来衡量,它是指一个发起推荐的用户可以带来多少个新用户,计算公式为:
K-factor=客均邀请人数×受邀转化率
当K-factor>1时,新增用户数会像滚雪球一样增大,电商运营就形成一个螺旋式上升的轨道。而那些优秀的商家就可以很好地利用这个轨道,不断扩大自己的用户群体,被更多的用户所熟知和认可。
通过AARRR模型,我们看到获取用户只是整个电商运营中的第一步。如果电商企业只注重推广,不重视运营中的其他几个层次,那么电商企业的前景必定是暗淡的。
下面我们通过一个例子来展示如何用AARRR模型来衡量一个渠道的流量质量。
某网店通过渠道A和渠道B引流的情况如图1-36所示。
图1-36 渠道A和渠道B引流的情况
仅从表面数据来看,渠道A会更划算,但实际上这个结论是有问题的;用AARRR模型具体分析如下。
渠道A的AARRR模型如图1-37所示,单个激活用户成本(Cost Per Activation,CPA)是6元,单个留存用户成本(Cost Per Retention,CPR)是60元,单个付费用户成本(Customer Acquisition Cost,CAC)是300元。渠道A有500个用户在朋友圈里推荐该网店的产品,假设每个用户的朋友圈人数平均为100人,朋友圈里的朋友看到推荐后转化为新客户的转化率为10%。那么渠道A的K因子为K-factor=(500×100)/100000×10%=0.05,这说明渠道A通过老用户推荐引进新用户的能力偏弱。
图1-37 渠道A的AARRR模型
渠道B的AARRR模型如图1-38所示,单个激活用户成本是11元,单个留存用户成本是20元,单个付费用户成本是33元。渠道B有10000个用户推荐了该网店的产品,则K-factor=(10000×100)/50000×10%=2,这说明渠道B通过老用户推荐引进新用户的能力强,新增用户数呈现滚雪球式增长。
图1-38 渠道B的AARRR模型
通过对比可以发现,渠道B的流量质量远远优于渠道A的流量质量,因此建议该网店在渠道B投入更多的营销资源。