1.1.1 数据与数据分析
用数据驱动决策是当前大数据环境下做好企业运营的必选策略之一,数据分析应贯穿电商运营的始终,是企业运营者不断提高经营利润的有力武器。
1.数据
数据是事实或观察的结果,是记录客观事物的性质、状态及相互关系的符号或符号的组合。数据不仅指狭义上的数字,还包括具有一定意义的文字、字母、图形、图像、视频、音频等,以及客观事物的属性、位置及其相互关系的抽象表示。例如,“100、1 000、2 000”这些数字是数据;“上升、下降”可以表示某款商品月销售额的变化情况,这些文字也是数据。商务数据就是记录商业、经济等活动的符号。
按照数据的表现形式,电商运营过程中产生的数据可以分为数值型数据和文本型数据。
(1)数值型数据
数值型数据主要由数字组成,多是结构化的数据,例如商品的销量为13 455件、网店的月销售额为102 365元、商品的好评率为98%等,这些数据就是数值型数据。
(2)文本型数据
文本型数据是指不能参与计算的文字数据,包括中文字符、英文字符、数字字符(非数值型)等,例如,店铺内销量排名前3的商品为连衣裙、印花T恤、阔腿裤,其中“连衣裙”“印花T恤”“阔腿裤”就是文本型数据。
2.数据分析
数据分析是指收集、处理数据,并从数据中获取信息的过程。具体来说,数据分析是指运用适当的分析方法和分析工具对获取的数据进行处理,将这些数据加以汇总和理解,以求最大化地开发数据的功能,发挥数据作用的过程。
数据分析可以分为描述型分析、诊断型分析、预测型分析和指导型分析。
(1)描述型分析
描述型分析解决的是“发生了什么”的问题,通过将大量杂乱的数据进行提炼、整理,进而说明事物的整体情况及事物之间关系。
图1-1所示为某网店运营数据,这些数据展示了网店运营的相关情况,运营者可以从中发现异常,但无法获悉导致这些情况发生的原因。
(2)诊断型分析
诊断型分析解决的是“为什么会出现某种情况”的问题,其目的是帮助运营者了解导致某件事情发生的原因。例如,为什么本场直播的观看人数增加了,直播间商品转化率却下降了2%。运营者通过分析直播数据发现,本场直播的直播间商品点击人数为1.2万人,直播间商品成交人数为3 905人。也就是说,很多用户虽然点击并浏览了直播间商品,但他们并没有下单购买。此时,运营者可以猜测导致直播间商品转化率下降的原因可能是直播间的选品不符合用户需求,或者是商品价格不具备吸引力等。
图1-1 网店运营数据
(3)预测型分析
预测型分析是进行某种预测,解决的是“可能会发生什么”的问题,例如预估某场直播的销售额,预测直播电商行业的发展趋势等。
预测型分析用到的各种数据与预测结果是存在某种关系的,例如,直播用户的不断增多可能会推动直播电商的发展,因此就可以说网络用户规模与直播电商发展具有相关性。此时,运营者可以将体现网络用户规模的数据与体现直播电商发展的数据放在一起进行分析,以挖掘这些数据背后的关系。
(4)指导型分析
指导型分析是在描述型分析、诊断型分析和预测型分析的基础上,帮助电商运营者制订更合理的运营方案或策略。例如,运营者在选择直播间上播的商品时,需要综合分析商品价格、商品与直播主题的契合度、商品在店铺中的销量等情况,选出最适合上播的商品。
3.数据分析常用术语
运营者进行商务数据分析时,为了能够对数据做出更加科学的分析和判断,非常有必要了解一些常用的数据分析术语。
(1)绝对数与相对数
绝对数是总量指标,它是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标,例如“今年公司的年销售额为1 000万元”“直播间的粉丝人数为500万人”等。绝对数也可以表现为某现象总体在一定时间、地点条件下数量增减变化,例如“A商品的年销售额比B商品的年销售额多100万元”。
相对数是两个有联系的指标的比值,它可以从数量上反映两个相互联系的现象之间的对比关系。相对数一般以倍数、成数、百分数等表示,用于反映客观现象之间的关联程度,例如“公司女员工人数占比20%”“公司男女员工比例为5:1”“本月销售额是上个月销售额的2倍”“本季度销售额只完成了预期的7成”等。
(2)百分比与百分点
百分比是指用百分率表示的两个数的比例关系,例如某班50名学生当中有20名是女生,则这一班中女生所占的百分比就是40%。在数据分析中,具有明确基数的百分比才有意义,如果受众不知道某百分比的基数是多少,那么这个百分比是缺乏依据的。
百分点在统计学上指以百分数形式表示的不同时期相对指标变动幅度,百分之一为一个百分点,例如“本年度网上零售在社会消费品零售总额中占比为30.0%,而上一年度网上零售在社会消费品零售总额中占比为21.3%”,就可以说“本年度网上零售在社会消费品零售总额中的占比比上一年度提高了8.7个百分点”。
(3)频数与频率
频数是指一组数据中个别数据重复出现的次数。例如,某淘宝店铺共有1 000个粉丝,将粉丝按性别分为男、女两个组别,男粉丝为200人、女粉丝为800人,则男粉丝和女粉丝的频数分别为200和800。
频率是指一组数据中某个数据出现的次数与总次数的比值。它代表数据在总体中出现的频繁程度,一般用百分数表示,所有数据的频率相加等于100%。仍以前述拥有1 000个粉丝的淘宝店铺为例,男粉丝在1 000个粉丝中出现的频率为20%,即(200÷1 000)×100%=20%;女粉丝在1 000个粉丝中出现的频率为80%,即(800÷1 000)×100%=80%。
(4)比例与比率
比例是指总体中各部分的数据占全部数据的比重,各部分的比例之和等于1,通常反映的是总体数据的构成和结构。
比率是指样本(或总体)中各个类别数据之间的比值,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系,因此比值可能大于1。
例如,某电子类商品的总销量为1 000部,其中手机销量为600部、平板电脑的销量为400部,则手机的销量比例为600:1 000、平板电脑的销量比例为400:1 000、手机与平板电脑的销量比率为600:400。
(5)倍数与番数
倍数是一个数除以另一个数所得的商,一般表示数据的增长或上升幅度,而不适用于表示数量的减少或下降。
番数是指原来数量的2的N次方倍。例如,公司上一年度利润为200万元,本年度利润比上一年度翻了一番,即本年度利润为200×21=400(万元);本年度利润比上一年度翻了两番,即本年度利润为200×22=800(万元)。
(6)人均数据
人均数据是指将要比较的数据总数除以总人数所得到的数据。它属于相对数,是由两个存在某种联系的指标对比计算得出的数据,是能够反映客观现象之间数量关系的综合指标。
(7)方差
方差是指每个样本值与全体样本值平均数之差的平方值的平均数,用于表示每一个变量(观察值)与总体平均数之间的差异。在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
(8)标准差
标准差是指各个数据偏离平均数的距离的平均值,它是方差的算术平方根,能够反映一组数据从均值分散开来的程度。
(9)算术平均数
算术平均数分为简单算术平均数和加权算术平均数,商务数据分析中常用的是简单算术平均数。简单算术平均数是未分组的原始数据的算术平均数。将数据集合中所有数据之和除以数据个数,即可得到简单算术平均数,其计算公式如下。
简单算术平均数=所有数据之和÷数据个数
例如,某网店内8款同类目的商品在2022年8月11日的日销售额分别为1 346元、2 228元、4 339元、3 189元、2 912元、3 368元、3 097元、2 309元,那么2022年8月11日该网店这8款商品的平均日销售额=(1 346+2 228+4 339+3 189+2 912+3 368+3 097+2 309)÷8=2 848.5(元)。这样运营者能快速找出日销售额大于平均日销售额的商品,然后分析这些商品日销售额较高的原因,并分析这些商品在选款、商品标题设置、价格设置等方面有哪些优势。
简单算术平均数能很好地反映一组数据的平均水平,但它容易受到极端值的影响。当数据集合中存在极端值时,数据分析结果往往不能反映数据的真实特征。例如,某网店在2022年9月1日至9月7日某款商品的日销售额分别为101 289元、3 215元、3 230元、2 646元、4 698元、1 563元、2 860元,则该网店此款商品在此期间的平均日销售额为17 072元(保留到整数位)。如果单看平均日销售额,此款商品的平均日销售额在该网店中是比较高的,但很明显,这是因为第一个数据是极端值,它拉高了整体数据的平均数。由此可见,极端值的出现会使简单算术平均数的真实性受到干扰,此时运营者可以考虑使用中位数进行分析。
(10)中位数
将数据集合中的所有数据按照升序或降序的方式排列,居于最中间的数据即为该集合的中位数。若集合中数据个数为奇数,则最中间的数据为中位数;若集合中数据个数为偶数,则最中间两个数据的算术平均数为中位数。例如,在数据集合{2,5,6,9,13,15,20}中,中位数为9;在数据集合{3,5,6,8,9,12,13,17}中,中位数为(8+9)÷2=8.5。
中位数是通过排序数据得到的,它不受最大、最小两个极端值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用中位数描述这组数据的集中趋势。
例如,某网店在2022年9月1日至9月7日某款商品的日销售额分别为101 289元、3 215元、3 230元、2 646元、4 698元、1 563元、2 860元,该数据集合中存在极端值101 289,此时运营者可以选择用中位数反映这组数据的平均水平。将数据集合{101 289,3 215,3 230,2 646,4 698,1 563, 2 860}按照从大到小的顺序进行排列,得到{101 289,4 698,3 230,3 215,2 860,2 646,1 563},中位数为3 215,显然它比17 072更合理。
(11)众数
众数是指一组数据中出现次数最多的数据,它反映了一组数据的集中程度。例如,数据集合{1,2,3,3,4}的众数是3。有时一组数据中的众数不止一个,例如,数据集合{1,2,2,3,3,4}的众数是2和3。如果在一组数据中所有数据出现的次数都一样,那么这组数据没有众数。众数用来代表一组数据的“多数水平”,它与数据出现的次数有关,用于对各数据出现的频率进行考察,其大小只与这组数据中的部分数据有关,不会受到极端值的影响。
通过分析数据重复出现的次数,可以发现数据的某些规律。在日常生活中,诸如“最佳”“最受欢迎”“最满意”等描述都与众数有关系,它反映了一种普遍的倾向。例如,表1-1所示为运营者统计的9月直播间内销量排名前10的商品及其所属品类,从中可以发现“食品类”出现的次数最多,即这组数据的众数是“食品类”。那么可以初步推断,9月“食品类”商品在直播间是比较受欢迎的。
表1-1 9月销量排名前10的商品及其所属品类
作为一组数据的代表,众数的可靠性比较差,因为它只利用了部分数据。但是,在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用众数表示这组数据的“集中趋势”就比较适合。