2.3 Tableau Desktop初级可视化:过程与方法
上面我们介绍了数据可视化分析的思维转变和基本概念,接下来就可以秀一下Tableau Desktop的简洁易用了。作为业务背景、文科专业的数据分析师,Tableau Desktop让笔者感受到一种跨越行业、翻山越岭的救赎感。
简而言之,使用Tableau完成一个完整的数据分析主题分为数据准备、数据可视化、理解与分享三大环节(见图2-16),分别在Tableau Desktop的“数据连接面板”“可视化分析面板”和服务器网页端实现。
图2-16 数据分析的基本过程
记住一点:最常见的动作是拖曳!
2.3.1 数据连接:建立连接和基本整理
数据无处不在,分析始于连接。不管是本地数据,还是数据库数据,甚至云端数据,Tableau都能轻松连接。2019年,Tableau母公司与阿里云合作,支持阿里云数据库。初次使用Tableau时,从接入数据源开始,常见的数据库有Excel、文本文件(包括.txt、.csv等格式)、空间文件(以.shp格式为代表)、统计文件(R或SAS等文件格式);SQL Server、Oracle、SAP HANA、MySQL、PostgreSQL、Hadoop Hive等。
打开Tableau Desktop软件,默认会显示常见的文件列表。点击左侧的数据连接方式,或者左上角的Tableau标志,选择相应文件即可建立连接,如图2-17中位置a所示。
图2-17 数据连接的常用功能
对于本地文件而言,笔者通常直接拖曳文件到软件中。在此,以“示例-超市.csv”为例,通过拖曳建立数据连接,之后设置为“字段名称位于第一行中”(见图2-17位置d),单一数据表的连接就轻松完成了。
数据连接面板功能强大,设置简单,按照功能分为图2-17所示的几大区域。常见的注意事项和操作有如下几种。
● 如果要新建一个独立的,和当前数据源完全无关的新数据源,应该“新建数据源”,如图2-17中位置b所示,点击小三角,在弹出的下拉菜单中选择“新建数据源”,或者在菜单栏中点击“数据→新建数据源”创建。图2-17中位置c处的蓝色“添加”按钮用于跨数据源连接(Join),会在第4章介绍。
● 如果.csv文件或者文本文件等连接后标题默认是F1、F2、Fn,则说明Tableau Desktop没有有效地识别标题行,此时需要手动设置“字段名称位于第一行中”;如图2-17中位置d所示,点击当前连接旁边的小三角,在弹出的菜单中选择。
● 如果导入的Excel文件有多个标题行、合并单元格等不规范数据,导致无法识别,则可勾选“连接”窗格中的“使用数据解释器”,大部分情况下会完美解决,如图2-17中位置e所示。第4章提供了一个使用此功能的完整案例。
● 数据连接默认为实时连接。如果希望提取样本加速分析,或者把工作带回家离线分析,则可选择“数据提取”,必要时可以添加提取的条件(比如仅提取2020年),如图2-17中位置f所示。
● 连接之后,第一个关键动作往往是筛选有效的数据,比如排除异常值、仅查看2020年数据,那么应该使用右上角的“筛选器”,如图2-17中位置g所示。
● 如果需要多个文件并集或者连接(Join),则使用最新的“数据模型”构建模型,就进入了高级功能部分,详见第4章。
● 如果需要对数据字段做一些简单整理,比如更改数据类型、隐藏不必要字段等,如图2-17中位置h所示,则可以在界面下方的数据预览区域完成,这里是数据处理和清洗的加工区域。更多的数据整理方法,详见第3章介绍。
另外,数据连接面板提供了两种显示方式,如图2-18所示,默认的“预览”窗格可以查看数据中的值,方便数据整理;也可以更改为“元数据”窗格,更适合对字段做处理。
图2-18 通过数据预览或者“元数据”窗格更改类型或者简单设置
数据连接面板中功能可以分为两类:数据连接类与数据整理类,其中数据整理包括并集、数据解释器和重命名、拆分、组等功能。如图2-19所示,笔者用一个可视化图形来介绍这些主要功能的使用场景和在面板中的相对位置。
图2-19 数据连接面板的主要功能
对于新手而言,必须完成的工作是单表数据连接、确认标题正确(设置标题行或使用解释器)、修改字段类型,然后就可以开始可视化之旅。高级用户还可以做数据深度整理、数据连接、数据计算,这些功能也散布在后面的分析过程中。
本书会在第3章深入介绍数据整理相关内容,并在第4章深入介绍数据连接,以及Tableau 2020.2版本新增的数据模型功能。
2.3.2 数据可视化:基本方法与基本图形
建立数据连接之后,我们就可以点击下方的“工作表”开始可视化分析了,这里是Tableau Desktop的主阵地。
Tableau Desktop可视化界面功能很多,但是核心区域简单明了。“行/列”控制视图的主干:生成标题或者坐标轴,而“标记”控制中间的显示方式和内容。初学者需要做的就是把左侧“数据”中的字段拖曳到相应的位置——这种从左到右的拖曳操作,构成了Tableau Desktop的主要操作方式。新手通常不了解不同图形的组合方式,此时可以借助双击字段自动加入,或者借助右上角“智能显示”的帮助,如图2-20所示。
图2-20 拖曳生成视图的逻辑
通过拖曳生成的逻辑,就是2.2节基础概念的总结:
维度决定层次,度量默认聚合;
离散生成标题,连续生成坐标轴。
举个简单的可视化例子,“不同细分的客户随年度的销售额增长趋势”。这个问题有两个维度字段:细分、年度(订单日期),一个度量字段:销售额。如图2-21所示,先把订单日期和销售额字段分别拖曳到“列”和“行”中,连续的日期和连续的销售额自动创建坐标轴,4个年度的数据点都对应视图中的一个点。Tableau Desktop自动用“线”把数据点相连。再把“细分”字段拖到“标记”的“颜色”中,详细级别就调整到了“年*细分”。
视图中的字段看上去就像“胶囊”,因此Tableau Desktop经常用胶囊代指视图中的字段。每个胶囊都具有维度/度量、连续/离散属性,度量字段前面都会有聚合方式,而连续字段和离散字段分别用绿色和蓝色表示,可谓非常直观。
图2-21 可视化图表的主要元素
我们可以把视图的行字段和列字段所构建的框架视为可视化图表的主干。而两个坐标轴之内的图形样式、图例标记甚至鼠标的悬浮提示,视为可视化主干上的枝叶果实,比如图2-21中的折线、折线上的销售额标签。维度字段“细分”和“订单日期”一起决定了可视化的层次,即在哪个数据层面来展示数据结果,而每个点的销售额聚合则代表答案。
因此,每个可视化图表包含两个部分:决定在哪个层次上生成图表的维度,和在这个层次上展示什么内容的度量。
1.生成可视化图表的快捷方式
对于新手而言,有以下几种常见的生成可视化图表的方法(见图2-22)。
● 双击左侧的字段,Tableau Desktop自动把字段加入视图区域对应的位置,加入多个字段后,可以点击“智能显示”调整图表的类型。
● 按下Ctrl键的同时单击鼠标可以选择多个字段,然后点击“智能显示”中的相应图表,一次性把字段加入视图。
图2-22 创建可视化视图的常见方式
当然,你很快会发现这种“傻瓜相机”的方法不能满足你的需求了,因此就需要自主地把字段拖曳到右侧的相应位置中——相当于相机的自定义模式。此时,我们需要掌握拖曳背后的可视化逻辑,举一反三,不断进步。结合前面的基础概念,必须将以下的Tableau Desktop的逻辑基因熟记于心:
维度决定层次,度量默认聚合;
行列搭建主干,标记调整图形,
离散生成标题,连续生成坐标轴。
在可视化分析中,最常见的功能已经被整合在Tableau Desktop的快速工具栏中,建议新手务必熟悉,可以节省大量的操作时间,如图2-23所示。
图2-23 Tableau Desktop快速工具栏
2.快速创建可视化图表并修饰
常见图表如条形图、折线图、饼图、散点图等,都可以通过“智能显示”或者拖曳实现。下面我们以Excel中常见的条形图和折线图为例,来说明Desktop可视化的步骤和灵活性。
我们要用条形图代表“不同子分类的销售额”,“子分类”是维度,决定视图的详细级别,“销售额”是度量,聚合描述分析的结果。只需要依次双击“销售额”“子分类”,则生成柱状图,如图2-24所示;之后使用快捷工具栏中的“交换行和列”按钮,将其变更为条形图。
图2-24 创建条形图
这个多步操作和下面的步骤结果是完全一致的:按住Ctrl键的同时选择子分类与销售额字段,然后点击“智能显示”中的条形图。
判断一个可视化图表是否优秀的最简单标准,是访问者能否仅仅依赖眼睛的直觉快速获得你想要表达的数据背后的逻辑关系。在上面的条形图或者柱形图中,显然做不到这一点,我们既无法直观看到哪些子分类的销售额更好,也无法分辨哪几个子分类的销售额更差。因此,这里还需要稍加修改,使用快捷工具栏上面的“排序”按钮增加视图排序。如果我们想进一步突出销售最高的子分类,还可以借助颜色来增强视觉效果,把“销售额”拖动到“标记”的“颜色”中,连续的度量会被着以渐变色(推荐按住Ctrl键/Command键,从列中拖曳绿色的胶囊到“标记”的“颜色”中),如图2-25所示。
图2-25 为条形图增加颜色数据
笔者将借助于“标记”功能对可视化所做的修饰,以及多种字段处理技术统称为“可视化增强分析”,在第5章将会深入介绍其用法。
再比如,用折线图来展示“销售额多年来各季度的变化趋势”,依次双击“销售额”和“订单日期”字段,日期会自动聚合为“年”,然后生成折线图。不过默认的订单日期(年)是离散的,如图2-26左侧所示;单击“年(订单日期)”胶囊选择连续的“季度”(各年各季度),这样就可以调整视图的详细级别。日期是具有层次性、连续性的特殊维度字段,第5章会详细介绍。
图2-26 通过更改日期胶囊更改视图的详细级别
你会发现,即便是初学者,也可以通过简单的拖曳、点击或者“智能显示”快速生成可视化图表。
对于初学者而言,下面有几个比较实用的小建议,供读者参考。
(1)如果你想生成图表,则先双击度量,再双击维度;而在复杂的分析场景中,通常先用数据交叉表(类似于Excel的数据透视表)验证逻辑,此时先双击维度再双击度量。
(2)“行”和“列”中的字段是可视化图表的主干,“标记”是枝叶果实,因此把最关键的字段放在“行/列”中,之后把其他字段加入“标记”,并调整标记类型。
(3)先思考,再行动,相信你的直觉。想用颜色、大小、文本等显示某个数据,就把它拖到对应的“标记”中。
一旦熟悉了Tableau Desktop可视化的基本操作,就可以快速地生成各种常见的可视化图表。Tableau Desktop支持非常多的可视化图表,按照问题分类,我们可以先看一下图2-27所示的类别。在第5章会详细介绍传统三大图表和大数据三大图表的制作方法。
图2-27 Tableau Desktop中的常见图表
也有人疑问,为什么很多BI分析软件动辄支持几百个图表,而Tableau Desktop却只有寥寥几种?
简单地说,这是产品的基因决定的。传统的BI分析面向以IT为主的开发工程师,他们了解数据胜过了解业务问题,因此设计思路是“从图表引导到数据填入”;而Tableau代表的敏捷BI分析面向业务人员,他们了解问题和需求,因此设计思路是“从问题引导到图表”,我们只有特定的问题类型,也只有数量有限的最佳图表,这样的方式能减少分析者的选择困难。
也可以把“从问题到图表”的敏捷BI分析比作按需定制的烹饪,美味可口还是难以下咽是厨师的功夫;而“从图表到数据”的传统BI分析则更像自助餐和烧烤,胜在类型齐全、味道独家,但在多维度的层次分析、关联分析、交互分析等方面,就欠缺灵活性和敏捷性。
对于业务分析师而言,起点是问题和业务,而非数据;敏捷BI只是顺应业务分析的趋势,而无意于证明过去的方法错误。
2.3.3 数据洞察:组合与互动
前面我们已经创建了几个工作簿,相当于DIKW模型中从数据到信息的阶段。工作簿用来展示在单一问题上的数据分析,在实际场景中,分析大多数基于更加复杂的场景,比如“查看每个省份的多年销售额成长趋势”“查看每个省份的各商品类别销售额”等。为了表达多个层次之间的数据关系,Tableau Desktop中还有两种组合工作表的方式:仪表板(Dashboard)和故事(Story)。
工作表、仪表板和故事构成了Tableau Desktop展示数据及其逻辑关系的主要形式,三者的区别可以概括为如下几点。
● 工作表(Workbook):展示单一问题的数据关系(从数据到信息)。
● 仪表板(Dashboard):展示多个工作表之间,即多个层次间的数据关系(信息中包含的数据逻辑)。
● 故事(Story):展示多个工作表或仪表板之间的先后或者并排关系,通往特定的数据见解(知识)。笔者通常把Tableau Desktop的故事称之为“DataPoint”,以代替用PowerPoint展示数据的传统方式,如图2-28所示。
图2-28 故事是数据幻灯片
在Tableau Desktop中,创建仪表板的方式非常容易,如图2-29所示,常见的方法是点击快速工具栏的“新建”按钮,选择“新建仪表板”命令。这种方式有助于控制插入仪表板或者故事的位置。而通过底部的“新建仪表板”命令创建时,新的仪表板总是在最后面,往往不是我们想要的位置。
图2-29 创建仪表板的两种方法
仪表板是不同工作表、对象的组合,文本、图像、按钮、空白、网页对象是容纳特定内容样式的内容容器,水平和垂直对象是同时容纳多个工作表或文本、图形的布局容器。初学者可以先不借助水平和垂直对象,而是通过直接拖曳工作表创建仪表板。
通常,仪表板的首行是关键文本说明(往往是标题和数据发现)、关键筛选器、公司Logo等;左上角是最重要的工作表,按照问题中包含的数据关系、Z字形依次排列各个数据主题,如图2-30所示。
图2-30 仪表板常见操作
仪表板的魅力在于互动,在于多种方式与数据“交流”。在图2-30所示的仪表板中,可以基于第一个工作表建立筛选器,从而建立与其他工作表的联动查询。
仪表板的展示方式是按照问题的逻辑和最佳可视化实践的原则,把多个工作表有序地组合在一起,并能与数据交互对话。
● 从工作表、仪表板到故事,起点都是数据分析师对问题的理解,不同的理解会导致不同的数据展示。
● 表达形式虽因理解问题的角度而有所不同,但最佳可视化的原则却大致相同,因为人的直觉判断方式和对美的理解有高度相似之处。
● 最佳可视化的基本特征是允许每个人都能与数据对话,满足差异化的分析需求,这就是通过互动进一步增强数据发现的功能。
更多的互动效果和仪表板设置方法会在第7章详细介绍,其中包括筛选、高亮、跳转、集动作和参数动作等。
2.3.4 分享数据见解
数据分析的目的是决策,决策往往依赖于更大范围的共识。在大数据时代,商业环境和数据变化同样迅速,经验丰富的决策者也必须依赖数据分析所提供的线索和指引,这就需要数据分析师不断完善分析模型,并能将数据见解实时地共享给决策层。
如今,Tableau已经发展成为端到端的大数据可视化分析平台。在Tableau Desktop中创建的可视化分析模型,以及在Tableau Prep Builder中创建的数据整理模型,都可以通过“服务器”菜单的发布功能,发布到企业的Tableau Server平台或者Tableau Online中。
Tableau是一个数据可视化的分析平台,发布仪表板或者故事不是分析的结束,只是决策环节的开始。借助Tableau Server的发布、订阅、通知、分享、评论功能,我们可以把Tableau Desktop的仪表板和故事,分享给更多的“数据消费者”——各级领导、业务主管、职能部门,甚至一线的员工,如图2-31所示。
图2-31 Tableau Server的主要功能
你的分享,是下一次数据分析的开始:有的人进而发现了感兴趣的新问题,然后可以借助Tableau Server的“编辑”功能,开始新的自助分析。这样的循环一直下去,业务人员对业务的理解就会越来越深,如图2-32所示,从“已知的问题”逐步走向“潜在的假设”,并一路通往“未知的问题”。
图2-32 敏捷BI的分析循环
这样的分析循环和传统的线性分析截然不同。第一,它尽可能不依赖其他部门提供的数据,从而能够连续不断地分析,保持思维的连贯性;第二,它让真正懂得业务的人亲自建立假设,并在“猜想与反驳”的过程中不断证实/证伪假设,从而不断接近数据背后的业务逻辑,提高决策效率。
在大数据时代,“每家公司都是数据公司”,在这个更大的视角中,每个人也必须在数据循环中找到应有的位置。Tableau提供了基于敏捷分析和角色分工的分析模型,帮助企业更好地建立全员分析、数据立本的数据文化。
也正是基于这样的思考,Tableau为企业提供了Creator、Explorer、Viewer 3种基于角色的付费方式,既能满足企业不同角色对数据的差异化需求,又能引导企业早日形成不同角色配合的企业文化。
从第3章开始,笔者将全面介绍数据整理、数据建模、数据可视化、数据分享与高级计算等访问的原理和方法,帮助大家更快地应用大数据,掌握Tableau。