4.1 读取本地数据
在工作中有BI需求的人员一般是业务分析师,他们可能不擅长使用数据库,因此,读取的基本都是本地离线数据。此外,工作中遇到的最频繁的离线数据基本都是Excel文件,但是在Apache Superset中,不能直接读取本地Excel文件,需要转换为CSV文件或TXT文件。
4.1.1 读取CSV文件
CSV文件是一种普遍的、相对简单的文件格式,有着广泛的应用。一个CSV文件可以由任何数量的记录组成,每个记录之间都使用某种换行符分隔,每个记录由字段组成,字段之间的分隔符是其他字符或字符串,如逗号、制表符等。
在读取CSV数据之前,我们需要保证文件的格式是UTF-8,否则中文数据可能会出现乱码。可以将Excel文件转换为UTF-8格式的CSV文件,需要在Excel的“文件”菜单的“另存为”选项下的“保存类型”中选择“CSV UTF-8 (逗号分隔)”即可,如图4-1所示。
图4-1 “CSV UTF-8(逗号分隔)”选项
下面介绍Apache Superset如何导入本地CSV文件,具体步骤如下。
步骤1:单击Apache Superset界面“Data”菜单下的“Upload a CSV”选项,如图4-2所示。
图4-2 “Upload a CSV”选项
步骤2:在弹出的“CSV to Database configuration”页面设置表格名称(Table Name)、CSV文件路径(CSV File)、表格数据库(Database)、数据库模式(Schema)、CSV文件的分隔符(Delimiter)、表格新增或替换(Table Exists)、标题设置(Header Row)等相关参数,其中标记为星号(*)的为必填项,其他的为选填项,如图4-3所示。
图4-3 “CSV to Database configuration”页面
步骤3:设置好相关参数后,单击“SAVE”按钮即可,然后在DBeaver中检测CSV文件是否读取成功。DBeaver是一个常用的数据库管理工具,可以支持MySQL、Oracle、DB2、MSSQL、Hive等,它提供一个图形界面用来查看表结构、执行查询、导出数据等。
DBeaver分为社区版和企业版,其中社区版是免费的,可以在其官网下载,这里下载的是Windows 64位免安装社区版,如图4-4所示,可以根据实际情况下载对应的版本。
图4-4 DBeaver下载页面
由于笔者下载的是免安装版,因此在解压后,直接双击“dbeaver.exe”文件就可以使用。如果下方显示客户信息表中的数据就说明没有问题,如图4-5所示。
图4-5 查询数据
4.1.2 读取TXT文件
TXT文件就是用ASCII编码方式存储的文本文件,它是微软自带的一种文本格式,也是最常用的一种文件格式。TXT格式有三大优点:体积小、便于存储、格式简单,是计算机及许多移动设备的通用格式。
在读取CSV文件数据之前,也需要确保数据文件的格式是UTF-8,否则导入的中文数据会出现乱码,选择“编码(N)”菜单下的“使用UTF-8编码”选项,如图4-6所示。
图4-6 “使用UTF-8编码”选项
Apache Superset导入本地TXT文件的步骤与导入CSV文件的步骤类似,只是在设置CSV文件路径(CSV File)时选择TXT文件即可。