2.4 本章小结
内容小结:本章的内容较多,主要涉及企业数据化运营可能产生数据的方方面面,包括数据来源的类型、通过不同方式获得运营数据以及对非结构化数据的获取等方面。不同的企业由于其行业和企业背景不同,通常不会全部覆盖其中的所有数据场景,读者可根据自身情况和需求选择。另外,大多数读者所在的企业,应该以结构化的数据为主,内容延伸中的知识作为课外补充和了解即可,真正需要用到这些知识时,再学习和查阅。本书所有示例中的原始代码,在“附件-chapter2”中chapter2_code.py中可以找到,同时在该文件夹下存储了所有示例用到的本地数据。
重点知识:本章需要读者重点掌握2.2节所讲的内容,这里介绍了数据工作者常用的数据来源,其中的从文本文件读取运营数据、从关系型数据库MySQL读取数据最为常用。
外部参考:由于数据来源的获取与数据生产、采集、存储、处理和挖掘工具息息相关,不同的系统和工具之间需要了解更多才有可能更好地利用数据。以下工具或知识是本书以及很多企业中都会用到的,希望读者能进行更深入了解:
❑ Google BigQuery:作为谷歌在线服务的主要武器之一,BigQuery可以作为云服务应用,也可以作为Google Analytics Premium的细粒度流量数据的获取来源。尤其是基于谷歌广泛的服务体系和应用体系,可以将所有的资源打通,包括数据和服务。
❑ SAS:做数据挖掘的读者一般都会知道这个工具,SAS是数据挖掘和商业智能领域最为权威和流行的商用工具之一。该工具在很多大型企业内部都有应用,例如国家信息中心、国家统计局、卫生部、中国科学院等,其专业能力可见一斑。
❑ SQL:作为关系型数据库应用的核心,常用的查询语法需要数据工作者掌握;除了在关系型数据库外,SQL也可以应用到HIVE等大数据工作处理领域,这种通用性(当然语法需要做适当修改)使得SQL几乎在各个企业都有用武之地。
❑ 正则表达式:本书在多个应用示例中都用到了正则表达式,尤其对于非结构化数据,正则表达式几乎是标配知识。
应用实践:本章的内容属于数据工作的第一步,因此希望读者能熟悉不同的数据接入和读取方法。每种数据来源类型建议都逐一进行实践,然后集中精力到现有工作或学习环境中,以达到熟练掌握获取不同数据来源的方法和技巧。