前言
为何写作本书
我第一次接触用户画像是在某节数据挖掘课堂上。那时,我对用户画像只有一个概念上的认识。工作后,我接触到了画像平台,并在平台上查询了自己的画像信息。我发现查询结果非常准确,这让我对平台背后的画像技术产生了浓厚的兴趣。再后来,我有幸参与了画像平台的建设工作,并对用户画像有了更深入的了解。
我们所负责的产品的用户量不断增长,构建画像数据并搭建画像平台主要是为了解决以下两个问题。
❑清晰、明确地描述用户特点。针对每一款产品,我们需要了解用户来自哪些渠道、使用产品的行为特点以及为何离开产品等问题。机器学习虽然广泛地应用于各类业务中并取得了明显的成果,但是无法清晰、明确地描述用户特点并对用户群体进行统计分析,而画像平台可以借助标签数据回答上述问题。
❑提高分析效率,释放数据价值。虽然部门内有独立的数据分析师团队,但是面对大量的分析需求时人力也比较紧张。画像平台建设的目标之一是做好画像分析,提高分析师的工作效率并降低人力消耗,通过可视化的平台功能帮助普通用户进行自主分析,充分挖掘并释放数据价值。
作为研发工程师,我有幸参与了画像平台从0到1的构建过程并见证了平台的发展历程。首先,我们完成了画像平台基础功能建设,并顺利解决了上述两个问题。然后,我们根据业务需求不断完善画像平台功能,对人群圈选和画像分析完成了技术升级,使得服务质量得到了保障。最后,我们将画像平台作为基础服务,开始广泛地对部门及公司内其他业务提供通用画像服务,取得了不错的效果。在工作过程中,我学习并掌握了构建画像平台的主要流程与方法,对于算法和大数据等技术也有了更加深入的了解。
在对外提供画像服务的过程中,我对于画像的重要性以及使用方式也有了更加清晰的认识。画像是一种最简单的直接体现大数据价值的方式,画像数据在业务中的使用场景非常广泛:
❑可以作为特征应用在算法中,提高算法的准召率。
❑可以作为分析维度应用在数据分析中,全方位、多角度地了解用户。
❑借助画像标签或者人群可以极大地提高运营效率,实现精细化运营。
在大数据时代,如何有效地挖掘数据价值并通过画像数据进行呈现,如何基于画像数据构建平台功能并提高业务产出,是值得各类公司和业务人员思考并付诸实践的事情。
出于对用户画像的兴趣以及工作经验,我萌生了写一本与画像平台相关图书的想法。写这本书的主要目的有三个。
❑通过画像释放大数据价值。大数据时代不缺少数据,而是缺乏挖掘数据价值的系统性方法,希望借助本书提高读者对画像的认识,引导各公司和业务人员从画像的角度更加充分地利用大数据资源并释放更多的数据价值。
❑介绍清楚画像平台是什么。通过本书将画像平台的构建过程以及赋能业务的方式讲清楚,帮助读者全面且深入地了解画像平台。参考书中内容,读者在构建画像平台和使用画像数据的过程中会更加有的放矢。
❑总结构建画像平台的经验,实现技术沉淀,并通过写书锻炼自己。我一直记得高中老师说过的一句话:“人活一辈子,应该给这个世界留下点什么。”希望我这些浅薄的经验和知识能够通过本书被记录下来。
本书主要内容
本书共9章,采用总—分—总结构,首先整体介绍什么是画像平台,然后分模块详细介绍画像平台的实现方案,最后从实践的角度介绍如何构建和使用画像平台。各章详细内容介绍如下。
第1章的重点是了解画像平台。首先介绍画像的基本概念及其重要性,并引出了画像平台的定位;然后介绍与画像平台紧密相关的OLAP(Online Analytical Processing,联机分析处理)技术及其发展历程,为从技术角度更全面地认识画像平台奠定了理论基础;之后介绍4款业界主流的画像数据平台,通过功能截图和架构图描述了4款平台的核心功能与实现逻辑,让读者了解画像平台的发展现状;最后介绍在开发画像平台过程中涉及的各类岗位及主要分工。
第2章描述画像平台的主要功能、技术架构和数据模型。首先介绍画像平台的4个主要功能模块,并通过示意图介绍各模块的主要功能点;然后通过一张架构图展现画像平台的关键技术模块,并结合实践案例描述各模块的技术选型方案;最后介绍画像平台的核心—数据的3种常见组织模型。
第3章介绍标签生产及其管理功能的实现方案。首先介绍标签生产和管理功能技术架构,让读者对技术方案有个整体认识;然后介绍标签的主要分类方式并给出了一个具体的分类示例;之后详细介绍标签管理各功能模块的实现方案,涉及标签存储、标签生产和标签数据监控功能,并用一个具体工程实现案例进行详细分析;最后介绍标签管理功能涉及的各岗位的主要分工及注意事项。
第4章介绍标签服务的实现方案。首先介绍标签服务的整体架构;然后介绍标签查询服务实现方式,其中涉及标签数据灌入缓存、标签数据结构的选择以及标签数据处理过程;随后介绍标签元数据查询服务;之后介绍标签实时预测服务;最后介绍画像领域常见的ID-Mapping实现方案以及标签服务模块各岗位的主要分工及注意事项。
第5章介绍分群功能的实现方案。首先介绍分群功能的整体架构;然后介绍分群功能所依赖的底层画像宽表和BitMap的生成方案;之后介绍规则圈选、导入人群、组合人群、行为明细、人群Lookalike、挖掘人群等常见的人群创建方式及其工程实现逻辑;随后介绍如何对外输出人群数据以及常见的人群附加功能;接着重点介绍什么是人群判存以及实现人群判存服务的3种技术方案;最后介绍分群功能的岗位分工及主要注意事项。
第6章介绍画像分析的实现方案。首先介绍画像分析功能的整体架构,包含各主要功能模块及关键技术组件;然后介绍几种常见的人群画像分析方式,包括分布分析、指标分析、下钻分析、交叉分析等;之后介绍在规则圈选这一特定场景下,无须创建人群便可使用的人群即席分析能力;接着介绍几种常见的行为明细分析模型,以及几种常见的单用户分析功能;最后介绍画像分析中的岗位分工。
第7章介绍如何从0到1构建画像平台。首先介绍画像平台运行环境配置,包括基础准备、大数据环境搭建和存储引擎安装;然后介绍工程框架的搭建方法,重点介绍服务端工程和前端工程的搭建方法;最后介绍在本地运行开源代码的主要步骤。本章涉及的安装包和代码示例都已上传至开源平台,读者可自行下载使用。
第8章介绍画像平台应用与业务实践。首先通过一些实际应用案例介绍画像平台各核心功能模块可以支持的各类业务需求;然后从用户生命周期的角度说明画像在各阶段可以起到辅助作用;最后介绍用户画像在几个典型业务场景下的综合应用方式,这些业务覆盖了用户增长、用户运营、电商卖货和内容推荐等。
第9章总结画像平台建设过程中的一些优化思路和个人感悟。首先介绍任务模式的引入过程,并详细描述采用任务模式的原因以及主要收益;然后介绍人群圈选优化进阶的主要流程以及BitMap在画像平台各功能模块中的使用方案;之后展开介绍生成画像宽表的优化过程;接着延伸介绍如何构建一个类似神策的平台;最后给出一些常见的技术优化思路,并结合画像平台建设过程进行详细说明。
本书内容特色
1.平台建设与业务思考
本书目的明确,就是要告诉读者如何实现一个功能完善的画像平台。书中首先整体介绍画像平台相关概念以及技术架构,然后深入介绍具体的功能模块实现逻辑,最后描述如何从0到1构建一个可运行的画像平台。
本书内容不局限于工程实现方案的介绍,还会兼顾业务思考和技术总结。研发人员往往局限于功能的实现而缺乏对业务的思考,这对职业发展不利。技术的应用最终都是服务于业务,那么了解业务必然是重中之重。本书会在很多章节中穿插描述一些对用户画像和平台功能的思考与总结,希望能引导研发人员在后续工作中加强对业务的思考。
书中也对画像平台的主要参与者进行了详细描述,其中包含数据工程师、算法工程师、研发工程师、产品经理以及运营人员,在部分章节中还介绍了各岗位的主要分工和注意事项。这些内容不仅可以促进各岗位深入思考业务特点,而且可以提高画像平台开发过程中的合作效率,提前规避业务风险。
2.技术广度和深度
广度是扩展大家的认知范围。画像平台建设涉及的技术领域比较多,包括大数据处理、算法挖掘、分布式与高并发服务开发等。本书不局限于对某一门技术的介绍,而是尽量从全局的角度描述画像的发展现状、相关技术、平台整体架构及技术选型优缺点等。读者可以更清晰地了解画像平台的相关技术,知道自身业务处于什么位置,了解哪种技术类型更适合自己。
深度是夯实大家的技术功底。画像平台各功能模块的实现方案都会落地到具体技术上面,书中会结合案例深入介绍部分技术的运行原理及其使用方式。对于人群圈选和画像宽表生成等核心功能,本书也有专门的章节详细介绍其优化方案,让读者由浅入深地了解平台优化过程。
有了广度的认识和深度的研究,我们在开发画像平台时会更加得心应手。每个项目的业务背景和技术方案都不同,希望本书可以给读者带来一些启发并应用到自身的项目中。
3.业界前沿技术
业界也有介绍画像平台的技术文章和书籍,但其中涉及的技术方案可能不适用于超大规模的数据场景或者无法满足复杂的业务需求。本书介绍的技术方案均来源于实际项目,项目中涉及百亿级的画像数据,产品功能包括标签管理、人群圈选和画像分析等。书中给出的画像平台技术方案不仅实用,而且具有一定的先进性。它在传统的大数据架构之上引入了近几年比较流行的OLAP引擎ClickHouse,其在画像平台部分功能上性能表现优异。书中还穿插介绍了一些前沿的技术和发展方向,希望能帮助读者了解画像平台相关技术的发展趋势。
4.可运行的代码示例
本书不仅详尽地介绍了如何从0到1构建画像平台,包括大数据环境的配置以及工程搭建方案,而且给出了可运行的核心代码示例。书中涉及的安装包和代码也已经上传至开源平台(https://gitee.com/duomengwuyou/userprofile-demo),读者可以自行下载后按照书中的介绍搭建运行环境并在代码示例基础上进行扩展完善,最终构建出满足自身业务需求的画像平台。
本书读者对象
严格来说,画像平台是一个比较重要但比较小众的平台,涉及的技术领域较多且在大数据量下才能凸显价值,所以目前只有大公司或者数据服务厂商才会构建符合自身业务特点的画像平台。但是画像数据已经广泛应用到了各类业务中。比如:在使用DMP(Data Management Platform,数据管理平台)和CDP(Customer Data Platform,客户数据中台)系统时就涉及人群圈选和分析等功能;在客服和风控系统中查询用户基本信息可以归为画像查询范畴;通过问卷调研结果标注用户可以看作给用户设置画像标签数值;各业务数据监控报表中涉及群体用户的统计分析,这也可以归为人群画像分析范畴。基于画像平台建设和数据的使用现状,本书面向的读者对象按照相关性由近及远可以分为三类。
❑正在建设或者计划建设画像相关功能的人员。此类读者如果正在进行画像平台建设或者计划构建画像平台(或者说有类似功能的平台),可以通过本书对画像平台有更加全面的认识,辅助做好产品规划和技术选型。
❑对画像感兴趣的公司和个人。画像是一种简单且能直接体现大数据价值的方式,画像数据及相关平台功能建设肯定会被逐渐重视起来。对画像感兴趣的读者可以通过本书加深对画像数据及平台功能的了解和认识。
❑互联网从业人员。画像平台涉及的岗位较多,用到的技术也比较广泛。本书完整地呈现了画像平台的核心功能及技术实现方案,其中很多技术点和优化思路也适用于互联网其他业务领域。了解如何基于大数据构建完整的标签体系、如何保证标签质量、如何处理实时标签数据等,对数据工程师有一定的启发作用。画像平台中的标签查询、人群判存以及人群数据输出涉及分布式及高并发场景,了解如何保证服务高可用并不断提高系统性能对研发工程师有一定的借鉴价值。画像平台功能模块介绍、技术发展趋势、平台选型的优劣、相关技术的适用场景说明等,可以帮助产品经理更深入地了解大数据产品。了解画像平台基本运行原理,对运营人员更高效地使用标签和人群数据来提高运营效率也有一定的参考价值。
勘误和支持
画像平台建设需要各岗位的参与,每个岗位在其中都贡献了非常专业的技术知识。但是我个人能力有限,在书中某些业务场景和技术领域的描述上可能不够专业,存在一些疏漏和错误,希望读者朋友批评指正。如果对用户画像感兴趣,也欢迎随时找我沟通交流。
三人行必有我师,期待与大家交流学习。我的联系邮箱:zhangxinglong1990@163.com。
致谢
写这本书大概用了一年的时间。在这期间,陪伴家人的时间比较少。最终能够顺利成书,离不开家人一直以来的理解和支持。感谢父母、妻子和孩子!特别感谢我的好友周越、皇甫杨、张杰在百忙之中抽时间帮忙审读稿件,并提出了很多宝贵意见!
书中内容源于实际学习和工作经验总结,感谢一路上遇到的人和事,让这本书变得更加完善!因为我是第一次写书,所以在编写过程中遇到了很多问题,感谢机械工业出版社老师们给予的专业且耐心的指导,我在这个过程中也学到了很多知识。
每当回顾写书的历程时,总能感受到坚持的力量。一本书需要从每一个字、每一张图做起,不积跬步,无以至千里。感谢能够坚持到今天的自己,也希望借助写书这件事情给孩子树立一个榜样,做自己想做的事情且要持之以恒,最终必然会有收获!