学习数据科学的概念性方法
本书介绍了数据科学中最重要的基本概念。其中一些概念直接体现在了章名中,其他的则会在讨论过程中自然而然地呈现出来(因此不会被标注为“基本概念”)。这些概念贯穿整个学习过程,从构想问题到应用数据科学方法,再到运用结果改进决策。同时,它们也构成了大量商业分析方法与技术的基础。
这些概念主要分为以下三种。
(1)关于数据科学如何融入组织和竞争环境的概念,包括如何吸引、组织和培养数据科学团队,如何让数据科学转化为竞争优势,以及如何做好数据科学项目。
(2)形成数据分析式思维的一般方法。它们有助于识别合适的数据,选择合适的方法。这些概念包括数据挖掘过程和一系列不同的高级数据挖掘任务。
(3)从数据中获取信息的一般性概念。这些概念为大量的数据科学任务及其算法奠定了基础。比如,有一条基本概念是如何判定两个由数据描述的个体之间的相似性。这项能力是执行多种具体任务的基础:它可以直接用于寻找与指定用户相似的用户;它构成了许多预测算法的核心,可以用来估计目标值,如资源使用量或用户响应促销活动的概率;它还是聚类方法的基础,即在没有特定目标的情况下,按照个体之间共有的特征将它们分组。相似性同样是信息检索的基础,可以检索出一系列与查询词条相关的文件或网页。最后,它也是许多推荐算法的基础。在传统的面向算法的书中,这些任务可能会以不同的名字分布于不同章节,其中的共同点却被掩盖在重重的算法与数学命题之下。本书关注的是统一的概念,而各个具体的任务和算法就是它们的自然呈现。
再举一个例子,在对模式的效用进行评估时,提升度(lift)这一指标在数据科学领域随处可见。它指的是某一模式在多大程度上是由非随机情况导致的。它可以用于在不同场景下对不同模式进行评估。例如,通过计算目标人群的提升度,可以评估定向广告算法。它还可以用于判断结论的正负证据权重(WOE),以及判断数据中的共现情况是否有意义,不同于仅是高频事件的自然结果。
我们相信,运用这些基本概念来解释数据科学,不仅能帮助读者学习,还能促进企业利益相关者与数据科学家之间的交流。这种方式使得双方语言共通,从而能更好地理解彼此。而概念共通又能让各方进行更深入的讨论,从而发现之前可能被忽略的关键问题。