序
如今,大数据已经成为一大产业。随着数据逐渐主导我们的生活,“炼数成金”几乎成为每个机构都关注的焦点,各种模式识别和预测技术也成为提升业务能力的新手段。比如,商品推荐系统对消费者和商家都有好处,它会提醒消费者关注自己可能感兴趣的商品,同时也会帮助商家赚取更多的利润。
然而,大数据并非数据科学的全貌。数据科学是分析和利用数据的一门综合性学科,其范围涵盖机器学习、统计学和相关的数学分支。其中,机器学习占据首要位置,它是驱动模式识别和预测技术的主动力。机器学习算法是数据科学的力量之源,它和数据一起产生极其宝贵的知识,并且帮助我们以新的方式利用已有信息。
对于外行而言,要想理解数据科学如何推动当前的数据革命,就需要对这个领域有更好的认识。尽管现在对数据素养的需求很大,但是由于担心缺乏相关技能,一些人对数据科学领域敬而远之。
这正是莉婷和川集写作本书的缘由所在。我对两位作者的写作风格较为熟悉;在拜读本书之后,我发现这的确是专为外行写的数据科学书,两位作者特意省略了复杂的数学内容,从较高的层次讲解相关概念。但请不要误会,这并不意味着本书没有实质内容;相反,“干货”还不少,并且简洁精练。
你可能会问:本书采用的讲解方法有什么好处呢?实际上好处多多,并且对于外行来说,这种方法比普通的方法更可取。假设你对汽车的工作原理颇感兴趣,但是一窍不通,那么相比阅读深奥的燃烧学内容,你可能更容易接受对汽车零部件的概括性介绍。了解数据科学也是如此:如果你对这个领域颇感兴趣,那么在深入研究数学公式之前,先从宽泛的概念入手比较容易。
第1章通过短小的篇幅讲了数据科学的一些基本概念,让每一位想入门数据科学的读者都拥有相同的知识基础;接着阐述算法选择等常被入门类读物所忽略的重要概念,以此促使读者进一步了解数据科学领域,并为读者提供一个完整的学习框架。
两位作者本来可以在书中讲解各种数据科学概念,而且讲解方法也有很多。但是,他们特意把讲解重点放在了对数据科学极其重要的机器学习算法上,并辅以相应的任务场景,这真是明智之举。k均值聚类、决策树、最近邻等算法得到了应有的重视。此外,两位作者还对高级的分类和集成算法(比如支持向量机,它常常因为复杂的数学问题而令人生畏)以及随机森林做了讲解。当然,书中还讲了神经网络,它是当前的深度学习热潮背后的驱动力。
本书的另一个优点是,每个算法的讲解都配有直观的示例,比如通过预测犯罪行为介绍随机森林,以及在分析影迷性格特征时讲聚类。这些示例都是作者精心挑选的,有助于理解相关算法。与此同时,讲解并没有涉及高等数学知识,这样做有利于保持你对数据科学的兴趣和学习动力。
如果你正打算学习数据科学或相关算法,并且正在寻求一个切入点,那么我强烈建议你阅读本书。在我看来,本书是无与伦比的数据科学入门读物。有了它,数学不再是数据科学之路上的拦路虎。
Matthew Mayo
数据科学家、KDnuggets编辑