白话机器学习算法
上QQ阅读APP看书,第一时间看更新

为何需要数据科学

假设你是年轻的医生。有位患者来到你的诊所,跟你抱怨说自己呼吸困难、胸部疼痛,并偶尔伴有胃灼热。于是,你给他检查血压和心率,发现一切正常,并且他没有其他病史。

然后,你发现他偏胖。由于他说的症状在体重超标的人群中普遍存在,因此你安慰他说,“不用担心,没什么大问题”,并且建议他抽空多锻炼身体。

上述诊断常常是误诊。心脏病患者与肥胖症患者表现出的症状相似,医生经常忽视这一点,而没有为患者做进一步检查。如果进一步检查,就可能查出更严重的疾病。

人类的判断力有一定的局限性,有限、主观的经验和不完备的知识都会影响它。这会破坏决策过程,那些缺乏经验的医生很可能就此放弃对患者做进一步检查,从而无法得到更准确的诊断结论。

在这种情况下,数据科学就能派上大用场。

数据科学技术不依赖于个人的判断力,它使得我们可以利用来自多个数据源的信息做出更好的决策。例如,可以查看记录着类似症状的病历,从中发现先前那些被忽视的诊断结果。

借助现代计算机和高级算法,我们能够做到以下几点。

❏ 从大型数据集中发现隐藏的趋势。

❏ 充分利用发现的趋势做预测。

❏ 计算每种结果出现的概率。

❏ 快速获取准确结果。

本书是数据科学及其算法的入门书,在讲解时采用了通俗易懂的语言。(不谈数学!)为了帮助你理解主要概念,本书采用了直观的解释方式,并且配有大量的插图。

每种算法各自成章,并且配有应用实例来解释其原理。书中用到的数据都可以从互联网上获得关于如何获得数据集,请访问图灵社区并点击页面右侧的“随书下载”:http://www. ituring.com.cn/book/2618。——编者注

每一章的最后都有小结,便于你复习这一章学过的内容。本书最后附有各种算法优缺点的比较,以及常用术语表,供你参考学习。

我们希望本书能够让你真正了解数据科学,并且帮助你正确地运用数据科学做出更好的决策。

让我们一道踏上数据科学之旅吧!