1.1 为什么选择强化学习
创造能够做出与人类水平相当或优于人类水平的决策的智能机器是许多科学家和工程师的梦想,并且正逐渐接近现实。自图灵测试以来的70年里,人工智能的研发一直在坐过山车。最初的期望非常高。例如,在20世纪60年代,赫伯特·西蒙(后来获得诺贝尔经济学奖)预测机器将能够在20年内完成人类可以完成的任何工作。正因如此,大量政府和企业资金投入人工智能研究,但随之而来的是巨大的失望和一段被称为“人工智能冬天”的时期。几十年后,由于计算、数据和算法的惊人发展,人类再次比以往任何时候都更加兴奋地追求着人工智能的梦想。
人工智能梦想当然是宏大的梦想之一。毕竟,智能自主系统的潜力是巨大的。想想我们全世界的专科医生是何其有限。教育他们需要数年的时间以及大量的智力和财力资源,而许多国家没有足够的水平。此外,即使经过多年的教育,专家也几乎不可能及时了解其领域的所有科学发展,从世界各地数以万计的治疗结果中学习,并有效地整合所有这些知识,继而将其付诸实践。
相反,人工智能模型可以处理并从所有这些数据中学习,并将其与一组丰富的患者信息(例如,病史、实验室结果、呈现症状、健康状况等)相结合,以做出诊断并提出建议治疗方案。这种模式甚至可以在世界上最偏远的地区使用(只要互联网连接和计算机均可用),并指导当地卫生人员进行治疗。毫无疑问,它将彻底改变国际医疗保健并改善数百万人的生活。
注意
人工智能已经在改变医疗保健行业。在最近的一篇文章中,谷歌发布了一个人工智能系统的结果,该系统在使用乳房X光检查读数预测乳腺癌方面超越了人类专家(McKinney et al.,2020)。微软正在与印度最大的医疗保健提供商之一合作,使用人工智能检测心脏病(Agrawal,2018)。IBM Watson for Clinical Trial Matching使用自然语言处理,从医学数据库为患者推荐潜在的治疗方法。
在我们寻求开发达到或优于人类水平的人工智能系统——某种程度上被称为通用人工智能(Artificial General Intelligence, AGI)——的过程中,开发一个可以从自己的经验中学习而不一定需要监督的模型是有意义的。强化学习是使我们能够创建此类智能体的计算框架。为了更好地理解强化学习的价值,将其与其他机器学习(Machine Learning, ML)范式进行比较很重要,我们接下来将对其进行研究。