Python数据预处理技术与实践
上QQ阅读APP看书,第一时间看更新

前言

当前,大数据与人工智能技术炙手可热,其对应的工作岗位也逐年增加,薪资也较为诱人。我们在做大数据与人工智能处理时,不可避免地会遇到数据的问题。现实中的数据是不完整的,比如存在缺失值、干扰值等脏数据,这样就没有办法直接挖掘数据的价值,也不能将其直接应用于人工智能设备。为了提高数据的质量产生了数据预处理技术。数据预处理主要是指对原始数据进行文本抽取、数据清理、数据集成、数据变换、数据降维等处理,其目的是提高数据质量,以更好地提升算法模型的性能,其在数据挖掘、自然语言处理、机器学习、深度学习算法中应用广泛。数据预处理是一项很庞杂的工程,当你面对一堆数据手足无措的时候,当你面对数据预处理背后的坑一筹莫展的时候,当你的算法性能迟迟不能提升的时候,本书可以帮助你解决以上问题。本书从什么是数据预处理及其相关基础知识入手,分别介绍了网络爬虫、数据抽取、数据清洗、数据集成、数据变换、数据向量化、数据规约等技术,并结合实际项目和案例帮助读者将所学知识快速应用于工程实践,相信会对数据预处理感兴趣的读者和大数据从业者有所帮助。