1.2.2 数据采集技术
数据采集是指从传感器、数据终端、智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。包括 RFID 数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。
1.数据源与数据类型
大数据主要来源于:
(1)企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。
(2)机器系统:智能仪表、工业设备传感器、智能设备、视频监控系统等。
(3)互联网系统:电商系统、服务行业业务系统、电子政务系统等。
(4)社交系统:微信、QQ、微博、博客、新闻网站、朋友圈等。
在大数据体系中,将数据分为:
(1)业务数据:消费者数据、客户关系数据、库存数据、账目数据等。
(2)行业数据:交通流量数据、能耗数据、气象数据与水文数据等。
(3)内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
(4)线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。
(5)线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
数据源与数据类型的关系如图1.2.2所示。
图1.2.2 数据源与数据类型的关系
企业系统从传统企业的生产环境中获取相关的业务数据。机器系统产生的数据可分为两大类:
(1)通过智能仪表和传感器获取行业数据,例如,公路路口设备获取车流量数据,智能电表获取用电量等。
(2)通过各类监控设备获取人、动物和物体的位置和运动轨迹信息。
互联网系统会产生相关的业务数据和线上行为数据,例如,商品信息、销售信息、用户的反馈和评价信息,用户的行为信息等。
社交系统会产生大量的内容数据,如博文与照片等,以及线上行为数据。
2.大数据采集与传统数据采集的区别
从数据源方面来看,传统数据采集的数据源单一,就是从传统企业的客户关系管理系统(CRM)、企业资源计划系统(ERP)及相关业务系统中获取数据,而大数据采集系统还需要从社交系统、互联网系统及各种类型的机器系统上获取数据。
从数据量方面来看,互联网系统和机器系统产生的数据量要远远大于传统企业系统的数据量。
从数据结构方面来看,传统数据采集的数据都是结构化的数据,而大数据采集系统需要采集大量的视频、音频、照片等非结构化数据,以及网页、博文、日志等半结构化数据。
从数据产生速度来看,传统数据采集的数据多是人为操作生成的,通常比机器生成数据的速度低。
可见,传统的数据采集方法,数据来源单一,而且存储、管理和分析数据量也相对较小,大多采用关系型数据库或数据仓库即可处理。而大数据采集系统数据来源种类多、数据类型复杂、数据量大,并且产生的速度极快,传统的数据采集方法难于胜任。
3.大数据采集方法
大数据的采集是指利用多个数据库或存储系统来接收发自客户端(Web、App 或者传感器等)的数据。针对4种不同的数据源,大数据采集方法有以下4大类。
(1)数据库采集
传统企业会使用传统的关系型数据库,例如MySQL和Oracle等,来采集数据。随着大数据时代的到来,Redis、MongoDB、HBase、NoSQL数据库是数据采集的最重要来源。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡或分片,自动或程序控制完成大数据采集工作。
(2)系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线或在线的大数据分析系统使用。它所具有的高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具多采用分布式架构,能够满足数据量及数据传输率均较大的日志数据采集和传输需求。
(3)网络数据采集
网络数据采集是指,通过网络爬虫、专用网络数据获取工具或网站公开API等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干个初始URL开始,获得相关网页或网站的内容,并且在抓取内容的过程中,不断分析、抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将结构化数据、半结构化数据、非结构化数据提取出来,存储在本地或其指定的存储系统中。
(4)感知设备数据采集
感知设备数据采集是指,通过传感器、摄像头或其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。