大数据技术基础
上QQ阅读APP看书,第一时间看更新

1.2.3 数据存储

数据存储涉及将数量庞大且难以收集和处理的数据持久化存储在计算机中。为提升数据存储的性能,可以着重关注以下3个方面。

存储容量:增加硬盘容量或者调整优化硬盘阵列架构,以提升系统的存储能力。

吞吐量:提高硬盘转速、改进接口形式或增加读写缓存,以提升系统的整体吞吐量。

容错性:硬件或软件故障很容易导致数据、文件损坏或丢失等问题,系统需要能够自动将损坏的文件和数据恢复到故障发生前的状态。

常用的数据存储工具包括HDFS、HBase和Redis等。HDFS在数据冗余存储、存储策略和错误恢复等方面有着很好的性能,而且该工具针对大数据的存储、读取和复制3个方面进行了相关设计,提升了系统的整体吞吐量。对于出错的节点,HDFS可以进行检测并恢复,具有良好的容错性。而HBase则具备支持海量数据存储、快速随机访问和大量写操作的特点,适用于数据持久存储,还可以与适合作为缓存的工具Redis结合使用,以兼顾速度和可扩展性。