
前言
大数据存储是为保存、管理和检索海量数据而专门设计的基础存储设施。计算机系统结构正在从以计算为中心向以数据为中心发展。这种发展趋势对存储系统在容量、性能、可用性、扩展性和成本等方面都提出了更高要求。本书主要讨论大数据存储系统的关键技术以及相关研究进展。本书的内容组织首先从基本原理着手,并逐步过渡到大数据存储的新技术的发展。本书的基本原理部分对分布式文件系统和分布式键值存储展开讨论,介绍其中的关键问题与解决手段。在读者对大数据存储知识有了初步了解之后,本书余下的部分将介绍大数据存储系统的关联技术与进展,包括基于群组的网络文件共享、存储系统的容灾、重复数据删除技术和大数据存储纠删码技术。
在阅读本书之前,读者应当了解计算机系统方面的基础知识,包括常用的数据结构、文件系统、网络基础知识等。
本书主要内容安排如下:
第1章是绪论,主要介绍大数据存储的基本形式、关键技术,以及本书的组织结构;
第2章为分布式文件系统,以谷歌文件系统为例,讨论了构建分布式文件系统所需的各项关键技术;
第3章为分布式键值对存储,主要介绍如何通过哈希以及B+树的方式,实现从单机键值对存储到分布式键值对存储的扩展;
第4章为面向社区共享的网络文件共享系统,介绍了一个基于群组的网络文件共享系统,重点讨论分布式文件系统与用户管理的结合,以及分布式文件系统中的多版本数据管理方法;
第5章为存储容灾系统,介绍了实现存储容灾需用到的各项关键技术,主要包括大数据存储的容灾备份以及快速的服务恢复方法;
第6章为大数据存储系统的删冗,介绍了重复数据删除技术,分别以具体系统为例,讨论了二级存储及主存储的删冗技术;
第7章为大数据存储纠删码技术与优化,介绍了基于纠删码的大数据存储技术,并重点讨论一种柯西编码的性能优化方法。
本书作者分工如下:第1~3由陈康编写,第4章由武永卫组织编写,第5~6章由余宏亮组织编写,第7章由张广艳组织编写。在本书的编写过程中,叶丰、向小佳、尹玉冰、张旭、吴桂勇、曲新奎等学生参与了部分内容的编写工作,在此表示感谢。
最后,由于时间仓促和作者水平有限,文中遗漏和不妥之处在所难免,还望读者批评指正!
作者
2021年元月于清华园