根据日立数据系统(HDS)首席技术官Hu Yoshida表示,该公司已经将主存储重复数据删除加入到他们的网络附加存储(HNAS)和日立统一存储(HUS)中端阵列。
HNAS是HDS从收购BlueArc获得的硬件加速文件存储,该系统依赖于可编程芯片(FPGA)来加速操作。HUS阵列的文件控制器使用了BlueArc硬件引擎和软件。Hu Yoshida说这种重复数据删除功能可以:
•实现自动化
•适时去重数据,而不是只在字节写入时
•一旦文件工作负载达到阈值就会减慢(去重处理)速度
•使用密码散列算法,确保数据完整性
•重复数据删除一台文件设备的整个可用空间,也就是256TB。
“一旦系统空闲,一个智能重复数据删除进程得知新的数据写入,并自动启动重复数据删除引擎。”这位CTO在他公司的网站上写道。万一系统反应文件读写请求繁忙,那么它会减慢去重的速度。重复数据删除利用文件并使用一个哈希表(hash)数据库来识别数据中重复的块。然后它们会被删除,腾出空间给其它数据使用。
重复数据删除在其FPGA硬件中加速散列算法和分块,而不是在通用CPU上单纯的软件。Hu Yoshida在本周的博客中提到:“一个基础的散列/分块引擎许可是免费的。三个额外的散列/分块引擎可以(付费获得)许可,重复数据删除的性能提升将近四倍(利用四个引擎)。”
我们解释下,这个的意思是指HUS文件和对象(严格说应该是基于对象的文件系统,译者注)可以被重复数据删除,而不是HUS块(存储)。
Hu Yoshida说,一位HDS的客户在16分钟内重复数据删除了120万个文件,但没有透净容量上的获益。关于重复数据删除效率的说法是,“可与其他重复数据删除算法较量”和“去重效率取决于数据集和文件系统块大小”。