上表来自CommVault的资料,最左边一列是4种重复数据删除(介质服务器)节点类型,Sm(小)、Med(中等)、Lar(大)和XL(超大)。对应的依次是推荐的DDB(去重数据库?)卷大小、估计的后端大小(物理存储容量/RAID保护前?)、估计的前端大小(RAID保护后的物理存储容量?),以及配置举例。
最右边一列,应该就是重复数据删除hash存储库的所在。从小到大分别为4-8个15K RPM SAS/FC硬盘做RAID 10,而最上面则有2种配置:Fusion ioDrive2 785GB PCIe 2.0 x4 MLC SSD;或者4个SSD(NAND闪存驱动器)容量600GB,加上配置为RAID 5 3+1(热备)的旋转硬盘。
对于SSD用于加速去重的hash(元数据),尽管笔者在这方面不够专业,但也能想起这些年来了解到的昆腾Dxi系列重复数据删除阵列,以及亲手测试过的Exar BitWackr加速卡+软件(来自收购的Hifn)方案。毕竟内存的单位容量成本较高,并且是易失性存储介质,因此用闪存来处理这种需要大量随机访问的用途相当合适。
蔡报永表示:“使用硬盘存放hash的话,一般情况下我们支持最大不超过7亿条记录,按照128KB的数据块来计算就是90TB的容量。而这个数据块大小可以根据需要在8-256KB之间调节。”为了控制hash比对的数据量规模(应该还有避免哈希冲突),每个重复数据删除存储库的大小有一定的限制,超过之后会将这个hash库封存。新写入的数据会重建一个新的hash库进行比对和存储。
对于CommVault能够将去重之后的数据,无需恢复到原始状态就可以归档到磁带/云存储,蔡报永解释道:“我们是将索引和数据写在一起的,因此在恢复时不一定要经过生成备份并存放hash的介质服务器。相比之下,由于赛门铁克的备份索引与去重后的数据分开存放,因此单独将精简状态的数据写到磁带是不行的,并且在异地恢复时,需要Master Server上的Catalog文件才能进行。”
希望这篇文章内容能给大家带来帮助。如有不准确之处欢迎指正。