如果你接触电脑的时间足够久,一定会遇到在某次大扫除中从犄角旮旯里翻出光盘,甚至一张3.5寸软盘的有趣经历。这些早已淘汰不用的或方或圆的存储介质中,一定还保存着“人类早期驯服数据”的有趣纪录。没错,数据需要及时备份也是颠扑不破的话题。美国网络社区Reddit甚至发起倡议活动,建议将愚人节前一天3月31日作为“世界备份日”,提醒大家只有傻瓜才会忘记备份数据。
生活在信息时代的我们,其实每天都在跟海量的数据打交道,至少运营商每天都在发短信提醒我套餐剩余流量。也许你会说,数据不就在电脑和手机里摆着么?但是只需一杯不小心倾倒的奶茶,你平时不在意的重要文件资料,就会迅速毁于一旦。而我们逃避这种焦虑的最好方式,不是忽略它,而是及时对数据做备份。
简单的数据备份,我们平时都会用到。小到一颗U盘,就能够让你家庭电子相册的安全系数加倍。但是随着我们需要存储的文件越来越多,又或者是在工作中要随时保存和读取重要文件,相信很多人都选择了云盘、NAS、甚至小型服务器的方式。当然还有更适合中小型企业直连的DAS(直连式存储)。但其实说到底,他们用到的存储备份技术大同小异,至少这个词你应该不陌生——RAID。
1988年美国加州大学的D. A. Patterson教授首次提出了RAID的概念,起先,RAID(Redundant Array of Inexpensive Disks)的官方说法是“便宜的冗余磁盘阵列”。这样一个怪称呼诞生,主要是因为在当时,大容量磁盘价格非常昂贵。因此如何利用好多块容量小、成本易控制的磁盘组合,获得与大容量硬盘相当的容量、性能以及可靠性,成为了一个非常关键的课题。
RAID这种新思路一经推出,就被业界吸纳,快发展出一批高性能、高可靠性的新存储技术,并且时至今日都一直在广泛应用。如今RAID中“I”的含义已经不再是“Inexpensive便宜的”,而变成“Independent独立的”;RAID天团也已经从当初D. A. Patterson教授论文中定义的RAID 1到RAID 5“五小强”,扩展出了RAID 0、RAID 6、RAID 7,甚至是RAID 10/01、RAID 50、RAID 53、RAID 100。那这些听起来好像在不断“升级”的RAID,彼此之间有什么关系?不同的RAID对我们到底有哪些帮助?
首先我们厘清一下概念。RAID其实是对一类“多磁盘管理技术”的统称,我们一般简称为“磁盘阵列“。磁盘阵列利用物理存储空间区隔的方式,为我们备份数据的冗余信息。一旦某个磁盘或访问路径出现故障,冗余信息就可以快速帮助用户恢复已故障存储中保存的数据。这也就是RAID最常见的用处——日常备份与恢复数据。而不同的RAID等级,彼此之间更多的是方式不同,而非优劣之差。通常RAID 0到RAID 6这七个等级,被默认是标准的RAID等级,因为他们中包含了最基本也是最常用的RAID配置。
RAID 0和RAID 1
首先RAID家族里有一个著名的混子——RAID 0,甚至RAID 0都不算是一种真正的RAID方式。RAID 0实现起来最简单,因为它其实是把不同硬盘组合成了一个“大硬盘”,例如一块2TB硬盘和4TB硬盘组了RAID 0会怎样?答案是会变成了一块6TB“大硬盘”,这块硬盘容量增大了,但是本身不具备任何备份功能。适用于同性能级别硬盘混用且对数据安全性要求不高的应用场景。至于为什么RAID 0能够成功混入其中,这还要归功于它可以提升硬盘阵列的读写速度,理论上可以实现直接×N的效果。因此RAID 0也成为一种很常见的RAID方式。
RAID 1也很简单,数据在RAID 1中是以“1+1”的方式存在,两块硬盘此时就互为备份,一块出了问题,另一块可以随时顶上,此时我们只需要更换故障盘就可以了。RAID 1的好处是组阵列的方式简单,缺点是对容量不友好。因为两款1TB的硬盘组成RAID 1,实际的可用空间也仅有1TB。看起来十分不科学,但其实RAID 1确实非常保险的备份方式,适合服务器、数据库这类对安全性要求很高的应用场景。但相比RAID 0,RAID 1的缺点则是并不能提升磁盘阵列的读写性能。
RAID 2
RAID 2相较两位兄长,就来的高级了一些。它使用了“海明码”实现数据校验冗余。海明码的优点是具备纠错能力,复杂程度不算高。缺点是这种纠错方式本身并不算高明,因为数据在RAID 2中是按位存储,4位数据需要4个数据硬盘,16位数据就需要16个数据硬盘。很显然,这种组合方式非常不灵活,因此在日常使用中我们很少见到RAID 2这种形式的磁盘阵列。
RAID 3、RAID 5
相比RAID 2“一是一,二是二”的磁盘阵列方式,RAID 3和RAID 5显然就更灵活了,因为无论是何种数据,他们都仅需要最少3块硬盘就能实现了。其中RAID 3中有一块专门的硬盘作为校验盘(RAID 2也用到了校验盘),用来存放单独的奇偶校验信息。当其中某块硬盘出问题,可以通过另一块正常工作的数据盘,加上校验盘的计算重构,恢复故障盘中所有数据。因此理论上RAID 3非常适合对存储介质价格比较敏感的家庭应用场景,日常可以用来存放一些视频素材、流媒体素材等等,素材量巨大的视频和其他视觉创意工作者,都建议直接选择RAID 3做日常数据的备份。
RAID 5和RAID 3的区别在于,RAID 5这种阵列方式,没有专用的校验硬盘。RAID 5阵列的校验数据是随机分布在所有磁盘中的。RAID 5的优缺点都很突出,优点在于它具备非常好的灵活性和扩展性——RAID 5中可以随时增加阵列硬盘的数量,甚至RAID 5还可以模拟RAID 3方式运行,而且理论上RAID 5可以实现(N-1)的读取速度提升,因此非常适合作为高码率流媒体播放使用的存储阵列;缺点则是RAID 5是一种介于RAID 0和RAID 1之间的折中方案,对硬盘的利用率和RAID 3相当,都是N-1。
RAID 4
RAID 4原理上面和RAID 3一脉相承,只不过校验方式略有不同。但就是这说大不大说小不小的区别,却让RAID 4相比前两者应用限制更多。RAID 4采用了统计数据块使用相同XOR校验的形式。在读取时可以实现即使校验,也就是不影响读取性能。但是写入时只能单盘进行,而且要同时写入校验数据,因此校验盘的写入速度,就很容易成为整个阵列的性能瓶颈(这也是RAID 3存在的问题,但RAID 3的组合方式更加灵活,因此应用场景更广泛)。目前主流存储产品中很少见到RAID 4这种备份方式。
RAID 6
看到这里的小伙伴可能有个大大的疑惑,前面提到的RAID等级,貌似只能保护单块硬盘出现故障的情况。因为一旦两块数据盘同时发生故障,整个阵列依然会数据崩溃。那么这时候就轮到RAID 6出场了。RAID 6首次引入了双重校验的概念,也就是阵列中畸变发生两个数据盘同时失效的情况,整个阵列依然可以保障数据安全。同时RAID 6也是在RAID 5思路基础上出现的一种“加强级”方案,可以看作RAID 5的等级扩展。当然代价是,RAID 6至少需要4块硬盘组合(N-2构成备份),往往适合对数据安全等级要求极高的应用场景。
RAID 10
除了以上的RAID“七兄弟”,还有一种非常常见的RAID方式——RAID 10,也有人把它称作RAID 01。因为RAID 10其实是RAID 0和RAID 1的组合。先将硬盘两两构建RAID 1备份,再通过RAID 0的方式构建扩展。因此使用效率和安全性方面。RAID 10结合了RAID 0和RAID 1的优缺点,安全的同时硬盘使用率仅有一半,但由于组合方式比较简单,因此适合安全和效率需折中的应用场合,比如金融业、电影创作等领域。同理,之前提到的RAID 50、RAID 53、RAID 100这些大数字RAID,同样是以上七种常用RAID方式的有机组合。但除了RAID 10外,其它几种RAID等级实现起来成本更高,因此也就并不常见了。
下面也为大家总结一个无脑选择法:
了解了以上的RAID等级,你也就明白了为什么常见的NAS分成了双盘位、四盘位和六盘位三种。双盘位只适合散装以及RAID 0、RAID 1,四盘位则在RAID 0、RAID 1之外,增加了对RAID 3和RAID 5的支持,扩展性和RAID灵活性,相比双盘位就提升了一个等级。至于六盘位,那显然是为更高安全性的RAID 6和更大容量而设计的。
众所周知,高性能和高可靠性的西部数据WD Red系列,一直是NAS用户的极佳选择。此前我们也评测了WD Red SN700 NVMe SSD这款高性能SSD,但对大量I/O密集型工作负载的用户,大容量、高性能、高安全性的WD Red SN700,无疑是构建NAS高速缓存的极佳选择。详见这篇文章https://mp.weixin.qq.com/s/oprHO9nZu7XgJivuuWju4A(微信公众号文章链接)。
WD Red SN700 NVMe SSD
最近,针对单盘大容量存储需求,西部数据又推出了WD Red Pro 20TB HDD,借助9个ePMR(能量辅助垂直磁记录)盘片,在3.5英寸体积内塞入了夸张的20TB容量。并且西部数据 WD Red Pro 20TB采用了西部数据的 OptiNAND 技术,通过 iNAND UFS 嵌入式闪存驱动器 (EFD) 提供更高的性能、可靠性和容量。参数方面,西部数据 WD Red Pro 20TB采用 SATA 接口,标配512MB缓存,转速为7200RPM,拥有快至268 MB/s的优秀读取性能。对于追求极限单盘容量的小伙伴,WD Red Pro 20TB显然是很好的选择。
WD Red Pro 20TB HDD