说起容灾,无论是IT管理员,还是行业专家,各有各的说法,纷繁复杂的技术和理念,争奇斗妍的方案和产品,让人犹如雾里看花般,难辨优劣。但是,对于需要容灾的用户而言,首先要搞清楚的,就是到底容灾是什么?容灾解决什么问题,具有什么价值,如何去选择解决方案?而这,也是我们这个系列文章的出发点,看清容灾,看清方案、成本和价值,让选择更加从容,方案更加专业。
一、 中国用户容灾现状
在“谁说容灾难普及之Ⅰ 容灾的前世今生”篇章里,我们探讨了什么是容灾,容灾的发展史。通过对容灾发展史的纵观,我们可以看到,整个容灾技术是根据不同的需求,由各种不同的技术结合发展而来的,最后统一归纳成一体化的形态,为什么呢?因为容灾要解决两个问题,第一个问题是数据不丢失,第二个是应用不间断。那么数据不丢失,应用不间断,是我们企业的需求吗?是IT环境需要的吗?所以,在处处说要普及容灾的时候,我们需要反思一个问题,那就是容灾究竟是否有普及的必要?
我们一起来看看中国用户的容灾现状。经过市场调查表明,在中国有70%的数据容灾用户需求量,但却面临着最基本的备份方案的困扰,比如备份时间过长,数据恢复不成功等;在这里面,有80%的应用容灾用户需求量,但市场上提供的产品绝大部分都是有备份没应用容灾,或者有应用容灾而没备份,真正一体化应用能够同时解决备份和应用容灾需求的产品可遇而不可求;一直以来,传统容灾都是属于高高在上的奢侈品,能够用得起的用户很少,在这么庞大的需求量里有90%的用户因为成本不可控,而用不起传统容灾。
在这样一个灾难无处不在的IT环境里,用户面临着不知道如何选择容灾的困境,要么就是只有备份,没有选择容灾,要么就是想用容灾,但是买不起,这就是中国用户的容灾现状。
比如我们的 IT 管理员就经常面临这样的情况,几年以前购买的服务器,已经购买了备份软件,因为系统更新换代,需要采购新的设备,发现原有的技术方案已经不能满足实际需求,。又或者是,几年以前,当时的业务系统数据量小、负载低。对 IT 系统没有什么太强的依赖性,备份方面用脚本备份就可以满足需求了,而现在几套系统并用,且全部实现无纸化,业务系统绝对不能断。但是往往容灾系统有不能有效地跟上整个业务系统的建设步伐。
二、 为什么容灾难普及
想用容灾,却难以普及,为什么?
考虑到了上面的情况,IT管理员决心要打造一套无懈可击的容灾系统,但是问题又来了,市面上容灾方案那么多,技术点那么多,并且机房原来的投资又不想浪费,那怎么办?
我们先来看一下容灾系统建设需要考虑的必备三要素:价值、成本和方案。首先,容灾能创造什么样的价值,IT系统建设有它自有不可违背的规律,企业组织架构建设有它必须遵循的规则,容灾能够为IT系统建设和组织架构建设带来哪些价值,是需要考虑的最本质的要素之一;其次,容灾需要投入多少成本,初始成本是多少,机会成本是多少,维护成本又是多少;最后,我们要选择什么样的方案才是真正的容灾方案,有效果的容灾系统应该是在性能、管理、技术指标RPO/RTO/DRO之间都能取得最佳平衡点。
三、 能创造什么价值
1> IT 建设什么阶段需要容灾
容灾能创造什么价值?我们首先来看看,在IT建设什么阶段需要容灾,当IT建设系统能创造价值的时候,容灾的价值就会相应的凸显出来。
万事万物都有其基本发展规律,IT信息化建设也不例外,从最初的基础建设阶段,包括PC、服务器、网络等部署,到随后的应用建设阶段,包括OA、网站、CRM、ERP、专用的业务系统等应用,已经成功的跨入了运维有效性建设阶段,包括安全类、加速类、增强类系统、数据保护类等应用,在这个阶段,需要大量的安全防护类产品和解决方案来保证复杂应用系统的运维有效性,同时也因为各类不可抗拒力意外事件的频发,侧面印证了IT运维有效性建设的多维度必要性,对于这个阶段的用户来说,容灾系统的建设已经成为了一个必选项,而不是可选项。
从这里我们可以看出为什么容灾难普及的原因之一,在信息落后的区域,对于没有进入IT运维有效性建设阶段的用户来说,就没有考虑容灾系统建设对业务价值的必要,但是在信息比较发达的区域,这个已经不是主要问题了,他们更多的需要考虑容灾系统建设对于公司组织机构的价值在哪里。
2> 容灾对组织机构有何帮助
容灾系统建设对组织机构的价值体现在哪里呢?
在信息化比较发达的区域,IT建设项目审批时会遇到什么问题呢?答案就是申请预算。对于信息主管来说,要想部署容灾方案,就得说服管理决策团队、财务部门,我们为什么要上容灾?我们上了容灾,对整个组织机构有什么帮助?在这个说服过程中,需要有数据支撑,有管理支撑。那首先我们要知道,部署了容灾系统后,在业务上对企业而言有什么帮助,很明显,正如我们第一篇提到的容灾的目标:保证数据不丢失和应用不间断。那么对于企业的管理而言,我们有什么帮助呢?
万一我们能够将这个阐述清楚,那么决策者是立即能够考虑是否采纳这个容灾方案。因为他可以帮助企业去建立管理职责,可以防范风险和事故等。那么,该如何理解管理职责呢?假设我们没有上容灾系统,发生灾难的时候,也许这个事情没有部门来承担,一旦建立了这个容灾系统之后,专门的 IT 部门来承担了。那又该如何承担,怎么考核,都会因为这个容灾系统的建立发生很大的变化。
防范风险,但是这个风险能防范吗?对我们企业来说就需要思考一点 —— 如何保证这个事情是可以防范的,我们的容灾系统又是如何来支撑的。万一我们现有的容灾只是提供一个RTO、RPO值的保证,而没有提供事先控制、事中跟踪和事后分析的机制,这样就没办法跟企业的管理目标结合起来,类似我们的职能体系,如何把职能体系纳入到考核体系里面来,如何把考核数据从考核系统中拿出来对职能体系进行评估,这也是我们容灾系统需要改善的地方,到现在还没有这样的容灾方案是可以证明与组织机构的管理目标有结合价值的。
所以,真正的容灾方案不仅仅是需要服务于IT系统的建设,还需要服务于整个企业的管理,这也正是它对组织管理的价值所在,而现在能做到兼而顾之的容灾方案寥寥无几,这也是容灾为何难普及的原因之一。
四、 要花多少成本
1> 什么是传统4S方案
对于容灾方案,从最开始以来,一直都是以4S的方式来实现,即首先购买服务器(Server),接下来需要安装好操作系统(OS)和备份容灾软件(Backup Software),最后,万一还有其他的大数据量的存储需求,还需要另外购买存储硬件(Storage)来满足数据存储需求,这样一种Server + OS + Software + Storage的传统4S方案无论从初始成本的投入来看还是后期的维护成本甚至机会成本来说,都是非常巨大的投入,对于广大用户来说,实在是一件门槛太高难以企及的事情。
2> 花什么样的成本上容灾
我们先来看看传统4S方案初始成本的投入情况,每个环节和流程都需要单独的购买产品组合成一个整体的方案来解决问题。比如传统的双机高可用方案,是至少需要2个厂商的产品才能保证应用不间断,一家服务器厂商再加一家双机软件厂商;万一还需要保证数据不丢失,就得另外再部署VTL方案需要的备份软件加虚拟带库,这样至少需要3个厂商;增加磁盘镜像方案得另外再购买其他厂商的产品,异地容灾还得买其他厂商的产品,最后造成容灾系统的建设需要一笔笔不断投入的初始成本。
对于维护成本来说,因为一个个环节流程的单独产品和系统配置,整体的维护成本投入也很高, 试想一下,一套容灾系统的构建需要至少向2个厂商购买,在部署后的维护过程中,万一万一哪个环节出了问题,需要向几个厂商同时咨询和交流,这样无论是维护还是管理都需要多重成本的投入,对于用户来说,是一件冗繁并且投入大的工作。
而在容灾方案系统建设的另外一个角度来看,机会成本也是衡量的重要指标之一。所谓机会成本就是我们避免了某一个事故发生,产生了多少成本。比如,传统的双机高可用方案只能单纯的保障应用不间断,不能保证数据不丢失,那么万一因为意外事件丢失的数据所带来的损失就是传统双机高可用方案的机会成本损失。又比如VTL备份方案,虽然有了备份操作,但是因为技术漏洞,备份窗口间的数据的丢失机率很大。再或者通过磁盘镜像来实现对数据的保护,本地的数据无忧了,但是政府又出了需要防自然灾害的政策要求,面对这样的不可抗力随时可能带来的损失,我们对于这种意外事件可以采取的措施是否又能带来机会成本的收获。
从这里我们可以看出,对于传统4S方案来说,容灾系统建设成本投入的不可控风险是非常大的,对于到底需要花什么样的成本上容灾没有一个可系统规划的流程和可系统衡量的参考。