当你的系统面对灾难的时候,你有能力“关闭大门”,阻止破坏的进一步继续。下面的这些建议可能会对你有所帮助,帮助你在灾难恢复中作出更快的反应。
2002年2月1日上午九点十三分,美国航空航天局飞行主管LeRoy Cain意识到哥伦比亚号航天飞机出现了问题,毁灭性的灾难将不可避免。他迅速发出命令“关闭大门”。这项命令的发布意味着控制中心所有的工作人员都要开始制定适当的通讯协议,保证现有数据的安全,为日后的分析做准备。这样一来就可以尽可能的捕捉最大量的信息,为日后的灾难分析提供更多的细节数据,并尽可能的减少通讯错误,以免影响调查和恢复工作的进行。
当你的系统出现了问题的时候,你想要知道发生了什么事,为什么会发生这样的事,想知道你自己的处境,想知道该做些什么事才能让一切走上正轨。你的手头可能已经有了灾难应急指南,告诉你具体应该怎么做。但是,你同样也有能力“关闭大门”,阻止破坏的进一步继续。下面所提供的这些建议可能是你以前从未想到过的,有一些可能也只是小事情,但是,它们却可以帮助你更快的采取行动,避免局面的混乱。
开通电话
当系统出现了问题的时候(特别是遇到了大的灾难的时候),人们都想要迅速知道到底发生了什么事情。同样,有些工作人员需要得到指导,要知道自己该怎么去做。
从这一点来看,你会遇到的最糟糕的问题可能就是一个瓶颈。为了让用户和管理人员知道发生了什么事情,知道灾难恢复的进展情况,你需要保证公司范围内信息的畅通无阻。你需要开通多种通讯渠道,确保信息能够迅速传达到用户和管理人员那里。对于用户来说,最糟糕的事情莫过于无法得到信息,被蒙在鼓里了。
开通各种通讯渠道,定期向用户提供灾难恢复的所有最新信息。在必要的情况下,可以指定专人负责。
你知道应用程序都在哪儿吗?
所有的应用程序都不是平等创建的,这是一个无法回避的商业事实。有一件事你以前可能从未想到过,那就是你在编写灾难恢复程序的时候一般不会给各种不同的应用程序排定优先顺序。而事实上对于公司业务的连贯性来说,有一些程序的重要性是其他一些程序所无法比拟的。有的程序是即时的,有的程序是相互影响的,还有的程序是同档案有关的。所以要确保一点,那就是要把关键的应用程序摆在优先的恢复地位。
当灾难发生的时候,要确定用户和所有相关的IT工作人员已经开始着手对自己负责的应用程序进行恢复。这包括在线恢复数据,当然也包括恢复用户系统的运行。但是,当灾难发生的时候恢复软数据、同步收集数据并在系统瘫痪时期通过过渡程序发布数据也是十分重要的。万一这些事情没有小心做好的话,你所遇到的麻烦可能要远远超出这场系统灾难本身。
联系合作伙伴
万一系统是在ERP环境下运行,那么公司和商业合作伙伴之间就存在者相互影响的或是即时的网络。要迅速将系统的中断通知给这些合作伙伴!同公司内部的应用程序一样,公司同合作伙伴共享的扩展程序也需要再次进行同步处理,公司当然也希望能够尽量减少系统瘫痪期间可能的数据损失。由于迅速将数据发送到公司的系统(或是从公司的系统获取数据)是合作伙伴的职责所在,所以公司通知的越及时,情况就会越好。
DOS系统
你的灾难恢复过程是否包含DOS系统的恢复呢?万一是的话,那么就要作好充分的准备,来保持公司业务的连贯性。你可以在几秒钟之内就对DOS系统的关键程序进行变更。
你可以做的不止如此。你可以在控制住局面的情况下将用户集中到DOS系统当中。正如上面曾经提到的,要安排好程序的优先顺序,建立一种垂直的控制程序。
为什么要这样做呢?原因是多方面的。首先也是最重要的一点,DOS系统平时是不太用于即时用途的,虽然在模拟的情况下可以突然同时让一千五百名用户转换到这一系统,但是在现实情况下,这样做可能会带来又一次灾难。不要急于求成,企图一次就解决全部的问题,而应该分别采取几个步骤,这样就能够对这种系统转换进行很好的控制,及早发现问题,防患于未然。其次,万一在用户转换到DOS系统的过程中会出现什么问题的话,那么这些问题的出现也是会有先后顺序的。
是否有黑客?
系统为什么会发生灾难?是偶然的事故吗?或者是出现了什么愚蠢的错误?还是有黑客在作怪?
要学会识别黑客的攻击,采取适当的对应措施。大家一定要明白,万一真的是有黑客在作怪的话,必须要迅速采取一些“关闭大门”的措施。
停止攻击。万一必须的话,通过关闭网络来隔离系统。万一是服务器遇到了问题,并且可以锁定是哪台服务器遇到了黑客攻击的话,可以关闭该服务器。你是否有记录服务器活动日志呢?是否是在远端服务器上进行这项工作呢?(万一是的话,这确实是一个非常好的习惯。)然后,万一可能的话,迅速对黑客做出识别。你可能能够封锁黑客的攻击途径,关闭通路,在几分钟之内完成系统的备分。
记录远端用户的身份,并将这些用户的身份迅速保存起来,以防黑客抢在你之前抹去这些身份。万一你不能迅速识别黑客身份的话,就一定要给自己充分详细的活动资料以备日后的调查。即使是最狡猾的黑客也难免会留下蛛丝马迹的。
观察公司内所有的服务器用户。在这些用户当中,有没有人能够进入服务器的安全通道呢?有的时候,“黑客”行为是偶然发生的。某个应用程序可能会由于用户的介入而变得混乱,而对系统造成破坏。有的时候,用户难免会犯一些错误。要了解那些用户/工作站可能出现问题,迅速对其进行检查。
最后,不管系统故障的发生原因如何,是由黑客攻击引起的,还是其他的什么原因,都要考虑系统镜像工具的应用。这种工具在很多场合都在应用,比如说美国宇航局控制中心在应对像哥伦比亚号航天飞机失事这样的灾难性事故时。应用系统镜像工具有什么好处呢?一旦你的应用程序重新恢复商业应用,你可以重建系统出现问题是的确切数据。这不仅可以帮助你判断什么地方出了问题,还可以帮你找到系统自身存在的弱点。要记住,理想的灾难恢复不仅仅是要恢复系统的运行,还要重建一个更为稳定和安全的系统。