小议应急系统
本人接触应急这个概念是从2008年开始的,当时是为了奥运会的需要,主要是oracle数据库的应急;2009年国庆60周年保障,应急范围扩大到几个核心的平台组件;到2010年亚运会时,应急范围进一步扩大,应急要求更高;这些应急主要针对的是oracle数据库、主要的平台组件,各业务子系统并没有纳入应急范围之内。
由于系统是由一百多台机器组成的,为一个省几千万用户提供7×24小时服务,它的业务对数据库的依赖性很强,所以存在很大的风险:一旦数据库宕机,那全省的业务就会瘫痪,因此系统的应急核心是oracle的应急。
应急数据库的建立过程:
1. 统计线网表及占用空间、在小型机上划分相应的文件空间。
2. 安装同线网相同版本的oracle。
3. 数据库表空间创建及空间划分、应急帐号建立。
4. 用exp导出数据库对象,先导表结构,再导需要的表数据。
5. 先让应急库的JOB和触发器失效,再用imp导入数据库对象。
6. 添加相关索引,编译失效对象。
其它应急服务的建立:
1. 在应急机器上部署其它应急服务,
2. 装好服务后,拷贝线网的目录到应急服务进行替换,这样应急和线网保持同步。
3. 修改各配置文件,进行测试。
应急实施:
1. 先各单模块进行演练,保证各个应急系统都能使用,并根据演练结果进行修正。
2. 编写完整的切实可行的应急演练方案。
3. 应急演练方案,要考虑以下:
3.1 应急演练空间和时间,应急的影响范围。
3.2 应急小组人员名单和职责。
3.3 应急准备检查,各种资源是否准备齐全。
3.4 什么条件下启动应急、步骤是什么。
3.5 应急过程中如何进行协调通报、如何进行业务测试。
3.6 什么条件下进行应急倒回、倒回后的业务测试等。
3.7 应急倒回线网后失败的处理预案等。
4. 根据上面的方案,进行全系统的应急演练。
5. 根据演练的结果,对应急方案加以更正。
6. 日常要对应急系统和方案不断的完善更新,使应急和线网系统保持同步更新。
7. 组织定期的应急演练,使系统不断完善,做到灾难发生时从容不迫。
以上就是本人参与应急的一些总结,列出以便参考并加以完善,不足之处望见谅。
相关新闻>>
- 发表评论
-
- 最新评论 更多>>