大规模集群运维自动化的探索与实践

所属栏目:自动化论文 发布日期:2017-06-19 14:33 热度:

   自动化技术的发展,极大地推动了工业生产的效率,IT运维自动化是内控的自动化,本文从东方公司研究院的IT现状和未来设备管理入手,对自动化的发展进行分析与研究。

自动化与仪器仪表

  《自动化与仪器仪表》Automation&Instrumentation(月刊)1981年创刊,由重庆市自动化与仪器仪表学会和重庆工业自动化仪表研究所主办,其特点是学术水平较高、实用性强、信息量大、覆盖面宽、广告效果好、发行量大。据中国科技信息研究所馆藏期刊借阅统计表明,她是最受读者喜爱的刊物之一。主要报道控制理论、系统理论、自动化技术、工业自动化仪表、计算机及其应用技术等方面的研究成果、发展动态、经验交流。适用于从事工业自动化、仪器仪表、计算机应用、机电仪一体化、自动控制等专业的科研、设计、应用、生产、销售的科技工作者、大专院校师生、管理干部、技术工人阅读。

  尽管计算机运维管理的技术在不断进步,但实际上很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能够获取计算机设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起,让人根本没办法判断问题的根源在哪里。

  对大规模集群自动化运维模式和工具进行分析,提出IT运维自动化概念。通过目前存在的问题,分析运维自动化的目标和方法,介绍建立运维自动化的步骤;以图解方式介绍自动化安装、自动化配置、自动化监控等使用情况,并据此说明未来大规模集群运维自动化的远景规划。

  1前言

  IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的更高层次,也是未来的发展趋势与方向。

  2IT运维现状介绍

  目前许多企业的计算机运维已经实现从人工运维到自动化管理,但我们的IT运维管理还只是处在“半自动化”状态。这种运维模式仍然是在用户使用计算机设备的过程中发现故障,之后通知运维人员,然后再由运维人员采取相应的补救措施。这种传统的、被动的、孤立的、半自动式的运维管理模式经常让运维部门疲惫不堪,主要表现在三个方面。

  2.1低效率的手动运维模式

  在计算机运维过程中,只有当事件已经发生并已造成业务影响时,才能发现和着手处理,这种被动“救火”不但使运维人员终日忙碌,也使计算机运维本身质量难以提高,导致生产部门对计算机运维的服务不满意。目前运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使运维人员的工作经常处于被动“救火”状态,不但事倍功半而且常会出现恶性连锁反应。

  2.2缺乏高效的运维机制

  目前我们在运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,导致问题出现后很难快速、准确地找到根本原因,无法及时找到人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,在处理问题时不但欠缺规范化的解决方案,同时也缺乏全面的跟踪记录。

  2.3缺乏高效的运维工具

  随着生产业务的不断发展,我们的生产系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让运维人员难以从容应对,即使加班加点地维护、部署、管理,也经常会因设备故障而导致业务中断,严重影响企业的正常运转。

  出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的工具支持,就很难让故障事件得到主动、快速处理。

  3运维自动化的迫切需求

  另外,我们的更新管理绝大多数工作都是手工操作的,即使一个简单的系统变更或更新,也往往都需要运维人员逐一登录每台设备,然后再进行手工变更,当设备数量达到成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。随着计算机运维管理工作的复杂程度不断增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下的时代已经过去,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现计算机运维的“全天候无人值守”,这极大降低了运维人员的工作负担,而且通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此,对于越来越复杂的计算机运维来说,将纯粹的人工操作变为一定程度的自动化管理是必然的发展趋势。

  首先,运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

  其次,运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具会潜移默化地提升业务保障能力。

  再者,一旦运维系统实行了自动化监控,运维人员的工作负荷就会减少,这也是一种降低经营成本的表现,图1为IT运维自动化的结构示意图。

  4运维自动化的内容和工具

  4.1运维自动化的内容

  计算机运维已经在风雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前—自动化,这是计算机技术发展的必然结果。现在计算机系统的复杂性已经客观上要求运维必须要实现数字化、自动化维护。

  所谓计算机运维管理自动化是指通过将日常运维中大量的重复性工作,如小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,都要由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的计算机运维。简单地说,运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。

  自动化工作平台还可帮助运维人员完成日常的重复性工作,提高运维效率。同时,运维的自动化还要求能够预测故障,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。图2所示为运维自动化与复杂度模型,从这个模型可以看出,运维复杂度随机器数量增多而增多,但在实施自动化运维后,其人力资源需求反而会减小。

  4.2运维自动化的工具

  对于企业来说,要特别关注两类自动化工具:一是运维监控和诊断优化工具;二是运维流程自动化工具。

  图3为系统自动化安装流程图,图4为配置自动化的流程图,这两类工具主要应用于“四化”:1)监控自动化是指对重要的计算机设备实施主动式监控,如路由器、交换机、防火墙等,图5为监控自动化显示结果;2)配置变更检测自动化是指计算机设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助运维人员发现和维护配置;3)维护事件提醒自动化是指通过对计算机设备和应用活动的时时监控,当发生异常事件时,系统自动启动报警和响应机制,在第一时间通知相关责任人;4)系统健康检测自动化是指定期自动对计算机设备硬件和应用系统进行健康巡检,配合运维团队实施对系统的健康检查和监控。

  5运维自动化的建立

  5.1建立自动化运维管理平台

  运维自动化管理建设的第一步,是要先建立运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对计算机资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如在自定义周期内进行自动触发完成对运维的例行巡检,形成检查报告,包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

  5.2建立故障事件自动触发流程

  所有计算机设备在遇到问题时要会自动报警,无论是系统自动报警还是人员汇报故障,应以红色标识显示在运维屏幕上。然后运维人员只需要按照相关知识库的数据,一步步操作即可。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时,会及时触发相关事件,同时触发相关工单处理流程给相关运维人员。运维人员必须在指定时间内完成流程所规定的环节与工作,以提高运维解决问题的效率。

  5.3建立规范的事件跟踪流程

  在运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,建立相应的运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立事件的规范化处理和跟踪指南,可以减少运维操作的随意性和强化运维执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

  5.4建立运维的关键流程

  设立运维关键流程,引入优先处理原则,是指要求技术管理层定义出运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有何影响和意义。同时,在设置自动化流程时,还需要引入优先处理原则,例行的事件按常规处理,特别事件要按优先级次序优先处理,也就是把事件细分为例行事件和例外关键事件。

  6结束语

  随着东方公司研究院科研生产业务的飞速发展,IT基础设施规模在不断扩展且日趋复杂化,对IT系统的依赖性越来越高,其运维标准也随之不断提高,使得运维管理难度和压力大幅增强,传统运维管理模式已面临巨大挑战。实现IT运维的自动化管理,将IT运维中日常大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理过程,是IT运维的最高层次,也是未来的发展趋势。

  参考文献

  [1]侯毅,孙波.IT运维管理解决方案[J].信息安全与技术,2011,11:58~60.

  [2]杜成武.IT运维综合管理平台实现科技管理信息化[J].金融科技时代,2012,8:69~71.

  [3]王庆霞.浅谈IT运维管理的应用与实践[J].信息安全与技术,2012,11:12~14.

  [4]温长洋.防火墙运维自动化工具的设计与实现[J].中国金融电脑,2010,11:48~53.

  [5]温超.电力信息系统运维管理自动化解决方案[J].山东电力技术,2012,1:77~80.

  [6]徐红泉.调动自动化系统综合运维平台设计[J].计算机时代,2010,11:73~74.

  [7]任义丽,王贤,朱建力等.中国石油数据中心ITIL落地探索与实践[J].信息系统工程,2012,11:51~53.

文章标题:大规模集群运维自动化的探索与实践

转载请注明来自:http://www.sofabiao.com/fblw/ligong/zidonghua/35949.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3