集中化战略是中国移动在网络运维方面的核心战略,为网络质量提升和生产力的发展提供坚实的管理基础。随着网络规模的不断扩大和运维集中化的不断深入,省市两级机构在组织协调、专家经验和知识传递、全局指挥调度手段、集中化和专业细化结合等方面出现许多新的问题。
相比而言,传统运维模式特点是:设备、人员分散管理;各地维护模式各异;效率低,规范性、标准性不高。而集中化运维模式的特点是:实现了设备的集中监控、集中维护、集中管理;专家集中操作,现场主要为硬件配合人员,现场工作和远程工作经常互动;要求标准化、信息化、自动化程度高。
不过,集中化运维也面临一些新的问题。首先,专家异地处理与现场人员技能不足矛盾凸显;其次,新设备增加后,设备远程故障处理难度加大;再次,本地和远程处理过程复杂,远程调度沟通不畅,处理效率不高;最后,专业化的不断演进,集中受理的规模和难度不断增加,运维压力越来越大。
网络协同运维管理模式" height="274" src="//www.ninimall.com/files/images/20101213/49aba296-3e43-401b-a823-e90e89da6d56.jpg" width="500" />
图1 知识管理协作过
网络维护新趋势需求
伴随差异化运营、TD发展、全业务运营等新的工作内容不断增多,网络规模不断扩大,业务种类日益增加,网络维护工作面临新的挑战和考验,进一步提升维护效率成为维护工作的重中之重。
比如设备种类的不断增加,与维护人员数量基本不变的矛盾越来越突出;一线维护人员技能不足,专家经验积累不足,知识隐性化,知识共享和传播能力不足;各种新业务的需求不断增加,新技术不断演进,对运维工作提出更高要求;新的IT系统越来越多,各种应用工具在应急中难以发挥出整体效应。
这些现象和问题的解决需要省市公司、各专业高度协作,需要故障处理信息、运维经验等有效支撑,需要减少不规范的行为和操作,为此亟需实现高效的网络协同工作管理。实现了网络故障智能发现、科学决策和高效处理,发挥网络协同工作优势,使网络运维工作显性化、简单化、及时化,提升网络运维效率和客户感受。
协同管理模式思路形成
山东引入TOC的分析思想,组织省、市公司的专家队伍,去梳理网络运维中的问题,在实施的过程中,借鉴TOC持续改善的思想,对分析出的关键约束迭代解决,建立相应的长效完善机制。
通过对现状的分析,找出了和人员、组织相关的分工协作协率不高、专家经验传递不畅等关键约束,通过不断的迭代分析,找出了标准化程度不高、处理自动化程度低等关键约束。
通过专家团队的点对点支持,省、市公司上下各部门的讨论反馈,确定从知识管理、虚拟团队、协同管理、场景管理四个方面加强管理力度。
构建信息共享的专家知识系统
在网络协同工作的过程中,通过梳理各种故障的表象和原因,经过专家的分析提炼固化维护经验,构建信息共享的专家知识系统,形成技术支援知识库,在故障过程中主动推送相关知识,固化相关的操作步骤,提高了工作效率。通过固化维护经验、建立网络安全模型,构建一个信息共享的专家知识系统(如图1)。
安全模型
将隐形知识显性化,将专家经验与故障处理规范相结合,建立表征重大故障的科学模型。最大程度地将山东公司各专业网络、多种业务资源、复杂的运维流程等运营中涉及到的数据、信息、流程等以固化的安全模型形式来表述。其包括网络知识安全模型化、业务知识安全模型化、流程安全模型化。知识模型可细分,如网络知识模型又划分为交换知识模型、传输知识模型、智能网知识模型、信令网知识模型等。而智能网知识模型又可以包括:网络评估模型、资源管理模型、业务分析模型、预警预测模型。通过安全模型的建立,提供有效过滤和关联分析,实现故障准确定位,提高故障发现反应能力。隐形知识显性化,将专家经验与故障处理规范相结合,建立表征重大故障的科学模型;告警、性能、信令、拨测信息的综合应用;创造性地实现基于回溯法的模型简化算法。
故障处理规则提炼固化
通过对已有知识的整理、增添、结合和分类等方式,对既存信息进行重新构造,形成新的知识系统。知识规范化是对显性知识的管理,可以看作是知识转换模式中的联结化。知识规范化结果形成知识库,以经验知识为基础来构建各类规则库。包括网络维护经验规则、知识积累规则、生产操作规则(如图2)。
故障回放总结,提炼新知识
基于各种信息自动生成故障报告,支持故障过程回放;通过知识管理流程,将新的故障经验提炼为新的知识,纳入故障经验处理库。
技术支援的主动推送
指知识转化和应用知识进行自动化处理。对网络运维工作中需要大量人工、重复性的工作进行知识积累,并与IT系统相结合,利用各类技术手段和方法,实现相关运维过程的无人参与或少许人为参与,将维护人员从大量重复性工作中解脱出来。可以根据专业来划分知识自动化处理,例如智能网知识自动化包括告警自动处理、告警自动派单、自动巡检、自动核查、自动预警等内容。通过协同平台实现的专家技术支援信息的主动推送,实现知识的分享。
成果创新点集中凸显
建立集中化、高效率智能应用协同工作平台
通过闭合的工作流程,实现一线维护人员、各地技术专家、远方厂家技术支持、管理人员的协同工作;通过整合即时通讯、操作助手、视讯会议、集中操作等手段实现工具的协同;通过故障拓扑呈现、运维知识呈现、协同信息交互,支持图形化的故障交互分析、定位处理,实现故障定位协同;通过固化处理经验、规范工作流程和操作、强化现场管理,按照角色职责分工,协同配合,固化运维经验,实现故障处理的协同;通过故障影响分析、故障处理过程信息、处理决策影响分析,整合调度手段,突出集中管理,实现协同决策;通过建立人员、角色、任务的耦合机制,实现省市两级维护专家的联动,形成了完善的虚拟团队管理模式,并且从组织、流程、支撑手段三个方面结合使得虚拟组织能够高效、稳定的协同工作,保障了网络集中化运维工作的顺利开展。
构建模型化、规则化、自动化知识管理体系
在网络协同工作的过程中,通过梳理各种故障的表象和原因,经过专家的分析提炼固化维护经验,构建信息共享的专家知识系统,形成技术支援知识库,在故障过程中主动推送相关知识,固化相关的操作步骤,提高了工作效率。
同时,围绕协同管理的目标,山东公司通过梳理各种故障的表象和原因,经过专家的分析提炼固化维护经验,形成技术支援知识库,构建信息共享的专家知识系统,使得知识管理效益更加突出。建立表征系统重大故障的分析定位模型,通过综合告警、性能、信令等全面的故障信息,屏蔽冗余信息,获取典型故障的典型特征,建立安全模型,通过回溯法求核形成定位信息,提高重大故障的自动发现和定位能力。
图2 故障规则提炼过程图
形成虚拟团队组织和协同工作机制
虚拟组织以其灵活的组成方式提升对市场的快速反应能力,可使企业在市场中占据有利地位,提高自身的核心竞争力。山东公司建立的统一指挥导向的机制是集团“三集中”核心的体现,是保障虚拟组织协同一致、发挥最大效应并为企业带来价值的集中体现。统一指挥导向是指遵循集团“三集中”战略,围绕山东公司网络精益运营要求,使用统一的智能化平台,组织虚拟团队高效地完成网络运营协同工作。
山东公司通过高效的选拔机制,将各个地市的技术骨干经省公司选拔后组成虚拟团队,虚拟团队的工作内容是制定全省的网络维护管理办法、执行方案,进行深层次专项网络维护课题研究、网络技术经验推广等工作。
虚拟团队的协同,在组织流程方面,虚拟组织成员在本地或进行人员集中等方式开展多种形式的专项课题研究和对兄弟公司的技术支援工作,实现虚拟组织的全省共享。省公司专家队伍作为一个面向全省的技术团队,每一名成员均有责任和义务对全省网络中的各个网元出现的问题进行分析、解决和优化;在手段方面,可以通过智能化平台的指挥调度系统使用网络会议、协同工作平台、可视聊天室、在线交流等工具完成虚拟团队的协同工作。
确立灵活、可视化场景式网络监控模式
通过梳理不同故障处理场景,根据故障分类的进行信息化建模,固化每一个场景所需要的信息,规范现场处理各个环节,规范故障处理信息和过程,标准化处理过程,自动化提示,使故障信息、角色管理和处理过程规范化、标准化。同时应用信息化手段,实现了故障处理过程的可视化管理。
可视化故障场景管理是对故障现场的信息化建模,对资源信息、故障信息,角色信息、处理过程等进行规范和标准,使协同人员都能够系统获取相关信息、快速把握现场故障信息。场景可以由安全模型自动生成,也可以由手工发起。所有维护人员均可以发起一个新场景,管理员可以对已有场景进行删除和锁定。一个场景完成后自动保存所有相关信息,对以前保存的场景可以进行浏览。维护人员和厂家人员均可以登陆未关闭的场景,场景中可以看到目前登陆的所有人员信息,便于管理者统一调配,协同指挥。
新运维管理模式产生更高社会效益
通过基于集中化运维的网络协同管理,建立了网络安全模型,提高故障发现反应能力,规范故障处理流程,提供准确及时数据和沟通手段,提高故障处理的操作效率,通过网络资源、应急方案和网络管理流程的有效集成,实现业务的安全、快速恢复,缩短业务中断时间,提高用户感知。
基于智能化维护手段的集成、整合平台,实现了故障发现、分析、处理等功能,并在此基础上实现故障的全过程管理和控制,以科学决策、高效处理故障,使故障处理显性化、简单化、及时化。通过知识管理、虚拟团队的建设,有效的实现了知识的显性化和分享的难题,完善了专家支援队伍。
该平台自2009年建成以来,在现网进行了MGW、CE等各种故障类型的演练,并在突发大话务冲击事件进行了实际应用,事前、事中、事后各处理环节中都明显提升处理效率,缩短了处理时间,总用时节省了近90%,经测算带来直接经济效益约720万元人民币;同时在推动社会信息化进程,促进节约型社会的形成等方面起到重要作用,有较高的社会效益。