WLAN 网络智能管理系统
2010-11-25
来源:维库开发网
0.引言
目前,WLAN(无线局域网)在全球发展势头迅猛。珠海移动原有的WLAN 系统共有300 多台热点AP (接入点) 设备, 2009 年迅猛增加到1000 多台。
在现有运营管理中, 主要存在以下问题:a)AP 设备数量庞大,维护人员数量有限。b)AP 设备多数是一些小网络设备, 网管功能不健全,现有的网络管理软件无法有效监控。c)现有AP 设备类型较多,不支持标准网管,且管理手段各不相同,给统一监控带来很大困难。d)信息化业务服务质量缺乏标准,无法衡量。
为了解决以上问题,提高工作效率和维护水平,迅速、有效、合理地调配资源,提高全网设备的利用率。广东移动珠海分公司通过开发WLAN网络智能管理系统, 从WLAN 网络末端设备AP出发, 基于用户侧提供自动的业务监控功能,实时发现WLAN 网络连通性和性能问题,实时进行异常变动告警上传,变被动维护。
1.WLAN 网络智能管理系统功能
珠海WLAN 全网现有1000 多个AP,分布于珠海香洲、吉大、金湾、斗门、平沙、三灶等多个区域。共110 个热点覆盖于酒店、娱乐、高档小区、政府企业、服务厅等。目前网络采用常用的AC(接入控制器)串联接入,下接汇聚交换机,采用传输到各热点区域或传输汇聚机房方式。
通过网管服务器的架设部署,通过核心交换机连通各个网络设备,读取各个AP、AC、交换机路由器等各种网络设备信息。
系统中直接面向用户业务的有4 个子功能模块,按照主要功能作用可分为WLAN 设备管理模块、用户行为功能模块、日志功能模块和集成功能模块四大类。
WLAN 设备管理模块包括性能监控(CPU、内存监控)、无线参数监控、接口监控、用户认证模块、事件综合管理、排名等。用户行为分析模块包括用户接入时长、用户接入AP、用户漫游情况、用户接入时段、用户使用流量、流量应用分布、用户访问目的、用户行为指纹、用户特征识别。流量分析包括接口分析、应用分布、会话分析、网间流量分析、流量报表、流量告警、流量事件管理、流量过滤。日志管理包括SYSLOG 日志、Trap 日志、日志匹配、日志告警。
WLAN 网络智能监控系统着力解决以下关键技术问题: a)全面支持对小型网络设备运行状况的数据抓取。b)全面支持各种网络和主机设备。
c)统一支持多种采集手段。d)一个可定制性极强的监控框架,大幅降低定制费用。e)充分挖掘已有管理系统的潜力,减少用户方管理系统软件投入,提高管理效果。f)设备管理、用户户管理双核心。g)高效率、高可靠性,对硬件环境要求不高。
2 WLAN 网络智能管理系统原理
2.1 统一采集平台(UNICOL)和多采集(MUTICOL)
WLAN 的监控对象大多是接入层的AP 设备,这些设备价格较便宜、网管功能不健全、监控方式不标准, 且型号众多, 通用网管系统不做改动很难支持。另一方面,AP 设备虽然类型复杂,但功能却相对统一。功能的相对统一决定了其监控指标的展现也相对统一。
结合WLAN 系统的这两大特点,构造了统一采集平台。该平台将监控指标的采集与展现彻底分离,摆脱了传统的采集模块与展现模块结合在一起的方式,以略微牺牲一点展现的丰富性为代价,换取了采集模块的极端灵活和高效。
1)统一采集平台(UNICOL)
所有的网络监控类软件都建立在系统数据采集的基础上, 新型的网络监控系统都已经使用了系统化的采集平台(COL-PLATFOME),有利于将各种不同类型的采集同一化,从而降低定制成本,增加支持设备类型数量。COL-PLATFOME 虽然在采集同一化方面做了很多工作,但仍然摆脱不开“对象”的概念,采集指标(KPI)总是从属于某一个设备类型,如CISCO 类型下, 有CPU 使用率、接口流量等KPI;HP-UX(一种主机操作系统)类型下,也有CPU 使用率、接口流量等相似的KPI。
传统采集框架如图1 所示。
传统采集框架中,KPI 都挂在特定的对象上。如果要扩展支持的对象类型,有两个必不可少的步骤:
a)编写对象层逻辑。b)修改KPI 逻辑,把它们挂到新编写的对象逻辑上。
存在的问题:a)KPI 逻辑是大致相似的。例如CPU 使用率,CISCO 设备和HUAWEI 设备的差别可能仅仅在于OID 不同,HP-UX 和AIX 的差别仅仅在于命令有一点不同。有的KPI 逻辑(如取设备延时、丢包率等)甚至是完全一样的。b)对象逻辑是大不相同的。相对而言,对象逻辑与每种对象管理,其性质大不一样。例如CISCO 设备,对象层上必须取得设备OID、接口列表等关键属性, 而HP-UX 则必须取得总内存、总虚拟内存、卷列表等关键属性。
导致的后果:a)对象层差别性很大,每增添一个新设备类型,都必须增添代码描述新的对象,形成新的对象层。b)尽管KPI 差别性不大,但它必须挂在对象层下,对象层的增加必然导致KPI 要做相应的修改,才能挂到新的对象下面。
通过以上分析可看出, 传统的采集框架的架构不尽科学, 其根本问题在于差别性大的对象层被放到框架中层, 而差别性不大的KPI 被放到框架底层。这种架构与人类的思维很接近(先大后小的自然过程),但其扩展性受到约束,为支持新设备必须付出昂贵的开发、定制和实施成本。特别是在WLAN系统中,这个缺点更为突出。
统一采集平台(UNICOL)改变了采集平台的架构,其结构如图2 所示。
新的框架具有以下特点:a)取消了对象层。不同对象差异性很大,这里直接把它取消掉。其差异性通过其他方式(标签层)体现出来。b)将KPI 直接提到中层。不同KPI 差异性不大,把它提高到架构中层。
保证架构上两层很少变动。c)在底层新加一个标签层。KPI 的差异性通过给它贴上不同的标签得以体现。例如“大类”里面,供贴的标签有“网络| 主机| 数据库| 无线设备” 等。小类里面, 供贴的标签有“CISCO|HUAWEI|HP-UX|AIX|AP|AC”等。另外,还有一些预定义的标签(如“解析方式”、“数据类型”、“数据处理”等)按不同的KPI 分别贴上。
这个标签层的意义在于:a)它标示了KPI 的个性,弥补了对象层取消带来的信息缺失。b)它包含的都是配置性的数据,基本上以配置文件的形式存在。
新架构的优势是:架构上两层很少变动,变动主要体现在“标签层”,而“标签层”主要以配置文件的形式存在。
通过改进系统架构,新系统对新对象、新KPI只要增加配置项就可以支持, 也就是说, 不需要改代码。
2)多采集(MUTICOL)
将传统的网管延伸到以AP、无线路由器为代表的小设备领域,还有另一个重大问题需要解决:采集手段问题。
因为成本关系, 这些小设备大多都不提供完整的网管功能:不提供SNMP(简单网络管理协议),或对SNMP 的支持很弱,很多信息都没有提供;不提供远程登录,或远程登录命令很弱,无法用标准方式得到有价值的信息等。
这些小设备都提供形式不一的管理界面, 特别近年来尤其流行Web 管理界面。这些管理界面在提供管理功能的同时,其设备运行信息、性能信息、流量信息、告警、日志等信息通常都在这些管理界面中提供,但是提供方式非常分散和不统一。如某型号的AP,其Web 管理界面提供了总内存,其他地方没提供;其telnet 管理界面提供了当前空闲内存,其他地方没提供,那么要得到“内存使用率”这个KPI 就需要使用不同采集方式,最后加以计算。
通用网管系统使用标准的SNMP 协议或定制化的脚本远程登录取得设备信息, 从监控手段上很难满足小设备的监控需要。
WLAN 网络监控系统使用独特的多采集框架(MUTICOL),同时支持丰富的采集手段:a)SNMP。
b)TELNET / SSH 等远程登录方法。c)Web 界面截取。d)设备命令行管理工具。
2.2 设备监控和用户行为跟踪双核心
WLAN 网络监控从通用网管分支出来,但又有其独特的需求。WLAN 的管理不仅关心网络的运行情况,也关心用户的接入情况,包括接入地点、漫游情况、应用分布,甚至接入习惯和接入指纹。要做到这些,虽然可以通过定制添加功能的方法,但底层视角仍不可改变地根植于设备监控, 无法充分站在网络分析者的角度进行用户行为分析。
新一代WLAN 网络监控和用户行为分析系统从内部框架实现设备监控和用户行为跟踪“双核心”,站在用户行为分析的角度,为网络运维、网络优化和网络安全提供更有价值的信息。
3 WLAN 智能监控系统功能结构及系统应用
该系统可应用于网络优化测试、网络资产管理、设备巡检、维护资源管理、设备告警、故障排查等工作中,全方位地提升现场维护、网络资源优化、网络管理的效率和质量。
系统功能如下:
1)实现全网的网络实时监控:
该系统的接入应用, 通过对全市1000 多个AP的实时监控,综合呈现了全网的接入树形结构、设备的告警情况, 统计AP 接入数量种类、用户登陆情况、用户热点分布情况,显示每天、每周、每月的登陆用户数的用户曲线。
2)维护测试:
网络维护人员可直接通过手提电脑进行维护测试, 系统将记录主要的网络参数并以图形化方式呈现在手提电脑屏幕中。呈现模式为动态图形呈现。拨测结果可以保存单独测试文件, 上传到服务器后可生成测试报告。
3)全网的综合呈现:
系统呈现全网资源的分布情况, 可将珠海全网的覆盖热点信息、AP 数量统一展现在系统上, 一目了然。
4)巡检管理:
极大缓解维护管理人员的日常巡检作业压力,通过系统的实时监控,不需到现场巡检,就能及时发现某个区域的某个AP 出现网络告警, 有针对性的到达故障现场处理故障。节省了大量的维护资源,维护人员由过去的4 个精简到现在的1 个。通过系统就能了解全市任一热点的AP 设备的健康情况。
5)故障处理:
方便维护人员进行故障处理,通过系统监控,将被动的故障维护变成主动的故障维护。降低用户的投诉率,在该系统投入应用后,用户的投诉量大大下降,由以前平均每月的20 宗,降低到现在的5宗以内。故障处理及时率也由以前的80%提高到现在的95%以上。有效压缩了人力资源,减轻了运维压力。
6)资产统计:
维护人员通过该系统可以详细统计出网络接入AP 的数量、种类以及全网的AP 分布。
7)基础报表管理:
详细的报表信息可以智能地区分外部用户和内部用户,得到外部用户的登陆使用情况、内部用户的登陆使用情况、登录用户接入号码、接入时长等详细信息。
8)排名分析:
一些重要的业务热点往往需要分析用户的登陆次数和使用动向, 为此, 该系统将对全市所覆盖的WLAN 无线业务使用情况进行排名分析, 对每天、每月的TOP10 热点进行排名。
4 结束语
珠海移动在无线城市的建设中,WLAN 用户迅猛增长。WLAN 网络智能管理系统将珠海全市的AP 都纳入了系统监控范围,由点到面地集中管理整个珠海移动网络,同时平台具备很强的可扩展能力,能方便地进行功能扩展和规模扩展, 能兼顾各种层次的运维管理需求。
该系统接入应用,通过对全市1000 多个AP 的实时监控,极大方便了维护管理人员的日常巡检,节省了大量的维护资源,有效压缩人力资源,减轻运维压力。此外,该系统的投入使用大大提高了网络规划能力及应急处理决策的正确性, 通过对用户行为及网络历史数据进行分析,对WLAN 网络的应急预案市场的精确营销都具有重要的指导意义, 同时每月可以节约人力和车辆成本2 万多元。
本系统创新的维护管理模式将原本单一而又复杂的网络数据用美观大方的图形信息进行展现,使维护人员能简单易懂了解到网络整体状况, 凸显了移动通信网络维护的专家形象, 造成了较好的社会影响。