深度学习在网络信息安全中的应用
2018-10-25
作者:陈骁
0 引言
随着大数据与云计算时代的到来,互联网技术为人们的生产生活带来了极大的便利,但由此带来的网络信息安全威胁也日益严峻,关乎个人和企业甚至国家的安全和利益。对个人而言,短信、电子邮件、网络搜索记录、照片等都涉及公民隐私信息,恶意攻击导致的信息泄露会对公民人格尊严、财产安全甚至人身安全都造成影响。对企业而言,网络信息安全关乎企业的商业机密、核心技术、财务安全等关键领域,是企业正常生产经营的保障,在“信息就是价值”的时代意义更为重大。对国家而言,网络信息安全涉及政治、经济、文化、军事等各个关键领域,美国“棱镜门”事件充分表明,网络攻击和信息窃取可能不仅限于个人行为,也可能是国家行为,这种有组织大规模的攻击窃取行为对他国安全构成严重威胁。
1 网络信息安全挑战
网络信息安全主要包括网络空间安全和信息内容安全,前者主要指网络中软件与硬件的安全,后者主要指网络信息内容在生成、传输、存储与使用中的安全,涉及网络技术、计算机技术、密码学等多学科。近年来信息与互联网技术高速发展,但与此同时网络信息安全技术发展相对滞后,这也造成国内外重大网络信息安全事件频发。
2015年,伟易达公司480万家长及20万儿童隐私信息被泄露、日本养老金服务系统遭攻击致125万人受影响、优步公司5万司机信息遭泄露、喜达屋旗下54家酒店POS机被植入恶意软件致用户信息泄露。2016年,凯悦集团遭恶意软件入侵致318家酒店的顾客名册泄露、苹果商店1 000多款应用被曝存在安全漏洞、阿里巴巴云计算平台遭黑客攻击致2 059万淘宝账户信息泄露、俄罗斯黑客盗取2.73亿邮箱信息、京东用户的12 GB数据包在网上贩卖、MongoDB数据库漏洞致5 800万商业用户信息泄露。2017年,勒索病毒WannaCry在全世界范围内攻击了30多万用户,给150多个国家的金融、医疗、教育等各个行业造成了百亿美元损失、美国1.98亿选民的政治数据被泄露、美国信用评级机构Equifax遭攻击致1.43亿用户信息外泄。
2 传统网络信息安全策略及缺点
网络攻击行为发生的原因主要包括炫耀技术、恶意报复、获取利益、政治目的,常见的攻击方式包括跨站攻击、暴力破解、页面篡改、SQL注入、远程代码执行、拒绝服务、越权攻击等[1],攻击手法不断更新变化。人为错误、管理不善、程序和系统漏洞以及安全措施不当等是网络攻击可以实施的客观因素。具体来说,账号密码过于简单或者管理不善,导致网络犯罪分子伪装成合法用户、运维人员或者开发人员获取数据或者安装恶意软件;软件开发者使用了不安全的编程接口或者开源代码,导致软件存在漏洞或后门遭到控制和攻击;操作系统未及时安装补丁;怀有恶意的内部人士窃取信息或者造成破坏;访问权限管理不当导致的误操作;防火墙、杀毒软件以及网络监控等防护措施缺失增加了感染病毒的风险。
为了防范网络风险,传统的应对策略主要概括为:
(1)规范管理,加强凭证、秘钥管理,提高防范意识,合理分配开发人员和运维人员权限,制定明确操作规章杜绝违规操作,制定突发事件预案,保证系统和数据的快速恢复。
(2)审查审计,严格审查软件代码和硬件芯片的原始安全隐患和漏洞,防范内部人员预留后门和植入恶意代码,全面审计每条数据和操作的来源和去向,对于攻击和数据泄露有迹可循。
(3)全面防范,及时更新操作系统补丁,安装防火墙和杀毒软件,对网络运行状态进行监控,及时阻断非法访问,查杀病毒和恶意软件。
传统网络信息安全策略虽然能够阻止大部分网络威胁,但这种被动应对策略也存在明显不足。首先,目前的网络攻击防御都是针对已知的网络攻击手段进行检测,但现在的网络攻击方式变化更新很快,攻击代码经过多层封装可能就是一种新的病毒,传统的安全策略对新型攻击的识别能力不足。其次,一旦有新型攻击手段,传统安全策略需要依赖安装补丁、更新杀毒软件等方式,响应速度慢而增加了安全风险,应对能力不足。另外,传统网络信息安全策略在很多环节依赖人工操作,这就增加了人为干预导致的网络安全风险,增加了防控的难度。在大数据时代,传统网络安全策略应对复杂多变的网络环境明显有些力不从心。
3深度学习在网络信息安全中的应用
深度学习作为机器学习技术的一个非常重要的新兴领域,正被日益广泛地应用于各个行业领域。2016年谷歌旗下DeepMind公司研发的基于深度学习的机器人AlphaGo轻松战胜了围棋世界冠军李世石而轰动世界,表明深度学习技术有着很强的处理能力以及自我学习能力。当前深度学习在各领域的技术突破,也为其在网络信息安全领域的应用提供了理论支持。可以预见,深度学习在网络安全管理和信息保障中的应用将达到一个前所未有的新高度。
3.1 深度学习发展历程
20世纪80年代末,浅层学习的兴起依赖于RUMELHART D等人利用反向传播(Back Propagation, BP)算法提出的多层前反馈神经网络,此后相继提出的高斯混合(GMMs)、支持向量机(SVM)、条件随机场(CRF)等浅层模型相较人工规划系统可以更加有效地解决多重限制的应用问题,但由于这些浅层结构模型通常不超过2层非线性特征转换层,对于真实世界中需多层网络训练的复杂问题,其泛化处理能力和复杂函数表示能力依然无法满足要求。
深度学习是机器学习由浅层学习在理论、算法及应用等方面不断发展突破而形成的新兴领域。深度学习概念在1976年由MARTON F和SALJO R首次提出,并在《学习的本质区别:结果和过程》中详细解释了其含义,但直到2006年,加拿大科学家Hinton的团队突破性地提出了深度置信网络(Deep Belief Network, DBN)结构,利用每一层受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)[2],以无监督学习训练学到的参数初始化有监督学习训练,克服了BP算法层数增加时训练困难的问题。此后谷歌、微软、IBM等科技企业纷纷加大了深度学习的研发投入,深度学习在自然语言处理、语音识别、计算机视觉等领域的应用也取得了突破性地进展[3]。
3.2 深度学习技术特征
深度学习在数据模型理论方面其实是模仿人类大脑的学习过程,在对大量的数据进行提取以及分析的过程中,其数据之间会形成相互交叉的、复杂的网络构造,这种构造中有着许多的隐层,该隐层并不是人为设定的,而是从海量的数据信息中自我学习得出的。因此,这种包含多个隐层的构造在处理数据信息的时候,可以实现外部信息与内部数据之间相互协调配合,提取出目标信息的深层次特征。
3.3 深度学习在网络信息安全领域的应用
3.3.1 公共网络语音监管
语音信息是人与人沟通交流的重要载体,除了传统的电话通信,也诞生了微信等即时通信软件,但近年来违法分子利用网络进行电信诈骗、语音恐吓甚至危害国家安全等犯罪行为,海量语音信息通过人工审核显然无法实现,需要更加高效的语音识别能力才能应对。
在2010年以前,语音识别通常采用HMM-GMM等模型,这些浅层模型虽然经过训练能够实现一定程度上的语音识别功能,但无法充分描述语音的内部结构特征及状态空间分布,而当时训练深度的有监督的模型则因为梯度不稳定、训练困难且代价高昂等原因都以失败告终。深度学习彻底改变了语音识别原有技术框架,利用深度学习技术进行语音特征提取和声学建模,可以有效提高语音识别能力。如图1所示,公共网络语音信息输入含多个隐层的深度学习神经网络,将提取的特征信息与语音特征库进行比对[4],特征库是大量违法犯罪语音信息样本训练深度神经网络得到的抽象特征集合,对比后分离出可疑的语音信息,通过人工分析研判等方式,确定干预的方式。
3.3.2 安卓恶意软件检测
智能手机和平板电脑等移动终端能够更好地满足移动互联时代快节奏的工作生活方式,包含用户社会关系、财产信息、位置轨迹等隐私数据。2/3以上移动终端使用Android操作系统,不法分子利用Android系统开源的特性,开发恶意软件对安装设备实施恶意操作,造成严重安全威胁,而传统检测技术对于采用了代码混淆和重打包技术的恶意软件检出率不高。
如图2所示,使用大样本的安卓程序训练集,提取其中的静态特征和动态特征,生成特征向量训练深度置信网络,生成深度学习网络。利用深度学习网络对待测Android程序静态特征和动态特征结合生成的特征向量进行检查分析[5],可以得到相对准确的结果。静态信息和动态行为是分析安卓应用程序的主要手段,静态特征可通过逆向工程方式提取,动态特征需要分析Android体系架构各层指令信息。
3.3.3 入侵检测
入侵检测是为了保护内部网络避免异常访问或攻击等恶意活动而造成破坏,入侵方式的日益复杂也给网络安全带来严峻挑战,访问控制、防火墙、数据加密等传统应对技术越来越难以应对。目前的入侵检测技术主要包括基于统计、基于聚类、基于分类和基于信息理论这几种算法方式,虽然在一定条件下有较好的效果,但对于复杂网络环境的入侵检出率还是不理想。
深度学习技术在入侵检测中逐渐得到应用,基于循环神经网络、深度置信网络、卷积神经网络等深度学习算法的入侵检测方式都取得了很大突破。一般首先对大量原始数据进行预处理得到原始训练集,然后训练基于特定算法的神经网络,得到相应的检测模型。待检测数据预处理后输入检测模型,输出结果通过分析判断得到网络入侵情况。
3.3.4 色情图像检测
网络色情是严重的网络违法犯罪行为,而互联网和通信技术的发展使得色情信息传播更加方便快捷和隐蔽,对广大青少年的身心健康造成严重影响。之前图像识别中常用的模板匹配等方法普遍采用人工特征提取与机器学习的方式,对于色情图像的识别面临一些困难,导致很多色情网站屡禁不止。
图像识别中,图像特征的提取是图像识别性能的关键。基于皮肤检测的色情识别通过检测裸露皮肤比例等参数,如HSV色彩模型,再运用相关方法进行判别,但对于复杂纹理和光照效果不理想;基于手工特征提取的色情识别,如视觉词袋模型,通过相关部位特征提取和分类器获取分类结果,速度和精度也不能完全满足要求。深度学习在色情图像检测中的泛化处理能力和鲁棒性优势明显。一种基于深度学习的色情图像检测流程如图3所示,待测图像输入卷积神经网络CNN,比如ResNet、VGGNet、AlexNet[6]或者GoogleNet[7],判断图片是否是色情图片。
3.3.5 违法文本信息检测
不法分子利用互联网传播违法文本信息会造成恶劣的影响,这些信息包括虚假信息、反动信息、诈骗信息等,利用谐音、拆分、拼音等方式可以逃避目前通常采用的敏感词检测,这就要求自然语言处理需要更加完善和高效。
自然语言处理通常采用基于统计的浅层模型,多数研究采用分离词性标注、语义相关词、命名实体识别、语义角色标注等方式处理,将若干分离的任务进行特征串联增大了误差,同时忽视了语言的整体性。但随着深度学习技术的发展,自然语言处理的研究成为热点,卷积、循环、递归等网路模型在自然语言处理上的应用,使得违法文本信息检测更加准确。
3.3.6 其他应用
深度学习也逐步在网络信息安全的其他各个领域得到广泛应用。基于深度学习的人脸识别作为一种高效的身份认证手段,相比账号密码更加安全;在钓鱼网站检测中的应用避免了恶意信息的传播和浏览用户的风险;深度学习技术对基于HTTP协议恶意特征分析能够避免Web应用中利用HTTP协议进行恶意操作;在信息检索中应用深度学习技术可以防范搜索引擎的检索结果中出现恶意链接。
4 结论
深度学习技术在语音、图像、自然语言识别等领域的发展,为解决严峻的网络信息安全威胁提供了更加智能和高效的解决手段。深度学习在公共网络语音监管、入侵检测、色情图像检测和违法信息检测等领域也逐步得到应用。但当前网络环境日益复杂多变、网络攻击手段日益狡猾多样,现阶段的深度学习技术虽然在理论和建模上有所创新,但在工程应用中依然无法完全满足实际要求。相信随着深度学习技术的不断发展和成熟,其在网络信息安全领域的应用一定会取得更大的突破。
参考文献
[1] 魏为民,袁仲雄.网络攻击与防御技术的研究与实践[J].信息网络安全,2012(12):53-56.
[2] 奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465.
[3] 张巧丽,赵地,迟学斌.基于深度学习的医学影像诊断综述[J].计算机科学,2017,44(11A):1-7.
[4] 邵翀,张凡忠.深度学习在公共网络安全管理中的应用研究[J].网络安全技术与应用,2015(6):89-90.
[5] 苏志达,祝跃飞,刘龙.基于深度学习的安卓恶意应用检测[J].计算机应用,2017(6):1650-1656.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe: NIPS, 2012: 1097-1105.
[7] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1-9.
(收稿日期:2018-07-01)
作者简介:
陈骁(1990-),男,硕士研究生,主要研究方向:网络安全。