文献标识码:A
DOI:10.16157/j.issn.0258-7998.180439
中文引用格式:金鹏,杨忠良,黄永峰. 基于卷积神经网络的诗词隐写检测方法[J].电子技术应用,2018,44(10):114-117,126.
英文引用格式:Jin Peng,Yang Zhongliang,Huang Yongfeng. Poetry steganalysis based on convolutional neural network[J]. Application of Electronic Technique,2018,44(10):114-117,126.
0 引言
隐写术是信息安全领域的一个非常重要的研究热点,它通过难以察觉的方式将秘密信息隐藏到数字载体中。它可以用来建立秘密信道,并通过互联网在连接受到限制或监控的双方之间传递隐蔽信息[1]。密码术主要通过设计加密技术,使保密信息不可读,但同时也暴露了数据的重要性,使其更容易遭受拦截、破解等攻击。而隐写术则致力于通过设计精妙的方法,使其根本不会引起非授权者的注意并且无从得知保密信息的存在与否。由此可以看出,隐写术的最大特征就是具有极强的隐蔽性。基于此,设计并实现自动隐写检测方法成为一件非常具有挑战性的任务。
信息载体的形式多种多样,因此有基于不同载体的信息隐藏方法,比如基于图像[2]、语音[3]、文本[4-5]等。这些隐写技术在信息安全保障体系的诸多方面发挥着重要作用。但隐写术也有可能被用于非法目的。因此,急需解决非法信息的检测问题,阻止非法信息的传输。由于图像和语音相比于文本具有更大的信息冗余度,使其成为非常常用的信息隐藏载体,相关的信息隐藏技术[6-7]也已经比较成熟。
文本中可用于隐藏数据的冗余空间非常有限,导致在文本中嵌入信息非常困难,但也吸引了大量研究者对其进行研究。现有的基于文本的信息隐藏方法大致可以分为两大类,一类是基于文本格式[5,8-9],一类是基于文本内容[10-11]。基于文本格式的信息隐写方法一般将文本当成一种特殊编码的图像进行处理,它们通过调整文本的字符间距[8]、字词的偏移[5]、字符编码方式[9]等实现信息隐藏。这一类方法通常容量较大、实现简单,但鲁棒性不强。基于文本内容的方法,通常通过对文本进行词汇、句法、语义等方面的修改,尽量保持文本局部以及全局语义不变、语法正确的方式来实现信息的嵌入。例如,文献[12]利用马尔科夫模型进行自然文本生成并通过对生成过程中转移概率进行编码实现信息隐藏,但存在的缺点是生成的文本都不太自然。然而,随着近些年自然语言处理技术的发展,出现了越来越多基于文本自动生成的信息隐藏方法,例如一些隐写技术能自动生成大量的诗词并在生成过程中实现大容量秘密信息嵌入[13-15],同时最终生成的诗很难与真实诗人写的诗区分开。这一类方法比基于格式的方法具有更强的鲁棒性和更好的隐蔽性。目前基于文本语义内容的信息隐藏技术是文本信息隐藏技术发展的研究重点和热点。本文主要针对这一类方法,提出一种基于卷积神经网络的文本自动隐写检测方法,实现对文本中是否隐藏信息的自动识别。
1 相关研究工作
隐写分析技术是和隐写术相对抗的一种技术。通常认为判定某个数据载体中隐藏信息的存在即可认为该隐写系统被攻破。因此,本文重点研究自动检测文本中是否含有隐藏信息。
目前,已有的文本隐藏信息检测研究要么是主要针对一些特定的隐藏算法进行研究,要么是根据人为定义的统计规则进行判别。针对前一类方法的研究有:吴明巧仅仅针对Stego工具,提出了基于标记特征与统计特征相结合的检测方法[16];KWON H等针对基于文档结构数据的隐藏信息,利用微软复合文档格式特征的分析,检测利用未用空间和插入流数据隐藏的信息的存在性[17]。针对后一类方法的研究有:周继军借鉴概念图的思想,提出了基于句间相关性度量判定法的自然语言隐藏信息检测算法[18];HUANG L S研究团队也提出了基于词位置分布统计特征[19]以及基于统计词的频度、检测熵的方法[20]。这些文本隐写检测方法最大的缺点在于,它们的针对性太强,覆盖的可检测的信息隐藏方法有限。
随着技术的发展,已经有很多研究将信息隐藏和特殊文本的生成相结合起来,取得了不错的效果。比如DESOKY A利用很多特殊的文本形式,例如笔记[15]、笑话[21]等来隐藏信息。文献[14]中提出的模型利用计算机自动生成诗词实现信息隐藏。文献[4]和[13]中也通过利用马尔科夫模型和循环神经网络算法生成符合规则的诗词。这一类方法生成的诗词对于未经训练的人很难区分开,因此具有极高的隐蔽性。现在还没有针对这一类隐写算法的隐写检测算法,本文的目的就在于解决这个问题。
2 基于卷积神经网络的诗词隐写检测方法
近两年,以卷积神经网络为代表的深度神经网络模型在计算机视觉[22]和自然语言处理[23]等领域取得非常大的成功。大量的研究显示卷积神经网络具有强大的特征抽取和表达能力,能自动从大量数据中学习得到特征[22]。本文中设计并实现了一套基于卷积神经网络的自动文本隐写检测算法,它能自动对待检测的文本进行特征抽取进而判断是否隐藏信息。
本文最终采用的卷积神经网络模型结构如下:一个输入层、一个包含多个不同尺寸卷积核的卷积层、一个平均池化层、一个全连接层以及一个Softmax分类器。输入层将输入文本转换成一个适合后续卷积层操作的二维矩阵。卷积层用来对输入矩阵进行特征抽取,不同尺寸的卷积核能学到不同的上下文相关特征。平均池化层用来对学习的特征进行下采样,它能增强模型的鲁棒性并显著提升模型性能。全连接层用来对学习到的特征进行融合并送给Softmax分类器。Softmax分类器的参数通过自学习完成之后,对输入的特征向量进行分类,判断是否发生了信息隐写。卷积神经网络模型结构如图1所示。
模型的输入是待检测的文本,输出是判断是否发生隐写的概率。对于每一个输入的待检测文本S,将其表示成如式(1)所示的矩阵,其中矩阵的第i行表示文本S中第i个词,每个词表示成一个随机初始化的D维的向量,即:
其中,P和T向量的维度都是2,分别表示有/没有隐藏信息。T是输入文本的标签,如:可以用向量[0,1]表示有隐写,[1,0]表示没有隐写。
模型的训练过程是通过在训练数据集上最小化LOSS函数,采用的是带动量项的随机梯度下降算法(SGD)。对模型中参数w的更新公式如下:
3 实验结果及评估
3.1 实验数据
在本次实验中,为了测试本文模型的性能,收集了全唐诗共13 342首五言诗作为正样本,即不含隐藏信息的样本。然后利用文献[4]中的算法生成10 000首隐藏信息的五言诗作为负样本。因此整个实验所用到的数据集共含有23 342首五言诗,利用其中17 000首作为训练集训练本文模型,剩下6 342首作为测试集测试本文模型,具体划分如表1所示。
3.2 实验设置
对于每首输入模型的样本,首先对其进行去结构化。具体来说,即去掉每首诗的标题,并将剩下的4句话首尾相连,因此每首诗都转化为一个包含20个字的文本。其次,将每个字映射成一个300维随机初始化的向量,因此实际上模型的输入是一个20×300的矩阵。卷积层中卷积核的宽度和输入矩阵宽度一致,即300维。而卷积核的高度是可变的,实验中采用的卷积核高度是1,2,3,并且每个尺寸包含56个卷积核。最后输出层的维度是2,对应是否隐藏信息。训练过程中,采用随机梯度下降方法训练模型参数,初始学习率为0.01。
3.3 实验结果及分析
采用几种分类任务中常用的指标来评价本文模型最后的性能,即Precision、Recall、F1-score和Accuracy。计算公式如下:
其中,TP表示正样本被预测为正样本的数量,FP表示负样本被预测成正样本的数量,FN表示正样本预测成负样本的数量,TN表示负样本预测成负样本的数量。
表2中展示了本文模型以及其他3种机器学习算法的测试结果,其中CNN表示本文模型的结果。从结果中可以看到,本文模型在各个指标上取得了最好的实验结果,这充分证明了本文模型强大的特征抽取能力,能非常有效地应用于文本隐写检测任务上。
4 结论
文中提出了一种基于卷积神经网络的文本隐写分析算法。它能自动从大量数据中提取到高层次的语义信息,并判断输入文本中是否隐藏信息。同时,利用大量的数据训练并测试本文模型,结果反映该模型能非常高准确率地检测出文本中是否含有隐藏信息,证明了模型的有效性。
参考文献
[1] PETITCOLAS F A P,ANDERSON R J,KUHN M G.Information hiding-a survey[J].Proceedings of the IEEE,1999,87(7):1062-1078.
[2] ZHOU Z,SUN H,HARIT R,et al.Coverless image stega-nography without embedding[C].International Conference on Cloud Computing and Security Nanjing University of Aeronautics and Astronautics,2015.
[3] PENG X,HUANG Y,LI F.A steganography scheme in a low-bit rate speech codec based on 3d-sudoku matrix[C].IEEE International Conference on Communication Software and Networks,2016:13-18.
[4] LUO Y,HUANG Y.Text steganography with high embedding rate: using recurrent neural networks to generate Chinese classic poetry[C].ACM Workshop on Information Hiding and Multimedia Security,2017:99-104.
[5] SHIRALI-SHAHREZA M H,SHIRALI-SHAHREZA M.A new approach to persian/arabic text steganography[C]. IEEE/ACIS International Conference on Computer and Information Science and IEEE/ACIS International Workshop on Component-Based Software Engineering,Software Architecture and Reuse,2006:310-315.
[6] KER A D,BOHME R.Revisiting weighted stego-image steganalysis[J].Proceedings of SPIE-The International Society for Optical Engineering,2008,6819:681905.
[7] ALTUN O,SHARMA G,CELIK M,et al.Morphological steganalysis of audio signals and the principle of diminishing marginal distortions[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2005,2:21-24.
[8] CHOTIKAKAMTHORN N.Electronic document data hiding technique using inter-character space[C].The 1998 IEEE Asia-Pacific Conference on Circuits and Systems,1998.IEEE APCCAS 1998,1998:419-422.
[9] LOW S H,MAXEMCHUK N F,LAPONE A M.Document identification for copyright protection using centroid detection[J].IEEE Transactions on Commun.1998,46(3):372-383.
[10] MAHATO S,KHAN D A,YADAV D K.A modified approach to data hiding in microsoft word documents by change-tracking technique[J/OL].Journal of King Saud University.(2017-08-30)[2018-02-08].https://www.sciencedirect.com/science/article/pii/S1319157817300939?via%3Dihub.
[11] MURPHY B,VOGE C.The syntax of concealment: reliable methods for plain text information hiding[C].Proceedings of SPIE,2007:6505.
[12] GE X,JIAO R,TIAN H,et al.Research on information hiding[J].US-China Education Review,2006,3(5):77-81.
[13] LUO Y,HUANG Y,LI F,et al.Text steganography based on ci-poetry generation using markov chain model[J].Ksii Transactions on Internet & Information Systems,2016,10(9):4568-4584.
[14] YU Z S,HUANG L S.High embedding ratio text steganography by ci-poetry of the song dynasty[J].Journal of Chinese Information Processing,2009,23(4):55-62.
[15] DESOKY A.Notestega:notes-based steganography methodology[J].Information Systems Security Journal,A Global Perspective,2009,18(4):178-193.
[16] 吴明巧,金士尧.针对文本隐写工具Stego的隐写分析方法[J].计算机工程,2006,32(23):10-12.
[17] KWON H,KIM Y,LEE S,et al.A tool for the detection of hidden data in microsoft compound document file format[C].International Conference on Information Science and Security.IEEE,2008:141-146.
[18] 周继军,杨著,钮心忻,等.文本信息隐藏检测算法研究[J].通信学报,2004,25(12):97-101.
[19] CHEN Z L,HUANG L S,YU Z S,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C].Third International Conference on Availability, Reliability and Security.IEEE Computer Society,2008:558-563.
[20] CHEN Z L,HUANG L S,YU Z S,et al.Effective linguistic steganography detection[C].IEEE,International Conference on Computer and Information Technology Workshops,2008,Cit Workshops.IEEE,2008:224-229.
[21] DESOKY A.Jokestega:automatic joke generation-based steganography methodology[J].International Journal of Security and Networks,2012,7(3):148-160.
[22] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[23] KIM Y.Convolutional neural networks for sentence classification[Z].arXiv:1408.5882,2014.
作者信息:
金 鹏1,2,杨忠良1,2,黄永峰1,2
(1.清华大学 电子工程系,北京100084;2.清华信息科学与技术国家实验室,北京100084)