文献标识码:A
DOI:10.16157/j.issn.0258-7998.191010
中文引用格式:荆通,丁文锐,刘春辉. 基于关联规则挖掘的多步长频谱占用预测方法[J].电子技术应用,2020,46(3):80-85.
英文引用格式:Jing Tong,Ding Wenrui,Liu Chunhui. Multi-step spectrum occupancy prediction method based on association rule mining[J]. Application of Electronic Technique,2020,46(3):80-85.
0 引言
认知无线电技术提高了系统的频谱利用率,然而在传统频谱感知中,认知用户对所有频带进行感知会造成大量的能量损耗和处理时延,因此如何准确预测空间频谱占用情况,即频谱预测技术,受到研究人员的广泛研究。频谱预测技术能够为认知用户提供更好的频谱接入条件,减少认知用户和主用户之间产生的数据传输冲突,避免对主用户通信造成干扰,降低响应时延,增加网络的吞吐量[1]。频谱预测过程一般包含3个步骤:(1)数据采集,实际频谱采集或建立仿真频谱模型生成;(2)数据预处理,有效数据选取、信号与噪声的分离;(3)频谱预测,设计频谱预测方法进行预测。
设计有效的频谱预测方法需考虑预测机制与预测方法两方面:预测机制大多是采用时隙通信模式,将每个时隙的频谱占用或空闲情况定义为一个二元时间序列,通过分析历史数据获取频谱使用规律,进而预测未来频谱占用状态[2];频谱预测方法主要有基于隐马尔可夫(Hidden Markov Model,HMM)的方法[3]、基于自回归移动平均模型(Autoregressive Integrated Moving Average,ARIMA)的方法[4]、基于神经网络的方法[5]、基于关联规则挖掘的方法等[6]。基于关联规则挖掘的方法在频谱预测中性能表现较好,这类方法又包括基于部分周期模式挖掘的方法[6]、基于贝叶斯的方法[7]、应用统计学习的方法[8]以及最大子模式命中[9]等。
在实际频谱预测应用中,往往不仅需要预测下一个时隙的频谱占用情况,而且需要预测多个时隙一分钟甚至一小时的频谱占用情况,进而统计分析信道的可用性,避免频繁切换信道。现有方法只能保证下一个时隙的一步预测效果较为理想,而多时隙多步预测存在效果下降较快的问题。针对这一问题,本文借鉴Apriori算法中查找频繁项集的思想,提出基于关联规则挖掘的多步长频谱占用预测方法,通过采集真实数据对所提出方法进行实验验证。
1 频谱占用度
1.1 频谱占用度预测用数据选取
信道频谱占用度可以体现频谱的活跃程度,信道频谱活跃程度对验证方法的可行性十分关键。若信道频谱占用度极低(0%~5%),数据处理后生成的信道状态信息(Channel State Information,CSI)序列将近似为全0序列;若信道频谱占用度极高(95%~100%),生成的CSI序列将近似为全1序列,对这些信道进行CSI序列预测得到的结果极为可观,正确率可达到90%以上,丢失率接近0。但这两种极端情况都将使得CSI信道活跃度降低,即0/1状态的转换频率变低,此时频谱占用预测也将失去意义。故本文选取频谱占用度35%~94%的信道进行预测分析。信道占用度计算方法如式(1)所示:
其中,Fco表示信道占用度,Tf表示信道占用时间,T表示信道测量时间。
1.2 频谱占用度阈值选取
频谱占用状态只有两种:占用和空闲。通常,信道频谱强度高于某门限,则认为信道处于被占用状态,用“1”表示;相反,认为信道处于空闲状态,用“0”表示,转换原理如式(2)所示:
其中,cs表示信道状态,PC表示信道电平值,PO表示预设门限值。该过程中如果预设门限值设置较小,则某些噪声信号将被误认为是有用信号;若门限设置较高,则会遗漏有用信号,因此频谱占用度阈值的选取是数据预处理过程较为关键的步骤。
本文采用动态门限分割[10]的方法确定频谱占用度门限,方法流程如图1所示。
动态门限分割方法涉及两个参数,一个是用于信噪分离的判别值,另一个是噪声曲线平滑处理的次数。在《超短波频段占用度测试技术规范》中,建议门限电平设置为各频段内当地接收机平均功率电平或电压指示以上5 dB。在无线电监测工作中,一般把超过噪声电平3 dB~5 dB的频点视为信号。基于以上两点,本文采用5 dB作为信噪分离的判别值,平滑处理次数取60,动态门限如图2所示。
图2(a)信道编号为3,统计电平值较低,多数集中在-76.45 dBm左右,且处于动态判决门限以下,被认定为噪声信道;图2(b)信道编号为61,统计电平值较高,多数集中在-67.45 dBm左右,且处于动态判决门限以上,被认定为信号信道。
各个信道的幅度-频率信号被动态门限分割之后就形成了CSI矩阵,如图3所示(图中黑色实心方块表示当前CSI=1,空白处则表示CSI=0)。
2 算法原理
2.1 时间序列关联规则挖掘算法
Apriori算法[6]是关联规则挖掘算法中经典的算法,多用于非时序项集。算法一般分为两部,一是生成频繁模式,二是根据频繁模式生成关联规则。而使用该算法处理时间序列数据时,必须对序列进行模式划分。对序列进行模式划分时,每次取一部分数据进行时间序列关联规则计算,然后向后滑动一个窗口,产生一个新的事务,再次计算时间序列关联规则。保持每个事务窗口一致,这样可以使当前事务区别于上一个事务,同时又不会漏掉可能产生的时间序列特征组合,如图4所示。
时间序列关联规则挖掘过程中有两个重要判决条件:(1)当模式出现次数N大于最小支持度时,生成频繁模式;(2)频繁模式转移率P大于最小置信度时,生成关联规则,如图5所示。
2.2 基于关联规则挖掘的多步长频谱占用预测算法
本节将使用上文方法生成的关联规则进行多步长频谱占用预测。
本文算法涉及概念和符号见表1。
输入:原始幅度频率数据(File_level)。
输出:预测的准确率以及丢失率。
(1)将原始幅度频率数据通过动态门限分割、信道分割,生成由0和1组成的CSI序列。
(2)当生成的CSI序列长度大于跨度L时,检测序列中异常值的情况,进行基于关联规则挖掘的多步长频谱占用预测。
(3)对预测结果与实际监测结果进行对比,统计预测准确率和丢失率。
算法中输入的原始数据为401×n的矩阵(File_level),n为采集数据的时隙数(本文时隙间隔为1 s),通过动态门限分割以及信道编号(1~401)的选择,形成单一信道的CSI序列。频繁项跨度(FrQ_length)限定了频繁子序列长度的最大值,取值范围可设为1~n之中的任意整数值,当其设为1时,算法可近似于两状态马尔可夫过程;当其设置为接近n时,频繁项数量太少,算法失效,故本文取10%n。最小支持度(Min_sup)与最小置信度(Min_conf)体现了频繁项的频繁程度以及规则的可靠性。最小预测长度(Min_span)的设定可以减少频繁子序列生成规则的数量,提升算法效率和精度。
关联规则是频谱占用预测的主要依据。项集统计数大于Min_sup即为频繁项,若频繁项A统计数为a、频繁项B统计数为b,则转移率Pab=a/b,当Pab大于Min_conf时产生强关联规则,即当前序列为A时,预测结果为B的概率为Pab。
图6为多步长频谱占用预测算法流程。
在多步长预测过程中,算法没有在规则中找到适合的规则,则记为一次丢失,输出“-1”,即异常值,异常值的出现会影响下一次的预测,所以要进行异常值替换,每个异常值“-1”都会分两次替换成“0”或“1”,例如序列[1 0 -1 0]会替换成[1 0 0 0]和[1 0 1 0],由这两个序列查找关联规则中置信度最高的规则进行预测或者继续丢失,即如果有m个异常值,则要进行2m次替换,最终由替换后的序列置信度最高值进行预测或者继续丢失。若Pred_length>1,即多步长,步长递增过程如图7所示,图中标注下划线并加粗的字符为预测序列值,算法使用预测结果更新CSI序列,直至完成多步长预测算法。
若当前序列满足预测条件,记预测次数(Predict)加1;若预测结果与下一时隙状态序列相同,记预测正确次数(Correct)加1;若最终没有找到满足预测条件的关联规则,记丢失次数(Loss)加1,丢失率记为Loss_Rate,公式如下:
3 实验及分析
3.1 数据采集与预处理
本文中的频谱监测数据来自北京航空航天大学学院路校区连续约48 h(2018年12月22日16时22分~2018年12月24日16时25分)频段为88 MHz~108 MHz,即调频FM广播业务频段进行监测,监测设备包括是德公司E4407b频谱分析仪、PC以及SAS-521F-2接收天线,表2列出了监测参数。
频谱仪每次扫描空间频谱获得400个频谱采样点,在监测时间内每一秒形成一个“场强-频率”对应关系的文本数据文件,因此每小时产生3 600个数据集。
数据的选取对预测模型的学习效果有着极为重要的影响,合适的数据能够为提高预测模型的正确率提供良好的支持。正常情况下,频谱的短期变化趋势是连续的,而长期变化具有明显的周期性,周期性具体体现在日、星期、年周期性以及节假日特性。为了提高信道频谱占用预测精度,在数据选择时应考虑这一周期性特点。故本文采用第一天100时隙作为训练集,第二天相同时间的100时隙作为测试集。
图8为对所采集到的频谱数据进行“场强-频率-时间”三维可视化处理结果。
3.2 主要参数分析
3.2.1 多步长对预测结果的影响
图9和图10分别展示了13号和86号信道中预测步长对预测结果的影响。
通过信道13和信道86的10步预测结果可见,随着预测步长的增加,预测丢失率逐渐减少,虽然预测正确率也随步长增加呈下降趋势,但下降趋势较缓,总预测正确率由于丢失率的逐渐减少,随预测步长的增加呈略微上升的趋势。可见该算法在多步长预测中有效减少丢失率的同时,保持了较高的预测正确率。
3.2.2 信道占用度对预测结果的影响
本实验中选取了占用度由35%到94%依次升高的6个信道。图11展示了预测步长为1和10的结果。
从图11中可以看出,总体上信道占用预测正确率保持较高的水准,其丢失率没有随着占用度的变化有正相关或者负相关的规律。由此可见总体上算法体现出了良好的性能,信道占用度的变化对预测结果的影响不大。
3.2.3 规则置信度对预测结果的影响
图12(a)和图12(b)分别展示了3个信道在最小置信度为0.7、0.8和0.9时的正确率和丢失率。
从图12中可以看出,随着最小置信度由0.7升高至0.9,丢失率由15%左右升高至40%左右。可见,最小置信度的设置对丢失率影响很大,这是由于随着最小置信度的升高,可用的关联规则逐渐减少,即信道信息的可预测性降低。预测正确率随最小置信度的提高缓慢升高,而预测丢失率则随最小置信度的提高急剧升高,因此,设置适合的最小置信度对CSI序列的可预测性至关重要。
4 结论
本文提出类Apriori算法的频繁模式关联规则挖掘算法,实现对信道占用状态的多步长预测。实验表明,该算法在实际频谱预测中相比隐马尔科夫模型和神经网络模型等预测方法,不需要任何先验知识,可根据历史数据进行快速预测,达到了较好的预测效果。
参考文献
[1] 刘镇鸣,龚晓峰.认知无线电中频谱预测方法[J].兵工自动化,2017,36(9):86-89.
[2] 尹斯星.认知无线电中基于海量频谱监测数据挖掘的动态频谱接入策略研究[D].北京:北京邮电大学,2010.
[3] 张凯,齐丽娜.一种基于隐马尔可夫模型的自适应联合频谱预测方法[J].南京邮电大学学报(自然科学版),2015,35(1):79-83.
[4] 段洪涛,曾繁声,李景春.一种预测频段占用度的时间序列分析方法[J].无线电工程,2011,41(7):17-20,64.
[5] 杨健,赵杭生,陈曦.遗传算法优化的神经网络频谱预测模型训练[J].解放军理工大学学报(自然科学版),2016,17(6):505-511.
[6] 满方微,石荣,何彬彬.基于关联规则挖掘的无线电频谱占用预测[J].电讯技术,2016,56(11):1183-1188.
[7] HUANG P,LIU C,YANG X,et al.Wireless spectrum occupancy prediction based on partial periodic pattern mining[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(7):1925-1934.
[8] JACOB J,JOSE B R,MATHEW J.Spectrum prediction in cognitive radio networks: a bayesian approach[C].2014 Eighth International Conference on Next Generation Mobile Apps,Services and Technologies,Oxford,2014:203-208.
[9] MAN F,SHI R,HE B.The data mining in wireless spectrum monitoring application[C].2017 IEEE 2nd International Conference on Big Data Analysis(ICBDA),Beijing,2017:223-227.
[10] 丁浩,沈文静.基于动态门限电平的短波段频谱占用度测量[C].2011全国无线及移动通信学术大会论文集,2011:408-411.
作者信息:
荆 通1,丁文锐1,2,刘春辉2
(1.北京航空航天大学 电子信息工程学院,北京100191;2.北京航空航天大学 无人系统研究院,北京100191)