文献标识码:A
DOI:10.16157/j.issn.0258-7998.191066
中文引用格式:程起泽,陈泽华,张雲钦,等. 基于CNN-LSTM的太阳能光伏组件故障诊断研究[J].电子技术应用,2020,46(4):66-70.
英文引用格式:Cheng Qize,Chen Zehua,Zhang Yunqin,et al. Research on fault diagnosis of solar photovoltaic module based on CNN-LSTM[J]. Application of Electronic Technique,2020,46(4):66-70.
0 引言
光伏电站建设在人迹罕至的野外,准确定位问题支路位置与故障类型对进一步提高光伏发电系统的运行效率及降低发电成本具有重要意义[1]。
近年来,国内外学者对光伏组件发电系统采用建模的方法,对组件运行时采集到的图像采用图像分析的方法,针对某种特定故障进行诊断。当前针对光伏组件故障诊断主要分为图像方法、物理方法、数学方法以及智能方法几大类别。前者主要有红外图像诊断法[2-4]、多传感器法[5-7]、参数估算法[8-10]、时域反射分析法[11]等,后者有基于神经网络的诊断方法[12-13]。
对于能源公司下的多个大型光伏电站,其建设时期不同,采购的设备规格种类存在很大差异,数据精准度不够,数学方法很难适用于大型电站。同时因为电站经常建设在环境条件恶劣的野外,这对于获得光伏组件红外图像造成困难。近些年来,集成了最大功率跟踪(Maximum Power Point Tracking,MPPT)[14]的组串式光伏逆变器使用广泛,但由于经济因素,大型和超大型电站使用的还是集中式光伏逆变器,不能监控到组件的运行情况,这对数据采集造成很大困难。基于成本考虑,公司很难再为投入使用的光伏电站更新多种传感器设备。
针对数据采集设备有限的大型光伏电站,本文提出了一种基于CNN-LSTM的深度学习诊断模型,仅需要使用电站采集到的海量历史支路电流数据及其故障维修记录来训练模型,在电站运行时使用训练好的模型就可以诊断出故障支路,在电站原有设备基础上完成诊断。
1 故障定义与数据处理
1.1 光伏阵列布局
本文以山西某光伏电站为研究对象,该电站光伏阵列由60个区组成,每个区包含两个逆变器,每个逆变器下有7个汇流箱,每个汇流箱下包括15条支路,每条支路由21块电池板串联构成。数据采集设备可精确采集到每一支路的电流数据。通常,故障会发生在电池板上、电池板背后的接线盒中、数据传输线路以及电站的数据采集系统中。图1为该电站光伏阵列布局示意图。
1.2 光伏组件故障定义
光伏发电受天气因素影响极大,数据波动极大。现有数据采集设备虽可以采集到电压、辐照强度、区域温度、湿度等多种数据,但一个采集设备收集的是多个区域的数据,覆盖面太广,无法精确定位到实际发生故障的支路。
传统的光伏组件故障诊断通常是从组件故障类型出发,针对一种或某几种故障,去寻找数据的变化与这些故障的关联规则,如果关联规则不明显,往往需要增添额外的数据采集设备。传统方法可以检测到的故障类型有限,且需要在原有数据采集设备的基础上增添额外的设备来收集数据。本文与之相反,是从采集到的历史数据及其数据表现入手,依据在这些数据上曾经发生过的故障进行分析,从而实现对运行中的组件进行诊断。
根据现场实际发生过的光伏组件故障及故障产生时采集到的电流数据,本文将组件故障定义为5类:
(1)突发性故障:其故障发生原因为光伏组件板面烧穿或者板后接线盒部位熔断而导致的组件突然停止运行,需要立即处理此故障以避免发生危险。该故障电流数据表现为在运行过程中电流值突降到零后不再变化。
(2)通信故障:其发生的原因为信道传输线路存在问题,需要对通信设备进行检修维护。该故障电流数据多表现为无规律变化,或者存在明显脱离一般常识的电流值。
(3)更换组件:表示正常运行中的支路当天进行过修理或者人工的断电检测,该支路组件会根据其逐块小块光伏模块人工检测的结果决定是否更换其中的问题模块。电流数据的表现为在同一汇流箱下某条异常支路的电流曲线从零值恢复到正常发电。
(4)持平故障:其故障原因为电池板未启动或其通信传输的设备未启动,可根据监控系统排查。持平故障的数据表现一般分为两种,一种表现为电流值持平在零值,另一种表现为持平在任意电流值。
(5)老化故障:故障产生原因为设备老化造成的发电效率下降,可根据实际老化情况及电站电池板储量决定是否更换。其数据表现为电流值随着天数的增加呈现持续降低趋势,严重时同一汇流箱下故障支路运行时电流值比同汇流箱下其他支路电流低0.5 A及以上,但仍在发电。其中,第1和2类故障为组件运行时需要优先处理的故障,如图2所示;第3、4和5类为次重要故障,可根据电站调度暂缓处理,如图3所示。
1.3 数据处理
为解决实际采集到的数据类型少的问题,并且充分利用真实的电流历史数据,本文根据电站光伏阵列布局的特点,设计针对该阵列的特征提取算法,以获取支路运行时正常组件与异常组件之间的差异。
1.3.1 数据降采样
原始支路电流数据按天(24 h)获取,采样频率为1 s。将每天以秒为单位的支路电流数据降采样为以分为单位,采样区间为[8:00,18:00],即一天600个采样点。将单个汇流箱下的15条支路作为一个分组处理单元。
1.3.2 特征提取
在每一个处理单元上定义特征提取组、横向特征与纵向特征,之后对每一采样点数据进行横向特征与纵向特征的提取,并结合历史台账信息制作标签数据集。
定义1 特征提取组:定义15条支路相同时刻采样点的电流值为特征提取组,每天600个采样点作为时间步长,用向量(600,15)表示。每天每个汇流箱下可获得600个间隔为1 min的特征提取组。
定义2 横向特征:计算每一特征提取组的电流平均值mean、最大值max、方差var、最小值min与标准差std作为横向特征,用向量(600,5)表示。
横向特征用以表示某一时刻,该汇流箱下支路电流的统计特性。在提取横向特征时,需清洗掉大幅度偏离正常值的电流值,补以0值代替。
定义3 纵向特征:使用一阶差分定义电流曲线纵向特征,即电流每一时间步后一采样点与前一采样点的差值,其计算公式如下:
其中,Δt=1 s。纵向特征表示支路电流一天内随时间与太阳辐照变化的变化率,用向量(600×15,1)表示。
1.3.3 标准数据集
将每一个处理单元每条支路电流的每个采样点的横向、纵向特征与该支路这一采样点的降采样电流值组合起来,得到这一时间步下输入模型的电流数据。将每天每个处理单元每条支路电流的横向、纵向特征与该支路电流经过维度变换,共同组成支路电流标准数据集。用向量(600×15,7)表示。所有历史数据将以相同格式进入标准数据集,它们将作为CNN-LSTM的训练集。图4为具体的数据准备过程。
2 CNN-LSTM模型
2.1 CNN模型
LECUN Y L[15]于1989年提出的卷积神经网络(CNN)是一种包含卷积操作与神经网络结构的深层前馈型神经网络。近几年随着CNN及其扩展模型在图像领域的成功应用,CNN在深度学习中的地位越来越重要。
通常的CNN模型包含3个主要部分:卷积层、池化层、全连接层。每一个卷积层中会有多个卷积核,其计算公式如下:
2.2 LSTM模型
长短期记忆模型(LSTM)[16]是一种带有记忆功能的神经网络,是循环神经网络(Recurrent Neural Network,RNN)的一种变种,通过门递归单元来控制信息的流动与操作,LSTM对时序型数据的处理具有极为优秀的表现,现被广泛应用于机器翻译[17]、自然语言处理[18]等领域。
LSTM模型通过特殊的三门结构,解决了传统RNN中的梯度消失问题,使LSTM模型可以更好地对更长、更复杂的时间序列数据进行训练与学习。
2.3 构建CNN-LSTM检测模型
传统的LSTM模型处理时序数据效果良好,但是其结构的复杂性致使模型训练开销非常大。待学习数据设置的时间步长越大,进行学习训练需要花费的时间越多。
针对电流数据纵向特征复杂、横向特征稀疏的问题,本文在传统的LSTM模型前先使用CNN对数据集进行处理,以提取低维的深层次特征。用CNN将横向电流特征进一步提取升维,将纵向时间维度上的特征进行提取降维,再使用LSTM模型进行训练时就可以达到降低整个模型训练时间开销的同时提升整个模型的精确度与准确度的效果,并且通过不同网络的组合使模型变为深度网络,增强了模型的非线性,避免了训练过程中过拟合现象的发生。
具体的模型构建如下:根据历史数据及故障类型构建标签数据集。训练数据集为三维数据集(N,600,7),其中N表示检测的支路。训练数据集首先进入一个两层的卷积模型进一步提取特征和降低数据维度,得到向量(N,150,64),向量(N,150,64)再进入一个三层的长短期记忆模型进行训练,训练学习后的数据(N,64)再进入一个全连接层后得到待诊断支路标签(N,1)。训练完成后使用测试数据集对模型进行验证,根据结果反馈对模型进行调整。表1为模型中每层的具体参数。
3 实验验证
现有光伏组件故障诊断实验验证方式多为搭建仿真平台及搭建小型发电板测试,然而在实际生产过程中,影响电池板发电的因素有环境温度、海拔高度、太阳能辐照强度、电池板放置角度影响的散射光和直射光照到电池板上量的多少、电池板的背板温度、风向、空气的纯净程度、云层高低、电池板型号造成的转换效率差异等。单纯的仿真实验无法完全真实表现出电池板现场实际的运行状态。
3.1 实验数据来源
本文使用的数据集来自山西某光伏电站的实时生产数据,数据中包含了上述复杂因素。针对本文提出的诊断方法,使用山西某光伏电站2018年1月~10月3个区的数据进行训练和测试。以2个区的数据做训练,1个区的数据用作测试集。训练集共计28个区数据,420条支路,10个月(304天),总计127 680条数据;测试数据共计14个区,210条支路,304天,总计63 840条数据。
3.2 实验环境
实验环境为Ubuntu 16.04.2,采用3块NVIDIA的 K40显卡,TensorFlow-GPU 1.4.1,训练迭代次数均为5 000次,模型参数调优使用多层网格搜索,保证实验使用的损失函数相同。为进行对比实验,本文分别使用深度学习方法BP模型、CNN模型、Autoencoder模型、Encoder-LSTM、LSTM模型、Bi-LSTM模型、CNN-LSTM模型进行对比实验,实验采用相同的实验环境及迭代次数。其中,BP、CNN为传统网络,LSTM为时序性网络,Autoencoder为解决传统LSTM训练缓慢的自编码网络模型。
3.3 实验结果及分析
从表2结果分析,CNN-LSTM模型结果最令人满意,并且其训练效率大大优于其他模型。相比于传统BP、Autoencoder、CNN这些直接利用电流数值特征进行学习而忽略电流时序特性的网络,CNN-LSTM的网络结构充分利用了光伏发电与辐照强度呈正相关的时序性特点,将电流随时间变化而变化的特性引入模型中进行学习训练;与LSTM、Bi-LSTM、Encoder-LSTM这些只考虑电流时序性的网络结构相比,CNN-LSTM的网络结构充分利用了CNN模型的升降维功能,解决了数据特征类型少的问题;与Autoencoder网络相比,CNN-LSTM的网络结构在对纵向特征进行降维的同时最大程度地保留了电流的时序特性,解决了LSTM模型训练时间过长的问题,综合优化了模型的特征选择与训练时间,最终达到了良好的效果。
训练结束时,模型损失函数值降到0.032 1,正确率达到93%,损失函数为均方对数损失Msle,激活函数为ReLU,优化器为Adam。使用测试数据集进行测试后,准确率达到92%。同时根据能源公司要求,对公司随机提供的两周两个汇流箱下电流数据进行测试,准确率达到95%。模型效果达到预期,且效果大大优于其他模型所能达到的效果。
4 结论
本文提出了一种基于CNN-LSTM的光伏组件诊断方法:
(1)从光伏组件运行时采集到的现场支路电流数据及其历史故障记录出发,并结合实际生产中对不同故障类型处理的紧急程度作为对光伏组件故障进行分类的依据,提出了一种新的故障分类方法。
(2)提出了一种根据不同光伏阵列的布局而设计的特征提取算法,用以表示理想发电状态,来解决实际生产中可获取到的数据种类单一的问题。
(3)在进入LSTM模型训练前,使用CNN网络对数据进行处理。利用CNN网络的升降维功能进一步解决了实际获取到的数据种类少的问题,并且在最大程度保留电流时序特性的基础上,对纵向特征进行降维,减少了模型训练时间,解决了大训练集使用LSTM模型训练缓慢的问题。
本方法2019年在电站现场进行测试,运行速度快且诊断效果良好,在得到模型后在实际使用中省去花费大量时间的训练过程,可以在实际电站故障诊断中较好地投入使用,不需要额外再在电站中增添设备,可直接接入生产监控系统,诊断速度快,符合大型电站的日常使用需要。
参考文献
[1] 胡义华,陈昊,徐瑞东.基于电压扫描的光伏阵列故障诊断策略[J].中国电机工程学报,2010(S1):185-191.
[2] 王培珍,郑诗程.基于红外图像的太阳能光伏阵列故障分析[J].太阳能学报,2010,31(2):197-201.
[3] LI W C,TSAI D M.Automatic saw-mark detection in multicrystalline solar wafer images[J].Solar Energy Materials & Solar Cells,2011,95(8):2206-2220.
[4] Li Chunlai,Zong Xianshuang,GUDAKE.A survey of online fault diagnosis for PV module based on BP neural network[C].2016 International Conference on Smart City and Systems Engineering(ICSCSE).IEEE,2016: 2094-2100.
[5] Tang Jianeng,Zhu Yongqiang,Wang Wenshan.Fault diagnosis method and simulation analysis for photovoltaic array[C].International Conference on Electrical & Control Engineering.IEEE,2011:1569-1573.
[6] 王欢,徐小力.一种新型光伏阵列在线故障检测方法研究[J].仪器仪表学报,2015,36(12):2765-2772.
[7] 王元章,李智华,吴春华.一种四参数的光伏组件在线故障诊断方法[J].中国电机工程学报,2014,34(13):2078-2087.
[8] 张程熠,唐雅洁,李永杰,等.适用于小样本的神经网络光伏预测方法[J].电力自动化设备,2017,37(1):101-106,111.
[9] HU Y,GAO B,SONG X,et al.Photovoltaic fault detection using a parameter based model[J].Solar Energy,2013,96:96-102.
[10] 杨宏超,程若发,吕彩艳,等.光伏组件内部参数辨识与输出特性研究[J].电子技术应用,2018,44(1):125-128.
[11] 王元章,吴春华,周笛青,等.基于BP神经网络的光伏阵列在线故障诊断[J].电网技术,2013,37(8):2094-2100.
[12] AKRAM M N,LOTFIFARD S.Modeling and health monitoring of DC side of photovoltaic array[J].IEEE Transactions on Sustainable Energy,2015,6(4):1-9.
[13] 焦李成,杨淑媛,刘芳,等.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716.
[14] 傅敏,嵇保健,黄胜明.低输入纹波光伏微型逆变器的研究[J].电子技术应用,2017,43(5):143-146.
[15] LECUN Y L,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[16] HOCHREITER S , SCHMIDHUBER J.Long short-term memory[J].Neural Computation, 1997,9(8):1735-1780.
[17] GHOSH S,VINYALS O,STROPE B,et al.Contextual LSTM(CLSTM) models for large scale NLP tasks[J].arXiv:1602.06291v2[cs.CL],2016.
[18] Wu Haoyin,Chen Jin,Fan Kai.Research on speech feature extraction and recognition model based on SVM[J].Journal of Wuhan University of Technology,2014(2):316-319.
作者信息:
程起泽1,陈泽华1,张雲钦1,蒋文杰2,刘晓峰1,沈 亮2
(1.太原理工大学 大数据学院,山西 太原 030001;2.晋能清洁能源有限公司,山西 太原 030001)