当前位置: 首页 > 资讯中心 > 农业科技

主成分分析和长短时记忆神经网络预测水产养殖水体溶解氧

发布时间:2019-10-20 12:18:33      来源: 陈英义, 程倩倩, 方晓敏, 于辉辉, 李道亮
陈英义1,2,程倩倩1,3,方晓敏1,3,于辉辉1,3,李道亮1,2

(1. 中国农业大学信息与电气工程学院,北京 100083;2. 农业部农业信息获取技术重点实验室,北京 100083;3. 北京农业物联网工程技术研究中心,北京 100083)

摘 要:为了提高水产养殖溶解氧预测的精度,提出了基于主成分分析(principal component analysis, PCA)和长短时记忆神经网络(long short-term memory,LSTM)的水产养殖溶解氧预测模型。首先通过主成分分析提取水产养殖溶解氧的关键影响因子,消除了原始变量之间的相关性,降低了模型输入向量维度;然后,在Tensorflow深度学习框架的基础上建立LSTM神经网络的水产养殖溶解氧预测模型;最后,利用该模型对浙江省淡水水产养殖研究所综合实验基地某池塘溶解氧进行验证。试验结果表明:该模型与BP神经网络等其他浅层模型相比,模型评价指标平均绝对误差、均方根误差和平均绝对误差分别为0.274、0.089和0.147,均优于传统的预测方法;该模型具有良好的预测性能和泛化能力,能够满足水产养殖溶解氧精确预测的实际需要,可以为水产养殖水质精准调控提供参考。

关键词:水产养殖;溶解氧预测;主成分分析;LSTM神经网络;循环神经网络

0 引 言

水产养殖溶解氧含量是反映水产品生长状况、水质状况的重要指标[1],易受温度、风速、风向、雨量、水生生物新陈代谢以及人为活动等多种因素的影响[2],且具有非线性、大时滞和不稳定等特点。因此对水产养殖溶解氧预测方法进行研究,及时准确掌握未来溶解氧的变化规律,对于预防水质恶化与疾病爆发,减少养殖风险、优化养殖管理具有重要意义。

目前,国内外学者针对水质溶解氧预测方法已经进行了大量的研究[3-5],取得了一定的成果。如徐敏等[6]提出基于混沌理论、相空间重构思想和嵌入理论的预测模型对于河流溶解氧预测;朱成云等[7]建立了基于混沌变异的分布估计算法优化最小二乘支持向量机模型对工厂化水产养殖溶解氧预测分析;刘双印等[8]采用了蚁群算法优化最小二乘支持向量机对河蟹养殖溶解氧进行预测;宦娟等[9]构建了基于K-means聚类和极限学习机(extreme learning machine, ELM)神经网络的养殖水质溶解氧预测模型。上述涉及的预测方法均属于浅层结构的机器学习方法,在处理大数据上缺少鲁棒性,导致模型普遍缺乏长效性和扩展能力,不能完全反映数据的本质特征。

近年来,基于深度学习的预测方法得到广泛应用[10-11]。此方法可以实现高维函数的逼近,挖掘出蕴藏于数据中的隐含信息,具有强大的高度抽象化特征能力,与浅层结构的机器学习方法相比具有更强的数据学习能力和泛化能力[12]。在众多深度学习模型中,循环神经网络(recurrent neural network, RNN)将时序的概念引入到网络结构设计中使其在时序数据分析中表现出更强的适应性[13-14]。LSTM神经网络,作为RNN的变种模型,可以有效地解决RNN训练时存在梯度消失和梯度爆炸等问题,大大提高了RNN网络的准确性[15]。陈卓等[16]提出了基于LSTM神经网络的电力负荷预测方法,预测效果很好;于家斌等[17]构建了基于LSTM神经网络的蓝藻水华预测模型,实现了对水华发生的精准预测;王鑫等[18]利用LSTM神经网络对故障时间序列数据进行预测,验证了模型的精确性。然而利用LSTM神经网络对水产养殖水质参数预测的相关研究较少。

因此,本文在与BP神经网络、PSO-BP神经网络、ELM、LSSVM等传统模型进行对比的基础上,提出并构建了基于PCA-LSTM神经网络的预测方法,以期探索出较好的方法用于提高溶解氧预测精确度。并采用浙江省淡水水产养殖研究所综合试验基地养殖池塘采集到的水质参数展开试验。

1 数据获取与预处理方法 1.1 试验区域

试验数据样本采集自浙江省淡水水产养殖研究所综合试验基地。该基地位于湖州市吴兴区八里店现代农业综合开发区内(120.197 3N, 30.805 9E),面积约33.3 hm2,是集“水产选育种、优质苗种繁育、健康养殖试验基地及内陆水域增殖放流中心”等功能为一体的综合性基地。选取的池塘长为32 m,宽为32 m、水深约1.2 m,养殖品种为杂交鲌鱼,并且池塘中央安装了一个叶轮式增氧机进行增氧。

本文构建以下模型:式(2)用来检验H1,若β1显著为正,则H1成立;式(3)用来检验H2,若β3显著为正,则H2成立;式(4)用来检验H3,若β3显著为负,则H3成立。

1.2 数据源及数据预处理

采用自动监控传感器和手持传感器相结合的方式采集试验池塘溶解氧等水质参数。池塘中央,选取同一平面的4个点位放置监控传感器,数据实时上传至水产养殖智能监控平台;池塘四周,选取16个点位,使用手持传感器现场记录水质参数;同时在池塘的东北角位置搭建便携式气象站,实时在线采集雨量、风速、风向、太阳辐射、空气温度、空气湿度、大气压强、土壤水分、土壤温度生态环境数据,试验中所使用的采集设备及现场照片如图1所示。采集周期为2017年7月8日至8月8日,每10 min采集1次。因篇幅有限,仅展示采集的2017年7月17日部分原始数据如表1所示。

图1 池塘水质监测立体示意图

Fig.1 Stereoscopic diagram of pond water quality monitoring

表1 2017年7月17日采集的部分原始数据

Table 1 Part of experimental original data collected on July 17th, 2017

采集时刻Time雨量Rainfall/mm风速Wind speed/(m·s-1)风向Wind direction/(°)太阳辐射Solar radiation/(W·m-2)空气温度Temperature/℃空气湿度Humidity/(%RH)大气压强Atmospheric pressure/HPa土壤水分Soil Moisture/%土壤温度Soil temperature/℃水温Water temperature/℃溶解氧Dissolved oxygen/(mg·L-1) 05:10:0502.4876.7623.1929.0764.64101.2711.0829.3232.34.06 05:20:0601.18162.178.9830.9565.36101.2711.0829.3232.254.05 05:30:0401.12151.4516.543165.77101.311.0829.3232.243.72 05:40:0301.63144.1423.5730.9864.81101.311.0829.3232.233.54 05:50:0401.1165.7844.5831.1164.34101.311.0829.3232.23.5 06:00:0201.27176.3768.4931.264.56101.3211.0829.3232.183.41 06:10:0301.07170.5297.4531.2664.7101.3211.0830.2732.163.31 ...………………...………... 07:10:0501.1237.99301.6532.2561.09101.371.8331.3532.072.95 07:20:0301.6832.66331.2132.1559.31101.381.8331.3532.072.89 07:30:0102.6250.5367.6732.1857.95101.41.8331.3532.083.06 07:40:0001.6340.16395.2332.4158.4101.371.8331.3532.073.03 07:50:0402.032.25427.932.2962.01101.391.8331.3532.072.92 08:00:0202.44354.98466.1732.2161.04101.41.8331.3532.082.87

由于设备故障、网络不佳、恶劣环境以及人为因素等影响,传感器采集所得的原始数据难免出现数据缺失、数据异常等情况。这样的数据称为“脏数据”,“脏数据”会导致数据处理成本和相应时间的增加。此外,不同量纲的数据序列也会影响最终模型的预测性能。因此,在进行模型研究前针对前后时间间隔不大的缺失数据现象[19-20],采用式(1)线性插值的方法对其进行修复处理;若丢失数据较多或时间间隔较大,则采用天气类型相同或对相近相邻几天中同一时刻的数据来填补;对出现的异常数据采用式(2)均值平滑法进行水平处理和式(3)均值法进行垂直处理;并采用式(4)对数据进行归一化处理。

(1)

(2)

(3)

(4)

式中xa+i为a+i时刻缺失的数据,xa、xa+j分别为a和a+j时刻原始数据值;xb为异常数据,xb-1和xb+1分别表示其相邻的有效数据;x(d,k)为第d天k时刻的数据,q为天气天气状况相似同一时刻误差阈值,为待处理数据在天气状况类似最近几天同一时刻的参数的平均值;xk、分别是原始数据和归一化后的数据,min、max表示为原始数据中的最小值和最大值。

2 预测模型构建 2.1 主成分分析法

PCA是一种重要的数据统计方法,其设法从众多原始变量中找出几个综合性强的变量来替代原始变量,新的综合变量之间不仅互不相关,而且保留了原始变量的绝大部分信息,最终实现降维目的,使问题得到最佳综合[21],其计算步骤为:1)预处理后的原始数据构造标准化矩阵;2)对标准化矩阵计算相关系数矩阵R=(rij)m×n;3)计算相关系数矩阵R的特征方程得到特征值和特征向量;4)计算贡献率与累计贡献率。

(5)

试验所使用计算机的配置如下:处理器为AMD A8-4500M,CPU频率为2GHz;内存为4.00GB;操作系统为Windows 7(64-bit);程序设计语言为python 3.5(64-bit)和MATLAB 7.11.0(64-bit),集成开发环境为Anaconda 3和MATLAB R2010b。程序设计中,LSTM模型由基于Anaconda的tensorflow 1.2.0程序包实现,BP神经网络、PSO-BP神经网络、极限学习机和最小二乘支持向量回归均结合MATLAB所提供的工具箱并完成相关程序的编写。

(6)

(7)

其中,选取主成分的个数取决于主成分的累计贡献率,用于表示综合变量解释原始变量的能力。累计贡献率越大说明数据信息损失越小;5)计算主成分载荷矩阵以及主成分得分。其中载荷矩阵表示原始数据的协方差矩阵的特征值。

(8)

最后,将原始样本数据带入主成分的表达式中即可计算出主成分得分。

2.2 长短时记忆神经网络

LSTM神经网络可以从经验中学习分类,更好地对长短时依赖进行表达。目前,LSTM神经网络已经成为RNN甚至深度学习框架中热点的研究模型,并且在手写字符识别、语音识别和机器翻译等领域获得了很好的效果,引起了广泛的关注[22]。循环神经网络是一类允许节点连接成有向环的人工神经网络。RNN网络可以看作是一个所有层共享相同权值的深度前馈神经网络,包含输入层、输出层和隐藏层,分别用向量序列(x1,…,xT),(o1,…,oT),(s1,...,sT)表示。隐含层和输出层的计算公式为

(9)

(10)

式中wsh、wss和 wos分别指输入层和隐含层、隐含层和隐含层以及输出层和隐含层之间的权重矩阵。bo和bs均表示偏差。u、v、w为网络权值,所有层次共享同一参数,tanh为双曲线正切激活函数。

最小二乘支持向量机(least squares support vector machine, LSSVM)采取结构风险最小原则,有效提高了求解速度和噪声能力,在解决小样本、非线性等问题中表现出色[30]。它扩展了SVM(support vector machine, SVM)的形式,并保留了SVM结构风险最小化和小样本等优点,对SVM模型进行优化,将SVM中的损失函数替换成最小二乘损失函数,不等式约束条件替换成等式约束条件,使求解过程由二次寻优问题转化为线性方程组的求解,简化了求解过程、提高运算效率[31]。

注:xt、yt分别为输入和输出序列,it、ft、ct和ot为t时刻的输入门、遗忘门和输出门,∫为激活函数。

Note: xt, yt are the vector sequences of input units and output units, respectively. it, ft, ct and ot are the input gate, forget gate and output gate, respectively. In addtion, ∫ is activation functions.

图2 存储单元基本架构

Fig.2 Structure of LSTM cell

主要包括输入门i、输出门o、遗忘门f和细胞状态c。遗忘门确定需要从从细胞状态中忘记哪些信息;输出门确定将要更新哪些信息到细胞状态中;输出门确定将要输出哪些信息。这3个门是控制信息流的关键。整个存储单元计算过程可以用如下公式表示

(11)

(12)

(13)

(14)

(15)

4)最小二乘支持向量机

2.3 基于PCA_LSTM神经网络的溶解氧预测模型

基于上述算法,为了提高预测模型的精度,本文将2种算法相结合,构建了基于PCA-LSTM的水产养殖溶解氧预测模型。其预测流程如图3所示,主要包括水质数据获取及数据预处理、溶解氧关键影响因子筛选、基于LSTM神经网络的预测模型训练、模型测试和模型应用,具体的水产养殖溶解氧的预测过程如图3。

图3 基于PCA-LSTM的水质溶解氧预测流程图

Fig.3 Dissolved oxygen prediction flow chart based on PCA-LSTM

1)通过水质在线检测系统和小型气象站获取水产养殖水环境数据和当地的气象数据,并对采集到的数据进行修复和归一化预处理;

2)利用PCA筛选出水产养殖溶解氧的关键影响因子,降低模型输入参数的维度,消除了变量之间的冗余性和相关性,并划分相应的样本训练集和测试集;

木棉花具有非常广泛的应用前景,随着对木棉花功效认识的加深,其食用人群逐渐扩大,应用的范围也越来越广。但木棉花的研究水平严重滞后,目前对于木棉花化学成分的研究不够系统深入,药效物质基础尚未明确,没有化学成分和药理作用研究报道,缺乏严格、系统的毒理学作用和安全性评价资料。为保证木棉花的食用安全,对其进行毒理学研究与食品安全风险评估刻不容缓。通过毒理学试验,可以更加系统地了解和评价木棉花的食用安全性,完善木棉花的基础研究资料。

2)粒子群优化BP神经网络

4)采用测试集测试水产养殖溶解氧预测模型性能,与其他传统预测模型对比分析,实现对未来某一时刻的水产养殖溶解氧含量的精确预测。

2.4 模型评价指标

使用预处理后的数据作为模型的输入,对基于PCA-LSTM的预测模型进行训练和测试。本文选用的预测模型性能评价指标有平均绝对误差(MAE),均方根误差(RMSE)和平均绝对百分误差(MAPE)。如下,公式(16)为MAE的计算公式,公式(17)为RMSE的计算公式,公式(18)为MAPE的计算公式。

(16)

(17)

(18)

式中yi是真实的溶解氧含量值mg/L;是预测的溶解氧含量值mg/L;N是测试样本集数量。

CM教科书有理数内容中涉及学科相关联背景素材的例题有5.08%,而RJ版教科书例题中未涉及与其它学科相关的背景素材,表明CM教科书更加注重引入与其它学科相关联的背景知识,如数学在物理、化学和生物乃至体育等学科的应用,促使学生意识到数学的广泛用途.

3 结果与讨论 3.1 试验准备

试验之前,我们首先介绍试验中所选用的数据集,与本文提出的PCA-LSTM模型相对比的其他预测模型,试验运行平台和软硬件环境,评价了对不同预测模型优劣精度度量指标。

3.1.1 数据集

本节以浙江省淡水水产养殖研究所试验基地某试验池塘中的溶解氧为研究对象。采用已经预处理过的试验数据,主要包括水温、pH值、溶解氧、风速、风向、太阳辐射、空气温度、空气湿度、大气压强、土壤湿度和土壤温度等水产养殖生态环境数据。最终实现2 h后的溶解氧含量预测,在线采集到的5 007条样本数据作为数据源,利用K折交叉验证法验证和测试模型性能[24],其基本思想是将原始数据分为K份,然后取K-1份为训练集,余下的1份作验证集,首先用训练集对模型进行训练,再利用验证集来测试训练得到的模型。上述过程重复K次,最后利用K次验证集上的模型精度的平均值作为评价模型的性能指标。

3.1.2 对比模型

除了与单一的LSTM预测模型对比,本文还将PCA-LSTM模型与以下4种浅层模型进行试验对比。

由表2可知,与对照相比,早稻和晚稻期间,施加腐殖质、零价铁和复合调理剂均显著提高了稻米的产量。与对照相比,施加腐殖质,早稻和晚稻分别增产 533 kg·hm-2和 934 kg·hm-2,增幅为 8.4%和 18.3%;施加零价铁,早稻和晚稻分别增产 700 kg·hm-2和 300 kg·hm-2,增幅为 11.4%和 12.1%;施加复合调理剂,早稻和晚稻分别增产 867 kg·hm-2和1367 kg·hm-2,增幅为13.9%和26.8%。这可能与施加调理剂改善土壤性质、增强土壤肥力有关。

1)BP (back propagation, BP)神经网络

BP神经网络在复杂的非线性系统中具有较高的建模能力,并对数据具有良好的拟合能力,在预测方面应用广泛。研究表明,这种简单的网络结构可以逼近任意非线性的函数,是一种典型的函数映射之间的关系[25]。

3)初始化预测模型的参数,将训练样本数据集输入模型,不断调整模型参数,直到获取目标准确率,构建基于PCA-LSTM的水产养殖溶解氧预测模型;

为了更加直观比较PCA-LSTM神经网络预测模型的误差值,表5为5次试验后得到的LSTM模型的平均相对误差、平均绝对百分误差和均方根误差的值。从表中也可以看出,相对于其他的样本集,样本1最终取得的预测性能最好,MAE、MAPE和RMSE分别达到了0.252 9、0.081 4和0.118 6。此外,PCA-LSTM模型的整体预测精度较为理想,MAE、MAPE和RMSE(保留3位有效数字)分别达到了0.274、0.089和0.147,说明了基于PCA-LSTM神经网络的水产养殖溶解氧预测模型具有较为理想的泛化性能,可以很好地拟合养殖生态环境因子与水质溶解氧之间复杂的非线性关系。

3)极限学习机

ELM(extreme learning machine, ELM)是一种简单易用、有效的的单隐层前馈神经网络[27]。与传统的前馈神经网络训练速度慢,容易陷入极小值点,学习率的选择敏感等缺点,ELM算法随机产生输入层与隐含层的连接权值w及隐含层神经元的阈值b,且在训练过程中无需调整。只要设置隐含层神经元的个数,便可以获得唯一的最优解,具有学习速度快、泛化能力好等优点[28-29]。

图6统计了贝塞尔高斯涡旋光束的光束抖动在不同各向异性的湍流大气中随传输距离的变化情况,其中各向异性参数设置分别为ξx=1,5,10和20.从图6中可以发现随着湍流各向异性参数的增大,贝塞尔高斯涡旋光束的抖动效应逐渐减弱,在远距离传输时,该现象更加明显.随着湍流各向异性参数的减小,贝塞尔高斯涡旋光束的抖动效应增强,当各向异性参数都为1时抖动效应最强,此时大气湍流谱退化为各向同性湍流谱.这是因为各向同性大气模拟的是近地大气湍流,各向异性大气模拟的是高空大气湍流,其高空大气湍流对涡旋光束相位强度的扰动要弱于近地大气湍流的扰动,因此导致了抖动效应随各向异性参数的增大而减弱.

式中it、ft、ot分别为t时刻输入门、遗忘门和输出门的计算方法;ct为t时刻记忆细胞的计算方法;ht为t时间点LSTM单元的所有输出。σ和tanh分别表示sigmoid和双曲正切激活函数。w和b表示相应的权重系数矩阵和偏置项。LSTM模型训练的具体流程为1)根据公式(6)-(10)计算LSTM存储单元的输出值;2)计算每个LSTM存储单元的误差项,包括时间和网络层级2个反向传播方向;3)结合相应的误差项,计算每个权重的梯度;4)采用梯度优化算法,本文选用的适应性动量估算法,更新权值。

欺凌发生的时间主要集中在学校老师及家长不易关注的时间段。其中48.4%的学生认为校园欺凌主要发生在课间休息时段,认为发生在上学或放学路上的比例为23.9%;发生在周末或节假日的比例为27.7%。

(5)求耦合度。为了从整体上判别二者耦合的情况,构造耦合度( C(t))模型(8),通过该模型可以从时空两个角度定量评判机场与旅游业发展的耦合程度,计算公式为:

理论上,RNNs能够对任何长度的序列数据进行处理,实际中,如果序列过长会出现梯度消失和梯度爆炸的问题。除此之外RNN难以保持较长时间的记忆。而LSTM网络的出现有效地解决了这些问题。LSTM网络不仅具有传统循环神经网络的功能,而且LSTM网络采用特殊的控制单元,解决了误差信号消亡的问题[23]。经过不断的改进,目前广泛应用的LSTM模型存储单元的基本架构如图2所示。

本文提出了一种C型结构磁通门传感器,该传感器通过提取变压器铁芯部分磁通,利用磁通门原理直接检测磁通大小。搭建实验平台,通过实验验证了该结构磁通门传感器能够实现变压器直流磁通的直接检测。

3.1.3 平台和环境

式中rij是变量xi和xj之间的相关系数,是第i个变量的平均值,是第j个变量的平均值,n为样本数。

他们俩趴在窗台上,隔着玻璃看窗外奔走的行人和烤鸭店拉下卷闸门的老板,台风已经逼近这里,头顶上黑压压的乌云越来越低,大雨轰然落下。

构建快筛快检研发应用体系,提高市场打假效能。广东省所为落实监管新要求,不断在快筛快检技术上发力,建立非法添加数据库410种、产品数据库360种,非法添加快筛方法30多种,申请发明专利45项,已被授权31项。其中25项实现了产品化,涵盖药品、保健食品、化妆品和食品领域,基本覆盖市场上常见非法添加药物。2012年,西布曲明快筛方法获省科学技术三等奖。2013年,《食品药品中非法添加化学成分的监督检验系统技术策略及其应用》获省科学技术二等奖。2014年,全国药检系统中首个非法添加快检技术系统研究平台启动。同时,该所通过举办培训班、开展竞赛等形式,推广了快筛快检技术在基层一线的应用。

3.2 试验结果分析

3.2.1 仿真分析

使用小型气象站采集到的气象因子较多,它们之间存在一定的相关性,直接作为模型的输入会使网络结构过于庞大,所以使用主成分分析法对池塘养殖环境数据降维和分析,得到不相关的新变量,最终提取出养殖池塘溶解氧的关键影响因子。本文利用SPSS软件实现对溶解氧关键影响因子的筛选,方差及主成分贡献率如表2所示。选择“特征值”大于1的成分作为提取主成分的原则,表2中可以直观看出,前3个因子的特征值均大于1,因此选择前3个因子代替原变量。采用具有Kaiser标准化的正交旋转法得到各个环境因子对不同主因子的因子载荷,得到的成分矩阵如表3所示,对第1因子贡献最大的有太阳辐射和土壤温度;第2因子贡献较大的是风速和溶解氧,风向和土壤水分对第3因子贡献较大。

表2 方差及主成分贡献率

Table 2 Eigenvalue and principle component contribution rates

成分Component初始特征值Initial eigenvalues提取平方和载入Extraction sums of squared loading旋转平方和载入Rotation sums of squared loadings 合计Total方差Variance/%累计Cumulative/%合计Total方差Variance/%累计Cumulative/%合计Total方差Variance/%累计Cumulative/% 13.70041.11041.1103.70041.11041.1103.36337.36237.362 21.81620.17961.2881.81620.17961.2882.08323.14360.505 31.18113.11974.4081.18113.11974.4081.25113.90374.408 40.7077.85382.261 50.6166.84989.110 60.5406.00195.110 70.2672.96898.078 80.1311.46099.538 90.0420.462100.000

表3 成分矩阵

Table 3 Component matrix

成分Component成分1Main ingredient 1成分2Main ingredient 2成分3Main ingredient 3 土壤温度Soil temperature0.9380.1360.048 太阳辐射Solar radiation-0.926-0.226-0.008 空气温度Temperature0.8740.3220.044 空气湿度Humidity0.7400.2880.305 大气压强Atmospheric pressure0.548-0.538-0.192 风速Wind speed-0.2400.801-0.036 溶解氧Dissolved oxygen-0.3580.621-0.191 风向Wind direction-0.037-0.3630.773 土壤水分Soil moisture-0.4050.3350.641

因此本文选用的关键影响因子有水温、太阳辐射、风速、风向、土壤温度和土壤水分和溶解氧,也与养殖领域专家凭借经验选取水质溶解氧的关键影响因子基本一致,降低了数据维度和复杂度,并以此构建未来某一时刻溶解氧预测模型的输入样本,输出参数为2 h后的溶解氧含量。由于所使用的计算机配置不足,为了提高训练速度,抽取其中的1 000条数据作为样本数据集,并采用5折交叉验证方法对模型精度进行评估。

首先,选取2.3节提出的方法建立水产养殖溶解氧预测模型。采用Adam算法进行优化,迭代次数为2 000次时,其中输入层节点数为7和输出层节点数为1,5次试验所对应的隐含层节点数、学习率、批尺寸和时间步的值如表4所示。图4为5折交叉验证后训练PCA-LSTM模型得到的5组误差曲线和预测趋势图。

表4 PCA-LSTM算法的参数对比

Table 4 PCA-LSTM neural network parameter comparison

试验次数Number of trials隐含层节点数Number of hidden layer nodes学习率Learning rate批尺寸Batch size时间步Time step 1300.000 16020 2300.000 16010 3130.000 16030 4300.0013210 5300.0016030

图4中右列的5个图表示LSTM神经网络的预测值和实际值的变化趋势,从图中可以看出,样本集合1、3和5得到的模型精度较高且拟合性能好,样本集2和4误差波动较大,且比较分散。但是从第二列的5组图中可以看出,不同样本最后的预测结果总体趋势与实际值较吻合。

图4 PCA-LSTM模型的误差曲线和预测趋势

Fig.4 Error curve and prediction trend of PCA-LSTM model

BP神经网络存在容易陷入局部极值、稳定性差、收敛速度慢等问题,因此目前很多研究着将智能算法加入BP网络中,以达到优化[26]。粒子群算法(particle swarm optimization, PSO)通过不断地更新速度和位置实现优化到全局最优解,不依靠梯度信息,可调参数少,算法实现容易且运行效率高,具有良好的全局搜索性能,利用个体间的协作和竞争实现全局搜索,减少了陷入局部最优解的风险,鲁棒性强。因此利用PSO优化BP神经网络的初始权值和阈值,能够改善网络的性能,增强泛化能力,提高预测精度。

表5 PCA-LSTM预测模型的精度分析

Table 5 Forecast analysis of PCA-LSTM prediction moel

试验次数Number of trials平均绝对误差MAE平均绝对百分误差MAPE均方根误差RMSE 10.252 90.081 40.118 6 20.301 60.096 80.169 2 30.257 50.088 00.130 6 40.288 10.091 20.163 4 50.271 60.088 30.153 3 平均值Average0.274 30.089 10.147 0

3.2.2 模型对比

在实际养殖中可能导致猪患病的因素非常多,通常猪高热综合征症候群主要包含猪流感、非典型性猪瘟、乙型脑炎等,病因十分复杂,而对于防治工作的展开,提升猪群整体的免疫能力则是降低这一疾病影响范围的主要途径。为达到这样的要求,相关养殖场应能做好以下工作:首先,结合当地猪高热综合征整体的流行情况,选择数种疫苗有目的地进行预防,猪瘟、猪口蹄疫、猪链球菌等都能通过疫苗注射得到有效的控制。通常这些疫苗的接种时间应选择在猪高热综合征发病高峰前期。其次,对于新购进的生猪,养殖场应及时进行疫苗补种,严格避免携带病毒的或已患病的猪进入到健康猪群中。

为了进一步验证PCA-LSTM神经网络的预测效果,我们采用不同的预测模型进行对比,分别为单一的LSTM模型、PCA-BP模型、PCA-PSOBP模型、PCA-ELM模型和PCA-LSSVM模型,均以相同的样本集进行5折交叉验证。图5表示PCA-LSSVM、PCA-PSO-BP、PCA-BP、PCA-ELM、单一的LSTM和PCA-LSTM的预测误差曲线。可以直观地看出,PCA-LSSVM、LSTM以及PCA-LSTM的预测值和实际值的误差较小,预测效果较为理想,并且PCA-LSTM模型的误差曲线波动较小。

由表6可知,PCA-LSTM模型比单一的LSTM模型预测精度高,PCA-LSTM模型的MAE、MAPE和RMSE(保留3位有效数字)分别为0.274、0.089和 0.147,与单一的LSTM模型相比,MAE、MAPE和RMSE分别提高了8%、1.4%和14.1%,可以看出利用PCA实现了原始数据的降维处理,消除了变量之间的冗余性和相关性,提升了LSTM模型的预测精度和稳定性。除此之外,与其他4种浅层模型相比,PCA-LSTM模型明显优于PCA-BP、PCA-PSOBP和PCA-ELM,略高于PCA-LSSVM模型。结果表明提出的PCA-LSTM模型的预测精度高、泛化能力强,能够准确掌握水产养殖溶解氧含量未来2 h的变化,达到了比较理想的预测效果,可以为水质预警和水质调控提供决策依据。

护理人员必须按时地给药,且在选择药物种类时应尽量首选口服药物。在给药期间,应根据患者的病情自动调整患者的给药方法和量。中度疼痛病人当首选丹宁和可待因等,并且在严重疼痛的病人中优选吗啡等镇痛药物。观察给药方式可以消除约70%的患者疼痛症状,在给药护理过程中,护理人员应按时地检查病房情况,观察病情,评估疼痛性质,程度及部位,按时给药。使用药物镇痛治疗,必须遵守相关要求。服用药物后要注意病人的状态,看其是否有不良反应,观察病人的身体合理疼痛缓解情况,记录疼痛变化的情况,并且及时向医生收集信息反馈意见,努力为不同的病人制定适合的个体化治疗方案,以利于改善药物治疗的效果。

图5 各模型预测误差曲线

Fig.5 Forecast error graphs for each model

表6 各模型预测结果精度分析

Table 6 Precision analysis of forecast results for each model

模型Model平均绝对误差MAE平均绝对百分误差MAPE均方根误差RMSE PCA-BP0.4140.1410.335 PCA-PSO-BP0.3770.1330.280 PCA-ELM0.4190.1300.343 PCA-LSSVM0.3380.1000.297 LSTM0.3540.1030.288 PCA-LSTM0.2740.0890.147

4 结 论

本文提出并构建了基于PCA-LSTM神经网络的水产养殖溶解氧预测模型。主要结论如下:

1)采用PCA筛选出溶解氧的关键影响因子,实现了模型输入的降维,消除了变量之间的冗余性和相关性,有利于提升LSTM预测精度和稳定性;

2)本文提出的PCA-LSTM模型能够准确的预测未来2 h溶解氧含量,预测精度和稳定性较高,能够很好地拟合水产养殖溶解氧与其他生态环境因子之间的非线性关系;

高校依靠庞大的校内外优质的教师资源、优质的教育资源和深厚文化优势,可以开发出大量的社区教育课程资源。高校人才济济,各领域、各专业的专家很多,社区内各行业的专家也不少,社区学院应充分利用这些人力资源来开发大量的优质教育培训资源。

3)本文提出的PCA-LSTM模型与BP神经网络等其他模型相比,模型评价指标平均绝对误差、均方根误差和平均绝对误差分别为0.274、0.089和0.147,均优于传统的预测方法,解决了传统预测方法预测精度低、鲁棒性差等问题。

本文溶解氧预测模型具有良好的预测性能和泛化能力,可以为预防水体恶化、水产疾病爆发、水质的智能调控与管理方面具有重要的指导意义。

[参 考 文 献]

[1] 刘双印. 基于计算智能的水产养殖水质预测预警方法研究[D]. 北京:中国农业大学,2014.

Liu Shuangyin. Prediction And Early-Warning of Water Quality in Aquaculture Based on Computational Intelligence[D]. Beijing: China Agricultural University, 2014. (in Chinese with English abstract)

[2] 徐龙琴,刘双印,张垒,等. 基于DBN-LSSVR的南美白对虾养殖溶解氧预测[J]. 仲恺农业工程学院学报,2017(4):1-7.

Xu Longqin, Liu Shuangyin, Zhang Lei, et al. Prediction of dissolved oxygen in Litopenaeus vannamei culture based on deep belief network and least squares support vector regression[J]. Journal of Zhongkai University of Agriculture and Engineering, 2017(4): 1-7. (in Chinese with English abstract)

[3] Liang Jin, Luo Fei, Xu Yuge. Dissolved oxygen concentration prediction control through multiobjective evolutionary RBF neural network[C]// Decision and Control, 2009: 1878-1883.

[4] 陈彦,殷建军,项祖丰,等. 基于时间序列模型的海洋溶解氧分析与预测[J]. 轻工机械,2012(3):83-87.

Chen Yan, Yin Jianjun, Xiang Zufeng, et al. Marine dissolved oxygen analysis and prediction based on the time series model[J]. Light Industry Machinery, 2012(3): 83-87. (in Chinese with English abstract)

[5] 马晓涛,温继文,陈英义. 基于ARIMA和RBF神经网络模型的溶解氧预测分析[J]. 江苏农业科学,2015(5):413-415.

[6] 徐敏,曾光明,谢更新,等. 混沌理论在河流溶解氧预测中的应用初探[J]. 环境科学学报,2003(6):776-780.

Xu Min, Zeng Guangming, Xie Gengxin, et al. Prelimiary research on the application of chaos theroy to dissoved oxygen prediction[J]. Acta Scientiae Circumsitantiae. 2003(6): 776-780. (in Chinese with English abstract)

[7] 朱成云,刘星桥,李慧,等. 工厂化水产养殖溶解氧预测模型优化[J]. 农业机械学报,2016(1):273-278.

Zhu Chengyun, Liu Xingqiao, Li Hui, et al. Optimization of prediction model of dissolved oxygen in industrial aquaculture[J]. Transaction of the Chinese Society for Agricultural Machinery, 2016(1): 273-278. (in Chinese with English abstract)

[8] 刘双印,徐龙琴,李道亮,等. 基于蚁群优化最小二乘支持向量回归机的河蟹养殖溶解氧预测模型[J]. 农业工程学报,2012,28(23):167-175.

Liu Shuangyin, Xu Longqin, Li Daoliang, et al.Dissolved oxygen prediction model of eriocher sinensis culture based on least squares support vector regression optimized by ant conlony algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(23): 167-175. (in Chinese with English abstract)

[9] 宦娟,刘星桥. 基于K-means聚类和ELM神经网络的养殖水质溶解氧预测[J]. 农业工程学报,2016,32(17):174-181.

Huan Juan, Liu Xingqiao. Dissolved oxygen prediction in water based on K-means clustering and ELM neural network for aquaculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(17): 174-181. (in Chinese with English abstract)

[10] Zhao Z, Chen W, Wu X, et al. Lstm network: A deep learning approach for short-term traffic forecast[J]. Iet Intelligent Transport Systems, 2017, 11(2): 68-75.

[11] Kuremoto T, Kimura S, Kobayashi K, et al. Time series forecasting using a deep belief network with restricted boltzmann machines[J]. Neurocomputing, 2014, 137(Supp.1): 47-56.

[12] Benuwa B B, Yong Z Z, Ghansah B, et al. A review of deep machine learning[J]. International Journal of Engineering Research in Africa, 2016, 24: 124-136.

[13] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[14] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-56.

[15] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[16] 陈卓,孙龙祥. 基于深度学习LSTM网络的短期电力负荷预测方法[J]. 电子技术,2018(1):39-41.

Chen Zhuo, Sun Longxiang. Short-term electrical load forecasting based on deep learnig LSTM networks[J]. Electronics Design & Application, 2018(1): 39-41. (in Chinese with English abstract)

[17] 于家斌,尚方方,王小艺,等. 基于GF-LSTM网络的蓝藻水华预测方法[J]. 计算机应用,2018:1-6.

Yu Jiabin, Shang Fangfang, Wang Xiaoyi, et al. Cyanobacterial bloom forecast method based on GF-LSTM network[J]. Journal of Computer Applications, 2018: 1-6. (in Chinese with English abstract)

[18] 王鑫,吴际,刘超,等. 基于Lstm循环神经网络的故障时间序列预测[J]. 北京航空航天大学学报,2018,44(4):772-784.

Wang Xin, Wu Ji, Liu Chao, et al. Exploring LSTM based recurrent neural network for failures time series prediction[J]. Journal of Beijing Unversity of Aeronautics and Astronautics, 2018, 44(4): 772-784. (in Chinese with English abstract)

[19] 吴松涛,侯风华,戴锋. 非线性数据标准化处理过程中的线性近似法[J]. 信息工程大学学报,2007,8(2):250-253.

Wu Songtao, Hou Fenghua, Dai Feng.Linear approxmiating method in the transacting process of nonlinear standardization of data[J]. Journal of Information Engineering University, 2007, 8(2): 250-253. (in Chinese with English abstract)

[20] 徐龙琴,刘双印. 基于APSO-WLSSVR的水质预测模型[J]. 山东大学学报:工学版,2012,42(5):80-86.

Xu Longqin, Liu Shuangyin. Water quality prediction model based on APSO-WLSSVR[J].Journal of Shandong University: Engineering Science, 2012, 42(5): 80-86. (in Chinese with English abstract)

[21] Wold S, Esbensen K, Geladi P. Principal component analysis[J]. Chemometrics And Intelligent Laboratory Systems, 1987, 2(1/2/3): 37-52.

[22] Jian Z, Cencen X, Ziang Z, et al. Electric load forecasting in smart grids using long-short-term-memory based recurrent neural network[C]// Information Sciences and Systems. IEEE, 2017.

[23] Fujita T, Bai W, Quan C. Long short-term memory networks for automatic generation of conversations[C]// Software Engineering, Artificial Intelligence, Networking And Parallel/Distributed Computing, 2017: 483-487.

[24] 汤宝平,刘文艺,蒋永华. 基于交叉验证法优化参数的Morlet小波消噪方法[J]. 重庆大学学报,2010,33(1):1-6.

Tang Baoping, Liu Wenyi, Jiang Yonghua. Parameter optimized Morlet wavelet de-noising method based on cross validation method[J]. Journal of Chongqing University, 2010, 33(1): 1-6. (in Chinese with English abstract)

[25] Hirose Y, Yamashita K, Hijiya S. Back-propagation algorithm

which varies the number of hidden units[J]. Neural Networks, 1991, 4(1): 61-66.

[26] 陈啸,王红英,孔丹丹,等. 基于粒子群参数优化和BP神经网络的颗粒饲料质量预测模型[J]. 农业工程学报,2016,32(14):306-314.

Chen Xiao, Wang Hongying, Kong Dandan, et al. Quality prediction model of pellet feed basing on BP network using PSO parameters optimization method[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(14): 306-314. (in Chinese with English abstract)

[27] Huang G, Zhu Q, Siew C. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.

[28] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: a new learning scheme of feedforward neural networks[J]. Neural Network: IEEE, 2004: 985-990

[29] Huang G, Zhou H, Ding X, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems Man and Cybernetics Part B-Cybernetics, 2012, 42(2): 513-529.

[30] Zhang Y, Liu Y. Traffic forecasting using least squares support vector machines[J]. Transportmetrica, 2009, 5(3): 193-213.

[31] Suykens J, Vandewalle J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.

Principal component analysis and long short-term memory neural network for predicting dissolved oxygen in water for aquaculture

Chen Yingyi1,2, Cheng Qianqian1,3, Fang Xiaomin1,3, Yu Huihui1,3, Li Daoliang1,2

(1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China; 2. Key Laboratory of Agricultural Information Acquisition Technology, Ministry of Agriculture, Beijing 100083, China; 3. Beijing Engineering and Technology Research Center for Internet of Things in Agriculture, Beijing 100083, China)

Abstract: China has the largest aquaculture industry, accounting for almost 70% of the aquaculture production in the world. The dissolved oxygen in aquaculture directly affects the quality and safety of aquatic products. The dissolved oxygen is susceptible to many factors such as temperature, wind speed, wind direction, etc. So it is significant to understand timely and accurately the change of the dissolved oxygen content which can prevent water quality deterioration, disease outbreaks and optimize aquaculture management. The traditional methods in dissolved oxygen prediction have problems such as low prediction accuracy and poor robustness, with shortcomings like limited ability to express complex functions under limited amount of sample data as well as poor generalization ability for complicated problems. In order to improve the prediction accuracy of the dissolved oxygen in aquaculture, a hybrid model based on principal component analysis (PCA) and long short-term memory (LSTM) neural network was proposed to forecast the dissolved oxygen content in aquaculture. First, the key impact factors of dissolved oxygen in aquaculture were extracted by PCA, which can eliminate the correlations of original variable and reduce the input dimension. Therefore, the key impact factors selected were water temperature, solar radiation, wind speed, wind direction, soil temperature and soil moisture, respectively. Then, a LSTM network model was built based on Tensorflow deep learning framework to construct the nonlinear prediction model between the dissolved oxygen and these key impact factors. Finally, based on the presented prediction model of PCA-LSTM, the dissolved oxygen content was predicted for an experimental pond during July 8th, 2017 to August 8 th, 2017 in the Research Institute of Freshwater Aquaculture, Zhejiang province. In the model accuracy analysis process, a 5-fold cross validation method was used to evaluate the approximation accuracy. The experimental results showed that the proposed prediction model of PCA-LSTM had better prediction performance than BP neural network (BPNN), particle swarm optimization BP neural network (PSO-BP), extreme learning machine (ELM) and least squares support vector machine (LSSVM). In the case of the same data set, the MAE, MAPE and RMSE of the PCA-LSTM were 0.274, 0.089 and 0.147, respectively; the MAE, MAPE and RMSE of LSTM were 0.354, 0.103 and 0.288, respectively; the MAE, MAPE and RMSE of PCA-LSSVM were 0.338, 0.100 and 0.297, respectively; the relative MAE, MAPE and RMSE of PCA-ELM were 0.419, 0.130 and 0.343, respectively; the relative MAE, MAPE and RMSE of PCA-PSO-BP were 0.377, 0.133 and 0.280, respectively; and the relative MAE, MAPE and RMSE of PCA-BP were 0.414, 0.141 and 0.335, respectively. It was clear that the presented prediction model was more accurate than BP algorithm, PSO-BP algorithm and ELM algorithm, slightly higher than LSSVM algorithm. The dissolved oxygen prediction model based on PCA-LSTM network exhibited best prediction accuracy and generalization performance when compared with other traditional forecasting models. Therefore, the presented model based on PCA-LSTM network can meet the actual demand of accurate forecasting of dissolved oxygen and provide a reference for water quality control in aquaculture. As well as it also can help farmers make decisions and reduce farming risks.

Keywords: aquaculture; dissolved oxygen prediction; principal component analysis; long short-term memory; recurrent neural network

doi:10.11975/j.issn.1002-6819.2018.17.024

中图分类号:TP391

文献标志码:A

文章编号:1002-6819(2018)-17-0183-09

收稿日期:2018-05-23

修订日期:2018-08-04

基金项目:山东省重点研究发展计划“设施蔬菜环境准确监测与控制技术研究与示范(NO. 2017CXGC0201)”,北京市科技计划“淡水鱼大规模健康养殖智能控制技术装备研究与示范”(NO. Z171100001517016)

作者简介:陈英义,副教授,博士生导师,主要研究方向为农业模型和信息处理技术。Email:chenyingyi@cau.edu.cn

陈英义,程倩倩,方晓敏,于辉辉,李道亮. 主成分分析和长短时记忆神经网络预测水产养殖水体溶解氧[J]. 农业工程学报,2018,34(17):183-191. doi:10.11975/j.issn.1002-6819.2018.17.024 http://www.tcsae.org

Chen Yingyi, Cheng Qianqian, Fang Xiaomin, Yu Huihui, Li Daoliang. Principal component analysis and long short-term memory neural network for predicting dissolved oxygen in water for aquaculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(17): 183-191. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2018.17.024 http://www.tcsae.org

 
 
相关阅读
 

农业技术网版权所有 (c) nongyejs.com All Rights Reserved.
部分文章来源于网友投稿,如有侵权,请联系在线客服处理。