logo好方法网

基于多源异构数据融合的PM2.5预测模型


技术摘要:
本发明提出了基于多源异构数据融合的PM2.5预测模型,该模型通过将多源异构数据融合实现信息的综合,并在融合数据的基础上建立多核支持向量回归机模型实现PM2.5浓度预测。首先,采集空气质量数据和图像两种多源异构数据,并对采集的数据进行预处理和特征提取。其次,使  全部
背景技术:
经济的快速发展和工业化进程的推进,给生态环境造成了前所未有巨大压力。长 期以来,以经济增长为主轻视环境保护的经济发展模式积累的隐患逐渐显露出来,在可吸 入颗粒物和总悬浮颗粒物污染无法全面解决的情况下,京津冀等经济发达地区的长期、持 续性雾霾对人们的生活、生产活动造成了严重威胁。为了有效防控雾霾带来的危害,加强大 气PM2.5的监测与实现尽早的PM2.5浓度预测具有充分的现实意义。 传统的基于空气质量数据的PM2.5预测方法主要有数值方法和统计方法两种。数值 方法通常结合大气动力学、化学、数学等交叉学科知识,通过分析污染物的产生、输送、转 换、沉降等过程,利用物质守恒方程来对PM2.5做定量预测。统计方法则是通过分析历史监测 数据内在的变化规律,建立模型进行PM2.5预测。目前,大部分的PM2.5预测是利用统计方法, 常见的预测模型有ARIMA模型、多元线性回归模型、自回归移动平均模型、时间序列、灰色统 计等预测方法等。基于统计方法的PM2.5预测要求原始数据的高度可靠性,或经过数据预处 理过程后,得到的训练数据能准确反映PM2.5的特征信息。然而因为一些人为因素或意外情 况造成的不可修补数据,使基于建模进行PM2.5预测面临较多困难。另外,近几年发展起来的 基于图像的PM2.5预测方法,虽然在数据采集上摆脱了大型设备的束缚,但是预测精度却差 强人意。 考虑到上述基于单源单质数据预测方法存在的不足,本发明提出了一种基于多源 异构数据融合的PM2.5预测模型。该模型利用来自不同数据源、不同结构的数据建立预测模 型进行PM2.5预测。多源异构数据可以从不同角度对PM2.5的变化进行表征,通过多源异构数 据融合可以实现多源异构数据的信息融合,信息的互补能增加数据的置信度、提高可靠性、 降低不确定性。基于多源异构数据建立的回归预测模型能获得更加综合的估计和判决,有 利于提高PM2.5预测的精度和稳定性。
技术实现要素:
本发明提出了一种基于多源异构数据融合的PM2.5预测模型,该模型采集空气质量 数据和图像数据作为训练数据,利用核方法实现多源异构数据融合,并在融合数据的基础 上建立多核支持向量回归机(SVR)模型实现PM2.5预测。 本发明采用的技术方案是基于多源异构数据融合的PM2.5预测,包括以下步骤: 步骤1:采集空气质量数据和图像两种异构数据,并对采集的数据进行数据预处 理。 步骤2:对预处理完的数据进行特征提取,尤其是图像数据,采用数字图像处理技 术提取图像特征。 4 CN 111598156 A 说 明 书 2/7 页 步骤3:验证提取的特征与PM2.5浓度值的相关性完成特征选择。 步骤4:基于数据特征的类型使用不同的核函数进行映射,利用核方法实现多源异 构数据融合。 步骤5:基于多源异构融合数据,建立多核SVR回归模型。 步骤6:使用改进的最小序列优化算法(SMO)优化多核SVR模型参数,确定模型结 构。 步骤7:使用测试数据对多核SVR模型的预测效果进行测试。 步骤8:使用相关评价指标对多核SVR模型进行评估。 本发明实施例的基于多源异构数据融合的PM2.5预测,以空气质量数据和图像两种 异构数据作为输入,对数据完成特征提取后,利用核方法,将异构空间的特征经过核函数的 映射后投射到同一核空间,在该核空间上训练回归模型,完成对PM2.5的预测。基于多源异构 数据得到的预测模型,预测精度更高、稳定性更好。 另外,根据本实施例的基于多源异构数据融合的PM2.5预测方法还具有如下附加的 技术特征: 步骤1中,空气质量数据包括PM10、PM2.5、SO2、NO2、CO、O3、温度和湿度,另外需要对图 像数据进行预处理,包括图像的平移和缩放,采集到的图像像素为1920*1080,缩放之后的 像素为320*240。 步骤2中特征提取过程中,提取空间对比度、暗通道强度和HIS颜色空间差异(三个 维度)相关的共5个特征。 根据大气透射模型I(x)=J(x)t(x) A(1-t(x)),大气光的消光与透射率呈反比关 系,两者满足如下公式: 其中bext是消光系数,r(x)是光的传输距离。大气类似于一个低通滤波器,过滤掉 图像的高频信息,使图像信息减少。定义局部对比度为第一个特征: Fig=|▽xI(x)|。 图像暗通道强度定义为: 式中Ω(x)是以像素x为中 心的分块,J为场景辐射光,Jc表示其中一个颜色通道。可以看出,给定像素的暗通道强度值 为该分块三颜色同道中的最小值。大量无雾霾图像的先验知识表明,无雾霾图像的暗通道 强度值为0,即:Jdark→0,结合大气透射模型,可得消光率: 式中Ac 为大气光,因此将消光率t(x)选为第二个特征Fid 天空在HIS颜色空间中颜色差异与大气消光bext存在指数关系,可表示为:bext= aebΔD,式中a,b为模型参数,ΔD用来描述HIS空间中的差异。由于很难获取bext中在HIS三部 分的影响参数,因此使用三部分在HIS颜色空间的差异值作为特征,定义如下: dx(h)=Ih(x,y)-Ih(x 1,y) 5 CN 111598156 A 说 明 书 3/7 页 dy(h)=Ih(x,y)-Ih(x,y 1) 其中,I是输入图像,其像素为m*n,Ih(x,y)是像素点(x,y)的h值。同样,Fis和Fii定 义如下: 步骤4中采用多核学习的方法进行多源异构数据融合。对于给定的样本空间(x1 , y1) ,(x2,y2) ,…,(xl,yl)∈X×Y,其中输入空间 输出空间 考虑回归模型的 学习能力和泛化能力,选择两个不同RBF核函数。为了不丢失任何原始信息,将多核矩阵合 并即采用多核扩展方法。多核扩展核矩阵由于包含了原有的所有核矩阵,因此原始核函数 的性质得以保存。多核扩展核矩阵的形式为: 其中新矩阵的对角线矩阵为原始核矩阵,(Kp,p′)i,j=Kp,p′(xi,xj)表示两个不同核 矩阵的混合,M为使用的核函数个数,l为样本总数。两个不同核矩阵的混合可由如下公式求 得: 可知,当p=p′时,kp,p′≡kp,其中σp、σp′为RBF核函数的参数。 步骤8中采用均方根误差(ermse),平均绝对百分比误差(emape)和相关系数(R2)3个 指标对模型进行评估: 式中:yi表示第i个样本对应的PM2 .5浓度的真实值, 表示第i个样本对应的PM2 .5 浓度的预测值, 表示模型预测输出平均值。ermse反映模型预测输出值稳定性,emape反映模 型预测输出值偏离实际值的程度,两者均是越小说明模型性能越好;R2反映模型预测输出 值与真实值之间的关联程度,其值越接近1说明模型性能越好。 6 CN 111598156 A 说 明 书 4/7 页 附图说明 图1为本发明多源异构数据融合过程示意图 图2为本发明基于多源异构数据融合进行PM2.5预测流程示意图
分享到:
收藏