MIWOA-LSSVM方法的构建及其在生物质炭模式分类中的应用 [PDF全文]
(浙江科技大学 a.环境与资源学院; b.生物与化学工程学院,杭州 310023)
【目的】最小二乘支持向量机(least square support vector machine,LSSVM)的性能受惩罚因子和核函数参数的影响较大,为了优化这些参数,提出一种基于多策略改进的鲸鱼优化算法(multi-strategy improved whale optimization algorithm,MIWOA)。【方法】首先,采用Logistic混沌初始化方法替代随机初始化,以提高种群的多样性,进而提高搜索效率; 然后,引入了非线性收敛因子和动态惯性权重,以增强算法的全局搜索能力; 最后,采用具有长尾分布的Lévy飞行策略,以跳出局部最优解,扩大搜索范围。【结果】将本研究所构建的MIWOA-LSSVM集成方法用于多类别生物质炭的模式分类,结果显示MIWOA算法在参数寻优上速度更快,仅迭代7次就能得到参数最优组合。随后,利用MIWOA算法优化的参数,结合LSSVM模型进行分类,成功将分类准确率提升至96.38%。【结论】本研究结果证明了MIWOA算法在参数寻优上的可行性和高效性,同时表明MIWOA-LSSVM集成方法在多类别模式识别中具有良好的应用前景,可为优化算法在参数寻优上提供一定的参考。
Construction of MIWOA-LSSVM method and its application in biochar pattern classification
ZHANG Yefenga,CHENG Zhongb,SHAN Shengdaoa
(a.School of Environment and Natural Resources; b.School of Biological and Chemical Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China)
[Objective] The performance of the least square support vector machine(LSSVM)is greatly affected by penalty factors and kernel function parameters. To optimize these parameters, a multi-strategy improved whale optimization algorithm(MIWOA)was proposed. [Method] First, the Logistic chaos initialization method was employed instead of random initialization to increase the diversity of the population and thereby improve search efficiency; then, nonlinear convergence factors and dynamic inertia weights were introduced to enhance the global search capability of the algorithm; finally, the Lévy flight strategy with long-tail distribution was applied to jump out of the local optimal solution and expand the search range. [Result] The MIWOA-LSSVM integration method constructed in this study was intended for pattern classification of multi-category biochar. The results show that the MIWOA algorithm is faster in parameter optimization, and the optimal combination of parameters can be obtained only after 7 iterations. Subsequently, the parameters optimized by the MIWOA algorithm are used and combined with the LSSVM model for classification, succeeding in raising the classification accuracy to 96.38%. [Conclusion] The results prove the feasibility and efficiency of the MIWOA algorithm in parameter optimization. At the same time, it is shown that the MIWOA-LSSVM integration method has sound application prospects in multi-category pattern recognition, which can provide a certain basis for the optimization algorithm in parameter optimization.
引言

在碳达峰碳中和的时代背景下,将废弃生物质转化为生物质炭,是一条废物循环利用和固碳减排的绿色发展道路[1]。但由于原料种类、技术方法、热解工艺等差异,生物质炭在结构、成分、孔容、比表面积等理化性质上表现出较大的差异,进而使其拥有不同的环境效应和应用价值[2]。基于生物质炭及其原料的理化性质和炭化工艺条件等进行生物质炭的模式分类,不仅能确保生物质炭的产品质量,而且可以促进生物质炭产品的多元化、标准化和系列化生产与应用,这对于生物质炭产业化的可持续发展具有重要意义。

支持向量机(support vector machine,SVM),是一种基于结构风险最小化原则的机器学习方法,它借助核函数将样本从原始的特征空间映射到高维的特征空间以解决非线性问题,常用于分类和回归问题,并具有较强的泛化能力和鲁棒性[3]。最小二乘支持向量机(least square support vector machine,LSSVM)是SVM的改进算法,具有处理非线性、小样本和高维数据的优势,在多模式分类中具有较高的精度和效率[4]; 然而LSSVM算法中的惩罚因子和核函数参数对其性能具有较大的影响[5]。目前,有多种优化算法被应用于LSSVM的参数寻优,如遗传算法(genetic algorithm,GA)[6]、粒子群优化(particle swarm optimization,PSO)算法[7]和灰狼优化(grey wolf optimizer,GWO)算法[8]等。其中,GA适用于处理大规模复杂的问题,但它难以保证收敛到全局最优解[9]; PSO在处理多维、非线性问题时效果良好,但有时会陷入局部最优解[10]; GWO在面对复杂问题时收敛精度不高,且易早熟收敛,收敛速度也不够快[11]

鲸鱼优化算法(whale optimization algorithm,WOA)作为近年来出现的一种群体智能优化算法,以其出色的适应性和高效的搜索效率而受到广泛关注[12]。它通过模拟鲸鱼的觅食行为,以迭代的方式不断优化问题的解。然而,WOA算法也存在一些不足之处,包括对初始解非常敏感、局部搜索能力相对较弱等[13]。对此,本研究提出基于多策略改进的鲸鱼优化算法(multi-strategy improved whale optimization algorithm,MIWOA),并将其用于LSSVM模型参数的优化:采用Logistic混沌初始化、非线性收敛因子、动态惯性权重调节及Lévy飞行策略,以增强种群的多样性、搜索效率和全局搜索能力,保证位置更新的多样性。

1 MIWOA-LSSVM方法构建1.1 LSSVM分类模型

LSSVM是一种基于SVM的改进机器学习算法,它通过引入最小二乘损失函数和等式约束,可以将传统SVM的凸二次规划问题转化为一个线性方程组求解问题,简化了计算过程并提升了求解速度[14]

LSSVM的基本思路是:设定样本集{xi,yi},i=1,2,…,n,其中xi是输入量,yi是输出目标。通过非线性映射φ(x)将低维样本映射到高维特征空间,构建最优决策函数

式(1)中:ω为超平面斜率; b为位移项。

LSSVM的优化目标函数J和约束条件为

式(2)中:γ为惩罚因子; ei为误差变量。用Lagrange法求解以上优化问题,转化为如下线性问题:

式(3)中:yT=[y1,y2,…,yn]; Ω=yiyjφT(xi)φ(xj)=yiyjK(xi,xj); K(xi,xj)为核函数; E为单位矩阵; En=[1,…,1]T; α=[α12,…,αn]T为Lagrange乘子列向量。由于径向基函数运行时间短,分类准确性高。因此,采用径向基函数作为核函数,该函数可表示为:

式(4)~(5)中:σ为核函数宽度; g为核函数参数。最后,通过最小二乘方法得到的LSSVM模型为

1.2 WOA算法

WOA是一种基于鲸鱼群体狩猎行为的智能优化算法,包括围捕猎物、螺旋更新和随机搜索等3个阶段。

1.2.1 围捕猎物

在围捕猎物策略期间,将当前最佳个体位置设置为猎物位置,其他鲸鱼个体以猎物位置为参考进行位置更新:

式(7)~(8)中:D为最佳个体位置的随机扰动与当前鲸鱼个体位置的差值; X*为最佳个体位置; X为当前鲸鱼个体位置; t为当前迭代次数,t=1,2,3,…; A和C为系数,它们的表达式为:

式(9)~(10)中:r1和r2为[0,1]的随机数; h为收敛因子,随着迭代次数的增加,从2到0线性减小; tmax为最大迭代次数。

1.2.2 螺旋更新

鲸鱼个体以对数螺旋的方式靠近猎物周围进行搜索,位置更新如下:

式(11)~(12)中:D'为最佳个体位置与当前鲸鱼个体位置的距离向量; k为对数螺旋形状的参数; l为[-1,1]的随机数。

当|A|≤1时,表示鲸鱼已经接近猎物,可以认为已经找到了猎物的具体位置。为了实现围捕猎物与螺旋更新策略相结合的行动模式,引入了一个概率p作为控制参数。位置更新如下:

式(13)中:p为[0,1]的随机数。

1.2.3 随机搜索

当|A|>1时,鲸鱼无法获得猎物的有效信息,采用随机方式不断尝试获得猎物的线索,位置更新如下:

式(14)中:Xrand为随机鲸鱼个体位置。

1.3 WOA算法的改进

WOA算法存在对初始种群的选择比较敏感、求解精度低和易陷入局部最优等问题,对此采取3种不同策略实现WOA算法的改进。

1.3.1 混沌初始化

传统的鲸鱼优化算法,在确定初始种群的位置分布时采用的是随机初始化方法,这可能导致初始粒子在解空间上的分布不均匀。而这种不均匀的分布进而会影响算法的搜索效果,使其在某些区域的搜索能力较弱。为了解决这个问题,改用混沌初始化方法[15]。相比于随机初始化,混沌初始化能够明显改善求解精度和收敛速度。基于Logistic混沌模型的混沌初始化方法,其表达式为:

式(15)~(16)中:Zt为混沌变量; Z1为初始值,为[0,1]的随机数; Xmax和Xmin是鲸鱼个体最大和最小位置; λ是控制参数,当λ=4时,系统处于完全混沌状态。

1.3.2 收敛因子非线性变化和惯性权值动态变化

在鲸鱼优化算法中,|A|是一个重要的常数,用于控制鲸鱼搜索过程的步长。通过调整|A|的值,可以平衡搜索过程的收敛速度和全局搜索能力,从而优化算法的寻优性能。根据式(9)可知,|A|的值受到收敛因子h的影响。然而,线性变化的收敛因子h并不能很好地平衡收敛速度和全局搜索能力。因此,本研究提出一种非线性收敛因子h,其表达式为:

式(17)中:hstart、hend分别为收敛因子的初始值和停止值; t为当前迭代次数; tmax为最大迭代次数。

作为WOA算法中的一个重要参数,线性惯性权重的调整策略如果选用不当,会影响该算法的收敛速度。对此提出动态惯性权重(w),并根据迭代次数(t)更新动态惯性权重的值

通过引入动态惯性权重,传统鲸鱼位置表达式,即式(8)、式(12)和式(14)分别变为:

1.3.3 融合Lévy飞行策略的更新

Lévy飞行是一种搜索策略,其步长的选择不再是固定的,而是根据长尾分布来确定[16]。长尾分布意味着存在极端值或异常值,在步长的选择中就可能出现较大的值,从而实现长步长、长距离的移动,这能够帮助WOA算法在解空间中进行更广泛的探索,有助于跳出局部最优解,找到全局最优解。具体地,将WOA算法中的式(20)替换为式(22):

式(22)~(25)中:s为Lévy飞行的步长; 参数u、ν为正态分布随机数; 参数β的取值范围为(0,2],一般取1.5; σu和σv为正态分布标准差。

1.4 MIWOA-LSSVM算法步骤

由于LSSVM模型中惩罚因子和核函数参数对分类效果具有显著影响,而传统方法在选择这些参数时往往存在主观性和不确定性,容易导致模型性能不佳。为了解决这一问题,本研究采用改进的鲸鱼优化算法(MIWOA)对LSSVM进行参数寻优。MIWOA-LSSVM算法流程图见图1

图1 MIWOA-LSSVM算法流程图<br/>Fig.1 Flow chart of MIWOA-LSSVM algorithm

图1 MIWOA-LSSVM算法流程图
Fig.1 Flow chart of MIWOA-LSSVM algorithm

1.5 算法的时间复杂度

比较MIWOA与GA、PSO、WOA这3种算法的时间复杂度。假设种群数量为N,优化问题的维度为D,对于WOA算法,初始化种群为N个鲸鱼个体在D个维度上分配初始值,其时间复杂度为O(ND),其中O(ND)表示渐近上界。鲸鱼位置更新,即N个鲸鱼个体在D个维度上的位置更新,时间复杂度同样为O(ND),因为位置更新在每一次迭代中都会发生,且它们的复杂度是相加的,但常数系数在评估算法的时间复杂度时通常被忽略。综上得出,WOA算法的计算复杂度为O(2ND),这近似等于 O(ND)。不同算法的时间复杂度见表1

表1 不同算法的时间复杂度
Table 1 Time complexity of different algorithms

表1 不同算法的时间复杂度<br/>Table 1 Time complexity of different algorithms

相较于WOA,MIWOA的改进策略中,混沌种群初始化、非线性收敛因子、动态惯性权值因子和Lévy飞行的更新是随着迭代过程进行的,并未在迭代中加入格外的循环嵌套,因此算法的时间复杂度为O(ND)。

1.6 算法性能测试

为了全面评估MIWOA的性能,本研究选取了CEC2005测试集中8个基准测试函数来进行验证[17]。其中,F1—F4是高维单峰函数,用于检验算法的局部搜索能力; F5—F8是高维多峰函数,用于检验算法的全局搜索能力。基准测试函数见表2。这些测试函数具有非线性、高维、不可导和随机性等特点,能够全面评估算法在不同情况下的性能表现。

表2 基准测试函数
Table 2 Benchmark function

表2 基准测试函数<br/>Table 2 Benchmark function

为了验证MIWOA算法的性能,本研究将其与粒子群优化算法PSO、灰狼优化算法GWO和鲸鱼优化算法WOA进行测试对比。为了确保试验的客观性,统一设置种群数量为30,最大迭代次数为500。每种算法在每个测试函数上分别进行30次独立试验。为了全面评估算法的综合能力,本研究采用了多个评价指标,包括测试函数在迭代过程中的最大值、最小值、标准差和平均值。试验硬件为CPU:AMD Ryzen7 6800H、3.20 GHz,软件为MatLab R2022a。不同算法寻优性能比较见表3

表3 不同算法寻优性能比较
Table 3 Optimization performance comparison of different algorithms

表3 不同算法寻优性能比较<br/>Table 3 Optimization performance comparison of different algorithms

表3中可以看出,对于高维单峰函数F1—F4,MIWOA算法在F1、F2和F3中成功找到了最优值0,这表明算法的局部搜索能力得到了显著增强。在F4测试函数中,MIWOA找到的最小值也小于其他3种算法,进一步证明其局部搜索能力的优势。对于高维多峰函数F5—F8,在F5测试函数中,MIWOA由于过早收敛而陷于局部最优。在F6和F7的测试函数中,虽然MIWOA的最小值与WOA算法相同,但其平均值更小,这表明MIWOA算法的稳定性得到了提升。在F8测试函数中,MIWOA找到的最小值达到最优值,这表明其具有较强的全局搜索能力。

为了更加直观地反映MIWOA的收敛性能,本研究给出了PSO、GWO、WOA和MIWOA对测试函数的收敛变化曲线,如图2所示。从图2中的收敛结果可知,对于高维单峰函数F1—F4和高维多峰函数F5—F8,MIWOA均能够在最短的迭代次数中寻找到目标函数的最优值或者接近目标函数的最优值,这说明MIWOA在收敛速度和寻优精度上均优于WOA。

图2 测试函数的收敛变化曲线<br/>Fig.2 Convergence change curves of test function

图2 测试函数的收敛变化曲线
Fig.2 Convergence change curves of test function

2 MIWOA-LSSVM方法用于生物质炭模式分类

为了考察本研究所构建MIWOA-LSSVM方法的性能,现将其用于多类别生物质炭的模式分类。同时,还将选择WOA-LSSVM和GWO-LSSVM方法建模,以作对照比较。

2.1 样本数据说明

从文献和试验中收集了容量n=274的生物质炭样本,每个样本个体的属性参数包括热解温度(℃)、产率(%)、灰分(%)、酸碱度、碳含量(%)、氢含量(%)、氧含量(%)、氮含量(%)和硫含量(%)等9个(含量均为质量分数),而其类别属性则根据原料来源的不同进行编码,具体为:作物秸秆类别标签记为1,样本数n1=85; 林业剩余物类别标签记为2,样本数n2=85; 畜禽粪便类别标签记为3,样本数n3=51和污水污泥类别标签记为4,样本数n4=53。由此,生物质炭样本数据为{X274×9,y274×1}。

由于数据样本X中有缺失值,这可能会导致模型的训练错误。为了避免这个问题,采用该类别的平均值来替代缺失值,这确保了连续的数据集。为了避免因输入变量的数值大小、量纲等不同而导致的计算误差,在建模前实施数据的标准化处理,即将样本数据的自变量阵X中每个属性自变量xj变换成均值为0、标准差为1的规范变量,以实现变量的等同化[18]。标准化的公式如下:

式(26)中:xj为原始数据; x^-j为该变量的均值; sj为该变量的标准差; x*j为标准化后的数据。

2.2 试验方式与性能评价指标

为了客观独立地评价MIWOA-LSSVM模型的分类效果,基于标准化后的样本数据进行分层采样(stratified sampling),随机选择70%作为训练样本Xtrain用于建模,其余30%作为测试样本Xtest用于检验。模型的性能评价指标,则选用准确率A(accuracy)、召回率R(recall)、精确率P(precision)和F1值,它们的计算公式分别如下:

式(27)~(30)中:TP是实际为正且预测为正的个数; FP是实际为负而预测为正的个数; TN是实际为负且预测为负的个数; FN是实际为正而预测为负的个数。

2.3 结果与分析2.3.1 MIWOA-LSSVM分类模型参数的寻优

如本文1.4节所述,LSSVM的分类性能受到惩罚因子γ和核函数参数g影响。设置初始化WOA算法的初始种群规模为5和迭代次数为50,LSSVM方法中核函数参数g的优化范围为[0.01,1],惩罚因子γ的优化范围为[1,100],不同惩罚因子和核函数参数情况下的分类准确率如图3所示。

图3 不同惩罚因子和核函数参数情况下的分类准确率<br/>Fig.3 Classification accuracy under different penalty factors and kernel function parameters

图3 不同惩罚因子和核函数参数情况下的分类准确率
Fig.3 Classification accuracy under different penalty factors and kernel function parameters

图3中可以发现,一方面,随着惩罚因子γ的增加,分类准确率A呈现出波动的增长趋势,但在惩罚因子γ超过50后,这种增长趋于平稳。在惩罚因子γ=58时,分类准确率达到其最大值。另一方面,随着核函数参数g的增加,分类准确率呈现出先上升后下降的趋势,并在核函数参数g=0.6时达到最大值。

MIWOA和WOA方法的适应度(1-A)值随迭代次数的变化趋势如图4所示。从图4中可以发现,相比WOA算法,MIWOA不仅可以搜索到更小的适应度值,而且仅需要7次迭代就得到了稳定的参数最优组合。

图4 MIWOA和WOA方法的适应度值随迭代次数的变化趋势<br/>Fig.4 Changing trend of fitness values with iterations in MIWOA and WOA methods

图4 MIWOA和WOA方法的适应度值随迭代次数的变化趋势
Fig.4 Changing trend of fitness values with iterations in MIWOA and WOA methods

2.3.2 MIWOA-LSSVM分类结果

在完成参数寻优后,基于测试样本验证MIWOA-LSSVM模型的分类效果。同时,选用GWO -LSSVM方法和WOA-LSSVM方法来做对比。表4展示了3种不同方法的生物质炭模式分类结果,涵盖了准确率A、召回率R、精确率P和F1值等关键指标,这些指标综合反映了模型的整体分类性能。而在表5 中,本文进一步展示不同类别生物质炭的识别准确率,以更全面地评估模型的分类效果。

表4 3种不同方法的生物质炭模式分类结果
Table 4 Pattern classification results of biochar at three different methods

表4 3种不同方法的生物质炭模式分类结果<br/>Table 4 Pattern classification results of biochar at three different methods

表4中可以看出,MIWOA-LSSVM算法不仅在分类准确率、召回率、精确率和F1值上均优于其他两种算法,而且运行时间更短。其中,与WOA-LSSVM算法相比,MIWOA-LSSVM算法的准确率、召回率、精确率和F1值分别提升了2.40、2.27、1.72和2.00百分点。由此说明,MIWOA算法具有更快的速度和更高的分类准确率,而基于搜索得到的最优惩罚因子γ和核函数参数g所构建的LSSVM模型,具有更高的分类性能。

不同类别生物质炭的识别准确率见表5,其中,MIWOA-LSSVM方法在林业剩余物、畜禽粪污、污水污泥的准确率上都是最高的,仅在作物秸秆的分类正确率上低于GWO-LSSVM方法,但同WOA-LSSVM方法相同。由于GWO-LSSVM方法存在过拟合,所以导致作物秸分类正确率较高,没有参考价值。因此,本研究提出的MIWOA-LSSVM模型,总体上拥有更优的分类性能。

表5 不同类别生物质炭的识别准确率
Table 5 Recognition accuracy of different types of biochar%

表5 不同类别生物质炭的识别准确率<br/>Table 5 Recognition accuracy of different types of biochar%

3 结 语

本研究针对传统鲸鱼优化算法WOA存在收敛速度慢、求解精度低、容易陷入局部最优等缺点,提出从种群初始化、搜索范围和位置更新三个方面对其改进的多策略鲸鱼优化算法MIWOA:采用Logistic混沌初始化以提高种群的多样性,引入非线性收敛因子和动态惯性权重以增强算法的全局搜索能力,施行具有长尾分布的Lévy飞行,以跳出局部最优解扩大搜索范围。为了验证MIWOA算法的实际性能,本研究将MIWOA算法集成最小二乘支持向量机LSSVM应用于多类别生物质炭的模式分类。

结果显示,MIWOA算法在对LSSVM模型中的惩罚因子和核函数参数进行寻优时表现出更快的速度和更高的分类准确率,而经过MIWOA优化后的LSSVM模型则取得了更高的分类准确率,达到了96.38%。对于不同类别的生物质炭识别,MIWOA-LSSVM方法在林业剩余物和污水污泥类别中准确率高达100%,在作物秸秆和畜禽粪污类别中也分别取得了92.30%和93.33%的准确率。这些结果综合证明了MIWOA改进方法的有效性,同时,这也表明生物质炭判别模型在实际应用中具有指导作用,不仅有助于选择合适的生物质炭原料,还可以指导生产工艺参数的设置和废弃生物质原料的配方管理,以确保生物质炭成品的质量满足要求。

参考文献