生物炭吸附As(III)和As(V)的机器学习预测方法
未命名
08-12
阅读:104
评论:0
生物炭吸附as(iii)和as(v)的机器学习预测方法
技术领域
1.本发明涉及预测方法技术领域,尤其涉及生物炭吸附as(iii)和as(v)的机器学习预测方法。
背景技术:
2.砷被认为是地下水中的一种持久性污染物,因其来源广泛、形式多样和毒性而日益受到关注。[as(iii)]和[as(v)]是饮用水中发现的最危险的无机as形式,它们含有剧毒性,会对全球造成重大影响。饮用水和地下水中砷浓度升高是一种普遍现象。因此,亟须寻求可持续的方法,以环保和经济的策略来治理砷污染水。
[0003]
生物炭为开发新型as去除策略提供了广阔的前景。由于生物炭原料广泛、成本低、易于生产、物理/化学表面性能良好、作为固定化解决方案对环境友好,以及在环境应用方面的优势,生物炭已被证明是一种很有前景的去除水中as的有效材料。因此,生物炭在砷污染水系统的修复中具有重要的应用价值。原始生物炭和改性生物炭种类繁多,其理化性质差异很大。它们的吸附能力受多种因素的影响,包括反应参数(例如,初始as浓度和吸附剂用量)、结构性质(如bet表面积和生物炭类型)、组成(例如,生物炭材料的热解温度和ph值)等。但多数研究仅研究了单因素对as吸附的影响,未进行多因素分析。吸附实验大多采用控制变量法,各影响因素对吸附效率的相对贡献尚不明确。此外,确定各种因素对吸附效率的相对贡献的方法不仅耗时、复杂且具有挑战性。因此,在生物炭吸附as的过程中哪些参数起主导作用的研究还存在较大的空白,限制了其在工业规模上的应用。
[0004]
机器学习是一门跨学科的学科,它可以处理和学习大量复杂和多维的数据,以开发预测模型。ml已广泛应用于许多研究中,包括生物炭对重金属和有机化合物的吸附、微污染物的氧化、生物质废弃物上的co2吸附、多孔碳、土壤重金属固定、地下水中的污染、地下水、地表水和饮用水水源的浓度。机器学习理论是关于设计和分析让计算机自动“学习”的算法。ml理论是关于设计和分析允许计算机自动“学习”的算法。ml算法能够自动分析已有数据的结构并挖掘规则,以对未知样本进行判断和预测。ml方法可以同时考虑最大可能的相关因素,并识别与目标的复杂相关性。为了更好地处理真实含砷水,有必要了解各个变量的相对重要性,以便调整正确的方向,提高吸附效率。
技术实现要素:
[0005]
有鉴于此,鉴于ml模型法在as吸附方面未被考虑的潜在优势,本发明提供的生物炭吸附as(iii)和as(v)的机器学习预测方法通过系统地利用ml模型预测在不同反应参数、结构性质和组成影响因素下,原始生物炭和改性生物炭对污染水中as(iii)和as(v)的吸附情况。三个ml模型,adaboost、lgboost和xgboost是性能良好的算法之一,这些模型在复杂和非线性过程中表现出了出色的预测和泛化性能。这些模型能够有效地构建变量之间的函数映射,避免过拟合,为相关变量分配无偏权重,并提供局部和全局预测,从而比随机森林具有竞争优势。
[0006]
为实现上述目的,本发明提供了如下的技术方案:
[0007]
生物炭吸附as(iii)和as(v)的机器学习预测方法,包括如下步骤:
[0008]
s1、数据收集
[0009]
其中,数据括反应参数、结构性质和组成;
[0010]
s2、数据可视化与预处理
[0011]
分别绘制箱线图和热力图用于变量的数据可视化和识别相关的输入变量;
[0012]
s3、机器学习模型的开发和建立,误差度量和shap分析
[0013]
选择ml模型中的adaboost、lgboost和xgboost用于预测生物炭中as(iii)和as(v)含量与反应参数、组成和结构性质的关系,并对与ml模型算法相关的参数进行优选以寻找最佳的超参数集合,采用模型-竞争方法确定输入变量的shap值,并结合博弈论方法构建以输入变量为特征的博弈,来评估它们对目标变量的贡献;
[0014]
s4、实验验证和测试。
[0015]
优选地,s1中,对收集的数据进行分析,以确定缺失值。
[0016]
优选地,s2中,反应参数包括as初始浓度、吸附剂用量、溶液ph、反应时间和反应温度;
[0017]
结构性质包括bet表面积、生物炭类型、孔隙体积和孔隙宽度/大小;
[0018]
组成包括热解温度、生物炭材料ph、灰分、c%、h%、n%、o%、s%和fe%。
[0019]
优选地,s3中,利用网格搜索方法,针对较大的输入空间,调整所考虑的ml模型的超参数。
[0020]
本发明相对于现有技术,具有如下的有益效果:
[0021]
1)本发明提供的生物炭吸附as(iii)和as(v)的机器学习预测方法通过系统地利用ml模型预测在不同反应参数、结构性质和组成影响因素下,原始生物炭和改性生物炭对污染水中as(iii)和as(v)的吸附情况。三个ml模型,adaboost、lgboost和xgboost是性能良好的算法之一,这些模型在复杂和非线性过程中表现出了出色的预测和泛化性能。这些模型能够有效地构建变量之间的函数映射,避免过拟合,为相关变量分配无偏权重,并提供局部和全局预测,从而比随机森林具有竞争优势。
[0022]
2)本发明为了解影响生物炭对水体中as吸附的最重要因素,以及这些因素如何提高生物炭对as的吸附能力提供了一个框架。发明建立的模型可以根据吸附剂和化合物的基本性质快速预测生物炭对无机as的吸附效率,同时减少了实验工作量,对于了解各参数的重要性,调整和完善实验方向,以及环境治理具有重要意义。因此,各变量对吸附效率的相对重要性可以为生物炭对as(iii)和as(v)的去除提供全面的认识,也可以为真实as污染的水环境提供指导。
[0023]
3)本发明提供的生物炭吸附as(iii)和as(v)的机器学习预测方法利用adaboost、lgboost和xgboost等机器学习(ml)模型,根据生物炭的组成、结构特性以及反应参数,预测as(iii)和as(v)的吸附效率。xgboost模型对as(iii)和as(v)的吸附效率具有较好的准确性和预测性能,as(iii)的r2=0.93,rmse=1.29,as(v)的r2=0.99,rmse=0.62。反应参数,特别是初始as(iii)、as(v)浓度和吸附剂用量对吸附的影响最大,分别占48%和66%。而生物炭的结构性质和组成对as(iii)和as(v)的吸附贡献分别为12%、40%和13%、21%。该预测模型得到了进一步的实验验证,从而为更好地处理水环境中的无机砷提供了宝贵的工
具。
附图说明
[0024]
图1为本发明的步骤顺序图;
[0025]
图2为输入变量和相应目标变量(即as(iii)或as(v))的输入空间的数据可视化示意图;
[0026]
图3展示了基于pcc构建的关于as(iii)和as(v)的输入变量的热图;
[0027]
图4为adaboost、lgboost和xgboost三种ml模型在as(iii)训练和测试数据集上的实际响应和模型预测响应构造的联合散点图;
[0028]
图5为adaboost、lgboost和xgboost在训练和测试阶段对as(v)的实际响应和模型预测响应的联合散点图;
[0029]
图6显示了基于shap分析的输入变量在生物炭上吸附as(iii)和as(v)的显著性顺序示意图;
[0030]
图7显示了生物炭对as(iii)和as(v)的吸附性质示意图。
具体实施方式
[0031]
下面对本发明的技术方案进行清楚、完整地描述;显然,所描述的具体实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式,基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0032]
本发明提供了生物炭吸附as(iii)和as(v)的机器学习预测方法,包括如下步骤:
[0033]
s1、数据收集
[0034]
其中,数据括反应参数、结构性质和组成;
[0035]
其中,数据收集具体为:
[0036]
图1描述了进行这项研究的步骤顺序。识别与目标变量相关的输入变量是第一步,应该仔细执行。输入的as(iii)和as(v)吸附效率以及目标变量的数据均来自相关文献。所选数据库为web ofscience核心合集,以关键词(主题)"砷"和"生物炭"检索文献。在过去十年中共确定了49篇出版物,从每篇文章中收集了变量的数据,随后将收集到的观察结果汇编在一个主文件中。数据直接从表格中获得,并在支持信息中提供,或在已发表的论文中使用webplotdigitizer(https://automeris.io/webplotdigitizer/)从图表中提取。在收集了所有研究文章的数据后,对提取的数据进行了仔细分析,以确定缺失值和其他问题。
[0037]
共挖掘出684个与吸附有关的as(iii)吸附数据点和549个as(v)吸附数据点。这些点具有相应的吸附性能,在原始和改性生物炭上共吸附了1233次as(iii)和as(v)。从而解决了与数据相关的问题,并获得了一个全面的数据集。为了模拟生物炭对as(iii)和as(v)的吸附过程,预测生物炭对as(iii)和as(v)的吸附能力,考虑了18个影响因素,分为三个部分:(i)反应参数,包括as初始浓度、吸附剂用量、溶液ph、反应时间和反应温度;(ii)结构性质,包括bet表面积、生物炭类型、孔隙体积和孔隙宽度/大小;(iii)组成,包括热解温度、生物炭材料ph、灰分、c%、h%、n%、o%、s%和fe%。
[0038]
s2、数据可视化与预处理
[0039]
数据可视化是ml模型开发研究中的一个重要步骤,它展示了变量在输入和输出空间中的数据分布。在变量的操作范围上的良好数据分布是可取的,因为它本质上表明对所调查的系统有足够的信息/知识。在本发明中,分别绘制箱线图和热力图用于变量的数据可视化和识别相关的输入变量;
[0040]
高度相关的变量对于ml模型开发来说是多余的,可能会导致模型表现不佳。因此,优选皮尔逊相关系数(pcc),皮尔逊相关系数(pcc)是一种很好的计算参数相关性的方法。
[0041]
pcc的数学表达式为:
[0042][0043]
其中,r
xy
为x(输入变量)与y(目标变量)之间的pcc值。
[0044]
pcc取值范围为-1~1。r
xy
=1表示变量之间具有很强的线性相关性,符号表示正相关或负相关。而,r
xy
=0表示变量之间没有相关性。
[0045]
s3、机器学习模型的开发和建立,误差度量和shap分析,具体为:
[0046]
优选三种基于树的建模算法,即ml模型中的adaboost、lgboost和xgboost用于预测生物炭中as(iii)和as(v)含量与反应参数、组成和结构性质的关系。
[0047]
当输入空间维度为5~15时,该算法在200~1000个点的数据集范围内表现良好。
[0048]
lgboost是梯度增强决策树(gbdt)的最新变体,克服了其在特征空间维度和数据集大小方面的限制。lgboost在预测和泛化性能方面优于gbdt。lgboost采用梯度增强单边采样和专有特征捆绑技术,在输入变量和目标变量之间建立有效的函数映射,确保提高计算资源利用率。
[0049]
xgboost也是gbdt的一个变体,由许多决策树组成。xgboost采用加权分位数搜索,其预测精度优于gbdt。adaboost是一种应用于分类和回归应用的决策树的自适应增强算法。该算法赋予预测误差(决策树桩)较高的树更多的权重,并在模型训练过程中调整它们的性能,使其收敛于最佳预测性能。
[0050]
为了使所考虑的系统具有良好的预测精度和泛化能力,需要对与ml建模算法相关的几个参数进行优选。参数空间是具体算法,现有技术中存在各种方法来寻找最佳的超参数集合,主要采用网格搜索、随机搜索、手工搜索和贝叶斯优化技术对超参数进行优化。网格搜索法是一种对参数空间进行系统探索的方法,以确定ml模型算法所对应超参数的最佳组合。
[0051]
在本发明中,利用网格搜索方法,针对较大的输入空间,调整所考虑的ml模型的超参数。
[0052]
构建了一个性能指标来评估和比较所开发的ml模型算法的效果。
[0053]
其中,性能指标包括决定系数(r2)和均方根误差(rmse)项。r2和rmse的数学表达式为:
[0054][0055]
[0056]
其中,yi和分别对应目标变量的实际值和模型预测值;是为yi(i=1,2,3,
…
,n)的平均值,等于观测总数。r2是一种衡量机器学习模型预测精度的指标,从0(预测性能差)到1(输入变量和目标变量之间的完美映射)不等。而rmse度量的是给定数据集的实际响应和模型预测响应之间的误差。
[0057]
在开发一个性能良好的ml模型之后,评估输入变量对输出的重要性是下一个逻辑步骤。为此,现有技术中公开了各种进行特征重要性分析的方法。采用模型-竞争方法确定输入变量的shap(shapleyadditive explanations)值,并结合博弈论方法构建以输入变量为特征的博弈,来评估它们对目标变量的贡献。基于所选择的数据集数组或在分析期间部署完整的数据集,shap方法可以同时提供局部和全局灵敏度结果。从而计算输入变量的shap值,并制定输入变量的显著性顺序。重要输入变量的确定对于理解并优化实验室规模的指导实验或工业水平的过程优化非常重要。
[0058]
s4、实验验证和测试。
[0059]
为了测试ml对as(iii)和as(v)的吸附效果和实用性,分别进行了30个系列的实验。在该实验数据上拟合了性能最佳的ml模型,并将其对as(iii)和as(v)吸附的预测与实际实验观测值进行了比较。
[0060]
实验过程具体如下:
[0061]
使用亚砷酸钠(naaso2;sigma,usa)和砷酸氢二钠(na2haso4·
7h2o;sigma,usa)分别制备as(iii)和as(v)溶液。榴莲壳收集自中国广东省广州市的水果店。使用milli-q水清洗榴莲壳的杂质,然后在80℃的烤箱中干燥48h。将干燥的榴莲壳用粉碎机粉碎,转移到取样杯中,干燥后作为生物炭合成的原料储存。榴莲壳粉在n2(600cm3min
–1)气氛的管式炉(agile-te050,germany)中以5℃/min的速度加热至500℃,持续3小时。所得的生物炭经过研磨,即为原始生物炭(bc)。再将0.5g bc、6.44g zrocl2·
8h2o(0.04mol)、7.84gfecl2·
4h2o放入200ml的烧杯中,再加入100ml milli-q水。在25℃下搅拌均匀,用naoh和hcl调节ph至6.5,在70℃下500rpm的磁力搅拌24h。将得到的混合物以10,000rpm和4℃离心15分钟,并用milli-q水清洗。这一过程重复五次,以去除多余的表面杂质。将清洗后的混合物冷冻干燥,并在冷冻干燥机中研磨,而后过用200筛网过筛,即为fezro-bc。
[0062]
本实验选择fezro-bc在不同的外部条件下吸附as(iii)或as(v),包括溶液ph、反应温度、吸附剂用量(g/l)、初始as浓度(mg/l)、反应时间(h)。在本实验中,反应体系为20ml,用naoh和hcl调节溶液ph。反应温度由恒温振荡器(maxq-4450,thermo,usa)控制。用milli-q水将标准溶液(10000mg/l)稀释至不同浓度。吸附剂用量(g/l)由fezro-bc的质量(g)控制。根据实验条件,在50ml玻璃瓶中加入一定量的fezro-bc,并加入as(iii)或as(v)溶液(20ml)。用盖子将瓶子密封,并将其置于恒温振荡器中,在不同的温度下,以150转/分的速度摇晃。根据实验设置设置采样时间点。每个实验设3个重复。
[0063]
当as(iii)和as(v)两个目标变量的数据集编译完成后,变量的数据分布空间以箱形图的形式呈现出来。箱形图是一种可视化数据分布的有效方法,因为它直观地总结了数据集中的变化。图2显示了输入变量和相应目标变量(即as(iii)或as(v))的输入空间的数据可视化。数据集中有一些变量存在异常值。然而,在数据集的25%-75%的百分位数内,数据分布的密度相当大。
[0064]
输入变量之间的线性相关性对于在为ml模型的开发提供数据集之前进行诊断非
常重要。它便于识别系统的独立控制变量。因此,可以在目标和相关输入变量之间构建一个精确的映射。图3展示了基于pcc构建的关于as(iii)和as(v)的输入变量的热图,分别由红色和绿色表示。除o%和as(iii)之间的pcc值外,在as(iii)和as(v)的变量之间测量的pcc值约为-0.5~0.5。弱pcc表示参数独立性,有助于选定相关输入变量。因此,每个输入变量在与目标变量建立关系方面都有自己的贡献。就输入变量中较弱的pcc值的物理解释而言,这表明可以针对不同的输入变量独立设置工艺条件。需要注意的是,基于ml的建模算法在更好的泛化和独立输入变量的良好预测性能方面工作良好。因此,对于as(iii)和as(v),保留了具有弱pcc值的所有输入变量,以便在目标变量和识别的输入变量(与过程相关并由领域知识支持)之间建立ml驱动的函数映射。
[0065]
模型性能。基于数据采集、可视化和处理部分提供的数据集,开发了adaboost、lgboost和xgboost三种基于树的ml算法来预测as(iii)和as(v)的浓度。图4为adaboost、lgboost和xgboost三种ml模型在as(iii)训练和测试数据集上的实际响应和模型预测响应构造的联合散点图。仔细比较三种模型的性能矩阵,可以发现xgboost相比于adaboost和lgboost具有较好的性能优点。在adaboost、lgboost和xgboost的训练和测试过程中,r2的值(被称为准确性度量)分别为0.74和0.64、0.90和0.84以及0.93和0.88。显然,与其他模型相比,xgboost在对收集到的数据集进行as(iii)浓度预测时表现出了优异的性能,测试阶段的rmse最低为1.40。
[0066]
同样,adaboost、lgboost和xgboost在训练和测试阶段对as(v)的实际响应和模型预测响应的联合散点图如图5所示。比较三个模型的性能指标,发现这些模型在用于衡量其预测性能的优秀性能指标方面具有相当的竞争力。xgboost对训练数据集的预测性能优于adaboost和lgboost,其r2值最大(0.99),rmse最小(0.62)。同样,xgboost在测试阶段表现出了相当的性能,r2=0.97,rmse=3.51。这里需要指出的是,尽管lgboost略微改进了训练数据集的rmse,但该模型在实验验证测试中表现较差。因此,保留xgboost模型进行后续分析。
[0067]
经过训练的模型对训练和测试数据集的出色表现表明了观测数据之间过拟合的可能性。过度拟合是指模型以捕获噪声和随机波动的方式对数据集上的曲线进行拟合,从而损害了其对不可见输入条件的预测性能。因此,模型发展过程泛化的能力受到了负面影响。针对这一问题,本研究采用k-fold交叉验证(cv)技术。在k-fold cv方法中,将数据集分为k个子集(本研究中k=5),其中一个k子集用于验证模型在k-1训练数据集上的每次迭代的训练有效性。对所有k次试验的预测精度进行平均,以实现模型的广义训练,并解决偏差-方差权衡问题。由表1可知,对于adaboost、lgboost和xgboost模型,k-fold方法的r2值与测试r2的接近程度可以有效地解决过拟合问题。值得注意的是,xgboost的as(v)r2_cv为0.92,高于adaboost和lgboost,证实了该模型较其他两种模型具有更好的预测灵活性。
[0068]
确定的输入变量对as(iii)和as(v)吸附的意义。基于数据构建的ml模型是系统的函数近似。因此,一个训练良好、具有良好预测和泛化能力的模型,对于深入了解系统的基础物理以及识别影响过程的重要输入变量至关重要。为此,进行基于shap分析的特征重要性分析。由于xgboost模型在as(iii)和as(v)的输入变量建模方面表现出色,因此,将所开发的模型部署在shap的分析框架内,用于识别过程的重要输入变量。图6显示了基于shap分析的输入变量在生物炭上吸附as(iii)和as(v)的显著性顺序。
[0069]
as在生物炭上的吸附不仅与生物炭本身的特性有关,还与环境条件、金属性质和初始浓度有关。首先,反应参数对生物炭体系的吸附效率有重要影响,初始as(iii)和as(v)浓度是影响其对生物炭吸附最显著的输入变量。以往的研究也证明了初始金属浓度对吸附性能有显著影响。其次,组分c%是影响其在生物炭上吸附的第2个[as(iii)]和第3个[as(v)]输入变量。生物炭中c的含量随着热解温度的升高而增加,说明温度越高的生物炭具有越强的顽固性c,其表面负性越大,表现出较高的重金属固定化性能。生物炭中c含量是预测固定化效率的重要指标,在特性的重要性中排名第三。第三,结构性质,孔隙体积是as(iii)吸附的第五大输入变量。增加的表面积和孔体积可以允许我们扩散到生物炭孔中,并在生物炭表面上提供更多的as位点以结合as离子。
[0070]
反应参数、溶液ph值是影响as(v)吸附效率的第四大因素。很少有研究表明,无论ph值如何,生物炭的应用都能有效吸附as(iii)和as(v)。适当的吸附条件,包括溶液的ph值和温度,也是吸附性能的关键。溶液ph值可能会改变生物炭表面的电荷分布和离子交换容量,从而影响重金属在表面的吸附或沉淀。在碱性条件下,由于静电排斥的负面影响,mno2/稻壳生物炭对as(iii)和as(v)的去除能力显著低于酸性和中性条件下的去除能力。在一定的ph范围内,生物炭表面可以同时携带正负电荷,但ph
pzc
以上的表面为净负电荷,ph
pzc
以下的表面为净正电荷。溶液ph值的变化会改变羰基、羟基和氨基等官能团的络合行为,ph值的增加会导致羰基脱质子化,从而有效地与带正电荷的金属络合。因此,在生物炭吸附无机as过程中,初始as(iii)和as(v)浓度、c%、吸附剂用量、溶液ph、h%和孔隙体积等因素起主要作用。
[0071]
输入变量的shap值表示该变量对目标变量的显著性。由于生物炭对as(iii)和as(v)吸附的模拟包括了不同类型的输入变量,因此研究与输入变量相关的性质的百分比贡献至关重要。初始as浓度、吸附剂用量、溶液ph、反应时间和反应温度与反应参数相对应。生物炭的结构性质可分为bet比表面积、生物炭类型、孔隙体积和孔隙宽度/大小。其余的输入变量被分类为生物炭的组成。其余的输入变量分类为生物炭的组成。图7显示了生物炭对as(iii)和as(v)的吸附性质。反应参数是影响as去除过程的最重要参数,分别占as(iii)和as(v)的48%和66%。而生物炭的结构性质和组成对as(iii)和as(v)的去除分别有12%和40%,13%和21%的贡献。
[0072]
开发模型的实验验证。本研究报告的ml模型主要是基于文献数据,在给定输入变量的条件下,预测as(iii)和as(v)的浓度。然而,在当地实验室条件下对所开发的ml模型进行实验验证,对于确认其预测有效性,从而克服其应用于实际作业的障碍具有重要意义。因此,广义ml模型可用于各种实验室研究任务的预测分析,也可用于工业环境,从而为ml模型在现实生活中的应用铺平道路。
[0073]
为此,通过实验收集了as(iii)和as(v)在不同反应条件下的数据。收集并汇编了实验数据集。实验数据见补充资料表s5。随后,将数据用于评估所开发的xgboost模型对as(iii)和as(v)的预测性能。首先,在开发的xgboost模型上测试as(iii)的实验验证数据集,并观察到较差的r2。仔细分析了as(iii)的xgboost模型的不良预测性能,发现实验数据集的as(iii)吸附范围与训练数据集的吸附范围大不相同。因此,只有文献数据集不足以建立一个灵活、准确的as(iii)模型。为了解决这个问题,对as(iii)的训练数据集进行了扩充,增加了106个新实验数据的观测值,并在扩充数据集上重新训练xgboost。随后,在实验数据
集上测试了该模型。结果发现,重新训练的xgboost在实验验证数据集上表现出更好的预测性能,r2值为0.9,rmse为6.50。在相关研究中也遇到了类似的观察结果。
[0074]
同样,开发的as(v)的xgboost模型也进行了实验验证,并用于预测实验室收集的实验验证数据集。实验验证数据集的操作范围与训练数据集相当。由此可见,xgboost模型对实验验证数据集的预测表现良好,r2=0.84,rmse=8.90。这两个模型不仅很好地预测了开发过程中的训练和测试数据集,而且在本课题组的实验数据中对as(iii)和as(v)浓度的预测也有很好的效果。因此,该模型可集成到相关环境中预测as(iii)和as(v)浓度,并可在各种实际应用中发挥作用。通过建模和验证,我们的ml模型强调了每个因素对无机砷吸附的相对重要性。这有利于全面了解整个工艺过程,在各种条件下实现as在污染水中的最大吸附效率,从而实现更好的应用。这项研究表明,能够用大数据集管理复杂问题的ml方法可以成为昂贵和耗时的砷污染水处理实验过程的一种负担得起的替代方案。
[0075]
环境影响。水中的砷是严重影响人体健康的危险成分。应用生物炭吸附污染水体中的as(iii)和as(v)在日常生活中具有重要意义,为经济和环境带来共同效益。然而,as(iii)和as(v)的吸附效率取决于许多因素,如反应参数、结构性质和组成。在本研究中,ml模型几乎囊括了影响生物炭对无机as吸附的因素,因此可以综合评价生物炭对水中无机as的吸附。设计并评估了三种基于ml的模型,即adaboost、lgboost和xgboost,以预测原始和改性生物炭对无机as吸附的性能。
[0076]
ml模型可以高精度地预测生物炭在水溶液中对as的吸附效率,as(iii)的r2=0.93,rmse=1.29;as(v)的r2=0.99,rmse=0.62。基于本研究提出的模型,反应参数(as(iii)、as(v)初始浓度、吸附剂用量、反应时间、溶液ph)、结构性质(孔隙体积)、生物炭组成(c%、h%)可以有效控制水中as(iii)、as(v)的吸附效率,以保证饮用水和地下水的水质。初始浓度是反应参数中最重要的影响因素,而bet表面积不明显。因此,本研究建立了一个简单易用的水基吸附模型,这也为水基吸附的预测建模提供了强有力的依据。它能有效地应用于砷污染水,对改善水质具有重要意义。
[0077]
以上仅就本发明的最佳实施方式作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施方式,其具体结构允许有变化。凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明保护范围内。
技术特征:
1.生物炭吸附as(iii)和as(v)的机器学习预测方法,其特征在于,包括如下步骤:s1、数据收集其中,数据包括反应参数、结构性质和组成;s2、数据可视化与预处理分别绘制箱线图和热力图用于变量的数据可视化和识别相关的输入变量;s3、机器学习模型的开发和建立,误差度量和shap分析选择ml模型中的adaboost、lgboost和xgboost用于预测生物炭中as(iii)和as(v)含量与反应参数、组成和结构性质的关系,并对与ml模型算法相关的参数进行优选以寻找最佳的超参数集合,采用模型-竞争方法确定输入变量的shap值,并结合博弈论方法构建以输入变量为特征的博弈,来评估它们对目标变量的贡献;s4、实验验证和测试。2.根据权利要求1所述的生物炭吸附as(iii)和as(v)的机器学习预测方法,其特征在于,s1中,对收集的数据进行分析,以确定缺失值。3.根据权利要求1所述的生物炭吸附as(iii)和as(v)的机器学习预测方法,其特征在于,s2中,反应参数包括as初始浓度、吸附剂用量、溶液ph、反应时间和反应温度;结构性质包括bet表面积、生物炭类型、孔隙体积和孔隙宽度/大小;组成包括热解温度、生物炭材料ph、灰分、c%、h%、n%、o%、s%和fe%。4.根据权利要求1-3中任一项所述的生物炭吸附as(iii)和as(v)的机器学习预测方法,其特征在于,s3中,利用网格搜索方法,针对较大的输入空间,调整所考虑的ml模型的超参数。
技术总结
本发明提供了生物炭吸附As(III)和As(V)的机器学习预测方法,属于预测方法技术领域。本发明包括如下步骤:S1、数据收集;S2、数据可视化与预处理;S3、机器学习模型的开发和建立,误差度量和SHAP分析;S4、实验验证和测试。本发明过系统地利用ML模型预测在不同反应参数、结构性质和组成影响因素下,原始生物炭和改性生物炭对污染水中As(III)和As(V)的吸附情况。三个ML模型,AdaBoost、LGBoost和XGBoost是性能良好的算法之一,这些模型在复杂和非线性过程中表现出了出色的预测和泛化性能。这些模型能够有效地构建变量之间的函数映射,避免过拟合,为相关变量分配无偏权重,并提供局部和全局预测,从而比随机森林具有竞争优势。从而比随机森林具有竞争优势。从而比随机森林具有竞争优势。
技术研发人员:张伟 熊竹 张鸿郭 张高生 张鹏 王龙
受保护的技术使用者:广州大学
技术研发日:2023.05.10
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种装配式建筑板材构件运送设备 下一篇:一种基于高光谱成像技术的高粱品种识别方法
