区域农作物产量估算方法、系统、设备及存储介质与流程
未命名
10-09
阅读:107
评论:0
1.本技术涉及农业遥感监测技术领域,特别涉及一种区域农作物产量估算方法、系统、设备及存储介质。
背景技术:
2.及时、准确地估算区域作物产量对于指导农业生产、保障粮食安全具有重要意义。随着卫星遥感和农业信息化技术的不断发展,农业数据规模呈爆发式增长,耦合多源遥感和地面调查数据的物理或统计模型已成为估算区域作物产量的重要方法。相较于描述作物生长发育过程的物理过程模型,数据驱动的机器学习模型具有简洁高效的模型结构和强大的非线性拟合优势,近年来被广泛应用于农田产量模拟研究。常用的机器学习模型包括随机森林模型(random forest,简称rf),人工神经网络模型(artificial neural network,简称ann),支持向量回归机模型(support vector regressor,简称svr)和极限梯度提升树模型(extreme gradient boosting,简称xgb)等。
3.机器学习模型不对数据分布或变量间相互关系作任何假设,直接从训练数据中学习作物产量和多个预测变量之间的复杂关联,一般具有较高的模拟精度。不过,模型的无偏估计是从“模拟误差之和接近于零”这一层面而言,而对于模拟的产量分布,机器学习模型往往会呈现“低值区高估”和“高值区低估”现象,这里定义为“双尾误差”。已有研究通常满足于模型总体的无偏估计,而忽略了这种双尾误差。但对于区域产量估算而言,正确地模拟产量双尾分布至关重要。比如,准确识别低产区域才能精准指导农户生产管理、改善种植环境,从而达到切实提高作物产量的目的;准确估算区域作物高产则有助于制定合理的区域高产目标,确定作物生产潜力,从而为粮食安全政策的制定提供可靠的科学依据。
4.目前双尾误差的校正方法主要包括回归法和机器学习残差模型法。其中,回归法操作相对简单,但其仅仅为模拟值和观测值之间的线性拟合,当模拟值较为离散、拟合效果欠佳时,校正值与观测值之间差距仍然较大,低估值仍然高估、高估值仍然低估,校正效果并不明显。而训练另外一个机器学习模型来学习原模型的模拟残差往往会出现过度拟合现象,即,在训练过程中,训练数据中的双尾误差和内含噪声都被完全学习下来,导致残差模型过于紧密地拟合了训练数据,无法很好地泛化至独立的验证数据集,校正后的产量模拟值不够理想。
技术实现要素:
5.鉴于此,有必要针对现有技术存在的校正不足和过拟合问题技术缺陷提供一种校正相对完全且泛化能力强的区域农作物产量估算方法、系统、设备及存储介质。
6.为解决上述问题,本技术采用下述技术方案:
7.本技术目的之一,提供了一种区域农作物产量估算方法,包括下述步骤:
8.采用随机森林模型对区域内农作物产量进行预训练模拟;
9.利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正;
10.采用校正后随机森林模型进行区域作物产量预测。
11.在其中一些实施例中,在采用随机森林模型对区域内农作物产量进行预训练模拟的步骤中,具体包括下述步骤:
12.收集区域内农作物生长数据;
13.根据所述生长数据构建特征变量空间;
14.根据所述特征变量空间建立随机森林模型,并对所述随机森林模型进行预训练验证。
15.在其中一些实施例中,在收集区域内农作物生长数据的步骤中,所述生长数据包括产量数据、时序变量数据及静态参数数据,所述时序变量数据包括气象变量、遥感植被变量、土壤变量及生理过程变量,所述气象变量包括气温、降水及太阳辐射,所述遥感植被变量包括增强型植被指数及归一化植被指数,所述土壤变量包括土壤温度及土壤含水量,所述生理过程变量包括潜热通量、显热通量、冠层蒸腾及潜在蒸发,所述静态参数数据包括生长环境参数,所述生长环境参数包括高程、纬度及土壤理化性质。
16.在其中一些实施例中,在根据所述生长数据构建特征变量空间的步骤中,具体包括下述步骤:
17.以16天为步长,对所述时序变量数据与所述产量数据进行了动态相关性分析,以确定其中的最相关变量及最相关时间区间;
18.以年为单位,对所述生长环境参数与各年份作物产量数据进行静态相关性分析;
19.选择皮尔森相关系数大于0.2的变量构建所述特征变量空间,其中相关系数计算公式如下:
[0020][0021]
式中:n为作物种植县总数,vi为县域i对应的特征变量均值,xi为县域i的作物统计产量,和分别表示所有县域的特征变量和统计产量均值。
[0022]
在其中一些实施例中,在根据所述特征变量空间建立随机森林模型,并对所述随机森林模型进行预训练验证步骤中,具体包括下述步骤:
[0023]
根据所述特征变量空间构建随机森林模型;
[0024]
利用留一交叉验证方法对所述随机森林模型进行训练验证。
[0025]
在其中一些实施例中,在利用旋转校正算法对所述随机森林模型存在的显著双尾误差进行校正的步骤中,具体包括下述步骤:
[0026]
在模型训练步骤中,对所述随机森林模型的训练结果进行线性拟合,得到线性回归函数(y=ax+b)用以量化训练过程中模型存在的双尾偏差,进而将模拟结果p
t
(x
0,t
,y
0,t
)(其中:x,y分别表示县域统计产量和随机森林模型模拟产量集合,a,b为拟合的回归系数,p
t
表示训练数据集中某县在散点验证图中对应的一个特定散点,x
0,t
和y
0,t
分别表示该县的统计和模拟产量);沿回归线(y=ax+b)与1:1线(y=x)的交点c(xc,yc)旋转校正到1:1线,得到校正后的模型训练结果p
′
t
(x
r,t
,y
r,t
)(其中:xc,yc分别表示交点c在散点验证图中对应的横坐标和纵坐标,即统计和模拟产量,校正后p
t
点对应的散点坐标,其中:y
r,t
即为校正后产量)。
[0027]
在其中一些实施例中,在模型预测步骤中,利用训练过程中得到的线性回归函数,将所述随机森林模型的模拟结果以同样的方式沿c点旋转校正到1:1线,得到校正后的产量预测结果y
r,v
,具体包括下述步骤:
[0028]
假设pv点应位于所拟合的回归直线(y=ax+b)上,求取pv点的横坐标x
0,v
,将其绕c(xc,yc)点旋转,得到校正后的产量预测结果y
r,v
,其中:
[0029]
x
0,v
=(y
0,v-b)/a、yc=xc=b/(1-a)、
[0030]yr,v
=(x
0,v-xc)
·
sinα+(y
0,v-yc)
·
cosα+y
c,v
;
[0031]
其中:pv为某县对应的验证散点,其纵坐标y
0,v
为随机森林模型预测得到的作物产量已知;而横坐标x
0,v
为该县的统计产量,在预测步骤中未知。xc,yc为回归直线与1:1线的交点对应的横纵坐标,α为回归直线与1:1线的夹角,y
r,v
表示校正后的产量预测结果。
[0032]
本技术目的之二,提供了一种区域农作物产量估产系统,包括:
[0033]
预训练模块,采用随机森林模型对区域内农作物产量进行预训练模拟;
[0034]
校正模块,利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正;
[0035]
预测模块,采用校正后随机森林模型进行区域作物产量预测。
[0036]
在其中一些实施例中,所述预训练模块包括:
[0037]
数据采集单元,用于收集区域内农作物生长数据;
[0038]
特征构建单元,用于根据所述生长数据构建特征变量空间;
[0039]
训练单元,用于根据区域内农作物生长数据构建随机森林模型,并对所述随机森林模型进行训练。
[0040]
本技术目的之三,提供了一种设备,所述设备包括处理器、与所述处理器耦接的存储器,其中,
[0041]
所述存储器存储有用于实现所述的区域农作物产量估算方法的程序指令;
[0042]
所述处理器用于执行所述存储器存储的所述程序指令以实现区域农作物产量估产。
[0043]
本技术目的之四,提供了一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述区域农作物产量估算方法。
[0044]
本技术采用上述技术方案,其有益效果如下:
[0045]
本技术提供的区域农作物产量估算方法、系统、设备及存储介质,采用旋转校正算法对随机森林估产模型误差进行校准,通过校正后所述随机森林模型对区域内农作物的产量进行估产预测,与现有的回归校正算法和机器学习校正算法相比,本技术提出的旋转校正算法对线性拟合的回归模型进行了进一步的旋转校正,以提升其对低值/高值区的校正效果;而相比于叠加一个机器学习误差模型,它具有更强的泛化能力,避免了使用过于复杂的机器学习模型在训练时产生的过拟合现象,具有更好的校正效果和更广泛的适用性。
附图说明
[0046]
为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本技术的
一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0047]
图1为本发明实施例1提供的区域农作物产量估算方法的步骤流程图;
[0048]
图2为本发明实施例1提供的区域农作物产量估算方法的原理示意图;
[0049]
图3为本发明实施例1提供的旋转校正步骤流程示意图;
[0050]
图4为本发明实施例1提供的对比校正前后的模型训练与预测结果示意图;
[0051]
图5为本发明实施例2提供的区域农作物产量估算方法的结构示意图;
[0052]
图6为本发明实施例3提供的设备结构示意图;
[0053]
图7为本发明实施例4提供的存储介质结构示意图。
具体实施方式
[0054]
下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0055]
在本技术的描述中,需要理解的是,术语“上”、“下”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
[0056]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0057]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。
[0058]
实施例1
[0059]
请参阅图1及图2,为本实施例提供的区域农作物产量估算方法的步骤流程图及原理示意图,包括下述步骤s110至步骤s120,以下详细说明各个步骤的实现方式。
[0060]
步骤s110:采用随机森林模型对区域内农作物产量进行预训练模拟。
[0061]
在本实施例中,采用随机森林模型对区域内农作物进行产量预测的步骤中,具体包括下述步骤s111至步骤s112。
[0062]
步骤s111:收集区域内农作物生长数据。
[0063]
具体地,所述生长数据包括产量数据、时序变量数据及静态参数数据,所述时序变量数据包括气象变量、遥感植被变量、土壤变量及生理过程变量,所述气象变量包括气温、降水及太阳辐射,所述遥感植被变量包括增强型植被指数及归一化植被指数,所述土壤变量包括土壤温度及土壤含水量,所述生理过程变量包括潜热通量、显热通量、冠层蒸腾及潜在蒸发,所述静态参数数据包括生长环境参数,所述生长环境参数包括高程、纬度及土壤理化性质。
[0064]
在本实施例中,收集2006
–
2016年东北三省(黑龙江、吉林、辽宁)的县级水稻统计产量数据,同时下载与水稻产量形成密切相关的时序变量数据,包括:
①
气象变量(气温、降
水、太阳辐射)、
②
遥感植被变量(增强型植被指数evi,归一化植被指数ndvi)、
③
土壤变量(土壤温度,土壤含水量)、
④
生理过程变量(潜热通量,显热通量,冠层蒸腾与潜在蒸发等)等时序变量;以及静态参数数据,包括
⑤
生长环境参数(高程,纬度,土壤理化性质)等静态参数数据。
[0065]
步骤s112:根据所述生长数据构建特征变量空间。
[0066]
在本实施例中,在根据所述生长数据构建特征变量空间的步骤中,具体包括:以16天为步长,对所述时序变量数据与所述产量数据进行了动态相关性分析,以确定其中的最相关变量及最相关时间区间;以年为单位,对所述生长环境参数与各年份作物产量数据进行静态相关性分析;选择皮尔森相关系数大于0.2的变量构建所述特征变量空间。
[0067]
其中相关系数计算公式如下:
[0068][0069]
式中:n为作物种植县总数,vi为县域i对应的特征变量均值,xi为县域i的作物统计产量,和分别表示所有县域的特征变量和统计产量均值。
[0070]
步骤s113:根据所述特征变量空间建立随机森林模型,并对所述随机森林模型进行预训练验证。
[0071]
可以理解,现有机器学习估产模型往往忽略了因样本分布代表性不足造成的双尾误差,导致模型存在低产高估、高产低估的显著双尾误差。
[0072]
在本实施例中,采用随机森林模型,利用留一交叉验证方法对随机森林模型进行预训练验证,即在针对某一年份进行产量预测时,该年份的县级统计产量数据仅用于模型验证,而其余年份数据用于模型训练。
[0073]
步骤s120:利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正。
[0074]
可以理解,由于现有机器学习估产模型往往忽略了因样本分布代表性不足造成的双尾误差,导致模型存在低产高估、高产低估的显著双尾误差,本实施例针对此问题,提出了双尾误差旋转校正算法,以纠正模型偏差、提升模型精度。
[0075]
请参阅图3,为本实施例提供的旋转校正步骤流程示意图,具体如下:
[0076]
在模型训练步骤中,对所述随机森林模型的训练结果进行线性拟合,得到线性回归函数(y=ax+b)用以量化训练过程中模型存在的双尾偏差,进而将模拟结果p
t
(x
0,t
,y
0,t
)(其中:x,y分别表示县域统计产量和随机森林模型模拟产量集合,a,b为拟合的回归系数,p
t
表示训练数据集中某县在散点验证图中对应的一个特定散点,x
0,t
和y
0,t
分别表示该县的统计和模拟产量);沿回归线(y=ax+b)与1:1线(y=x)的交点c(xc,yc)旋转校正到1:1线,得到校正后的模型训练结果p
′
t
(x
r,t
,y
r,t
)其中:xc,yc分别表示交点c在散点验证图中对应的横坐标和纵坐标,即统计和模拟产量,校正后p
t
点对应的散点坐标,其中:y
r,t
即为校正后产量,详见图3中(一)模型训练与校正;
[0077]
在模型预测步骤中,利用训练过程中得到的线性回归函数,将所述随机森林模型的模拟结果以同样的方式沿c点旋转校正到1:1线,得到校正后的产量预测结果y
r,v
,y
r,v
表示校正后的产量预测结果,详见图3中(二)模型预测与校正)。
[0078]
需要说明的是,预测步骤中的观测产量是未知的,即pv点对应的x
0,v
坐标未知,因此我们无法直接旋转pv点,须先假设pv点应位于校准步骤所拟合的回归直线(y=ax+b)上,求取pv点的横坐标x
0,v
(式1),将其绕c(xc,yc)点旋转(c点坐标计算见式2,旋转过程见式3
–
4),得到校正后的产量预测结果y
r,v
。
[0079]
x
0,v
=(y
0,v-b)/a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0080]
yc=xc=b/(1-a)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0081][0082]yr,v
=(x
0,v-xc)
·
sinα+(y
0,v-yc)
·
cosα+y
c,v
ꢀꢀꢀꢀꢀ
(4)
[0083]
其中:某县对应的验证散点,其纵坐标y
0,v
为随机森林模型预测得到的作物产量已知;而横坐标x
0,v
为该县的统计产量,在预测步骤中未知,x
0,v
为验证数据集中某县的统计产量,y
0,v
为随机森林模型预测产量,xc,yc为回归直线与1:1线的交点对应的横纵坐标,y
r,v
表示校正后的产量预测结果。
[0084]
步骤s130:采用校正后随机森林模型进行区域作物产量预测。
[0085]
通过上述校正后,再对比校正前后的模型训练与预测结果,验证模型精度及区域适用性。
[0086]
请参阅图4,为本实施例提供的对比校正前后的模型训练与预测结果示意图。
[0087]
可以理解,在模型训练步骤中,利用训练集中的农作物统计产量,对模型模拟值进行回归拟合,得到线性回归函数,量化模型偏差,进而将线性回归函数旋转至1:1线,实现对模型双尾误差的纠偏;将校正后模型应用到预测步骤,估算农作物产量,实现农作物产量的无偏估计。
[0088]
本技术实施例1提供的区域农作物产量估产方法,与现有的回归校正算法和机器学习校正算法相比,本技术提出的旋转校正算法对线性拟合的回归模型进行了进一步的旋转校正,以提升其对低值/高值区的校正效果;而相比于叠加一个机器学习误差模型,它具有更强的泛化能力,避免了使用过于复杂的机器学习模型在训练时产生的过拟合现象,具有更好的校正效果和更广泛的适用性。
[0089]
实施例2
[0090]
请参图5,为本技术实施例2提供的所述的区域农作物产量估产系统的结构示意图,包括预训练模块10、校正模块20及预测模块30,以下详细说明各个模块的实现方式。
[0091]
预训练模块10采用随机森林模型对区域内农作物进行预训练模拟。
[0092]
在本实施例中,所述预训练模块10包括:
[0093]
数据采集单元11,用于收集区域内农作物生长数据;
[0094]
特征构建单元12,用于根据所述生长数据构建特征变量空间;
[0095]
训练单元13,用于根据区域内农作物生长数据构建随机森林模型,并对所述随机森林模型进行训练和验证。
[0096]
校正模块20利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正,预测模块30采用校正后随机森林模型进行区域作物产量预测。
[0097]
本实施例提供的区域农作物产量估产系统,其详细的实现方式可参见实施例1,这里不再赘述。
[0098]
本技术实施例2提供的区域农作物产量估产系统耦合了基于旋转校正的误差修正模块,与现有的回归校正算法和机器学习校正算法相比,本技术提出的旋转校正算法对线性拟合的误差回归模型进行了进一步的旋转校正,以提升其对低值/高值区误差的校正效果。
[0099]
实施例3
[0100]
请参阅图6,为本技术实施例的设备结构示意图。该设备50包括处理器51、与处理器51耦接的存储器52。
[0101]
存储器52存储有用于实现上述三网信息融合与检索系统的程序指令。
[0102]
处理器51用于执行存储器52存储的程序指令以实现三网信息融合与检索。
[0103]
其中,处理器51还可以称为cpu(central processing unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0104]
实施例4
[0105]
请参阅图7,为本技术实施例的存储介质的结构示意图。本技术实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等设备。
[0106]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0107]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0108]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0109]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0110]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0111]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者
说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0112]
可以理解,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0113]
以上仅为本技术的较佳实施例而已,仅具体描述了本技术的技术原理,这些描述只是为了解释本技术的原理,不能以任何方式解释为对本技术保护范围的限制。基于此处解释,凡在本技术的精神和原则之内所作的任何修改、等同替换和改进,及本领域的技术人员不需要付出创造性的劳动即可联想到本技术的其他具体实施方式,均应包含在本技术的保护范围之内。
技术特征:
1.一种区域农作物产量估算方法,其特征在于,包括下述步骤:采用随机森林模型对区域内农作物产量进行预训练模拟;利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正;采用校正后随机森林模型进行区域作物产量预测。2.如权利要求1所述的区域农作物产量估算方法,其特征在于,在采用随机森林模型对区域内农作物产量进行预训练模拟的步骤中,具体包括下述步骤:收集区域内农作物生长数据;根据所述生长数据构建特征变量空间;根据所述特征变量空间建立随机森林模型,并对所述随机森林模型进行预训练验证。3.如权利要求2所述的区域农作物产量估算方法,其特征在于,在收集区域内农作物生长数据的步骤中,所述生长数据包括产量数据、时序变量数据及静态参数数据,所述时序变量数据包括气象变量、遥感植被变量、土壤变量及生理过程变量,所述气象变量包括气温、降水及太阳辐射,所述遥感植被变量包括增强型植被指数及归一化植被指数,所述土壤变量包括土壤温度及土壤含水量,所述生理过程变量包括潜热通量、显热通量、冠层蒸腾及潜在蒸发,所述静态参数数据包括生长环境参数,所述生长环境参数包括高程、纬度及土壤理化性质。4.如权利要求2所述的区域农作物产量估算方法,其特征在于,在根据所述生长数据构建特征变量空间的步骤中,具体包括下述步骤:以16天为步长,对所述时序变量数据与所述产量数据进行了动态相关性分析,以确定其中的最相关变量及最相关时间区间;以年为单位,对所述生长环境参数与各年份作物产量数据进行静态相关性分析;选择皮尔森相关系数大于0.2的变量构建所述特征变量空间,其中相关系数计算公式如下:式中:n为作物种植县总数,v
i
为县域i对应的特征变量均值,x
i
为县域i的作物统计产量,和分别表示所有县域的特征变量和统计产量均值。5.如权利要求2所述的区域农作物产量估算方法,其特征在于,在根据所述特征变量空间建立随机森林模型,并对所述随机森林模型进行预训练验证的步骤中,具体包括下述步骤:根据所述特征变量空间构建随机森林模型;利用留一交叉验证方法对所述随机森林模型进行预训练验证验证。6.如权利要求1所述的区域农作物产量估算方法,其特征在于,利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正,具体包括下述步骤:利用训练数据集中作物实测产量,即县域统计产量,对所述随机森林模型的训练结果进行线性拟合,得到线性回归函数(y=ax+b)用以量化训练过程中模型存在的双尾偏差,进而将模拟结果p
t
(x
0,t
,y
0,t
)其中:x,y分别表示县域统计产量和随机森林模型模拟产量集合,a,b为拟合的回归系数,p
t
表示训练数据集中某县在散点验证图中对应的一个特定散
点,x
0,t
和y
0,t
分别表示该县的统计和模拟产量;沿回归线(y=ax+b)与1:1线(y=x)的交点c(x
c
,y
c
)旋转校正到1:1线,得到校正后的模型训练结果p
′
t
(x
r,t
,y
r,t
)其中:x
c
,y
c
分别表示交点c在散点验证图中对应的横坐标和纵坐标,即统计和模拟产量,p
′
t
表示校正后p
t
点对应的散点坐标,其中y
r,t
即为校正后产量。7.如权利要求6所述的区域农作物产量估算方法,其特征在于,在模型预测步骤中,利用训练过程中得到的线性回归函数,将所述随机森林模型的模拟结果以同样的方式沿c点旋转校正到1:1线,得到校正后的产量预测结果y
r,v
,具体包括下述步骤:已知某县的模拟产量y
0,v
,假设该县在散点验证图中对应的p
v
点应位于所拟合的回归直线(y=ax+b)上,求取p
v
点的横坐标x
0,v
,将其绕c(x
c
,y
c
)点旋转,得到校正后的产量预测结果y
r,v
,其中:x
0,v
=(y
0,v-b)/a、y
c
=x
c
=b/(1-a)、y
r,v
=x
0,v-x
c
)
·
sinα+(y
0,v-y
c
)
·
cosα+y
c,v
;其中:某县对应的验证散点,其纵坐标y
0,v
为随机森林模型预测得到的作物产量已知;而横坐标x
0,v
为该县的统计产量,在预测步骤中未知,,x
c
,y
c
为回归直线与1:1线的交点对应的横纵坐标,α为回归直线与1:1线的夹角,y
r,v
表示校正后的产量预测结果。8.一种区域农作物产量估产系统,其特征在于,包括:预训练模块,采用随机森林模型对区域内农作物产量进行预训练模拟;校正模块,利用旋转校正算法对所述随机森林模型预测结果存在的误差进行校正;预测模块,采用校正后随机森林模型进行区域作物产量预测。9.如权利要求8所述的区域农作物产量估产系统,其特征在于,所述预训练模块包括:数据采集单元,用于收集区域内农作物生长数据;特征构建单元,用于根据所述生长数据构建特征变量空间;训练单元,用于根据区域内农作物生长数据构建随机森林模型,并对所述随机森林模型进行训练。10.一种设备,其特征在于,所述设备包括处理器、与所述处理器耦接的存储器,其中,所述存储器存储有用于实现权利要求1-7任一项所述的区域农作物产量估算方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令以实现区域农作物产量估产。11.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述区域农作物产量估算方法。
技术总结
本申请提供的区域农作物产量估算方法、系统、设备及存储介质,采用随机森林模型模拟区域内农作物产量,基于旋转校正算法对模型误差进行校准,通过校正后所述随机森林模型进行区域农作物产量预测。本申请提出的旋转校正算法能够有效校准已有作物估产模型在产量高值/低值区存在的普遍误差。与现有的误差回归校正算法和机器学习校正算法相比,本申请提出的旋转校正算法对线性拟合的误差回归模型进行了进一步的旋转校正,以提升其对低值/高值区的校正效果;而相比于叠加一个机器学习误差校正模型,它具有更强的泛化能力,避免了使用过于复杂的机器学习模型在训练时产生的过拟合现象,具有更好的校正效果和更广泛的适用性。具有更好的校正效果和更广泛的适用性。具有更好的校正效果和更广泛的适用性。
技术研发人员:王靖雯 陈劲松 赵龙龙 韩宇 江锦成
受保护的技术使用者:深圳先进技术研究院
技术研发日:2023.07.07
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种切书机废纸条收集处理设备的制作方法 下一篇:城市级智慧照明控制系统的制作方法
