一种基于多元线性回归的云迁移成本预估方法和系统与流程
未命名
10-19
阅读:131
评论:0
1.本发明属于系统迁移技术领域,具体涉及一种基于多元线性回归的云迁移成本预估方法和系统。
背景技术:
2.云迁移是将企业的数据存储资产、应用服务、it资源以及应用程序等全部或部分地从现有数据中心迁移到云环境中的整个过程,而信创云迁移就是目标为自主可控平台的云迁移。一般来说,核心业务向云端平台迁移的过程势必会涉及到原自有业务分析、迁移计划制定,实施流程构建等步骤,这些工作的核心目标就是能够帮助公司高效、节约、安全、连续地将原有业务从数据中心向新建的混合云平台上成功迁移。
3.云迁移的成本是影响业务是否迁移到云端、将何等规模的业务迁移到云端判断的重要因素。目前,关于云迁移成本的估算主要由企业it人员估计得出,可分为迁移前成本与迁移后成本两类。估测迁移前成本主要需要估计人力资源成本、调研成本、云环境成本、软件许可变化成本、灾备成本以及专线成本等。而迁移后成本主要集中在迁移到云后的运行成本。然而,不同的企业it人员受限于工作经验等主观因素的影响往往会得到不同的云迁移成本,云迁移成本预估的一致性与准确性差。
技术实现要素:
4.为了解决现有技术的云迁移成本主要通过it人员进行人工评估,不同的企业it人员受限于工作经验等主观因素的影响往往会得到不同的云迁移成本,云迁移成本预估的一致性与准确性差的技术问题,本发明提供一种基于多元线性回归的云迁移成本预估方法和系统。
5.第一方面
6.本发明提供了一种基于多元线性回归的云迁移成本预估方法,包括:
7.s101:确定云迁移成本的影响因素;
8.s102:从待迁移数据中挑选出多个预迁移数据进行预迁移,并统计各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值;
9.s103:构建多元线性回归模型;
10.s104:根据各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值,对所述多元线性回归模型进行求解;
11.当所述多元线性回归模型无解时,对云迁移成本的影响因素进行扩充,并重新训练模型;
12.当所述多元线性回归模型存在多组解时,对多组解进行分析,确定出最优解,进入下一步;
13.s105:对所述多元线性回归模型进行拟合度检验;
14.当所述多元线性回归模型未通过拟合度检验时,对所述元线性回归模型修正后进
行重新训练;
15.当所述多元线性回归模型通过拟合度检验时,完成对于所述多元线性回归模型的训练,进入下一步;
16.s106:通过所述多元线性回归模型预估所述待迁移数据的云迁移成本。
17.第二方面
18.本发明提供了一种基于多元线性回归的云迁移成本预估系统,用于执行第一方面中的基于多元线性回归的云迁移成本预估方法。
19.与现有技术相比,本发明至少具有以下有益技术效果:
20.在本发明中,通过多元线性回归模型可以对云迁移成本进行预估,无需人工参与,减少云迁移成本预估过程的主观性,提升云迁移成本预估的一致性与准确性。
附图说明
21.下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
22.图1是本发明提供的一种基于多元线性回归的云迁移成本预估方法的流程示意图。
具体实施方式
23.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
24.为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
25.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
26.在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
27.另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
28.实施例1
29.在一个实施例中,参考说明书附图1,示出了本发明提供的基于多元线性回归的云迁移成本预估方法的流程示意图。
30.本发明提供的一种基于多元线性回归的云迁移成本预估方法,包括:
31.s101:确定云迁移成本的影响因素。
32.其中,云迁移成本的影响因素包括:人力资源成本、调研成本、云环境成本、软件许可变更成本、软件重构成本、灾备成本和专线成本。
33.其中,人力资源成本是指迁移过程中聘请迁移人员及相关专家所消耗的成本。调研成本是指评估应用依赖关系及工作负载相互依存关系消耗的成本。云环境成本是指现有业务迁移至云端后所需规模的云服务的费用。软件许可变化成本是指更换平台后重新获取软件授权所需费用。灾备成本是指业务完全迁移至云端以前保证本地系统的业务连续性和灾难恢复所需费用。专线成本则是指为大规模数据上云购买专线网络向运营商支付的费用。
34.进一步地,迁移过程中还包含大量因场景而异的因素会会迁移成本产生影响,应采用德尔菲法等方法征求专家意见,以得到较为全面的重要因素列表。列入因素列表的因素应当是易于量化的,例如迁移人员数量、数据总量,后续针对所有业务统计时应采用统一的单位(如人数-个,数据量-tb)。
35.需要说明的是,德尔菲法是一种专家意见征询方法,旨在通过多轮匿名问卷调查和反馈循环来达成共识。它广泛用于获取专家对特定问题的意见、预测未来趋势、制定决策或解决复杂问题。
36.s102:从待迁移数据中挑选出多个预迁移数据进行预迁移,并统计各个预迁移数据的云迁移成本以及各个影响因素下的量化值。
37.需要说明的是,通过与预迁移部分数据,是为了得到后续对多元线性回归模型进行训练以及求解的样本数据。通过与预迁移部分数据并统计其云迁移成本和影响因素的量化值,可以提供训练样本、模型求解参考和模型优化的基础,从而增强多元线性回归模型的可靠性和适应性,进一步提高云迁移成本预估方法的准确性和可应用性。
38.在一种可能的实施方式中,s102具体为:从待迁移数据中挑选出多个规模较小但迁移成本的主要影响因素存在差异的数据作为预迁移数据,对预迁移数据进行预迁移,并统计各个预迁移数据的云迁移成本以及各个影响因素下的量化值。
39.需要说明的是,选择规模较小的数据进行预迁移可以减少预先投入的资源和成本。规模较小的数据集意味着迁移过程的规模相对较小,因此在预迁移阶段所需的资源和成本较低。这有助于控制预迁移过程中的成本,并减少可能的风险和损失。进一步地,选择影响因素存在差异的数据集可以帮助分析和理解各个因素对迁移成本的具体影响。通过选择具有不同影响因素特征的数据,可以更好地探索和评估每个因素对云迁移成本的贡献程度。这有助于深入了解各个因素之间的关系,从而更好地理解和预测整体迁移成本。
40.s103:构建多元线性回归模型。
41.其中,多元线性回归模型是一种统计学方法,用于建立多个自变量与一个连续因变量之间的线性关系。它通过拟合一个线性方程来描述自变量与因变量之间的关系,并用于预测和解释因变量的变化。
42.在一种可能的实施方式中,s103具体为:通过以下公式构建多元线性回归模型:
[0043][0044]
其中,表示第i个数据的云迁移成本的估计值,x
ij
表示第i个数据在第j个影响因
素下的量化值,ωj表示第j个影响因素的回归系数,j=1,2,
…
,n,n表示影响因素的个数,b表示截距。
[0045]
s104:根据各个预迁移数据的云迁移成本以及各个影响因素下的量化值,对多元线性回归模型进行求解。
[0046]
当多元线性回归模型无解时,对云迁移成本的影响因素进行扩充,并重新训练模型。
[0047]
需要说明的是,当多元线性回归模型无解时,意味着无法找到使模型的预测值与实际观测值之间误差最小化的回归系数估计值,此时需要考虑对云迁移成本的影响因素进行扩充,并重新训练模型。如果现有的影响因素无法解释云迁移成本的变化,那么可能存在其他未考虑的因素对成本产生重要影响。通过扩充影响因素,可以更全面地考虑各种因素的潜在影响,从而提高模型对云迁移成本的解释能力。
[0048]
当多元线性回归模型存在多组解时,对多组解进行分析,确定出最优解,进入下一步。
[0049]
在一种可能的实施方式中,s104具体包括子步骤s1041至s1044:
[0050]
s1041:将各个预迁移数据的云迁移成本以及各个影响因素下的量化值,代入到多元线性回归模型中,则有以下方程表达式:
[0051][0052]
其中,表示云迁移成本估计值,x表示影响因素量化值矩阵,ω表示回归系数,表示第i个预迁移数据的云迁移成本的估计值,x
ij
表示第i个数据在第j个影响因素下的量化值,i=1,2,
…
,m,m表示预迁移数据的个数,j=1,2,
…
,n,n表示影响因素的个数,ωj表示第j个影响因素的回归系数,b表示截距。
[0053]
s1042:构建多元线性回归模型的误差函数l:
[0054][0055]
其中,yi表示第i个预迁移数据的云迁移成本的真实值。
[0056]
s1043:求解多元线性回归模型的误差函数l的最小值,得到最小化目标函数ω*:
[0057][0058]
其中,y表示云迁移成本,表示回归系数的估计值,()
t
表示矩阵的转置。
[0059]
s1044:对最小化目标函数求导并令导数为零,计算得到各个影响参数的回归系数:
[0060]
ω*=(x
t
x)-1
x
t
y。
[0061]
需要说明的是,利用多元线性回归模型进行云迁移成本的估计和分析,可以预测成本、评估因素重要性、优化模型拟合和推断影响因素的影响程度。这样做有助于提高决策
的科学性和准确性,优化资源配置和成本控制,促进云迁移过程的成功实施。
[0062]
在一种可能的实施方式中,s104具体还包括子步骤s1045和s1046:
[0063]
s1045:当多元线性回归模型存在多组解时,排除回归系数的符号发生错误的解。
[0064]
具体地,若回归系数存在负数,则相应的解应当予以排除。
[0065]
需要说明的是,在多元线性回归模型中,回归系数的符号具有重要的解释意义。符号错误的解可能会导致对影响因素的理解和解释出现错误。因此,在存在多组解的情况下,需要排除回归系数符号错误的解。这意味着我们需要筛选出回归系数与实际情况一致的解,确保模型对于因变量和自变量之间的关系有合理的解释能力。
[0066]
s1046:当排除掉回归系数的符号发生错误的解之后仍有多组解时,通过正则化表达式,确定更多回归系数接近于0的解作为最优解。
[0067]
需要说明的是,在存在多组解且排除了符号错误解后,可能仍然存在多个解,而这些解对应的回归系数可能会有较大差异。这时可以使用正则化表达式,如l1正则化(lasso回归)或l2正则化(ridge回归),来确定更多回归系数接近于0的解作为最优解。
[0068]
进一步地,正则化可以通过在目标函数中加入正则化项来实现。正则化项的作用是对回归系数进行惩罚,鼓励模型选择更少的自变量或将系数缩小至接近于0的程度。这样可以提高模型的稳定性、泛化能力和解释性。
[0069]
s105:对多元线性回归模型进行拟合度检验。
[0070]
其中,拟合度检验可以帮助评估模型对观测数据的拟合程度。通过检验拟合优度,我们可以判断模型是否能够很好地解释因变量的变化,以及自变量对因变量的贡献程度。拟合度高意味着模型能够较好地解释数据的变异性,提供较准确的预测和解释。
[0071]
当多元线性回归模型未通过拟合度检验时,对元线性回归模型修正后进行重新训练。
[0072]
当多元线性回归模型通过拟合度检验时,完成对于多元线性回归模型的训练,进入下一步。
[0073]
在一种可能的实施方式中,s105具体包括:
[0074]
s1051:通过以下公式计算多元线性回归模型的拟合度r2:
[0075][0076]
其中,表示ssr表示回归平方和,sst表示总平方和。
[0077]
在一种可能的实施方式中,s105具体还包括子步骤s1052和s1053:
[0078]
s1052:当多元线性回归模型的拟合度r2小于第一预设值时,表示多元线性回归模型未通过拟合度检验,对元线性回归模型修正后进行重新训练。
[0079]
s1053:当多元线性回归模型的拟合度r2大于第二预设值时,表示多元线性回归模型通过拟合度检验,完成对于多元线性回归模型的训练,进入下一步。
[0080]
可选地,第一预设值为0.5,第二预设值为0.8。
[0081]
s106:通过多元线性回归模型预估待迁移数据的云迁移成本。
[0082]
与现有技术相比,本发明至少具有以下有益技术效果:
[0083]
在本发明中,通过多元线性回归模型可以对云迁移成本进行自动化预估,无需人工参与,减少云迁移成本预估过程的主观性,提升云迁移成本预估的一致性与准确性。
[0084]
实施例2
[0085]
在一个实施例中,本发明提供的一种基于多元线性回归的云迁移成本预估系统,用于执行实施例1中的基于多元线性回归的云迁移成本预估方法。
[0086]
本发明提供的一种基于多元线性回归的云迁移成本预估系统可以实现上述实施例1中的基于多元线性回归的云迁移成本预估方法的步骤和效果,为避免重复,本发明不再赘述。
[0087]
与现有技术相比,本发明至少具有以下有益技术效果:
[0088]
在本发明中,通过多元线性回归模型可以对云迁移成本进行自动化预估,无需人工参与,减少云迁移成本预估过程的主观性,提升云迁移成本预估的一致性与准确性。
[0089]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0090]
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
技术特征:
1.一种基于多元线性回归的云迁移成本预估方法,其特征在于,包括:s101:确定云迁移成本的影响因素;s102:从待迁移数据中挑选出多个预迁移数据进行预迁移,并统计各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值;s103:构建多元线性回归模型;s104:根据各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值,对所述多元线性回归模型进行求解;当所述多元线性回归模型无解时,对云迁移成本的影响因素进行扩充,并重新训练模型;当所述多元线性回归模型存在多组解时,对多组解进行分析,确定出最优解,进入下一步;s105:对所述多元线性回归模型进行拟合度检验;当所述多元线性回归模型未通过拟合度检验时,对所述元线性回归模型修正后进行重新训练;当所述多元线性回归模型通过拟合度检验时,完成对于所述多元线性回归模型的训练,进入下一步;s106:通过所述多元线性回归模型预估所述待迁移数据的云迁移成本。2.根据权利要求1所述的基于多元线性回归的云迁移成本预估方法,其特征在于,所述云迁移成本的影响因素包括:人力资源成本、调研成本、云环境成本、软件许可变更成本、软件重构成本、灾备成本和专线成本。3.根据权利要求1所述的基于多元线性回归的云迁移成本预估方法,所述s102具体为:从待迁移数据中挑选出多个规模较小但迁移成本的主要影响因素存在差异的数据作为预迁移数据,对所述预迁移数据进行预迁移,并统计各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值。4.根据权利要求1所述的基于多元线性回归的云迁移成本预估方法,所述s103具体为:通过以下公式构建所述多元线性回归模型:其中,表示第i个数据的云迁移成本的估计值,x
ij
表示第i个数据在第j个影响因素下的量化值,ω
j
表示第j个影响因素的回归系数,j=1,2,
…
,n,n表示影响因素的个数,b表示截距。5.根据权利要求1所述的基于多元线性回归的云迁移成本预估方法,所述s104具体包括:s1041:将各个所述预迁移数据的云迁移成本以及各个影响因素下的量化值,代入到所述多元线性回归模型中,则有以下方程表达式:
其中,表示云迁移成本估计值,x表示影响因素量化值矩阵,ω表示回归系数,表示第i个预迁移数据的云迁移成本的估计值,x
ij
表示第i个数据在第j个影响因素下的量化值,i=1,2,
…
,m,m表示预迁移数据的个数,j=1,2,
…
,n,n表示影响因素的个数,ω
j
表示第j个影响因素的回归系数,b表示截距;s1042:构建所述多元线性回归模型的误差函数l:其中,y
i
表示第i个预迁移数据的云迁移成本的真实值;s1043:求解所述多元线性回归模型的误差函数l的最小值,得到最小化目标函数ω*:其中,y表示云迁移成本,表示回归系数的估计值,()
t
表示矩阵的转置;s1044:对所述最小化目标函数求导并令导数为零,计算得到各个影响参数的回归系数:ω*=(x
t
x)-1
x
t
y。6.根据权利要求5所述的基于多元线性回归的云迁移成本预估方法,所述s104具体还包括:s1045:当所述多元线性回归模型存在多组解时,排除回归系数的符号发生错误的解;s1046:当排除掉回归系数的符号发生错误的解之后仍有多组解时,通过正则化表达式,确定更多回归系数接近于0的解作为最优解。7.根据权利要求1所述的基于多元线性回归的云迁移成本预估方法,所述s105具体包括:s1051:通过以下公式计算所述多元线性回归模型的拟合度r2:其中,表示ssr表示回归平方和,sst表示总平方和。8.根据权利要求7所述的基于多元线性回归的云迁移成本预估方法,所述s105具体还包括:s1052:当所述多元线性回归模型的拟合度r2小于第一预设值时,表示所述多元线性回归模型未通过拟合度检验,对所述元线性回归模型修正后进行重新训练;s1053:当所述多元线性回归模型的拟合度r2大于第二预设值时,表示所述多元线性回归模型通过拟合度检验,完成对于所述多元线性回归模型的训练,进入下一步。9.根据权利要求8所述的基于多元线性回归的云迁移成本预估方法,所述第一预设值
为0.5,所述第二预设值为0.8。10.一种基于多元线性回归的云迁移成本预估系统,其特征在于,用于执行权利要求1至9任一项所述的基于多元线性回归的云迁移成本预估方法。
技术总结
本发明公开了一种基于多元线性回归的云迁移成本预估方法和系统,属于系统迁移技术领域,方法包括:确定云迁移成本的影响因素;从待迁移数据中挑选出多个预迁移数据进行预迁移,并统计各个预迁移数据的云迁移成本以及各个影响因素下的量化值;构建多元线性回归模型;根据各个预迁移数据的云迁移成本以及各个影响因素下的量化值,对多元线性回归模型进行求解;当多元线性回归模型存在多组解时,确定出最优解;对多元线性回归模型进行拟合度检验;通过多元线性回归模型预估待迁移数据的云迁移成本。可以通过多元线性回归模型可以对云迁移成本进行预估,无需人工参与,减少云迁移成本预估过程的主观性,提升云迁移成本预估的一致性与准确性。致性与准确性。致性与准确性。
技术研发人员:王睿宇 刘彦 贾钧 赵雨晴 胡四泉 郭家义 石志国 林峰璞
受保护的技术使用者:北京市大数据中心
技术研发日:2023.07.21
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
