一种单步反应预测模型的评价方法及系统与流程

未命名 08-13 阅读:119 评论:0

1.本发明涉及计算机辅助合成领域,特别涉及一种单步反应预测模型的评价方法及系统。


背景技术:

2.现有技术中,存在许多关注到模型评价方法重要性的发明专利,如已公布的在先专利cn110956261a、cn113704082a等,然而这些模型评价方法所提出的背景领域不同,导致其所提出的评测方案本身纵使在整体流程设计上有通用之处,但具体到逆合成领域单步反应预测模型方面,则缺少一些与逆合成相关的,至关重要的评价指标和评价办法。换言之,方法论上溯本同源,但却对逆合成领域的单步反应预测模型评价却缺少针对性,无法直接引鉴使用。在逆合成领域,围绕单步反应预测模型相关的专利,关注点基本都在于各不相同的模型技术方案本身,而对于如何评测这些模型的效果并无过多涉及。单步反应预测领域的研究方案众多,且每一个方案内也存在大量可调参数。与此同时,模型效果通常依赖化学家们的标注评测,具有高主观、难量化、不准确、不稳定等特点。在实际从事相关研发的过程中,若缺乏一套科学、完善、规范、可量化的评测方法,往往容易陷入模型的改动效果难以衡量,评估过程费时费力,研发效率低下等问题。


技术实现要素:

3.本发明要解决的技术问题是提供一种单步反应预测模型的评价方法及系统,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。
4.为解决上述技术问题,本发明提供的单步反应预测模型的评价方法,包括:
5.s1,输入待评价的单步反应预测模型,并对其进行接口适配和统一抽象以便于调用;
6.s2,利用测试集对s1中构建的单步反应预测模型进行测试,其包括逆向覆盖度测试、正向覆盖度测试、roundtrip覆盖度测试、多样度测试和confidence score相关性测试;
7.s3,输出单步反应预测模型的测试结果。
8.进一步地,所述单步反应预测模型为:
9.单步正向模型;或
10.单步逆向模型;或
11.单步正向模型和单步逆向模型组合后形成的组合模型;
12.所述单步正向模型进行正向覆盖度测试和confidence score相关性测试;
13.所述单步逆向模型进行逆向覆盖度测试和多样度测试;
14.所述单步正向模型和单步逆向模型组合后形成的组合模型进行roundtrip覆盖度测试。
15.进一步地,所述单步反应预测模型的构建方法包括通式模板法和基于ai深度网络
模型的方法。
16.进一步地,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
17.进一步地,s2中的测试集包括:
18.在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;
19.在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;
20.由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
21.由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;
22.根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及
23.从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
24.为了解决上述技术问题,本发明还提供了一种单步反应预测模型的评价系统,包括:
25.模型管理模块,其用于对输入的待评价单步反应预测模型进行接口适配和统一抽象以便后续调用;
26.测试集管理模块,其用于构建和提供多种类型的测试集,并对测试集进行接口适配和统一抽象以便后续使用;
27.评测与分析模块,其用于根据测试需求调用所述测试集管理模块中的测试集对输入所述模型管理模块中的单步反应预测模块进行测试,并输出:逆向覆盖度测试和/或正向覆盖度测试的测试结果、roundtrip覆盖度测试的测试结果、多样度测试的测试结果和confidence score相关性测试的测试结果。
28.进一步地,所述模型管理模块允许输入的单步反应预测模型包括:
29.通式模板法生成的单步反应预测模型;
30.基于ai深度网络模型生成的单步反应预测模型。
31.进一步地,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。
32.进一步地,所述测试集管理模块构建的测试集包括:
33.在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;
34.在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;
35.由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
36.由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;以及
37.根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集
用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及
38.从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
39.本发明提供的评价方法涵盖了多个维度的可量化指标,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。
具体实施方式
40.下面将对本发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
41.关于本发明中出现的术语,解释如下:
42.单步正向反应可行性校验模型(简称单步正向模型):是指输入反应物和试剂,预测产物的模型;
43.单步逆向候选反应生成模型(简称单步逆向模型):是指待合成的目标分子化合物(产物),能够预测输出可发生化学反应生成该目标分子的反应物与试剂组合,即候选反应;
44.单步正向模型和单步逆向模型组合后形成的组合模型:由单步正向模型和单步逆向模型组合后形成一个具有较高roundtrip覆盖度的组合模型。
45.测试集:是指包含若干化学反应的数据集合;
46.主干匹配:在一个完整的反应中,识别出化学意义上不直接参与反应或贡献原子的试剂化合物,予以过滤后得到剩余的主干反应物对比匹配主干提取后得到的主干反应物是否相同的过程边称为主干匹配;
47.主干去重:是指若几个反应经主干匹配认为相同,则仅保留一个反应,去除其他几个反应的过程,称为主干去重;
48.confidence score相关性:用于衡量单步正向预测模型对化学反应综合可行性的打分结果与化学家评分的相关性。具体而言:
49.首先,构建组合测试集:一种构建方式可以是从测试集管理模块中的其他所有测试集中,按照既定的规则,各选出一部分化学反应,共同组成组合测试集;需要说明的是,关于既定的规则,例如可以是:先从测试所需的其他测试集中各随机抽取100条数据,由化学家进行打分(如0-4分),在将化学家的打分映射到0-1区间范围内,再将0-1区间均分为若干分数段,每个分数段取相同数量的数据,该该些数据组合而成的测试集,即是组合测试集。本技术中既定规则不限于该种规则。
50.其次,化学家对组合测试集中的所有反应指定一种可量化的可行性打分标准,然后对该测试集中的所有反应根据该打分标准给出一个综合性分数,该分数记作confidence
chemist
;需要说明的是,关于可量化的打分标准,例如可以是:分数范围为0-4分,反应肯定完全不可能发生的,记作0分;很难反应的,记作1分;反应有合理性,但需要完善的,记作2分;反应可行,能生产主产物,但会有副产物的,记作3分;反应可行,仅生产主产物的,记作4分;可量化的答复标准不限于根据反应的难以程度进行量化打分,此处仅作为示例性说明。
51.再次,利用组合测试集对单步正向模型进行测试,给出一个分数,该分数记作confidence
model

52.最后,计算confidence
chemist
和confidence
model
之间的相关系数,该系数为confidence score;
53.其中,confidence
model
的得出是利用模型管理模块管理的transformer等模型对待测的单步正向模型能够发生的可能性给出的分数;confidence
chemist
和confidence
model
之间的相关系数计算可以使用pearson correlation coefficient、mutual information score、cross entropy、kl divergence等计算工具。
54.正向覆盖度:针对单步正向模型,将测试集中化学反应的反应物输入待测单步正向模型中,模型输出候选产物(可能是一个,可能是多个)及对应的confidence score,对比候选产物与测试集中的产物,若模型输出的第一个候选产物与测试中的产物相同,且confidence score大于一定的阈值,则认为该单步正向模型覆盖了这条测试反应;完成对所有的测试反应的测试后,若测试集的中化学反应的数量为n,模型覆盖的反应数量为mf,则单步正向覆盖度为mf/n。
55.逆向覆盖度:针对单步逆向模型,将测试集中化学反应的产物输入待测单步逆向模型中,模型输出候选反应(可能是一个,可能是多个),若输出的候选反应为多个,则先进行主干去重,对比候选反应与测试集中的原反应,若模型生产输出的候选反应与原反应的反应物主干匹配(多个候选反应时,仅一条能匹配即可),则认为该模型覆盖了这条测试反应;完成对所有的测试反应的测试后,若测试集的中化学反应的数量为n,模型覆盖的反应数量为mr,则单步逆向覆盖度为mr/n。
56.roundtrip覆盖度:针对于待测的单步正向模型和单步逆向模型组合后形成的组合模型,当测试集中的一条测试反应,如果单步逆向模型覆盖了这条测试反应,且单步逆向模型生产的候选反应中,与测试反应的反应物主干匹配后的主干匹配的候选反应,作为单步正向模型的输入,进行校验,若单步正向模型覆盖这些主干匹配的候选反应中的任意一条,,则视为组合模型覆盖了这条反应;完成对所有的测试反应的测试后,若测试集的中化学反应的数量为n,组合模型覆盖的反应数量为mrf,则单步逆向覆盖度为mrf/n。
57.多样度:针对待测单步逆向模型,用以衡量单步逆向模型所生产的候选反应的多样性;对于测试集中的一条测试反应,单步逆向模型通常能生产多个候选反应,通常结合实际使用情况,指定仅取前k个置信度高的后续反应,例如取k为15,则取前15个反应,然后再对选取的前k各反应进行主干去重,最后剩余的主干不同的候选反应的数量则为多样度。
58.实施例一
59.本发明的一种单步反应预测模型的评价方法,包括:
60.s1,输入待评价的单步反应预测模型,并对其进行接口适配和统一抽象以便于调用;
61.s2,利用测试集对s1中构建的单步反应预测模型进行测试,其包括逆向覆盖度测试、正向覆盖度测试、roundtrip覆盖度测试、多样度测试和confidence score相关性测试;
62.s3,输出单步反应预测模型的测试结果。
63.本发明实施例中,待评价的单步反应预测模型的格式不限,由于单步反应预测模型可能是通过通式模板法得到的,也可能是基于transformer、gpt2、gnn等ai深度神经网络
模型的方法得到的,用这些方法得到的单步反应预测模型均可适用于本技术,本技术将不同格式的单步反应预测模型进行统一抽象,并提供一致、简明的调用接口以供测试时调用;本发明提供了多个维度的评价方法,能够更全面的对单步反应预测模型进行评价,更有利于客观、科学的看待单步反应预测模型。需要说明的是,本发明提供的评价方法不仅可以用于评价单步正向模型,还可以用于评价单步逆向模型,以及用于评价单步正向模型和单步逆向模型组合后形成的组合模型;用于单步正向模型时,进行正向覆盖度测试和confidence score相关性测试;用于单步逆向模型时,进行逆向覆盖度测试和多样度测试;用于单步正向模型和单步逆向模型组合后形成的组合模型时,进行roundtrip覆盖度测试。
64.本发明提供的评价方法涵盖了多个维度的可量化指标,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。
65.本发明实施例的一种具体实施方式中,s2中的测试集包括:
66.在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力。
67.在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力。
68.由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
69.由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;
70.根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况,以及
71.从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
72.该具体实施方式中,提供了六种测试集以用于测试单步反应预测模型,六个测试集可同时使用,也可仅使用其中一个或多个,根据用户需求调用即可;用于测试confidence score相关性的组合测试集输出confidence score相关性测试结果,其余五个测试集根据模型类型从逆向覆盖度测试、正向覆盖度、roundtrip覆盖度和多样度等多个维度进行测试并给出测试结果。需要说明的是,利用错题测试集测试的结果,输出的各维度的分数越低越好,即,该测试集反映的是待测单步反应预测模型规避在先错误的能力,其他测试集输出的分数则是越高越好。
73.实施例二
74.本发明还提供了一种单步反应预测模型的评价系统,包括:
75.模型管理模块,其用于对输入的待评价单步反应预测模型进行接口适配和统一抽象以便后续调用;
76.测试集管理模块,其用于构建和提供多种类型的测试集,并对测试集进行接口适配和统一抽象以便后续使用;
77.评测与分析模块,其用于根据测试需求调用所述测试集管理模块中的测试集对输入所述模型管理模块中的单步反应预测模块进行测试,并输出:逆向覆盖度测试和/或正向
覆盖度测试的测试结果、roundtrip覆盖度测试的测试结果、多样度测试的测试结果和confidence score相关性测试的测试结果。
78.本实施例中的评价系统利用实施例一中提供的评价方法对待测单步反应预测模型进行评价。其中,模型管理模块允许输入的单步反应预测模型包括通过通式模板法生成的单步反应预测模型和基于ai深度网络模型生成的单步反应预测模型;优选地,ai深度网络模型包括transformer模型、gpt2模型、gnn模型。其中,测试集管理模块一方面负责设计、构建、维护用于不同场景、目的的多样化的测试集,另一方面也需要负责这些测试集针对基于不同技术方案的模型的适应性预处理,从而为完整的单步反应预测模型评价系统提供简洁一致的调用接口。测试集管理模块可构建的测试集包括:
79.在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;
80.在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;
81.由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;
82.由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;
83.根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及
84.从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。
85.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

技术特征:
1.一种单步反应预测模型的评价方法,其特征在于,包括:s1,输入待评价的单步反应预测模型,并对其进行接口适配和统一抽象以便于调用;s2,利用测试集对s1中构建的单步反应预测模型进行测试,其包括逆向覆盖度测试、正向覆盖度测试、roundtrip覆盖度测试、多样度测试和confidence score相关性测试;s3,输出单步反应预测模型的测试结果。2.如权利要求1所述的评价方法,其特征在于,所述单步反应预测模型为:单步正向模型;或单步逆向模型;或单步正向模型和单步逆向模型组合后形成的组合模型;所述单步正向模型进行正向覆盖度测试和confidence score相关性测试;所述单步逆向模型进行逆向覆盖度测试和多样度测试;所述单步正向模型和单步逆向模型组合后形成的组合模型进行roundtrip覆盖度测试。3.如权利要求2所述的评价方法,其特征在于,所述单步反应预测模型的构建方法包括通式模板法和基于ai深度网络模型的方法。4.如权利要求3所述的评价方法,其特征在于,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。5.如权利要求1所述的评价方法,其特征在于,s2中的测试集包括:在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。6.一种单步反应预测模型的评价系统,其特征在于,包括:模型管理模块,其用于对输入的待评价单步反应预测模型进行接口适配和统一抽象以便后续调用;测试集管理模块,其用于构建和提供多种类型的测试集,并对测试集进行接口适配和统一抽象以便后续使用;评测与分析模块,其用于根据测试需求调用所述测试集管理模块中的测试集对输入所述模型管理模块中的单步反应预测模块进行测试,并输出:逆向覆盖度测试和/或正向覆盖度测试的测试结果、roundtrip覆盖度测试的测试结果、多样度测试的测试结果和confidence score相关性测试的测试结果。
7.如权利要求6所述的评价系统,其特征在于,所述模型管理模块允许输入的单步反应预测模型包括:通式模板法生成的单步反应预测模型;基于ai深度网络模型生成的单步反应预测模型。8.如权利要求7所述的评价系统,其特征在于,所述ai深度网络模型包括transformer模型、gpt2模型、gnn模型。9.如权利要求6所述的评价系统,其特征在于,所述测试集管理模块构建的测试集包括:在训练模型所使用的原始数据集的基础上采样构建与训练数据同分布的测试集,该测试集用以评价单步反应预测模型对原始数据空间的拟合能力;在业务场景积累的数据中采样构建的测试集,该测试集用以评价单步反应预测模型对实际业务场景数据的泛化能力;由从基础到困难不同层次反应构建而成的测试集,该测试集用以从难度方面评价单步反应预测模型对化学知识掌握能力;由从反应分类角度构建的具有多种反应类型的测试集,该测试集用以从反应类别方面评价单步反应预测模型对化学知识掌握能力;以及根据模型迭代过程中产生过的错误反应,经确认后构建的错题测试集,该测试集用于回顾单步反应预测模型对已知常见的错误反应的改善情况;以及从前述五个测试集中按规则抽选出部分化学反应组成的组合测试集,该测试集用于测试confidence score相关性。

技术总结
本发明公开了一种单步反应预测模型的评价方法,其特征在于,包括:S1,输入待评价的单步反应预测模型,并对其进行接口适配和统一抽象以便于调用;S2,利用测试集对S1中构建的单步反应预测模型进行测试,其包括逆向覆盖度测试、正向覆盖度测试、roundtrip覆盖度测试、多样度测试和confidence score相关性测试;S3,输出单步反应预测模型的测试结果;本发明还提供了一种单步反应预测模型的评价系统,利用评价方法对模型进行评价;本发明提供的评价方法涵盖了多个维度的可量化指标,能够全面评价待测单步反应预测模型在各维度上的性能表现,并以分数形式呈现,能更好的帮助用户客观、全面的看待待测单步反应预测模型。的看待待测单步反应预测模型。


技术研发人员:叶豪 马汝建 彭宣嘉
受保护的技术使用者:上海药明康德新药开发有限公司
技术研发日:2022.12.26
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐