学籍信息识别方法、装置及电子设备

未命名 07-23 阅读:97 评论:0


1.本发明涉及数据处理技术领域,尤其是涉及一种学籍信息识别方法、装置及电子设备。


背景技术:

2.在传统的学籍管理领域,学籍身份信息一般通过线下人工进行比对模式进行,随着后疫情时代的到来,目前国内很多艺术类高校采用线上招生与线下报到的管理模式,这就要求需建立一套“线上+线下”相结合的学生身份识别体系;且出于线上管理方便和精准的目的,对各子系统中间数据传输格式要求越来越细化和准确,对图像和文本数据量化管理变得越来越重要;传统图像和文本匹配结果验证,普遍建立swap分析表,这样的好处是非黑即白、简单直接,但无法对中间验证数据进行数据描述和统计,降低了对学生身份识别的准确度。


技术实现要素:

3.本发明的目的在于提供一种学籍信息识别方法、装置及电子设备,以提高对用户身份识别的准确度。
4.本发明提供的一种学籍信息识别方法,方法包括:获取目标用户的待验证身份信息和目标参考身份信息;将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;根据匹配分数确定目标用户的待验证身份信息的识别结果。
5.进一步的,信息匹配模型预先通过下述方式训练得到:获取训练样本对;其中,训练样本对包括待验证样本和目标参考样本;训练样本对中预先标记有待验证样本和目标参考样本之间的目标匹配分数;将训练样本对输入至第一信息匹配模型,通过第一信息匹配模型输出初始结果;基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到训练完成的信息匹配模型。
6.进一步的,基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到训练完成的信息匹配模型的步骤包括:基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到第二信息匹配模型;获取测试样本对的集合;将每个测试样本对输入至第二信息匹配模型中,得到每个测试样本对所对应的测试结果;如果每个测试结果指示第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
7.进一步的,如果每个测试结果指示第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型的步骤包括:根据每个测试结果,对每个测试样本对
按预设方式进行排序,得到排序后的测试样本对;对排序后的测试样本划分为多个分割区间;针对每个分割区间,获取该分割区间内,匹配成功的第一子测试样本对的数量,以及匹配失败的第二子测试样本对的数量;
8.获取测试样本对的集合中,匹配成功的第一测试样本对的数量,以及匹配失败的第二测试样本对的数量;
9.基于第一子测试样本对的数量、第二子测试样本对的数量、第一测试样本对的数量,以及第二测试样本对的数量,确定训练完成的信息匹配模型。
10.进一步的,基于第一子测试样本对的数量、第二子测试样本对的数量、第一测试样本对的数量,以及第二测试样本对的数量,确定训练完成的信息匹配模型的步骤包括:将第一子测试样本对的数量除以第一测试样本对的数量,得到第一概率值;将第二子测试样本对的数量除以第二测试样本对的数量,得到第二概率值;计算第一概率值与第二概率值的差值绝对值;从每个分割区间对应的差值绝对值中,选取数值最大的差值绝对值;如果数值最大的差值绝对值满足预设阈值,确定第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
11.进一步的,如果待验证身份信息和目标参考身份信息均为图像,信息匹配模型为用于进行图像匹配的图像匹配模型;如果待验证身份信息和目标参考身份信息均为文本,信息匹配模型为用于进行文本匹配的文本匹配模型。
12.进一步的,当目标用户的待验证身份信息为对目标用户在入学考试时采集的身份信息,或者在入学报到时采集的身份信息,或者在专业知识复测时采集的身份信息时,或者在毕业时采集的身份信息时,目标参考身份信息为目标用户的身份证信息;当目标用户的待验证身份信息为对目标用户在提交学籍信息时采集的身份时,目标参考身份信息包括:学籍学历信息管理平台中的招生数据。
13.本发明提供的一种学籍信息识别装置,装置包括:获取模块,用于获取目标用户的待验证身份信息和目标参考身份信息;输出模块,用于将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;确定模块,用于根据匹配分数确定目标用户的待验证身份信息的识别结果。
14.本发明提供的一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述任一项的学籍信息识别方法。
15.本发明提供的一种机器可读存储介质,其特征在于,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述任一项的学籍信息识别方法。
16.本发明提供的一种学籍信息识别方法、装置及电子设备,获取目标用户的待验证身份信息和目标参考身份信息;将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;根据匹配分数确定目标用户的待验证身份信息的识别结果。该方式通过匹配分数表示
目标用户的待验证身份信息和目标参考身份信息之间的匹配程度,通过数值化方式,可以实现中间验证数据进行数据描述和统计,进而提高对用户身份识别的准确度。
附图说明
17.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本发明实施例提供的一种学籍信息识别方法的流程图;
19.图2为本发明实施例提供的一种学生从报名参加考试至获得毕业证书的流程示意图;
20.图3为本发明实施例提供的一种信息匹配结果的示意图;
21.图4为本发明实施例提供的一种学籍信息识别装置的结构示意图;
22.图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
23.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.随着后疫情时代的到来,国内很多艺术类高校开始进行线上招生与考试,而新生入校报到时才是学校首次向学生面对面确认信息,这就要求学校有一套线上与线下相结合的对学生身份识别体系,这套体系应包含入学考试、报到、在校期间的日常考试、毕业资格审核、学历和学位毕业信息上报全流程环节的学生身份识别装置与数据对接模式。同时,随着数据时代到来,高校对学生管理也越来越趋向信息化和数字化管理,那么识别学生身份信息手段,也逐渐由之前的基本身份证号、姓名核验,发展至图像比对、文本比对等技术范畴,在此期间,识别算法毋庸置疑是重要的,与此同时,对识别结果的有效性和准确性判定也是十分重要的,这直接决定了对结果阈值取舍和结论是否合理。再进一步,即使能够通过技术手段能够实现学生身份信息识别,出于管理需要和客观条件限制,各个环节管理系统之间需要数据对接,这是实现全流程对学生身份识别能够打通的基石,因此这个问题也是需要解决的,然而传统图像和文本匹配结果验证,普遍建立swap分析表,这样的好处是非黑即白、简单直接,但无法对中间验证数据进行数据描述和统计,降低了对学生身份识别的准确度。
25.基于此,本发明实施例提供了一种学籍信息识别方法、装置及电子设备,该技术可以应用于需要对信息进行识别的应用中。
26.为便于对本实施例进行理解,首先对本发明实施例所公开的一种学籍信息识别方法进行介绍,如图1所示,方法包括:
27.步骤s102,获取目标用户的待验证身份信息和目标参考身份信息。
28.上述目标用户可以是学生等需要进行身份验证的用户;上述待验证身份信息通常
是现场采集的信息,如目标用户现场填写或输入的身份信息等,其中通常包括目标用户的姓名、身份证号、家庭信息、包含人脸的照片等;上述目标参考身份信息通常是获取到的能代表目标用户真实身份的信息,比如,从目标用户的身份证上所提取的目标用户的姓名、身份证号、家庭信息、包含人脸的照片等。在实际实现时,当需要对目标用户的身份进行识别时,通常需要先获取该目标用户的待验证身份信息,以及代表该目标用户真实身份的目标参考身份信息。
29.步骤s104,将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高。
30.上述预先训练好的信息匹配模型可以采用以下算法中的任意一种或多种实现:快速最近邻搜索算法、余弦相似度算法、直方图柱状图相似性算法、字符串相似度比较算法等。
31.1.快速最近邻搜索算法
32.快速最近邻搜索算法(fast library for approximate nearest neighbors,以下简称flann),算法在图像识别、数据压缩、模式识别和分类、机器学习、文档检索系统、统计和数据分析等各种应用中,最近邻搜索问题是一个非常重要的问题。然而,在高维空间中解决这个问题似乎是一项非常困难的任务,而且没有任何算法能比标准的蛮力搜索表现得更好。这使得人们对使用近似最近邻搜索的一类算法越来越感兴趣,在大多数实际应用中,这已经证明是一个足够好的近似,在大多数情况下,比执行精确搜索的算法快一个数量级。
33.定义“最邻近搜索”问题如下:在度量空间m中给定一组点p={p1,p2,...,pn},任意给定一个新的查询点q∈m,找到一个元素nn(q,p)∈p,为最接近q的距离d:m
×m→
r:
34.nn(q,p)=argmin
x∈p
d(q,x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
35.最近邻问题主要在于找到一种方法对集合p进行预处理,使操作nn(q,p)可以有效地执行。
36.我们通常感兴趣的不仅仅是找到第一个最近的邻居,而是找到几个最近的邻居。在这种情况下,搜索可以在几个方面进行:以k为中心的最近邻搜索半径(radius nearest neighbor,简称rnn)内返回的邻居数,称之为k-近邻搜索(k-nearest neighbor,简称knn),为表达方便,以以下方式定义k近邻搜索:
37.knn(q,p,k)=a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
38.其中,a是满足以下条件的集合:
[0039][0040][0041]
q表示任意给定的新的查询点;p表示在度量空间m中给定一组点的集合;k表示给定的目标点;a表示以k为中心的最近邻搜索半径内返回的邻居数。
[0042]
最近邻有这样一个特性,即它总是会返回正好是k个近邻(如果p中至少有k个点的话)。
[0043]
rnn定义如下:
[0044]
rnn(q,p,r)={p∈p,d(q,p)《r}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0045]
其中,q表示任意给定的新的查询点;p表示在度量空间m中给定一组点的集合;r表示搜索半径。
[0046]
根据r的选择方式,半径搜索可以返回0到整个数据集之间的任意数量的点。在实践中,将一个较大的r值传递给半径搜索并让搜索返回大量的点通常是非常低效的。半径k近邻搜索(radius k-nearest neighbor,rknn),是k近邻搜索和半径搜索的结合,可以对半径搜索应该返回的点的数量进行限制:
[0047]
rknn(q,p,k,r)=a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0048]
这样
[0049][0050][0051]
最近邻搜索是许多计算机视觉算法的基础部分,在许多其它领域具有重要意义。其中应用最广泛的最近邻技术,主要分为三类:分区树技术、哈希技术和最近邻图技术。
[0052]
在计算机视觉和机器学习中,对于一个高维特征,找到训练数据中的精确最近邻计算代价是昂贵的,所以引起了人们对近似最近邻搜索算法的兴趣,这种算法在某些情况下返回非最优近邻,但可以比较精确搜索快几个数量级。目前来说flann库可以较好地解决这些问题,它是目前最完整的(近似)最近邻开源库,此库不但实现了一系列查找算法,还包含了一种自动选取最快算法的机制。marius muja等学者充分证明了flann不论是在数据应用维度,还是在搜索精度和自动化选择最优算法方面,都体现了其优越性和可实现性;更甚者,他们用实验证明了分布式最近邻匹配框架在flann中的有效性,便于工业生产部署顺利实施。
[0053]
2.余弦相似度算法
[0054]
余弦距离,也称为余弦相似度(cosine similarity),是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公示如下:
[0055][0056]
其中,x表示图片x;y表示图片y;表示图片x的向量表示形式;表示图片y的向量表示形式;θ表示与之间的夹角。
[0057]
把图片表示成一个向量,通过计算向量之间的余弦距离来表征两张图片的相似度。当两个向量之间的夹角θ趋向0时,两个向量越接近,差异就越小。此时cosθ=1,即越接近1值时,说明人脸越相似。
[0058]
3.直方图柱状图相似性算法
[0059]
比如有图像a和图像b,分别计算两幅图像的直方图,hista,histb,然后计算两个直方图的归一化相关系数(巴氏距离,直方图相交距离)等。
[0060]
这种思想是基于简单的数学上的向量之间的差异来进行图像相似程度的度量,这种方法是目前用的比较多的一种方法,第一,直方图能够很好的归一化,比如通常的256个
bin条的。那么两幅分辨率不同的图像可以直接通过计算直方图来计算相似度很方便。而且计算量比较小。
[0061]
4.字符串相似度比较算法
[0062]
定义两个字符串s1和s2的相似度为:
[0063][0064]
其中,dj表示两个字符串s1和s2的相似度;m是匹配的字符数;t是表示错位匹配的字符数目。
[0065]
两个分别来自s1和s2的字符如果相距不超过时,我们就认为这两个字符串是匹配的;不同顺序的匹配字符的数目的一半即为换位的数目t,举例来说,字符martha与marhta都是匹配的,但是这些匹配的字符中,t和h要换位才能把martha变为marhta,那么t和h就是不同的顺序的匹配字符,t=2/2=1.
[0066]
那么这两个字符串的距离即为:
[0067][0068]
另外,为了给予起始部分相同的字符串更高的分数,定义一个前缀p,如果前缀部分有长度为l的部分相同,则字符串相似度定义为:
[0069]dw
=dj+(l
p
(1-dj))
ꢀꢀ
(10)
[0070]
其中,dw表示调整相似度;dj是两个字符串的相似度;l是前缀的相同的长度,通常规定最大为4;p则是调整分数的常数,通常规定不能超过0.25,不然可能出现dw大于1的情况,经验值这个常数定义为0.1。
[0071]
在实际操作过程中,建立的信息匹配模型输出结果以概率的形式呈现,一般是介于0于1之间的小数,为了便于日常操作方便和理解,会将这个小数采用倍数法映射为0-1000分之间的分数值。
[0072]
在实际实现时,将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,可以输出待验证身份信息与目标参考身份信息之间的匹配分数,通常会设置一个分数区间,匹配分数为该分数区间内的一个分值,通常匹配分数越高,表示待验证身份信息和目标参考身份信息的匹配度越高,匹配分数越低,表示待验证身份信息和目标参考身份信息的匹配度越低,可以设置第一分数阈值和第二分数阈值,其中,第一分数阈值高于第二分数阈值,如果匹配分数高于第一分数阈值,可以认为待验证身份信息和目标参考身份信息相匹配,如果匹配分数在第一分数阈值和第二分数阈值之间,可以认为待验证身份信息和目标参考身份信息不完全匹配,即,有部分信息相匹配,部分信息不匹配,这种情况下,可以通常需要对处于该分值区间的待验证身份信息进行线下重点验证;如果匹配分数低于第二分数阈值,可以认为待验证身份信息和目标参考身份信息不匹配;比如,分数区间为0-1000分,如果匹配分数低于300分,可以认为待验证身份信息和目标参考身份信息不匹配,可直接拒绝;如果匹配分数在300-600之间,可以认为待验证身份信息和目标参考身份信息
不完全匹配,比如,有部分信息匹配,部分信息已匹配等,而不会直接拒绝或直接通过;如果匹配分数高于600分,可以认为待验证身份信息和目标参考身份信息相匹配,可直接通过。
[0073]
步骤s106,根据匹配分数确定目标用户的待验证身份信息的识别结果。
[0074]
根据上述匹配分数即可确定对该目标用户的待验证身份信息的识别结果,比如,如果目标用户为学生a,待验证身份信息为学生a在入学考试现场采集的信息,目标参考身份信息为根据该学生a的身份证所采集的信息,由于是同一学生的信息,因此,匹配分数会高于预设的第一分数阈值,即待验证身份信息与目标参考身份信息相匹配,确认该学生为非替代的考生本人参加考试。
[0075]
上述学籍信息识别方法,获取目标用户的待验证身份信息和目标参考身份信息;将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;根据匹配分数确定目标用户的待验证身份信息的识别结果。该方式通过匹配分数表示目标用户的待验证身份信息和目标参考身份信息之间的匹配程度,通过数值化方式,可以实现中间验证数据进行数据描述和统计,进而提高对用户身份识别的准确度。
[0076]
本发明实施例还提供了另一种学籍信息识别方法,该方法在上述实施例方法的基础上实现,该方法包括如下步骤:
[0077]
步骤一,获取目标用户的待验证身份信息和目标参考身份信息。
[0078]
当目标用户的待验证身份信息为对目标用户在入学考试时采集的身份信息,或者在入学报到时采集的身份信息,或者在专业知识复测时采集的身份信息时,或者在毕业时采集的身份信息时,目标参考身份信息为目标用户的身份证信息。
[0079]
当目标用户的待验证身份信息为对目标用户在提交学籍信息时采集的身份时,目标参考身份信息包括:学籍学历信息管理平台中的招生数据。
[0080]
比如,以目标用户为学生为例,参见图2所示的一种学生从报名参加考试至获得毕业证书的流程示意图,其中,在参加考试阶段、学生报到阶段、专业复测阶段、注册学籍阶段和学位评审阶段,需要对考生/学生进行身份识别,以确保为考生本人参加考试、学生本人入校报到以及在校学习并获得相应毕业证书等;本实施例中的方法具体可以由教管系统执行。
[0081]
具体的,在参加考试阶段,通常会现场采集考生信息(对应上述入学考试时采集的身份信息),比如,考生可以现场填报信息等,此时,可以利用预先训练好的信息匹配模型,采用模糊匹配方式进行身份证号和姓名的结构化识别,同时提取该考生在考试当天现场的照片,将在考试现场获取的身份证号、姓名与该考生报考时所提供的身份证号、姓名进行精准比对,将考试现场的人脸照片与该考生报考时所提供的人脸照片进行比对,其中,考生报考时所提供的身份证号、姓名和人脸照片通常为从身份证上所提取的信息,如果匹配分数都较高,比如超过预设的第一分数阈值,则可以确定该考生为非替代的考生本人参加考试,可以排查替考风险。
[0082]
在学生报到阶段,通常会现场采集学生信息(对应上述在入学报到时采集的身份信息),比如,学生可以现场填报信息等,此时,可以利用预先训练好的信息匹配模型,采用模糊匹配方式进行身份证号和姓名的识别,同时提取该学生在报到现场的照片,将在报到
现场获取的身份证号、姓名和人脸照片与从该考生身份证上所提取的身份证号、姓名和人脸照片进行比对,如果匹配分数都较高,比如超过预设的第一分数阈值,则可以确定该考生为非替代的学生本人报到,可以排查替代考生本人报到的风险。
[0083]
在专业复测阶段,通常会现场采集学生信息(对应上述在专业知识复测时采集的身份信息),比如,在学生入校三个月内,可以对其自然人身份和专业进行复测,学生可以现场填报信息等,此时,可以利用预先训练好的信息匹配模型,采用模糊匹配方式进行身份证号和姓名的识别,同时提取该学生在专业复测现场的照片,将在专业复测现场获取的身份证号、姓名和人脸照片与从该考生身份证上所提取的身份证号、姓名和人脸照片进行比对,如果匹配分数都较高,比如超过预设的第一分数阈值,此时可以结合该学生的专业复测成绩确定其专业能力有效性,两类结果结合使用,确定该学生为非替代的学生本人,可以排查学生替考及报到的风险。
[0084]
在注册学籍阶段,当在专业复测阶段的学生身份验证通过后,学校教管系统可以导出该学生的学籍信息,并将该学籍信息提交到学籍学历信息管理平台,将该学生的身份证号和姓名信息与学籍学历信息管理平台中的招生数据进行比对,当确认信息匹配无误后,可以对学生学籍进行申请注册,以确定该学生的学籍身份。
[0085]
在学位评审阶段,通常也会采集学生信息(对应上述在毕业时采集的身份信息),可以基于学生在校期间的学习表现,比如学生在校期间修满学分或所学课程考试达标后,对其毕业资格进行审核,提交学术委员会进行评审,对审核通过的学生,再次将采集的身份证号、姓名和人脸图像与从该考生身份证上所提取的身份证号、姓名和人脸照片进行比对,如果匹配分数都较高,比如超过预设的第一分数阈值,确认该学生为学生本人,将确认后学生的学位信息分别提交至学籍学历信息管理平台和学位网分别进行信息审核,审核通过后,学生获得毕业证和学位证,该学生的学生身份至此结束。
[0086]
由上述可知,本实施例建立了五级身份识别体系,可以对考生报考至毕业全过程的伪冒风险进行早发现、早预警、早处置,以便对学生进行更加精准化管理,缓解因身份识别的精确度较低导致影响对学生本人误判的风险。从招生系统获取的数据分析结果,可对接于教管系统,学生学籍任何异动信息需同步至学籍学历信息管理平台,学生毕业数据需同时上报至学籍学历信息管理平台和学位认证平台,这样可形成学生数据管理闭环,保证信息完整性。建立学校招生系统、教管系统和学籍学历信息管理系统之间数据传输方式的管理体系,建立“线上+线下”双结合模式,以解决疫情环境下传统线下学生身份识别弊端等问题。
[0087]
步骤二,将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高。
[0088]
如果待验证身份信息和目标参考身份信息均为图像,信息匹配模型为用于进行图像匹配的图像匹配模型;如果待验证身份信息和目标参考身份信息均为文本,信息匹配模型为用于进行文本匹配的文本匹配模型。
[0089]
在实际实现时,待验证身份信息中通常包括文本、图像等,因此,当需要进行图像匹配时,信息匹配模型即为相应的图像匹配模型;当需要进行文本匹配时,信息匹配模型即为相应的文本匹配模型。
[0090]
上述信息匹配模型预先通过下述方式训练得到:
[0091]
步骤a,获取训练样本对;其中,训练样本对包括待验证样本和目标参考样本;训练样本对中预先标记有待验证样本和目标参考样本之间的目标匹配分数。
[0092]
在实际实现时,可以获取多个训练样本对,每个训练样本对中包括待验证样本和目标参考样本,并且标记有两者之间的目标匹配分数,其中,通常会有一部分训练样本对为相匹配的样本对,有一部分训练样本对为不匹配的样本对。
[0093]
步骤b,将训练样本对输入至第一信息匹配模型,通过第一信息匹配模型输出初始结果。
[0094]
上述第一信息匹配模型是还未训练的初始的信息匹配模型,在实际实现时,可以将训练样本对输入至该第一信息匹配模型中,输出该训练样本对应的初始结果,该初始结果为通过第一信息匹配模型所预测的该训练样本对中的待验证样本和目标参考样本之间的匹配分数。
[0095]
步骤c,基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到训练完成的信息匹配模型。
[0096]
上述损失函数可以是softmax函数,也可以为其他概率回归函数。在实际实现时,如果初始结果不收敛,即初始结果与目标匹配分数不一致,则继续执行获取获取训练样本对的步骤,直至初始结果收敛,即可得到训练完成的信息匹配模型,通过训练样本对训练合适的匹配策略。
[0097]
该步骤c具体可以通过以下步骤a至步骤d实现:
[0098]
步骤a,基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到第二信息匹配模型。
[0099]
步骤b,获取测试样本对的集合。
[0100]
步骤c,将每个测试样本对输入至第二信息匹配模型中,得到每个测试样本对所对应的测试结果。
[0101]
步骤d,如果每个测试结果指示第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
[0102]
上述第二信息匹配模型可以理解为对第一信息匹配模型初步训练好的模型,该模型是否可以作为最终训练完成的信息匹配模型还需要经过测试样本对的验证;在实际实现时,当得到第二信息匹配模型后,可以获取测试样本对的集合,将测试样本对的集合中的每个测试样本对输入至初步训练好的第二信息匹配模型中,可以得到相应的测试结果,该测试结果可以为该测试样本对中的待验证测试样本和目标参考测试样本的匹配分数,如果每个测试样本对所对应的测试结果与测试样本对的实际匹配分数相符合,可以认为该第二信息匹配模型能作为最终训练完成的信息匹配模型;如果一部分测试样本对所对应的测试结果与测试样本对的实际匹配分数不符合,可以认为该第二信息匹配模型不能作为最终训练完成的信息匹配模型,需要继续重复上述训练过程,直至得到最终训练完成的信息匹配模型。
[0103]
该步骤d具体可以通过以下步骤1至步骤5实现:
[0104]
步骤1,根据每个测试结果,对每个测试样本对按预设方式进行排序,得到排序后的测试样本对。
[0105]
上述每个测试结果对应每个测试样本对的匹配分数,可以按照每个匹配分数从小到大的顺序,对每个测试样本对进行排序,得到排序后的测试样本对。
[0106]
步骤2,对排序后的测试样本划分为多个分割区间。
[0107]
步骤3,针对每个分割区间,获取该分割区间内,匹配成功的第一子测试样本对的数量,以及匹配失败的第二子测试样本对的数量。
[0108]
步骤4,获取测试样本对的集合中,匹配成功的第一测试样本对的数量,以及匹配失败的第二测试样本对的数量。
[0109]
步骤5,基于第一子测试样本对的数量、第二子测试样本对的数量、第一测试样本对的数量,以及第二测试样本对的数量,确定训练完成的信息匹配模型。
[0110]
对排序后的测试样本对进行分割,得到多个分割区间,针对每个分割区间,计算该分割区间内的相匹配的第一子测试样本对的数量,以及不匹配的第二子测试样本对的数量,根据这些数量,以及测试样本对的集合中,所有相匹配的第一测试样本对的数量,确定训练完成的信息匹配模型。
[0111]
该步骤5具体可以通过以下步骤50至步骤54实现:
[0112]
步骤50,将第一子测试样本对的数量除以第一测试样本对的数量,得到第一概率值。
[0113]
步骤51,将第二子测试样本对的数量除以第二测试样本对的数量,得到第二概率值。
[0114]
步骤52,计算第一概率值与第二概率值的差值绝对值。
[0115]
步骤53,从每个分割区间对应的差值绝对值中,选取数值最大的差值绝对值。
[0116]
步骤54,如果数值最大的差值绝对值满足预设阈值,确定第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
[0117]
对于每个分割区间来说,计算每个分割区间内,第一子测试样本对的数量与第一测试样本对的数量之间的比值,即计算该分割区间对应的累计正确概率,记为pg;计算每个分割区间内,第二子测试样本对的数量与第二测试样本对的数量之间的比值,即计算该分割区间对应的累计错误概率,记为pb;并计算pg与pb的离差,在每个分割区间内均计算,记为|p
g-pb|。取离差的最大值,记为max|p
g-pb|,一般地,这个数值越大,表明信息匹配模型越精确,但也防止过大出现过拟合现象出现,比如,可以预先设置以预设阈值,当max|p
g-pb|达到或超过该预设阈值时,可以确认第二信息匹配模型训练完成,可以将第二信息匹配模型确定为训练完成的信息匹配模型。比如,参见图3所示的一种信息匹配结果的示意图,可以将排序后的测试样本的测试结果进行归一化处理,其中,在相似概率值为0.5处,其对应的分割区间的累计错误概率与累计正确概率的离差最大。
[0118]
不论信息匹配模型为图像匹配模型或文本匹配模型,其训练过程均可以采用上述训练方式。另外,本实施例中数值型时间序列的结果检验方法也可用于有验真环节的其它领域,比如金融领域。
[0119]
步骤三,根据匹配分数确定目标用户的待验证身份信息的识别结果。
[0120]
上述学籍信息识别方法,将图像匹配和文本匹配结果的数值进行量化,然后设定
阈值,确定预测序列目标变量分类结果(分为好、坏和不确定),将实际目标变量和预测目标变量进行正确率分析,分别计算;累计好、累计坏样本的概率,计算两个序列的最大离差,通过离差来验证分类结果正确率、误判率等统计属性,且可以通过结果来调整判定阈值,非常方便实用。
[0121]
本发明实施例提供了一种学籍信息识别装置,如图4所示,装置包括:获取模块40,用于获取目标用户的待验证身份信息和目标参考身份信息;输出模块41,用于将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;确定模块42,用于根据匹配分数确定目标用户的待验证身份信息的识别结果。
[0122]
上述学籍信息识别装置,获取目标用户的待验证身份信息和目标参考身份信息;将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;根据匹配分数确定目标用户的待验证身份信息的识别结果。该装置通过匹配分数表示目标用户的待验证身份信息和目标参考身份信息之间的匹配程度,通过数值化方式,可以实现中间验证数据进行数据描述和统计,进而提高对用户身份识别的准确度。
[0123]
进一步的,该装置还包括信息匹配模型训练模块,信息匹配模型预先通过信息匹配模型训练模块训练得到,信息匹配模型训练模块用于:获取训练样本对;其中,训练样本对包括待验证样本和目标参考样本;训练样本对中预先标记有待验证样本和目标参考样本之间的目标匹配分数;将训练样本对输入至第一信息匹配模型,通过第一信息匹配模型输出初始结果;基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到训练完成的信息匹配模型。
[0124]
进一步的,信息匹配模型训练模块还用于:基于初始结果、目标匹配分数和预设的损失函数,调整第一信息匹配模型的模型参数,继续执行获取训练样本对的步骤,直至初始结果收敛,得到第二信息匹配模型;获取测试样本对的集合;将每个测试样本对输入至第二信息匹配模型中,得到每个测试样本对所对应的测试结果;如果每个测试结果指示第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
[0125]
进一步的,信息匹配模型训练模块还用于:根据每个测试结果,对每个测试样本对按预设方式进行排序,得到排序后的测试样本对;对排序后的测试样本划分为多个分割区间;针对每个分割区间,获取该分割区间内,匹配成功的第一子测试样本对的数量,以及匹配失败的第二子测试样本对的数量;获取测试样本对的集合中,匹配成功的第一测试样本对的数量,以及匹配失败的第二测试样本对的数量;基于第一子测试样本对的数量、第二子测试样本对的数量、第一测试样本对的数量,以及第二测试样本对的数量,确定训练完成的信息匹配模型。
[0126]
进一步的,信息匹配模型训练模块还用于:将第一子测试样本对的数量除以第一测试样本对的数量,得到第一概率值;将第二子测试样本对的数量除以第二测试样本对的数量,得到第二概率值;计算第一概率值与第二概率值的差值绝对值;从每个分割区间对应
的差值绝对值中,选取数值最大的差值绝对值;如果数值最大的差值绝对值满足预设阈值,确定第二信息匹配模型训练完成,将第二信息匹配模型确定为训练完成的信息匹配模型。
[0127]
进一步的,如果待验证身份信息和目标参考身份信息均为图像,信息匹配模型为用于进行图像匹配的图像匹配模型;如果待验证身份信息和目标参考身份信息均为文本,信息匹配模型为用于进行文本匹配的文本匹配模型。
[0128]
进一步的,当目标用户的待验证身份信息为对目标用户在入学考试时采集的身份信息,或者在入学报到时采集的身份信息,或者在专业知识复测时采集的身份信息时,或者在毕业时采集的身份信息时,目标参考身份信息为目标用户的身份证信息;当目标用户的待验证身份信息为对目标用户在提交学籍信息时采集的身份时,目标参考身份信息包括:学籍学历信息管理平台中的招生数据。
[0129]
本发明实施例所提供的学籍信息识别装置,其实现原理及产生的技术效果和前述学籍信息识别方法实施例相同,为简要描述,学籍信息识别装置实施例部分未提及之处,可参考前述学籍信息识别方法实施例中相应内容。
[0130]
本发明实施例还提供了一种电子设备,参见图5所示,该电子设备包括处理器130和存储器131,该存储器131存储有能够被处理器130执行的机器可执行指令,该处理器130执行机器可执行指令以实现上述学籍信息识别方法。
[0131]
进一步地,图5所示的电子设备还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
[0132]
其中,存储器131可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0133]
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
[0134]
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器
实现上述学籍信息识别方法,具体实现可参见方法实施例,在此不再赘述。
[0135]
本发明实施例所提供的学籍信息识别方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0136]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种学籍信息识别方法,其特征在于,所述方法包括:获取目标用户的待验证身份信息和目标参考身份信息;将所述待验证身份信息和所述目标参考身份信息发送至预先训练好的信息匹配模型,以通过所述信息匹配模型,输出所述待验证身份信息与所述目标参考身份信息之间的匹配分数;其中,随着所述匹配分数越高,所述待验证身份信息与所述目标参考身份信息之间的匹配度越高;根据所述匹配分数确定所述目标用户的待验证身份信息的识别结果。2.根据权利要求1所述的方法,其特征在于,所述信息匹配模型预先通过下述方式训练得到:获取训练样本对;其中,所述训练样本对包括待验证样本和目标参考样本;所述训练样本对中预先标记有所述待验证样本和所述目标参考样本之间的目标匹配分数;将所述训练样本对输入至第一信息匹配模型,通过所述第一信息匹配模型输出初始结果;基于所述初始结果、所述目标匹配分数和预设的损失函数,调整所述第一信息匹配模型的模型参数,继续执行获取所述训练样本对的步骤,直至所述初始结果收敛,得到训练完成的所述信息匹配模型。3.根据权利要求2所述的方法,其特征在于,基于所述初始结果、所述目标匹配分数和预设的损失函数,调整所述第一信息匹配模型的模型参数,继续执行获取所述训练样本对的步骤,直至所述初始结果收敛,得到训练完成的所述信息匹配模型的步骤包括:基于所述初始结果、所述目标匹配分数和预设的损失函数,调整所述第一信息匹配模型的模型参数,继续执行获取所述训练样本对的步骤,直至所述初始结果收敛,得到第二信息匹配模型;获取测试样本对的集合;将每个所述测试样本对输入至所述第二信息匹配模型中,得到每个所述测试样本对所对应的测试结果;如果每个所述测试结果指示所述第二信息匹配模型训练完成,将所述第二信息匹配模型确定为训练完成的所述信息匹配模型。4.根据权利要求3所述的方法,其特征在于,如果每个所述测试结果指示所述第二信息匹配模型训练完成,将所述第二信息匹配模型确定为训练完成的所述信息匹配模型的步骤包括:根据每个所述测试结果,对每个测试样本对按预设方式进行排序,得到排序后的测试样本对;对排序后的测试样本划分为多个分割区间;针对每个分割区间,获取该分割区间内,匹配成功的第一子测试样本对的数量,以及匹配失败的第二子测试样本对的数量;获取测试样本对的集合中,匹配成功的第一测试样本对的数量,以及匹配失败的第二测试样本对的数量;基于所述第一子测试样本对的数量、所述第二子测试样本对的数量、所述第一测试样本对的数量,以及所述第二测试样本对的数量,确定训练完成的所述信息匹配模型。
5.根据权利要求4所述的方法,其特征在于,基于所述第一子测试样本对的数量、所述第二子测试样本对的数量、所述第一测试样本对的数量,以及所述第二测试样本对的数量,确定训练完成的所述信息匹配模型的步骤包括:将所述第一子测试样本对的数量除以所述第一测试样本对的数量,得到第一概率值;将所述第二子测试样本对的数量除以所述第二测试样本对的数量,得到第二概率值;计算所述第一概率值与所述第二概率值的差值绝对值;从每个分割区间对应的差值绝对值中,选取数值最大的差值绝对值;如果所述数值最大的差值绝对值满足预设阈值,确定所述第二信息匹配模型训练完成,将所述第二信息匹配模型确定为训练完成的所述信息匹配模型。6.根据权利要求1所述的方法,其特征在于,如果所述待验证身份信息和目标参考身份信息均为图像,所述信息匹配模型为用于进行图像匹配的图像匹配模型;如果所述待验证身份信息和目标参考身份信息均为文本,所述信息匹配模型为用于进行文本匹配的文本匹配模型。7.根据权利要求1所述的方法,其特征在于,当所述目标用户的待验证身份信息为对所述目标用户在入学考试时采集的身份信息,或者在入学报到时采集的身份信息,或者在专业知识复测时采集的身份信息时,或者在毕业时采集的身份信息时,所述目标参考身份信息为所述目标用户的身份证信息;当所述目标用户的待验证身份信息为对所述目标用户在提交学籍信息时采集的身份时,所述目标参考身份信息包括:学籍学历信息管理平台中的招生数据。8.一种学籍信息识别装置,其特征在于,所述装置包括:获取模块,用于获取目标用户的待验证身份信息和目标参考身份信息;输出模块,用于将所述待验证身份信息和所述目标参考身份信息发送至预先训练好的信息匹配模型,以通过所述信息匹配模型,输出所述待验证身份信息与所述目标参考身份信息之间的匹配分数;其中,随着所述匹配分数越高,所述待验证身份信息与所述目标参考身份信息之间的匹配度越高;确定模块,用于根据所述匹配分数确定所述目标用户的待验证身份信息的识别结果。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的学籍信息识别方法。10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-7任一项所述的学籍信息识别方法。

技术总结
本发明提供了一种学籍信息识别方法、装置及电子设备,获取目标用户的待验证身份信息和目标参考身份信息;将待验证身份信息和目标参考身份信息发送至预先训练好的信息匹配模型,以通过信息匹配模型,输出待验证身份信息与目标参考身份信息之间的匹配分数;其中,随着匹配分数越高,待验证身份信息与目标参考身份信息之间的匹配度越高;根据匹配分数确定目标用户的待验证身份信息的识别结果。该方式通过匹配分数表示目标用户的待验证身份信息和目标参考身份信息之间的匹配程度,通过数值化方式,可以实现中间验证数据进行数据描述和统计,进而提高对用户身份识别的准确度。进而提高对用户身份识别的准确度。进而提高对用户身份识别的准确度。


技术研发人员:许娜 王莹
受保护的技术使用者:中国戏曲学院
技术研发日:2023.03.09
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐