数字文件智能搜索方法及系统与流程
未命名
07-27
阅读:119
评论:0
1.本发明涉及文件搜索技术领域,尤其涉及一种基于文件内容的数字文件智能搜索方法及系统。
背景技术:
2.随着计算机、互联网技术的不断发展,人们日常工作中处理的数字文件越来越多,导致对这些数字文件的管理和搜索变得越来越困难,往往需要花费较长时间才能找到在先存储的文件。
3.对于传统的文件搜索方式,其通常是通过输入关键字或标签等信息进行搜索,但是这种方式并不能准确、高效地搜索到所有需要的文件。具体地:当需要搜索的存储设备中的文件数量较大时,传统的文件搜索技术通常需要遍历整个文件系统,这样就会花费大量的时间和计算资源,搜索速度会很慢;传统的文件搜索技术只能搜索文件的名称、标签等数据信息,无法根据文件的实际内容进行匹配搜索,如果需要查询文件的内容,就需要先打开文件,然后再使用文本搜索工具进行搜索,这也会大大降低搜索效率。
技术实现要素:
4.本发明的目的是提供一种可有效提升数字文件的搜索效率且可基于数字文件的内容进行搜索的数字文件智能搜索方法及系统。
5.为了实现上述目的,本发明公开了一种数字文件智能搜索方法,其包括:
6.创建索引数据库,所述索引数据库中包括若干索引条,每一所述索引条与存储设备上存储的与搜索标的相关的一数字文件相关联,每一所述索引条中包括若干与相应的所述数字文件的文件内容相关的特征字;
7.获取用户输入的自然语言格式的搜索语句;
8.基于自然语言处理模型对所述搜索语句进行处理,以获取用于搜索的查询语句;
9.通过智能搜索引擎,将所述查询语句与所述索引数据库中的若干索引条逐一匹配,通过所述查询语句与所述索引条中的所述特征字的相似性查询与该查询语句相似度较高的一个或多个索引条,并基于查询到的索引条定位相应数字文件的存储地址。
10.较佳地,所述数字文件包括文档文件,基于所述文档文件生成相应的所述索引条的方法为:
11.将所述文档文件转换成纯文本格式,以获得文本文件;
12.对所述文本文件进行数据清洗,以获得标准数据;
13.采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。
14.较佳地,所述数字文件还包括视频文件,基于所述视频文件生成相应的所述索引条的方法为:
15.提取所述视频文件中记录的图像信息和音频信息,并对所述图像信息和音频信息
进行归纳处理,以获得该视频文件的基本信息;
16.基于大数据采集方法创建视频大数据库,所述视频大数据库记录有若干分别与每一已知视频相对应的且为纯文本格式的视频信息数据条,所述视频信息数据条记录有与该视频相对应的完整信息;
17.基于所述基本信息,从所述视频大数据库中查找并提取与之相应的视频信息数据条,基于查找到的视频信息数据条创建生成文本文件;
18.对所述文本文件进行数据清洗,以获得标准数据;
19.采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。
20.较佳地,所述数字文件还包括音频文件,基于所述音频文件生成相应的所述索引条的方法为:
21.从所述音频文件中提取出基本信息,所述基本信息包括与声音信号相对应的文字信息以及内嵌在所述音频文件中的内嵌信息;
22.基于所述基本信息形成文本文件;
23.对所述文本文件进行数据清洗,以获得标准数据;
24.采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。
25.较佳地,还基于大数据采集方法创建音频大数据库,所述音频大数据库记录有若干分别与每一已知音频相对应的且为纯文本格式的音频信息数据条,所述音频信息数据条记录有与该音频相对应的完整信息;
26.获得与所述音频文件相对应的基本信息后,从所述音频大数据库中查找并提取与之相应的音频信息数据条,基于查找到的音频信息数据条创建生成所述文本文件。
27.较佳地,所述数字文件包括图像文件,基于所述图像文件生成相应的所述索引条的方法为:
28.提取出所述图像文件中的图像所展示的图像信息和内嵌在该图像文件中的内嵌信息,基于所述图像信息和所述内嵌信息形成文本文件;
29.对所述文本文件进行数据清洗,以获得标准数据;
30.采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。
31.较佳地,还基于智能图像识别工具识别所述图像文件中的图像类别,并基于识别到的图像类别形成标签信息,并将所述标签信息添加到基于所述图像信息和所述内嵌信息形成的文本文件中。
32.较佳地,还提供一对话框,通过所述对话框获取所述搜索语句,并通过所述对话框返回并展示搜索结果。
33.本发明还公开一种数字文件智能搜索系统,其包括:
34.一个或多个处理器;
35.存储器;
36.以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的数字文件智能搜索方
法的指令。
37.本发明还公开一种计算机可读存储介质,其包括计算机程序,所述计算机程序可被处理器执行以完成如上所述的数字文件智能搜索方法。
38.与现有技术相比,本发明上述关于数字文件搜索的方案,创建有索引数据库,且该索引数据库中的索引条是基于数字文件的文件内容生成,另外,通过自然语言处理模型对用户输入的搜索语句进行处理,以自动生成可为机器识别的查询语句,然后将该查询语句与索引数据库中的索引条匹配,以查找并定位到相应的数字文件。由此可知,由于索引数据库的建立,可有效提升搜索效率,而且可基于数字文件的内容进行匹配搜索,从而有效提升搜索准确度,并提升使用体验感。
附图说明
39.图1为本发明实施例中搜索方法流程图。
40.图2为本发明实施例中搜索方法所使用的对话框的展示示意图。
具体实施方式
41.为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
42.本实施例公开了一种基于文件内容的数字文件智能搜索方法,以解决现有搜索技术中不能搜索文件内所记载内容的问题。另外,也解决传统的文件搜索方式需要用户手动输入搜索关键词或复杂的搜索语法的问题。
43.如图1,本实施例中的搜索方法包括如下步骤:
44.s1:创建索引数据库,索引数据库中包括若干索引条,每一索引条与存储设备上存储的与搜索标的(可将存储设备上的每一数字文件作为搜索标的,也可将存储设备的部分文件作为标的)相关的一数字文件相关联,每一索引条中包括若干与相应的数字文件的文件内容相关的特征字。
45.s2:获取用户输入的自然语言格式的搜索语句,如“想找一部讲述中国人工智能的视频文件”。
46.s3:基于自然语言处理模型对搜索语句进行处理,以获取用于搜索的查询语句。基于上述搜索语句“想找一部讲述中国人工智能的视频文件”,通过自然语言处理模型的分析,获得的查询语句为:人工智能and视频and中国。本实施例中的自然语言处理模型基于机器学习算法构建,如深度学习、支持向量机等,对大量的语言数据进行训练和学习,其工作过程如下:
47.分词:将用户输入的搜索语句按照词语进行分割,去除多余的空格、标点符号等,得到一个词汇序列;
48.词性标注:对分词后的词汇进行词性标注,即判断每个词汇在句子中的词性,如名词、动词、形容词等;
49.句法分析:分析句子的语法结构,包括句子的成分、句子的结构等;
50.实体识别:识别文本中的实体,如人名、地名、组织机构等;
51.意图识别:根据用户的语言表达,识别用户的意图,如查询、搜索、推荐等;
52.语义理解:将用户的语言转换为机器可以理解的形式,如查询语句或关键字。
53.s4:通过智能搜索引擎,将查询语句与索引数据库中的若干索引条逐一匹配,通过查询语句与索引条中的特征字的相似性查询与该查询语句相似度较高的一个或多个索引条,并基于查询到的索引条定位相应数字文件的存储地址。
54.进一步地,本实施例中的搜索方法还提供一对话框。如图2,用户将以自然语言表达方式的搜索语句输入对话框中,当在后台完成搜索运行后,通过对话框返回并展示搜索结果,以供用户查阅。另外,当通过对话框返回搜索结果时,根据相似度的高低依次展示。
55.具体地,数字文件包括文档文件,该文档文件包括文本、html、xml、pdf、microsoft office文档、openoffice/libreoffice文档、epub、rtf等格式的文件。对此,基于文档文件生成相应的索引条的方法包括以下a1至a3三个步骤。
56.a1:将文档文件转换成纯文本格式,以获得文本文件。当然,对于本身即为文本格式的文件,无需进行格式转换。
57.a2:对文本文件进行数据清洗,以获得标准数据。本实施例中的数据清洗包括清除无用信息(例如html标签)、分词、去除停用词、词干提取或词形还原等。
58.a3:采用倒排索引法(inverted index)存储标准数据中的单词以及相对应的文档列表,以获得索引条。
59.另外,数字文件还包括视频文件,基于视频文件生成相应的索引条的方法包括以下b1至b5几个步骤。
60.b1:提取视频文件中记录的图像信息和音频信息,并对图像信息和音频信息进行归纳处理,以获得该视频文件的基本信息。本实施例中的基本信息包括该视频文件所记录的视频的标题、简介和类型。具体地,基于图像识别算法识别视频中每一帧的图像,基于音频处理算法识别视频中音频的内容,并基于智能分析算法对提取到的图像信息和音频信息进行归纳处理。另外需要说明的是,本实施例中需要用到的图像识别算法、音频处理算法以及智能分析算法本身均为本领域的公知常识,在此不再赘述。
61.b2:基于大数据采集方法创建视频大数据库,视频大数据库记录有若干分别与每一已知视频相对应的且为纯文本格式的视频信息数据条,视频信息数据条记录记录有与该视频相对应的完整信息。另外需要说明的是,视频信息数据条记录的视频信息,为公知所知的视频,例如公映的电影、纪录片等。
62.b3:基于基本信息,从视频大数据库中查找并提取与之相应的视频信息数据条,基于查找到的视频信息数据条创建生成文本文件。在此需要说明的是,对于一些个人拍摄的私有视频文件,根据基本信息在视频大数据库中匹配不到与之相应的视频信息数据条,因此,以该视频的基本信息创建生成文本文件。
63.b4:对文本文件进行数据清洗,以获得标准数据。
64.b5:采用倒排索引法存储标准数据中的单词以及相对应的文档列表,以获得索引条。
65.在本实施例中,由于从视频文件中的图像帧和音频中获得的信息有限,往往不能获得该视频文件的完整信息,例如,对于一战争电影视频,最多能获取到该视频的标题(如“珍珠港”)、简介(略)、类型(“战争”)等基本信息,不能获得该电影视频中的演员信息、上映时间、总时长等信息,而通过视频大数据库中的视频信息数据条却可对视频的基本信息进
行补充,从而获得该视频的完整信息。这样,用户无论输入与目标视频相关的任何信息皆可搜索到该视频文件,从而有效提升搜索的准确性和用户使用体验感。
66.进一步地,数字文件还包括音频文件,基于音频文件生成相应的索引条的方法包括如下c1至c4几个步骤。
67.c1:从音频文件中提取出基本信息,基本信息包括与声音信号相对应的文字信息以及内嵌在音频文件中的内嵌信息。具体地,通过语音识别算法,将音频信息转换为以文本为载体的文字信息,以音乐文件为例,从该文字信息中可获取到歌词、歌手以及作者。采用音频分析和深度学习算法,可从该音频文件中提取包括歌词、歌手、作者、时长等内嵌信息。另外,在对音频文件进行处理过程中,如果基于语音识别获得的文字信息和基于音频分析获得的内嵌信息有重复项,则采用去重处理方式将重复项去除,从而精简基本信息。
68.c2:基于基本信息形成文本文件。
69.c3:对文本文件进行数据清洗,以获得标准数据。
70.c4:采用倒排索引法存储标准数据中的单词以及相对应的文档列表,以获得索引条。
71.较佳地,对于一些公众所知的音频文件,为使得索引条中的特征字最全面反映该音频文件,还基于大数据采集方法创建音频大数据库,音频大数据库记录有若干分别与每一已知音频相对应的且为纯文本格式的音频信息数据条,音频信息数据条记录有与该音频相对应的完整信息。
72.对此,获得与音频文件相对应的基本信息后,从音频大数据库中查找并提取与之相应的音频信息数据条,基于查找到的音频信息数据条创建生成文本文件。本实施例中,通过音频信息数据条来对从音频文件本身获得的基本信息进行补充,从而使得最后生成的索引条所涵盖的特征字更加全面。
73.对于上述实施例中的视频大数据库和音频大数据库,可在存储设备的本地创建,也可设置在云端服务器中。而且,还可基于网络爬虫工具,定时从网络中爬取目标类别的视频和音频数据,以对视频大数据库和音频大数据库进行更新。
74.进一步地,数字文件还包括图像文件,基于图像文件生成相应的索引条的方法包括下述d1至d3几个步骤。
75.d1:提取出图像文件中的图像所展示的图像信息和内嵌在该图像文件中的内嵌信息,基于该图像信息和该内嵌信息形成文本文件。该内嵌信息是指嵌入在数字图像文件中的一组元数据信息,包含了拍摄该图片的设备、拍摄时间、摄影参数、图像属性、gps等相关信息。
76.d2:对文本文件进行数据清洗,以获得标准数据。
77.d3:采用倒排索引法存储标准数据中的单词以及相对应的文档列表,以获得索引条。
78.进一步地,还基于智能图像识别工具识别图像文件中的图像类别,并基于识别到的图像类别形成标签信息,并将标签信息添加到基于图像信息和内嵌信息形成的文本文件中,这样,还可基于用户输入的类别信息,搜索相应的图片,例如,搜索语句为“查找人物图”、“查找带有动物猫的图”、“查找带有树木的图”等。
79.综上,通过上述实施例公开的数字文件智能搜索方法,为用户提供了更符合自然
语言表达习惯的输入方式,而且,基于用户输入的搜索语句自动生成查询语句,进而根据查询语句查询索引数据库,以定位相关搜索文件。由于索引数据库中的索引文件是基于数字文件的内容创建,因此,可搜索到符合用户要求的所有文件,即使忘记数字文件的文件名,也可根据数字文件记录的内容快速查找。
80.例如,如图2,用户想要找到一部讲述工业发展进程的视频文件,可以在对话框中输入搜索语句“查询工业发展进程的视频文件”,系统将从索引数据库中自动搜索相关信息,无论是视频文件名与该搜索语句相关还是视频内容与该搜索语句相关,皆可快速查找出来,并通过对话框返回所定位到的目标视频文件。另外需要说明的是,该对话框还支持语音输入,用户通过语音输入功能说出搜索语句,对话框将用户说出的声音转换为文本内容,进而生成查询语句。再者,该对话框还支持图片输入,也即,以图片搜索图片。在对话框中输入一图片,对话框接受到图片后,通过图片识别和处理算法,识别该图片中包括的特征,根据图片特征生成查询语句,然后从索引数据库中查找相似图片。
81.用同样的方法可以搜索其它更多的内容。如,想要查找某个时间点在哪里拍摄带有什么信息的照片,可以输入搜索语句“查找在东莞拍摄带有身份证的照片”。再如,想要查找内容含有专利信息的文档,可以在对话框中输入搜索语句“找一份含有专利的文档”。再如,想要查找含有某歌手的音频文件,可以在对话框中输入搜索语句“查找xxx的音频文件”。
82.因此,通过上述搜索方法,由于索引数据库的建立,可有效提升搜索效率,而且可基于数字文件的内容进行匹配搜索,从而有效提升搜索准确度,并提升使用体验感。
83.本发明还公开另一种数字文件智能搜索系统,其包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的数字文件智能搜索方法的指令。处理器可以采用通用的中央处理器(central processing unit,cpu),微处理器,应用专用集成电路(application specific integrated circuit,asic),或者一个或多个集成电路,用于执行相关程序,以实现本技术实施例的数字文件智能搜索系统中的模块所需执行的功能,或者执行本技术方法实施例的数字文件智能搜索方法。
84.本发明还公开一种计算机可读存储介质,其包括计算机程序,所述计算机程序可被处理器执行以完成如上所述的数字文件智能搜索方法。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,rom),或随机存取存储器(random access memory,ram),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,dvd)、或者半导体介质,例如,固态硬盘(solid state disk,ssd)等。
85.本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述数字文件智能搜索方法。
86.以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
技术特征:
1.一种数字文件智能搜索方法,其特征在于,包括:创建索引数据库,所述索引数据库中包括若干索引条,每一所述索引条与存储设备上存储的与搜索标的相关的一数字文件相关联,每一所述索引条中包括若干与相应的所述数字文件的文件内容相关的特征字;获取用户输入的自然语言格式的搜索语句;基于自然语言处理模型对所述搜索语句进行处理,以获取用于搜索的查询语句;通过智能搜索引擎,将所述查询语句与所述索引数据库中的若干索引条逐一匹配,通过所述查询语句与所述索引条中的所述特征字的相似性查询与该查询语句相似度较高的一个或多个索引条,并基于查询到的索引条定位相应数字文件的存储地址。2.根据权利要求1所述的数字文件智能搜索方法,其特征在于,所述数字文件包括文档文件,基于所述文档文件生成相应的所述索引条的方法为:将所述文档文件转换成纯文本格式,以获得文本文件;对所述文本文件进行数据清洗,以获得标准数据;采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。3.根据权利要求1所述的数字文件智能搜索方法,其特征在于,所述数字文件还包括视频文件,基于所述视频文件生成相应的所述索引条的方法为:提取所述视频文件中记录的图像信息和音频信息,并对所述图像信息和音频信息进行归纳处理,以获得该视频文件的基本信息;基于大数据采集方法创建视频大数据库,所述视频大数据库记录有若干分别与每一已知视频相对应的且为纯文本格式的视频信息数据条,所述视频信息数据条记录有与该视频相对应的完整信息;基于所述基本信息,从所述视频大数据库中查找并提取与之相应的视频信息数据条,基于查找到的视频信息数据条创建生成文本文件;对所述文本文件进行数据清洗,以获得标准数据;采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。4.根据权利要求2所述的数字文件智能搜索方法,其特征在于,所述数字文件还包括音频文件,基于所述音频文件生成相应的所述索引条的方法为:从所述音频文件中提取出基本信息,所述基本信息包括与声音信号相对应的文字信息以及内嵌在所述音频文件中的内嵌信息;基于所述基本信息形成文本文件;对所述文本文件进行数据清洗,以获得标准数据;采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。5.根据权利要求4所述的数字文件智能搜索方法,其特征在于,还基于大数据采集方法创建音频大数据库,所述音频大数据库记录有若干分别与每一已知音频相对应的且为纯文本格式的音频信息数据条,所述音频信息数据条记录有与该音频相对应的完整信息;获得与所述音频文件相对应的基本信息后,从所述音频大数据库中查找并提取与之相
应的音频信息数据条,基于查找到的音频信息数据条创建生成所述文本文件。6.根据权利要求1所述的数字文件智能搜索方法,其特征在于,所述数字文件包括图像文件,基于所述图像文件生成相应的所述索引条的方法为:提取出所述图像文件中的图像所展示的图像信息和内嵌在该图像文件中的内嵌信息,基于所述图像信息和所述内嵌信息形成文本文件;对所述文本文件进行数据清洗,以获得标准数据;采用倒排索引法存储所述标准数据中的单词以及相对应的文档列表,以获得所述索引条。7.根据权利要求6所述的数字文件智能搜索方法,其特征在于,还基于智能图像识别工具识别所述图像文件中的图像类别,并基于识别到的图像类别形成标签信息,并将所述标签信息添加到基于所述图像信息和所述内嵌信息形成的文本文件中。8.根据权利要求1所述的数字文件智能搜索方法,其特征在于,还提供一对话框,通过所述对话框获取所述搜索语句,并通过所述对话框返回并展示搜索结果。9.一种数字文件智能搜索系统,其特征在于,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1至8任一项所述的数字文件智能搜索方法的指令。10.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序可被处理器执行以完成如权利要求1至8任一项所述的数字文件智能搜索方法。
技术总结
本发明公开了一种数字文件智能搜索方法及系统,该方法包括:创建索引数据库,索引数据库中包括若干索引条,每一索引条与存储设备上存储的与搜索标的相关的一数字文件相关联,每一索引条中包括若干与相应的数字文件的文件内容相关的特征字;获取用户输入的自然语言格式的搜索语句;基于自然语言处理模型对搜索语句进行处理,以获取用于搜索的查询语句;将查询语句与索引数据库中的若干索引条逐一匹配,查询与该查询语句相似度较高的一个或多个索引条,并基于查询到的索引条定位相应数字文件的存储地址。基于上述方法,可有效提升搜索效率,而且可基于数字文件的内容进行匹配搜索,从而有效提升搜索准确度,并提升使用体验感。并提升使用体验感。并提升使用体验感。
技术研发人员:刘文杰
受保护的技术使用者:广东一一五科技股份有限公司
技术研发日:2023.04.21
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
