一种购物小票识别方法及系统与流程

未命名 10-09 阅读:136 评论:0


1.本发明涉及电子商务操作系统技术领域,尤其涉及一种购物小票识别方法及系统。


背景技术:

2.商城、超市、门店在售出商品时会将商品明细和价格打印在小票上,客户可通过小票核对消费内容。小票信息在商家结算系统中有存根,商家可通过小票编号调取小票内容。但商家结算系统属于机密,不会透露给外人。
3.零售商在选址时会委托第三方做市场调查,第三方为了解商区客流量、消费水平、消费内容、消费特点等信息,通常会采用以下方式采集信息:1、送礼品吸引志愿者,填写调查表;2、回收购物小票,然后统计小票上的信息;3、其他方法。
4.方式2中需要对购物小票进行数据统计,人工统计的方法效率底下,采用自动化设备可提高效率,购物小票信息的采集属于图像处理技术,是一种对小票进行关键数据提取的技术。关键数据是指单笔消费金额、小票流水号、交易时间、交易明细等数据。通过对数据的汇总,可以获得商户的单笔消费金额、营收、客单价,并可绘制交易时间曲线。从而为零售商提供有说服力的调查报告。
5.现有技术已经可以对图片中的数字、文字进行采集并转化为数据。如附图1所示,现有技术包括图片识别模块、文本处理模块,“图片识别模块”先对小票图片进行识别成文本,然后“文本处理模块”对识别后的文本内容进行关键数据提取。该技术存在的不足是:1.需要人工校准导致成本高;2.识别整个小票图片涉及大量计算,耗时长。


技术实现要素:

6.本发明针对现有技术需要人工校准导致数据提取成本高的问题,提供了一种购物小票识别方法及系统,识别准确度高、降低了人工校准的时间成本,可快速对购物小票进行数据提取,提高了工作效率。
7.本发明解决技术问题的技术方案为:本发明的实施例提供了一种购物小票图片识别方法,包括以下步骤:
8.a、图片处理,先后对购物小票图片进行灰度化、二值化处理,得到一张黑白两色的图片a,此时图片a的文字为黑色,背景为白色;
9.b、图片布局分析:通过纵轴和横轴的像素投影对图片a进行计算,像素投影的谷底部分既为文字边界,应用间隔阀值将同一行连续的文字划分为一个矩形区域,区域的边界与文字的边界一致,得到一系列具备矩形区域的图片b;
10.c、模板对比:将步骤b中得到的图片b与模板进行布局对比,如无相同布局的模板则根据步骤b中得到的图片b制作模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集;如有相同布局的模板则按照模板指定的数据采集区采集数据;
11.d、将步骤c中采集的像素数据转化为文字并存入数据库。
12.作为优化,所述步骤c中“制作模板”还包括保存关键字域以及关键字域与数值域之间的向量差。
13.作为优化,所述c中“有相同布局的模板则按照模板指定的数据采集区采集数据”具体分为两步:第一步、通过opencv的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域。
14.作为优化,所述步骤c中还包括对图片b中的干扰图像,如直线、虚线、竖线、表格线进行过滤。
15.作为优化,所述步骤c中人工框定的矩形区域在同类小票中文本格式、文本内容、在小票中的位置至少有一项是固定的。
16.作为优化,所述步骤c中人工框定图片b上全部或部分矩形区域为模板。
17.本发明的实施例还提供了一种购物小票识别系统,包括图片采集模块、图片识别模块、文本处理模块、数据库,图片采集模块拍摄小票图片并将图片传送给图片识别模块,图片识别模块对小票图片进行图片识别转化为文本数据并将文本数据传送给文本处理模块,文本处理模块处理文本数据后得到关键数据并将关键数据存入数据库。
18.作为优化,所述图片识别模块还包括模板库,模板库中储存有固定布局的模板。
19.作为优化,所述模板还保存有关键字域的像素或文本数据以及关键字域与数值域之间的向量差。
20.发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
21.1.同一收银台的同类小票具有布局相似性,本发明根据这个规律,把提取小票图片数据的方法分成四个要素:1.小票图片布局分析;2.模板生成;3.定位数据采集区;4.区域数据快速识别。通过以上四个要素的改进,降低了提取数据的成本,提高了数据识别的速度。
22.2.由于数据采集区锁定,识别数据需要的字库针对性强,针对性越强的字库,制作和识别效率越高,识别结果也越精准;只识别数据采集区的像素数据,节约了资源,提高了效率。
23.3.本发明通过关键字域查找数据区域的算法,量化了同类小票布局的相似性,并把这种布局相似性注入到模板中。应用该方法制定模板具有自动化程度高、效率高、准确度高等优势,大幅降低了人工成本。
24.4.本发明依赖算法创新,精简了参数输入,同时把比较、核对、修正等人力工作转变为自动计算,大幅减少了对人力的依赖。制作模板只需要简单培训,取消了对上岗人员专业和知识的要求。通过算法生成的模板,过程科学,结果准确,大幅降低了模板修正的发生率。
25.5.本发明设计了小票图片布局分析算法,实现了小票图片文字内容的分区划块,对小票图片中的干扰图像,如直线、虚线、竖线、表格线进行了过滤。该方法量化了小票图片中的有效数据布局,为后续通过计算找到数据区域提供了可行性。
附图说明
26.图1为现有技术的结构原理图。
27.图2为发票图片经过图片处理后得到的图片a。
28.图3为图片a经过图片布局分析后得到的图片b。
29.图4为图片b制作成模板时人工框定的区域划分图。
30.图5为本发明一种实施例的流程图。
31.图6为本发明一种实施例的结构原理图。
具体实施方式
32.为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“安装”、“相连”、“连接”应做广义理解,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
33.图2至图6为本发明的一种实施例,如图5所示,一种购物小票图片识别方法,包括以下步骤:
34.a、图片处理,先后对购物小票图片进行灰度化、二值化处理,得到一张黑白两色的图片a,此时图片a的文字为黑色,背景为白色;
35.b、图片布局分析:通过纵轴和横轴的像素投影对图片a进行计算,像素投影的谷底部分既为文字边界,应用间隔阀值将同一行连续的文字划分为一个矩形区域,区域的边界与文字的边界一致,得到一系列具备矩形区域的图片b;图2为图片a,收银小票图片原件,图3为图片b,通过图片布局分析算法获得的小票布局结果。
36.c、模板对比:将步骤b中得到的图片b与模板进行布局对比,如无相同布局的模板则根据步骤b中得到的图片b制作模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集,保存关键字域以及关键字域与数值域之间的向量差。图4中a区域为人工框定的模板取样区,b、c区域为模板指定的数据采集区,其中b区域中的矩形区域为关键字域,如“合计:”,c区域中的矩形区域为数值域,如“24.00”。制作模板时,关键字域与数值域之间的向量差通过计算得出。如有相同布局的模板则按照模板指定的数据采集区采集数据;模板数量为零视为无相同布局的模板。
37.d、将步骤c中采集的像素数据转化为文字并存入数据库。
38.同一收银台的同类小票具有布局相似性。本发明根据这个规律,把提取小票图片数据的方法分成四个要素:1.小票图片布局分析;2.模板生成;3.定位数据采集区;4.区域数据快速识别。通过以上四个要素的改进,降低了提取数据的成本,提高了数据识别的速
度。
39.本发明提供了快速查找关键数据区域的算法,依托精确模板,计算过程简单直接,普通移动设备即可完成。由于数据采集区锁定,识别数据需要的字库针对性强。众所周知,针对性越强的字库,制作和识别效率越高,识别结果也越精准。
40.所述c中“有相同布局的模板则按照模板指定的数据采集区采集数据”具体分为两步:第一步、通过opencv的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域。模板是存储布局特征的文件,同类小票具有布局相似性,因此可以用一种模板处理一类小票。如图4所示,以关键字域“新西兰肉串”为例,其后方的数值域有两个,分别为“1.00”、“12.00”,关键字域与其后方的数值域之间的向量差也有两组,保存这两组向量差,便能够根据关键字域快速查找到数值域。本发明通过关键字域查找数据区域的算法,量化了同类小票布局的相似性,并把这种布局相似性注入到模板中。应用该方法制定模板具有自动化程度高、效率高、准确度高等优势,大幅降低了人工成本。本发明依赖算法创新,精简了参数输入,同时把比较、核对、修正等人力工作转变为自动计算,大幅减少了对人力的依赖。制作模板只需要简单培训,取消了对上岗人员专业和知识的要求。通过算法生成的模板,过程科学,结果准确,大幅降低了模板修正的发生率。
41.所述步骤c中还包括对图片b中的干扰图像,如直线、虚线、竖线、表格线进行过滤。本发明设计了小票图片布局分析算法,实现了小票图片文字内容的分区划块,对小票图片中的干扰图像,如直线、虚线、竖线、表格线进行了过滤。该方法量化了小票图片中的有效数据布局,为后续通过计算找到数据区域提供了可行性。
42.所述步骤c中人工框定的矩形区域在同类小票中文本格式、文本内容、在小票中的位置至少有一项是固定的。如图4所示,“正新鸡排”、“精品店”等矩形区域的文本格式、文本内容、在小票中的位置都是固定的,“00”、“结账时间:2017-08-22”等的文本格式、在小票中的位置是固定的,但文本内容不固定。可框定a区域中的部分或全部矩形区域为模板元素。优先选择文本格式、文本内容、在小票中的位置都是固定的矩形区域。
43.所述步骤c中人工框定图片b上全部或部分矩形区域为模板。
44.关键字域为图4的b区域中矩形区域之一,关键字域推荐算法用于甄别关键字域。对数据采集区的数据进行采集,具体的,第一步、确定关键字域:在小票上画一矩形,所画位置要框住目标数值域。对矩形区域和数值域进行位置向量差计算,计算结果保存在a。对另一张同类小票做同样的计算,结果保存为b。对计算后的a、b两组结果进行相似性匹配,对通过匹配的矩形区域按距离最近排序,选择排序靠前的区域按可能性规则打分,选取得分最高的区域在小票中的坐标作为关键字域。关键字域及其像素值、数值域都是模板的重要元素。第二步,确定数据区域:该算法是对同一收银台其他同类小票进行数据区域查找定位。根据生成的模板和目标小票进行计算,分为两步:第一步从模板提取关键字域的像素值,在目标小票图片中通过opencv的相关性算法找到关键字域;第二步根据模板中关键字域和数值域的位置向量差,计算得出目标小票的数值域,即数值域=关键字域+向量差。该数值域就是数据区域。
45.像素数据转化为文本:识别关键数据,调用识别模块,对数据采集区进行识别,获得关键数据。由于该数据区域内容是数字和字母,因此识别模块采用针对数字和字母的字库。
46.关键字域:在同一类收银小票图片上具有像素相似特征的矩形区域。
47.关键字域像素值:关键字矩形区域内的图像像素值。
48.数值域:收银小票图片上包含关键数据的矩形区域。
49.opencv:opencv是一个基于bsd许可(开源)发行的跨平台计算机视觉库,实现了图像处理和计算机视觉方面的很多通用算法。
50.opencv的相关性算法:由opencv提供的,能在一个图像内找到目标图像的算法。
51.如图6所示,一种购物小票识别系统,包括图片采集模块、图片识别模块、文本处理模块、数据库,图片采集模块拍摄小票图片并将图片传送给图片识别模块,图片识别模块对小票图片进行图片识别转化为像素数据并将像素数据传送给文本处理模块,文本处理模块处理像素数据后得到文本数据并将文本数据存入数据库。所述图片识别模块还包括模板库,模板库中储存有固定布局的模板。所述模板还保存有关键字域的像素数据以及关键字域与数值域之间的向量差。
52.上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:
1.一种购物小票图片识别方法,其特征是,包括以下步骤:a、图片处理,先后对购物小票图片进行灰度化、二值化处理,得到一张黑白两色的图片a,此时图片a的文字为黑色,背景为白色;b、图片布局分析:通过纵轴和横轴的像素投影对图片a进行计算,像素投影的谷底部分既为文字边界,应用间隔阀值将同一行连续的文字划分为一个矩形区域,区域的边界与文字的边界一致,得到一系列具备矩形区域的图片b;c、模板对比:将步骤b中得到的图片b与模板进行布局对比,如无相同布局的模板则根据步骤b中得到的图片b制作模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集;如有相同布局的模板则按照模板指定的数据采集区采集数据;d、将步骤c中采集的像素数据转化为文字并存入数据库。2.根据权利要求1所述的一种购物小票识别方法,其特征是,所述步骤c中“制作模板”还包括:保存关键字域以及关键字域与数值域之间的向量差。3.根据权利要求2所述的一种购物小票识别方法,其特征是,所述c中“有相同布局的模板则按照模板指定的数据采集区采集数据”具体分为两步:第一步、通过opencv的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域。4.根据权利要求1所述的一种购物小票识别方法,其特征是,所述步骤c中还包括对图片b中的干扰图像,如直线、虚线、竖线、表格线进行过滤。5.根据权利要求1所述的一种购物小票识别方法,其特征是,所述步骤c中人工框定的矩形区域在同类小票中文本格式、文本内容、在小票中的位置至少有一项是固定的。6.根据权利要求1所述的一种购物小票识别方法,其特征是,所述步骤c中人工框定图片b上全部或部分矩形区域为模板。7.一种购物小票识别系统,使用权利要求1至6任一权利要求所述的一种购物小票识别方法,其特征是:包括图片采集模块、图片识别模块、文本处理模块、数据库,图片采集模块拍摄小票图片并将图片传送给图片识别模块,图片识别模块对小票图片进行图片识别转化为像素数据并将像素数据传送给文本处理模块,文本处理模块处理像素数据后得到文本数据并将文本数据存入数据库。8.根据权利要求7所述的一种购物小票识别系统,其特征是:所述图片识别模块还包括模板库,模板库中储存有固定布局的模板。9.根据权利要求8所述的一种购物小票识别系统,其特征是:所述模板还保存有关键字域的像素数据以及关键字域与数值域之间的向量差。

技术总结
本发明公开了一种购物小票识别方法及系统,包括以下步骤:A、图片处理;B、图片布局分析;C、模板对比:将步骤B中得到的图片b与模板进行布局对比,如无相同布局的模板则将步骤B中得到的图片b制作成模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集,保存关键字域以及关键字域与数值域之间的向量差;如有相同布局的模板则按照模板指定的数据采集区采集数据,具体分为两步:第一步、通过OpenCV的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域;D、将步骤C中采集的像素数据转化为文字并存入数据库。素数据转化为文字并存入数据库。素数据转化为文字并存入数据库。


技术研发人员:刘振国 赵润泽 高涛
受保护的技术使用者:上海谦贸信息科技有限公司
技术研发日:2023.04.23
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐