调查对象确定方法、装置、介质及电子设备与流程
未命名
08-26
阅读:109
评论:0
1.本技术属于计算机技术领域,具体涉及一种调查对象确定方法、调查对象确定装置、计算机可读介质及电子设备。
背景技术:
2.抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
3.然而,在一个大业务场景下,可能会在对调查研究对象进行多次抽样后,对获得的样本进行调查。其中,为保证抽样调查任务的可靠性,每个抽样调查任务要保证足够的抽样样本数量,导致投入调查的人力成本会提升,最终形成抽样调查的人力成本过高的问题。为了降低抽样调查的人力成本,可以降低样本总量,但是样本数量的减少又会降低抽样调查任务的可靠性,造成两难的问题。
4.因此,如何在降低样本总量的同时保证抽样调查任务的可靠性,是亟需解决的技术问题。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
6.本技术的目的在于提供一种调查对象确定方法、装置、介质及电子设备,至少在一定程度上克服相关技术中如何在降低样本总量的同时保证抽样调查任务的可靠性的技术问题。
7.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
8.根据本技术实施例的一个方面,提供一种调查对象确定方法,所述调查对象确定方法包括:
9.对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个所述抽样调查任务对应的样本集合,所述抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务;
10.从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将所述属于预设样本类型的样本组成样本交集;
11.比较所述样本交集中来自各个样本集合的样本数量,得到所述来自各个样本集合的样本数量中的最大数量;
12.按照所述最大数量,对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集;
13.根据更新后的样本交集更新所述样本集合中属于所述预设样本类型的样本,将所述更新后的样本集合中的样本,确定为各个所述抽样调查任务对应的调查对象。
14.根据本技术实施例的一个方面,提供一种调查对象确定装置,所述调查对象确定装置包括:
15.抽样模块,被配置为对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个所述抽样调查任务对应的样本集合,所述抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务;
16.样本交集获取模块,被配置为从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将所述属于预设样本类型的样本组成样本交集;
17.最大数量确定模块,被配置为比较所述样本交集中来自各个样本集合的样本数量,得到所述来自各个样本集合的样本数量中的最大数量;
18.样本交集更新模块,被配置为按照所述最大数量,对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集;
19.调查对象确定模块,被配置为根据更新后的样本交集更新所述样本集合中属于所述预设样本类型的样本,将所述更新后的样本集合中的样本,确定为各个所述抽样调查任务对应的调查对象。
20.在本技术的一些实施例中,基于以上技术方案,所述抽样模块包括:
21.层划分单元,被配置为获取至少两个抽样调查任务,并根据分层类型将各个所述抽样调查任务的全及总体划分成一个或多个层;
22.分层抽样单元,被配置为在各个所述抽样调查任务中,针对所述全及总体的各个层分别进行抽样得到各层对应的样本集合;
23.所述调查对象确定装置还包括:
24.预设样本类型获取单元,被配置为将来自不同所述抽样调查任务的至少两个层的所属分层类型的交叠类型,确定为所述预设样本类型。
25.在本技术的一些实施例中,基于以上技术方案,所述调查对象确定装置还包括:
26.第一标记单元,被配置为根据所述样本集合所在的抽样调查任务对所述样本集合中的样本作出第一标记;
27.第二标记单元,被配置为根据所述样本集合对应的层所属的分层类型对所述样本集合中的样本作出第二标记;
28.所述最大数量确定模块包括:
29.最大数量确定单元,被配置为根据所述样本交集中的样本的第一标记和第二标记,比较所述样本交集中来自各个样本集合的样本数量。
30.在本技术的一些实施例中,基于以上技术方案,所述至少两个抽样调查任务包括至少一个已进行抽样的抽样调查任务和至少一个未进行抽样的抽样调查任务,所述调查对象确定装置还包括:
31.交叠类型获取单元,被配置为获取已进行抽样的抽样调查任务的至少一层所属的第一分层类型和未进行抽样的抽样调查任务的至少一层所属的第二分层类型的交叠类型;
32.已抽样任务样本转用单元,被配置为将所述已进行抽样的抽样调查任务所获得的样本中,属于所述交叠类型的样本,作为所述未进行抽样的抽样调查任务在所述第二分层
类型的层中抽取的样本。
33.在本技术的一些实施例中,基于以上技术方案,所述调查对象确定装置还包括:
34.样本替代第一单元,被配置为采用更新后的样本交集的样本,替代所述最大数量所对应来自的样本集合中处于更新前的样本交集中的样本。
35.在本技术的一些实施例中,基于以上技术方案,所述最大数量确定模块包括:
36.样本数量统计单元,被配置为统计所述样本交集中来自各个样本集合的样本数量;
37.数量排序单元,被配置为对所述样本交集中来自各个样本集合的样本数量进行排序,得到从最大数量到最小数量依次排序的样本数量。
38.在本技术的一些实施例中,基于以上技术方案,所述调查对象确定装置还包括:
39.样本子集获取单元,被配置为按照下一排序数量,对更新后的样本交集进行抽样,将抽样得到的样本组成样本子集,直到不存在所述下一排序数量;
40.样本替代第二单元,被配置为采用所述样本子集的样本,替代所述下一排序数量所对应来自的样本集合中处于更新前的样本交集中的样本。
41.根据本技术实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的调查对象确定方法。
42.根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器被配置为经由执行可执行指令来执行如以上技术方案中的调查对象确定方法。
43.根据本技术实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的调查对象确定方法。
44.在本技术实施例提供的技术方案中,对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合;从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将属于预设样本类型的样本组成样本交集;比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量;按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集;再根据更新后的样本交集更新样本集合中属于预设样本类型的样本,将更新后的样本集合中的样本,确定为各个抽样调查任务对应的调查对象。由此,能够在样本交集中随机抽取最大数量个样本,得到更新后的样本交集,实现对于样本交集的降量;从而能够在不降低每个样本集合的样本量的情况下,实现对于多个样本集合的样本总量的降量,从而能够在降低多个抽样调查任务对应的调查对象的总量的同时,保证单个抽样调查任务的调查对象数量,进而能够在降低对多个抽样调查任务对应的调查对象进行调查的总人力成本的同时,保证各个抽样调查任务的调查可靠性。
45.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
46.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1示意性地示出了应用本技术技术方案的示例性装置架构框图。
48.图2示意性地示出了本技术某些实施方式的调查对象确定方法的步骤流程图。
49.图3示意性地示出了本技术某些实施方式的一个抽样调查任务的全及总体a和另一个抽样调查任务的全及总体b的交集重叠情况示意图。
50.图4示意性地示出了本技术某实施例中对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合的步骤流程图。
51.图5示意性地示出了本技术某实施例中来自不同抽样调查任务的全及总体的至少两个层的所属分层类型的交叠类型的确定方式的场景示意图。
52.图6示意性地示出了本技术某实施例中在各个抽样调查任务中,针对全及总体的各个层分别进行抽样得到各层对应的样本集合之后的步骤流程图。
53.图7示意性地示意出本技术某实施例根据样本集合所在的抽样调查任务对样本集合中的样本作出第一标记,根据样本集合对应的层所属的分层类型对样本集合中的样本作出第二标记的具体示意图。
54.图8示意性地示出了本技术某实施例获取至少两个抽样调查任务,并根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层之前的步骤流程图。
55.图9示意性地示出了本技术某实施例中比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量的步骤流程图。
56.图10示意性地示出了本技术某实施例中按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集之后的步骤流程图。
57.图11示意性地示出了本技术某些实施方式的调查对象确定方法的具体步骤流程的示意图。
58.图12示意性地示出了本技术实施例提供的调查对象确定装置的结构框图。
59.图13示意性地示出了用于实现本技术实施例的电子设备的计算机系统结构框图。
具体实施方式
60.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
61.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
62.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。
即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
63.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
64.在对本技术实施例提供的调查对象确定方法、调查对象确定装置等技术方案作出详细说明之前,先对本技术部分实施例中涉及的云技术进行简单介绍。
65.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
66.云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
67.作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
68.按照逻辑功能划分,在iaas(infrastructure as a service,基础设施即服务)层上可以部署paas(platform as a service,平台即服务)层,paas层之上再部署saas(software as a service,软件即服务)层,也可以直接将saas部署在iaas上。paas为软件运行的平台,如数据库、web容器等。saas为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,saas和paas相对于iaas是上层。
69.云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
70.数据库(database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
71.数据库管理系统(英语:database management system,简称dbms)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、xml(extensible markup language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如sql(结构化查询语言(structured query language)、xquery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些dbms能够跨类别,例如,同时支持多种查询语言。
72.本技术实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。
73.下面结合具体实施方式对本技术提供的调查对象确定方法及装置做出详细说明。
74.图1示意性地示出了应用本技术技术方案的示例性装置架构框图。
75.如图1所示,装置架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式装置,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
76.根据实现需要,本技术实施例中的装置架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本技术实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本技术对此不做特殊限定。
77.举例而言,服务器130可以执行本技术提供的调查对象确定方法,对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合;从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将属于预设样本类型的样本组成样本交集;比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量;按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集;再根据更新后的样本交集更新样本集合中属于预设样本类型的样本,将更新后的样本集合中的样本,确定为各个抽样调查任务对应的调查对象。可以理解,该最大数量一般小于样本交集的样本总数量。由此,在样本交集中随机抽取最大数量个样本,得到更新后的样本交集,能够实现对于样本交集的降量;从而能够在不降低每个样本集合的样本量的情况下,实现对于多个样本集合的样本总量的降量,从而能够在降低多个抽样调查任务对应的调查对象的总量的同时,保证单个抽样调查任务的调查对象数量,进而能够在降低对多个抽样调查任务对应的调查对象进行调查的总人力成本的同时,保证各个抽样调查任务的调查结果的可靠性。
78.下面结合具体实施方式对本技术提供的调查对象确定方法做出详细说明。
79.图2示意性地示出了本技术某些实施方式的调查对象确定方法的步骤流程图。该调查对象确定方法的执行主体可以是终端设备,也可以是服务器等,本技术对此不设限。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本发明实施例可应用于云技术、人工智能、地图交通、智慧交通、辅助驾驶、用户调研等各种场景。
80.如图2所示,该调查对象确定方法主要可以包括如下步骤s210~步骤s250。
81.s210.对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合,抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务。
82.具体地,多个抽样调查任务可以是在一个业务场景下的多个抽样调查任务。或者,多个调查任务可以是在多个不同的业务场景下的多个抽样调查任务。对抽样得到的样本进行调查,具体地,可以是电子问卷调查、纸质问卷调查、电话调查、上门拜访调查、实地调查等,本技术对此不作特殊限制。抽样调查任务的调查结果可以包括量化式结果、结论式结果
等。例如,调查结果可以是居民身高平均值、居民年龄中位数、用户对于服务的满意度等,或者,调查结果可以是消费者对于电影类型的偏好、影响用户满意度的原因、用户对于某类商品的购买意愿等。
83.在相似的业务场景或者同一业务场景下,不同抽样调查任务的全及总体很可能具有很大的重叠部分。全及总体也可以是统计总体、调查总体等。全及总体是包含抽样调查任务所研究的全部对象的集合。例如,全及总体可以是由多个企业构成的集合,多个居民户构成的集合,或者多个人构成的集合,等等。例如,图3示意性地示出了本技术某些实施方式的一个抽样调查任务的全及总体a和另一个抽样调查任务的全及总体b的交集重叠情况示意图。如图3所示,全及总体a有1095万的研究对象,全及总体b有367万的研究对象,该全及总体a和全及总体b有120万的重叠部分,该重叠部分占全及总体a和全及总体b的总数量的9%。全及总体a中除了重叠部分之外有975万的研究对象,占全及总体a和全及总体b的总数量的73%;全及总体b中除了重叠部分之外有247万的研究对象,占全及总体a和全及总体b的总数量的18%。由此,可以从对全及总体a进行抽样得到的样本集合中,以及对全及总体b进行抽样得到的样本集合中,分别筛选出属于该全及总体a和全及总体b的120万的重叠部分的样本,组成样本交集。
84.s220.从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将属于预设样本类型的样本组成样本交集。
85.在一些实施方式中多个样本集合可以为两个样本集合,则样本交集由从两个样本集合的抽样样本中筛选出属于预设样本类型的样本组成。或者,多个样本集合可以为三个样本集合,样本交集由三个样本集合的抽样样本中筛选出属于预设样本类型的样本组成。或者,多个样本集合可以为更多个样本集合。则样本交集则是对应的更多个样本集合中,属于预设样本类型的样本组成的样本交集。本技术对样本集合的数量不作限制。
86.具体地,样本集合可以是通过简单随机抽样得到的样本集合。简单随机抽样在全及总体中随机抽取一定数量的数据组成样本数据;简单随机抽样的优点是能获得良好代表性的研究样本,操作实施也比较容易理解。
87.在一些实施方式中,样本集合可以是通过分层抽样得到的样本集合。分层抽样将全及总体分成若干分布不均匀、互不重叠的部分(即分层),每个层中的数据具有相似的属性,那么可以按比例从各层随机抽取数据组成样本数据。具体地,分层抽样的分层方式,可以是层内变异越小越好,层间变异越大越好,这样可以提高样本的代表性,便于层间进行比较。分层抽样不一定每个个体被抽中的概率相等,有可能处于不同分层之间的个体被抽中概率是不同的。
88.图4示意性地示出了本技术某实施例中对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合的步骤流程图。如图4所示,在以上实施例的基础上,步骤s210的对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合,可以进一步包括以下步骤s410和步骤s420。
89.s410.获取至少两个抽样调查任务,并根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层;
90.s420.在各个抽样调查任务中,针对全及总体的各个层分别进行抽样得到各层对应的样本集合;
91.在步骤s220的从多个样本集合的抽样样本中筛选出属于预设样本类型的样本之前,可以进一步包括以下步骤s430:
92.s430.将来自不同抽样调查任务的至少两个层的所属分层类型的交叠类型,确定为预设样本类型。
93.具体地,根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层,其中,分层类型可以根据全及总体的研究对象属性,例如年龄、性别、病程、临床亚型、教育程度等信息进行划分。可以理解,实际业务中研究对象的属性往往分布很不均衡,因此,分层抽样使得抽样过程能耐根据研究对象的分布逐层进行抽样,从而能够提高样本的代表性。
94.在抽样时,抽取的样本量可以参照如下方法计算:
[0095][0096]
其中,α为置信度,置信度例如可以为0.95。u为统计量。当α为0.95时,u为1.96。当α为0.90时,u为1.64。s2为样本方差。λ为样本上的统计指标的波动率。波动率λ可以根据对抽样调查任务输出的调查结果的精度要求做对应调整。
[0097]
图5示意性地示出了本技术某实施例中来自不同抽样调查任务的全及总体的至少两个层的所属分层类型的交叠类型的确定方式的场景示意图。如图5所示,获取两个抽样调查任务,并获取第一抽样调查任务的全及总体c,获取第二抽样调查任务的全及总体d。根据分层类型“年龄0-20岁”、“年龄20-60岁”、“年龄60岁以上”将全及总体c划分为3个层:层1所属的分层类型为“年龄0-20岁”、层2所属的分层类型为“年龄20-60岁”、层3所属的分层类型为“年龄60岁以上”。根据分层类型“性别男”、“性别女”将全及总体d划分为两个层:层4所述的分层类型为“性别男”、层5所属的分层类型为“性别女”。
[0098]
再将来自不同抽样调查任务的至少两个层的所属分层类型的交叠类型,确定为预设样本类型。例如,如图5所示,将层1与层4的交叠区域c的分类类型,也即层1的所属分层类型“年龄0-20岁”和层4的所属分层类型“性别男”的交叠类型“年龄0-20岁的男性”确定为预设样本类型。然后,将属于预设样本类型的样本组成样本交集。可以理解,样本交集中的样本一般不是来自于单个样本集合,因此,后续步骤s240中的“最大数量”小于样本交集的总样本数量。如此,能够将来自不同抽样调查任务的至少两个层的交叠区域对应的交叠类型确定为预设样本类型,从而能够通过按照来自各个样本集合的样本数量中的最大数量,对样本交集进行抽样后得到更新后的样本交集,实现对样本交集的样本,也即交叠区域中的样本的降量,从而能够降低层1和层4的样本总数量,进而能够减少层1和层4对应的调查对象的总数量,有利于降低后续对调查对象进行调查所需的人力成本。
[0099]
并且,由于层1所对应的样本集合的样本数量并未改变,层4所对应的样本集合样本数量也并未改变,从而能够不降低各个抽样调查任务的各层的调查对象的数量,进而能够保证各个抽样调查任务的可靠性。
[0100]
具体地,对层“年龄0-20岁”进行抽样可以得到层“年龄0-20岁”对应的样本集合;对层“年龄20-60岁”进行抽样得到层“年龄20-60岁”对应的样本集合;对层“年龄60岁以上”进行抽样得到层“年龄60岁以上”对应的样本集合;对层“性别男”进行抽样得到层“性别男”对应的样本集合;对层“性别女”进行抽样得到层“性别女”对应的样本集合。“年龄0-20岁”对应的样本集合和“性别男”对应的样本集合中,属于预设样本类型“年龄0-20岁的男性”的
样本为“年龄0-20岁”对应的样本集合和“性别男”对应的样本集合的样本交集。
[0101]
在一些实施方式中,可以将图5中的交叠区域a、b、c、d、e和f分别对应的交叠类型均确定为预设样本类型,得到对应的样本交集,分别执行一遍本技术的调查对象确定方法,得到对应的更新后的样本交集,从而,能够对第一抽样调查任务的样本和第二抽样调查任务的样本的样本总量进行降量的同时,不降低每个抽样调查任务中各个样本集合的样本量,从而能够在不降低各个抽样调查任务的各层对应的调查对象的数量的同时,降低多个抽样调查任务的调查对象的总量,进而能够保证抽样调查任务的结论可靠性,并且降低后续对调查对象进行调查所需的人力成本。
[0102]
图6示意性地示出了本技术某实施例中在各个抽样调查任务中,针对全及总体的各个层分别进行抽样得到各层对应的样本集合之后的步骤流程图。如图6所示,在以上实施例的基础上,步骤s420的在各个抽样调查任务中,针对全及总体的各个层分别进行抽样得到各层对应的样本集合之后,可以进一步包括以下步骤s610和步骤s620。
[0103]
s610.根据样本集合所在的抽样调查任务对样本集合中的样本作出第一标记;
[0104]
s620.根据样本集合对应的层所属的分层类型对样本集合中的样本作出第二标记。
[0105]
在某些实施方式中,在以上实施例的基础上,步骤s230的比较样本交集中来自各个样本集合的样本数量,可以进一步包括以下步骤:
[0106]
根据样本交集中的样本的第一标记和第二标记,比较样本交集中来自各个样本集合的样本数量。
[0107]
图7示意性地示意出本技术某实施例根据样本集合所在的抽样调查任务对样本集合中的样本作出第一标记,根据样本集合对应的层所属的分层类型对样本集合中的样本作出第二标记的具体示意图。具体地,如图7所示,可以根据样本集合所在的抽样调查任务对样本集合中的样本作出第一标记h和i,再根据样本集合对应的层所属的分层类型对样本集合中的样本作出第二标记h和i,从而得到样本集合h中具有第一标记h、第二标记h的五个h’样本:h1’
、h2’
、h3’
、h4’
、h5’
,以及样本集合i中具有第一标记i、第二标记i的六个i’样本:i1’
、i2’
、i3’
、i4’
、i5’
、i6’
,进而能够根据样本交集中的样本的第一标记和第二标记,统计来自不同抽样调查任务的不同样本集合的样本数量,进而比较样本交集中来自各个样本集合的样本数量。如图7所示,样本交集中来自样本集合h的样本数量为2,样本交集中具有两个h’样本:h4’
、h5’
。样本交集中来自样本集合i的样本数量为3,样本交集中具有三个i’样本:i4’
、i5’
、i6’
。由此,通过对样本进行标记,便于比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量。在图7中,该最大数量为3,最大数量是样本交集中来自样本集合i的样本数量。
[0108]
在一些实施例中,图7所示的抽样调查任务h的研究对象可以为图5所示的全及总体c,图7所示的样本集合h可以为对图5所示的全及总体c中的层1、层2或层3进行抽样得到的样本集合。图7所示的抽样调查任务i的研究对象可以为图5所示的全及总体d,图7所示的样本集合i可以为对图5所示的全及总体d中的层4或层5进行抽样得到的样本集合。
[0109]
图8示意性地示出了本技术某实施例获取至少两个抽样调查任务,并根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层之前的步骤流程图。如图8所示,在以上实施例的基础上,至少两个抽样调查任务包括至少一个已进行抽样的抽样调查任务和
至少一个未进行抽样的抽样调查任务,在步骤s410的获取至少两个抽样调查任务,并根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层之前,可以进一步包括以下步骤s810和步骤s820。
[0110]
s810.获取已进行抽样的抽样调查任务的至少一层所属的第一分层类型和未进行抽样的抽样调查任务的至少一层所属的第二分层类型的交叠类型;
[0111]
s820.将已进行抽样的抽样调查任务所获得的样本中,属于交叠类型的样本,作为未进行抽样的抽样调查任务在第二分层类型的层中抽取的样本。
[0112]
由此,将已进行抽样的抽样调查任务所获得的样本中,属于交叠类型的样本,作为未进行抽样的抽样调查任务在第二分层类型的层中抽取的样本,能够避免样本的重复抽取,能够节省样本抽取的工作量的同时,能够降低已进行抽样的抽样调查任务和未进行抽样的抽样调查任务所抽取的样本总量。由此,能够在不降低每个抽样调查任务的样本量的情况下,实现对于多个抽样调查任务的样本总量的降量,进而能够在降低样本总量的同时保证抽样调查任务的可靠性,有利于降低后续对调查对象进行调查所需的人力成本。
[0113]
s230.比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量。
[0114]
图9示意性地示出了本技术某实施例中比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量的步骤流程图。如图9所示,在以上实施例的基础上,步骤s230的比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量,可以进一步包括以下步骤s910和步骤s920。
[0115]
s910.统计样本交集中来自各个样本集合的样本数量;
[0116]
s920.对样本交集中来自各个样本集合的样本数量进行排序,得到从最大数量到最小数量依次排序的样本数量。
[0117]
请继续参阅图7,先统计样本交集中来自各个样本集合的样本数量,样本交集中来自样本集合h的样本数量为2,样本交集中来自样本集合i的样本数量为3。然后,对样本交集中来自各个样本集合的样本数量进行排序,得到从最大数量到最小数量依次排序的样本数量,即3(i’样本)》2(h’样本)。
[0118]
s240.按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集。
[0119]
可以理解,样本交集中的样本一般不是来自于单个样本集合,因此该最大数量一般小于更新前的样本交集的样本总量。因此,按照最大数量,对样本交集进行抽样得到的样本数量,小于更新前的样本交集的样本数量。因此,采用对样本交集进行抽样得到的样本作为更新后的样本交集的样本,实现对于样本交集的更新,能够降低样本交集的样本数量。
[0120]
在一些实施方式中,按照最大数量,对样本交集进行抽样,可以是按照最大数量,对样本交集进随机抽样。由此,能够保证对样本交集进行的再抽样过程的随机性,并且在抽样过程中无需接入已有抽样的业务封层逻辑、能够达到完全不影响原抽样结果分层间数据分布的效果。
[0121]
在一些实施方式中,按照最大数量,对样本交集进行抽样,可以是按照最大数量,根据样本交集中的样本来自于样本集合中的比例,对来自于不同样本集合的样本分别按上述比例进行抽样。由此,能够保证对样本交集抽样得到的样本,其来自于的样本集合的分布与更新前的样本集合的分布相同,从而,能够避免影响调查对象的来源渠道,从而避免影响
抽样调查任务的调查效果。
[0122]
在某些实施方式中,在以上实施例的基础上,步骤s240的按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集之后,可以进一步包括以下步骤:
[0123]
采用更新后的样本交集的样本,替代最大数量所对应来自的样本集合中处于更新前的样本交集中的样本。
[0124]
请继续参阅图7,在得到从最大数量到最小数量依次排序的样本数量,即3(i’)》2(h’)后,可以按照最大数量3,对样本交集进行抽样,得到更新后的样本交集。然后,可以采用更新后的样本交集的样本(图7虚线圆框中的两个i’样本和一个h’样本),替代最大数量3所对应来自的样本集合i中处于更新前的样本交集中的样本(图7所示样本交集中的3个i’)。从而,可以完成对图7中的样本交集的样本总量的降量,从5个样本量降为3个样本量,实现了样本交集的样本数量的40%的降量。并且,由于图7所示的更新后的样本交集的样本图7虚线圆框中的两个i’样本和一个h’样本),替代最大数量3所对应来自的样本集合i中处于更新前的样本交集中的样本(图7所示样本交集中的3个i’样本),因此,对于样本集合i而言,样本集合i中的样本总数并无改变,从而能够在不降低每个样本集合的样本量的情况下,实现对于多个样本集合的样本总量的降量,进而能够在降低样本总量的同时保证抽样调查任务的可靠性,有利于降低后续对调查对象进行调查所需的人力成本。
[0125]
图10示意性地示出了本技术某实施例中按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集之后的步骤流程图。如图10所示,在以上实施例的基础上,步骤s240的按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集之后,可以进一步包括以下步骤s1010和步骤s1020。
[0126]
s1010.按照下一排序数量,对更新后的样本交集进行抽样,将抽样得到的样本组成样本子集,直到不存在下一排序数量;
[0127]
s1020.采用样本子集的样本,替代下一排序数量所对应来自的样本集合中处于更新前的样本交集中的样本。
[0128]
请继续参阅图7,在更新后的样本交集的样本,替代最大数量3所对应来自的样本集合i中处于更新前的样本交集中的样本之后,还可以按照下一排序数量2,对更新后的样本交集(图7所示虚线圆框)进行抽样,将抽样得到的样本组成样本子集(图7所示虚线方框),直到不存在下一排序数量。然后,采用样本子集的样本(图7所示虚线方框中的一个i’样本和一个h’样本),替代下一排序数量2所对应来自的样本集合h中处于更新前的样本交集中的样本(即图7所示的样本交集中的两个h’)。由此,能够不改变下一排序数量2所对应来自的样本集合h的样本总数,并且使得样本具有随机性,实现样本交集的无偏的降量。
[0129]
可以理解,如上实施例,通过图7所示的,用于替代样本集合i中处于更新前的样本交集中的样本,以及用于替代样本集合h中处于更新前的样本交集中的样本,之间的样本的共享,实现对应样本交集的降量,从而能够在不降低每个样本集合的样本量的情况下,实现对于多个样本集合的样本总量的降量,从而能够在降低样本总量的同时保证抽样调查任务的可靠性,有利于降低后续对调查对象进行调查所需的人力成本。
[0130]
s250.根据更新后的样本交集更新样本集合中属于预设样本类型的样本,将更新后的样本集合中的样本,确定为各个抽样调查任务对应的调查对象。
[0131]
可以理解,更新后的样本交集的样本数量小于更新前的样本交集的样本数量,并
且更新后的样本交集的样本数量大于或等于样本集合中属于预设样本类型的样本。因此,根据更新后的样本交集替代样本集合中属于预设样本类型的样本,能够在不降低每个样本集合的样本量的情况下,实现对于多个样本集合的样本总量的降量。
[0132]
具体地,根据更新后的样本交集更新样本集合中属于预设样本类型的样本,可以是用更新后的样本交集中的样本,替代样本集合中属于预设样本类型的样本。例如在图7中,用更新后的样本交集中的随机抽取得到的样本{h4’
,i4’
},替代样本集合h中属于预设样本类型的样本{h4’
,h5’
};用更新后的样本交集中的样本{h4’
,i4’
,i5’
},替代样本集合i中属于预设样本类型的样本{i4’
,i5’
,i6’
}。然后,将更新后的样本集合h中的样本{h1’
,h2’
,h3’
,h4’
,i4’
,},确定为抽样调查任务对应的调查对象。将更新后的样本集合i中的样本{i1’
,i2’
,i3’
,i4’
,i5’
,h4’
},确定为抽样调查任务对应的调查对象。
[0133]
图11示意性地示出了本技术某些实施方式的调查对象确定方法的具体步骤流程的示意图。如图11所示,先获取抽样调查任务x和抽样调查任务y。然后,对抽样调查任务x的全及总体进行分层抽样后,得到其中一层对应的样本集合x和其他层对应的样本集合,再根据抽样调查任务x和样本集合x对样本集合x中的样本进行标记,得到标记后的样本集合x。接着,对抽样调查任务y的全及总体进行分层抽样后,得到其中一层对应的样本集合y和其他层对应的样本集合,再根据抽样调查任务y和样本集合y对样本集合y中的样本进行标记,得到标记后的样本集合y。然后,根据样本集合x对应的层类型以及样本集合y对应的层类型获取预设样本类型。再根据样本集合x和样本集合y中同属于预设样本类型的样本,组合得到样本交集。接着,对样本交集进行随机抽样。根据抽样得到的额样本更新样本交集。然后,根据更新后的样本交集分别更新样本集合x和样本集合y中属于预设样本类型的样本,得到的更新后的样本集合x和更新后的样本集合y。最后,将更新后的样本集合中的样本,确定为各个抽样调查任务中样本集合的对应层对应的调查对象。
[0134]
应当注意,尽管在附图中以特定顺序描述了本技术中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0135]
以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的调查对象确定方法。图12示意性地示出了本技术实施例提供的调查对象确定装置的结构框图。如图12所示,调查对象确定装置1200包括:
[0136]
抽样模块1210,被配置为对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合,抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务;
[0137]
样本交集获取模块1220,被配置为从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将属于预设样本类型的样本组成样本交集;
[0138]
最大数量确定模块1230,被配置为比较样本交集中来自各个样本集合的样本数量,得到来自各个样本集合的样本数量中的最大数量;
[0139]
样本交集更新模块1240,被配置为按照最大数量,对样本交集进行抽样,根据抽样得到的样本更新样本交集。
[0140]
调查对象确定模块1250,被配置为根据更新后的样本交集更新样本集合中属于预
设样本类型的样本,将更新后的样本集合中的样本,确定为各个抽样调查任务对应的调查对象。
[0141]
在本技术的一些实施例中,基于以上各实施例,抽样模块包括:
[0142]
层划分单元,被配置为获取至少两个抽样调查任务,并根据分层类型将各个抽样调查任务的全及总体划分成一个或多个层;
[0143]
分层抽样单元,被配置为在各个抽样调查任务中,针对全及总体的各个层分别进行抽样得到各层对应的样本集合;
[0144]
调查对象确定装置还包括:
[0145]
预设样本类型获取单元,被配置为将来自不同抽样调查任务的至少两个层的所属分层类型的交叠类型,确定为预设样本类型。
[0146]
在本技术的一些实施例中,基于以上各实施例,调查对象确定装置还包括:
[0147]
第一标记单元,被配置为根据样本集合所在的抽样调查任务对样本集合中的样本作出第一标记;
[0148]
第二标记单元,被配置为根据样本集合对应的层所属的分层类型对样本集合中的样本作出第二标记;
[0149]
最大数量确定模块包括:
[0150]
最大数量确定单元,被配置为根据样本交集中的样本的第一标记和第二标记,比较样本交集中来自各个样本集合的样本数量。
[0151]
在本技术的一些实施例中,基于以上各实施例,至少两个抽样调查任务包括至少一个已进行抽样的抽样调查任务和至少一个未进行抽样的抽样调查任务,调查对象确定装置还包括:
[0152]
交叠类型获取单元,被配置为获取已进行抽样的抽样调查任务的至少一层所属的第一分层类型和未进行抽样的抽样调查任务的至少一层所属的第二分层类型的交叠类型;
[0153]
已抽样任务样本转用单元,被配置为将已进行抽样的抽样调查任务所获得的样本中,属于交叠类型的样本,作为未进行抽样的抽样调查任务在第二分层类型的层中抽取的样本。
[0154]
在本技术的一些实施例中,基于以上各实施例,调查对象确定装置还包括:
[0155]
样本替代第一单元,被配置为采用更新后的样本交集的样本,替代最大数量所对应来自的样本集合中处于更新前的样本交集中的样本。
[0156]
在本技术的一些实施例中,基于以上各实施例,最大数量确定模块包括:
[0157]
样本数量统计单元,被配置为统计样本交集中来自各个样本集合的样本数量;
[0158]
数量排序单元,被配置为对样本交集中来自各个样本集合的样本数量进行排序,得到从最大数量到最小数量依次排序的样本数量。
[0159]
在本技术的一些实施例中,基于以上各实施例,调查对象确定装置还包括:
[0160]
样本子集获取单元,被配置为按照下一排序数量,对更新后的样本交集进行抽样,将抽样得到的样本组成样本子集,直到不存在下一排序数量;
[0161]
样本替代第二单元,被配置为采用样本子集的样本,替代下一排序数量所对应来自的样本集合中处于更新前的样本交集中的样本。
[0162]
本技术各实施例中提供的调查对象确定装置的具体细节已经在对应的方法实施
例中进行了详细的描述,此处不再赘述。
[0163]
图13示意性地示出了用于实现本技术实施例的电子设备的计算机系统结构框图。
[0164]
需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0165]
如图13所示,计算机系统1300包括中央处理器1301(central processing unit,cpu),其可以根据存储在只读存储器1302(read-only memory,rom)中的程序或者从存储部分1308加载到随机访问存储器1303(random access memory,ram)中的程序而执行各种适当的动作和处理。在随机访问存储器1303中,还存储有系统操作所需的各种程序和数据。中央处理器1301、在只读存储器1302以及随机访问存储器1303通过总线1304彼此相连。输入/输出接口1305(input/output接口,即i/o接口)也连接至总线1304。
[0166]
以下部件连接至输入/输出接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至输入/输出接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
[0167]
特别地,根据本技术的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理器1301执行时,执行本技术的系统中限定的各种功能。
[0168]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0169]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0170]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0171]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0172]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0173]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
技术特征:
1.一种调查对象确定方法,其特征在于,所述方法包括:对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个所述抽样调查任务对应的样本集合,所述抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务;从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将所述属于预设样本类型的样本组成样本交集;比较所述样本交集中来自各个样本集合的样本数量,得到所述来自各个样本集合的样本数量中的最大数量;按照所述最大数量,对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集;根据更新后的样本交集更新所述样本集合中属于所述预设样本类型的样本,将所述更新后的样本集合中的样本,确定为各个所述抽样调查任务对应的调查对象。2.根据权利要求1所述的调查对象确定方法,其特征在于,所述对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个所述抽样调查任务对应的样本集合,包括:获取至少两个抽样调查任务,并根据分层类型将各个所述抽样调查任务的全及总体划分成一个或多个层;在各个所述抽样调查任务中,针对所述全及总体的各个层分别进行抽样得到各层对应的样本集合;在所述从多个样本集合的抽样样本中筛选出属于预设样本类型的样本之前,所述方法还包括:将来自不同所述抽样调查任务的至少两个层的所属分层类型的交叠类型,确定为所述预设样本类型。3.根据权利要求2所述的调查对象确定方法,其特征在于,在所述在各个所述抽样调查任务中,针对所述全及总体的各个层分别进行抽样得到各层对应的样本集合之后,所述方法还包括:根据所述样本集合所在的抽样调查任务对所述样本集合中的样本作出第一标记;根据所述样本集合对应的层所属的分层类型对所述样本集合中的样本作出第二标记;所述比较所述样本交集中来自各个样本集合的样本数量,包括:根据所述样本交集中的样本的第一标记和第二标记,比较所述样本交集中来自各个样本集合的样本数量。4.根据权利要求2所述的调查对象确定方法,其特征在于,所述至少两个抽样调查任务包括至少一个已进行抽样的抽样调查任务和至少一个未进行抽样的抽样调查任务,在所述获取至少两个抽样调查任务,并根据分层类型将各个所述抽样调查任务的全及总体划分成一个或多个层之后,所述方法还包括:获取已进行抽样的抽样调查任务的至少一层所属的第一分层类型和未进行抽样的抽样调查任务的至少一层所属的第二分层类型的交叠类型;将所述已进行抽样的抽样调查任务所获得的样本中,属于所述交叠类型的样本,作为所述未进行抽样的抽样调查任务在所述第二分层类型的层中抽取的样本。5.根据权利要求1所述的调查对象确定方法,其特征在于,在所述按照所述最大数量,
对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集之后,所述方法还包括:采用更新后的样本交集的样本,替代所述最大数量所对应来自的样本集合中处于更新前的样本交集中的样本。6.根据权利要求5所述的调查对象确定方法,其特征在于,所述比较所述样本交集中来自各个样本集合的样本数量,得到所述来自各个样本集合的样本数量中的最大数量,包括:统计所述样本交集中来自各个样本集合的样本数量;对所述样本交集中来自各个样本集合的样本数量进行排序,得到从最大数量到最小数量依次排序的样本数量。7.根据权利要求6所述的调查对象确定方法,其特征在于,在所述按照所述最大数量,对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集之后,所述方法还包括:按照下一排序数量,对更新后的样本交集进行抽样,将抽样得到的样本组成样本子集,直到不存在所述下一排序数量;采用所述样本子集的样本,替代所述下一排序数量所对应来自的样本集合中处于更新前的样本交集中的样本。8.一种调查对象确定装置,其特征在于,所述装置包括:抽样模块,被配置为对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个所述抽样调查任务对应的样本集合,所述抽样调查任务为对预设业务场景下的全及总体进行抽样得到的样本进行调查的任务;样本交集获取模块,被配置为从多个样本集合的抽样样本中筛选出属于预设样本类型的样本,将所述属于预设样本类型的样本组成样本交集;最大数量确定模块,被配置为比较所述样本交集中来自各个样本集合的样本数量,得到所述来自各个样本集合的样本数量中的最大数量;样本交集更新模块,被配置为按照所述最大数量,对所述样本交集进行抽样,根据抽样得到的样本更新所述样本交集;调查对象确定模块,被配置为根据更新后的样本交集更新所述样本集合中属于所述预设样本类型的样本,将所述更新后的样本集合中的样本,确定为各个所述抽样调查任务对应的调查对象。9.一种计算机可读介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的调查对象确定方法。10.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的调查对象确定方法。
技术总结
本申请属于计算机技术领域,具体涉及一种调查对象确定方法、装置、介质及设备。本发明实施例可应用于地图领域。该方法包括:对多个抽样调查任务分别对应的全及总体分别进行抽样,得到各个抽样调查任务对应的样本集合;从多个样本集合的抽样样本中筛选出样本交集;比较样本交集中来自各个样本集合的样本数量,得到最大数量;按照最大数量,对样本交集进行抽样,并更新样本交集;再根据更新后的样本交集更新样本集合中属于预设样本类型的样本,将更新后的样本集合中的样本,确定为各个抽样调查任务对应的调查对象。基于本申请能够在降低对多个抽样调查任务对应的调查对象进行调查的总人力成本的同时,保证各个抽样调查任务的调查可靠性。性。性。
技术研发人员:苏文龙
受保护的技术使用者:财付通支付科技有限公司
技术研发日:2022.02.08
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
