一种人口精细化治理方法与流程

未命名 08-17 阅读:131 评论:0


1.本发明涉及人口数据管理技术领域,具体地说,涉及一种人口精细化治理方法。


背景技术:

2.根据多个地区网格化工作统一部署和综治网格化信息平台建设要求,为全面准确掌握张店区人口数量、房屋底数,区内专职网格员全力开展网格基础信息入户采集工作。但目前采集到的数据仍与实际数据有所差距,需要结合其他数据源进行修复,如基于大型公共安全事件的防控管理大数据等。而且并没有与公共安全管理等部门数据以及健康检测数据、人员交通出行数据等动态数据深度融合,没有发挥大数据优势,数据的价值没有得到充分利用。鉴于此,我们提出了一种人口精细化治理方法。


技术实现要素:

3.本发明的目的在于提供一种人口精细化治理方法,以解决上述背景技术中提出的问题。
4.为实现上述技术问题的解决,本发明的目的之一在于,提供了一种人口精细化治理方法,包括如下步骤:
5.s1、基于多维数据融合技术,以数据仓库作为技术基础,将当地人口数据源中的各类人口数据源etl到数据仓库中;
6.s2、按照实际业务需求将人口数据分类存储;
7.s3、根据要考察的数值和分析的角度,提炼业务数据、指定维度,形成事实表和维度表的分析数据模型;
8.s4、研究人口数据统计分析的基本方法,并采用多维分析olap(on-line analytical processing,即联机分析处理)技术,按照多维度制作成展现分析报表,最终建成一个供决策参考、分析研究的人口数据分析系统。
9.作为本技术方案的进一步改进,所述s1中结合分布式易扩展的可视化工作流任务调度平台dolphinscheduler模块与异构数据源离线同步工具datax核心模块,采用dolphinscheduler+datax的技术构建离线增量数据同步平台来对接人口健康检测数据;由于三方公司只能开放数据视图或者提供离线数据文件,所以无法通过变更数据捕获(cdc)来实现实时同步,而且每次调度增量数据并没有太大,不需要分布式架构来负载;其中,datax核心模块的作业流程包括:
10.首先,datax完成单个数据同步的作业被称之为job,datax接收到一个job之后,将启动一个进程来完成整个作业同步过程;其中,datax job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子task)、taskgroup管理等功能;
11.其次,datax job启动后,会根据不同的源端切分策略,将job切分成多个小的子任务task,以便于并发执行;task便是datax作业的最小单元,每一个task都会负责一部分数
据的同步工作;
12.再次,切分多个子任务task之后,datax job会调用dolphinscheduler模块,根据配置的并发数据量,将拆分成的多个task重新组合,组装成任务组taskgroup;每一个taskgroup负责以一定的并发运行完毕分配好的所有task,默认单个任务组的并发数量为5;
13.然后,每一个task都由taskgroup负责启动,task启动后,会固定启动reader—》channel—》writer的线程来完成任务同步工作;
14.最后,datax作业运行起来之后,job监控并等待多个taskgroup模块任务完成,等待所有taskgroup任务完成后job成功退出;否则,异常退出,进程退出值非0。
15.作为本技术方案的进一步改进,所述s1中,各类人口数据源选自历史登记人口数据、健康检测数据流或交通出行登记数据。
16.作为本技术方案的进一步改进,所述s2中,对来自多个信息源的人口数据进行分类,需要从人口结构、职住户人口、社会人际属性等业务进行划分,每种业务有多个专题,每个专题有多个标签;其中:
17.标签的数据以条形图更加直观地显示;根据人员属性将人员打上多个标签,可以根据用户身上已经存在的标签,筛选出来符合需求的人员信息,或者获取某人员的所有标签;
18.要满足以上的需求,需要提供以下几个基本接口来方便进行数据查找:
19.(1)查找某标签的所有用户以及非该标签的用户;
20.(2)查找某个用户身上的所有标签;
21.(3)判断某个用户是否有某个标签。
22.作为本技术方案的进一步改进,所述s2中,对分类标签进行管理时,采用arangodb原生多模型数据库以及clickhouse数据库相结合,clickhouse数据库采用可分区的列式存储系统,可以支持海量数据的分析,数据高压缩比存储,极大减少存储成本,同时数据按照key有序存储能够结合高效的查找算法,实现数据快速查询。clickhouse数据库可以通过磁盘顺序io实现大吞吐的写入,基于数据单元拆分,实现分布式处理、多核并行处理、指令集向量加速计算功能,同时采用了近似计算、代码生成等前沿技术来实现启发式的快速检索功能,总体的实时在线分析速度为传统大数据技术的20-30倍,这样既能满足新增或者修改标签,保证实时运行,也能提高查询效率;
23.标签字段在clickhouse数据库中以数组方式存储,查询的时候使用hasany查询;
24.更新插入标签时,先通过追加去重方式更新arangodb,然后同步clickhouse数据库,从而能够使大数据大屏围绕采集的数据快速集成与分析。
25.作为本技术方案的进一步改进,所述s4中建成的人口数据分析系统可以用于进行圈人分析,在进行圈人分析时,能够实现多字段、任意组合条件查询(无需建模),毫秒级实时圈人,在圈人之后及时展现圈人画像看板,让分析的数据更加直观易懂;
26.其中,圈人分析的核心是规则引擎,规则引擎具体执行可以分为接收数据输入,解释业务规则,根据业务规则做出业务决策几个过程。
27.其中,规则引擎的作用包括:
28.(1)规则外部化,既有利于规则知识的复用,也可避免改变规则时带来的代码变更
问题;
29.(2)由规则引擎使用某种算法进行推理过程,不需要编写复杂晦涩的逻辑判断代码;
30.(3)开发人员的不需要过多关注逻辑判断,可以专注于逻辑处理。
31.作为本技术方案的进一步改进,所述规则引擎的具体作业流程包括:
32.首先,前端将用户设定规则以json(组织规则表达式)方式传到后端规则引擎;
33.然后,后端规则引擎解析规则json转化成数据库引擎可以识别的sql语句;
34.最后,将sql语句发送到clickhouse数据库客户端获取分析结果。
35.本发明的目的之二在于,提供了一种人口精细化治理系统运行平台装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述的人口精细化治理方法的步骤。
36.本发明的目的之三在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的人口精细化治理方法的步骤。
37.与现有技术相比,本发明的有益效果:
38.1.该人口精细化治理方法中,每种插件都有自己的数据转换策略,可以防止数据失真,可以提供作业全链路的流量以及数据量运行时监控,包括作业本身状态、数据流量、数据速度、执行进度等;
39.2.该人口精细化治理方法中,由于各种原因导致传输报错的脏数据,datax可以实现精确的过滤、识别、采集、展示,为用户提供多种脏数据处理模式;
40.3.该人口精细化治理方法中,具备精确的速度控制,健壮的容错机制,包括线程内部重试、线程级别重试,从而在拓展数据应用价值,在大型公共安全事件的防控管理方面不断提供大数据支撑。
附图说明
41.图1为本发明中示例性的整体治理方法流程图;
42.图2为本发明中示例性的datax核心模块的作业流程图;
43.图3为本发明中示例性的对分类标签进行管理的流程图;
44.图4为本发明中示例性的规则引擎的作业流程图;
45.图5为本发明中示例性的电子计算机平台装置结构示意图。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.实施例1
48.如图1-图5所示,本实施例提供了一种人口精细化治理方法,包括如下步骤:
49.s1、基于多维数据融合技术,以数据仓库作为技术基础,将系统中的各类人口数据
源(包括但不限于健康检测数据流、交通出行登记数据、小哨兵等)etl(extraction transformation loading,即抽取、转换、加载)到数据仓库中;对接人口数据,需要用到当地人口数据源,比如说历史登记人口数据等;
50.s2、按照实际业务需求将人口数据分类存储;
51.s3、根据要考察的数值和分析的角度,提炼业务数据、指定维度,形成事实表和维度表的分析数据模型;
52.s4、研究人口数据统计分析的基本方法,并采用多维分析olap(on-line analytical processing,即联机分析处理)技术,按照多维度制作成展现分析报表,最终建成一个供决策参考、分析研究的人口数据分析系统,从而在拓展数据应用价值,在大型公共安全事件的防控管理方面不断提供大数据支撑。
53.本实施例中,s1中结合分布式易扩展的可视化工作流任务调度平台dolphinscheduler模块与异构数据源离线同步工具datax核心模块,采用dolphinscheduler+datax的技术构建离线增量数据同步平台来对接人口健康检测数据;由于三方公司只能开放数据视图或者提供离线数据文件,所以无法通过变更数据捕获(cdc)来实现实时同步,而且每次调度增量数据并没有太大,不需要分布式架构来负载。
54.其中,采用分布式易扩展的可视化工作流任务调度平台,可以解决数据处理流程中错综复杂的依赖关系,具有以下优点:
55.(1)支持任务的暂停、恢复、补救操作;
56.(2)支持多租户,实现多对一、一对多的映射关系;
57.(3)去中心化的多master和多worker,自身支持ha功能,采用任务队列来避免过载,不会造成机器卡死。
58.具体地,例如某地每天全员健康检测的数据量75万左右,那就可以根据健康检测样本采集时间将数据增量同步到datax,通过任务调度系统导入到clickhouse数据库,灵活设定调度策略;
59.若调度时间是每日调度执行一次,那么last_datetime=当前调度开始执行时间-24小时,即延迟就是1天;
60.若调度时间是15分钟一次,那么last_datetime=前调度开始执行时间-15分钟,延迟就是15分钟;
61.这样就实现了捕获增量数据,从而实现增量同步。
62.进一步地,如图2所示,datax核心模块的作业流程包括:
63.首先,datax完成单个数据同步的作业被称之为job,datax接收到一个job之后,将启动一个进程来完成整个作业同步过程;其中,datax job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子task)、taskgroup管理等功能;
64.其次,datax job启动后,会根据不同的源端切分策略,将job切分成多个小的子任务task,以便于并发执行;task便是datax作业的最小单元,每一个task都会负责一部分数据的同步工作;
65.再次,切分多个子任务task之后,datax job会调用dolphinscheduler模块,根据配置的并发数据量,将拆分成的多个task重新组合,组装成任务组taskgroup;每一个
taskgroup负责以一定的并发运行完毕分配好的所有task,默认单个任务组的并发数量为5;
66.然后,每一个task都由taskgroup负责启动,task启动后,会固定启动reader—》channel—》writer的线程来完成任务同步工作;
67.最后,datax作业运行起来之后,job监控并等待多个taskgroup模块任务完成,等待所有taskgroup任务完成后job成功退出;否则,异常退出,进程退出值非0。
68.进而,若用户提交了一个datax作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面;则datax的调度决策思路是:
69.(1)datax job根据分库分表切分成了100个task;
70.(2)根据20个并发,datax计算共需要分配4个taskgroup;
71.(3)4个taskgroup平分切分好的100个task,每一个taskgroup负责以5个并发共计运行25个task。
72.本实施例中,s1中,各类人口数据源包括但不限于健康检测数据流、交通出行登记数据、小哨兵等。
73.其中,基于多个信息源数据,通过统一调度资源平台采用不同的更新机制,持续性的融合、校准,高效充分的双向互动,互为支撑,互为因果,形成正向循环,不断完善人口底库。
74.具体地,本实施例中的人口数据底座采用高性能列式数据库,其具有以下优点:
75.(1)高效的使用cpu,数据不仅仅按列存储,同时还按向量进行处理;
76.(2)数据压缩空间大,减少io,处理单查询高吞吐量每台服务器每秒最多数十亿行;
77.(3)索引非b树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制clickhouse全表扫描的速度也很快;
78.(4)写入速度非常快,50-200m/s,对于大量的数据更新非常适用。
79.本实施例中,s2中,对来自多个信息源的人口数据进行分类,需要从人口结构、职住户人口、社会人际属性等业务进行划分,每种业务有多个专题,每个专题有多个标签;其中:
80.标签的数据以条形图更加直观地显示。根据人员属性将人员打上多个标签,可以根据用户身上已经存在的标签,筛选出来符合需求的人员信息,或者获取某人员的所有标签;
81.要满足以上的需求,需要提供以下几个基本接口来方便进行数据查找:
82.(1)查找某标签的所有用户以及非该标签的用户;
83.(2)查找某个用户身上的所有标签;
84.(3)判断某个用户是否有某个标签。
85.进一步地,s2中,如图3所示,对分类标签进行管理时,采用arangodb原生多模型数据库以及clickhouse数据库相结合,这样既能满足新增或者修改标签,保证实时运行,也能提高查询效率;
86.标签字段在clickhouse数据库中以数组方式存储,查询的时候使用hasany查询;
87.更新插入标签时,先通过追加去重方式更新arangodb,然后同步clickhouse数据
库,从而能够使大数据大屏围绕采集的数据快速集成与分析。
88.本实施例中,s4中建成的人口数据分析系统可以用于进行圈人分析,在进行圈人分析时,能够实现多字段、任意组合条件查询(无需建模),毫秒级实时圈人,在圈人之后及时展现圈人画像看板,让分析的数据更加直观易懂;
89.其中,圈人分析的核心是规则引擎,规则引擎具体执行可以分为接收数据输入,解释业务规则,根据业务规则做出业务决策几个过程。
90.规则引擎的作用:
91.1.规则外部化,既有利于规则知识的复用,也可避免改变规则时带来的代码变更问题
92.2.由规则引擎使用某种算法进行推理过程,不需要编写复杂晦涩的逻辑判断代码
93.3.开发人员的不需要过多关注逻辑判断,可以专注于逻辑处理。
94.进一步地,如图4所示,规则引擎的具体作业流程包括:
95.首先,前端将用户设定规则以json(组织规则表达式)方式传到后端规则引擎;
96.然后,后端规则引擎解析规则json转化成数据库引擎可以识别的sql语句;
97.最后,将sql语句发送到clickhouse数据库客户端获取分析结果。
98.如图5所示,本实施例还提供了一种人口精细化治理系统运行平台装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
99.处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的人口精细化治理方法的步骤。
100.可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
101.此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的人口精细化治理方法的步骤。
102.可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面人口精细化治理方法的步骤。
103.本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤的过程可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
104.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征:
1.一种人口精细化治理方法,其特征在于,包括如下步骤:s1、基于多维数据融合技术,以数据仓库作为技术基础,将当地人口数据源中的各类人口数据源etl到数据仓库中;s2、按照实际业务需求将人口数据分类存储;s3、根据要考察的数值和分析的角度,提炼业务数据、指定维度,形成事实表和维度表的分析数据模型;s4、研究人口数据统计分析的基本方法,并采用多维分析olap技术,按照多维度制作成展现分析报表,最终建成一个供决策参考、分析研究的人口数据分析系统。2.根据权利要求1所述的人口精细化治理方法,其特征在于,所述s1中结合分布式易扩展的可视化工作流任务调度平台dolphinscheduler模块与异构数据源离线同步工具datax核心模块,采用dolphinscheduler+datax的技术构建离线增量数据同步平台来对接人口健康检测数据;其中,datax核心模块的作业流程包括:首先,datax完成单个数据同步的作业被称之为job,datax接收到一个job之后,将启动一个进程来完成整个作业同步过程;其中,dataxjob模块是单个作业的中枢管理节点;其次,dataxjob启动后,会根据不同的源端切分策略,将job切分成多个小的子任务task,以便于并发执行;再次,切分多个子任务task之后,dataxjob会调用dolphinscheduler模块,根据配置的并发数据量,将拆分成的多个task重新组合,组装成任务组taskgroup;然后,每一个task都由taskgroup负责启动,task启动后,会固定启动reader—>channel—>writer的线程来完成任务同步工作;最后,datax作业运行起来之后,job监控并等待多个taskgroup模块任务完成,等待所有taskgroup任务完成后job成功退出;否则,异常退出,进程退出值非0。3.根据权利要求1所述的人口精细化治理方法,其特征在于,所述s1中,各类人口数据源选自历史登记人口数据、健康检测数据流或交通出行登记数据。4.根据权利要求1所述的人口精细化治理方法,其特征在于,所述s2中,对来自多个信息源的人口数据进行分类,需要从人口结构、职住户人口、社会人际属性的业务进行划分,每种业务有多个专题,每个专题有多个标签;其中:根据人员属性将人员打上多个标签,可以根据用户身上已经存在的标签,筛选出来符合需求的人员信息,或者获取某人员的所有标签。5.根据权利要求4所述的人口精细化治理方法,其特征在于,所述s2中,对分类标签进行管理时,采用arangodb原生多模型数据库以及clickhouse数据库相结合,用于满足新增或者修改标签;标签字段在clickhouse数据库中以数组方式存储,查询的时候使用hasany查询;更新插入标签时,先通过追加去重方式更新arangodb,然后同步clickhouse数据库。6.根据权利要求1所述的人口精细化治理方法,其特征在于,所述s4中建成的人口数据分析系统可以用于进行圈人分析,在进行圈人分析时,能够实现多字段、任意组合条件查询,毫秒级实时圈人,在圈人之后及时展现圈人画像看板,让分析的数据更加直观易懂;其中,圈人分析的核心是规则引擎,规则引擎具体执行可以分为接收数据输入,解释业务规则,根据业务规则做出业务决策几个过程。
7.根据权利要求6所述的人口精细化治理方法,其特征在于,所述规则引擎的具体作业流程包括:首先,前端将用户设定规则以json方式传到后端规则引擎;然后,后端规则引擎解析规则json转化成数据库引擎能够识别的sql语句;最后,将sql语句发送到clickhouse数据库客户端获取分析结果。

技术总结
本发明涉及人口数据管理技术领域,具体地说,涉及一种人口精细化治理方法。包括:以数据仓库作为技术基础,将当地人口数据源中的各类人口数据源ETL到数据仓库中;按照实际业务需求将人口数据分类存储;根据要考察的数值和分析的角度,提炼业务数据、指定维度,形成事实表和维度表的分析数据模型;研究人口数据统计分析的基本方法,并采用多维分析OLAP技术,按照多维度制作成展现分析报表。本发明设计可以防止数据失真,可以提供作业全链路的流量以及数据量运行时监控;DataX可以为用户提供多种脏数据处理模式;可以在拓展数据应用价值,在大型公共安全事件的防控管理方面不断提供大数据支撑。据支撑。据支撑。


技术研发人员:王晓东 李凡平 王堃
受保护的技术使用者:以萨技术股份有限公司
技术研发日:2022.12.28
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐