一种基因组共线性可视化方法、系统、设备及存储介质

未命名 09-13 阅读:132 评论:0


1.本发明涉及基因组可视化领域,特别是涉及一种基因组共线性可视化方法、系统、设备及存储介质。


背景技术:

2.新一代和长读长测序技术的进步推动了全基因组比较基因组学分析的发展,构建泛基因组和识别结构变异(svs)正成为基因组学的前沿。比较基因组学对于确定基因功能和性状的进化基础至关重要,共线性分析是比较基因组学的重要组成部分。然而,在不同基因组中快速识别sv仍然非常困难。在这样的研究背景下,需要一种简单易用的方法来快速比较和可视化不同物种的遗传多样性。
3.同类方法synmap2和synmap3d算法的优点在于寻找共线性基因的速度很快,但是由于参数的设置只能识别大片段的共线性基因,小片段的共线性基因很容易被漏掉。circos的展现形式是将基因匹配与比较分析的结果用圈图表示,提供点阵图和矢量图的输出,但仅限于圆形图形的处理,使得共线性研究受限。mcscan-python提供点图、圈图、双线图等多种展示形式,但用户只能在命令行环境中运行,且环境配置和操作较复杂。上述产品使用的方法主要实现了基因共线性可视化的目的,不能精确地识别不同基因组之间的结构变异;因此,专门用于精确可视化基因组共线性的方法仍然缺乏。


技术实现要素:

4.本发明的目的是提供一种基因组共线性可视化方法、系统、设备及存储介质,可提高基因组遗传差异识别的精细度并将结果可视化展示。
5.为实现上述目的,本发明提供了如下方案:
6.一种基因组共线性可视化方法,包括:
7.获取参考基因组序列文件和查询基因组序列文件;
8.利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;所述子算法为nucmer算法、show-snps算法和show-diff算法;
9.对所述识别结果进行可视化展示,得到绘图结果。
10.可选地,利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果,具体包括:
11.利用nucmer算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;
12.利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;
13.利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;
14.将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。
15.可选地,在利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果之后,还包括:
16.对所述识别结果依次进行调整、统计和矫正。
17.可选地,对所述识别结果进行可视化展示,得到绘图结果,具体包括:
18.构建绘图比例;
19.根据所述绘图比例和所述识别结果进行绘图,得到绘图结果。
20.本发明还提供一种基因组共线性可视化系统,包括:
21.数据上传模块,用于获取参考基因组序列文件和查询基因组序列文件;
22.数据处理模块,用于利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;所述子算法为nucmer算法、show-snps算法和show-diff算法;
23.数据可视化模块,用于对所述识别结果进行可视化展示,得到绘图结果。
24.可选地,数据处理模块具体包括:
25.比对单元,用于利用nucmer算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;
26.snp识别单元,用于利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;
27.结构变异识别单元,用于利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;
28.过滤单元,用于将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。
29.可选地,还包括:结果分析模块,用于对所述识别结果进行依次进行调整、统计和矫正。
30.可选地,数据可视化模块具体包括:
31.画布单元,用于构建绘图比例;
32.绘图单元,用于根据所述绘图比例和所述识别结果进行绘图,得到绘图结果。
33.本发明还提供一种电子设备,包括:
34.一个或多个处理器;
35.存储装置,其上存储有一个或多个程序;
36.当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如所述的方法。
37.本发明还提供一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如所述的方法。
38.根据本发明提供的具体实施例,本发明公开了以下技术效果:
39.本发明获取参考基因组序列文件和查询基因组序列文件;利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;对所述识别结果进行可视化展示,得到绘图结果,从而提高基因组遗传差异识别的精细度并将结果可视化展示。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1为基因组共线性可视化系统示意图;
42.图2为对三个柑橘科基因组的分析展示图;
43.图3为使用结果分析模块的展示结果图;
44.图4为对三个水稻基因组的分析展示图;
45.图5为对三个动物基因组的分析展示图;
46.图6为本发明提供的基因组共线性可视化方法流程图。
具体实施方式
47.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.本发明的目的是提供一种基因组共线性可视化方法、系统、设备及存储介质,可提高基因组遗传差异识别的精细度并将结果可视化展示。
49.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
50.如图6所示,本发明提供的一种基因组共线性可视化方法,包括:
51.步骤101:获取参考基因组序列文件和查询基因组序列文件。
52.步骤102:利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果。所述子算法为nucmer算法、show-snps算法和show-diff算法。
53.步骤102,具体包括:用于利用nucmer算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。
54.在步骤102之后还包括:对所述识别结果进行依次进行调整、统计和矫正。
55.步骤103:对所述识别结果进行可视化展示,得到绘图结果。
56.步骤103,具体包括:构建绘图比例;根据所述绘图比例和所述识别结果进行绘图,得到绘图结果。
57.本发明适用于处理基因组序列数据及组学注释数据,可用于不同物种遗传差异的可视化,具有如下优点:
58.1.操作简单,多平台可用;2.对结构变异的识别更为精准;3.可用于辅助基因组草图组装;4.扩展性更好,可视化结果展示更全面。
59.本发明通过便携式miniconda3配置方法主程序运行环境,连同主程序一同封装,相对于之前研究中的其他方法,本发明简化了使用前的安装过程。本发明兼容windows、liunx、mac多个平台,提供用户交互界面和web(网站)服务,操作上更为简单,更易于使用。
60.本发明通过调用mummer算法中多个子算法识别基因组之间的snp(single nucleotide polymorphisms,单核苷酸多态性)、结构变异以及共线性信息,并对识别结果进行过滤以及分类优化处理操作,使得可视化结果能更精细的展示出基因组之间的遗传差异。
61.本发明通过对nucmer算法计算得到的结果数据进行分析,基于参考基因组,按照contig(重叠群)的一致性高低对查询基因组contig的正负链方向以及contig顺序进行调整并将调整后结果可视化展示输出,近缘物种可根据调整后的可视化结果矫正组装问题。
62.本发明包括数据处理、结果分析及可视化等多个模块,提供较多可选的参数接口,并且设置了合理的数据展示形式,使可视化展示的结果可以囊括更多详细信息。
63.genomesyn是基于本发明进行开发的,产品通过便携式miniconda3配置本发明主体程序运行的环境,连同方法主程序一同封装。产品包括数据上传模块、交互式功能模块、数据处理模块、结果分析模块以及数据可视化模块。如图1所示,本发明还提供一种基因组共线性可视化系统,包括:
64.数据上传模块,用于获取参考基因组序列文件和查询基因组序列文件。
65.数据上传模块:用于设置文件上传接口以及数据存储参数,上传的数据包括基因组序列文件、基因注释文件、snp密度文件、pav(presence/absence variants,存在/缺失变异)坐标文件、gc含量密度文件、te(transposable element,转座元件)密度文件、端粒坐标文件、着丝粒坐标文件、核心基因坐标文件以及共线性比对坐标文件。基因组序列文件的格式可以是fasta文件格式或fa文件格式,基因注释文件的格式可以是gff3文件格式,共线性比对坐标文件需要是coords文件格式,其他文件的格式均为bed文件格式。数据上传模块定义的各个接口仅能上传模块设置的特定数据以及对应数据格式,模块根据接口参数记录各种数据的类别信息,即在数据输入时,参考基因组和查询基因组在数据上传时需人为确定,参考基因组的选择应优先考虑基因组组装质量较高、gap(缺口)数较少的基因组。数据上传模块最少需输入参考基因组序列文件和查询基因组序列文件这两个文件才能正常运行,其他数据根据实际应用需求进行上传添加。参考基因组序列文件通过使用参数-r传递被数据上传模块读取,查询基因组序列文件通过使用参数-q传递被数据上传模块读取。对输入到数据上传模块的两至三个基因组序列文件基本没有要求,越大的基因组通过比对模块进行序列比对所花费的计算资源和计算时间会更多。上传基因组最好是近源物种的基因组,远源物种的基因组本产品也可进行处理和可视化,但远源物种的基因组间dna序列相似性低,一般远源物种的基因组共线性分析基于蛋白序列进行,进行dna序列比对的生物学意义不显著。
66.基因组共线性可视化系统还包括交互式功能模块,交互式功能模块:用于提供可视化用户交互输入界面,使模块输入命令不局限于命令行输入。交互式功能模块通过python开发可视化用户交互界面,web服务的客户端通过html(hypertextmarkup language,超文本标记语言)和css(cascading style sheets,层叠样式表)编写,服务器由django和apache实现管理,并在包括windows、linux、mac等平台进行了产品测试。交互式功
能模块提供了可视化的窗口和网页界面,为数据上传模块提供更好的实际体验。
67.数据处理模块,用于利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果。主要通过调用nucmer算法对两至三个基因组序列文件进行比对,通过比对单元、snp识别单元、结构变异识别单元、过滤单元和窗口调整单元来识别、过滤和调整基因组间的共线性、snp和结构变异等信息。若数据上传模块中已输入共线性比对坐标文件、snp密度文件和pav坐标文件,则可跳过比对单元、snp识别单元、结构变异识别单元操作。若数据上传模块中输入的基因组序列文件为两个时,则上述各单元均进行一次操作。若数据上传模块中输入的基因组序列文件为三个时,则会对上述各单元前后进行两次调用,第一次调用是对参考基因组和查询基因组1进行操作,第二次调用是对参考基因组和查询基因组2进行操作。
68.数据处理模块具体包括:
69.比对单元,用于利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;所述子算法为nucmer算法、show-snps算法和show-diff算法;比对单元通过nucmer算法对两个基因组序列文件进行比对,调用一次nucmer算法仅能对参考基因组和查询基因组两个基因组进行dna序列比对。mummer算法包含nucmer算法、show-snps算法、show-diff算法、delta-filter算法和show-coords算法等子算法。在调用nucmer算法时通过参数-c设置匹配簇的最小长度为90bp,通过参数-g设置匹配簇中两个相邻匹配之间的最大距离为1000bp,通过参数-l设置单个精确匹配的最小长度为40bp,以此识别参考基因组和查询基因组两个基因组间的共线性关系,计算基因组序列片段间的相似度,构建通过序列比对生成共线性块、倒位块、易位块等数据,比对结果以delta格式文件输出。再调用delta-filter算法对delta格式文件进行筛选,通过参数-l设置最小对齐长度为1kb,并设置参考基因组与查询基因组序列1对1唯一比对,即比对在参考序列和查询序列上的比对片段的对应关系是唯一的,结果以filter格式文件输出。再调用show-coords算法,根据参考基因组的染色体编号和坐标对输出进行排序,生成数据以coords格式文件输出,并将共线性比对结果通过数据上传模块传递给过滤单元。nucmer算法、delta-filter算法和show-coords算法是文献中前人研究中已经公开的算法。
70.transform算法是本发明中的一个算法,主要功能是转换数据格式,通过不同参数接口接收不同输入数据,从而转换成对应格式文件,transform算法操作只改变数据格式,选择性将对应转换后格式所需的数据信息输出。transform算法可用于转换多种格式的数据,可通过参数
‑‑
gff将gff3格式文件转换成bed格式文件、可通过参数
‑‑
snp将snps格式文件转换成bed格式文件、可通过参数
‑‑
pav将qdiff格式文件转换成bed格式文件、可通过参数
‑‑
paf将paf格式的共线性坐标文件转换成coords格式的共线性坐标文件。
‑‑
snp参数、
‑‑
pav参数都是用于数据输入的接口,输入数据的传递对象都是transform算法本身。transform算法的操作并不改变数据的值,只改变数据格式,将输入文件中有用信息输出到新格式文件中。
71.snp识别单元,用于利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;结果输出给窗口调整单元或数据可视化模块。snp识别单元通过show-snps算法对delta-filter算法生成的filter格式文件进行读取,通过参数-c设置
以及filter格式文件中记录的参考基因组和查询基因组唯一匹配的信息,识别用于比对的两个基因组间的唯一匹配的snp信息,并按照参考基因组的染色体编号和snp位点进行排列,最后再通过transform算法的参数
‑‑
snp将show-snps算法识别的snp信息结果调整为bed文件格式输出,输出结果通过数据上传模块传递给窗口调整单元或数据可视化模块。show-snps算法是文献中前人研究中已经公开的算法。
72.结构变异识别单元,用于利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;结构变异识别单元通过show-diff算法对delta-filter算法生成的filter格式文件进行读取,根据nucmer算法和delta-filter算法过滤后的比对结果中记录的参考基因组和查询基因组唯一匹配的信息。基于参考基因组序列,识别查询基因组上与参考基因组序列唯一匹配的结构变异信息。再通过transform算法的参数
‑‑
pav将show-diff算法识别结构变异中记录的pav坐标结果调整为bed文件格式输出,输出结果通过数据上传模块传递给过滤单元。show-diff算法是文献中前人研究中已经公开的算法。
73.过滤单元,用于将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。过滤单元通过对数据上传模块上传的共线性比对坐标文件和pav坐标文件进行过滤操作,过滤操作包括片段最小长度过滤和相似性最小值过滤。数据经过两道过滤,第一道是delta-filter算法的过滤操作,过滤结果是得到参考基因组和查询基因组唯一匹配片段且片段长度大于等于1kb的数据信息;第二道过滤是数据处理模块的过滤单元的过滤操作,过滤是为了得到用于可视化的数据信息,此步参数有默认设置,可通过自定义参数值来控制用于可视化的数据。
74.片段最小长度过滤是特定的去除设定值长度以下的共线性块、倒位块、易位块和pav块,以调整构建数据块的最小输出,默认输出10kb以上的数据块,也可通过参数-synteny_length_min和参数-pav_length_min自定义数值对共线性比对坐标文件和pav坐标文件进行过滤,构建所需产生数据块的信息。
75.相似性最小值过滤是特定的去除设定相似度以下的共线性块、倒位块、易位块,过滤单元默认过滤90%以下相似度的片段,可通过参数-cov_min进行调整,例如
“‑
cov_min 95”可以将相似度95%以下的比对块去除,保留相似性大于等于95%的比对块。
76.数据处理模块还包括窗口调整单元,窗口调整单元的参数是设置各统计窗口的大小,单位是碱基个数。窗口调整单元通过窗口大小调整参数(-genedensity_window、-snp_window、-gc_content_window、-te_window)对数据上传模块上传的基因注释文件、snp密度文件、gc含量密度文件、te密度文件中实际的分块窗口进行调整,按参数设定的窗口大小对新窗口内数据进行重新统计,基因注释文件默认设置的窗口大小为100kb,snp密度文件、gc含量密度文件、te密度文件数据默认使用输入数据文件中实际窗口大小将数据传递给数据可视化模块。例如,
“‑
genedensity_window 1000000”将基因密度的统计窗口按照每1mb碱基长度统计基因的密度情况。
77.基因组共线性可视化系统,还包括:结果分析模块,用于对所述识别结果进行依次进行调整、统计和矫正。结果分析模块:是可选的分析模块,包括调整单元、统计单元和矫正单元。通过-sort match或者-sort reference_length_match参数开启结果分析模块。-sortmatch参数开启的结果分析模块基于参考基因组序列顺序进行,分为统计单元和矫正
单元。
78.统计单元通过数据处理模块输出的共线性比对结果的数据对查询基因组的contig进行统计,分别统计并记录包括查询基因组的每条contig与参考基因组的每条染色体共线性片段以及倒位片段占参考基因组对应染色体长度的比例。
79.矫正单元是按照参考基因组染色体顺序对每条染色体进行操作,对于每条参考基因组染色体,矫正单元选择占对应参考基因组染色体最大长度占比的查询基因组contig进行匹配,匹配完成后将对应查询基因组contig从其他参考基因组染色体存在的候选匹配关系中去除,保持查询基因组contig的唯一性,避免重复匹配。剩余未匹配上的contig按照contig与参考基因组染色体共线性片段的长度,从长到短排列。矫正匹配顺序完成后,矫正单元对重新匹配对应的参考基因组染色体和查询基因组contig进行正负链方向的矫正,若共线性匹配片段累计长度小于倒位匹配片段累计长度,则判别结果为需要取查询基因组contig的反向互补链,矫正单元则矫正查询基因组contig共线性块与参考基因组染色体共线性块的坐标,近缘物种可根据调整后的可视化结果矫正组装问题。
[0080]-sortreference_length_match参数分为调整单元、统计单元和矫正单元,统计单元与矫正单元与-sortmatch参数中叙述一致,唯一不同的是在进行统计单元和矫正单元操作之前,调整单元首先会对参考基因组染色体顺序进行调整。
[0081]
调整单元按照参考基因组各染色体的长度,按从长到短重新对参考基因组染色体编号进行排列,重新排列之后再进行统计单元和矫正单元操作,重新排列只改变参考基因组染色体的输出的顺序,并不改变染色体的原始编号。例如,利用结果分析模块对柑橘科的三个基因组进行调整。如图2和图3所示,图2是未使用结果分析模块的可视化结果,图3是使用结果分析模块的可视化结果,由图比较发现,各查询基因组染色体与参考基因组染色体的共线性关系存在一定问题,但通过结果分析模块可以较好的观察到各基因组间的遗传差异。
[0082]
数据可视化模块,用于对所述识别结果进行可视化展示,得到绘图结果。包括画布单元和绘图单元两部分。主要是将数据处理模块和结果分析模块的分析处理结果进行展示,通过数据上传模块设置的接口提供基因组序列文件、比对结果文件、基因注释文件、snp密度文件、pav坐标文件、gc含量密度文件、te密度文件、端粒坐标文件、着丝粒坐标文件、核心基因坐标文件以及共线性比对坐标文件,数据可视化模块可以使可视化展示的结果囊括染色体长度、基因、te、snp、gc在染色体上的密度分布以及pav、端粒、着丝粒和核心基因在各染色体的坐标等详细信息。通过计算机脚本语言perl对各类信息进行整合,绘制可视化图形。数据可视化模块主要输出两类图谱,例如,利用数据可视化模块对不同品种的三个水稻基因组的遗传差异进行可视化。如图4中的(a)所示不同品种的三个水稻基因组匹配染色体间共线性及注释情况图谱1和如图4中的(b)所示不同品种的三个水稻基因组各染色体间共线性情况图谱2。由图4比较发现,图4(a)中可以清晰的看到三个基因组间共线和倒位情况以及结构变异所处位置和各区间的gc含量,并对添加的端粒、着丝粒、基因密度和te密度等数据在基因组上的情况。图4(b)中图形化的结果通过各种颜色及图形标注清晰的展示了三个水稻品种之间的遗传变异信息,例如共线性块用浅灰色表示,倒位用橙色表示,易位用黄色表示。
[0083]
数据可视化模块具体包括:
diff算法识别基因组间的结构变异信息,通过transform算法的参数
‑‑
pav传递,将show-diff输出结果调整为bed文件格式输出。上述操作目的是使比对结果更具有可读性。上传的基因注释文件、snp密度文件、pav坐标文件、gc含量密度文件、te密度文件数据通过perl语言编码实现对文件识别结果按照默认参数(min_length=10kb)以及各自文件实际划分区间对数据进行过滤以及对各类型数据块构建,也可通过设置数据处理模块中-snp_window、-pav_length_min等参数对snp、pav、gc含量等数据的构建展示区间调整。
[0089]
本方法通过对基因组比对结果文件染色体一致性的统计,可视化实现自动矫正查询基因组contig正负链方向及顺序,近缘物种可根据基于参考基因组的比对结果对查询基因组进行验证调整。具体是通过参数-sortmatch或者-sortreference_length_match开启结果分析模块。参数-sortmatch开启的结果分析模块是基于参考基因组序列的,分为统计单元和矫正单元。统计单元通过数据处理模块输出的共线性比对结果的数据对查询基因组的contig进行统计,分别统计并记录包括查询基因组的每条contig与参考基因组的每条染色体共线性片段以及倒位片段占参考基因组对应染色体长度的比例。矫正单元是按照参考基因组染色体顺序对每条染色体进行操作,对于每条参考基因组染色体,矫正单元选择占对应参考基因组染色体最大长度占比的查询基因组contig进行匹配,匹配完成后将对应查询基因组contig从其他参考基因组染色体存在的候选匹配关系中去除,保持查询基因组contig的唯一性,避免重复匹配。剩余未匹配上的contig按照contig与参考基因组染色体共线性片段的长度,从长到短排列。矫正匹配顺序完成后,矫正单元对重新匹配对应的参考基因组染色体和查询基因组contig进行正负链方向的矫正,若共线性匹配片段累计长度小于倒位匹配片段累计长度,则判别结果为需要取查询基因组contig的反向互补链,矫正单元则矫正查询基因组contig共线性块与参考基因组染色体共线性块的坐标,近缘物种可根据调整后的可视化结果矫正组装问题。参数-sortreference_length_match分为调整单元、统计单元和矫正单元,统计单元与矫正单元与参数-sortmatch中叙述一致,唯一不同的是在进行统计单元和矫正单元操作之前,调整单元首先会对参考基因组染色体顺序进行调整,按照染色体从长到短重新对参考基因组染色体顺序进行排列,重新排序之后再进行统计单元和矫正单元操作。
[0090]
本方法通过perl语言编写代码实现多个可选参数接口,实现例如着丝粒、端粒等信息的输入及输出可视化,并且设置了合理的数据展示形式,能较为全面的展示用户提供的基因组数据信息。通过接口提供基因组序列文件、比对结果文件、基因注释文件、snp密度文件、pav坐标文件、gc含量密度文件、te密度文件、端粒坐标文件、着丝粒坐标文件以及核心基因坐标文件,数据可视化模块可以使可视化展示的结果囊括染色体长度、基因、te、snp、gc在染色体上的密度分布以及pav、端粒、着丝粒和核心基因在各染色体的坐标等详细信息。通过计算机脚本语言perl对各类信息进行整合,绘制可视化图形。
[0091]
本方法在包括windows、linux、mac等平台进行了工具测试,并通过python开发用户交互界面,web服务的客户端通过html和css编写,服务器由django和apache实现管理。
[0092]
从ncbi数据库下载了水稻、人类、大豆、玉米、大白菜、高粱和柑橘基因组数据对本方法进行测试。
[0093]
实例1:对不同品种的三个水稻基因组数据的分析
[0094]
通过本方法对明恢63、珍汕97和蜀恢498三个水稻基因组进行遗传差异分析。本方
法首先将查询基因组珍汕97和蜀恢498分别基于参考基因组明辉63,通过mummer算法进行比对分析,后对比对结果进行过滤及分类操作,统计三个基因组间的snp、pav和gc含量等信息,并加入所选材料之前研究的一些其他数据信息进行可视化分析。结果如图4,图上可以清晰的看到三个基因组间倒位、易位等共线性情况以及结构变异所处位置和各区间的gc含量,并对添加的端粒、着丝粒、基因密度和te密度等数据进行可视化操作。图形化的结果通过各种颜色及图形标注清晰的展示了三个水稻品种之间的遗传变异信息,例如共线性块用浅灰色表示,倒位用橙色表示,可以发现位于明辉63的4号染色体17.5至20mb区域和11号染色体11-15mb区域存在较大片段的倒位,并且可以观察到用黄色表示的pav在11号染色体末端富集。颜色在本发明法中有参数设置,可以修改;在图片中仅用于区分注释信息。
[0095]
实例2:对不同动物基因组数据的分析
[0096]
通过本方法对人类、黑猩猩和山地大猩猩三个不同的动物基因组进行遗传差异分析。本方法首先将查询基因组黑猩猩和山地大猩猩分别基于人类参考基因组,通过mummer算法中多个子算法进行比对分析,后进行可视化分析,结果如图5所示,可以看到在人类与猩猩的基因组上存在较多的结构变异,例如人类与黑猩猩的5号染色体和17号染色体存在大片段的易位,7-10号染色体上存在多个倒位,并且可以发现黑猩猩和山地大猩猩2a和2b两条染色体与人类染色体相对应。
[0097]
如表1所示,同类方法synmap2和synmap3d算法的优点在于寻找共线性基因的速度很快,但是由于参数的设置只能识别大片段的共线性基因,小片段的共线性基因很容易被漏掉。circos的展现形式是将基因匹配与比较分析的结果用圈图表示,提供点阵图和矢量图的输出,但仅限于圆形图形的处理,使得共线性研究受限。mcscan-python提供点图、圈图、双线图等多种展示形式,但用户只能在命令行环境中运行,且环境配置和操作较复杂。上述产品使用的方法主要实现了基因共线性可视化的目的,不能精确地识别不同基因组之间的结构变异;因此,专门用于精确可视化基因组共线性的方法仍然缺乏。
[0098]
本发明可以有效地显示基因组共线性和种内sv的可视化,生成两种类型的图像(染色体间和染色体内共线性)解决单一数据可视化类型和没有矢量图形输出的问题,并且本方法主程序内设置较多输入参数接口,可以帮助研究者更直观的展示数据结果,该方法还能通过对基因组比对结果文件染色体一致性的统计,可视化实现自动矫正染色体正负链方向及顺序,近缘物种可根据基于参考基因组的比对结果对查询基因组进行验证调整。
[0099]
表1geonmesyn与同类软件对比表
[0100][0101]
实例3:对不同植物基因组数据的分析
[0102]
通过本方法对甜橙(csi)、柚子(hwb)、枸桔(zk)三个植物基因组进行遗传差异分析。本方法首先将查询基因组柚子和枸桔分别基于参考基因组甜橙,通过mummer算法中多个子算法进行比对分析,后进行可视化分析,结果如图2和图3所示,图2是未使用本方法中的结果分析模块的可视化结果,图3是使用本方法中的结果分析模块的可视化结果,由图发现,各基因组共线性关系存在一定问题,但通过结果分析模块可以较好的观察到各基因组间的遗传差异。例如,可以看到hwb的chr1、chr2、chr4、chr7共线性累计片段长度小于倒位累计片段长度,结果分析模块调整为了对应染色体的反向互补链。zk基因组的chr2和chr6染色体也调成了对应染色体反向互补链,并且zk基因组染色体顺序由chr1~chr9调整为chr7、chr2、chr5、chr1、chr3、chr6、chr8、chr9。
[0103]
本发明还提供一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如所述的方法。
[0104]
本发明还提供一种计算机存储介质其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如所述的方法。
[0105]
本发明提供一个快速比较和可视化不同物种的遗传多样性的方法,本发明可以有效地显示基因组共线性和种内sv的可视化,生成两种类型的图像(染色体间和染色体内共线性)解决单一数据可视化类型和没有矢量图形输出的问题,并且方法的主程序设置了较多输入参数接口,可以帮助研究者更直观的展示数据结果,并且本发明还能通过对基因组比对结果文件染色体一致性的统计,可视化实现自动矫正染色体正负链方向及顺序,近缘
物种可根据基于参考基因组的比对结果对查询基因组进行验证调整。
[0106]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0107]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种基因组共线性可视化方法,其特征在于,包括:获取参考基因组序列文件和查询基因组序列文件;利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;所述子算法为nucmer算法、show-snps算法和show-diff算法;对所述识别结果进行可视化展示,得到绘图结果。2.根据权利要求1所述的基因组共线性可视化方法,其特征在于,利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果,具体包括:利用nucmer算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。3.根据权利要求1所述的基因组共线性可视化方法,其特征在于,在利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果之后,还包括:对所述识别结果依次进行调整、统计和矫正。4.根据权利要求1所述的基因组共线性可视化方法,其特征在于,对所述识别结果进行可视化展示,得到绘图结果,具体包括:构建绘图比例;根据所述绘图比例和所述识别结果进行绘图,得到绘图结果。5.一种基因组共线性可视化系统,其特征在于,包括:数据上传模块,用于获取参考基因组序列文件和查询基因组序列文件;数据处理模块,用于利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;所述子算法为nucmer算法、show-snps算法和show-diff算法;数据可视化模块,用于对所述识别结果进行可视化展示,得到绘图结果。6.根据权利要求5所述的基因组共线性可视化系统,其特征在于,数据处理模块具体包括:比对单元,用于利用nucmer算法对所述参考基因组序列文件和所述查询基因组序列文件进行dna序列比对,得到识别结果的比对结果;snp识别单元,用于利用show-snps算法对所述比对结果进行识别和排序,得到识别结果的识别snp信息结果;结构变异识别单元,用于利用show-diff算法对所述比对结果进行结构变异识别,得到识别结果的结构变异信息结果;过滤单元,用于将所述比对结果和所述结构变异信息结果进行过滤,得到识别结果的过滤结果。
7.根据权利要求5所述的基因组共线性可视化系统,其特征在于,还包括:结果分析模块,用于对所述识别结果进行依次进行调整、统计和矫正。8.根据权利要求5所述的基因组共线性可视化系统,其特征在于,数据可视化模块具体包括:画布单元,用于构建绘图比例;绘图单元,用于根据所述绘图比例和所述识别结果进行绘图,得到绘图结果。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任意一项所述的方法。10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的方法。

技术总结
本发明公开一种基因组共线性可视化方法、系统、设备及存储介质,涉及基因组可视化领域,方法包括获取参考基因组序列文件和查询基因组序列文件;利用mummer算法中多个子算法对所述参考基因组序列文件和所述查询基因组序列文件进行比对,得到识别结果;对所述识别结果进行可视化展示,得到绘图结果。本发明能提高基因组遗传差异识别的精细度并将结果可视化展示。展示。展示。


技术研发人员:宋佳明 陈玲玲 周祖文 黄小明
受保护的技术使用者:广西大学
技术研发日:2023.06.14
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐