基于生命意义感与睡眠质量的分析数据处理方法及装置
未命名
10-17
阅读:245
评论:0
1.本技术涉及数据处理技术领域,特别是涉及一种基于生命意义感与睡眠质量的分析数据处理方法及装置。
背景技术:
2.生命意义感可理解为是个体对生命的意义进行认知的过程,生命意义感分为两个维度,即寻找意义感和拥有意义感。其中,寻找意义感是指个体试图对生活中意义的积极寻找、建立或增强的程度,该维度强调过程;而拥有意义感是指人们理解或看到生活中意义的程度,以及个体对自己个人价值的实现和对社会生活的价值的认知和评估,强调结果。
3.随着生活节奏加快,人们更容易出现消极情绪,严重的消极情绪会对身体造成不良影响。例如生活和工作中产生的压力、焦虑等情绪会引起失眠,影响身体健康。为了研究生命意义感与睡眠质量的关系,需要采集大量的与生命意义感和睡眠质量相关的真实数据进行分析,进而将分析结果用于针对睡眠质量的改善。例如,分析结果可用于睡眠健康检测,帮助用户及时发现睡眠问题和诱因,以便在引起严重的健康问题之前及时寻求干预和治疗;分析结果也可用于改进睡眠相关产品的功能,从而提升用户的生活质量。
4.目前尚未发现与生命意义感相关的公开数据集,因此对生命意义感和睡眠质量的关联分析难以进行。并且,对于分析样本来说,样本数计量越大,所获得的分析结果的准确性越高,因此,如何获取用于进行生命意义感与睡眠质量分析的真实、有效的分析数据,进而确保对该数据进行分析得出的分析结果的准确性,是需要解决的问题。
技术实现要素:
5.有鉴于此,本技术旨在提出一种基于生命意义感与睡眠质量的分析数据处理方法及装置,以获取足够多的用于进行生命意义感与睡眠质量分析的真实、有效的分析数据,进而确保对该数据进行分析得出的分析结果的准确性。
6.为达到上述目的,本技术的技术方案如下:本技术实施例第一方面提供一种基于生命意义感与睡眠质量的分析数据处理方法,所述方法包括:根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关;根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集;将所述第二数据集输入所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现;
将所述第一结果与所述第二结果作为分析数据。
7.可选地,所述生命意义感检测模型还包括寻找意义感子模型;当所述第一样本数据集中的文本数据与生命意义感相关时,进一步判断所述文本数据对应的寻找意义感的高低,生成第二样本数据集;通过所述第二样本数据集训练寻找意义感子模型;所述寻找意义感子模型用于判断文本数据对应的寻找意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的寻找意义感的高低。
8.可选地,所述生命意义感检测模型还包括拥有意义感子模型;当所述第一样本数据集中的文本数据被标注为与生命意义感相关时,进一步判断所述文本数据对应的拥有意义感的高低,生成第三样本数据集;通过所述第三样本数据集训练拥有意义感子模型;所述拥有意义感子模型用于判断文本数据对应的拥有意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的拥有意义感的高低。
9.可选地,计算所述第二数据集中的文本数据对应的睡眠质量得分,包括:构建基于语义依存的睡眠质量检测模型,使用所述睡眠质量检测模型获取所述第二数据集中的文本数据对应的睡眠质量得分;所述睡眠质量检测模型用于执行以下步骤:对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图;根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分。
10.可选地,对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图,包括:对所述文本数据进行分词,基于所述分词的结果进行词性标注;所述词性标注包括:形容词、名词、时间名词、人称代词、动词及副词;对所述词性标注的结果进行语义角色标注;所述语义角色标注用于识别所述文本数据中的关键语义角色;对所述词性标注的结果进行依存句法分析;所述依存句法分析用于获取所述关键语义角色间的依存关系;根据所述语义角色标注的结果和所述依存句法分析的结果,构建语义依存分析图。
11.可选地,根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分,包括:获取所述文本数据中的睡眠关键词和所述睡眠关键词在所述语义依存分析图中的位置;基于所述睡眠关键词在所述语义依存分析图中的位置,在路径中向下查找三层,获取程度关键词及负面情感关键词;根据所述睡眠关键词、所述程度关键词及所述负面情感关键词对应的权重分值,计算所述文本数据对应的睡眠质量得分。
12.可选地,所述基于生命意义感与睡眠质量的分析数据处理方法,还包括:将所述第二数据集中睡眠质量得分大于或等于睡眠阈值的文本数据,判断为存在睡眠困扰,将睡眠质量得分小于所述睡眠阈值的文本数据判断为不存在睡眠困扰;
从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据。
13.可选地,从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据,包括:查找当前的文本数据的语义依存分析图,判断所述语义依存分析图中的关键语义角色及所述关键语义角色间的依存关系,判断是否为描述用户自身的睡眠情况;若是,则从所述语义依存分析图中提取出对应的睡眠影响数据。
14.可选地,对所述文本数据进行分词之前,根据睡眠关键词词典,对所述文本数据中的睡眠关键词进行识别,被识别到的睡眠关键词在进行分词时不会被分割。
15.根据本技术实施例的第二方面,提供一种基于生命意义感与睡眠质量的分析数据处理装置,用于实现本技术实施例的第一方面所提供的基于生命意义感与睡眠质量的分析数据处理方法,所述装置包括:生命意义感检测模块,被配置为根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关;筛选模块,被配置为根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集;第一结果获取模块,被配置为将所述第二数据集通过所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;第二结果获取模块,被配置为计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现;输出模块,被配置为将所述第一结果与所述第二结果作为分析数据。
16.采用本技术所提供的基于生命意义感与睡眠质量的分析数据处理方法,训练能够判断文本数据是否与生命意义感相关的生命意义感检测模型,用于对社交平台中的文本数据进行检测和筛选。根据睡眠关键词和生命意义感关键词对社交平台中获取的原始数据进行筛选,生成同时包括睡眠关键词与生命意义感关键词的第二数据集。使用生命意义感检测模型对第二数据集进行检测,可以获知第二数据集中每个文本数据是否与生命意义感相关。同时,对第二数据集中的每个文本数据进行睡眠质量打分,获取每个文本数据是否存在睡眠困扰,以及进一步获取影响睡眠质量的相关数据。最终将得到的第一结果与第二结果作为分析数据。
17.本技术提供的基于生命意义感与睡眠质量的分析数据处理方法,与传统的问卷调查获取分析数据的方式相比,从网络中获取的数据量更大,且更加真实、有效,通过对文本数据所反映的睡眠质量进行量化,通过睡眠质量得分能够更准确地筛选出存在睡眠困扰的数据,并且由于本技术中的原始数据是从社交平台获取的,因此本技术中的分析数据还具有可追溯性,进而基于该分析数据进行生命意义感与睡眠质量相关的分析,能够获得更准确的分析结果。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术一实施例提出的基于生命意义感与睡眠质量的分析数据处理方法的流程图;图2是本技术一实施例提出的基于生命意义感与睡眠质量的分析数据处理装置的示意图;图3是本技术一实施例提出的语义依存分析方法的示意图;图4是本技术一实施例提出的语义依存路径的示意图;图5是本技术一实施例提出的语义依存分析图的结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
22.在本技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
23.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
24.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
25.本技术通过社交平台的公开文本获取原始数据,由于社交平台上存在大量活跃用户,因此从社交平台中挖掘用户发布的社交内容,从中获得与生命意义感和睡眠问题有关的数据的方式,相较于传统的问卷调查方式获得的数据量更大,并且,由于社交平台中的内容为用户主动发布,因此从社交平台获取的数据更加真实、有效,且可追溯。
26.下面将参考附图并结合实施例来详细说明本技术。
27.图1是本技术一实施例提出的基于生命意义感与睡眠质量的分析数据处理方法的流程图。如图1所示,该方法包括:s1:根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本
数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关。
28.本实施例中,通过社交平台获取第一样本数据。以微博平台为例,根据生命意义感关键词,从微博用户公开发布的文本信息中筛选出包含生命意义感的微博文本。具体地,使用的关键词包括:人生、生命、生活、意义、目标、使命、价值、信仰、理想、梦想、未来、追求、追寻、寻觅、寻找、建立、拥有、存在、探索。
29.在获取到包含生命意义感关键词的微博文本后,随机抽取一部分文本数据,用于训练生命意义感检测模型。首先,对抽取出来的文本数据是否与生命意义感相关进行标注。本实施例中,通过人工交叉标注的形式,即每个文本都通过至少两人对其进行是否与生命意义感相关的标注,当两个标注者都将该文本标注为“与生命意义感相关”时,才将该数据确定为与生命意义感相关,以使训练模型的样本数据更准确。
30.例如,文本数据“小动物的生命好脆弱呀”提及了“生命”这个词,因此被添加到第一样本数据中,但其讨论的并非生命意义感相关内容,因此在进行标注时被划分到“生命意义感不相关”一类。文本数据“我觉得生活真的一点意义都没有,根本看不到未来”能够体现出生命意义感的内容,因此在人工标注时被划分到“生命意义感相关”一类。
31.bert是一个相对深而窄的模型,通过多层编码器(transformer encoder)层层堆叠起来形成,其中多头自注意力(multi-head self-attention)机制是transformer的核心。由于bert对表述隐晦的文本更有优势,而基于卷积神经网络的textcnn(convolutional naural networks)模型对关键词更敏感,因此本实施例中,将二者进行结合构建生命意义感检测模型,模型包括12个编码层、3个不同尺寸的卷积核、池化层、融合层以及分类输出层。将标注完成的文本数据按照8:1:1的比例随机划分训练集、验证集和测试集。其中,训练集用于对模型进行训练,验证集用于对模型的参数进行调整,以不断改进模型准确度;测试集则用于模型效果的验证。
32.可选地,所述生命意义感检测模型还包括寻找意义感子模型;当所述第一样本数据集中的文本数据与生命意义感相关时,进一步判断所述文本数据对应的寻找意义感的高低,生成第二样本数据集;通过所述第二样本数据集训练寻找意义感子模型;所述寻找意义感子模型用于判断文本数据对应的寻找意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的寻找意义感的高低。
33.寻找意义感是“寻找意义感”是指个体试图对生活中意义的积极寻找、建立或增强的程度,强调过程。在一种实施例中,除了对微博文本数据进行是否与生命意义感有关的标注时,还对判定为与生命意义感相关的文本数据进行进一步标注,判定该微博文本包含的寻找意义感的高低。利用标注完的样本数据,训练用于判断文本数据的寻找意义感高低的模型。
34.实际操作中通过标注获得的包含寻找意义感的文本数据量,远少于与标注出的与生命意义感相关的数据,为了获得足够数量的样本数据用于训练寻找意义感子模型,采用了数据增强的方法,利用随机删除和随机同义词替换的方式,将样本数据集进行扩充,获取数量充足的样本数据集,以满足寻找意义感子模型的训练要求,以及提升该子模型的泛化性。
35.可选地,所述生命意义感检测模型还包括拥有意义感子模型;当所述第一样本数据集中的文本数据被标注为与生命意义感相关时,进一步判断所述文本数据对应的拥有意义感的高低,生成第三样本数据集;通过所述第三样本数据集训练拥有意义感子模型;所述拥有意义感子模型用于判断文本数据对应的拥有意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的拥有意义感的高低。
36.拥有意义感是指人们理解或看到生活中意义的程度,以及个体对自己个人价值的实现和对社会生活的价值的认知和评估,强调结果。在一种实施例中,除了对微博文本数据进行是否与生命意义感有关的标注时,还对与生命意义感相关的文本数据进行拥有意义感高低的标注,进一步判定该文本数据包含的拥有意义感的高低。利用标注完的样本数据,训练用于判断文本数据的拥有意义感高低的拥有意义感子模型。
37.实际操作中通过标注获得的包含拥有意义感的文本数据的数据量,远远少于与生命意义感相关的数据的标注量,为了获得足够数量的样本数据用于训练模型,同样地采用了数据增强的方法,利用随机删除和随机同义词替换的方式,将样本数据集进行扩充,获取数量充足的样本数据集,以满足模型训练的要求,同时,经过随机删除与随机同义词替换获得的样本数据,能够提升模型的泛化性。
38.s2:根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集。
39.在本实施例中,从微博平台获取同时包含睡眠关键词和生命意义感关键词的文本数据,作为第二数据集。其中,睡眠关键词是从睡眠关键词词典中获取的。睡眠关键词词典是根据可以自定义的关键词词典,本实施例中,睡眠关键词词典包含71个睡眠关键词,例如:“失眠”、“熬夜”、“多梦”、“困”、“凌晨”、“梦见”等。对获取到的原始数据进行数据清洗,过滤掉噪音数据,具体包括:删除长度为10个字以上的完全重复的文本,删除带有视频链接的文本数据,根据废词进一步筛选,得到较为纯净的第二数据集。
40.s3:将所述第二数据集输入所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;s4:计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现。
41.本实施例中,将数据清洗后的第二数据集输入训练完成的生命意义感检测模型,确定第二数据集中每个文本数据是否与生命意义感相关。然后,对第二数据集中的每个文本数据进行睡眠质量分析。由于文本数据中体现睡眠质量的相关表达通常包括丰富的语义信息,即包括多个语义角色,因此,本实施例中,基于语义依存分析方法对文本数据中体现的睡眠质量进行分析,获取第二数据集中每个文本数据体现的睡眠质量得分、以及判断该文本数据对应的用户是否存在睡眠困扰,进一步获取可能影响用户睡眠困扰的因素数据。
42.s5:将所述第一结果与所述第二结果作为分析数据。
43.本实施例中,通过微博平台进行数据抓取,获取到大量真实、有效且可追溯的原始数据,再通过生命意义感相关的检测模型对原始数据进行清洗、筛选,并对每个筛选出来的文本数据进行睡眠质量的分析,使获得的分析数据更加准确有效,利用该分析数据进行进行生命意义感与睡眠质量的分析,能够提高分析结果的准确性。从而能够利用得到的分析
结果投入生产。例如,分析结果可用于提升用户睡眠质量的实体产品或虚拟产品的性能和用户体验。
44.s41:构建基于语义依存的睡眠质量检测模型,使用所述睡眠质量检测模型获取所述第二数据集中的文本数据对应的睡眠质量得分;所述睡眠质量检测模型用于执行以下步骤:对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图;根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分。
45.本实施例中,构建基于语义依存方法的睡眠质量检测模型,用于计算文本数据的睡眠质量得分。睡眠质量检测模型首先会采用语义依存方法,对文本数据进行语义分析,包括识别出文本数据中的语义角色、各个语义角色间的关系以及可体现睡眠质量的睡眠关键词,基于每个睡眠关键词对睡眠质量的影像程度,确定该文本数据所体现的睡眠质量得分。
46.s411:对所述文本数据进行分词,基于所述分词的结果进行词性标注;所述词性标注包括:形容词、名词、时间名词、人称代词、动词及副词;在本实施例中,构建语义依存分析图首先要对文本数据进行分词,在对分词的结果进行标注。图3是本技术一实施例提出的语义依存分析方法的示意图。如图3所示,以文本数据“今晚睡不着了,好累呀”为例,将该文本数据进行分词,获得分词结果为:["今晚","睡","不", "着", "了", ",", "好", "累", "呀"]。
[0047]
获得分词结果后,对每个词进行词性标注,如图3所示,其中nt为时间名词、p为介词,n为名词、r为人称代词,v为动词,u为助动词,d为副词,a为形容词。
[0048]
s412:对所述词性标注的结果进行语义角色标注;所述语义角色标注用于识别所述文本数据中的关键语义角色。
[0049]
本实施例中,基于词性标注的结果进行语义角色标注、依存句法分析和语义依存分析。如图3所示,通过语义角色标注,获取到该文本数据中的各个语义角色。例如,根据上述文本数据“今晚睡不着了,好累呀”的分词结果,进行如下语义角色标注:[{
‘
predicate’:’失眠’,’arguments’: [('a0',’我’),(
‘
argm-tmp’,’今天’),(
‘
argm-prp’,’因为奶茶')]},{
‘
predicate’:’感到’,’arguments’: [(
‘
argm-tmp’,’今天’),(
‘
a0’,’我’).(
‘
a1’,’特别难受’)]},{
‘
predicate’:’难受’,’arguments’: [(
‘
arg-adv’:’特别’)]}]。
[0050]
其中,a0为语义主体,predicate为谓语动词、adv为状语、tmp为时间,argm为语义角色词前缀标志,prp为目的角色,a1为受事者。
[0051]
s413:对所述词性标注的结果进行依存句法分析;所述依存句法分析用于获取所述关键语义角色间的依存关系。
[0052]
本实施例中,根据语义角色标注的结果进行句法依存分析,获取文本数据中的语义角色间的实施关系和当事关系、情景角色的时间定位和原因角色等。
[0053]
s414:根据所述语义角色标注的结果和所述依存句法分析的结果,构建语义依存分析图。
[0054]
语义依存分析与句法依存分析不同,语义依存分析路径不收表层句法结构的影响,因此对于不同表层语法表述的同义句,可以得到一致且唯一结果。由于语义依存分析可以更有效地挖掘实词与实词之间的语义关联,忽略非实词,能够更快发现与睡眠相关的实
词线索,优化关键词遍历路径。因此,本实施例中,将文本划分为不同的语言单位,并将各个语言单位定位到语义框架中,以框架的方式对关键词进行语义分析,从而得到结构化的深层语义表达的语义依存分析图。
[0055]
可选地,对所述文本数据进行分词之前,根据睡眠关键词词典,对所述文本数据中的睡眠关键词进行识别,被识别到的睡眠关键词在进行分词时不会被分割。
[0056]
在一种实施例中,在对文本数据进行分词之前,引入睡眠关键词词典,对该文本数据中的睡眠关键词进行识别。睡眠关键词词典可用于帮助模型识别出更多睡眠相关的词,避免将关键词进行更细粒度切割。引入睡眠关键词词典有助于快速识别出睡眠关键词,进而提升对文本数据进行量化获取该文本数据的睡眠质量得分的效率。
[0057]
例如,“今晚睡不着了,好累呀”在引入睡眠关键词词典之前,分词结果为["今晚","睡","不", "着", "了", ",", "好", "累", "呀"],引入包含“睡不着”的睡眠关键词词典后,该句的分词结果为["今晚", "睡不着", "了", ",", "好", "累", "呀"]。
[0058]
图4是本技术一实施例提出的语义依存路径的示意图。如图4所示,以“今天,因为奶茶,我失眠了,感到特别难受”为例进行语义依存分析,首先找到该文本数据中的睡眠关键词“失眠”,然后识别出与该睡眠关键词直接关联的关键词,作为路径中的下一层节点(即第一层)的关键词,包括:“今天”、“奶茶”、“我”、“感到”、“了”,再进一步获取第一层直接关联的关键词,作为路径中的第二层节点的关键词,包括:“因为”、“难受”,以此类推,获取第三层节点的关键词,包括:“特别”。上述例子中由于分析的文本长度较短,因此关键词在划分到第三层就已划分完毕。在实际应用中,对语义依存分析图中关键词的划分层级不做限制,可根据实际需要进行。
[0059]
根据划分的关键词的层级,构建结构化的语义依存分析图,对其中的睡眠关键词、周边语义角色关键词及语义关键词间的结构关系进行标注。图5是本技术一实施例提出的语义依存分析图的结构示意图。如图5所示,图中以睡眠关键词“失眠”为基础(root),按照树状结构依次填入了第一层级关键词、第二层级关键词及第三层级关键词,并对关键词之间的关系进行了标注。例如,“今天”为关键词“睡眠”的时间信息(time),“奶茶”为关键词“睡眠”的原因(reas),“我”为关键词“睡眠”的当事主体角色(exp),“感到”为关键词“睡眠”的后继关系(esucc),“了”为关键词“睡眠”的依附标记(mdepd),“因为”为关键词“奶茶”的关系标记(mrela),“难受”为关键词“感到”的客事角色(cont),“特别”为关键词“难受”的依附标记(mdepd)。
[0060]
本实施例中,根据构建完成的语义依存分析图,对文本数据中体现的睡眠质量进行量化,计算对应的睡眠质量得分。
[0061]
s415:获取所述文本数据中的睡眠关键词和所述睡眠关键词在所述语义依存分析图中的位置;基于所述睡眠关键词在所述语义依存分析图中的位置,在路径中向下查找三层,获取程度关键词及负面情感关键词;根据所述睡眠关键词、所述程度关键词及所述负面情感关键词对应的权重分值,计算所述文本数据对应的睡眠质量得分。
[0062]
本实施例中,首先获取文本数据中的睡眠关键词(例如“失眠”),然后根据该睡眠关键词构建语义依存分析图,根据该睡眠关键词在语义依存分析图中的定位,向下查找该
睡眠关键词以下的关联关键词,获取程度关键词和负面情感关键词。
[0063]
本实施例中,构建的睡眠关键词词典中每个睡眠关键词都对应了一个权重分值。除此之外,还构建了负面情感词典和程度词典。其中,负面情感词典中包括27个具有负面情绪的关键词及每个关键词对应的权重分值,关键词包括:“恼”“惧”“慌”“恨”“疲惫”“疚”等;程度词典中包括71个表达睡眠程度的关键词及每个关键词对应的权重分值,关键词包括:“特别”“极度”“越发”“略微”“最”等。
[0064]
遍历文本数据的语义依存分析图的每一条路径,根据睡眠关键词、负面情感关键词及程度关键词,分别在睡眠关键词词典、负面情感词典及程度词典中查找该关键词对应的权重分值。(如表1所示)根据各个关键词的权重分值,计算睡眠质量得分(score)为:。
[0065]
其中,为睡眠关键词,为程度关键词,为负面情感关键词,a、b、c分别为关键词对应的权重分值,m、n、q分别为睡眠关键词、程度词和负面情感词在当前的语义依存分析图中出现的次数。值得注意的是,在遍历过程中,若一个关键词已经在其他路径中遍历过,则不对其单独再构建语义依存路径图,避免重复计算;若一个文本数据中包含多个睡眠关键词,则根据睡眠关键词的数量构建多个语义依存分析图,取所有语义依存分析图中计算得到的睡眠质量得分的累计值作为该文本数据的睡眠质量得分。
[0066]
表1
[0067]
s416:将所述第二数据集中睡眠质量得分大于或等于睡眠阈值的文本数据,判断为存在睡眠困扰,将睡眠质量得分小于所述睡眠阈值的文本数据判断为不存在睡眠困扰;从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据。
[0068]
本实施例中,计算得到的睡眠质量得分值越高的表明该文本数据存在的睡眠困扰越严重。根据实际测试的结果,将睡眠阈值设置为1.8分,当睡眠质量得分小于1.8分时,判定该文本数据不存在明显的睡眠困扰;将睡眠质量得分超过1.8分的文本数据判定为存在睡眠困扰。对于这一部分存在睡眠困扰的文本数据,进一步,从该文本数据的语义依存分析图中获取该文本数据对应的睡眠影像数据,包括:时间定位(睡眠困扰发生的时间)、影响睡眠的关键因素及影响睡眠的具体表现。
[0069]
s417:查找当前的文本数据的语义依存分析图,判断所述语义依存分析图中的关键语义角色及所述关键语义角色间的依存关系,判断是否为描述用户自身的睡眠情况;若是,则从所述语义依存分析图中提取出对应的睡眠影响数据。
[0070]
本实施例中,查找当前的文本数据的语义依存分析图,判断该文本数据是否为用户本人在描述自身的睡眠情况(即agt或agt是否为非第一人称),若确定是用户本人描述自身的水面情况,则获取该语义依存分析图中的时间信息(time)、原因角色(reas)及客事角
色(cont)。如表2所示为本实施例中部分抽取结果的示例。
[0071]
表2
[0072]
本实施例中,可将第一结果和第二结果进行关联分析,将分析数据用于研究生命意义感与睡眠质量的关系。例如,研究用户发布的原创微博中“生命意义感相关的微博数量占比”与“睡眠质量高低”的关系;研究用户发布的原创微博中“寻找意义感高低、拥有意义感高低”与“睡眠质量高低”的关系,以及研究“造成用户睡眠困扰的原因”与“用户的生命意义感”之间的关系,分析结果可用于监测用户健康状况以及寻求改善用户睡眠质量的方法。
[0073]
基于同一发明构思,本技术一实施例提供一种基于生命意义感与睡眠质量的分析数据处理装置。参考图2,图2是本技术一实施例提出的基于生命意义感与睡眠质量的分析数据处理装置200的示意图。如图2所示,该装置包括:生命意义感检测模块201,被配置为根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关;筛选模块202,被配置为根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集;第一结果获取模块203,被配置为将所述第二数据集通过所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;第二结果获取模块204,被配置为计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现;输出模块205,被配置为将所述第一结果与所述第二结果作为分析数据。
[0074]
可选地,所述生命意义感检测模块201,还包括:寻找意义感子模块,被配置为当所述第一样本数据集中的文本数据与生命意义感
相关时,进一步判断所述文本数据对应的寻找意义感的高低,生成第二样本数据集;通过所述第二样本数据集训练寻找意义感子模型;所述寻找意义感子模型用于判断文本数据对应的寻找意义感的高低;所述第一结果获取模块203获取的第一结果还包括:与生命意义感相关的文本数据对应的寻找意义感的高低。
[0075]
可选地,所述生命意义感检测模块201,还包括:拥有意义感子模块,被配置为当所述第一样本数据集中的文本数据被标注为与生命意义感相关时,进一步判断所述文本数据对应的拥有意义感的高低,生成第三样本数据集;通过所述第三样本数据集训练拥有意义感子模型;所述拥有意义感子模型用于判断文本数据对应的拥有意义感的高低;所述第一结果获取模块203获取的第一结果还包括:与生命意义感相关的文本数据对应的拥有意义感的高低。
[0076]
可选地,所述第二结果获取模块204,还包括:睡眠质量检测模块,被配置为构建基于语义依存的睡眠质量检测模型,使用所述睡眠质量检测模型获取所述第二数据集中的文本数据对应的睡眠质量得分;所述睡眠质量计算模块包括语义依存分析子模块与计算子模块;所述语义依存分析子模块,被配置为对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图;第一获取子模块,被配置为根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分。
[0077]
可选地,所述语义依存分析子模块,还包括:分词与标注子模块,被配置为对所述文本数据进行分词,基于所述分词的结果进行词性标注;所述词性标注包括:形容词、名词、时间名词、人称代词、动词及副词;对所述词性标注的结果进行语义角色标注;所述语义角色标注用于识别所述文本数据中的关键语义角色;分析子模块,被配置为对所述词性标注的结果进行依存句法分析;所述依存句法分析用于获取所述关键语义角色间的依存关系;生成子模块,被配置为根据所述语义角色标注的结果和所述依存句法分析的结果,构建语义依存分析图。
[0078]
可选地,所述第一获取子模块,具体被配置为执行以下步骤:获取所述文本数据中的睡眠关键词和所述睡眠关键词在所述语义依存分析图中的位置;基于所述睡眠关键词在所述语义依存分析图中的位置,在路径中向下查找三层,获取程度关键词及负面情感关键词;根据所述睡眠关键词、所述程度关键词及所述负面情感关键词对应的权重分值,计算所述文本数据对应的睡眠质量得分。
[0079]
可选地,所述第二结果获取模块204,还包括:第二获取子模块,被配置为将所述第二数据集中睡眠质量得分大于或等于睡眠阈
值的文本数据,判断为存在睡眠困扰,将睡眠质量得分小于所述睡眠阈值的文本数据判断为不存在睡眠困扰;从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据。
[0080]
可选地,所述第二获取子模块,具体被配置为执行以下步骤:查找当前的文本数据的语义依存分析图,判断所述语义依存分析图中的关键语义角色及所述关键语义角色间的依存关系,判断是否为描述用户自身的睡眠情况;若是,则从所述语义依存分析图中提取出对应的睡眠影响数据。
[0081]
可选地,所述第二结果获取模块204还包括:关键词预识别模块,被配置为对所述文本数据进行分词之前,根据睡眠关键词词典,对所述文本数据中的睡眠关键词进行识别,被识别到的睡眠关键词在进行分词时不会被分割。
[0082]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0083]
以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0084]
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和部件并不一定是本技术所必须的。
[0085]
本领域内的技术人员应明白,本技术实施例可提供为方法、装置、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0086]
本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0087]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0088]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0089]
尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
[0090]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0091]
以上对本技术所提供的基于生命意义感与睡眠质量的分析数据处理方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,包括:根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关;根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集;将所述第二数据集输入所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现;将所述第一结果与所述第二结果作为分析数据。2.根据权利要求1所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,所述生命意义感检测模型还包括寻找意义感子模型;当所述第一样本数据集中的文本数据与生命意义感相关时,进一步判断所述文本数据对应的寻找意义感的高低,生成第二样本数据集;通过所述第二样本数据集训练寻找意义感子模型;所述寻找意义感子模型用于判断文本数据对应的寻找意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的寻找意义感的高低。3.根据权利要求1所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,所述生命意义感检测模型还包括拥有意义感子模型;当所述第一样本数据集中的文本数据被标注为与生命意义感相关时,进一步判断所述文本数据对应的拥有意义感的高低,生成第三样本数据集;通过所述第三样本数据集训练拥有意义感子模型;所述拥有意义感子模型用于判断文本数据对应的拥有意义感的高低;所述第一结果还包括:与生命意义感相关的文本数据对应的拥有意义感的高低。4.根据权利要求1-3任一所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,计算所述第二数据集中的文本数据对应的睡眠质量得分,包括:构建基于语义依存的睡眠质量检测模型,使用所述睡眠质量检测模型获取所述第二数据集中的文本数据对应的睡眠质量得分;所述睡眠质量检测模型用于执行以下步骤:对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图;根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分。5.根据权利要求4所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,对所述第二数据集中的文本数据进行语义依存分析,构建语义依存分析图,包括:对所述文本数据进行分词,基于所述分词的结果进行词性标注;所述词性标注包括:形容词、名词、时间名词、人称代词、动词及副词;对所述词性标注的结果进行语义角色标注;所述语义角色标注用于识别所述文本数据中的关键语义角色;对所述词性标注的结果进行依存句法分析;所述依存句法分析用于获取所述关键语义角色间的依存关系;
根据所述语义角色标注的结果和所述依存句法分析的结果,构建语义依存分析图。6.根据权利要求4所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,根据所述语义依存分析图,对所述文本数据进行量化,计算对应的睡眠质量得分,包括:获取所述文本数据中的睡眠关键词和所述睡眠关键词在所述语义依存分析图中的位置;基于所述睡眠关键词在所述语义依存分析图中的位置,在路径中向下查找三层,获取程度关键词及负面情感关键词;根据所述睡眠关键词、所述程度关键词及所述负面情感关键词对应的权重分值,计算所述文本数据对应的睡眠质量得分。7.根据权利要求6所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,还包括:将所述第二数据集中睡眠质量得分大于或等于睡眠阈值的文本数据,判断为存在睡眠困扰,将睡眠质量得分小于所述睡眠阈值的文本数据判断为不存在睡眠困扰;从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据。8.根据权利要求7所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,从存在睡眠困扰的文本数据的语义依存分析图中,获取对应的睡眠影响数据,包括:查找当前的文本数据的语义依存分析图,判断所述语义依存分析图中的关键语义角色及所述关键语义角色间的依存关系,判断是否为描述用户自身的睡眠情况;若是,则从所述语义依存分析图中提取出对应的睡眠影响数据。9.根据权利要求5所述的基于生命意义感与睡眠质量的分析数据处理方法,其特征在于,对所述文本数据进行分词之前,根据睡眠关键词词典,对所述文本数据中的睡眠关键词进行识别,被识别到的睡眠关键词在进行分词时不会被分割。10.一种基于生命意义感与睡眠质量的分析数据处理装置,用于实现权利要求1-9任一所述的方法,其特征在于,包括:生命意义感检测模块,被配置为根据生命意义感关键词,从社交平台获取第一样本数据集,使用所述第一样本数据集训练生命意义感检测模型;所述生命意义感检测模型用于判断文本数据是否与生命意义感相关;筛选模块,被配置为根据睡眠关键词与所述生命意义感关键词,从所述社交平台获取第二数据集;第一结果获取模块,被配置为将所述第二数据集通过所述生命意义感检测模型,获取第一结果;所述第一结果表征所述第二数据集中的文本数据是否与生命意义感相关;第二结果获取模块,被配置为计算所述第二数据集中的文本数据对应的睡眠质量得分,根据所述睡眠质量得分获取第二结果;所述第二结果包括所述文本数据是否存在睡眠困扰及睡眠影响数据,所述睡眠影响数据包括时间定位、影响睡眠的关键因素及影响睡眠的具体表现;输出模块,被配置为将所述第一结果与所述第二结果作为分析数据。
技术总结
本申请涉及数据处理技术领域,公开了一种基于生命意义感与睡眠质量的分析数据处理方法及装置。其中方法包括:根据生命意义感关键词,从社交平台获取第一样本数据集,使用第一样本数据集训练用于判断文本数据是否与生命意义感相关的生命意义感检测模型;根据睡眠关键词与生命意义感关键词,从社交平台获取第二数据集;将第二数据集输入生命意义感检测模型,获取第一结果;计算第二数据集中的文本数据对应的睡眠质量得分,根据睡眠质量得分获取第二结果;将第一结果与第二结果作为分析数据。采用本方法获取的分析数据量更大,更真实、有效且可追溯,对睡眠质量进行量化从而提高分析数据的准确度,进而基于该分析数据能够获得更准确的分析结果。更准确的分析结果。更准确的分析结果。
技术研发人员:李琦 王梦瑶 曹檑 吴佳珂 刘振华 谷沛嫱
受保护的技术使用者:北京师范大学
技术研发日:2023.09.04
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
