说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210772784.4 (22)申请日 2022.06.30 (71)申请人 海纳云物联科技有限公司 地址 266000 山东省青岛市崂山区海尔路1 号海尔工业园内 申请人 青岛海纳云智能系统有限公司   青岛海纳云数字科技有限公司 (72)发明人 陈斌 韩信 甘琳 刘继超 金岩  (74)专利代理 机构 北京元中知识产权代理有限 责任公司 1 1223 专利代理师 陈谦 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01)G06K 9/62(2022.01) (54)发明名称 一种文本和主题匹配方法、 系统、 设备及存 储介质 (57)摘要 本发明公开了一种文本和主题匹配方法、 系 统、 设备及存储介质, 所述方法包括以下步骤: 获 取待匹配的文本信息对, 所述待匹配的文本信息 对包括待匹配主题关键词组和待匹配文本; 对待 匹配的文本信息对进行分词处理, 得到分词信 息; 将分词信息输入关键词识别模型, 得到文本 关键词组; 使用隐含 狄利克雷分布主题识别模型 获取每个文本关键词组分别对应的一个主题关 键词权重, 并通过匹配模型训练继续优化; 根据 所述主题关键词权重, 对待匹配主题关键词组和 文本关键词组进行加权计算 或采用正则表达式, 判断匹配程度, 得出匹配结果。 本发明具有更高 的识别率和召回率, 对不同长度的文本匹配成功 率高, 具有较好的识别效果, 推理时间较短。 权利要求书2页 说明书7页 附图4页 CN 115203368 A 2022.10.18 CN 115203368 A 1.一种文本和主题匹配方法, 其特 征在于, 所述方法包括以下步骤: 获取待匹配的文本信 息, 对所述待 匹配的文本信 息包括待 匹配主题关键词组和待 匹配 文本; 对待匹配的文本信息对进行分词处 理, 得到分词信息; 将分词信息 输入关键词识别模型, 得到文本关键词组; 使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关 键词权重, 并通过匹配模型训练继续优化; 根据所述主题关键词权重, 对待匹配主题关键词组和文本关键词组进行加权计算或采 用正则表达式, 判断匹配程度, 得 出匹配结果。 2.根据权利要求1所述的文本和主题匹配方法, 其特征在于, 所述待匹配文本是根据 预 先设定的关键词规则组, 在公开网页中抓取关键词规则组, 由不同的关键词抓取规则组成, 每条或每几条关键词抓取规则对应一个预先设定的主题, 若公开网页中的文本符合关键词 规则组中的某一条规则, 则该文本和该规则对应的主题组成待匹配主题关键词组和待匹配 文本信息对。 3.根据权利要求2所述的文本和主题匹配方法, 其特征在于, 在所述对待 匹配的文本信 息对进行分词处 理之前, 还 包括: 对待匹配的文本信息对进行 预筛除处 理; 待匹配的文本信 息对中包含负主题关键词, 则 跳过后续处理, 直接判定不匹配, 负主题 关键词组由和负主题关键词组排斥的关键词组成, 为人工事先制定 。 4.根据权利要求3所述的文本和主题匹配方法, 其特征在于, 将所述将分词信 息输入关 键词识别模型, 得到文本关键词组之前, 包括: 构建关键词识别模型; 训练所述关键词识别模型。 5.根据权利要求4所述的文本和主题匹配方法, 其特征在于, 所述训练所述关键词识别 模型, 包括: 设置文本训练集, 训练集由文本信息组成, 均经 过关键词标注和词性标注; 从训练集中获取训练文本, 每 个训练文本都有对应的关键词标注和词性标注信息; 对文本信息进行分词处 理, 获取对应的分词信息; 将所述分词信息 输入预先设定的ber t模型, 获取序列文本信息; 将序列文本信息分别输入关键词标注crf模型和词性标注crf模型, 分别与关键词标注 序列和词性标注序列做比较, 获取对应的关键词标注损失信息和词性标注损失信息; 根据关键词标注损失信息和词性标注损失信息, 分别使用梯度下降法, 对预设的bert 模型和关键词标注crf模型和词性标注crf模型的模型参数进行微调; 当关键词标注损失信息和词性标注损失信息都小于一定阈值或者训练轮次超过一定 数量时, 训练停止 。 6.根据权利要求5所述的文本和主题匹配方法, 其特征在于, 所述将分词信 息输入关键 词识别模型, 得到文本关键词组, 包括: 通过关键词爬取获得待匹配文本; 对待匹配文本进行分词处 理, 得到分词信息;权 利 要 求 书 1/2 页 2 CN 115203368 A 2将分词信息 输入双向编码器模型中, 得到包 含语义信息的输出序列; 将输出序列输入条件随机场模型中, 输出关键词标记序列; 根据关键词标记序列得到关键词组, 关键词组中包含每个关键词在文本中出现的数 量, 其中的关键词包括人物名, 组织名和地名。 7.根据权利要求6所述的文本和主题匹配方法, 其特征在于, 所述通过匹配模型训练继 续优化, 包括: 设置关键词组对匹配训练集, 该训练集由多组关键词组对组成, 每组关键词组对包括 两个关键词组, 以及两者是否匹配的标签; 对关键词 组对进行加权计算, 其中, 每个关键词组对应一个权重, 该权重由LDA主题模 型或机器学习模型 预设; 加权计算获取匹配结果, 将匹配结果和标签计算获取损 失信息, 根据损 失信息使用 梯 度下降法更新关键词权 重; 当损失信息小于一定阈值时, 训练停止 。 8.一种文本和主题匹配系统, 其特 征在于, 包括: 获取模块, 用于获取待匹配的文本信息对, 所述待匹配的文本信息对包括待匹配主题 关键词组和待匹配文本; 分词模块, 用于对待匹配的文本信息对进行分词处 理, 得到分词信息; 输入模块, 用于将分词信息 输入关键词识别模型, 得到文本关键词组; 处理模块, 用于使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应 的一个主题关键词权 重, 并通过匹配模型训练继续优化; 匹配模块, 用于根据所述主题关键词权重, 对待匹配主题关键词组和文本关键词组进 行加权计算或采用正则表达式, 判断匹配程度, 得 出匹配结果。 9.一种文本和主题匹配设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7中任一项所述的文本和主题 匹配方法的步骤。 10.一种存储介质, 其特征在于, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1至7中任一项所述的文本和主题匹配方法。权 利 要 求 书 2/2 页 3 CN 115203368 A 3

.PDF文档 专利 一种文本和主题匹配方法、系统、设备及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本和主题匹配方法、系统、设备及存储介质 第 1 页 专利 一种文本和主题匹配方法、系统、设备及存储介质 第 2 页 专利 一种文本和主题匹配方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。