说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221046413 0.5 (22)申请日 2022.04.29 (71)申请人 华侨大学 地址 362000 福建省泉州市丰泽区城东城 华北路269号 (72)发明人 王华珍 孙雨洁 姜力文 林致中  何霆  (74)专利代理 机构 厦门市首创君 合专利事务所 有限公司 3 5204 专利代理师 李艾华 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 40/242(2020.01)G06Q 50/20(2012.01) G06F 40/166(2020.01) (54)发明名称 一种基于知识约束的MCT完形填空智能出题 方法及系统 (57)摘要 本发明公开了一种基于知识约束的MCT完形 填空智能出题方法及系统, 方法包括: 基于HSK中 文水平等级和 医学词典等多维复杂知识约束对 医疗文本进行篇章语义解析, 以筛选出符合要求 的医疗文本作为出题语料; 基于MCT等级的知识 约束对出题语料进行考点词挖空; 基于医学知识 图谱、 HSK中文水平等级、 MCT等级等多维复杂知 识约束完成干扰项生成; 将题干挖空文本和题目 列表组成完形填空题目进行输出。 本发明针对参 加MCT考试的医学专业留学生, 内容聚焦在医院 日常交际场景的理解、 病情的沟通与交流、 疾病 的具体描述, 通过海量的医学词典、 医疗知识图 谱为MCT题库智能生成提供医疗知识数据支撑, 实现医学汉语资源的科 学利用。 权利要求书2页 说明书6页 附图1页 CN 114781373 A 2022.07.22 CN 114781373 A 1.一种基于知识约束的M CT完形填空智能出题方法, 包括以下步骤: S1: 医疗文本出题语料筛 选步骤 S11: 对医疗题干文本进行分词, 分词结果存 储于数组l istOfStr中; S12: 将“中医疾病与病征编码 ”词典中词汇存储于数组txt中, 如果listOfStr中的词汇 包含于词典中, 则舍弃对应的医疗题干文本; S13: 若医疗题干文本被保留, 则依次遍历listOfStr中的每个词语, 判断listOfStr中 的每个词语是否都存在于 “科室‑疾病”医学词典department中; 若存在, 则对字典time中的 相同键次数+1; S14: 遍历结束后, 找出字典time中键次数最大的值, 即出现次数最多的科室, 将该科室 名判断为题干文本的类别; 若类别符合M CT出题要求, 则该医疗题干文本保留; S15: 若保留医疗题干文本, 将HSK中文水平等级的等级词汇 “HSK”存储于数组strDict1 中; S16: 依次遍历listO fStr中的每个词语, 在数组strDict1中寻找词语对应的HS K中文水 平等级; 设当前出题对应的MCT等级值为c, 其中c包括一级、 二级和三级, 设置MCT等级一级 对应HSK1 ‑4级、 MCT等级二级对应HSK5级、 MCT等级三级对应HSK6 ‑9级; 若词语对应的HSK等 级超过其对应的M CT等级, 则舍弃对应的医疗题干文本; S17 : 若医疗题干文本被保留 , 则将该医疗题干文本确定为出题语料文本 TextQuesti on; S2: 考点词挖空步骤 S21: 将MCT考试大纲中的等级词库小于当前出题MCT等级值c的词汇存储于数组 strDict2中; 所述 等级词库包括词汇及其对应的M CT等级; S22: 判断listOfStr中的词语否存在于strDict2中, 如果存在, 则将该词语存储于候选 挖空词组l istLine中; S23: 如果候选挖空词组中词 汇数量多于设定的MCT单题出题词语数量限定值n, 则随机 剔除词汇, 保证剩余挖空词汇不多于n个, 由剩余挖空词汇组成的词组为 最终挖空词组; S24: 遍历最终挖空词组, 对每个词在出题语料文本TextQuestion 中找到该词第一处出 现的位置, 将该词替换为挖空字符 “____”; S23: 基于 完成挖空后的出题语料文本TextQuesti on形成题干挖空文本; S3:干扰项生成步骤 S31: 创建题目选项数组key, 遍历最终挖空词组中的词汇, 每个词语依次存入数组key 的第1个单 元key[0]; S32: 若key[0]存在于医学知识图谱中, 则在该知识图谱中随机选择另外3个词语构成 干扰项, 并将这3个字 符串存入 数组key的第2至第4单元中, 并将题目标注 为“医学题”, 将题 目标注的值存 入key的第5个单 元中; S33: 若key[0]不存在于医学知识图谱中, 则进一步判断key[0]是否存在于HSK中文水 平等级词汇数组strDict1中, 若存在, 则在数组strDict1 中随机选择另外3个词语构成干扰 项, 并将这3个字 符串存入 数组key的第2至第4单元中, 将题目标注 为“语法题”, 将题目标注 的值存入key的第5个单 元中; S34: 若key[0]不存在于HS K中文水平等级词汇中, 则在MCT考试大纲等级词库strDict3权 利 要 求 书 1/2 页 2 CN 114781373 A 2中随机选择另外3个词语构成干扰项, 并将这3个字 符串存入 数组key的第2至第4单元中, 将 题目标注为 “其它题”, 将题目标注的值存 入key的第5个单 元中; S4: 完形填空题目输出步骤 S41: 将获得与 最终挖空词组的数量m一致的m个题目选项数组key作 为题目列表; 其 中, m≤n。 S42: 将题干挖空文本和题目列表组成完形填空题目进行输出。 2.一种基于知识约束的M CT完形填空智能出题系统, 包括: 医疗文本出题语料筛选模块, 用于基于HSK中文水平等级和医学词典的知识约束对医 疗文本进行篇 章语义解析, 筛选出符合要求的医疗文本作为出题语料; 考点词挖空模块, 用于基于MCT等级的知识约束对出题语料进行考点词挖空, 形成题干 挖空文本; 干扰项生成模块, 用于基于医学知识图谱、 HSK中文水平等级和MCT等级 的知识约束完 成干扰项生成, 获得题目列表; 完形填空题目输出模块, 用于 输出由题干挖空文本和题目列表组成的完形填空题目。权 利 要 求 书 2/2 页 3 CN 114781373 A 3

.PDF文档 专利 一种基于知识约束的MCT完形填空智能出题方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识约束的MCT完形填空智能出题方法及系统 第 1 页 专利 一种基于知识约束的MCT完形填空智能出题方法及系统 第 2 页 专利 一种基于知识约束的MCT完形填空智能出题方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。