说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210452267.9 (22)申请日 2022.04.27 (71)申请人 成都天奥集团有限公司 地址 610000 四川省成 都市成都高新西区 新业路88号天奥科技产业园 (72)发明人 彭浩瀚 朱美玲 周笛 (74)专利代理 机构 贵州派腾知识产权代理有限 公司 521 14 专利代理师 张祥军 (51)Int.Cl. G06F 16/178(2019.01) G06F 16/36(2019.01) G06F 40/14(2020.01) G06F 40/205(2020.01) (54)发明名称 一种生成结构化数据模板的方法和装置 (57)摘要 本发明公开了一种生成结构化数据模板的 方法, 包括: 定义数据地图模板信息关系, 所述信 息关系包括数据地图模板的文本内容特征类型 和对应的模板数据结构; 获取表格文件, 归纳所 述表格文件的文本内容特征类型; 根据表格文件 的文本内容特征类型, 定义对应的模板数据结 构; 根据模板数据结构解析表格文件, 提取单元 格属性信息填充模板数据结构的信息项内容, 构 建表格内容数据地图; 对数据地图的信息项进行 选择和加工, 生成结构化数据模板。 根据上述技 术方案, 可以将非结构化的表格文件以标准的规 范提取数据结构, 生成结构化数据模板进行存 储, 为后期的标准 化数据开发做准备。 权利要求书2页 说明书8页 附图2页 CN 114936194 A 2022.08.23 CN 114936194 A 1.一种生成结构化数据模板的方法, 其特 征在于, 包括: 定义数据地图模板信 息关系, 所述信 息关系包括数据地图模板的文本 内容特征类型和 对应的模板数据结构; 所述文本内容特征和数据结构通过信息项仓库约定; 其中, 所述模板 数据结构为信息项构成的树形 结构, 所述信息项为 最小数据单 元; 获取表格文件, 归纳所述表格文件的文本内容特 征类型; 根据所述表格文件的文本内容特 征类型, 定义对应的模板数据结构; 根据所述模板数据结构解析所述表格文件, 提取单元格属性信 息填充所述模板数据 结 构的信息项内容, 构建表格内容数据地图; 对所述数据地图的信息项 进行选择和 加工, 生成结构化数据模板 。 2.根据权利要求1所述的生成结构化数据模板的方法, 其特征在于, 一个所述信 息项的 包括多个键值对, 所述键值对由信息名称和信息值构成; 所述键值对的信 息名称包括信息项标题、 标题位置、 信 息项类型; 所述键值对的信 息名 称对应的信息值支持一个或多个普通数据、 信息项; 一个所述信 息项中包括信 息名称为信 息项类型的键值对时, 对应的信 息值包括节点和 文本; 一个所述信 息项中包括信 息值为文本的键值对时, 所属信 息项还包括信 息名称为值位 置的键值对; 一个所述信 息项中包括信 息值为节点的键值对时, 所属信 息项还包括信 息名称为子信 息项的键值对, 所述子信息项的对应的信息值包括 一个或多个信息项。 3.根据权利要求2所述的生成结构化数据模板的方法, 其特征在于, 所述归纳所述表格 文件的文本内容特 征类型指: 识别表格文件的标题, 获取所述标题的文字信息, 包括字符串信息、 字体名称、 字号编 号; 对所述信息进行组合, 生成特征项信息, 对所述特征项信息进行MD5加密, 生成文本内 容特征类型。 4.根据权利要求1所述的生成结构化数据模板的方法, 其特 征在于, 所述根据所述模板数据结构解析所述表格文件, 指获取表格中每一个单元格的属性, 所述属性包括: 内容属性、 位置属性、 类型属性、 布局 属性; 其中, 所述内容属性是从所述表格文件中提取的指定单 元格的文本内容; 所述类型属性是从所述单 元格提取的内容的类型, 包括标题单 元格与值单 元格; 所述位置属性从所述单元格的提取的具体位置, 所述位置属性包括表格编号、 列位编 号、 行位编号。 5.根据权利要求 4所述的生成结构化数据模板的方法, 其特 征在于, 根据一个指定单元格的属性及对应相邻单元格的属性, 判断所述指定单元格的布局属 性, 包括聚合组合、 单值组合和多值组合。 6.根据权利要求5所述的生成结构化数据模板的方法, 其特征在于, 所述提取信 息填充 所述模板数据结构的信息项内容指, 获取所述表格文件中所有单元格的属性内容与信息项 结构对应, 包括: 信息项标题与内容属性对应、 标题位置与位置属性对应、 值位置与位置属性对应、 信 息权 利 要 求 书 1/2 页 2 CN 114936194 A 2项类型与布局 属性对应。 7.根据权利要求6所述的生成结构化数据模板的方法, 其特征在于, 构建表格 内容数据 地图指: 实现所述信息项的内容, 合成所述表格文件 对应的结构化数据文件; 所述结构化数据文件的实现方式支持数据库表结构、 自定义协议文件格式、 JSON文件 格式、 XML文件格式。 8.根据权利要求6所述的生成结构化数据模板的方法, 其特征在于, 所述对所述数据地 图的信息项 进行选择和 加工, 生成结构化数据模板指: 加载结构化数据文件, 对所述结构化数据文件进行内容清理, 其中包括提取信息项中 的键值对, 清除信息值, 保留信息名称; 将所述内容清理后结构化数据文件另存为结构化数据模板 。 9.一种生成结构化数据模板的装置, 其特 征在于, 包括: 数据地图模板结构定义模块: 用于定义数据地图模板信息关系, 所述信息关系包括数 据地图模板的文本内容特征类型和对应的模板数据结构; 其中, 所述模板数据结构为信息 项构成的树形结构, 所述信息项为最小 数据单元; 一个所述信息项的包括多个键值对, 所述 键值对由信息名称和信息值构成; 表格文件属性提取模块: 用于获取所述表格文件, 归纳所述表格文件的文本内容特征 类型, 定义对应的模板数据结构; 根据所述模板数据结构解析所述表格文件, 提取单元格属 性信息; 数据地图构建模块: 用于将所述单元格属性信息填充所述模板数据结构的信息项内 容, 构建表格内容数据地图; 结构分数据模板生成模块: 用于对所述数据地图的信息项进行选择和加工, 生成结构 化数据模板 。 10.根据权利要求9所述的生成结构化数据模板的装置, 其特征在于, 所述表格文件属 性提取模块包括: 文本内容特征类型生成单元: 用于识别表格文件的标题, 获取所述标题的文字信 息, 包 括字符串信息、 字体名称、 字号编号; 对所述信息进 行组合, 生成特征项信息, 对 所述特征项 信息进行MD5加密, 生成文本内容特 征类型。 单元格属性判断单元: 用于获取表格中每一个单元格的属性, 所述属性包括: 内容属 性、 位置属性、 类型属性、 布局 属性。权 利 要 求 书 2/2 页 3 CN 114936194 A 3
专利 一种生成结构化数据模板的方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:55:32
上传分享
举报
下载
原文档
(574.8 KB)
分享
友情链接
GB-T 26141.2-2010 无损检测 射线照相底片数字化系统的质量鉴定 第2部分:最低要求.pdf
ISO 31000-2018 风险管理标准 中文.pdf
GB-T 1506-2016 锰矿石 锰含量的测定 电位滴定法和硫酸亚铁铵滴定法.pdf
GB-T 41670-2022 安全与韧性 社区韧性 突发事件弱势群体救援指南 ISO 22395-2018.pdf
DB42-T 2226.4-2024 自然资源政务一张图应用规范 第4部分:运行服务 湖北省.pdf
GB-T 43566-2023 中小学人造草面层足球场地.pdf
GB-T 39155-2020 金属和合金的腐蚀 海港设施的阴极保护.pdf
GM-T 0012-2020 可信计算 可信密码模块接口规范.pdf
T-NAHIEM 93—2023 麻醉科建设与设备配置.pdf
GB-T 26694-2011 家具绿色设计评价规范.pdf
GB-T 41574-2022 信息技术安全技术公有云中个人信息保护实践指南 ISO-IEC 27018-2019.pdf
GB-T 20822-2007 固液法白酒.pdf
GB-T 35547-2017 乡镇消防队.pdf
DB37-T 5252-2023 《房屋建筑施工扬尘防治技术规程》 山东省.pdf
T-CAMIR 003—2022 媒体大数据分类分级指南.pdf
GB-T 7716-2014 聚合级丙烯.pdf
GB-T 42467.4-2023 中医临床名词术语 第4部分:肛肠科学.pdf
GB-T 37849-2019 液相色谱飞行时间质谱联用仪性能测定方法.pdf
GB-T 35753-2017 空调器室外机安装用支架.pdf
SN-T 5544-2022 麻头砂白蚁检疫鉴定方法.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(574.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。