说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210452267.9 (22)申请日 2022.04.27 (71)申请人 成都天奥集团有限公司 地址 610000 四川省成 都市成都高新西区 新业路88号天奥科技产业园 (72)发明人 彭浩瀚 朱美玲 周笛  (74)专利代理 机构 贵州派腾知识产权代理有限 公司 521 14 专利代理师 张祥军 (51)Int.Cl. G06F 16/178(2019.01) G06F 16/36(2019.01) G06F 40/14(2020.01) G06F 40/205(2020.01) (54)发明名称 一种生成结构化数据模板的方法和装置 (57)摘要 本发明公开了一种生成结构化数据模板的 方法, 包括: 定义数据地图模板信息关系, 所述信 息关系包括数据地图模板的文本内容特征类型 和对应的模板数据结构; 获取表格文件, 归纳所 述表格文件的文本内容特征类型; 根据表格文件 的文本内容特征类型, 定义对应的模板数据结 构; 根据模板数据结构解析表格文件, 提取单元 格属性信息填充模板数据结构的信息项内容, 构 建表格内容数据地图; 对数据地图的信息项进行 选择和加工, 生成结构化数据模板。 根据上述技 术方案, 可以将非结构化的表格文件以标准的规 范提取数据结构, 生成结构化数据模板进行存 储, 为后期的标准 化数据开发做准备。 权利要求书2页 说明书8页 附图2页 CN 114936194 A 2022.08.23 CN 114936194 A 1.一种生成结构化数据模板的方法, 其特 征在于, 包括: 定义数据地图模板信 息关系, 所述信 息关系包括数据地图模板的文本 内容特征类型和 对应的模板数据结构; 所述文本内容特征和数据结构通过信息项仓库约定; 其中, 所述模板 数据结构为信息项构成的树形 结构, 所述信息项为 最小数据单 元; 获取表格文件, 归纳所述表格文件的文本内容特 征类型; 根据所述表格文件的文本内容特 征类型, 定义对应的模板数据结构; 根据所述模板数据结构解析所述表格文件, 提取单元格属性信 息填充所述模板数据 结 构的信息项内容, 构建表格内容数据地图; 对所述数据地图的信息项 进行选择和 加工, 生成结构化数据模板 。 2.根据权利要求1所述的生成结构化数据模板的方法, 其特征在于, 一个所述信 息项的 包括多个键值对, 所述键值对由信息名称和信息值构成; 所述键值对的信 息名称包括信息项标题、 标题位置、 信 息项类型; 所述键值对的信 息名 称对应的信息值支持一个或多个普通数据、 信息项; 一个所述信 息项中包括信 息名称为信 息项类型的键值对时, 对应的信 息值包括节点和 文本; 一个所述信 息项中包括信 息值为文本的键值对时, 所属信 息项还包括信 息名称为值位 置的键值对; 一个所述信 息项中包括信 息值为节点的键值对时, 所属信 息项还包括信 息名称为子信 息项的键值对, 所述子信息项的对应的信息值包括 一个或多个信息项。 3.根据权利要求2所述的生成结构化数据模板的方法, 其特征在于, 所述归纳所述表格 文件的文本内容特 征类型指: 识别表格文件的标题, 获取所述标题的文字信息, 包括字符串信息、 字体名称、 字号编 号; 对所述信息进行组合, 生成特征项信息, 对所述特征项信息进行MD5加密, 生成文本内 容特征类型。 4.根据权利要求1所述的生成结构化数据模板的方法, 其特 征在于, 所述根据所述模板数据结构解析所述表格文件, 指获取表格中每一个单元格的属性, 所述属性包括: 内容属性、 位置属性、 类型属性、 布局 属性; 其中, 所述内容属性是从所述表格文件中提取的指定单 元格的文本内容; 所述类型属性是从所述单 元格提取的内容的类型, 包括标题单 元格与值单 元格; 所述位置属性从所述单元格的提取的具体位置, 所述位置属性包括表格编号、 列位编 号、 行位编号。 5.根据权利要求 4所述的生成结构化数据模板的方法, 其特 征在于, 根据一个指定单元格的属性及对应相邻单元格的属性, 判断所述指定单元格的布局属 性, 包括聚合组合、 单值组合和多值组合。 6.根据权利要求5所述的生成结构化数据模板的方法, 其特征在于, 所述提取信 息填充 所述模板数据结构的信息项内容指, 获取所述表格文件中所有单元格的属性内容与信息项 结构对应, 包括: 信息项标题与内容属性对应、 标题位置与位置属性对应、 值位置与位置属性对应、 信 息权 利 要 求 书 1/2 页 2 CN 114936194 A 2项类型与布局 属性对应。 7.根据权利要求6所述的生成结构化数据模板的方法, 其特征在于, 构建表格 内容数据 地图指: 实现所述信息项的内容, 合成所述表格文件 对应的结构化数据文件; 所述结构化数据文件的实现方式支持数据库表结构、 自定义协议文件格式、 JSON文件 格式、 XML文件格式。 8.根据权利要求6所述的生成结构化数据模板的方法, 其特征在于, 所述对所述数据地 图的信息项 进行选择和 加工, 生成结构化数据模板指: 加载结构化数据文件, 对所述结构化数据文件进行内容清理, 其中包括提取信息项中 的键值对, 清除信息值, 保留信息名称; 将所述内容清理后结构化数据文件另存为结构化数据模板 。 9.一种生成结构化数据模板的装置, 其特 征在于, 包括: 数据地图模板结构定义模块: 用于定义数据地图模板信息关系, 所述信息关系包括数 据地图模板的文本内容特征类型和对应的模板数据结构; 其中, 所述模板数据结构为信息 项构成的树形结构, 所述信息项为最小 数据单元; 一个所述信息项的包括多个键值对, 所述 键值对由信息名称和信息值构成; 表格文件属性提取模块: 用于获取所述表格文件, 归纳所述表格文件的文本内容特征 类型, 定义对应的模板数据结构; 根据所述模板数据结构解析所述表格文件, 提取单元格属 性信息; 数据地图构建模块: 用于将所述单元格属性信息填充所述模板数据结构的信息项内 容, 构建表格内容数据地图; 结构分数据模板生成模块: 用于对所述数据地图的信息项进行选择和加工, 生成结构 化数据模板 。 10.根据权利要求9所述的生成结构化数据模板的装置, 其特征在于, 所述表格文件属 性提取模块包括: 文本内容特征类型生成单元: 用于识别表格文件的标题, 获取所述标题的文字信 息, 包 括字符串信息、 字体名称、 字号编号; 对所述信息进 行组合, 生成特征项信息, 对 所述特征项 信息进行MD5加密, 生成文本内容特 征类型。 单元格属性判断单元: 用于获取表格中每一个单元格的属性, 所述属性包括: 内容属 性、 位置属性、 类型属性、 布局 属性。权 利 要 求 书 2/2 页 3 CN 114936194 A 3

.PDF文档 专利 一种生成结构化数据模板的方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种生成结构化数据模板的方法和装置 第 1 页 专利 一种生成结构化数据模板的方法和装置 第 2 页 专利 一种生成结构化数据模板的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。