(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211186653.4
(22)申请日 2022.09.28
(65)同一申请的已公布的文献号
申请公布号 CN 115292247 A
(43)申请公布日 2022.11.04
(73)专利权人 北京鼎轩科技有限责任公司
地址 100089 北京市海淀区后屯路28号院1
号楼三层320室
(72)发明人 邵金生
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 刘秋月
(51)Int.Cl.
G06F 16/13(2019.01)
G06F 16/16(2019.01)G06F 16/174(2019.01)
G06F 16/22(2019.01)
(56)对比文件
CN 110647497 A,2020.01.0 3
CN 101968791 A,201 1.02.09
WO 20210731 11 A1,2021.04.2 2
CN 10123 3479 A,20 08.07.30
WO 20210731 11 A1,2021.04.2 2
WO 2021169113 A1,2021.09.02
CN 10972617 7 A,2019.0 5.07
审查员 于峰
(54)发明名称
一种文件读取方法、 装置、 电子设备和存储
介质
(57)摘要
本申请提供了一种文件读取方法、 装置、 电
子设备和存储介质, 其中, 通过索引表去除将得
到的每个群组中最后一个存储块中的冗余空间
去除, 然后通过内存空间, 将连续的待读取文件
之间的冗余空间去除, 经过上述操作, 在将文件
拷贝到内存中时, 由于存在连续的待读取文件,
相对于现有技术, 本申请在读取时可以减少状态
切换的次数, 以及硬盘磁头切换的频率, 从而有
利于提高读取效率, 且由于内存空间中仅包括所
有的待读取文件的有效数据, 因此在对内存空间
中的数据进行读取时, 进而进一步提高了提高读
取效率。
权利要求书4页 说明书14页 附图2页
CN 115292247 B
2022.12.06
CN 115292247 B
1.一种文件读取方法, 其特征在于, 所述方法应用在业务系统中, 所述业务系统 的硬盘
中存储有多个待读取文件, 在所述 业务系统处于内核态时, 所述方法包括:
对多个待读取文件进行遍历, 将得到的包含各所述待读取文件对应的文件信 息的第一
索引表存储到所述业务系统的内存的第一内存区域中, 其中, 对于每个所述文件信息, 该文
件信息包括该文件信息对应的待读取文件所占用的目标存储块的存储位置、 该文件信息对
应的待读取文件的文件大小、 该文件信息对应的待读取文件所占用的最后一个目标存储块
的尾块位置、 该文件信息对应的待读取文件所占用的目标存 储块之间的连续 性;
根据各所述文件信 息所对应的待读取文件所占用的第 一个目标存储块的存储位置, 按
照存储位置的先后顺序, 对所述第一索引表中的各所述文件信息进行排序, 得到第二索引
表;
根据各所述文件信 息对应的待读取文件所占用的目标存储块之间的连续性、 各所述文
件信息包括该文件信息对应的待读取文件所占用的目标存储块的存储位置, 以及各所述文
件信息对应的待读取文件所占用的最后一个目标存储块的尾块位置, 按照所述第二索引表
中包括的各文件信息的先后顺序对文件信息进行第一群组划分, 以得到多个第一文件群
组, 其中, 对于每个所占用的目标存储块为 非连续的待读取文件, 将该待读取文件所对应的
文件信息作为一个第一 非连续文件群组, 对于每个所占用的目标存储块为连续的待读取文
件且该待读取文件所占用的最后一个目标存储块的尾块位置与下一个待读取文件所占用
的目标存储块的存储位置是非连续时, 将该待读取文件所对应的文件信息作为一个第二 非
连续文件群组, 对于每个所占用的目标存储块为连续的待读取文件且该待读取文件所占用
的最后一个目标存储块的尾块位置与下一个待读取文件所占用的目标存储块的存储位置
是连续时, 将该待读取文件所对应的文件信息和下一个待读取文件所对应的文件信息作为
一个连续文件群组;
根据各所述文件信 息对应的待读取文件的文件大小, 按照所述第 二索引表中包括的各
文件信息的先后顺序, 对多个所述第一文件群组中的连续文件群组进行第二群组划分, 以
得到多个第二文件群组, 其中, 对于每个所述连续文件群组, 如果该连续文件群组对应的待
读取文件的文件大小总和小于或等于预设阈值, 则将该连续文件群组作为一个第二文件群
组, 如果该连续文件群组对应的待读取文件的文件大小总和大于所述预设阈值, 则将该连
续文件群组划分为N个第二文件群组, 前N ‑1个第二文件群组中, 每个第二文件群组包括的
文件信息对应的待读取文件的文件大小总和大于或等于所述预设阈值, 每个第二文件群组
包括的文件信息对应的待读取文件的文件大小总和减去该第二文件群组包括的文件信息
中最后一个文件信息对应的待读取文件的文件大小小于所述预设阈值, N的取值为大于1的
正整数;
根据各所述文件信息对应的待读取文件的文件大小和各所述文件信息包括该文件信
息对应的待读取文件所占用的目标存储块的存储位置, 对所述第一非连续文件群组、 所述
第二非连续文件群组和所述第二文件群组进 行第一冗余去除, 以得到第三文件群组, 其中,
对于每个所述第一非连续文件群组和每个所述第二非连续文件群组, 根据该非连续文件群
组包括的文件信息所对应的待读取文件所占用的目标存储块的起始 位置和第一结尾位置,
确定该非连续文件群组中的文件信息的第一读取范围, 以将所述第一读取范围对应的文件
信息作为所述第三文件群组, 所述第一结尾位置是根据该非连续文件群组包括的文件信息权 利 要 求 书 1/4 页
2
CN 115292247 B
2所对应的待读取文件所占用的目标存储块中除最后一个目标存储块之外的目标存储块的
存储大小之和与该非连续文件群组包括的文件信息所对应的待读取文件的文件大小之差
确定出来的, 对于每个所述第二文件群组, 根据该第二文件群组包括的文件信息所对应的
待读取文件所占用的目标存储块的起始位置和该第二文件群组包括的文件信息最后一个
文件信息所对应的待读取文件所占用的目标存储块的第二结尾位置, 确定该第二文件群组
的文件信息第二读取范围, 以将所述第二读取范围对应的文件信息作为所述第三文件群
组, 所述第二结尾位置是根据该第二文件群组包括的文件信息最后一个文件信息所对应的
待读取文件所占用的目标存储块中除最后一个目标存储块之外的目标存储块的存储大小
之和与该第二文件群组包括的文件信息最后一个文件信息所对应的待读取文件的文件大
小之差确定出来的;
根据各所述第 三文件群组对应的读取范围, 将该第 三文件群组在所述硬盘中对应的待
读取文件拷贝到所述业务系统的内存的第二内存区域中, 以将所述第二内存区域中该第三
文件群组对应的拷贝内容作为第四文件群组;
对于所述第四文件群组中各第 二文件群组对应的待读取文件, 根据该第 二文件群组对
应的各待读取文件的所占用的目标存储块的起始位置和该第二文件群组对应的各待读取
文件所占用的目标存储块的第三结尾位置, 对该第二文件群组对应的各待读取文件之 间的
冗余空间进 行第二冗余去除, 以得到第五文件群组, 其中, 所述第三结尾位置是根据该第二
文件群组对应的各待读取文件所占用的目标存储块中除最后一个目标存储块之外的目标
存储块的存储大小之和与该第二文件群组对应的各待读取文件的文件大小之差确定出来
的;
对所述第五文件群组, 以及所述第四文件群组中除第 二文件群组对应的待读取文件之
外的文件群组进行读取。
2.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
响应用户对所述硬盘中存储的文件的文件类型的选择操作, 将用户选择的文件类型所
对应的文件确定为所述待读取文件。
3.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
以群组的形式对读取到的文件进行并行发送, 其中, 并行发送的群组文件的总和小于
发送带宽 。
4.如权利要求3所述的方法, 其特 征在于, 所述方法还 包括:
并行发送的文件是按照异步 落盘的形式存 储的。
5.一种文件读取装置, 其特征在于, 所述装置在业务系统中, 所述业务系统 的硬盘中存
储有多个待读取文件, 在所述 业务系统处于内核态时, 所述装置包括:
遍历单元, 用于对多个待读取文件进行遍历, 将得到的包含各所述待读取文件对应的
文件信息的第一索引表存储到所述业务系统的内存的第一内存区域中, 其中, 对于每个所
述文件信息, 该文件信息包括该文件信息对应的待读取文件所占用的目标存储块的存储位
置、 该文件信息对应的待读取文件的文件大小、 该文件信息对应的待读取文件所占用的最
后一个目标存储块的尾块位置、 该文件信息对应的待读取文件所占用的目标存储块之 间的
连续性;
排序单元, 用于根据 各所述文件信 息所对应的待读取文件所占用的第 一个目标存储块权 利 要 求 书 2/4 页
3
CN 115292247 B
3
专利 一种文件读取方法、装置、电子设备和存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:33:08上传分享