(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211146976.0
(22)申请日 2022.09.21
(65)同一申请的已公布的文献号
申请公布号 CN 115238689 A
(43)申请公布日 2022.10.25
(73)专利权人 南京中孚信息技 术有限公司
地址 210000 江苏省南京市浦口区江浦街
道仁山路1号园区2号楼办公室东侧
ER202室
(72)发明人 王钟辉 谭少卿 高伟
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 毕翔宇
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06F 21/60(2013.01)
G06F 16/242(2019.01)(56)对比文件
CN 107423 341 A,2017.12.01
CN 113642038 A,2021.1 1.12
CN 103593476 A,2014.02.19
CN 108984627 A,2018.12.1 1
CN 110059156 A,2019.07.26
US 2017078251 A1,2017.0 3.16
CN 112182166 A,2021.01.0 5
CN 110069599 A,2019.07.3 0
Zhenghong Wang等.Semantic Co ntextual
Search Based o n Conceptual Graphs over
Encrypted Cl oud. 《Security and
Communication Networks》 .2018,第2018卷1-
10.
甄翠明 等.基 于组合密钥的密文 全文检索
的分词加密方案设计. 《计算机光盘软件与应
用》 .2011,(第14期),6 0,64. (续)
审查员 廖雯雯
(54)发明名称
分词分句索引处理方法、 文档检索方法、 设
备及存储介质
(57)摘要
本申请提供了一种分词分句索引处理方法、
文档检索方法、 设备及存储介质, 其中, 该方法包
括: 首先对明文文档分句, 再对分句进行分词, 并
对分句和分词分别进行加密, 对加密得到的密文
分句和密文分词生成分词分句关系组, 并生成各
加密分词的出现频次信息, 最后将各加密分词以
及加密分词对应的出现频次信息组合为一个密
文索引, 并将各加密分词对应的密文索引、 各加
密分词对应的分词分句关系组以及密文分句集
合发送给服务器。 本申请的方法可以建立加密分
词与其所在分句的关联关系, 通过出现频次信息
可以更好地表征出文档与加密分词的相关度, 从
而使得最终的密文索引 可以指示分词所在的分
句, 在用户进行检索时时提高检索的准确度和可见性。
[转续页]
权利要求书2页 说明书15页 附图8页
CN 115238689 B
2022.12.06
CN 115238689 B
(56)对比文件
李珍.基于Simhash的安全密文排序检索方
法研究. 《中国优秀硕士学位 论文全文数据库信
息科技辑》 .2020,(第07期),I138- 62.
郭利刚等.基 于倒排索引的密文数据库检索方法研究. 《计算机安全》 .2010,(第09期),13 -
15.
王梓晗.勒索软件 追踪溯源技 术研究. 《中国
优秀硕士学位 论文全文数据库信息科技 辑》
.2019,(第09期),I139-104.2/2 页
2[接上页]
CN 115238689 B1.一种分词分句索引处 理方法, 其特 征在于, 包括:
终端设备对明文文档进行分句, 得到多个待处理分句, 并对各待处理分句分别进行加
密, 得到多个密文分句, 将多个密文分句组成密文分句集 合;
对各所述待处理分句进行分词及加密处理, 得到各所述待处理分句对应的多个加密 分
词;
根据各所述加密 分词及所述加密分词在待处理分句中对应的分词位置, 生成各加密 分
词对应的分词分句关系对组, 所述分词分句关系对组中包括至少一个分词分句关系对, 各
分词分句关系对分别用于表征 所述加密分词在一个密文分句中的位置;
根据各加密分词对应的分词分句关系对组, 生成各加密分词对应的出现频次信息;
将各所述加密分词以及所述加密分词对应的出现频次信 息组合为一个密文索引, 并将
各所述加密分词对应的密 文索引、 各加密分词对应的分词分句关系对组以及所述密 文分句
集合发送给服 务器。
2.根据权利要求1所述的方法, 其特征在于, 所述根据各所述加密 分词及所述加密分词
在待处理分句中对应的分词位置, 生成各加密分词对应的分词分句关系对组, 包括:
根据加密 分词及加密 分词在各待处理分句中对应的分词位置, 生成各密文分句对应的
分词分句关系对;
将各密文分句对应的分词分句关系对组合 为所述加密分词对应的分词分句关系对组。
3.根据权利要求2所述的方法, 其特征在于, 所述根据加密 分词及加密 分词在各待处理
分句中对应的分词位置, 生成各密文分句对应的分词分句关系对, 包括:
根据第一待处理分句中的分词数量, 生成初始二进制字符串, 所述初始二进制字符串
中的字符数量为所述分词数量, 且所述初始二进制字符串中的各字符的值为预设的无效
值, 其中, 所述第一待处 理分句为所述明文 文档中的任意 一个待处 理分句;
将所述初始二进制字符串中的目标字符的值修改为预设的有 效值, 得到新的二进制字
符串, 其中, 所述 目标字符在所述初始二进制 字符串中的位置为所述加密分词在所述第一
待处理分句中对应的分词位置;
将所述新的二进制字符串以及所述加密分词组合为所述第一待处理分句的密文分句
对应的分词分句关系对。
4.根据权利要求1所述的方法, 其特征在于, 所述根据各加密分词对应的分词分句关系
对组, 生成各加密分词对应的出现频次信息, 包括:
将加密分词对应的分词分句关系对组中所有分词分句关系 对进行或运算处理, 得到所
述加密分词对应的出现频次信息 。
5.根据权利要求1 ‑4任一项所述的方法, 其特 征在于, 所述方法还 包括:
接收明文关键词, 并对所述明文关键词进行加密, 得到密文关键词;
将所述密文关键词发送给所述服务器, 以使所述服务器根据所述密文关键词、 当前保
存的可检索文档的密文索引和分词分句关系对组以及密文分句集合进行检索 并得到检索
结果;
接收并输出 所述服务器发送的检索结果。
6.一种如权利要求1所述的分词分句索引处理方法之后的文档检索方法, 其特征在于,
所述方法包括:权 利 要 求 书 1/2 页
2
CN 115238689 B
3
专利 分词分句索引处理方法、文档检索方法、设备及存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 05:40:08上传分享