全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111423909.4 (22)申请日 2021.11.26 (71)申请人 安徽大学 地址 230000 安徽省合肥市九龙路1 11号 (72)发明人 夏俊峰 张涛 郑春厚  (74)专利代理 机构 合肥汇融专利代理有限公司 34141 代理人 赵宗海 (51)Int.Cl. G16B 20/50(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于选择集成技术的致病同义突变预 测方法 (57)摘要 本发明公开了一种基于选择集成技术的致 病同义突变预测方法, 包括以下步骤: (1)数据获 取; (2)数据预处理: 对获取的数据集利用集成的 K近邻缺失值填充 算法进行缺失值填充; (3)模型 构建: 使用随机欠采样方法对不平衡数据进行处 理, 得到多套平衡训练集, 利用该训练集训练多 个基模型, 构建模型池, 再基于多样性对模型池 中的模型进行选择集成; (4)模型训练: 将不平衡 基准训练集划分为构建模型的训练集和进行模 型评估和参数优化的验证集, 最后通过集成最优 参数下的五折交叉验证模型得到最终模型; (5) 模型预测。 本发 明通过采用随机欠采样技术和选 择集成技术对同义突变领域的不平衡数据进行 建模, 具有较好的识别能力和覆盖能力。 权利要求书2页 说明书7页 附图1页 CN 114121155 A 2022.03.01 CN 114121155 A 1.一种基于 选择集成技 术的致病同义 突变预测方法, 其特 征在于, 包括以下步骤: (1)数据获取: 从已发表的文献中获取不平衡的基准训练集和两套独立测试集; (2)数据预处理: 对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值 填充; (3)模型构建: 使用随机欠采样的方法对不平衡数据进行处理, 得到多套平衡训练集, 利用该训练集训练多个基模型, 构建模型池, 再利用选择集成技术对模型池中的模型进行 选择集成, 具体过程如下: S31.输入数据记为D, 其中正样本记为P, 负 样本记为 N, 其中|P| <|N|; S32.对负样本N进行k次欠采样得到N的k个子集{N1, N2,…, Nk}, 其中|Ni|=|P|且i∈{1, 2,…, k}; S33.由{N1, N2,…, Nk}和P得到{D1, D2,…, Dk}, 其中Di=Ni∪P; S34.分别 利用D1, D2,…, Dk训练基分类 器C1, C2,…, Ck; S35.基分类 器Ci与基分类 器Cj之间的双失败度量Si, j可以由下式计算得到: Si, j=N00 其中N00表示给定数据集上Ci和Cj都预测错误的样本数, 然后通过下式估计基模型Ci的 多样性度量di: S36.利用S5计算模型池中基模型Ci的多样度量di, 依据di对模型池进行排序, 选择前n 个基分类器记为{h1…, hn}, 其中对新数据集x, 集成系统H的预测结果 为: (4)模型训练: 将不平衡基准训练集划分为训练集和验证集, 利用训练集构建模型, 利 用验证集进行模型评估和参数优化, 最后通过集成最优参数下的五折交叉验证模型, 得到 最终模型; (5)模型预测: 使用构建好的模型对外来测试集进行 预测, 获取其 致病概率值。 2.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法, 其特征在 于, 步骤(2)中所述K近邻缺失值 填充算法的具体步骤如下: S21.输入不平衡数据集记为D, 其中正样本(少 数样本)记为P, 负样本(多数样本)记为 N, 其中|P| <|N|; S22.对负样本N进行m次欠采样得到负样本的子集集合{N1, N2,…, Nm}, 其中|Ni|=|P|且 i∈{1, 2, …, m}; S23.由{N1, N2,…, Nm}和P得到数据集 合{D1, D2,…, Dm}, 其中Di=Ni∪P; S24.分别 利用数据集D1, D2,…, Dm构建K近邻缺失值 填充模型f1, f2,…, fm; S25.给定含有缺失值的数据X ′, 完整数据X由下式得到:权 利 要 求 书 1/2 页 2 CN 114121155 A 2其中fi(X')表示 缺失值填充模型fi对数据X'的缺失值 填充后得到的结果。 3.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法, 其特征在 于, 步骤S34中所述基分类 器Ci的学习算法为CART决策树或支持向量机或逻辑回归。 4.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法, 其特征在 于, 步骤(4)中所述 最终模型 是通过集成最优参数 下的五折交叉验证模型 得到的。 5.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法, 其特征在 于, 步骤(5)进行预测时, 外部数据经过缺失值处理后可以直接输入到模型中进行预测, 获 得致病概 率。权 利 要 求 书 2/2 页 3 CN 114121155 A 3

.PDF文档 专利 一种基于选择集成技术的致病同义突变预测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于选择集成技术的致病同义突变预测方法 第 1 页 专利 一种基于选择集成技术的致病同义突变预测方法 第 2 页 专利 一种基于选择集成技术的致病同义突变预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。