全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210817148.9 (22)申请日 2022.07.12 (71)申请人 南京大学 地址 210093 江苏省南京市 鼓楼区汉口路 22号 (72)发明人 顾荣 杨士宇 汤博文 李萌  (74)专利代理 机构 苏州威世朋知识产权代理事 务所(普通 合伙) 32235 专利代理师 沈晓敏 (51)Int.Cl. G06Q 30/00(2012.01) G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于统计学与机器学习相结合的异常商品 信息识别方法 (57)摘要 本发明公开了一种基于统计学与机器学习 相结合的异常商品信息识别方法, 包括如下步 骤: 用户通过系统接口提交电商平台商品数据文 件; 完成对商品文件数据的预处理工作; 筛选关 键词等商品信息; 建立统计学模型, 处理识别商 品异常数据; 建立回归预测模型, 处理识别商品 异常数据; 建立分类器预测模型, 处理识别商品 异常数据; 每一个模型筛选结果得出后, 对其中 的特殊商品进行筛除; 根据筛出特殊商品后的各 模型结果, 对所有模型的筛选结果进行整合, 得 出筛选的最终结果; 筛选结果进行输出。 本发明 可解决现有电商平台异常商品信息识别方法工 作量大、 效率低, 且依赖人工的问题。 权利要求书2页 说明书5页 附图2页 CN 115239351 A 2022.10.25 CN 115239351 A 1.一种基于统计学与机器学习相结合的异常商品信息识别方法, 包括以下步骤: (1)用户通过系统接口提交电商平台商品数据文件, 所述电商平台商品数据文件包括 商品名称、 商品价格、 商品销量、 1级类目名称、 2级类目名称以及3级类目名称信息, 作为步 骤(2)的输入; (2)预处理所述电商平台商品数据文件: 将输入的电商平台商品数据文件的编码方式 转换为可供系统使用的utf ‑8的编码方式, 扫描商品数据, 当读入空缺或乱码数据时, 作为 无效数据删除, 并将删除无效数据后的商品数据按照标准进 行划分处理, 划分成多个文件, 作为输出文件输入到步骤(3)(4)(5)(6); (3)对于所述输出文件的商品数据进行关键信息筛选: 利用构建的异常关键词库对商 品数据匹配识别, 判断商品数据是否异常, 获得经过关键词筛选的异常商品数据, 将所述异 常商品数据作为 步骤(7)的第一输入; (4)建立统计学模型, 处理识别商品异常数据: 对同类目下的商品, 基于统计学3sigma 法则以及箱线图模型, 构建模型识别筛选离群异常值, 获得经过统计学模型筛选的异常商 品数据, 将所述异常商品数据作为 步骤(7)的第二输入; (5)建立回归预测模型, 处理识别商品异常数据; 基于线性回归模型, 综合商品的多个 属性权重预测同类目下商品的价格, 得到同类目下商品的预测价格, 根据实际价格与预测 价格的偏移量判断异常, 获得经过回归预测模型筛选的异常商品数据, 将所述异常商品数 据作为步骤(7)的第三输入; (6)建立分类器预测模型, 处理识别商品异常数据: 基于逻辑回归模型、 支持向量机模 型, 综合包括价格、 品牌名称、 名称 中关键词以及销量特征, 构建一个判断异常的二分类分 类器, 对商品数据识别异常, 获得经过二分类分类器筛选的异常商品数据, 将所述异常商品 数据作为 步骤(7)的第四输入; (7)对所述异常商品数据中的特殊商品进行筛除: 对于所述第一输入、 第二输入、 第三 输入和第四输入, 对价格异常判断中误判的奢侈品进行筛除, 根据筛除特殊商品后的各模 型结果, 对所有模型的筛 选结果进行整合, 得 出筛除的最终结果。 2.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(2)中, 将商品数据的前两级类目拼接作为划分的类名, 并统计所有 的类名, 然后为每 个商品目录创建输出文件, 以类名对文件进行命名。 3.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(3)中, 关键信息筛选包括以下两种方法: 查看商品名称是否包含必 须关键词, 如果不包含关键词, 则将商品数据判断为异常 并输出; 查看商品名称是否包含禁 止关键词, 如果包 含禁止关键词, 则将商品数据判断为异常并输出。 4.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(4)中, 对于3sigma法则处理, 由用户输入设定标准差的缩放系数; 对 于箱线图模型, 由用户输入设定四分位距的缩放系数。 5.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(5)中, 实现回归 预测模型时, 从数据中获取能够直接处理的属性, 使 用独热编 码方式进 行编码; 逐个读取商品名称, 并将所述商品名称按照词语进 行拆分, 统计 其中的词频, 截取高频词的一部 分, 加入高频词词 库, 将商品名称中是否含有 所述高频词词权 利 要 求 书 1/2 页 2 CN 115239351 A 2库中词频作为特征; 采用线性回归模型对所述特征和商品价格进行拟合, 获得商品的预测 价格, 将所述预测价格和实际价格进行比较, 将价格异常的商品输出。 6.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(6)中, 选用特征时将数值特征进行归一化, 非数值特征使用一位有 效编码处理; 逐个读取商品名称, 并将所述商品名称按照词语进行拆分, 统计其中的词 频; 截取高频词的一部分, 加入高频词词库, 将商品名称中是否含有所述高频词词库中词 频作 为特征; 人工筛选部分异常数据, 作为训练集训练模型; 使用基于python语 言的机器学习 库 sklearn中的特征筛选方法筛选所有特征得到其中的重要特征; 采用逻辑回归模型和支持 向量机模型构建的二分类分类器对所述重要 特征和商品价格进行拟合, 根据拟合值判断商 品是否异常, 输出1为异常, 输出0为 正常。 7.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法, 其特征在于: 所述步骤(7)中, 通过对所述步骤(3)(4)(5)(6)中的相应方法进行测试, 根据 测试结果给每种方法设置一个重要程度; 通过以下公式计算每 个商品的异常得分 score: score=∑xipi 其中xi是该商品是否被第i种方法判断为异常的指 示变量, pi是第i种方法的重要程度, i为所述步骤(3)(4)(5)(6)中的相应方法; 最后, 查询每个商品的异常得分, 超出阈值的判 断为异常并输出。权 利 要 求 书 2/2 页 3 CN 115239351 A 3

.PDF文档 专利 基于统计学与机器学习相结合的异常商品信息识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于统计学与机器学习相结合的异常商品信息识别方法 第 1 页 专利 基于统计学与机器学习相结合的异常商品信息识别方法 第 2 页 专利 基于统计学与机器学习相结合的异常商品信息识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:32:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。