logo好方法网

一种基于XGBoost算法的区块链产品检测方法、系统及装置


技术摘要:
本发明公开了一种基于XGBoost算法的区块链产品检测方法、系统及装置。首先爬取区块链产品特征属性数据,并对所述区块链产品贴标签,作为XGBoost区块链检测模型的训练样本集;其次根据所述区块链产品相关特征属性数据预处理训练样本集;然后训练区块链产品检测的XGBoost  全部
背景技术:
区块链是近十年来互联网与信息技术领域出现的伟大创新,其去中心、避免人  为 干预、降低成本、提升协同效率等技术优势和广阔应用前景,引发了社会持续而  广泛的关 注。 对区块链市场进行排查整顿是减少、杜绝区块链产品欺诈事件发生的最有效的  手段。但由于一方面区块链技术门槛较高,区块链产品数量巨大、类型繁多,缺乏  相应技术 手段对区块链产品进行检测、排查;另一方面互联网技术使世界变为地球  村,各种交易平 台和区块链产品遍布于世界的各个角落,增加了监控的难度。目前  亟待提出一种检测方法 对区块链产品进行判别、检测。 XGBoost全名叫(eXtreme  Gradient  Boosting)极端梯度提升,XGBoost算法属  于 机器学习中的集成学习方法,指将多个学习模型组合,以获得更好的效果,使组  合后的模 型具有更强的泛化能力。XGBoost算法思想就是根据特征分裂来生长一棵  树,并不断地添 加树,每次添加一个树,其实是去拟合上次预测的残差从而得到新  函数,逐次迭代来提高 模型性能。当我们训练完成得到k棵树,我们要预测一个样  本的分数。它会根据这个样本的 特征,在每棵树中会落到对应的一个叶子节点,每  个叶子节点就对应一个分数,最后只需 要将每棵树对应的分数加起来就是该样本的 预测值。 本发明结合能反映区块链产品的相关特征属性和XGBoost算法提出一种基于  XGBoost算法的区块链产品检测方法,该方法可以根据区块链产品的相关特征属性  对区块 链产品进行可信与非可信的判别,提高了区块链产品检测的效率和准确率,  为区块链产品 的监管提供了技术支持。
技术实现要素:
本发明基于上述背景和现有技术所存在的问题,拟设计一种基于XGBoost算  法的 区块链产品检测方法、系统及装置,其能够根据区块链产品的相关特征属性对 区块链产品 进行可信与非可信的判别。 为了实现本发明的这些目的和其它优点,提供了一种基于XGBoost算法的区  块链 产品检测方法,所述区块链产品为区块链技术为底层技术的可以带来商业利益 的实体和 虚拟的产品,其步骤包括: 爬取互联网上区块链产品相关数据,并对所述区块链产品贴标签,根据区块链  产 品与欺诈属性的相互关系,提取区块链产品的相关特征属性,作为XGBoost区  块链检测模 型的训练样本集; 4 CN 111598580 A 说 明 书 2/7 页 对上述爬取的区块链产品特征属性数据进行数据预处理,得到数值化训练样本  集; 将所述数值化训练样本集输入利用XGBoost算法搭建的学习机器,训练区块  链产 品检测的XGBoost模型树; 作为一种可实施方式,所述训练区块链产品检测的XGBoost模型树,具体是  从给 定的区块链产品训练集构造出来一棵由特征信息组成的决策树,决策树从根节  点开始选 择特征,选取分裂点进行特征切分。 作为一种可实施方式,所述提取区块链产品的相关特征属性具体包括: 区块链产品公司信息公开度、区块链产品公司官网信息是否失真、区块链产品  公 司员工人数、区块链产品研发团队人数、区块链产品白皮书是否存在技术支撑、  区块链产 品白皮书内容完整度、区块链产品代码在Github是否开源、区块链产品  代码更新次数、区 块链代码最后更新时间、区块链产品代币比例信息、区块链产品  ICO时长、区块链产品购买 门槛、区块链产品交易所日均交易量、区块链产品交易  月价格波动、区块链产品交易周价 格波动、区块链产品交易当前价格以及区块链产 品系统宕机频率。 作为一种可实施方式,所述对上述爬取互联网上区块链产品特征属性数据进行  数据预处理,具体包括: 对所述训练样本集的区块链产品特征信息进行数值化处理; 查看训练样本集中是否存在缺失值,对训练样本集中缺失值进行处理; 对处理后的训练样本集进行对数变换,改善训练样本数据均值分布的不对称性; 通过绘制数值型特征的直方图来分析它们服从的分布,以及绘制热度图可视化  特征之间的相关性; 将所述区块链产品特征属性数据分成连续特征和离散特征。 作为一种可实施方式,所述对训练样本集中缺失值进行处理,具体为: 将缺失值记作稀疏矩阵,缺失值数据被分到稀疏矩阵的左子树和右子树中并分  别计层损失,并选择损失值最小的分配方式。 作为一种可实施方式,所述训练区块链产品检测的XGBoost模型树,具体包 括: 训练基本的初级XGBoost模型; 在初级XGBoost模型参数的基础上进行参数调整、优化模型,通过交叉验证  观察 结果的变换,使用平均绝对误差衡量参数调节的优劣,得到最终的模型参数,  基于参数得 到XGBoost模型树。 作为一种可实施方式,在初级XGBoost模型参数的基础上进行参数调整、优  化模 型,还包括:调节树的深度与节点权重,包括改变构建树的深度max_depth,  其越大越容易 过拟合,和最小叶子节点权重min_child_weight,如果树分区中的实  例权重小于定义的总 和,则停止树构建过程;调节惩罚系数gamma降低模型过拟  合风险;调节学习率eta,即降低 学习速度,同时增加更多的估计量。 作为一种可实施方式,所述利用所述区块链产品检测的XGBoost模型树对区  块链 产品进行检测,具体包括:在互联网上爬取区块链产品测试集,对测试集中样  本进行贴标 签,根据训练得到的树模型,将进行判别检测的区块链产品特征信息输  入决策树,即从决 策树上到下遍历得到此决策树判别结果,根据测试结果与标签进  行比对判别模型的正确 5 CN 111598580 A 说 明 书 3/7 页 率。 一种基于XGBoost算法的区块链产品检测系统,包括数据采集模块、数据预  处理 模块、模型树训练模块及产品检测模块; 所述数据采集模块,用于爬取互联网上区块链产品相关数据,并对所述区块链  产 品贴标签,根据区块链产品与欺诈属性的相互关系,提取区块链产品的相关特征  属性,作 为XGBoost区块链检测模型的训练样本集; 所述数据预处理模块,用于对上述爬取的区块链产品特征属性数据进行数据预  处理,得到数值化训练样本集; 所述模型树训练模块,用于将所述数值化训练样本集输入利用XGBoost算法  搭建 的学习机器,训练区块链产品检测的XGBoost模型树; 所述产品检测模块,用于利用所述区块链产品检测的XGBoost模型树对区块  链产 品进行检测。 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述  计 算机程序被处理器执行时实现以上所述的任意一项的方法步骤。 一种基于XGBoost算法的区块链产品检测装置,包括存储器、处理器以及存  储在 所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计  算机程序 时实现以上所述的任意一项的方法步骤。 本发明至少包括以下有益效果: 1、本发明提出一种基于XGBoost算法的区块链产品检测方法、系统及装置,  为区 块链产品可信不可信提供了有效判别手段,作为有力监控手段从源头筛选,减  少以区块链 产品为幌子实施诈骗的事件。 2、本发明以区块链产品的相关特征属性作为训练的特征属性,具有判别的一  定 参考性,同时具有很好的扩展性。 3、本发明提出以XGBoost算法训练区块链产品检测模型,XGBoost正则化、  使用损 失函数的一阶导数和二阶导数、并行优化等特点,不仅降低防止过拟合,还  提高了模型判 别的准确率和训练效率。 本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对  本 发明的研究和实践而为本领域的技术人员所理解。 附图说明 图1为本发明基于XGBoost算法训练流程图。 图2为本发明的部分训练样本特征属性相互关系树模型。
分享到:
收藏