
技术摘要:
本申请公开了一种特征重要性测量方法、设备及可读存储介质,所述特征重要性测量方法包括:获取各待测量特征维度,并确定各所述待测量特征维度分别对应的样本类别,进而将各所述样本类别分别对应的样本集输入预设哈希编码模型,得到各所述样本类别分别对应的输出哈希编 全部
背景技术:
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、 区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求, 如对金融业对应待办事项的分发也有更高的要求。 随着计算机软件和人工智能的不断发展,深度学习的应用领域也越来越广泛,但 是深度学习模型的内部运转原理及各个部分的组成方式,仍有待厘清,目前,通常通过 Shapley重要性等方法估计模型输入特征的重要性,但是,该方法通常用于解释某一特征对 模型是否重要,但是,该方法只能粗略地、大致地解释某一特征对模型的重要性,难以解释 某一特征对模型的重要性的程度,进而导致对深度学习模型的模型解释的准确性较低,进 而导致模型解释效果较差,所以,现有技术中存在模型解释效果差的技术问题。
技术实现要素:
本申请的主要目的在于提供一种特征重要性测量方法、设备及可读存储介质,旨 在解决现有技术中模型解释效果差的技术问题。 为实现上述目的,本申请提供一种特征重要性测量方法,所述特征重要性测量方 法应用于特征重要性测量设备,所述特征重要性测量方法包括: 获取各待测量特征维度,并确定各所述待测量特征维度分别对应的样本类别; 将各所述样本类别分别对应的样本集输入预设哈希编码模型,得到各所述样本类 别分别对应的输出哈希编码值; 获取各所述样本类别对应的预设哈希编码值,并基于各所述输出哈希编码值和各 所述预设哈希编码值,确定各所述待测量特征维度对应的分类关联强度结果; 根据所述分类关联强度结果中的各关联强度值,确定各所述待测量特征维度分别 对应的特征重要性值。 可选地,所述分类关联强度结果包括一个或者多个关联强度值,一所述待测量特 征维度对应一所述关联强度值, 所述基于各所述输出哈希编码值和各所述预设哈希编码值,确定各所述待测量特 征维度对应的分类关联强度结果的步骤包括: 在各所述预设哈希编码值中确定各所述样本类别分别对应的同类目标哈希值和 各异类目标哈希值,并在各所述输出哈希编码值中确定各所述样本类别分别对应的哈希编 码值; 基于各所述样本类别分别对应的各所述哈希编码值、所述同类目标哈希值和各所 述异类目标哈希值,计算各所述待测量特征维度对应的所述关联强度值。 5 CN 111612159 A 说 明 书 2/20 页 可选地,所述关联强度值包括第一关联强度表示值和第二关联强度表示值, 所述基于各所述样本类别分别对应的各所述哈希编码值、所述同类目标哈希值和 各所述异类目标哈希值,计算各所述待测量特征维度对应的所述关联强度值的步骤包括: 分别计算各所述样本类别分别对应的各所述哈希编码值和所述同类目标哈希值 之间的第一汉明距离,并分别对各所述样本类别分别对应的各所述第一汉明距离求平均, 获得各所述第一关联强度表示值; 分别计算各所述样本类别分别对应的各所述哈希编码值和各所述异类目标哈希 值之间的第二汉明距离,并分别对各所述样本类别分别对应的各所述第二汉明距离求平 均,获得各所述第二关联强度表示值,其中,一所述哈希编码值与一所述异类目标哈希值之 间存在一所述第二汉明距离。 可选地,所述根据所述分类关联强度结果中的各关联强度值,确定各所述待测量 特征维度分别对应的特征重要性值的步骤包括: 获取预设变换函数,并基于所述预设变换函数,分别对各所述关联强度值进行归 一化处理,获得各所述特征重要性值。 可选地,所述预设哈希编码模型包括深度极化网络, 所述将各所述样本类别分别对应的样本集输入预设哈希编码模型,得到各所述样 本类别分别对应的输出哈希编码值的步骤包括: 将各所述样本集分别输入所述深度极化网络的隐藏层,输出各所述样本集对应的 待哈希数据; 将各所述待哈希数据输入所述深度极化网络的哈希层,分别对各所述待哈希数据 进行哈希编码,获得各所述输出哈希编码值。 可选地,在所述将各所述样本类别分别对应的样本集输入预设哈希编码模型,得 到各所述样本类别分别对应的输出哈希编码值的步骤之前,所述特征重要性测量方法包 括: 获取训练数据和待训练哈希编码模型,并基于预设目标哈希编码方式,生成所述 训练数据对应的预设目标哈希值; 基于所述预设哈希编码值和所述训练数据,对所述待训练哈希编码模型进行迭代 训练,以优化所述待训练哈希编码模型对应的预设极化损失函数,直至所述待训练哈希编 码模型达到预设迭代结束条件,获得所述预设哈希编码模型。 可选地,所述基于所述预设目标哈希值和所述训练数据,对所述待训练哈希编码 模型进行迭代训练,直至所述待训练哈希编码模型达到预设迭代结束条件,获得所述预设 哈希编码模型的步骤包括: 将所述训练数据输入所述待训练哈希编码模型,以基于所述预设极化损失函数, 对所述训练数据进行哈希编码,获得初始哈希编码值; 计算所述初始哈希编码值和所述预设哈希编码值之间的训练汉明距离,并将所述 训练汉明距离与预设汉明距离阀值进行比对; 若所述训练汉明距离大于所述预设汉明距离阀值,则判定所述待训练哈希编码模 型未达到所述预设迭代结束条件,并基于所述初始哈希编码值,优化所述预设极化损失函 数; 6 CN 111612159 A 说 明 书 3/20 页 基于优化后的所述预设极化损失函数,重新进行所述待训练哈希编码模型的训 练,直至所述训练汉明距离小于或者等于所述预设汉明距离阀值; 若所述训练汉明距离小于或者等于所述预设汉明距离阀值,则判定所述待训练哈 希编码模型达到所述预设迭代结束条件,并将所述待训练哈希编码模型作为所述预设哈希 编码模型。 可选地,一所述待测量特征维度对应一输入维度数据,所述预设哈希编码模型包 括深度极化网络, 在所述根据所述分类关联强度结果中的各关联强度值,确定各所述待测量特征维 度分别对应的特征重要性值的步骤之后,所述特征重要性测量方法包括: 在所述深度极化网络中确定各所述输入维度数据分别对应的各网络链接,并获取 各所述网络链接对应的网络权重; 在各所述特征重要性值中确定各所述输入维度数据分别对应的目标特征重要性 值,并基于各所述输入维度数据分别对应的各所述网络权重和所述目标特征重要性值,计 算各所述输入维度数据对应的维度数据输入强度值。 可选地,所述特征重要性值包括同类特征重要性表示值和异类特征重要性表示 值,所述预设哈希编码模型包括深度极化网络,所述样本集包括一个或者多个待测量样本, 在所述根据所述分类关联强度结果中的各关联强度值,确定各所述待测量特征维 度分别对应的特征重要性值的步骤之后,所述特征重要性测量方法包括: 将所述同类特征重要性表示值分别与预设特征重要性上阀值和预设特征重要性 下阀值进行比对; 若所述同类特征重要性表示值大于或者等于所述预设特征重要性上阀值,则判定 所述同类特征重要性表示值对应的所述待测量特征维度支持所述深度极化网络对各所述 待测量样本的分类决策; 若所述同类特征重要性表示值小于或者等于所述预设特征重要性下阀值,则判定 所述待测量特征维度反对所述深度极化网络对各所述待测量样本的分类决策;或者 将所述异类特征重要性表示值分别与预设特征重要性上阀值和预设特征重要性 下阀值进行比对; 若所述异类特征重要性表示值小于或者等于所述预设特征重要性下阀值,则判定 所述异类特征重要性表示值对应的所述待测量特征维度支持所述深度极化网络对各所述 待测量样本的分类决策; 若所述异类特征重要性表示值大于或者等于所述预设特征重要性上阀值,则判定 所述待测量特征维度反对所述深度极化网络对各所述待测量样本的分类决策。 本申请还提供一种特征重要性测量装置,所述特征重要性测量装置为虚拟装置, 且所述特征重要性测量装置应用于特征重要性测量设备,所述特征重要性测量装置包括: 第一确定模块,用于获取各待测量特征维度,并确定各所述待测量特征维度分别 对应的样本类别; 哈希编码模块,用于将各所述样本类别分别对应的样本集输入预设哈希编码模 型,得到各所述样本类别分别对应的输出哈希编码值; 第二确定模块,用于获取各所述样本类别对应的预设哈希编码值,并基于各所述 7 CN 111612159 A 说 明 书 4/20 页 输出哈希编码值和各所述预设哈希编码值,确定各所述待测量特征维度对应的分类关联强 度结果; 第三确定模块,用于根据所述分类关联强度结果中的各关联强度值,确定各所述 待测量特征维度分别对应的特征重要性值。 可选地,所述第二确定模块包括: 第一确定单元,用于在各所述预设哈希编码值中确定各所述样本类别分别对应的 同类目标哈希值和各异类目标哈希值,并在各所述输出哈希编码值中确定各所述样本类别 分别对应的哈希编码值; 第一计算单元,用于基于各所述样本类别分别对应的各所述哈希编码值、所述同 类目标哈希值和各所述异类目标哈希值,计算各所述待测量特征维度对应的所述关联强度 值。 可选地,所述第一计算单元包括: 第一计算子单元,用于分别计算各所述样本类别分别对应的各所述哈希编码值和 所述同类目标哈希值之间的第一汉明距离,并分别对各所述样本类别分别对应的各所述第 一汉明距离求平均,获得各所述第一关联强度表示值; 第二计算子单元,用于分别计算各所述样本类别分别对应的各所述哈希编码值和 各所述异类目标哈希值之间的第二汉明距离,并分别对各所述样本类别分别对应的各所述 第二汉明距离求平均,获得各所述第二关联强度表示值,其中,一所述哈希编码值与一所述 异类目标哈希值之间存在一所述第二汉明距离。 可选地,所述第三确定模块包括: 归一化单元,用于获取预设变换函数,并基于所述预设变换函数,分别对各所述关 联强度值进行归一化处理,获得各所述特征重要性值。 可选地,所述哈希编码模块包括: 数据处理单元,用于将各所述样本集分别输入所述深度极化网络的隐藏层,输出 各所述样本集对应的待哈希数据; 第一哈希编码单元,用于将各所述待哈希数据输入所述深度极化网络的哈希层, 分别对各所述待哈希数据进行哈希编码,获得各所述输出哈希编码值。 可选地,所述特征重要性测量装置还包括: 获取模块,用于获取训练数据和待训练哈希编码模型,并基于预设目标哈希编码 方式,生成所述训练数据对应的预设目标哈希值; 优化模块,用于基于所述预设哈希编码值和所述训练数据,对所述待训练哈希编 码模型进行迭代训练,以优化所述待训练哈希编码模型对应的预设极化损失函数,直至所 述待训练哈希编码模型达到预设迭代结束条件,获得所述预设哈希编码模型。 可选地,所述优化模块包括: 第二哈希编码单元,用于将所述训练数据输入所述待训练哈希编码模型,以基于 所述预设极化损失函数,对所述训练数据进行哈希编码,获得初始哈希编码值; 第二计算单元,用于计算所述初始哈希编码值和所述预设哈希编码值之间的训练 汉明距离,并将所述训练汉明距离与预设汉明距离阀值进行比对; 优化单元,用于若所述训练汉明距离大于所述预设汉明距离阀值,则判定所述待 8 CN 111612159 A 说 明 书 5/20 页 训练哈希编码模型未达到所述预设迭代结束条件,并基于所述初始哈希编码值,优化所述 预设极化损失函数; 重新训练单元,用于基于优化后的所述预设极化损失函数,重新进行所述待训练 哈希编码模型的训练,直至所述训练汉明距离小于或者等于所述预设汉明距离阀值; 判定单元,用于若所述训练汉明距离小于或者等于所述预设汉明距离阀值,则判 定所述待训练哈希编码模型达到所述预设迭代结束条件,并将所述待训练哈希编码模型作 为所述预设哈希编码模型。 可选地,所述特征重要性测量装置还包括: 第四确定模块,用于在所述深度极化网络中确定各所述输入维度数据分别对应的 各网络链接,并获取各所述网络链接对应的网络权重; 计算模块,用于在各所述特征重要性值中确定各所述输入维度数据分别对应的目 标特征重要性值,并基于各所述输入维度数据分别对应的各所述网络权重和所述目标特征 重要性值,计算各所述输入维度数据对应的维度数据输入强度值。 可选地,所述特征重要性测量装置还包括: 第一对比模块,用于将所述同类特征重要性表示值分别与预设特征重要性上阀值 和预设特征重要性下阀值进行比对; 第一判定模块,用于若所述同类特征重要性表示值大于或者等于所述预设特征重 要性上阀值,则判定所述同类特征重要性表示值对应的所述待测量特征维度支持所述深度 极化网络对各所述待测量样本的分类决策; 第二判定模块,若所述同类特征重要性表示值小于或者等于所述预设特征重要性 下阀值,则判定所述待测量特征维度反对所述深度极化网络对各所述待测量样本的分类决 策;或者 第二对比模块,用于将所述异类特征重要性表示值分别与预设特征重要性上阀值 和预设特征重要性下阀值进行比对; 第三判定模块,用于若所述异类特征重要性表示值小于或者等于所述预设特征重 要性下阀值,则判定所述异类特征重要性表示值对应的所述待测量特征维度支持所述深度 极化网络对各所述待测量样本的分类决策; 第四判定模块,用于若所述异类特征重要性表示值大于或者等于所述预设特征重 要性上阀值,则判定所述待测量特征维度反对所述深度极化网络对各所述待测量样本的分 类决策。 本申请还提供一种特征重要性测量设备,所述特征重要性测量设备为实体设备, 所述特征重要性测量设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理 器上运行的所述特征重要性测量方法的程序,所述特征重要性测量方法的程序被处理器执 行时可实现如上述的特征重要性测量方法的步骤。 本申请还提供一种可读存储介质,所述可读存储介质上存储有实现特征重要性测 量方法的程序,所述特征重要性测量方法的程序被处理器执行时实现如上述的特征重要性 测量方法的步骤。 本申请通过获取各待测量特征维度,并确定各所述待测量特征维度分别对应的样 本类别,进而将各所述样本类别分别对应的样本集输入预设哈希编码模型,得到各所述样 9 CN 111612159 A 说 明 书 6/20 页 本类别分别对应的输出哈希编码值,进而获取各所述样本类别对应的预设哈希编码值,并 基于各所述输出哈希编码值和各所述预设哈希编码值,确定各所述待测量特征维度对应的 分类关联强度结果,进而根据所述分类关联强度结果中的各关联强度值,确定各所述待测 量特征维度分别对应的特征重要性值。也即,本申请在确定各所述待测量特征维度分别对 应的样本类别之后,基于每一所述样本类别对应的输出哈希编码值和预设哈希编码值,即 可确定各所述待测量特征维度对应的分类关联强度结果,进而根据所述分类关联强度结果 中的各关联强度值,即可确定各所述待测量特征维度分别对应的特征重要性值,其中,所述 特征重要性值表示所述待测量特征维度对模型的贡献度,进而实现了通过计算特征重要性 值,量化测量各所述待测量特征维度的重要性的目的,进而相比于目前的模型解释方法,通 过计算特征重要性值的方式,可准确地且细致地测量每一特征维度对模型的重要性的程 度,进而提高了特征重要性测量的准确度,进而使得模型解释更加直观和准确,提高了模型 解释效果,所以,解决了模型解释效果差的技术问题。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施 例,并与说明书一起用于解释本申请的原理。 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而 言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 图1为本申请特征重要性测量方法第一实施例的流程示意图; 图2为本申请特征重要性测量方法第二实施例的流程示意图; 图3为本申请特征重要性测量方法第三实施例的流程示意图; 图4为本申请特征重要性测量方法中所述深度极化网络的构造示意图; 图5为本申请实施例方案涉及的硬件运行环境的设备结构示意图。 本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。