
技术摘要:
本发明公开了一种基于深度对抗离散哈希学习的跨模态检索方法及装置,由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语 全部
背景技术:
随着现代网络技术的发展,大量的多模态数据每天在人们的日常生活中生成,包 括文本,音频,视频和图像。同时,从如此大量的多模态数据中进行有效检索已成为一个巨 大的挑战,其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由 于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈 希函数,在尽可能保证原始空间内数据之间的相似度的前提下,将高维数据映射为二值码。 但由于二值化离散优化是NP问题,而很多方法采用宽松的条件使用连续值进行优 化,优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不 稳定等问题。
技术实现要素:
本申请的目的是提供一种基于深度对抗离散哈希学习的跨模态检索方法及装置, 在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数,并且 在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目 标函数,通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换 为二值码,检索时利用二值码进行跨模态检索。 一种基于深度对抗离散哈希学习的跨模态检索方法,包括: 构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网 络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层, 其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函 数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数 运算来得到哈希码; 采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建 所述神经网络模型的整体目标函数; 获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛; 获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应 的哈希码。 进一步的,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加 ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激 活函数。 进一步的,所述加权余弦三元组损失函数为: 4 CN 111597298 A 说 明 书 2/8 页 其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相 似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数, 代表了图像网络 哈希函数层的第i个输出, 代表与查询图像不相关的文本网络哈希函数层第k个输出, 代表与查询图像相关的文本网络哈希函数层第j个输出, 代表了文本网络哈希函数 层的第i个输出, 代表与查询文本不相关的图像网络哈希函数层第k个输出, 代表与 查询文本相关的图像网络哈希函数层第j个输出, 代表了当查询目标是图像时的加 权余弦三元组损失函数, 代表了当查询目标是文本时的加权余弦三元组损失函数。 进一步的,所述对抗损失函数为: 其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函 数输出的判别器, 表示特征函数层对应的对抗损失函数, 表示哈希函数层对应 的对抗损失函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出, vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。 进一步的,所述采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量 化损失函数构建所述神经网络模型的整体目标函数,构建的整体目标函数如下: 其中,α、β、γ为超参数, 代表了当查询目标是图像时的加权余弦三元组损失 函数, 代表了当查询目标是文本时的加权余弦三元组损失函数; 为分类损失函数, 为量化损失函数, 表示特征函数层对应的对抗损失函数, 表示哈希函数层对 应的对抗损失函数。 本申请还提出了一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器 以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述一种基于 深度对抗离散哈希学习的跨模态检索方法的步骤。 本申请提出的一种基于深度对抗离散哈希学习的跨模态检索方法及装置,是一种 精度较高、检索效率较高的基于深度对抗离散哈希学习的跨模态检索方法。本申请的有益 效果包括:由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由 tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由 5 CN 111597298 A 说 明 书 3/8 页 一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序 性,在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语 义相似性、减小异构鸿沟和累计误差较小的哈希函数,通过优化后的哈希函数将图像深度 特征和文本特征转化为二值的哈希码,再将得到的二值码作为原图像或原文本的替代来进 行查询。本申请利用对抗训练、保持语义相似性及相关度排序性来学习哈希函数,不仅提高 了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力;引入哈希值的离 散性的强约束条件,直接通过求导得到最优解,使得对损失函数的优化更为鲁棒。 附图说明 图1为本申请实施例基于深度对抗离散哈希学习的跨模态检索方法流程图。