基于余弦三元组的深度哈希图像检索方法

盖枚岭1 张辉辉1 秦学全2 秦琦冰1

潍坊学院计算机工程学院潍坊 261061

摘要

本文设计并提出了一种基于余弦三元组的深度哈希学习框架（Deep Cosine Triplet Hashing, DCTH），有效提高生成哈希编码的语义区分性。首先，将余弦空间引入到哈希学习中，设计了基于余弦学习的三元组损失函数，使得模型在训练过程中保持了原始空间的语义分布，减少了量化误差；其次，在哈希嵌入学习中引入了分类损失和二进制约束损失，使得生成的哈希编码包含更多的语义信息，提高语义区分能力。最后，在CIFAR-10和NUS-WIDE两个公开数据集上的实验结果表明，相比于其他主流哈希方法，本文所提的DCHT模型表现出更好的检索性能。

关键词

深度监督哈希；哈希模型；图像检索；余弦距离；三元组损失；分类损失；

正文

Deep hash image retrieval method based on cosine triplet

Meiling Ge¹ Huihui Zhang¹ Xuequan Qin² Qibing Qin¹

1. School of Computer Engineering, Weifang University, Weifang 261061, China

2.The Second Hydrogeological and Engineering Geological Team of Shandong Provincial Bureau of Geology and Mineral Exploration and Development (Shandong Lubei Geological Engineering Survey Institute), Dezhou 253074, China

Abstract: The Deep Cosine Triplet Hashing framework is proposed in the paper, which can significantly improve the discriminative capability of the learned hash codes. Specifically, by introducing cosine distance into hash learning, the triplet loss with cosine metrics is designed to preserve the semantic distribution of the original feature, thereby reducing the quantization errors. Besides, the introduction of classification loss and binary code constraints into hash-embedded learning could enable the generated hashing code to contain more semantic information, which enhances the discriminative capability. What’s more, The experimental results on two widely-used datasets i.e., CIFAR-10, and NUS-WIDE demonstrate that our proposed DCTH framework has better performance than other state-of-the-art supervised hashing.

Key words: deep supervised hashing; hash model; image retrieval; cosine distance; triplet loss; classification loss;

0. 概述

随着多媒体技术的飞速发展，日常生活中图像等多媒体数据正呈爆炸式增长^[1]。如何从海量且复杂的图像等多媒体数据中高效精准的检索到用户感兴趣的目标数据成为当前学术界和工业界的研究热点之一。凭借在检索效率和准确性上的优势，面向大规模图像检索的近似最近邻搜索引起了研究人员的广泛关注^[2]。作为近似最近邻搜索的代表性技术之一，哈希学习旨在将高维的图像特征映射为紧凑的二进制哈希码，并保持原始数据空间的语义相似性，从而实现对海量图像的高效精准查询^[³^]。现有的哈希方法通常可以分为数据独立哈希和数据依赖哈希。数据独立哈希在构建哈希函数时不考虑任何数据信息，这样往往会导致信息丢失和编码冗余。而数据依赖哈希通过学习训练数据，从而产生具有语义相似性的哈希编码，达到了更优的检索性能。

随着深度学习技术在计算机视觉、自然语言处理等领域取得突破性进展，相关研究人员采用深度神经网络提取图像特征，并用于哈希学习，设计并提出了基于深度学习的图像哈希框架，取得了良好的效果。在基于哈希学习的图像检索中，现有深度学习模型通常采用汉明距离来度量图像对之间的相似关系。因此，如何保持生成的哈希编码和原始图像特征之间相似关系的一致性是至关重要。大部分现有的研究通常将哈希编码之间的距离等同于图像对之间的相似度，从而提高大规模图像检索的性能^[⁴^]。由于图像原始空间与汉明空间之间存在语义损失，上述方法难以保持两者之间的语义相似一致性。为解决此问题，通过在原始图像空间中引入欧式度量限制，研究人员设计了基于相似性保持的图像表征方式来试图保证哈希空间和原始图像空间之间的语义相似一致性^[⁵^]。然而，由于基于欧式度量的图像特征规范化操作的鲁棒性较差，导致映射后的空间结构易发生改变。与欧式度量方式不一样的是，余弦空间可以从本质上避免样本向量规范化的影响，有效保持原始数据语义相似关系的一致性，提高图像检索性能^[⁶^]。

为保持图像原始空间和汉明空间的语义相似关系，本文充分利用余弦度量的优势，将余弦学习方式引入到三元组排序损失中，设计并提出了一种基于余弦三元组的深度哈希学习方法（Deep Cosine Triplet Hashing，DCTH），产生能够保持语义相似性的二进制编码。具体来说，首先，采用在ImageNet数据集上预训练好的卷积神经网络（Convolutional Neural Networks，CNNs）来获取图像的深层语义特征；其次，基于汉明空间和余弦空间的等价性，设计了余弦三元组损失函数，使得模型在训练过程中，不断推进锚图像与相似图像之间的距离，而拉远锚图像与不相似图像之间的距离，从而保证了原始图像空间和汉明空间的近邻关系；此外，在哈希嵌入学习中引入分类损失，保证学习到的哈希编码具有更大的信息熵，产生更优的哈希编码；通过在模型训练中引入位平衡约束和位无关约束，设计了面向哈希学习的约束限制损失函数，从而使得产生的哈希编码包含更多语义信息，有效提高模型检索性能。最后，通过在CIFAR-10和NUS-WIDE两个公开数据集上的实验结果表明，相比于其他主流的哈希方法（包括6个深度哈希框架和2个传统哈希框架），本文所提的DCTH模型表现出了更高的检索准确率和召回率。

1. 基于余弦三元组的深度哈希模型

1.1 问题定义

假设存在训练数据集以及对应的标签集合，其中n表示训练数据中图像数目，k表示图像对应的类别。表示图像三元组，表示与查询图像相似的图像，表示与查询图像不相似的图像。深度哈希学习旨在通过深度神经网络学习非线性的哈希函数，并将高维的图像特征映射为紧凑的二进制哈希编码：。

1.2 余弦度量

本文设计采用余弦度量方式将高维图像特征映射到余弦空间，并进行相似度度量。当连续的类二进制向量无限接近于离散的哈希编码，-规范化将会产生。此外，对于图像对产生的二进制编码之间的余弦距离。因此，图像对之间哈希距离和其对应的余弦距离之间

的关系如下公式（1）所示。

(1)

图1 DCTH模型总体框架

为进一步计算图像对之间语义相似性，在余弦空间的基础上（如公式1所示），本文设计了基于余弦度量的三元组损失函数，减少了由于空间转换而导致产生的量化误差，保证了原始图像与余弦空间之间的语义相似性。本文设计的基于余弦度量的三元组损失函数如公式2所示。

(2)

其中，为余弦空间中的相似图像和不相似度图像之间的边缘阈值参数。是将目标数据输入到深度哈希网络，生成的哈希编码对应的类二进制变量。表示图像对之间的余弦距离。

1.3 分类损失

基于余弦度量的元组损失函数（如公式2所示）仅采用了相似度信息来指导模型训练，而完全忽略了数据的类别信息。为提高哈希模型的检索性能，在DCTH模型框架中，我们设计的线性分类损失函数如公式（3）所示。

(3)

其中，表示分类权重矩阵，为用于控制分类损失权重的参数，为正则化参数。哈希编码是通过对类二级制变量进行sign操作得到的。

1.4 约束损失

现有的大部分的图像哈希方法主要关注了二进制编码的学习，而忽略了生成的哈希编码属性的优化。假设为哈希映射矩阵，则有如下约束。

, (4)

其中，是L-维度的全0向量，N为小批量的尺寸，是的全1矩阵，为单位矩阵，用来表示理想条件下哈希位的协方差矩阵。

因此，在我们所设计的DCTH模型中，二进制约束损失可以被重写如下所示。

(5)

综上所述，通过联合学习基于余弦度量的三元组损失函数（公式2），分类损失（公式3）以及二进制约束损失（公式4），可以获得用于DCTH模型参数优化的总体目标函数，如下所述。

(6)

其中，为平衡参数，用于控制二进制约束损失的权重。

在模型测试阶段，通过将目标图像输入到深度哈希网络DCTH中，从而得到连续性类二进制向量，并通过执行sign函数可以生成对应的哈希编码，如公式（7）所示。

(7)

2. 实验

2.1 实验设置

为了证明本文所设计的DCTH模型的有效性，我们在CIFAR-10和NUS-WIDE两个公开图像检索数据集上进行了实验。其中，CIFAR-10为单标签数据集，包括10个类别，共计60,000张图像。与之前的实验设置类似^[⁷^]，我们从每个类别中随机选取100张图像（共计1,000张图像）作为查询测试数据集，并从每个类别中再随机选取500张图像（共计5,000张图像）作为训练数据集，用于模型训练。NUS-WIDE数据集为包含了来自于Flick网站的269,648张多标签图像，共涉及81个类别。与之前研究类似，我们从中选取了最常见的21个类别的195,834张图像用于本文的实验，并从每个类别中随机选取了100张图像（共计2,100张图像）构成了查询测试数据集；从剩下的数据中抽取了10,500张图像作为训练数据集（每个类别500张图像），用于模型训练。

本文采用开源的深度学习框架TensorFlow来实现所设计的DCTH模型，使用预训练好的AlexNet网络作为骨干架构来提取图像特征，并在带有NVIDIA GeForce RTX 3090 GPU服务器上进行模型训练。具体来说，首先我们采用基于C个神经元的哈希层替代原始AlexNet网络中的softmax层，从而将高维的图像特征映射为C-维的类二进制向量。在本文的实验中，分别采用Adam优化器和尺寸为128的小批处理梯度下降算法来训练模型，并分别设置学习率动量和为10^-5和0.9。DTCH模型中超参数，以及分别被设置为1, 0.001和0.01。与之前的研究类似，本文的实验采用均值平均精度（mean Average Precision, mAP），来评价本文所设计的DCTH模型的有效性，同时分别采用传统哈希与深度哈希与本文方法进行了性能对比实验。其中，深度哈希方法包括CNNH^[⁸^]，DNNH^[⁹^]，HashNet^[¹⁰^]，DCH^[1¹^]，DHLH^[1²^]、DVStH^[¹³^]以及DMUH^[¹⁴^]，传统哈希方法包括SH^[¹⁵^]和ITQ^[¹⁶^]。上述对比方法的实验结果来自于之前的研究工作。我们将图像尺寸统一调整为227*227，并利用原始图像作为模型的输入。

2.2 检索性能

为了系统性比较本文所提出的DCTH模型有效性，在CIFAR-10和NUS-WIDE两个基准数据集上分别计算了不同哈希方法的mAP值，具体结果如表1所示；相比于当前主流的深度哈希模型DVStH，我们所设计的DCTH框架在CIFAR-10数据集上不同长度哈希码的mAP提升了1.5%左右；相比于DHLH模型，本文所设计的DCTH模型在NUS-WIDE多标签数据集上不同长度哈希的mAP结果提高了0.5%~0.9%。

表1 CIFAR-10和NUS-WIDE数据集上不同位数哈希编码的mAP实验结果

方法	CIFAR-10(mAP)				NUS-WIDE(mAP)
方法	16bits	24bits	32bits	48bits	16bits	24bits	32bits	48bits
SH	0.127	0.128	0.126	0.129	0.454	0.406	0.405 0	0.400
ITQ	0.162	0.169	0.172	0.175	0.452	0.468	0.472	0.477
CNNH	0.439	0.511	0.509	0.522	0.611	0.618	0.625	0.608
DNNH	0.552	0.566	0.558	0.581	0.674	0.697	0.713	0.715
HashNet	0.609	0.644	0.632	0.646	0.643	0.694	0.737	0.750
DCH	0.688	0.718	0.726	0.740	0.771	0.790	0.798	0.806
DHLH	0.704	0.728	0.735	0.749	0.780	0.807	0.814	0.816
DVStH	0.696	0.724	0.732	0.745	0.778	0.801	0.806	0.812
DMUH	0.709	0.726	0.730	0.749	0.773	0.779	0.787	0.806
DCTH	0.712	0.731	0.745	0.756	0.785	0.812	0.821	0.825

3. 结论

为了克服欧式空间在哈希学习中易导致语义关系结构发生改变等问题，通过引入余弦度量方式，本文设计并提出了一种基于余弦三元组的深度哈希方法——DCTH模型。通过将三元组排序损失扩展到余弦空间，设计了基于余弦空间的三元组排序损失函数，有效保证了原始图像空间和汉明空间相似性的一致性；并在此基础上通过引入分类损失和二进制约束损失，增强生成哈希编码的信息熵，优化哈希码，提高二进制编码的语义区分性。在基准数据集CIFAR-10和NUS-WIDE数据集上的对比实验证明了本文所设计的DCTH模型的有效性。

参考文献

[1] QIN Q, HUANG L, WEI Z, 等. Unsupervised Deep Multi-Similarity Hashing With Semantic Structure for Image Retrieval[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(7): 2852-2865.

[2] WANG J, ZHANG T, SEBE N, 等. A survey on learning to hash[J/OL]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(4): 769-790. https://doi.org/10.1109/TPAMI.2017.2699960.

[3] LIN K, LU J, CHEN C S, 等. Learning compact binary descriptors with unsupervised deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1183-1192.

[4] CAO Z, LONG M, WANG J, 等. Hashnet: Deep learning to hash by continuation[C]//Proceedings of the IEEE international conference on computer vision. 2017: 5608-5617.

[5] LIU H, WANG R, SHAN S, 等. Deep supervised hashing for fast image retrieval[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2064-2072.

[6] HU W, CHEN Y, JIAN M, 等. Cosine Metric Supervised Deep Hashing[C]//International Conference on Autonomous Unmanned Systems. Springer, 2021: 560-570.

[7] LI Q, SUN Z, HE R, 等. Deep supervised discrete hashing[C]//Advances in neural information processing systems. 2017: 2482-2491.

[8] XIA R, PAN Y, LAI H, 等. Supervised Hashing for Image Retrieval via Image Representation Learning[C]//Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. 2014: 2156-2162.

[9] LAI H, PAN Y, LIU Y, 等. Simultaneous feature learning and hash coding with deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3270-3278.

[10] CAO Z, LONG M, WANG J, 等. Hashnet: Deep learning to hash by continuation[C]//Proceedings of the IEEE international conference on

computer vision. 2017: 5608-5617.

[11] CAO Y, LONG M, LIU B, 等. Deep cauchy hashing for hamming space retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1229-1237.

[12] YAN C, PANG G, BAI X, 等. Deep hashing by discriminating hard examples[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1535-1542.

[13] LIONG V E, LU J, DUAN L Y, 等. Deep variational and structural hashing[J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 42(3): 580-595.

[14] FU C, WANG G, WU X, 等. Deep momentum uncertainty hashing[J]. Pattern Recognition, 2022, 122: 108264.

[15] WEISS Y, TORRALBA A, FERGUS R. Spectral hashing[C]//Advances in neural information processing systems. 2009: 1753-1760.

[16] GONG Y, LAZEBNIK S, GORDO A, 等. Iterative quantization: A procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(12): 2916-2929.

...

阅读全文