20.4.3.3.16 Image-Text Matching, Image Text Retrieval, Image-Text Retrieval

Chapter Contents (Back)
Image Text Retrieval. Image-Text Matching.

Zhou, N.[Ning], Fan, J.P.[Jian-Ping],
Automatic image-text alignment for large-scale web image indexing and retrieval,
PR(48), No. 1, 2015, pp. 205-219.
Elsevier DOI 1410
Automatic image-text alignment BibRef

Huang, F.R.[Fei-Ran], Zhang, X.M.[Xiao-Ming], Zhao, Z.H.[Zhong-Hua], Li, Z.J.[Zhou-Jun],
Bi-Directional Spatial-Semantic Attention Networks for Image-Text Matching,
IP(28), No. 4, April 2019, pp. 2008-2020.
IEEE DOI 1901
Word to region and visual object to words. image matching, image retrieval, learning (artificial intelligence), spatial-semantic BibRef

Otto, C.[Christian], Springstein, M.[Matthias], Anand, A.[Avishek], Ewerth, R.[Ralph],
Characterization and classification of semantic image-text relations,
MultInfoRetr(9), No. 1, March 2020, pp. 31-45.
Springer DOI 2003
Textual information with the imagery. BibRef

Niu, K.[Kai], Huang, Y.[Yan], Wang, L.[Liang],
Re-ranking image-text matching by adaptive metric fusion,
PR(104), 2020, pp. 107351.
Elsevier DOI 2005
Image-text matching, Re-ranking method, Adaptive metric fusion BibRef

Huang, Y.[Yan], Wang, Y.M.[Yu-Ming], Zeng, Y.[Yunan], Huang, J.S.[Jun-Shi], Chai, Z.H.[Zhen-Hua], Wang, L.[Liang],
Unpaired Image-Text Matching via Multimodal Aligned Conceptual Knowledge,
PAMI(47), No. 7, July 2025, pp. 5160-5176.
IEEE DOI 2506
Visualization, Semantics, Task analysis, Knowledge graphs, Computational modeling, Brain modeling, Supervised learning, vision and language BibRef

Wen, K.Y.[Ke-Yu], Gu, X.D.[Xiao-Dong], Cheng, Q.R.[Qing-Rong],
Learning Dual Semantic Relations With Graph Attention for Image-Text Matching,
CirSysVideo(31), No. 7, July 2021, pp. 2866-2879.
IEEE DOI 2107
Semantics, Visualization, Task analysis, Feature extraction, Birds, Automobiles, Image retrieval, Cross-modal retrieval, image text matching BibRef

Yang, S.[Song], Li, Q.[Qiang], Li, W.H.[Wen-Hui], Li, X.Y.[Xuan-Ya], Liu, A.A.[An-An],
Dual-Level Representation Enhancement on Characteristic and Context for Image-Text Retrieval,
CirSysVideo(32), No. 11, November 2022, pp. 8037-8050.
IEEE DOI 2211
Semantics, Visualization, Feature extraction, Correlation, Learning systems, Task analysis, Filtration, image-text retrieval BibRef

Jing, Y.[Ya], Wang, W.[Wei], Wang, L.[Liang], Tan, T.N.[Tie-Niu],
Learning Aligned Image-Text Representations Using Graph Attentive Relational Network,
IP(30), 2021, pp. 1840-1852.
IEEE DOI 2101
Graph neural networks, Visualization, Semantics, Task analysis, Feature extraction, Annotations, Recurrent neural networks, graph neural network BibRef

Zhao, F.[Fang], Huang, Y.Z.[Yong-Zhen], Wang, L.[Liang], Tan, T.N.[Tie-Niu],
Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval,
CVPR15(1556-1564)
IEEE DOI 1510
BibRef

Lan, H.[Hong], Zhang, P.[Pufen],
Learning and Integrating Multi-Level Matching Features for Image-Text Retrieval,
SPLetters(29), 2022, pp. 374-378.
IEEE DOI 2202
Pattern matching, Feature extraction, Visualization, Head, Task analysis, Semantics, Recurrent neural networks, attention mechanism BibRef

Wu, J.[Jie], Wu, C.L.[Chun-Lei], Lu, J.[Jing], Wang, L.Q.[Lei-Quan], Cui, X.R.[Xue-Rong],
Region Reinforcement Network With Topic Constraint for Image-Text Matching,
CirSysVideo(32), No. 1, January 2022, pp. 388-397.
IEEE DOI 2201
Semantics, Visualization, Petroleum, Linear programming, Cameras, Training data, Image-text matching, topic constraint BibRef

Malali, N.[Noam], Keller, Y.[Yosi],
Learning to Embed Semantic Similarity for Joint Image-Text Retrieval,
PAMI(44), No. 12, December 2022, pp. 10252-10260.
IEEE DOI 2212
Semantics, Training, Measurement, Fasteners, Visualization, Correlation, Deep learning, Text and image fusion, deep learning, joint embedding BibRef

Tian, M.X.[Meng-Xiao], Wu, X.X.[Xin-Xiao], Jia, Y.D.[Yun-De],
Adaptive Latent Graph Representation Learning for Image-Text Matching,
IP(32), 2023, pp. 471-482.
IEEE DOI 2301
Visualization, Feature extraction, Representation learning, Image edge detection, Adaptation models, Task analysis, Semantics, graph variational autoencoder BibRef

Li, K.P.[Kun-Peng], Zhang, Y.L.[Yu-Lun], Li, K.[Kai], Li, Y.Y.[Yuan-Yuan], Fu, Y.[Yun],
Image-Text Embedding Learning via Visual and Textual Semantic Reasoning,
PAMI(45), No. 1, January 2023, pp. 641-656.
IEEE DOI 2212
BibRef
Earlier:
Visual Semantic Reasoning for Image-Text Matching,
ICCV19(4653-4661)
IEEE DOI 2004
Semantics, Cognition, Visualization, Correlation, Image representation, Logic gates, Image-text retrieval, deep learning. convolutional neural nets, graph theory, image matching, image retrieval, Image edge detection BibRef

Diao, H.W.[Hai-Wen], Zhang, Y.[Ying], Liu, W.[Wei], Ruan, X.[Xiang], Lu, H.C.[Hu-Chuan],
Plug-and-Play Regulators for Image-Text Matching,
IP(32), 2023, pp. 2322-2334.
IEEE DOI 2305
Regulators, Visualization, Semantics, Regulation, Pattern matching, Feature extraction, Image-text matching, plug-and-play operation BibRef

Tian, Y.M.[Yu-Min], Ding, A.[Aqiang], Wang, D.[Di], Luo, X.M.[Xue-Mei], Wan, B.[Bo], Wang, Y.F.[Yi-Feng],
Bi-Attention enhanced representation learning for image-text matching,
PR(140), 2023, pp. 109548.
Elsevier DOI 2305
Image-text matching, Bi-attention, Polynomial loss BibRef

Zhang, K.[Kun], Mao, Z.D.[Zhen-Dong], Liu, A.A.[An-An], Zhang, Y.D.[Yong-Dong],
Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching,
MultMed(25), 2023, pp. 1320-1332.
IEEE DOI 2305
Semantics, Optimization, Visualization, Training, Task analysis, Representation learning, Correlation, Image-text matching, unified adaptive relevance distinguishable learning BibRef

Xiong, G.X.[Guo-Xin], Meng, M.[Meng], Zhang, T.Z.[Tian-Zhu], Zhang, D.M.[Dong-Ming], Zhang, Y.D.[Yong-Dong],
Reference-Aware Adaptive Network for Image-Text Matching,
CirSysVideo(34), No. 10, October 2024, pp. 9678-9691.
IEEE DOI 2411
Semantics, Rail transportation, Representation learning, Feature extraction, Automobiles, Visualization, Adaptive systems, adaptive aggregation module BibRef

Liu, Z.J.[Ze-Jun], Chen, F.L.[Fang-Lin], Xu, J.[Jun], Pei, W.J.[Wen-Jie], Lu, G.M.[Guang-Ming],
Image-Text Retrieval With Cross-Modal Semantic Importance Consistency,
CirSysVideo(33), No. 5, May 2023, pp. 2465-2476.
IEEE DOI 2305
Semantics, Visualization, Task analysis, Representation learning, Recurrent neural networks, Glass, Feature extraction, Cross-modal, alignment BibRef

Shang, H.[Heng], Zhao, G.S.[Guo-Shuai], Shi, J.[Jing], Qian, X.M.[Xue-Ming],
A Multiview Text Imagination Network Based on Latent Alignment for Image-Text Matching,
IEEE_Int_Sys(38), No. 3, May 2023, pp. 41-50.
IEEE DOI 2307
Feature extraction, Semantics, Text mining, Intelligent systems, Image representation, Task analysis, Image edge detection BibRef

Liu, C.[Chong], Zhang, Y.Q.[Yu-Qi], Wang, H.S.[Hong-Song], Chen, W.H.[Wei-Hua], Wang, F.[Fan], Huang, Y.[Yan], Shen, Y.D.[Yi-Dong], Wang, L.[Liang],
Efficient Token-Guided Image-Text Retrieval With Consistent Multimodal Contrastive Training,
IP(32), 2023, pp. 3622-3633.
IEEE DOI 2307
Semantics, Transformers, Task analysis, Training, Feature extraction, Visualization, Image-text retrieval, multimodal transformer, multimodal contrastive training BibRef

Li, W.R.[Wen-Rui], Ma, Z.Y.[Zheng-Yu], Deng, L.J.[Liang-Jian], Fan, X.P.[Xiao-Peng], Tian, Y.H.[Yong-Hong],
Neuron-Based Spiking Transmission and Reasoning Network for Robust Image-Text Retrieval,
CirSysVideo(33), No. 7, July 2023, pp. 3516-3528.
IEEE DOI 2307
Visualization, Feature extraction, Wireless communication, Transformers, Task analysis, Receivers, Semantics, joint source-channel coding BibRef

Li, W.R.[Wen-Rui], Ma, Z.Y.[Zheng-Yu], Shi, J.Q.[Jin-Qiao], Fan, X.P.[Xiao-Peng],
The Style Transformer With Common Knowledge Optimization for Image-Text Retrieval,
SPLetters(30), 2023, pp. 1197-1201.
IEEE DOI 2310
BibRef

Zhu, H.G.[Hong-Guang], Zhang, C.J.[Chun-Jie], Wei, Y.C.[Yun-Chao], Huang, S.[Shujuan], Zhao, Y.[Yao],
ESA: External Space Attention Aggregation for Image-Text Retrieval,
CirSysVideo(33), No. 10, October 2023, pp. 6131-6143.
IEEE DOI Code:
WWW Link. 2310
BibRef

Li, Z.[Zheng], Guo, C.[Caili], Feng, Z.[Zerun], Hwang, J.N.[Jenq-Neng], Du, Z.T.[Zhong-Tian],
Integrating Language Guidance Into Image-Text Matching for Correcting False Negatives,
MultMed(26), 2024, pp. 103-116.
IEEE DOI 2401
BibRef

Zhang, Y.[Yan], Ji, Z.[Zhong], Wang, D.[Di], Pang, Y.W.[Yan-Wei], Li, X.L.[Xue-Long],
USER: Unified Semantic Enhancement With Momentum Contrast for Image-Text Retrieval,
IP(33), 2024, pp. 595-609.
IEEE DOI Code:
WWW Link. 2402
Training, Semantics, Visualization, Feature extraction, Task analysis, Heuristic algorithms, Correlation, dynamic queue BibRef

Zhuang, J.[Jiamin], Yu, J.[Jing], Ding, Y.[Yang], Qu, X.Y.[Xiang-Yan], Hu, Y.[Yue],
Towards Fast and Accurate Image-Text Retrieval With Self-Supervised Fine-Grained Alignment,
MultMed(26), 2024, pp. 1361-1372.
IEEE DOI Code:
WWW Link. 2402
Visualization, Semantics, Image coding, Training, Encoding, Computational modeling, Costs, Fast image-text retrieval, self-supervised learning BibRef

Liu, X.[Xin], He, Y.[Yi], Cheung, Y.M.[Yiu-Ming], Xu, X.[Xing], Wang, N.N.[Nan-Nan],
Learning Relationship-Enhanced Semantic Graph for Fine-Grained Image-Text Matching,
Cyber(54), No. 2, February 2024, pp. 948-961.
IEEE DOI 2402
Semantics, Visualization, Correlation, Technological innovation, Task analysis, Snow, relationship-enhanced graph BibRef

Li, W.H.[Wen-Hui], Yang, S.[Song], Li, Q.[Qiang], Li, X.Y.[Xuan-Ya], Liu, A.A.[An-An],
Commonsense-Guided Semantic and Relational Consistencies for Image-Text Retrieval,
MultMed(26), 2024, pp. 1867-1880.
IEEE DOI 2402
Semantics, Visualization, Correlation, Task analysis, Commonsense reasoning, Oceans, Sea measurements, image-text retrieval BibRef

Wu, D.Q.[Dong-Qing], Li, H.H.[Hui-Hui], Gu, C.[Cang], Liu, H.[Hang], Xu, C.[Cuili], Hou, Y.X.[Yin-Xuan], Guo, L.[Lei],
Feature First: Advancing Image-Text Retrieval Through Improved Visual Features,
MultMed(26), 2024, pp. 3827-3841.
IEEE DOI 2402
Visualization, Feature extraction, Semantics, Task analysis, Mouth, Dogs, Aggregates, Graph attention networks, grid feature, region feature BibRef

Yang, R.[Rui], Wang, S.[Shuang], Gu, Y.[Yu], Wang, J.H.[Ji-Hui], Sun, Y.Z.[Ying-Zhi], Zhang, H.[Huan], Liao, Y.[Yu], Jiao, L.C.[Li-Cheng],
Continual Learning for Cross-Modal Image-Text Retrieval Based on Domain-Selective Attention,
PR(149), 2024, pp. 110273.
Elsevier DOI 2403
Cross-modal retrieval, Continual learning, Attention, Weight regularization BibRef

Pan, R.J.[Ren-Jie], Yang, H.[Hua], Li, C.[Cunyan], Yang, J.H.[Jin-Hai],
Joint Intra & Inter-Grained Reasoning: A New Look Into Semantic Consistency of Image-Text Retrieval,
MultMed(26), 2024, pp. 4912-4925.
IEEE DOI 2404
Cognition, Visualization, Task analysis, Semantics, MONOS devices, Correlation, Image-text retrieval, cross-modal attention, joint intra and inter-grained alignment BibRef

Zhang, K.[Kun], Hu, B.[Bo], Zhang, H.[Huatian], Li, Z.[Zhe], Mao, Z.D.[Zhen-Dong],
Enhanced Semantic Similarity Learning Framework for Image-Text Matching,
CirSysVideo(34), No. 4, April 2024, pp. 2973-2988.
IEEE DOI Code:
WWW Link. 2404
Semantics, Visualization, Feature extraction, Focusing, Size measurement, Iterative methods, multi-dimensional correspondence examining BibRef

Fu, Z.R.[Zhe-Ren], Mao, Z.D.[Zhen-Dong], Song, Y.[Yan], Zhang, Y.D.[Yong-Dong],
Learning Semantic Relationship among Instances for Image-Text Matching,
CVPR23(15159-15168)
IEEE DOI 2309
BibRef

Diao, H.[Haiwen], Zhang, Y.[Ying], Gao, S.[Shang], Ruan, X.[Xiang], Lu, H.C.[Hu-Chuan],
Deep Boosting Learning: A Brand-New Cooperative Approach for Image-Text Matching,
IP(33), 2024, pp. 3341-3352.
IEEE DOI 2405
Training, Boosting, Task analysis, Measurement, Semantics, Feature extraction, Pattern matching, Image-text matching, deep metric learning BibRef

Zhang, Y.[Ying], Lu, H.C.[Hu-Chuan],
Deep Cross-Modal Projection Learning for Image-Text Matching,
ECCV18(I: 707-723).
Springer DOI 1810
Measure similarity between image and text descriptions. BibRef

Cao, M.[Min], Bai, Y.[Yang], Cao, Z.Q.[Zi-Qiang], Nie, L.Q.[Li-Qiang], Zhang, M.[Min],
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening,
CirSysVideo(34), No. 6, June 2024, pp. 5132-5145.
IEEE DOI 2406
Task analysis, Indexes, Computational modeling, Transformers, Multitasking, Costs, Image-text retrieval, inverted index BibRef

Li, Z.[Zhe], Zhang, L.[Lei], Zhang, K.[Kun], Zhang, Y.D.[Yong-Dong], Mao, Z.D.[Zhen-Dong],
Improving Image-Text Matching With Bidirectional Consistency of Cross-Modal Alignment,
CirSysVideo(34), No. 7, July 2024, pp. 6590-6607.
IEEE DOI 2407
Semantics, Glass, Task analysis, Visualization, Feature extraction, cross-modal alignment BibRef

Li, Z.[Zhe], Zhang, L.[Lei], Zhang, K.[Kun], Zhang, Y.D.[Yong-Dong], Mao, Z.D.[Zhen-Dong],
Fast, Accurate, and Lightweight Memory-Enhanced Embedding Learning Framework for Image-Text Retrieval,
CirSysVideo(34), No. 7, July 2024, pp. 6542-6558.
IEEE DOI 2407
Semantics, Memory management, Training, Visualization, Task analysis, memory network BibRef

Cui, Z.[Zheng], Hu, Y.L.[Yong-Li], Sun, Y.F.[Yan-Feng], Yin, B.C.[Bao-Cai],
Context-aware relation enhancement and similarity reasoning for image-text retrieval,
IET-CV(18), No. 5, 2024, pp. 652-665.
DOI Link 2408
image retrieval, multimedia systems BibRef

Pan, Z.X.[Zhen-Xiang], Mao, Y.C.[Ying-Chi], Xiong, L.[Li], Pang, T.F.[Tian-Fu], Ping, P.[Ping],
MFAE: Multimodal Fusion and Alignment for Entity-level Disinformation Detection,
PRL(184), 2024, pp. 59-65.
Elsevier DOI 2408
Disinformation detection, Image-text matching, Cross modal interaction, Capsule networks, Graph convolutional networks BibRef

Pu, X.[Xiao], Wang, Z.W.[Zhi-Wen], Yuan, L.[Lin], Wu, Y.[Yu], Jing, L.P.[Li-Ping], Gao, X.B.[Xin-Bo],
GADNet: Improving image-text matching via graph-based aggregation and disentanglement,
PR(157), 2025, pp. 110900.
Elsevier DOI 2409
Image-text matching, Aggregation reasoning, Disentanglement mechanism, Consistency learning BibRef

Pu, X.[Xiao], Yang, P.[Ping], Yuan, L.[Lin], Gao, X.B.[Xin-Bo],
Improving Image-Text Matching by Integrating Word Sense Disambiguation,
SPLetters(31), 2024, pp. 2695-2699.
IEEE DOI 2410
Context modeling, Accuracy, Multitasking, Semantics, Feature extraction, Adaptation models, Vectors, attention mechanism BibRef

Li, W.R.[Wen-Rui], Xiong, R.Q.[Rui-Qin], Fan, X.P.[Xiao-Peng],
Multi-Layer Probabilistic Association Reasoning Network for Image-Text Retrieval,
CirSysVideo(34), No. 10, October 2024, pp. 9706-9717.
IEEE DOI 2411
Visualization, Semantics, Probabilistic logic, Cognition, Uncertainty, Probability distribution, Image segmentation, uncertainty reasoning BibRef

Tian, M.X.[Meng-Xiao], Yang, S.[Shuo], Wu, X.X.[Xin-Xiao], Jia, Y.D.[Yun-De],
Source-Free Image-Text Matching via Uncertainty-Aware Learning,
SPLetters(31), 2024, pp. 3059-3063.
IEEE DOI 2411
Adaptation models, Uncertainty, Noise measurement, Data models, Training, Noise, Visualization, Measurement uncertainty, uncertainty-aware learning BibRef

Wang, D.[Di], Tian, J.[Jiabo], Liang, X.[Xiao], Tian, Y.M.[Yu-Min], He, L.H.[Li-Huo],
Global-aware Fragment Representation Aggregation Network for image-text retrieval,
PR(159), 2025, pp. 111085.
Elsevier DOI 2412
Image-text retrieval, Aggregation, Attention BibRef

Ke, X.[Xiao], Chen, B.T.[Bai-Tao], Yang, X.[Xiong], Cai, Y.H.[Yu-Hang], Liu, H.[Hao], Guo, W.Z.[Wen-Zhong],
Cross-modal independent matching network for image-text retrieval,
PR(159), 2025, pp. 111096.
Elsevier DOI 2412
Image-text retrieval, Relationship reasoning, Cross-modal matching, Cross-modal representation learning BibRef

Li, Z.[Zheng], Guo, C.[Caili], Wang, X.[Xin], Feng, Z.[Zerun], Du, Z.T.[Zhong-Tian],
Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching,
CirSysVideo(35), No. 2, February 2025, pp. 1921-1935.
IEEE DOI Code:
WWW Link. 2502
Training, Visualization, Semantics, Telecommunications, Optimization, Measurement, Feature extraction, visual semantic embedding BibRef

Yang, X.Y.[Xiao-Yu], Li, C.[Chao], Wang, Z.M.[Zhi-Ming], Xie, H.[Hao], Mao, J.[Junyi], Yin, G.Q.[Guang-Qiang],
Remote Sensing Cross-Modal Text-Image Retrieval Based on Attention Correction and Filtering,
RS(17), No. 3, 2025, pp. 503.
DOI Link 2502
BibRef

Wu, D.Q.[Dong-Qing], Li, H.H.[Hui-Hui], Gu, C.[Cang], Guo, L.[Lei], Liu, H.[Hang],
Dual Stream Relation Learning Network for Image-Text Retrieval,
MultMed(27), 2025, pp. 1551-1565.
IEEE DOI 2503
Visualization, Semantics, Feature extraction, Cognition, Noise, Accuracy, Logic gates, Information filters, Encoding, Correlation, self-attention BibRef

Liu, Z.[Zheng], Xu, J.H.[Jun-Hao], Gao, S.S.[Shan-Shan], Chen, Z.[Zhumin],
CSA: Cross-scale alignment with adaptive semantic aggregation and filter for image-text retrieval,
PR(165), 2025, pp. 111647.
Elsevier DOI Code:
WWW Link. 2505
Image-text retrieval, Cross-scale alignment, Semantic association, Adaptive semantic aggregation, Adaptive semantic filter BibRef

Zhang, Q.[Qiang], Wang, D.[Decheng], Yu, X.[Xiao],
RLita: A Region-Level Image-Text Alignment Method for Remote Sensing Foundation Model,
RS(17), No. 10, 2025, pp. 1661.
DOI Link 2505
BibRef

Wen, Z.T.[Zhi-Tao], Liu, J.H.[Jin-Hai], Zhang, H.[Huaguang], Zuo, F.Y.[Feng-Yuan],
Exploring Fine-Grained Visual-Text Feature Alignment With Prompt Tuning for Domain-Adaptive Object Detection,
Cyber(55), No. 7, July 2025, pp. 3220-3233.
IEEE DOI 2507
Visualization, Semantics, Feature extraction, Detectors, Tuning, Object detection, Adaptation models, Optimization, Industries, vision-language models (VLMs) BibRef

Guan, J.H.[Ji-Hong], Shu, Y.[Yulou], Li, W.[Wengen], Song, Z.[Zihan], Zhang, Y.C.[Yi-Chao],
PR-CLIP: Cross-Modal Positional Reconstruction for Remote Sensing Image-Text Retrieval,
RS(17), No. 13, 2025, pp. 2117.
DOI Link 2507
BibRef

Song, Z.[Zihan], Shu, Y.[Yulou], Li, W.[Wengen], Guan, J.H.[Ji-Hong], Zhang, Y.C.[Yi-Chao],
Towards Discriminative and Consistent Cross-Modal Alignment for Remote Sensing Image-Text Retrieval,
RS(18), No. 4, 2026, pp. 662.
DOI Link 2603
BibRef

Zhao, H.[Huan], Li, Z.Y.[Ze-Yi], Wang, S.[Song], Zhang, Z.X.[Zi-Xing], Li, K.Q.[Ke-Qin],
Robust Hashing With Bilinear Drift for Image-Text Retrieval,
CirSysVideo(35), No. 8, August 2025, pp. 7642-7654.
IEEE DOI 2508
Codes, Training, Semantics, Accuracy, Switches, Knowledge engineering, Dogs, Correlation, supervised hashing BibRef

Wang, P.Z.[Peng-Zhe], Zhang, L.[Lei], Mao, Z.D.[Zhen-Dong], Lyu, N.[Nenan], Zhang, Y.D.[Yong-Dong],
Matryoshka Learning With Metric Transfer for Image-Text Matching,
CirSysVideo(35), No. 9, September 2025, pp. 9502-9516.
IEEE DOI 2509
Training, Visualization, Semantics, Knowledge engineering, Feature extraction, Costs, Computational modeling, Accuracy, metric transfer criterion BibRef

Koo, H.[Hyunjoon], Shin, J.[Jungkyoo], Kim, E.[Eunwoo],
Dual-branch scale disentanglement for text-video retrieval,
PRL(196), 2025, pp. 296-302.
Elsevier DOI 2509
Dual-path learning, Contrastive learning, Multi-modal learning, Text-video retrieval BibRef

Zhou, J.[Jing], Wang, M.[Meng],
Unified learning for image-text alignment via multi-scale feature fusion,
CVIU(260), 2025, pp. 104468.
Elsevier DOI Code:
WWW Link. 2510
Feature fusion, Cross modal retrieval, Momentum distillation, Transformer encoder BibRef

Wen, J.[Jun], Chen, Y.F.[Yu-Feng], Shi, R.Q.[Rui-Qi], Ji, W.[Wei], Yang, M.L.[Meng-Lin], Gao, D.F.[Di-Fei], Yuan, J.S.[Jun-Song], Zimmermann, R.[Roger],
HOVER: Hyperbolic Video-Text Retrieval,
IP(34), 2025, pp. 6192-6203.
IEEE DOI Code:
WWW Link. 2510
Videos, Semantics, Visualization, Adaptation models, Training, Geometry, Complexity theory, Benchmark testing, multimodal learning BibRef

Fang, J.Y.[Jin-Yi], Zhu, B.[Bingke], Yuan, J.L.[Jing-Ling], Chen, Y.Y.[Ying-Ying], Tang, M.[Ming], Wang, J.Q.[Jin-Qiao],
AMITA: Attribute-Guided Masked Image-Text Alignment for Multi-Label Image Representation,
CirSysVideo(35), No. 11, November 2025, pp. 11432-11447.
IEEE DOI 2511
Accuracy, Location awareness, Image classification, Semantics, Visualization, Multi label classification, Correlation, multi-label representations BibRef

Ji, L.L.[Lin-Lin], Liu, L.[Li],
Multi-Scale Feature Fusion Based on Piecewise Polynomial Activation Function for Image-Text Matching,
CirSysVideo(35), No. 11, November 2025, pp. 11627-11640.
IEEE DOI 2511
Feature extraction, Semantics, Accuracy, Computational modeling, Correlation, Optimization, Polynomials, Computational efficiency, activation function BibRef

Chen, R.[Ran], Su, T.[Taiyi], Wang, H.[Hanli], Ni, Z.K.[Zhang-Kai],
Similarity Shuffled Criss-Cross Transformer With Angle Loss for Image-Text Matching,
MultMed(27), 2025, pp. 9723-9734.
IEEE DOI 2601
Convolution, Semantics, Feature extraction, Current transformers, Visualization, Kernel, Encoding, Attention mechanisms, Training, shuffle BibRef

Chen, D.[Da], Wang, Y.T.[Yang-Tao], Xie, Y.Z.[Yan-Zhao], Chen, S.Y.[Si-Yuan], Peng, W.L.[Wei-Long], Tang, M.[Maobin], Fang, M.[Meie], Chen, C.L.P.[C. L. Philip], Li, P.[Ping], Zhang, W.[Wensheng],
Intra-modal consistency for image-text retrieval through soft-label distillation,
PR(173), 2026, pp. 112817.
Elsevier DOI Code:
WWW Link. 2601
Image-text retrieval, Intra-modal similarity, Soft-label distillation BibRef

Shi, Z.X.[Zhang-Xiang], Ding, Y.[Yunlai], Dong, J.Y.[Jun-Yu], Zhang, T.Z.[Tian-Zhu],
Beyond One and Two Tower: Cross-Modal Consensus Learning for Image-Text Retrieval,
CirSysVideo(36), No. 2, February 2026, pp. 2581-2593.
IEEE DOI 2602
Semantics, Training, Visualization, Decoding, Prototypes, Labeling, Data models, Poles and towers, Pipelines, Videos, optimal transport BibRef

Wang, H.C.[Heng-Chang], Liu, L.[Li], Zhang, H.X.[Hua-Xiang], Zhu, L.[Lei], Chang, X.J.[Xiao-Jun], Du, H.[Hao],
VisualRAG: Knowledge-Guided Retrieval Augmentation for Image-Text Matching,
CirSysVideo(36), No. 1, January 2026, pp. 1234-1248.
IEEE DOI 2602
Semantics, Feature extraction, Visualization, Videos, Adaptation models, Training, Noise, Filters, Data mining, modality heterogeneity BibRef

Zhang, D.L.[Dong-Lin], Wang, Z.W.[Zhi-Wen], Wu, X.J.[Xiao-Jun], Kittler, J.V.[Josef V.],
HACG: Leveraging Hierarchical Alignment and Caption Generation for Text-Video Retrieval,
IJCV(134), No. 1, January 2026, pp. 93.
Springer DOI
WWW Link. 2602
BibRef

Zhang, B.[Bofan], Wu, H.[Hao],
Test-Time Candidate-Aware Dual Refinement for Remote Sensing Image-Text Retrieval,
RS(18), No. 9, 2026, pp. 1389.
DOI Link 2605
BibRef

Wang, Z.[Zheng], Xu, X.[Xing], Zhu, L.[Lei], Song, J.K.[Jing-Kuan], Yang, Y.[Yang], Shen, H.T.[Heng Tao],
Distribution-to-Points Matching for Image Text Retrieval,
PAMI(48), No. 6, June 2026, pp. 7097-7111.
IEEE DOI 2605
Semantics, Sports, Probabilistic logic, Annotations, Games, Correlation, Uncertainty, Cross modal retrieval, Visualization, semantic multiplicity BibRef

Huang, J.[Jirui], Chen, Y.X.[Ya-Xiong], Du, C.[Chuang], Xiong, S.W.[Sheng-Wu], Lu, X.Q.[Xiao-Qiang],
ReCoTR: Reducing Semantic Cognitive Shift via Dual-Consensus Token Compression for Remote Sensing Image-Text Retrieval,
IP(35), 2026, pp. 5017-5031.
IEEE DOI Code:
WWW Link. 2605
Modeling, Remote sensing, Visualization, Modules (abstract algebra), Buildings, Transformers, Conferences, token compression BibRef

Wang, K.[Kun], Hu, Y.P.[Yu-Peng], Liu, H.[Hao], Jie, L.R.[Li-Rong], Nie, L.Q.[Li-Qiang],
Redundancy Mitigation: Toward Accurate and Efficient Image-Text Retrieval,
CirSysVideo(36), No. 5, May 2026, pp. 7155-7167.
IEEE DOI 2605
Redundancy, Semantics, Optimization, Quantization (signal), Prevention and mitigation, Accuracy, Dogs, Videos, multimodal learning BibRef

Vongala, M.R.[Madhukar Reddy], Srivastava, S.[Saurabh], Košecká, J.[Jana],
Compositional Image-Text Matching and Retrieval by Grounding Entities,
MULA25(241-250)
IEEE DOI Code:
WWW Link. 2512
Training, Visualization, Vocabulary, Grounding, Computational modeling, Scalability, Refining, Detectors, Probes BibRef

Zhang, Z.C.[Zhi-Chao], Li, X.Y.[Xin-Yue], Sun, W.[Wei], Zhang, Z.C.[Zi-Cheng], Li, Y.H.[Yun-Hao], Liu, X.H.[Xiao-Hong], Zhai, G.T.[Guang-Tao],
Leveraging Multimodal Large Language Models for Joint Discrete and Continuous Evaluation in Text-to-Image Alignment,
NTIRE25(968-977)
IEEE DOI 2512
Visualization, Large language models, Text to image, Multilayer perceptrons, Feature extraction, Transformers, Decoding, Photorealistic images BibRef

Zhang, Z.J.[Zi-Jian], Zheng, X.H.[Xu-Hui], Wu, X.C.[Xue-Cheng], Peng, C.[Chong], Cao, X.Z.[Xue-Zhi],
Tokenfocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs,
NTIRE25(1270-1279)
IEEE DOI 2512
Visualization, Vocabulary, Technological innovation, Semantics, Text to image, Position measurement, Loss measurement, Quality assessment BibRef

Yue, X.[Xinli], Sun, J.[JianHui], Lu, J.[Junda], Yao, L.C.[Liang-Chao], XIA, F.[FAN], Wang, T.Y.[Tian-Yi], Rao, F.Y.[Feng-Yun], LYU, J.[JING], Deng, Y.[Yuetang],
Instruction-Augmented Multimodal Alignment for Image-Text and Element Matching,
NTIRE25(1370-1379)
IEEE DOI 2512
Visualization, Perturbation methods, Large language models, Semantics, Text to image, Training data, Predictive models, Robustness BibRef

Lai, H.[Huakai], Xiong, G.X.[Guo-Xin], Mai, H.Y.[Hua-Yu], Liu, X.[Xiang], Zhang, T.Z.[Tian-Zhu],
Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment,
CVPR25(9231-9241)
IEEE DOI 2508
Training, Pairwise error probability, Computer network reliability, Noise, Performance gain, Robustness, Resilience BibRef

Kim, D.[Dahun], Piergiovanni, A.[AJ], Mallya, G.[Ganesh], Angelova, A.[Anelia],
VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models,
CVPR25(29060-29070)
IEEE DOI 2508
Training, Learning systems, Sensitivity, Computational modeling, Semantics, Focusing, Benchmark testing, Videos BibRef

Shen, L.[Leqi], Gong, G.Q.[Guo-Qiang], Hao, T.X.[Tian-Xiang], He, T.[Tao], Zhang, Y.F.[Yi-Feng], Liu, P.Z.[Peng-Zhang], Zhao, S.C.[Si-Cheng], Han, J.G.[Jun-Gong], Ding, G.[Guiguang],
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval,
CVPR25(19702-19712)
IEEE DOI Code:
WWW Link. 2508
Adaptation models, Codes, Fuses, Videos, text-video retrieval, parameter-efficient fine-tuning BibRef

Jin, Z.X.[Zhao-Xia], Xu, X.W.[Xiao-Wei], Wang, X.D.[Xiao-Dong],
MADA:Multi-Window Attention and Dual-Alignment for Image-Text Retrieval,
ICIVC24(240-245)
IEEE DOI 2503
Visualization, Image segmentation, Correlation, Attention mechanisms, Semantics, Linguistics, Transformers, Mapping alignment BibRef

Xie, C.W.[Chen-Wei], Sun, S.Y.[Si-Yang], Zhao, L.M.[Li-Ming], Li, P.[Pandeng], Ma, S.[Shuailei], Zheng, Y.[Yun],
Fuseteacher: Modality-fused Encoders are Strong Vision Supervisors,
ECCV24(XLVIII: 287-304).
Springer DOI 2412
Code:
WWW Link. BibRef

Kim, W.[Wonjae], Chun, S.[Sanghyuk], Kim, T.[Taekyung], Han, D.Y.[Dong-Yoon], Yun, S.[Sangdoo],
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts,
ECCV24(XL: 247-265).
Springer DOI 2412
image-text pair datasets BibRef

Sogi, N.[Naoya], Shibata, T.[Takashi], Terao, M.[Makoto],
Object-aware Query Perturbation for Cross-modal Image-text Retrieval,
ECCV24(LXXIX: 447-464).
Springer DOI 2412
BibRef

Alper, M.[Morris], Averbuch-Elor, H.[Hadar],
Emergent Visual-semantic Hierarchies in Image-text Representations,
ECCV24(LII: 220-238).
Springer DOI 2412
BibRef

Gordon, B.[Brian], Bitton, Y.[Yonatan], Shafir, Y.[Yonatan], Garg, R.[Roopal], Chen, X.[Xi], Lischinski, D.[Dani], Cohen-Or, D.[Daniel], Szpektor, I.[Idan],
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment,
ECCV24(LVII: 310-328).
Springer DOI 2412
BibRef

Hua, H.[Hang], Shi, J.[Jing], Kafle, K.[Kushal], Jenni, S.[Simon], Zhang, D.[Daoan], Collomosse, J.[John], Cohen, S.[Scott], Luo, J.B.[Jie-Bo],
Finematch: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction,
ECCV24(IX: 474-491).
Springer DOI 2412
BibRef

Li, Y.H.[Yu-Heng], Liu, H.T.[Hao-Tian], Cai, M.[Mu], Li, Y.J.[Yi-Jun], Shechtman, E.[Eli], Lin, Z.[Zhe], Lee, Y.J.[Yong Jae], Singh, K.K.[Krishna Kumar],
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment,
ECCV24(XXI: 405-422).
Springer DOI 2412
BibRef

Ma, W.[Wufei], Li, K.[Kai], Jiang, Z.[Zhongshi], Meshry, M.[Moustafa], Liu, Q.H.[Qi-Hao], Wang, H.Y.[Hui-Yu], Häne, C.[Christian], Yuille, A.L.[Alan L.],
Rethinking Video-text Understanding: Retrieval from Counterfactually Augmented Data,
ECCV24(XIII: 254-269).
Springer DOI 2412
BibRef

Zhang, W.[Wei], Xu, X.W.[Xiao-Wei], Tao, Y.[Ye], Wang, X.D.[Xiao-Dong], Wang, C.L.[Cheng-Lin], Wei, Z.M.[Zhi-Min],
Bi-Directional Image-Text Retrieval With Position Attention and Similarity Filtering,
ICIVC22(635-640)
IEEE DOI 2301
Visualization, Filtering, Interference, Bidirectional control, Information retrieval, Reliability, Task analysis, filtering mechanism BibRef

Li, Z.[Zhao], Nian, X.H.[Xiao-Hong], Pan, C.[Chao], Yang, D.[Dayin], Xiong, H.Y.[Hong-Yun], Wang, H.B.[Hai-Bo],
Relation Graph Reasoning for Image-Text Matching,
ICIVC22(319-324)
IEEE DOI 2301
Visualization, Semantics, Brightness, Feature extraction, Cognition, Data mining, Task analysis, Image-Text Matching, Relation Graph, Visual Reasoning BibRef

Zhang, K.[Kun], Mao, Z.D.[Zhen-Dong], Wang, Q.[Quan], Zhang, Y.D.[Yong-Dong],
Negative-Aware Attention Framework for Image-Text Matching,
CVPR22(15640-15649)
IEEE DOI 2210
Force measurement, Codes, Machine vision, Optimization methods, Benchmark testing, Vision+language, Vision applications and systems BibRef

Long, S.[Siqu], Han, S.C.[Soyeon Caren], Wan, X.J.[Xiao-Jun], Poon, J.[Josiah],
GraDual: Graph-based Dual-modal Representation for Image-Text Matching,
WACV22(2463-2472)
IEEE DOI 2202
Visualization, Matched filters, Computational modeling, Semantics, Image retrieval, Vision and Languages BibRef

Biten, A.F.[Ali Furkan], Mafla, A.[Andrés], Gómez, L.[Lluís], Karatzas, D.[Dimosthenis],
Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching,
WACV22(2483-2492)
IEEE DOI 2202
Measurement, Training, Integrated circuits, Annotations, Semantics, Training data, Semisupervised learning, Vision and Languages BibRef

Mithun, N.C.[Niluthpol C.], Pasricha, R.[Ravdeep], Papalexakis, E.[Evangelos], Roy-Chowdhury, A.K.[Amit K.],
Webly Supervised Image-Text Embedding with Noisy Tag Refinement,
ICPR21(7454-7461)
IEEE DOI 2105
utilizing web images in training. Training, Tensors, Correlation, Performance gain, Benchmark testing, Data models BibRef

Chen, J.A.[Jian-An], Zhang, L.[Lu], Wang, Q.[Qiong], Bai, C.[Cong], Kpalma, K.[Kidiyo],
Intra-Modal Constraint Loss for Image-Text Retrieval,
ICIP22(4023-4027)
IEEE DOI 2211
Convolutional codes, Recurrent neural networks, Bidirectional control, Network architecture, Feature extraction, similarity distance BibRef

Liu, Y.[Yang], Wang, H.Q.[Hua-Qiu], Meng, F.Y.[Fan-Yang], Liu, M.Y.[Meng-Yuan], Liu, H.[Hong],
Attend, Correct and Focus: A Bidirectional Correct Attention Network for Image-Text Matching,
ICIP21(2673-2677)
IEEE DOI 2201
Image processing, Semantics, Benchmark testing, Task analysis, Image-text matching, cross modal retrieval, attention mechanism BibRef

Yang, S.T.[Sean T.], Huang, K.H.[Kuan-Hao], Howe, B.[Bill],
JECL: Joint Embedding and Cluster Learning for Image-Text Pairs,
ICPR21(8344-8351)
IEEE DOI 2105
Training, Sensitivity, Computational modeling, Training data, Benchmark testing, Robustness BibRef

Mikriukov, G.[Georgii], Ravanbakhsh, M.[Mahdyar], Demir, B.[Begüm],
An Unsupervised Cross-Modal Hashing Method Robust to Noisy Training Image-Text Correspondences in Remote Sensing,
ICIP22(2556-2560)
IEEE DOI 2211
Training, Codes, Coherence, Feature extraction, Distortion, Sensors, Noise robustness, cross-modal retrieval, caption-noise BibRef

Anwaar, M.U.[Muhammad Umer], Labintcev, E.[Egor], Kleinsteuber, M.[Martin],
Compositional Learning of Image-Text Query for Image Retrieval,
WACV21(1139-1148)
IEEE DOI 2106
Training, Image color analysis, Databases, Image retrieval, Benchmark testing BibRef

Messina, N.[Nicola], Falchi, F.[Fabrizio], Esuli, A.[Andrea], Amato, G.[Giuseppe],
Transformer Reasoning Network for Image-Text Matching and Retrieval,
ICPR21(5222-5229)
IEEE DOI 2105
Measurement, Weight measurement, Training, Visualization, Feature extraction, Cognition BibRef

Zhang, Q.[Qi], Lei, Z.[Zhen], Zhang, Z.X.[Zhao-Xiang], Li, S.Z.[Stan Z.],
Context-Aware Attention Network for Image-Text Retrieval,
CVPR20(3533-3542)
IEEE DOI 2008
Semantics, Correlation, Visualization, Feature extraction, Task analysis, Bidirectional control, Knowledge discovery BibRef

Chen, Y.C.[Yen-Chun], Li, L.J.[Lin-Jie], Yu, L.C.[Li-Cheng], El Kholy, A.[Ahmed], Ahmed, F.[Faisal], Gan, Z.[Zhe], Cheng, Y.[Yu], Liu, J.J.[Jing-Jing],
Uniter: Universal Image-Text Representation Learning,
ECCV20(XXX: 104-120).
Springer DOI 2010
joint visual and textual understanding. BibRef

Wang, H.R.[Hao-Ran], Zhang, Y.[Ying], Ji, Z.[Zhong], Pang, Y.W.[Yan-Wei], Ma, L.[Lin],
Consensus-aware Visual-semantic Embedding for Image-Text Matching,
ECCV20(XXIV:18-34).
Springer DOI 2012
BibRef

Chen, T.L.[Tian-Lang], Deng, J.J.[Jia-Jun], Luo, J.B.[Jie-Bo],
Adaptive Offline Quintuplet Loss for Image-text Matching,
ECCV20(XIII:549-565).
Springer DOI 2011
Code, Retrieval.
WWW Link. BibRef

Lee, K.H.[Kuang-Huei], Chen, X.[Xi], Hua, G.[Gang], Hu, H.D.[Hou-Dong], He, X.D.[Xiao-Dong],
Stacked Cross Attention for Image-Text Matching,
ECCV18(II: 212-228).
Springer DOI 1810
Match text descriptions to the image. BibRef

Plummer, B.A.[Bryan A.], Kordas, P.[Paige], Kiapour, M.H.[M. Hadi], Zheng, S.[Shuai], Piramuthu, R.[Robinson], Lazebnik, S.[Svetlana],
Conditional Image-Text Embedding Networks,
ECCV18(XII: 258-274).
Springer DOI 1810
Code:
WWW Link. BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Visual Grounding, Grounding Expressions .

Last update:Jul 11, 2026 at 11:55:55