20.4.3.3.22 Referring Expression Comprehension

Chapter Contents (Back)
Referring Expression.
See also CLIP, Contrastive Language-Image Pre-Training.

Li, X., Jiang, S.,
Bundled Object Context for Referring Expressions,
MultMed(20), No. 10, October 2018, pp. 2749-2760.
IEEE DOI 1810
image processing, learning (artificial intelligence), natural language processing, probability, recurrent neural nets, vision-language BibRef

Wang, J.M.[Jian-Ming], Cui, E.[Enjie], Liu, K.L.[Kun-Liang], Sun, Y.K.[Yu-Kuan], Liang, J.Y.[Jia-Yu], Yuan, C.M.[Chun-Miao], Duan, X.J.[Xiao-Jie], Jin, G.H.[Guang-Hao], Chung, T.S.[Tae-Sun],
Referring expression comprehension model with matching detection and linguistic feedback,
IET-CV(14), No. 8, December 2020, pp. 625-633.
DOI Link 2012
BibRef

Qiao, Y.Y.[Yan-Yuan], Deng, C.R.[Chao-Rui], Wu, Q.[Qi],
Referring Expression Comprehension: A Survey of Methods and Datasets,
MultMed(23), 2021, pp. 4426-4440.
IEEE DOI 2112
Task analysis, Visualization, Feature extraction, Context modeling, Training, Image segmentation, Survey BibRef

Niu, Y.L.[Yu-Lei], Zhang, H.W.[Han-Wang], Lu, Z.W.[Zhi-Wu], Chang, S.F.[Shih-Fu],
Variational Context: Exploiting Visual and Textual Context for Grounding Referring Expressions,
PAMI(43), No. 1, January 2021, pp. 347-359.
IEEE DOI 2012
Grounding, Context modeling, Visualization, Task analysis, Pediatrics, Bayes methods, Annotations, referring expression generation BibRef

Yang, S.[Sibei], Li, G.B.[Guan-Bin], Yu, Y.Z.[Yi-Zhou],
Relationship-Embedded Representation Learning for Grounding Referring Expressions,
PAMI(43), No. 8, August 2021, pp. 2765-2779.
IEEE DOI 2107
BibRef
Earlier:
Cross-Modal Relationship Inference for Grounding Referring Expressions,
CVPR19(4140-4149).
IEEE DOI 2002
Locate the object instance in an image described by a referring expression. Visualization, Semantics, Grounding, Proposals, Data mining, Logic gates, Feature extraction, Referring expressions, gated graph convolutional network. Locate target object based on natural language descriptions. BibRef

Sun, M.J.[Ming-Jie], Xiao, J.[Jimin], Lim, E.G.[Eng Gee], Liu, S.[Si], Goulermas, J.Y.[John Y.],
Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding,
PAMI(43), No. 11, November 2021, pp. 4189-4195.
IEEE DOI 2110
Image reconstruction, Training, Proposals, Visualization, Task analysis, Linguistics, Grounding, discriminative triad matching BibRef

Lin, L.[Liang], Yan, P.X.[Peng-Xiang], Xu, X.Q.[Xiao-Qian], Yang, S.[Sibei], Zeng, K.[Kun], Li, G.B.[Guan-Bin],
Structured Attention Network for Referring Image Segmentation,
MultMed(24), 2022, pp. 1922-1932.
IEEE DOI 2204
Visualization, Linguistics, Image segmentation, Cognition, Feature extraction, Semantics, Task analysis, cross-modal reasoning BibRef

Yang, X.[Xu], Wang, H.[Hao], Xie, D.[De], Deng, C.[Cheng], Tao, D.C.[Da-Cheng],
Object-Agnostic Transformers for Video Referring Segmentation,
IP(31), 2022, pp. 2839-2849.
IEEE DOI 2204
Task analysis, Visualization, Transformers, Feature extraction, Object detection, Image segmentation, Context modeling, video grounding BibRef

Wang, X.[Xing], Xie, D.[De], Zheng, Y.S.[Yuan-Shi],
Referring expression grounding by multi-context reasoning,
PRL(160), 2022, pp. 66-72.
Elsevier DOI 2208
Referring expression grounding, Reasoning, Graph networks BibRef

Shen, H.T.[Heng Tao], Chen, C.[Cheng], Wang, P.[Peng], Gao, L.L.[Lian-Li], Wang, M.[Meng], Song, J.K.[Jing-Kuan],
Continual Referring Expression Comprehension via Dual Modular Memorization,
IP(31), 2022, pp. 6694-6706.
IEEE DOI 2211
Task analysis, Training, Benchmark testing, Training data, Grounding, Data models, Visualization, Continual learning, lifelong learning, visual grounding BibRef

Chen, Y.W.[Yi-Wen], Tsai, Y.H.[Yi-Hsuan], Yang, M.H.[Ming-Hsuan],
Understanding Synonymous Referring Expressions via Contrastive Features,
IJCV(130), No. 10, October 2022, pp. 2501-2516.
Springer DOI 2209
BibRef

Suo, W.[Wei], Sun, M.Y.[Meng-Yang], Wang, P.[Peng], Zhang, Y.N.[Yan-Ning], Wu, Q.[Qi],
Rethinking and Improving Feature Pyramids for One-Stage Referring Expression Comprehension,
IP(32), 2023, pp. 854-864.
IEEE DOI 2301
Task analysis, Visualization, Head, Semantics, Object detection, Neck, Computational modeling, Referring expression comprehension, feature pyramids network BibRef

Liu, X.J.[Xue-Jing], Li, L.[Liang], Wang, S.H.[Shu-Hui], Zha, Z.J.[Zheng-Jun], Li, Z.C.[Ze-Chao], Tian, Q.[Qi], Huang, Q.M.[Qing-Ming],
Entity-Enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding,
PAMI(45), No. 3, March 2023, pp. 3003-3018.
IEEE DOI 2302
Proposals, Image reconstruction, Grounding, Visualization, Collaboration, Context modeling, Training, Entity enhancement, referring expression grounding BibRef

Liu, X.J.[Xue-Jing], Li, L.[Liang], Wang, S.H.[Shu-Hui], Zha, Z.J.[Zheng-Jun], Meng, D.C.[De-Chao], Huang, Q.M.[Qing-Ming],
Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding,
ICCV19(2611-2620)
IEEE DOI 2004
Localize the object in the image from a query. feature extraction, image classification, image reconstruction, image retrieval, Adaptive systems BibRef

Feng, G.[Guang], Zhang, L.[Lihe], Sun, J.Y.[Jia-Yu], Hu, Z.W.[Zhi-Wei], Lu, H.C.[Hu-Chuan],
Referring Segmentation via Encoder-Fused Cross-Modal Attention Network,
PAMI(45), No. 6, June 2023, pp. 7654-7667.
IEEE DOI 2305
BibRef
Earlier: A1, A4, A2, A5, Only:
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation,
CVPR21(15501-15510)
IEEE DOI 2111
Visualization, Image segmentation, Decoding, Feature extraction, Linguistics, Task analysis, Correlation, Referring segmentation, asymmetric cross-frame attention module. Measurement, Visualization, Grounding, Semantics, Transforms, Information representation BibRef

Liu, D.Z.[Dai-Zong], Zhou, P.[Pan], Xu, Z.[Zichuan], Wang, H.Z.[Hao-Zhao], Li, R.X.[Rui-Xuan],
Few-Shot Temporal Sentence Grounding via Memory-Guided Semantic Learning,
CirSysVideo(33), No. 5, May 2023, pp. 2491-2505.
IEEE DOI 2305
Semantics, Grounding, Task analysis, Training, Visualization, Proposals, Logic gates, Temporal sentence grounding, memory-augmented network BibRef

Sun, M.J.[Ming-Jie], Xiao, J.[Jimin], Lim, E.G.[Eng Gee], Zhao, Y.[Yao],
Cycle-Free Weakly Referring Expression Grounding With Self-Paced Learning,
MultMed(25), 2023, pp. 1611-1621.
IEEE DOI 2306
Task analysis, Training, Pipelines, Linguistics, Visualization, Optimization, Image reconstruction, self-paced learning BibRef

Sun, M.Y.[Meng-Yang], Suo, W.[Wei], Wang, P.[Peng], Zhang, Y.N.[Yan-Ning], Wu, Q.[Qi],
A Proposal-Free One-Stage Framework for Referring Expression Comprehension and Generation via Dense Cross-Attention,
MultMed(25), 2023, pp. 2446-2458.
IEEE DOI 2306
Task analysis, Visualization, Computational modeling, Proposals, Annotations, Detectors, Feature extraction, one-stage method BibRef

Sun, Y.F.[Yan-Feng], Zhang, Y.[Yunru], Jiang, H.[Huajie], Hu, Y.L.[Yong-Li], Yin, B.C.[Bao-Cai],
Multi-level attention for referring expression comprehension,
PRL(172), 2023, pp. 252-258.
Elsevier DOI 2309
Context information, Multilevel attention, Attribute information BibRef

Wang, R.[Rong], Tang, Z.[Zongheng], Zhou, Q.L.[Qian-Li], Liu, X.Q.[Xiao-Qian], Hui, T.R.[Tian-Rui], Tan, Q.[Quange], Liu, S.[Si],
Unified Transformer with Isomorphic Branches for Natural Language Tracking,
CirSysVideo(33), No. 9, September 2023, pp. 4529-4541.
IEEE DOI 2310
Localize the target object referred to by a language description. BibRef

Li, H.[Hui], Sun, M.J.[Ming-Jie], Xiao, J.[Jimin], Lim, E.G.[Eng Gee], Zhao, Y.[Yao],
Fully and Weakly Supervised Referring Expression Segmentation With End-to-End Learning,
CirSysVideo(33), No. 10, October 2023, pp. 5999-6012.
IEEE DOI Code:
WWW Link. 2310
BibRef

Liu, C.[Chang], Jiang, X.D.[Xu-Dong], Ding, H.H.[Heng-Hui],
Instance-Specific Feature Propagation for Referring Segmentation,
MultMed(25), 2023, pp. 3657-3667.
IEEE DOI 2310
BibRef

Song, Y.Z.[Yun-Zhu], Chen, Y.S.[Yi-Syuan], Shuai, H.H.[Hong-Han],
Decoupling-Cooperative Framework for Referring Expression Comprehension,
SPLetters(30), 2023, pp. 1542-1546.
IEEE DOI 2311
BibRef

Hua, G.G.[Guo-Guang], Liao, M.[Muxin], Tian, S.[Shishun], Zhang, Y.H.[Yu-Hang], Zou, W.B.[Wen-Bin],
Multiple Relational Learning Network for Joint Referring Expression Comprehension and Segmentation,
MultMed(25), 2023, pp. 8805-8816.
IEEE DOI 2312
BibRef

Wang, W.B.[Wen-Bin], Pagnucco, M.[Maurice], Xu, C.P.[Cheng-Pei], Song, Y.[Yang],
InterREC: An Interpretable Method for Referring Expression Comprehension,
MultMed(25), 2023, pp. 9330-9342.
IEEE DOI 2312
BibRef

Ke, J.C.[Jing-Cheng], Wang, J.[Jia], Chen, J.C.[Jun-Cheng], Jhuo, I.H.[I-Hong], Lin, C.W.[Chia-Wen], Lin, Y.Y.[Yen-Yu],
CLIPREC: Graph-Based Domain Adaptive Network for Zero-Shot Referring Expression Comprehension,
MultMed(26), 2024, pp. 2480-2492.
IEEE DOI 2402
Task analysis, Visualization, Adaptation models, Cognition, Adaptive systems, Object detection, Training data, CLIP BibRef

Ke, J.C.[Jing-Cheng], Wang, J.[Jia], Wong, W.K.[Wai-Keung], Toomey, A.[Anne], Wen, J.[Jie],
Graph-Based Group Division Network for Referring Expression Comprehension,
CirSysVideo(35), No. 6, June 2025, pp. 6170-6183.
IEEE DOI 2506
Cognition, Visualization, Transformers, Feature extraction, Matched filters, Location awareness, filtering-based reasoning module BibRef

Li, X.C.[Xiao-Chuan], Fan, B.Y.[Bao-Yu], Zhang, R.Z.[Run-Ze], Zhao, K.[Kun], Guo, Z.H.[Zhen-Hua], Zhao, Y.Q.[Ya-Qian], Li, R.[Rengang],
Inexactly Matched Referring Expression Comprehension With Rationale,
MultMed(26), 2024, pp. 3937-3950.
IEEE DOI 2402
Task analysis, Grounding, Visualization, Pipelines, Transformers, Training, Annotations, Referring expression comprehension, multimodal learning BibRef

Luo, G.[Gen], Zhou, Y.Y.[Yi-Yi], Sun, J.[Jiamu], Sun, X.S.[Xiao-Shuai], Ji, R.R.[Rong-Rong],
A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension,
MultMed(26), 2024, pp. 3689-3700.
IEEE DOI 2402
Task analysis, Visualization, Training, Head, Cognition, Systematics, Sun, object recognition BibRef

Miao, P.H.[Pei-Han], Su, W.[Wei], Wang, G.A.[Gao-Ang], Li, X.W.[Xue-Wei], Xi, L.[Li],
Self-Paced Multi-Grained Cross-Modal Interaction Modeling for Referring Expression Comprehension,
IP(33), 2024, pp. 1497-1507.
IEEE DOI 2402
Visualization, Linguistics, Transformers, Location awareness, Task analysis, Training, Learning systems, self-paced sample informativeness learning BibRef

Liu, Z.T.[Zong-Tao], Xu, T.Y.[Tian-Yang], Song, X.N.[Xiao-Ning], Wu, X.J.[Xiao-Jun],
Unified Referring Expression Generation for Bounding Boxes and Segmentations,
SPLetters(31), 2024, pp. 636-640.
IEEE DOI 2403
Transformers, Visualization, Task analysis, Image segmentation, Search problems, Object segmentation, Feature extraction, segmentation BibRef

Zhang, Y.J.[Yu-Jia], Li, Q.Z.[Qian-Zhong], Pan, Y.[Yi], Zhao, X.G.[Xiao-Guang], Tan, M.[Min],
Multi-Stage Image-Language Cross-Generative Fusion Network for Video-Based Referring Expression Comprehension,
IP(33), 2024, pp. 3256-3270.
IEEE DOI 2405
Feature extraction, Visualization, Task analysis, Representation learning, Location awareness, Linguistics, consistency loss BibRef

Lu, M.C.[Ming-Cong], Li, R.F.[Rui-Fan], Feng, F.X.[Fang-Xiang], Ma, Z.Y.[Zhan-Yu], Wang, X.J.[Xiao-Jie],
LGR-NET: Language Guided Reasoning Network for Referring Expression Comprehension,
CirSysVideo(34), No. 8, August 2024, pp. 7771-7784.
IEEE DOI Code:
WWW Link. 2408
Feature extraction, Cognition, Visualization, Transformers, Task analysis, Detectors, Proposals, Vision and language, cross-modal reasoning BibRef

Yao, H.B.[Hai-Bo], Wang, L.P.[Li-Ping], Cai, C.T.[Cheng-Tao], Wang, W.[Wei], Zhang, Z.[Zhi], Shang, X.B.[Xia-Bing],
Language conditioned multi-scale visual attention networks for visual grounding,
IVC(150), 2024, pp. 105242.
Elsevier DOI 2409
Deep learning, Visual grounding, Referring expression, Vision and language, Multi-scale visual attention, Transformer network BibRef

Ji, Z.[Zhong], Wu, J.[Jiahe], Wang, Y.D.[Yao-Dong], Yang, A.P.[Ai-Ping], Han, J.G.[Jun-Gong],
Progressive Semantic Reconstruction Network for Weakly Supervised Referring Expression Grounding,
CirSysVideo(34), No. 12, December 2024, pp. 13058-13070.
IEEE DOI Code:
WWW Link. 2501
Image reconstruction, Semantics, Training, Grounding, Proposals, Detectors, Visualization, Referring expression grounding, progressive semantic reconstruction BibRef

Wu, J.[Jiahe], Ji, Z.[Zhong], Wang, Y.D.[Yao-Dong], Pang, Y.W.[Yan-Wei], Han, J.G.[Jun-Gong],
Cyclic Pseudo-Label Generation and Refinement for Weakly Supervised Referring Expression Grounding,
CirSysVideo(36), No. 5, May 2026, pp. 5839-5851.
IEEE DOI Code:
WWW Link. 2605
Grounding, Visualization, Image reconstruction, Training, Annotations, Dogs, Proposals, Videos, Adaptation models, vision-language pre-training BibRef

Qiu, H.Q.[He-Qian], Wang, L.X.[Lan-Xiao], Zhao, T.[Taijin], Meng, F.M.[Fan-Man], Wu, Q.B.[Qing-Bo], Li, H.L.[Hong-Liang],
MCCE-REC: MLLM-Driven Cross-Modal Contrastive Entropy Model for Zero-Shot Referring Expression Comprehension,
CirSysVideo(35), No. 1, January 2025, pp. 754-768.
IEEE DOI 2502
Visualization, Proposals, Feature extraction, Entropy, Detectors, Cognition, contrastive similarity entropy BibRef

Ke, J.C.[Jing-Cheng], Zhang, Q.[Qi], Wang, J.[Jia], Ding, H.Q.[Hong-Qing], Zhang, P.F.[Peng-Fei], Wen, J.[Jie],
Graph-based referring expression comprehension with expression-guided selective filtering and noun-oriented reasoning,
PR(161), 2025, pp. 111222.
Elsevier DOI 2502
Referring expression comprehension, Expression-guided selective and filtering module, Noun-oriented reasoning BibRef

Ke, J.C.[Jing-Cheng], Wang, D.[Dele], Chen, J.C.[Jun-Cheng], Jhuo, I.H.[I-Hong], Lin, C.W.[Chia-Wen], Lin, Y.Y.[Yen-Yu],
Make Graph-Based Referring Expression Comprehension Great Again Through Expression-Guided Dynamic Gating and Regression,
MultMed(27), 2025, pp. 1950-1961.
IEEE DOI 2504
Visualization, Cognition, Feature extraction, Transformers, Detectors, Semantics, Logic gates, Proposals, Long short term memory, expression-guided regression BibRef

Huang, S.J.[Shi-Jia], Li, F.[Feng], Zhang, H.[Hao], Liu, S.L.[Shi-Long], Zhang, L.[Lei], Wang, L.W.[Li-Wei],
A Mutual Supervision Framework for Referring Expression Segmentation and Generation,
IJCV(133), No. 6, June 2025, pp. 3597-3612.
Springer DOI 2505
BibRef

Ke, X.[Xiao], Xu, P.R.[Pei-Rong], Guo, W.Z.[Wen-Zhong],
Language-Image Consistency Augmentation and Distillation Network for visual grounding,
PR(166), 2025, pp. 111663.
Elsevier DOI 2505
Visual grounding, Referring expression comprehension, Self-distillation BibRef

Yang, X.Z.[Xu-Zheng], Liu, J.Z.[Jun-Zhuo], Wang, P.[Peng], Wang, G.Q.[Guo-Qing], Yang, Y.[Yang], Shen, H.T.[Heng Tao],
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration,
PAMI(47), No. 10, October 2025, pp. 8598-8612.
IEEE DOI 2510
Cognition, Benchmark testing, Visualization, Collaboration, Training, Linguistics, Adaptation models, Large language models, Grounding, reasoning BibRef

Guo, H.[Hao], Fan, W.[Wei], Wei, B.[Baichun], Zhu, J.F.[Jian-Fei], Tian, J.[Jin], Yi, C.Z.[Chun-Zhi], Jiang, F.[Feng],
AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding,
CirSysVideo(35), No. 10, October 2025, pp. 10238-10249.
IEEE DOI 2510
Visualization, Fingers, Accuracy, Grounding, Feature extraction, Training, Decoding, referring expression comprehension BibRef

Ke, J.C.[Jing-Cheng], Wen, J.[Jie], Wang, H.T.[Hui-Ting], Cheng, W.H.[Wen-Huang], Wang, J.[Jia],
Multi-Perspective Cross-Modal Object Encoding for Referring Expression Comprehension,
IP(34), 2025, pp. 6911-6924.
IEEE DOI Code:
WWW Link. 2511
Feature extraction, Visualization, Transformers, Detectors, Semantics, Encoding, Image coding, Grounding, Data mining, cross-modal calibrated semantic module BibRef

Li, J.[Jiangyun], Wen, Z.[Zhaokun], Zhang, Y.[Yisi], Wang, W.X.[Wen-Xuan], Cai, Y.X.[Yuan-Xiu], Zhang, T.X.[Tian-Xiang], He, X.J.[Xing-Jian], Liu, J.[Jing],
Generalized referring expression segmentation driven by instance-oriented queries,
PR(172), 2026, pp. 112524.
Elsevier DOI 2512
Generalized referring expression segmentation, Referring image segmentation, Multimodal BibRef

Liu, X.Y.[Xu-Yang], Liu, T.[Ting], Huang, S.[Siteng], Xin, Y.[Yi], Hu, Y.[Yue], Qin, L.[Long], Wang, D.L.[Dong-Lin], Wu, Y.Y.[Yuan-Yuan], Chen, H.G.[Hong-Gang],
M2IST: Multi-Modal Interactive Side-Tuning for Efficient Referring Expression Comprehension,
CirSysVideo(36), No. 2, February 2026, pp. 1341-1354.
IEEE DOI Code:
WWW Link. 2602
Graphics processing units, Transformers, Transfer learning, Memory management, Foundation models, Adaptation models, Proposals, referring expression comprehension BibRef

Li, R.F.[Rui-Fan], Lu, M.C.[Ming-Cong], Lin, P.Y.[Peng-Yue], Yu, Z.H.[Zhi-Han], Ma, Z.Y.[Zhan-Yu],
Improving Scene Knowledge Referring Expression Comprehension With Large Language Models,
MultMedMag(33), No. 1, January 2026, pp. 72-80.
IEEE DOI 2604
Cognition, Feature extraction, Annotations, Transformers, Complexity theory, Benchmark testing, Accuracy, Image analysis BibRef

Zhang, Z.[Zilun], Guan, Z.[Zian], Zhao, T.C.[Tian-Cheng], Shen, H.Z.[Hao-Zhan], Cai, Y.X.[Yu-Xiang], Su, Z.G.[Zhong-Gen], Shang, Y.H.[Yong-Heng], Liu, Z.J.[Zhao-Jun], Yin, J.W.[Jian-Wei], Li, X.[Xiang],
Geo-R1: Improving few-shot geospatial referring expression understanding with reinforcement fine-tuning,
PandRS(237), 2026, pp. 113-129.
Elsevier DOI Code:
WWW Link. 2605
Remote sensing vision-language model, Few-shot learning, Referring expression task BibRef

Cheng, W.X.[Wen-Xuan], Dai, M.[Ming], Yang, W.K.[Wan-Kou],
PLRVG: Progressive layer-wise refinement for visual grounding via deep-to-shallow decoding,
PR(179), 2026, pp. 113555.
Elsevier DOI 2606
Visual grounding, Referring expression comprehension, Multimodal comprehension, Attention guidance mechanism BibRef

Yang, F.[Fan], Zhu, Y.[Yousong], Zhan, Y.F.[Yu-Fei], Zhao, H.Y.[Hong-Yin], Li, X.[Xin], Wang, Y.W.[Yao-Wei], Tang, M.[Ming], Ning, X.[Xin], Wang, J.Q.[Jin-Qiao],
Seg-LLaVA: Empowering pixel-level understanding with large vision language model,
PR(179), 2026, pp. 113560.
Elsevier DOI 2606
Large language models, Segmentation, Referring expression segmentation, Polar coordinate adaptive BibRef

Wu, C.L.[Chang-Li], Chen, Q.[Qi], Ji, J.Y.[Jia-Yi], Liu, Y.H.[Yi-Hang], Ma, Y.W.[Yi-Wei], Sun, X.S.[Xiao-Shuai], Cao, L.J.[Liu-Juan],
3D-STMN++: Leveraging semantic proxies to enhance superpoint-text matching for 3D Referring Expression Segmentation,
PR(179), 2026, pp. 113854.
Elsevier DOI Code:
WWW Link. 2606
3D Referring Expression Segmentation, Superpoint-Text Matching, Dependency-Driven Interaction, Semantic proxy learning BibRef

Chen, J.[Jierun], Wei, F.Y.[Fang-Yun], Zhao, J.J.[Jin-Jing], Song, S.[Sizhe], Wu, B.H.[Bo-Huai], Peng, Z.X.[Zhuo-Xuan], Chan, S.H.G.[S.H. Gary], Zhang, H.Y.[Hong-Yang],
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models,
AIBench25(513-524)
IEEE DOI Code:
WWW Link. 2512
Vocabulary, Accuracy, Protocols, Annotations, Computational modeling, Noise, Manuals, Benchmark testing, Labeling BibRef

Wang, Z.C.[Zhi-Cheng], Pan, Z.Y.[Zhi-Yu], Peng, Z.[Zhan], Cheng, J.[Jian], Xiao, L.W.[Li-Wen], Jiang, W.[Wei], Cao, Z.G.[Zhi-Guo],
Exploring Contextual Attribute Density in Referring Expression Counting,
CVPR25(19587-19596)
IEEE DOI 2508
Measurement, Location awareness, Visualization, Solid modeling, Codes, Shape, Current measurement, Decoding, object counting, multi-modal localization BibRef

Chen, X.[Xiaofu], Luo, Y.X.[Ya-Xin], Luo, G.[Gen], Ji, J.Y.[Jia-Yi], Ding, H.H.[Heng-Hui], Zhou, Y.[Yiyi],
DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension,
CVPR25(14347-14357)
IEEE DOI Code:
WWW Link. 2508
Visualization, Source coding, Object detection, Benchmark testing, Routing, Feature extraction, weakly supervised, referring expression comprehension BibRef

Wang, S.J.[Shi-Jie], Kim, D.[Dahun], Taalimi, A.[Ali], Sun, C.[Chen], Kuo, W.C.[Wei-Cheng],
Learning Visual Grounding from Generative Vision and Language Model,
WACV25(8057-8067)
IEEE DOI 2505
Training, Visualization, Image segmentation, Grounding, Crops, Object detection, Linguistics, Benchmark testing, Data models, referring expression segmentation BibRef

Wu, T.Y.[Tung-Yu], Huang, S.Y.[Sheng-Yu], Wang, Y.C.A.F.[Yu-Chi-Ang Frank],
Data-Efficient 3D Visual Grounding via Order-Aware Referring,
WACV25(3107-3117)
IEEE DOI 2505
Training, Point cloud compression, Visualization, Grounding, Image color analysis, Natural languages, Benchmark testing, 3d 3d visual grounding BibRef

Chu, T.Y.[Ting-Yu], Lin, Y.X.[Yong-Xiang], Huang, C.C.[Ching-Chun], Hua, K.L.[Kai-Lung],
Enhancing Anchor-based Weakly Supervised Referring Expression Comprehension with Cross-modality Attention,
ACCV24(III: 131-147).
Springer DOI 2412
BibRef

Nag, S.[Sayan], Goswami, K.[Koustava], Karanam, S.[Srikrishna],
Safari: Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation,
ECCV24(XLIV: 485-503).
Springer DOI 2412
BibRef

Dai, S.Y.[Si-Yang], Liu, J.[Jun], Cheung, N.M.[Ngai-Man],
Referring Expression Counting,
CVPR24(16985-16995)
IEEE DOI Code:
WWW Link. 2410
Analytical models, Pedestrians, Codes, Computational modeling, Object detection, Benchmark testing, counting, object detection, vision-language model BibRef

Han, Z.[Zeyu], Zhu, F.R.[Fang-Rui], Lao, Q.[Qianru], Jiang, H.[Huaizu],
Zero-Shot Referring Expression Comprehension via Structural Similarity Between Images and Captions,
CVPR24(14364-14375)
IEEE DOI Code:
WWW Link. 2410
Training, Visualization, Codes, Grounding, Triples (Data structure), Soft sensors, Referring Expression Comprehension, Compositional Reasoning BibRef

Su, W.[Wei], Miao, P.H.[Pei-Han], Dou, H.Z.[Huan-Zhang], Li, X.[Xi],
ScanFormer: Referring Expression Comprehension by Iteratively Scanning,
CVPR24(13449-13458)
IEEE DOI 2410
Visualization, Accuracy, Computational modeling, Linguistics, Iterative methods, Dynamic Neural Networks BibRef

Yu, Z.H.[Zhi-Han], Li, R.[Ruifan],
Revisiting Counterfactual Problems in Referring Expression Comprehension,
CVPR24(13438-13448)
IEEE DOI Code:
WWW Link. 2410
Head, Codes, Attention mechanisms, Fuses, Contrastive learning, Bidirectional control, Vision and Language, Counterfactual Generation BibRef

Li, X.[Xiang], Qiu, K.[Kai], Wang, J.L.[Jing-Lu], Xu, X.H.[Xiao-Hao], Singh, R.[Rita], Yamazaki, K.[Kashu], Chen, H.[Hao], Huang, X.N.[Xiao-Nan], Raj, B.[Bhiksha],
R^2-Bench: Benchmarking the Robustness of Referring Perception Models Under Perturbations,
ECCV24(IX: 211-230).
Springer DOI 2412
BibRef

Chng, Y.X.[Yong Xien], Zheng, H.[Henry], Han, Y.Z.[Yi-Zeng], Qiu, X.[Xuchong], Huang, G.[Gao],
Mask Grounding for Referring Image Segmentation,
CVPR24(26563-26573)
IEEE DOI 2410
Training, Visualization, Image segmentation, Grounding, Magnetic resonance imaging, Benchmark testing BibRef

Shah, N.A.[Nisarg A.], VS, V.[Vibashan], Patel, V.M.[Vishal M.],
LQMFormer: Language-Aware Query Mask Transformer for Referring Image Segmentation,
CVPR24(12903-12913)
IEEE DOI 2410
Image segmentation, Visualization, Grounding, Computational modeling, Benchmark testing, Transformers, Multimodal BibRef

Wang, W.X.[Wen-Xuan], Yue, T.T.[Tong-Tian], Zhang, Y.[Yisi], Guo, L.T.[Long-Teng], He, X.J.[Xing-Jian], Wang, X.L.[Xin-Long], Liu, J.[Jing],
Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation,
CVPR24(12998-13008)
IEEE DOI Code:
WWW Link. 2410
Visualization, Image segmentation, Grounding, Natural languages, Manuals, Benchmark testing BibRef

Wu, Y.X.[Yi-Xuan], Zhang, Z.[Zhao], Xie, C.[Chi], Zhu, F.[Feng], Zhao, R.[Rui],
Advancing Referring Expression Segmentation Beyond Single Image,
ICCV23(2628-2638)
IEEE DOI Code:
WWW Link. 2401
BibRef

Kurita, S.[Shuhei], Katsura, N.[Naoki], Onami, E.[Eri],
RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D,
ICCV23(15168-15178)
IEEE DOI 2401
BibRef

Qiao, Y.Y.[Yan-Yuan], Qi, Y.K.[Yuan-Kai], Yu, Z.[Zheng], Liu, J.[Jing], Wu, Q.[Qi],
March in Chat: Interactive Prompting for Remote Embodied Referring Expression,
ICCV23(15712-15721)
IEEE DOI Code:
WWW Link. 2401
BibRef

Chen, Y.[Yitao], Du, R.[Ruoyi], Liang, K.M.[Kong-Ming], Ma, Z.Y.[Zhan-Yu],
Self-Enhanced Training Framework for Referring Expression Grounding,
ICIP23(3060-3064)
IEEE DOI Code:
WWW Link. 2312
BibRef

Sun, J.[Jiamu], Luo, G.[Gen], Zhou, Y.Y.[Yi-Yi], Sun, X.S.[Xiao-Shuai], Jiang, G.N.[Guan-Nan], Wang, Z.Y.[Zhi-Yu], Ji, R.R.[Rong-Rong],
RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension,
CVPR23(19144-19154)
IEEE DOI 2309
BibRef

Tang, J.J.[Jia-Jin], Zheng, G.[Ge], Shi, C.[Cheng], Yang, S.[Sibei],
Contrastive Grouping with Transformer for Referring Image Segmentation,
CVPR23(23570-23580)
IEEE DOI 2309
BibRef

Liu, J.[Jiang], Ding, H.[Hui], Cai, Z.W.[Zhao-Wei], Zhang, Y.T.[Yu-Ting], Satzoda, R.K.[Ravi Kumar], Mahadevan, V.[Vijay], Manmatha, R.,
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation,
CVPR23(18653-18663)
IEEE DOI 2309
BibRef

Xu, L.[Li], Huang, M.H.[Mark He], Shang, X.[Xindi], Yuan, Z.H.[Ze-Huan], Sun, Y.[Ying], Liu, J.[Jun],
Meta Compositional Referring Expression Segmentation,
CVPR23(19478-19487)
IEEE DOI 2309
BibRef

Liu, C.[Chang], Ding, H.H.[Heng-Hui], Jiang, X.D.[Xu-Dong],
GRES: Generalized Referring Expression Segmentation,
CVPR23(23592-23601)
IEEE DOI 2309
BibRef

Song, S.[Sijie], Lin, X.D.[Xu-Dong], Liu, J.Y.[Jia-Ying], Guo, Z.M.[Zong-Ming], Chang, S.F.[Shih-Fu],
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos,
CVPR21(1346-1355)
IEEE DOI 2111
Visualization, Correlation, Grounding, Computational modeling, Semantics, Benchmark testing BibRef

Sun, M.J.[Ming-Jie], Xiao, J.[Jimin], Lim, E.G.[Eng Gee],
Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning,
CVPR21(14055-14064)
IEEE DOI 2111
Art, Grounding, Reinforcement learning, Cognition, Proposals BibRef

Zhu, H.D.[Hai-Dong], Sadhu, A.[Arka], Zheng, Z.H.[Zhao-Heng], Nevatia, R.[Ram],
Utilizing Every Image Object for Semi-supervised Phrase Grounding,
WACV21(2209-2218)
IEEE DOI 2106
Localize an object in the image given a referring expression. Training, Grounding, Annotations, Detectors, Task analysis BibRef

Wang, P.[Peng], Wu, Q.[Qi], Cao, J.W.[Jie-Wei], Shen, C.H.[Chun-Hua], Gao, L.L.[Lian-Li], van den Hengel, A.J.[Anton J.],
Neighbourhood Watch: Referring Expression Comprehension via Language-Guided Graph Attention Networks,
CVPR19(1960-1968).
IEEE DOI 2002
BibRef

Tanaka, M., Itamochi, T., Narioka, K., Sato, I., Ushiku, Y., Harada, T.,
Generating Easy-to-Understand Referring Expressions for Target Identifications,
ICCV19(5793-5802)
IEEE DOI 2004
Code, Annotation.
WWW Link. computer games, image processing, referred objects, salient contexts, human annotation, Grand Theft Auto V, Task analysis BibRef

Yang, S.B.[Si-Bei], Li, G.B.[Guan-Bin], Yu, Y.Z.[Yi-Zhou],
Dynamic Graph Attention for Referring Expression Comprehension,
ICCV19(4643-4652)
IEEE DOI 2004
graph theory, image representation, inference mechanisms, learning (artificial intelligence), Object recognition BibRef

Zhang, H.W.[Han-Wang], Niu, Y.L.[Yu-Lei], Chang, S.F.[Shih-Fu],
Grounding Referring Expressions in Images by Variational Context,
CVPR18(4158-4166)
IEEE DOI 1812
Grounding, Context modeling, Task analysis, Visualization, Pediatrics, Bayes methods, Natural languages BibRef

Yu, L.C.[Li-Cheng], Lin, Z.[Zhe], Shen, X.H.[Xiao-Hui], Yang, J.M.[Ji-Mei], Lu, X.[Xin], Bansal, M.[Mohit], Berg, T.L.[Tamara L.],
MAttNet: Modular Attention Network for Referring Expression Comprehension,
CVPR18(1307-1315)
IEEE DOI 1812
Localize image region described by natural language expression. Visualization, Computational modeling, Task analysis, Cats, Adaptation models, Feature extraction, Knowledge discovery BibRef

Luo, R.[Ruotian], Shakhnarovich, G.[Gregory],
Comprehension-Guided Referring Expressions,
CVPR17(3125-3134)
IEEE DOI 1711
Context modeling, Generators, Training, Visualization BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
CLIP, Contrastive Language-Image Pre-Training .

Last update:Jul 11, 2026 at 11:55:55