20.4.3.3.19 Language Grounding

Chapter Contents (Back)
Grounding. Language Grounding.
See also Visual Grounding, Grounding Expressions.
See also Vision-Language Models, Language-Vision Models, VQA.
See also General Spatial Reasoning and Geometric Reasoning Issues, Visual Relations.

Wang, Y.C.[Yue-Chen], Deng, J.J.[Jia-Jun], Zhou, W.G.[Wen-Gang], Li, H.Q.[Hou-Qiang],
Weakly Supervised Temporal Adjacent Network for Language Grounding,
MultMed(24), 2022, pp. 3276-3286.
IEEE DOI 2207
Grounding, Semantics, Feature extraction, Visualization, Task analysis, Annotations, Training, Temporal language grounding, multiple instance learning BibRef

Tang, H.Y.[Hao-Yu], Zhu, J.[Jihua], Wang, L.[Lin], Zheng, Q.H.[Qing-Hai], Zhang, T.W.[Tian-Wei],
Multi-Level Query Interaction for Temporal Language Grounding,
ITS(23), No. 12, December 2022, pp. 25479-25488.
IEEE DOI 2212
Semantics, Task analysis, Grounding, Proposals, Syntactics, Location awareness, Feature extraction, Human-machine interface, multi-level interaction BibRef

Zeng, Y.W.[Ya-Wen], Han, N.[Ning], Pan, K.Y.[Ke-Yu], Jin, Q.[Qin],
Temporally Language Grounding With Multi-Modal Multi-Prompt Tuning,
MultMed(26), 2024, pp. 3366-3377.
IEEE DOI 2402
Task analysis, Grounding, Transformers, Tuning, Visualization, Semantics, Robustness, Temporally language grounding, multi-modal understanding BibRef

Zhang, T.[Tong], Lu, X.K.[Xian-Kai], Zhang, H.[Hao], Nie, X.S.[Xiu-Shan], Yin, Y.L.[Yi-Long], Shen, J.B.[Jian-Bing],
Relational Network via Cascade CRF for Video Language Grounding,
MultMed(26), 2024, pp. 8297-8311.
IEEE DOI 2408
Proposals, Task analysis, Grounding, Semantics, Conditional random fields, Location awareness, Indexes, proposal free BibRef

Dong, J.X.[Jian-Xiang], Yin, Z.Z.[Zhao-Zheng],
Annotation-Efficient Hybrid Learning for Temporal Sentence Grounding,
CirSysVideo(36), No. 2, February 2026, pp. 2594-2606.
IEEE DOI Code:
WWW Link. 2602
Annotations, Grounding, Videos, Proposals, Semisupervised learning, Costs, Active learning, Training, Contrastive learning, Data models, weakly semi-supervised learning BibRef

Shen, S.[Sitian], Zhu, Z.[Zilin], Fan, L.Q.[Lin-Qian], Zhang, H.[Harry], Wu, X.X.[Xin-Xiao],
DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification,
WACV24(3584-3593)
IEEE DOI 2404
Point cloud compression, Training, Solid modeling, Visualization, Computational modeling, Algorithms, 3D computer vision, Algorithms, Vision + language and/or other modalities BibRef

Dong, P.J.[Pei-Jie], Yang, X.F.[Xiao-Fei], Wang, Q.[Qiang], Li, Z.X.[Zhi-Xu], Li, T.[Tiefeng], Chu, X.W.[Xiao-Wen],
Multi-task Domain Adaptation for Language Grounding with 3d Objects,
ECCV24(XXXIV: 387-404).
Springer DOI 2412
BibRef

Hegde, D.[Deepti], Valanarasu, J.M.J.[Jeya Maria Jose], Patel, V.M.[Vishal M.],
CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition,
OpenSUN3D(2020-2030)
IEEE DOI Code:
WWW Link. 2401
BibRef

Jain, A.[Ayush], Gkanatsios, N.[Nikolaos], Mediratta, I.[Ishita], Fragkiadaki, K.[Katerina],
Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds,
ECCV22(XXXVI:417-433).
Springer DOI 2211
BibRef

Heisler, M.[Morgan], Banitalebi-Dehkordi, A.[Amin], Zhang, Y.[Yong],
SemAug: Semantically Meaningful Image Augmentations for Object Detection Through Language Grounding,
ECCV22(XXXVI:610-626).
Springer DOI 2211
BibRef

Soldan, M.[Mattia], Pardo, A.[Alejandro], Alcázar, J.L.[Juan León], Heilbron, F.C.[Fabian Caba], Zhao, C.[Chen], Giancola, S.[Silvio], Ghanem, B.[Bernard],
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions,
CVPR22(5016-5025)
IEEE DOI 2210
Grounding, Annotations, Pipelines, Natural languages, Machine learning, Benchmark testing, Vision + language, Video analysis and understanding BibRef

Prabhudesai, M.[Mihir], Tung, H.Y.F.[Hsiao-Yu Fish], Javed, S.A.[Syed Ashar], Sieb, M.[Maximilian], Harley, A.W.[Adam W.], Fragkiadaki, K.[Katerina],
Embodied Language Grounding With 3D Visual Feature Representations,
CVPR20(2217-2226)
IEEE DOI 2008
Associating language utterances to 3D visual abstractions. Visualization, Cameras, Feature extraction, Detectors, Solid modeling BibRef

Bajaj, M., Wang, L., Sigal, L.,
G3raphGround: Graph-Based Language Grounding,
ICCV19(4280-4289)
IEEE DOI 2004
graph theory, image capture, image representation, image segmentation, natural language processing, neural nets, Encoding BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Large Language Models and Visual Grounding .

Last update:Jul 11, 2026 at 11:55:55