Keith Price Bibliography Bibtex Entry (ANCHOR 237600 URL http://dx.doi.org/10.1109/CVPR52688.2022.00359 TYPE CONFERENCE PAGES 3595-3604 YEAR 2022 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232565 VOLUME NIL JOURNAL CVPR22 AUTHOR Yu, W. and Chen, W.X. and Yin, S. and Easterbrook, S. and Garg, A. TITLE Modular Action Concept Grounding in Semantic Video Prediction)


@inproceedings{bb237600,
        AUTHOR = "Yu, W. and Chen, W.X. and Yin, S. and Easterbrook, S. and Garg, A.",
        TITLE = "Modular Action Concept Grounding in Semantic Video Prediction",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "3595-3604",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232565"}

@inproceedings{bb237601,
        AUTHOR = "Soldan, M. and Pardo, A. and Alcazar, J.L. and Heilbron, F.C. and Zhao, C. and Giancola, S. and Ghanem, B.",
        TITLE = "MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "5016-5025",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232566"}

@inproceedings{bb237602,
        AUTHOR = "Yang, L. and Xu, Y. and Yuan, C.F. and Liu, W. and Li, B. and Hu, W.M.",
        TITLE = "Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "9489-9498",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232567"}

@inproceedings{bb237603,
        AUTHOR = "Li, L.H. and Zhang, P.C. and Zhang, H.T. and Yang, J.W. and Li, C.Y. and Zhong, Y. and Wang, L.J. and Yuan, L. and Zhang, L. and Hwang, J.N. and Chang, K.W. and Gao, J.F.",
        TITLE = "Grounded Language-Image Pre-training",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "10955-10965",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232568"}

@inproceedings{bb237604,
        AUTHOR = "Yang, Z.Y. and Zhang, S.Y. and Wang, L.W. and Luo, J.B.",
        TITLE = "SAT: 2D Semantics Assisted Training for 3D Visual Grounding",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1836-1846",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232569"}

@inproceedings{bb237605,
        AUTHOR = "Chen, J.W. and Golisano, Y.K.",
        TITLE = "Explainable Video Entailment with Grounded Visual Evidence",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "2001-2010",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232570"}

@inproceedings{bb237606,
        AUTHOR = "Zhao, L.C. and Cai, D. and Sheng, L. and Xu, D.",
        TITLE = "3DVG-Transformer: Relation Modeling for Visual Grounding on Point
Clouds",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "2908-2917",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232571"}

@inproceedings{bb237607,
        AUTHOR = "Feng, M.T. and Li, Z. and Li, Q. and Zhang, L. and Zhang, X.D. and Zhu, G.M. and Zhang, H. and Wang, Y.N. and Mian, A.",
        TITLE = "Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "3702-3711",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232572"}

@inproceedings{bb237608,
        AUTHOR = "Ding, X.P. and Wang, N.N. and Zhang, S.W. and Cheng, D. and Li, X.M. and Huang, Z.Y. and Tang, M.Q. and Gao, X.B.",
        TITLE = "Support-Set Based Cross-Supervision for Video Grounding",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "11553-11562",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232573"}

@inproceedings{bb237609,
        AUTHOR = "Khandelwal, S. and Suhail, M. and Sigal, L.",
        TITLE = "Segmentation-grounded Scene Graph Generation",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "15859-15869",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232574"}

@inproceedings{bb237610,
        AUTHOR = "Patel, S. and Wani, S. and Jain, U. and Schwing, A. and Lazebnik, S. and Savva, M. and Chang, A.X.",
        TITLE = "Interpretation of Emergent Communication in Heterogeneous
Collaborative Embodied Agents",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "15993-15943",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232575"}

@inproceedings{bb237611,
        AUTHOR = "Shi, J. and Zhong, Y. and Xu, N. and Li, Y. and Xu, C.L.",
        TITLE = "A Simple Baseline for Weakly-Supervised Scene Graph Generation",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "16373-16382",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232576"}

@inproceedings{bb237612,
        AUTHOR = "Su, R. and Yu, Q. and Xu, D.",
        TITLE = "STVGBert: A Visual-linguistic Transformer based Framework for
Spatio-temporal Video Grounding",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1513-1522",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232577"}

@inproceedings{bb237613,
        AUTHOR = "Cui, C.Y.Q. and Khandelwal, A. and Artzi, Y. and Snavely, N. and Averbuch Elor, H.",
        TITLE = "Who's Waldo? Linking People Across Text and Images",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1354-1364",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232578"}

@inproceedings{bb237614,
        AUTHOR = "Gonzalez, C. and Ayobi, N. and Hernandez, I. and Hernandez, J. and Pont Tuset, J. and Arbelaez, P.",
        TITLE = "Panoptic Narrative Grounding",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1344-1353",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232579"}

@inproceedings{bb237615,
        AUTHOR = "Hong, Y. and Li, Q. and Zhu, S.C. and Huang, S.Y.",
        TITLE = "VLGrammar: Grounded Grammar Induction of Vision and Language",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1645-1654",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232580"}

@inproceedings{bb237616,
        AUTHOR = "Yuan, Z.H. and Yan, X. and Liao, Y.H. and Zhang, R.M. and Wang, S. and Li, Z. and Cui, S.G.",
        TITLE = "InstanceRefer: Cooperative Holistic Understanding for Visual
Grounding on Point Clouds through Instance Multi-level Contextual
Referring",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1771-1780",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232581"}

@inproceedings{bb237617,
        AUTHOR = "Soldan, M. and Xu, M.M. and Qu, S. and Tegner, J. and Ghanem, B.",
        TITLE = "VLG-Net: Video-Language Graph Matching Network for Video Grounding",
        BOOKTITLE = CVEU21,
        YEAR = "2021",
        PAGES = "3217-3227",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232582"}

@inproceedings{bb237618,
        AUTHOR = "Tian, Y.P. and Hu, D. and Xu, C.L.",
        TITLE = "Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "2744-2753",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232583"}

@inproceedings{bb237619,
        AUTHOR = "Nan, G.S. and Qiao, R. and Xiao, Y. and Liu, J. and Leng, S.C. and Zhang, H. and Lu, W.",
        TITLE = "Interventional Video Grounding with Dual Contrastive Learning",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "2764-2774",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232584"}

@inproceedings{bb237620,
        AUTHOR = "Zhao, Y. and Zhao, Z. and Zhang, Z. and Lin, Z.J.",
        TITLE = "Cascaded Prediction Network via Segment Tree for Temporal Video
Grounding",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "4195-4204",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232585"}

@inproceedings{bb237621,
        AUTHOR = "Liu, H.L. and Lin, A. and Han, X.G. and Yang, L. and Yu, Y.Z. and Cui, S.G.",
        TITLE = "Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in
RGBD Images",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "6028-6037",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232586"}

@inproceedings{bb237622,
        AUTHOR = "Lin, X.R. and Li, G.B. and Yu, Y.Z.",
        TITLE = "Scene-Intuitive Agent for Remote Embodied Visual Grounding",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "7032-7041",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232587"}

@inproceedings{bb237623,
        AUTHOR = "Liu, D.Z. and Qu, X.Y. and Dong, J.F. and Zhou, P. and Cheng, Y. and Wei, W. and Xu, Z. and Xie, Y.",
        TITLE = "Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "11230-11239",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232588"}

@inproceedings{bb237624,
        AUTHOR = "Meng, Z.H. and Yu, L.C. and Zhang, N. and Berg, T. and Damavandi, B. and Singh, V. and Bearman, A.",
        TITLE = "Connecting What to Say With Where to Look by Modeling Human Attention
Traces",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "12674-12683",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232589"}

@inproceedings{bb237625,
        AUTHOR = "Wang, L.W. and Huang, J. and Li, Y. and Xu, K. and Yang, Z.Y. and Yu, D.",
        TITLE = "Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "14085-14095",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232590"}

@inproceedings{bb237626,
        AUTHOR = "Huang, B.B. and Lian, D.Z. and Luo, W.X. and Gao, S.H.",
        TITLE = "Look Before You Leap:
Learning Landmark Features for One-Stage Visual Grounding",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "16883-16892",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232591"}

@inproceedings{bb237627,
        AUTHOR = "Zhou, H. and Zhang, C.Y. and Luo, Y. and Chen, Y.J. and Hu, C.P.",
        TITLE = "Embracing Uncertainty: Decoupling and De-bias for Robust Temporal
Grounding",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "8441-8450",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232592"}

@inproceedings{bb237628,
        AUTHOR = "Zhang, S.Y. and Jiang, T. and Wang, T. and Kuang, K. and Zhao, Z. and Zhu, J. and Yu, J. and Yang, H.X. and Wu, F.",
        TITLE = "DeVLBert: Out-of-distribution Visio-Linguistic Pretraining with
Causality",
        BOOKTITLE = CiV21,
        YEAR = "2021",
        PAGES = "1744-1747",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232593"}

@inproceedings{bb237629,
        AUTHOR = "Nguyen, A.T. and Richards, L.E. and Kebe, G.Y. and Raff, E. and Darvish, K. and Ferraro, F. and Matuszek, C.",
        TITLE = "Practical Cross-modal Manifold Alignment for Robotic Grounded
Language Learning",
        BOOKTITLE = MULA21,
        YEAR = "2021",
        PAGES = "1613-1622",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232594"}

@inproceedings{bb237630,
        AUTHOR = "Shrestha, A. and Pugdeethosapol, K. and Fang, H.W. and Qiu, Q.R.",
        TITLE = "MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level",
        BOOKTITLE = ICPR21,
        YEAR = "2021",
        PAGES = "8275-8282",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232595"}

@inproceedings{bb237631,
        AUTHOR = "Koh, J.Y. and Baldridge, J. and Lee, H.L. and Yang, Y.F.",
        TITLE = "Text-to-Image Generation Grounded by Fine-Grained User Attention",
        BOOKTITLE = WACV21,
        YEAR = "2021",
        PAGES = "237-246",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232596"}

@inproceedings{bb237632,
        AUTHOR = "Zhang, Z. and Zhao, Z. and Zhao, Y. and Wang, Q. and Liu, H. and Gao, L.",
        TITLE = "Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10665-10674",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232597"}

@inproceedings{bb237633,
        AUTHOR = "Sadhu, A. and Chen, K. and Nevatia, R.",
        TITLE = "Video Object Grounding Using Semantic Roles in Language Description",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10414-10424",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232598"}

@inproceedings{bb237634,
        AUTHOR = "Ma, C.Y. and Kalantidis, Y. and AlRegib, G. and Vajda, P. and Rohrbach, M. and Kira, Z.",
        TITLE = "Learning to Generate Grounded Visual Captions Without Localization
Supervision",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XVIII:353-370",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232599"}

@inproceedings{bb237635,
        AUTHOR = "Zeng, R.H. and Xu, H.M. and Huang, W.B. and Chen, P.H. and Tan, M.K. and Gan, C.",
        TITLE = "Dense Regression Network for Video Grounding",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10284-10293",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232600"}

@inproceedings{bb237636,
        AUTHOR = "Gupta, T. and Vahdat, A. and Chechik, G. and Yang, X.D. and Kautz, J. and Hoiem, D.",
        TITLE = "Contrastive Learning for Weakly Supervised Phrase Grounding",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "III:752-768",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232601"}

@inproceedings{bb237637,
        AUTHOR = "Yang, S. and Li, G.B. and Yu, Y.Z.",
        TITLE = "Propagating Over Phrase Relations for One-stage Visual Grounding",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XIX:589-605",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232602"}

@inproceedings{bb237638,
        AUTHOR = "Xiao, J.B. and Shang, X. and Yang, X. and Tang, S. and Chua, T.S.",
        TITLE = "Visual Relation Grounding in Videos",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "VI:447-464",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232603"}

@inproceedings{bb237639,
        AUTHOR = "Mun, J. and Cho, M. and Han, B.",
        TITLE = "Local-Global Video-Text Interactions for Temporal Grounding",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10807-10816",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232604"}

@inproceedings{bb237640,
        AUTHOR = "Wu, C. and Lin, Z. and Cohen, S. and Bui, T. and Maji, S.",
        TITLE = "PhraseCut: Language-Based Image Segmentation in the Wild",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10213-10222",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232605"}

@inproceedings{bb237641,
        AUTHOR = "Chen, L. and Zhai, M.Y. and He, J.W. and Mori, G.",
        TITLE = "Object Grounding via Iterative Context Reasoning",
        BOOKTITLE = MDALC19,
        YEAR = "2019",
        PAGES = "1407-1415",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232606"}

@inproceedings{bb237642,
        AUTHOR = "Sinha, A. and Akilesh, B. and Sarkar, M. and Krishnamurthy, B.",
        TITLE = "Attention Based Natural Language Grounding by Navigating Virtual
Environment",
        BOOKTITLE = WACV19,
        YEAR = "2019",
        PAGES = "236-244",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232607"}

@inproceedings{bb237643,
        AUTHOR = "Shi, J. and Xu, J. and Gong, B.Q. and Xu, C.L.",
        TITLE = "Not All Frames Are Equal: Weakly-Supervised Video Grounding With
Contextual Similarity and Visual Clustering Losses",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "10436-10444",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232608"}

@inproceedings{bb237644,
        AUTHOR = "Datta, S. and Sikka, K. and Roy, A. and Ahuja, K. and Parikh, D. and Divakaran, A.",
        TITLE = "Align2Ground: Weakly Supervised Phrase Grounding Guided by
Image-Caption Alignment",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "2601-2610",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232609"}

@inproceedings{bb237645,
        AUTHOR = "Fang, Z.Y. and Kong, S. and Fowlkes, C.C. and Yang, Y.Z.",
        TITLE = "Modularized Textual Grounding for Counterfactual Resilience",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "6371-6381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232610"}

@inproceedings{bb237646,
        AUTHOR = "Zhuang, B. and Wu, Q. and Shen, C. and Reid, I.D. and van den Hengel, A.J.",
        TITLE = "Parallel Attention: A Unified Framework for Visual Object Discovery
Through Dialogs and Queries",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "4252-4261",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232611"}

@inproceedings{bb237647,
        AUTHOR = "Yang, Z.Y. and Chen, T.L. and Wang, L.W. and Luo, J.B.",
        TITLE = "Improving One-Stage Visual Grounding by Recursive Sub-query
Construction",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XIV:387-404",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232612"}

@inproceedings{bb237648,
        AUTHOR = "Liu, D.Q. and Zhang, H.W. and Zha, Z.J. and Wu, F.",
        TITLE = "Learning to Assemble Neural Module Tree Networks for Visual Grounding",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "4672-4681",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232613"}

@inproceedings{bb237649,
        AUTHOR = "Sadhu, A. and Chen, K. and Nevatia, R.",
        TITLE = "Zero-Shot Grounding of Objects From Natural Language Queries",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "4693-4702",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232614"}

@inproceedings{bb237650,
        AUTHOR = "Yang, Z.Y. and Gong, B.Q. and Wang, L.W. and Huang, W.B. and Yu, D. and Luo, J.B.",
        TITLE = "A Fast and Accurate One-Stage Approach to Visual Grounding",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "4682-4692",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232615"}

@inproceedings{bb237651,
        AUTHOR = "Rohrbach, A. and Rohrbach, M. and Tang, S. and Oh, S.J. and Schiele, B.",
        TITLE = "Generating Descriptions with Grounded and Co-referenced People",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "4196-4206",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232616"}

@inproceedings{bb237652,
        AUTHOR = "Zhu, Y. and Kiros, R. and Zemel, R. and Salakhutdinov, R. and Urtasun, R. and Torralba, A.B. and Fidler, S.",
        TITLE = "Aligning Books and Movies: Towards Story-Like Visual Explanations by
Watching Movies and Reading Books",
        BOOKTITLE = ICCV15,
        YEAR = "2015",
        PAGES = "19-27",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgr2.html#TT232617"}

@article{bb237653,
        AUTHOR = "Chen, Z.X. and Bie, Y. and Jin, H.B. and Chen, H.",
        TITLE = "Large Language Model With Region-Guided Referring and Grounding for
CT Report Generation",
        JOURNAL = MedImg,
        VOLUME = "44",
        YEAR = "2025",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "3139-3150",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232618"}

@article{bb237654,
        AUTHOR = "Liu, Y. and Hou, H.W. and Ma, F. and Ni, S.G. and Yu, F.R.",
        TITLE = "MLLM-TA: Leveraging Multimodal Large Language Models for Precise
Temporal Video Grounding\\",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "281-285",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232619"}

@article{bb237655,
        AUTHOR = "Li, G.Z. and Ding, X.P. and Cheng, D. and Li, J. and Wang, N.N. and Gao, X.B.",
        TITLE = "ETC: Temporal Boundary Expand Then Clarify for Weakly Supervised
Video Grounding With Multimodal Large Language Model",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "1772-1782",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232620"}

@inproceedings{bb237656,
        AUTHOR = "Gao, J. and Li, Y.Q. and Cao, Z.Q. and Li, W.J.",
        TITLE = "Interleaved-Modal Chain-of-Thought",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19520-19529",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232621"}

@inproceedings{bb237657,
        AUTHOR = "Yu, C.L. and Wang, H.Q. and Shi, Y. and Luo, H.Y. and Yang, S. and Yu, J.Y. and Wang, J.Y.",
        TITLE = "SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large
Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "1691-1701",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232622"}

@inproceedings{bb237658,
        AUTHOR = "Huang, Y. and Gao, T.Y. and Xu, H.R. and Zhao, Q.H. and Song, Y. and Gui, Z.P. and Lv, T.C. and Chen, H. and Cui, L. and Li, S. and Wei, F.",
        TITLE = "PEACE: Empowering Geologic Map Holistic Understanding with MLLMs",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3899-3908",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232623"}

@inproceedings{bb237659,
        AUTHOR = "Chen, W.B. and Xu, Z. and Xu, R. and Wu, S. and Wong, H.S.",
        TITLE = "Task-aware Cross-modal Feature Refinement Transformer with Large
Language Models for Visual Grounding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3931-3941",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232624"}

@inproceedings{bb237660,
        AUTHOR = "Wu, S. and Jin, S. and Zhang, W.W. and Xu, L. and Liu, W.T. and Li, W. and Loy, C.C.",
        TITLE = "F-LMM: Grounding Frozen Large Multimodal Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24710-24721",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232625"}

@inproceedings{bb237661,
        AUTHOR = "Qian, R. and Yin, X. and Dou, D.",
        TITLE = "Reasoning to Attend: Try to Understand How  Token Works",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24722-24731",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232626"}

@inproceedings{bb237662,
        AUTHOR = "Chen, Y.Y. and Xu, D.X. and Huang, Y. and Zhan, S.K. and Wang, H. and Chen, D.X. and Wang, X.P. and Qiu, M.K. and Li, H.",
        TITLE = "MIMO: A medical vision language model with visual referring
multimodal input and pixel grounding multimodal output",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24732-24741",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232627"}

@inproceedings{bb237663,
        AUTHOR = "Huang, H.F. and Chen, X. and Chen, Y.L. and Li, H. and Han, X. and Wang, Z. and Wang, T. and Pang, J.M. and Zhao, Z.",
        TITLE = "RoboGround: Robotic Manipulation with Grounded Vision-Language Priors",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "22540-22550",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232628"}

@inproceedings{bb237664,
        AUTHOR = "Man, Y.Z. and Huang, D.A. and Liu, G.L. and Sheng, S.W. and Liu, S.L. and Gui, L.Y. and Kautz, J. and Wang, Y.X. and Yu, Z.",
        TITLE = "Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14268-14280",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232629"}

@inproceedings{bb237665,
        AUTHOR = "Yin, H. and Ren, Y.Q. and Yan, K. and Ding, S.H. and Hao, Y.T.",
        TITLE = "ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large
Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14358-14368",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232630"}

@inproceedings{bb237666,
        AUTHOR = "Liao, Y.H. and Mahmood, R. and Fidler, S. and Acuna, D.",
        TITLE = "Can Large Vision-Language Models Correct Semantic Grounding Errors By
Themselves?",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14667-14678",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232631"}

@inproceedings{bb237667,
        AUTHOR = "Yuan, Z.H. and Peng, Y. and Ren, J. and Liao, Y.H. and Han, Y. and Feng, C.M. and Zhao, H.S. and Li, G.B. and Cui, S.G. and Li, Z.",
        TITLE = "Empowering Large Language Models with 3D Situation Awareness",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19435-19445",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232632"}

@inproceedings{bb237668,
        AUTHOR = "Kang, S. and Kim, J. and Kim, J. and Hwang, S.J.",
        TITLE = "Your Large Vision-Language Model Only Needs A Few Attention Heads For
Visual Grounding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9339-9350",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232633"}

@inproceedings{bb237669,
        AUTHOR = "Liu, Q.Y. and Zhang, S.Q. and Qiao, Y.Y. and Zhu, J.Y. and Li, X. and Guo, L.T. and Wang, Q. and He, X.J. and Wu, Q. and Liu, J.",
        TITLE = "GroundingMate: Aiding Object Grounding for Goal-Oriented
Vision-and-Language Navigation",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "1775-1784",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232634"}

@inproceedings{bb237670,
        AUTHOR = "Yan, S. and Bai, M. and Chen, W.F. and Zhou, X. and Huang, Q.X. and Li, L.E.",
        TITLE = "Vigor: Improving Visual Grounding of Large Vision Language Models with
Fine-grained Reward Modeling",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXI: 37-53",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232635"}

@inproceedings{bb237671,
        AUTHOR = "Chowdhury, S. and Nag, S. and Dasgupta, S. and Chen, J. and Elhoseiny, M. and Gao, R.H. and Manocha, D.",
        TITLE = "Meerkat: Audio-visual Large Language Model for Grounding in Space and
Time",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXIV: 52-70",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232636"}

@inproceedings{bb237672,
        AUTHOR = "Kuckreja, K. and Danish, M.S. and Naseer, M. and Das, A. and Khan, S. and Khan, F.S.",
        TITLE = "GeoChat: Grounded Large Vision-Language Model for Remote Sensing",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27831-27840",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232637"}

@inproceedings{bb237673,
        AUTHOR = "Song, C.H. and Sadler, B.M. and Wu, J. and Chao, W.L. and Washington, C. and Su, Y.",
        TITLE = "LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with
Large Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2986-2997",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232638"}

@inproceedings{bb237674,
        AUTHOR = "You, K. and Zhang, H.T. and Schoop, E. and Weers, F. and Swearngin, A. and Nichols, J. and Yang, Y.F. and Gan, Z.",
        TITLE = "FERRET-UI: Grounded Mobile UI Understanding with Multimodal LLMs",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXIV: 240-255",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232639"}

@inproceedings{bb237675,
        AUTHOR = "Tong, S.B. and Liu, Z. and Zhai, Y.X. and Ma, Y. and LeCun, Y. and Xie, S.",
        TITLE = "Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "9568-9578",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232640"}

@inproceedings{bb237676,
        AUTHOR = "Xu, J.R. and Zhou, X.Y. and Yan, S. and Gu, X. and Arnab, A. and Sun, C. and Wang, X.L. and Schmid, C.",
        TITLE = "Pixel Aligned Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13030-13039",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232641"}

@inproceedings{bb237677,
        AUTHOR = "Wu, P.H. and Xie, S.",
        TITLE = "V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13084-13094",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232642"}

@inproceedings{bb237678,
        AUTHOR = "He, R. and Cascante Bonilla, P. and Yang, Z.Y. and Berg, A.C. and Ordonez, V.",
        TITLE = "Improved Visual Grounding through Self-Consistent Explanations",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13095-13105",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232643"}

@inproceedings{bb237679,
        AUTHOR = "Feng, C. and Hsu, J. and Liu, W.Y. and Wu, J.J.",
        TITLE = "Naturally Supervised 3D Visual Grounding with Language-Regularized
Concept Learners",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13269-13278",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232644"}

@inproceedings{bb237680,
        AUTHOR = "He, J.W. and Wang, Y.F. and Wang, L.J. and Lu, H.C. and He, J.Y. and Lan, J.P. and Luo, B. and Xie, X.",
        TITLE = "Multi-Modal Instruction Tuned LLMs with Fine-Grained Visual
Perception",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13980-13990",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232645"}

@inproceedings{bb237681,
        AUTHOR = "Yuan, Z.H. and Ren, J. and Feng, C.M. and Zhao, H.S. and Cui, S.G. and Li, Z.",
        TITLE = "Visual Programming for Zero-Shot Open-Vocabulary 3D Visual Grounding",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "20623-20633",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232646"}

@inproceedings{bb237682,
        AUTHOR = "Chen, G. and Shen, L. and Shao, R. and Deng, X. and Nie, L.Q.",
        TITLE = "LION: Empowering Multimodal Large Language Model with Dual-Level
Visual Knowledge",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26530-26540",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232647"}

@inproceedings{bb237683,
        AUTHOR = "Qu, M.X. and Chen, X.D. and Liu, W. and Li, A. and Zhao, Y.",
        TITLE = "ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large
Language Models",
        BOOKTITLE = PVUW24,
        YEAR = "2024",
        PAGES = "1847-1856",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232648"}

@inproceedings{bb237684,
        AUTHOR = "Zhang, Y. and Ma, Z.Q. and Gao, X.F. and Shakiah, S. and Gao, Q. and Chai, J.",
        TITLE = "Groundhog Grounding Large Language Models to Holistic Segmentation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14227-14238",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232649"}

@inproceedings{bb237685,
        AUTHOR = "Kim, K. and Yoon, K. and Jeon, J. and In, Y. and Moon, J. and Kim, D.H. and Park, C.",
        TITLE = "LLM4SGG: Large Language Models for Weakly Supervised Scene Graph
Generation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28306-28316",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmgr4.html#TT232650"}

@article{bb237686,
        AUTHOR = "Liang, J.W. and Jiang, L. and Cao, L.L. and Kalantidis, Y. and Li, L.J. and Hauptmann, A.G.",
        TITLE = "Focal Visual-Text Attention for Memex Question Answering",
        JOURNAL = PAMI,
        VOLUME = "41",
        YEAR = "2019",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "1893-1908",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232652"}

@inproceedings{bb237687,
        AUTHOR = "Liang, J.W. and Jiang, L. and Cao, L.L. and Li, L.J. and Hauptmann, A.G.",
        TITLE = "Focal Visual-Text Attention for Visual Question Answering",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "6135-6143",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232653"}

@article{bb237688,
        AUTHOR = "Riquelme, F. and de Goyeneche, A. and Zhang, Y.D. and Niebles, J.C. and Soto, A.",
        TITLE = "Explaining VQA predictions using visual grounding and a knowledge
base",
        JOURNAL = IVC,
        VOLUME = "101",
        YEAR = "2020",
        PAGES = "103968",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232654"}

@article{bb237689,
        AUTHOR = "Plummer, B.A. and Shih, K.J. and Li, Y.C. and Xu, K. and Lazebnik, S. and Sclaroff, S. and Saenko, K.",
        TITLE = "Revisiting Image-Language Networks for Open-Ended Phrase Detection",
        JOURNAL = PAMI,
        VOLUME = "44",
        YEAR = "2022",
        NUMBER = "4",
        MONTH = "April",
        PAGES = "2155-2167",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232655"}

@inproceedings{bb237690,
        AUTHOR = "Burns, A. and Tan, R. and Saenko, K. and Sclaroff, S. and Plummer, B.A.",
        TITLE = "Language Features Matter: Effective Language Representations for
Vision-Language Tasks",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "7473-7482",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232656"}

@inproceedings{bb237691,
        AUTHOR = "Arbelle, A. and Doveh, S. and Alfassy, A. and Shtok, J. and Lev, G. and Schwartz, E. and Kuehne, H. and Levi, H.B. and Sattigeri, P. and Panda, R. and Chen, C.F. and Bronstein, A.M. and Saenko, K. and Ullman, S. and Giryes, R. and Feris, R.S. and Karlinsky, L.",
        TITLE = "Detector-Free Weakly Supervised Grounding by Separation",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1781-1792",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232657"}

@inproceedings{bb237692,
        AUTHOR = "Whitehead, S. and Wu, H. and Ji, H. and Feris, R.S. and Saenko, K.",
        TITLE = "Separating Skills and Concepts for Novel Visual Question Answering",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "5628-5637",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232658"}

@article{bb237693,
        AUTHOR = "Zhao, L.C. and Cai, D.G. and Zhang, J. and Sheng, L. and Xu, D. and Zheng, R. and Zhao, Y.J. and Wang, L.P. and Fan, X.",
        TITLE = "Toward Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline",
        JOURNAL = CirSysVideo,
        VOLUME = "33",
        YEAR = "2023",
        NUMBER = "6",
        MONTH = "June",
        PAGES = "2935-2949",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232659"}

@article{bb237694,
        AUTHOR = "Zhu, L.J. and Peng, L. and Zhou, W.N. and Yang, J.L.",
        TITLE = "Dual-decoder transformer network for answer grounding in visual
question answering",
        JOURNAL = PRL,
        VOLUME = "171",
        YEAR = "2023",
        PAGES = "53-60",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232660"}

@article{bb237695,
        AUTHOR = "Li, Y.C. and Wang, X. and Xiao, J.B. and Ji, W. and Chua, T.S.",
        TITLE = "Transformer-Empowered Invariant Grounding for Video Question
Answering",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "9510-9522",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232661"}

@inproceedings{bb237696,
        AUTHOR = "Li, Y.C. and Wang, X. and Xiao, J.B. and Ji, W. and Chua, T.S.",
        TITLE = "Invariant Grounding for Video Question Answering",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "2918-2927",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232662"}

@inproceedings{bb237697,
        AUTHOR = "Huang, J.Y. and Jia, B.X. and Wang, Y. and Zhu, Z.Y. and Linghu, X.K. and Li, Q. and Zhu, S.C. and Huang, S.Y.",
        TITLE = "Unveiling the Mist over 3D Vision-Language Understanding:
Object-centric Evaluation with Chain-of-Analysis",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24570-24581",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232663"}

@inproceedings{bb237698,
        AUTHOR = "Chen, K. and Wu, X.Q.",
        TITLE = "VTQA: Visual Text Question Answering via Entity Alignment and
Cross-Media Reasoning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27208-27217",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232664"}

@inproceedings{bb237699,
        AUTHOR = "Di, S.Z. and Xie, W.",
        TITLE = "Grounded Question-Answering in Long Egocentric Videos",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "12934-12943",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vgrqa3.html#TT232665"}
Last update:Nov 26, 2025 at 20:24:09