Keith Price Bibliography Bibtex Entry (ANCHOR 243800 URL http://dx.doi.org/10.1109/CVPR52734.2025.01842 TYPE CONFERENCE PAGES 19781-19791 YEAR 2025 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238712 VOLUME NIL JOURNAL CVPR25 AUTHOR Zhang, Z. and Yadav, S. and Han, F.Z. and Shutova, E. TITLE Cross-Modal Information Flow in Multimodal Large Language Models)


@inproceedings{bb243800,
        AUTHOR = "Zhang, Z. and Yadav, S. and Han, F.Z. and Shutova, E.",
        TITLE = "Cross-Modal Information Flow in Multimodal Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19781-19791",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238712"}

@inproceedings{bb243801,
        AUTHOR = "Fang, Y. and Jin, B. and Shen, J.C. and Ding, S. and Tan, Q. and Han, J.W.",
        TITLE = "GraphGPT-o: Synergistic Multimodal Comprehension and Generation on
Graphs",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19467-19476",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238713"}

@inproceedings{bb243802,
        AUTHOR = "Hao, H.R. and Han, J.M. and Li, C.S. and Li, Y.F. and Yue, X.Y.",
        TITLE = "RAP: Retrieval-Augmented Personalization for Multimodal Large
Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14538-14548",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238714"}

@inproceedings{bb243803,
        AUTHOR = "Tong, B. and Lai, B. and Zhou, Y. and Luo, G. and Shen, Y.H. and Li, K. and Sun, X.S. and Ji, R.R.",
        TITLE = "FlashSloth: Lightning Multimodal Large Language Models via Embedded
Visual Compression",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14570-14581",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238715"}

@inproceedings{bb243804,
        AUTHOR = "Szot, A. and Mazoure, B. and Attia, O. and Timofeev, A. and Agrawal, H. and Hjelm, D. and Gan, Z. and Kira, Z. and Toshev, A.",
        TITLE = "From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "10644-10655",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238716"}

@inproceedings{bb243805,
        AUTHOR = "Gholami, M. and Akbari, M. and Cannons, K. and Zhang, Y.",
        TITLE = "CASP: Compression of Large Multimodal Models Based on Attention
Sparsity",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9372-9381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238717"}

@inproceedings{bb243806,
        AUTHOR = "Jia, H.R. and Jiang, C. and Xu, H.Y. and Ye, W. and Dong, M.F. and Yan, M. and Zhang, J. and Huang, F. and Zhang, S.K.",
        TITLE = "SymDPO: Boosting In-Context Learning of Large Multimodal Models with
Symbol Demonstration Direct Preference Optimization",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9361-9371",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238718"}

@inproceedings{bb243807,
        AUTHOR = "Alvar, S.R. and Singh, G. and Akbari, M. and Zhang, Y.",
        TITLE = "DivPrune: Diversity-based Visual Token Pruning for Large Multimodal
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9392-9401",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238719"}

@inproceedings{bb243808,
        AUTHOR = "Zhang, Z.F. and Tang, H.Z. and Sheng, J.W. and Zhang, Z.Y. and Ren, Y.M. and Li, Z.Y. and Yin, D.W. and Ma, D. and Liu, T.W.",
        TITLE = "Debiasing Multimodal Large Language Models via Noise-Aware Preference
Optimization",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9423-9433",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238720"}

@inproceedings{bb243809,
        AUTHOR = "Jiao, Q. and Chen, D. and Huang, Y.L. and Ding, B.L. and Li, Y. and Shen, Y.",
        TITLE = "Img-Diff: Contrastive Data Synthesis for Multimodal Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9296-9307",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238721"}

@inproceedings{bb243810,
        AUTHOR = "Ye, X. and Gan, Y. and Ge, Y.X. and Zhang, X.P. and Tang, Y.S.",
        TITLE = "ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24972-24982",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238722"}

@inproceedings{bb243811,
        AUTHOR = "Luo, G. and Yang, X. and Dou, W.H. and Wang, Z.K. and Liu, J.W. and Dai, J.F. and Qiao, Y. and Zhu, X.Z.",
        TITLE = "Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large
Language Models with Endogenous Visual Pre-training",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24960-24971",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238723"}

@inproceedings{bb243812,
        AUTHOR = "Qi, D. and Zhao, H. and Shi, J. and Jenni, S. and Fan, Y.F. and Dernoncourt, F. and Cohen, S. and Li, S.",
        TITLE = "The Photographer's Eye: Teaching Multimodal Large Language Models to
See and Critique like Photographers",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24807-24816",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238724"}

@inproceedings{bb243813,
        AUTHOR = "Liu, S. and Li, J.N. and Zhao, G.H. and Zhang, Y.J. and Meng, X. and Yu, F.R. and Ji, X.Y. and Li, M.",
        TITLE = "EventGPT: Event Stream Understanding with Multimodal Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29139-29149",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238725"}

@inproceedings{bb243814,
        AUTHOR = "Zhao, S.Y. and Wang, Z. and Juefei Xu, F. and Xia, X. and Liu, M. and Wang, X.F. and Liang, M. and Zhang, N. and Metaxas, D.N. and Yu, L.C.",
        TITLE = "Accelerating Multimodal Large Language Models by Searching Optimal
Vision Token Reduction",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29869-29879",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238726"}

@inproceedings{bb243815,
        AUTHOR = "Yan, Z. and Li, Z.L. and He, Y. and Wang, C.T. and Li, K. and Li, X.H. and Zeng, X.Y. and Wang, Z. and Wang, Y. and Qiao, Y. and Wang, L.M. and Wang, Y.",
        TITLE = "Task Preference Optimization: Improving Multimodal Large Language
Models with Vision Task Alignment",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29880-29892",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238727"}

@inproceedings{bb243816,
        AUTHOR = "Chen, C. and Zhai, Y.P. and Zhao, Y.F. and Gao, J.Y. and Ding, B.L. and Li, J.",
        TITLE = "Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation
In-Context Learning",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3826-3835",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238728"}

@inproceedings{bb243817,
        AUTHOR = "Zhang, Y.T. and Lu, H. and Hu, Q.Y. and Wang, Y. and Yuan, K. and Liu, X. and Wu, K.",
        TITLE = "Period-LLM: Extending the Periodic Capability of Multimodal Large
Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29237-29247",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238729"}

@inproceedings{bb243818,
        AUTHOR = "Lin, J. and Chen, H.R. and Fan, Y. and Fan, Y.Q. and Jin, X. and Su, H. and Fu, J. and Shen, X.Y.",
        TITLE = "Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods,
Analysis, and Best Practices",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4156-4166",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238730"}

@inproceedings{bb243819,
        AUTHOR = "Zhao, Q.Q. and Lu, Y. and Kim, M.J. and Fu, Z. and Zhang, Z.Y. and Wu, Y. and Li, Z.S. and Ma, Q.L. and Han, S. and Finn, C. and Handa, A. and Lin, T.Y. and Wetzstein, G. and Liu, M.Y. and Xiang, D.L.",
        TITLE = "CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "1702-1713",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238731"}

@inproceedings{bb243820,
        AUTHOR = "Lu, X.D. and Chen, Y.H. and Chen, C. and Tan, H. and Chen, B. and Xie, Y. and Hu, R. and Tan, G.X. and Wu, R.S. and Hu, Y. and Zeng, Y. and Wu, L. and Bian, L.Y. and Wang, Z.X. and Liu, L. and Yang, Y.Z. and Xiao, H. and Zhou, A. and Wen, Y.F. and Chen, X.X. and Ren, S. and Li, H.S.",
        TITLE = "BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large
Language Models on Mobile Devices",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4145-4155",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238732"}

@inproceedings{bb243821,
        AUTHOR = "Chen, S. and Han, Z. and He, B. and Liu, J.Z. and Buckley, M. and Qin, Y. and Torr, P. and Tresp, V. and Gu, J.D.",
        TITLE = "Can Multimodal Large Language Models Truly Perform Multimodal
In-Context Learning?",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6000-6010",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238733"}

@inproceedings{bb243822,
        AUTHOR = "Wang, C.Y. and Luo, W.X. and Dong, S. and Xuan, X.H. and Li, Z.X. and Ma, L. and Gao, S.H.",
        TITLE = "MLLM-Tool: A Multimodal Large Language Model for Tool Agent Learning",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6678-6687",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238734"}

@inproceedings{bb243823,
        AUTHOR = "Liu, S.L. and Cheng, H. and Liu, H.T. and Zhang, H. and Li, F. and Ren, T. and Zou, X. and Yang, J.W. and Su, H. and Zhu, J. and Zhang, L. and Gao, J.F. and Li, C.Y.",
        TITLE = "LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XLVII: 126-142",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238735"}

@inproceedings{bb243824,
        AUTHOR = "Cai, R. and Song, Z. and Guan, D. and Chen, Z.H. and Li, Y.H. and Luo, X. and Yi, C.Y. and Kot, A.C.",
        TITLE = "BenchLMM: Benchmarking Cross-Style Visual Capability of Large
Multimodal Models",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "L: 340-358",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238736"}

@inproceedings{bb243825,
        AUTHOR = "Yu, E. and Zhao, L. and Wei, Y. and Yang, J.R. and Wu, D.M. and Kong, L.Y. and Wang, T. and Ge, Z. and Zhang, X.Y. and Tao, W.B.",
        TITLE = "Merlin: Empowering Multimodal LLMs with Foresight Minds",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "IV: 425-443",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238737"}

@inproceedings{bb243826,
        AUTHOR = "Song, K.P. and Zhu, Y.Z. and Liu, B.C. and Yan, Q. and Elgammal, A. and Yang, X.",
        TITLE = "MOMA: Multimodal LLM Adapter for Fast Personalized Image Generation",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XL: 117-132",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238738"}

@inproceedings{bb243827,
        AUTHOR = "Gou, Y.H. and Chen, K. and Liu, Z. and Hong, L.Q. and Xu, H. and Li, Z.G. and Yeung, D.Y. and Kwok, J.T. and Zhang, Y.",
        TITLE = "Eyes Closed, Safety on: Protecting Multimodal LLMs via Image-to-text
Transformation",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XVII: 388-404",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238739"}

@inproceedings{bb243828,
        AUTHOR = "Wang, D.S. and Cui, J. and Li, M. and Lin, W. and Chen, B. and Zhang, H.W.",
        TITLE = "Instruction Tuning-free Visual Token Complement for Multimodal LLMs",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXXXI: 446-462",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238740"}

@inproceedings{bb243829,
        AUTHOR = "McKinzie, B. and Gan, Z. and Fauconnier, J.P. and Dodge, S. and Zhang, B. and Dufter, P. and Shah, D. and Du, X.Z. and Peng, F. and Belyi, A. and Zhang, H.T. and Singh, K. and Kang, D. and He, H.Y. and Schwarzer, M. and Gunter, T. and Kong, X. and Zhang, A. and Wang, J.Y. and Wang, C. and Du, N. and Lei, T. and Wiseman, S. and Lee, M. and Wang, Z. and Pang, R. and Grasch, P. and Toshev, A. and Yang, Y.F.",
        TITLE = "MM1: Methods, Analysis and Insights from Multimodal LLM Pre-training",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXIX: 304-323",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238741"}

@inproceedings{bb243830,
        AUTHOR = "Zhao, H.H. and Zhou, P. and Shou, M.Z.",
        TITLE = "Genixer: Empowering Multimodal Large Language Model as a Powerful Data
Generator",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXIII: 129-147",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238742"}

@inproceedings{bb243831,
        AUTHOR = "Fu, X.Y. and Hu, Y.S. and Li, B.Z. and Feng, Y. and Wang, H.Y. and Lin, X.D. and Roth, D. and Smith, N.A. and Ma, W.C. and Krishna, R.",
        TITLE = "Blink: Multimodal Large Language Models Can See but Not Perceive",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXIII: 148-166",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238743"}

@inproceedings{bb243832,
        AUTHOR = "Zhang, Z.K. and Li, Y.T. and Huang, H.F. and Lin, M.X. and Yi, L.",
        TITLE = "Freemotion: Mocap-free Human Motion Synthesis with Multimodal Large
Language Models",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXIII: 403-421",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238744"}

@inproceedings{bb243833,
        AUTHOR = "Xia, B. and Wang, S.Y. and Tao, Y.F. and Wang, Y.T. and Jia, J.Y.",
        TITLE = "Llmga: Multimodal Large Language Model Based Generation Assistant",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXXVIII: 389-406",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238745"}

@inproceedings{bb243834,
        AUTHOR = "Wu, T. and Ma, K. and Liang, J. and Yang, Y. and Zhang, L.",
        TITLE = "A Comprehensive Study of Multimodal Large Language Models for Image
Quality Assessment",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXXIV: 143-160",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238746"}

@inproceedings{bb243835,
        AUTHOR = "Xu, J. and Lo, S.Y. and Safaei, B. and Patel, V.M. and Dwivedi, I.",
        TITLE = "Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal
Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "20370-20382",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238747"}

@inproceedings{bb243836,
        AUTHOR = "Yang, Y.C. and Lee, K. and Dariush, B. and Cao, Y. and Lo, S.Y.",
        TITLE = "Follow the Rules: Reasoning for Video Anomaly Detection with Large
Language Models",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXXXI: 304-322",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238748"}

@inproceedings{bb243837,
        AUTHOR = "Zheng, S. and Zhou, B. and Feng, Y.C. and Wang, Y. and Lu, Z.Q.",
        TITLE = "Unicode: Learning a Unified Codebook for Multimodal Large Language
Models",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "VIII: 426-443",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238749"}

@inproceedings{bb243838,
        AUTHOR = "Ren, Z.W. and Huang, Z.C. and Wei, Y.C. and Zhao, Y. and Fu, D.M. and Feng, J.S. and Jin, X.J.",
        TITLE = "PixelLM: Pixel Reasoning with Large Multimodal Model",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26364-26373",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238750"}

@inproceedings{bb243839,
        AUTHOR = "Yue, X. and Ni, Y.S. and Zheng, T.Y. and Zhang, K. and Liu, R. and Zhang, G. and Stevens, S. and Jiang, D. and Ren, W.M. and Sun, Y.X. and Wei, C. and Yu, B.T. and Yuan, R.B. and Sun, R.L. and Yin, M. and Zheng, B. and Yang, Z.Z. and Liu, Y. and Huang, W.H. and Sun, H. and Su, Y. and Chen, W.",
        TITLE = "MMMU: A Massive Multi-Discipline Multimodal Understanding and
Reasoning Benchmark for Expert AGI",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "9556-9567",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238751"}

@inproceedings{bb243840,
        AUTHOR = "Xia, Z.F. and Han, D.C. and Han, Y.Z. and Pan, X. and Song, S. and Huang, G.",
        TITLE = "GSVA: Generalized Segmentation via Multimodal Large Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "3858-3869",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238752"}

@inproceedings{bb243841,
        AUTHOR = "Du, Y.Y. and Wang, X.C. and Chen, C. and Ye, J. and Wang, Y. and Li, P. and Yan, M. and Zhang, J. and Huang, F. and Sui, Z.F. and Sun, M. and Liu, Y.",
        TITLE = "AdaMMS: Model Merging for Heterogeneous Multimodal Large Language
Models with Unsupervised Coefficient Optimization",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9413-9422",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238753"}

@inproceedings{bb243842,
        AUTHOR = "Ye, Q.H. and Xu, H.Y. and Ye, J. and Yan, M. and Hu, A. and Liu, H. and Qian, Q. and Zhang, J. and Huang, F.",
        TITLE = "mPLUG-OwI2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13040-13051",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238754"}

@inproceedings{bb243843,
        AUTHOR = "Qi, P. and Yan, Z. and Hsu, W. and Lee, M.L.",
        TITLE = "Sniffer: Multimodal Large Language Model for Explainable
Out-of-Context Misinformation Detection",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13052-13062",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238755"}

@inproceedings{bb243844,
        AUTHOR = "Mitra, C. and Huang, B. and Darrell, T.J. and Herzig, R.",
        TITLE = "Compositional Chain-of-Thought Prompting for Large Multimodal Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14420-14431",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238756"}

@inproceedings{bb243845,
        AUTHOR = "Li, X.Q. and Xu, J.Y. and Zhang, M.X. and Liu, J.M. and Shen, Y. and Ponomarenko, I. and Xu, J.H. and Heng, L. and Huang, S.Y. and Zhang, S.H. and Dong, H.",
        TITLE = "Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic
Manipulation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "27638-27648",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238757"}

@inproceedings{bb243846,
        AUTHOR = "Li, X.Q. and Zhang, M.X. and Geng, Y.R. and Geng, H.R. and Long, Y.X. and Shen, Y. and Zhang, R.R. and Liu, J.M. and Dong, H.",
        TITLE = "ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18061-18070",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238758"}

@inproceedings{bb243847,
        AUTHOR = "Taesiri, M.R. and Feng, T.J. and Bezemer, C.P. and Nguyen, A.",
        TITLE = "GlitchBench: Can Large Multimodal Models Detect Video Game Glitches?",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "22444-22455",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238759"}

@inproceedings{bb243848,
        AUTHOR = "Zhang, R. and Zhang, Y.Z. and Chen, J. and Zhou, Y.F. and Gu, J.X. and Chen, C. and Sun, T.",
        TITLE = "TRINS: Towards Multimodal Language Models that Can Read",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "22584-22594",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238760"}

@inproceedings{bb243849,
        AUTHOR = "Zhang, Y. and Dong, Y.P. and Zhang, S.Y. and Min, T.Z. and Su, H. and Zhu, J.",
        TITLE = "Exploring the Transferability of Visual Prompting for Multimodal
Large Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26552-26562",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238761"}

@inproceedings{bb243850,
        AUTHOR = "Liang, T. and Huang, J. and Kong, M. and Chen, L. and Zhu, Q.",
        TITLE = "Querying as Prompt: Parameter-Efficient Learning for Multimodal
Language Model",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26845-26855",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238762"}

@inproceedings{bb243851,
        AUTHOR = "Pi, R.J. and Yao, L.W. and Gao, J.H. and Zhang, J.P. and Zhang, T.",
        TITLE = "PerceptionGPT: Effectively Fusing Visual Perception Into LLM",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27114-27123",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238763"}

@inproceedings{bb243852,
        AUTHOR = "Tai, Y. and Fan, W.C. and Zhang, Z. and Liu, Z.W.",
        TITLE = "Link-Context Learning for Multimodal LLMs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27166-27175",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238764"}

@inproceedings{bb243853,
        AUTHOR = "Jain, J. and Yang, J.W. and Shi, H.",
        TITLE = "VCoder: Versatile Vision Encoders for Multimodal Large Language
Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27992-28002",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238765"}

@inproceedings{bb243854,
        AUTHOR = "Barbany, O. and Huang, M. and Zhu, X.L. and Dhua, A.",
        TITLE = "Leveraging Large Language Models for Multimodal Search",
        BOOKTITLE = FGVC24,
        YEAR = "2024",
        PAGES = "1201-1210",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238766"}

@inproceedings{bb243855,
        AUTHOR = "Baldassini, F.B. and Shukor, M. and Cord, M. and Soulier, L. and Piwowarski, B.",
        TITLE = "What Makes Multimodal In-Context Learning Work?",
        BOOKTITLE = Prompting24,
        YEAR = "2024",
        PAGES = "1539-1550",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238767"}

@inproceedings{bb243856,
        AUTHOR = "Ma, F.P. and Zhou, Y.Z. and Zhang, Y.Y. and Wu, S.Y. and Zhang, Z. and He, Z.L. and Rao, F.Y. and Sun, X.Y.",
        TITLE = "Task Navigator: Decomposing Complex Tasks for Multimodal Large
Language Models",
        BOOKTITLE = Reasoning24,
        YEAR = "2024",
        PAGES = "2248-2257",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238768"}

@inproceedings{bb243857,
        AUTHOR = "Cha, J. and Kang, W. and Mun, J. and Roh, B.",
        TITLE = "Honeybee: Locality-Enhanced Projector for Multimodal LLM",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13817-13827",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238769"}

@inproceedings{bb243858,
        AUTHOR = "Lai, C.G. and Song, S.L. and Yan, S. and Hu, G.",
        TITLE = "Improving Vision and Language Concepts Understanding with Multimodal
Counterfactual Samples",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXIX: 174-191",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238770"}

@inproceedings{bb243859,
        AUTHOR = "Cao, J.J. and Ye, P. and Li, S.Z. and Yu, C. and Tang, Y.S. and Lu, J.W. and Chen, T.",
        TITLE = "MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15710-15719",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238771"}

@inproceedings{bb243860,
        AUTHOR = "Sahin, U. and Li, H. and Khan, Q. and Cremers, D. and Tresp, V.",
        TITLE = "Enhancing Multimodal Compositional Reasoning of Visual Language
Models with Generative Negative Mining",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "5551-5561",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238772"}

@inproceedings{bb243861,
        AUTHOR = "Hu, Z.Z. and Zhu, X.L. and Tran, S. and Vidal, R. and Dhua, A.",
        TITLE = "ProVLA: Compositional Image Search with Progressive Vision-Language
Alignment and Multimodal Fusion",
        BOOKTITLE = CLVL23,
        YEAR = "2023",
        PAGES = "2764-2769",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT238773"}

@article{bb243862,
        AUTHOR = "Lin, B.Q. and Nie, Y.S. and Wei, Z.M. and Chen, J.Q. and Ma, S.K. and Han, J.H. and Xu, H. and Chang, X.J. and Liang, X.D.",
        TITLE = "NavCoT: Boosting LLM-Based Vision-and-Language Navigation via
Learning Disentangled Reasoning",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "7",
        MONTH = "July",
        PAGES = "5945-5957",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238774"}

@article{bb243863,
        AUTHOR = "Ding, X.P. and Han, J.H. and Xu, H. and Zhang, W. and Li, X.M.",
        TITLE = "HiLM-D: Enhancing MLLMs with Multi-scale High-Resolution Details for
Autonomous Driving",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "5379-5395",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238775"}

@inproceedings{bb243864,
        AUTHOR = "Ding, X.P. and Han, J.H. and Xu, H. and Liang, X.D. and Zhang, W. and Li, X.M.",
        TITLE = "Holistic Autonomous Driving Understanding by Bird'View Injected
Multi-Modal Large Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13668-13677",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238776"}

@article{bb243865,
        AUTHOR = "Liu, T.Q. and Qin, Y.J. and Zhang, S.H. and Tao, X.M.",
        TITLE = "Empowering Corner Case Detection in Autonomous Vehicles With
Multimodal Large Language Models",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "51-55",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238777"}

@article{bb243866,
        AUTHOR = "Wu, M.Y. and Yu, F.R. and Liu, P.X.P. and He, Y.",
        TITLE = "Facilitating Autonomous Driving Tasks With Large Language Models",
        JOURNAL = IEEE_Int_Sys,
        VOLUME = "40",
        YEAR = "2025",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "45-52",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238778"}

@article{bb243867,
        AUTHOR = "Cao, J.H. and Liu, S. and Wu, C.F. and Li, Y. and Du, S.",
        TITLE = "ATHENA - Autonomous Vehicle Trajectory Planning Considered Human
Action Awareness",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "1845-1849",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238779"}

@inproceedings{bb243868,
        AUTHOR = "Chahe, A. and Zhou, L.F.",
        TITLE = "ReasonDrive: Efficient Visual Question Answering for Autonomous
Vehicles with Reasoning-Enhanced Small Vision-Language Models",
        BOOKTITLE = DistillDrive24,
        YEAR = "2024",
        PAGES = "3870-3879",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238780"}

@inproceedings{bb243869,
        AUTHOR = "Chen, K. and Li, Y.Z. and Zhang, W.H. and Liu, Y.X. and Li, P.X. and Gao, R. and Hong, L.Q. and Tian, M. and Zhao, X.H. and Li, Z.G. and Yeung, D.Y. and Lu, H.C. and Jia, X.",
        TITLE = "Automated Evaluation of Large Vision-Language Models on Self-Driving
Corner Cases",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "7817-7826",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238781"}

@inproceedings{bb243870,
        AUTHOR = "Renz, K. and Chen, L. and Arani, E. and Sinavski, O.",
        TITLE = "SimLingo: Vision-Only Closed-Loop Autonomous Driving with
Language-Action Alignment",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "11993-12003",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238782"}

@inproceedings{bb243871,
        AUTHOR = "Zhang, Z.Y. and Li, X.F. and Xu, Z.H. and Peng, W.J. and Zhou, Z.J. and Shi, M.J. and Huang, S.P.",
        TITLE = "MPDrive: Improving Spatial Understanding with Marker-Based Prompt
Learning for Autonomous Driving",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "12089-12099",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238783"}

@inproceedings{bb243872,
        AUTHOR = "Xu, Z.H. and Bai, Y. and Zhang, Y.J. and Li, Z.L. and Xia, F. and Wong, K.Y.K. and Wang, J.Q. and Zhao, H.S.",
        TITLE = "DriveGPT4-V2: Harnessing Large Language Model Capabilities for
Enhanced Closed-Loop Autonomous Driving",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "17261-17270",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238784"}

@inproceedings{bb243873,
        AUTHOR = "Hegde, D. and Yasarla, R. and Cai, H. and Han, S.Z. and Bhattacharyya, A. and Mahajan, S. and Liu, L.T. and Garrepalli, R. and Patel, V.M. and Porikli, F.M.",
        TITLE = "Distilling Multi-Modal Large Language Models for Autonomous Driving",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "27575-27585",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238785"}

@inproceedings{bb243874,
        AUTHOR = "Chen, Y. and Ding, Z.H. and Wang, Z.Q. and Wang, Y. and Zhang, L.J. and Liu, S.",
        TITLE = "Asynchronous Large Language Model Enhanced Planner for Autonomous
Driving",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXXVI: 22-38",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238786"}

@inproceedings{bb243875,
        AUTHOR = "Li, B. and Wang, Y. and Mao, J. and Ivanovic, B. and Veer, S. and Leung, K. and Pavone, M.",
        TITLE = "Driving Everywhere with Large Language Model Policy Adaptation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14948-14957",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238787"}

@inproceedings{bb243876,
        AUTHOR = "Wei, Y.X. and Wang, Z. and Lu, Y.F. and Xu, C.X. and Liu, C.X. and Zhao, H. and Chen, S. and Wang, Y.F.",
        TITLE = "Editable Scene Simulation for Autonomous Driving via Collaborative
LLM-Agents",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15077-15087",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238788"}

@inproceedings{bb243877,
        AUTHOR = "Shao, H. and Hu, Y.X. and Wang, L. and Song, G.L. and Waslander, S.L. and Liu, Y. and Li, H.S.",
        TITLE = "LMDrive: Closed-Loop End-to-End Driving with Large Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15120-15130",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238789"}

@inproceedings{bb243878,
        AUTHOR = "Ma, Y.S. and Cui, C. and Cao, X. and Ye, W.Q. and Liu, P.R. and Lu, J. and Abdelraouf, A. and Gupta, R. and Han, K.T. and Bera, A. and Rehg, J.M. and Wang, Z.",
        TITLE = "LaMPilot: An Open Benchmark Dataset for Autonomous Driving with
Language Model Programs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15141-15151",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238790"}

@inproceedings{bb243879,
        AUTHOR = "Zhang, J.W. and Xu, C. and Li, B.",
        TITLE = "ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for
Autonomous Vehicles",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15459-15469",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238791"}

@inproceedings{bb243880,
        AUTHOR = "Sirnam, S. and Yang, J. and Neiman, T. and Rizve, M.N. and Tran, S. and Yao, B. and Chilimbi, T. and Shah, M.",
        TITLE = "X-former: Unifying Contrastive and Reconstruction Learning for MLLMs",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "VI: 146-162",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238792"}

@inproceedings{bb243881,
        AUTHOR = "Qiao, Y.Y. and Liu, Q.Y. and Liu, J.J. and Liu, J. and Wu, Q.",
        TITLE = "LLM as Copilot for Coarse-grained Vision-and-language Navigation",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "V: 459-476",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238793"}

@inproceedings{bb243882,
        AUTHOR = "Zhang, J.Y. and Huang, Z.M. and Ray, A. and Ohn Bar, E.",
        TITLE = "Feedback-Guided Autonomous Driving",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "15000-15011",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238794"}

@inproceedings{bb243883,
        AUTHOR = "Yang, Y. and Zhang, Q.W. and Li, C. and Marta, D.S. and Batool, N. and Folkesson, J.",
        TITLE = "Human-Centric Autonomous Systems With LLMs for User Command Reasoning",
        BOOKTITLE = LLVMCrive24,
        YEAR = "2024",
        PAGES = "988-994",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238795"}

@inproceedings{bb243884,
        AUTHOR = "Cui, C. and Ma, Y.S. and Cao, X. and Ye, W.Q. and Zhou, Y. and Liang, K. and Chen, J. and Lu, J. and Yang, Z. and Liao, K.D. and Gao, T. and Li, E. and Tang, K. and Cao, Z.P. and Zhou, T. and Liu, A. and Yan, X.R. and Mei, S.Q. and Cao, J.G. and Wang, Z. and Zheng, C.",
        TITLE = "A Survey on Multimodal Large Language Models for Autonomous Driving",
        BOOKTITLE = LLVMCrive24,
        YEAR = "2024",
        PAGES = "958-979",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238796"}

@inproceedings{bb243885,
        AUTHOR = "Fu, D.C. and Li, X. and Wen, L.C. and Dou, M. and Cai, P.L. and Shi, B. and Qiao, Y.",
        TITLE = "Drive Like a Human: Rethinking Autonomous Driving with Large Language
Models",
        BOOKTITLE = LLVMCrive24,
        YEAR = "2024",
        PAGES = "910-919",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llmdr5.html#TT238797"}

@article{bb243886,
        AUTHOR = "Wang, J. and Zhu, M. and Li, Y. and Li, H.L. and Yang, L.Z. and Woo, W.L.",
        TITLE = "Detect2Interact: Localizing Object Key Field in Visual Question
Answering with LLMs",
        JOURNAL = IEEE_Int_Sys,
        VOLUME = "39",
        YEAR = "2024",
        NUMBER = "3",
        MONTH = "May",
        PAGES = "35-44",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238798"}

@article{bb243887,
        AUTHOR = "Hu, Z.J. and Yang, P. and Jiang, Y.S. and Bai, Z.J.",
        TITLE = "Prompting large language model with context and pre-answer for
knowledge-based VQA",
        JOURNAL = PR,
        VOLUME = "151",
        YEAR = "2024",
        PAGES = "110399",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238799"}

@article{bb243888,
        AUTHOR = "Kuang, J.Y. and Shen, Y. and Xie, J. and Luo, H. and Xu, Z. and Li, R.H. and Li, Y.H. and Cheng, X.F. and Lin, X. and Han, Y.",
        TITLE = "Natural Language Understanding and Inference with MLLM in Visual
Question Answering: A Survey",
        JOURNAL = Surveys,
        VOLUME = "57",
        YEAR = "2025",
        NUMBER = "8",
        MONTH = "March",
        PAGES = "xx-yy",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238800"}

@article{bb243889,
        AUTHOR = "Xiong, H.M. and Zhuge, Y.Z. and Zhu, J. and Zhang, L. and Lu, H.C.",
        TITLE = "3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene
Understanding",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "2899-2911",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238801"}

@article{bb243890,
        AUTHOR = "Yu, Z. and Ouyang, X.C. and Shao, Z.W. and Wang, M. and Yu, J.",
        TITLE = "Prophet: Prompting Large Language Models With Complementary Answer
Heuristics for Knowledge-Based Visual Question Answering",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "6797-6808",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238802"}

@inproceedings{bb243891,
        AUTHOR = "Shao, Z.W. and Yu, Z. and Wang, M. and Yu, J.",
        TITLE = "Prompting Large Language Models with Answer Heuristics for
Knowledge-Based Visual Question Answering",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "14974-14983",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238803"}

@article{bb243892,
        AUTHOR = "Xu, Z. and Li, Q. and Nie, W.Z. and Wang, W.J. and Liu, A.",
        TITLE = "Structure Causal Models and LLMs Integration in Medical Visual
Question Answering",
        JOURNAL = MedImg,
        VOLUME = "44",
        YEAR = "2025",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "3476-3489",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238804"}

@article{bb243893,
        AUTHOR = "Jegham, N. and Abdelatti, M. and Hendawi, A.",
        TITLE = "Visual reasoning consistency and robustness analysis of multimodal
LLMs",
        JOURNAL = PR,
        VOLUME = "172",
        YEAR = "2026",
        PAGES = "112765",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238805"}

@article{bb243894,
        AUTHOR = "Lu, J.C. and Jiang, M. and Kong, J. and Zhuang, D.F. and Lu, M.",
        TITLE = "Mitigating Inherent Bias of Answer Heuristic Based Frameworks in
Knowledge-Based Visual Question Answering",
        JOURNAL = MultMed,
        VOLUME = "28",
        YEAR = "2026",
        PAGES = "1744-1755",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238806"}

@article{bb243895,
        AUTHOR = "Li, J.T. and Liao, Z. and Xiao, F.S. and Li, T.J. and Zhang, Q. and Zhao, H.H. and Niu, L. and Chen, G. and Zhang, L.Q. and Jiang, C.J.",
        TITLE = "Parse, Align and Aggregate: Graph-Driven Compositional Reasoning for
Video Question Answering",
        JOURNAL = PAMI,
        VOLUME = "48",
        YEAR = "2026",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "5586-5603",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238807"}

@inproceedings{bb243896,
        AUTHOR = "Liao, Z. and Li, J.T. and Niu, L. and Zhang, L.Q.",
        TITLE = "Align and Aggregate: Compositional Reasoning with Video Alignment and
Answer Aggregation for Video Question-Answering",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13395-13404",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238808"}

@inproceedings{bb243897,
        AUTHOR = "Lu, J. and Srivastava, S. and Chen, J.Y. and Shrestha, R. and Acharya, M. and Kafle, K. and Kanan, C.",
        TITLE = "Revisiting Multi-Modal LLM Evaluation",
        BOOKTITLE = "AIBench25",
        YEAR = "2025",
        PAGES = "555-564",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238809"}

@inproceedings{bb243898,
        AUTHOR = "Quan, K.A.C. and Nguyen, Q.N. and Luu, D.T.",
        TITLE = "Toward Automation in Text-Based Video Retrieval with LLM Assistance",
        BOOKTITLE = IntVidSea25,
        YEAR = "2025",
        PAGES = "3699-3707",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238810"}

@inproceedings{bb243899,
        AUTHOR = "Kim, Y. and Jung, J.",
        TITLE = "KOFFVQA: An Objectively Evaluated Free-Form VQA Benchmark for Large
Vision-Language Models in the Korean Language",
        BOOKTITLE = "AIBench25",
        YEAR = "2025",
        PAGES = "575-585",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vqallm5.html#TT238811"}
Last update:Jun 13, 2026 at 20:41:05