Keith Price Bibliography Bibtex Entry (ANCHOR 240800 URL http://dx.doi.org/10.1109/CVPR52733.2024.01650 TYPE CONFERENCE PAGES 17427-17436 YEAR 2024 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803llm4.html#TT235717 VOLUME NIL JOURNAL CVPR24 AUTHOR Kim, J. and Cho, E. and Kim, S. and Kim, H.W.J. TITLE Retrieval-Augmented Open-Vocabulary Object Detection)


@inproceedings{bb240800,
        AUTHOR = "Kim, J. and Cho, E. and Kim, S. and Kim, H.W.J.",
        TITLE = "Retrieval-Augmented Open-Vocabulary Object Detection",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "17427-17436",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235717"}

@inproceedings{bb240801,
        AUTHOR = "Saha, O. and van Horn, G. and Maji, S.",
        TITLE = "Improved Zero-Shot Classification by Adapting VLMs with Text
Descriptions",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "17542-17552",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235718"}

@inproceedings{bb240802,
        AUTHOR = "Toubal, I.E. and Avinash, A. and Alldrin, N.G. and Dlabal, J. and Zhou, W. and Luo, E. and Stretcu, O. and Xiong, H. and Lu, C.T. and Zhou, H. and Krishna, R. and Fuxman, A. and Duerig, T.",
        TITLE = "Modeling Collaborator: Enabling Subjective Vision Classification with
Minimal Human Effort via LLM Tool-Use",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "17553-17563",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235719"}

@inproceedings{bb240803,
        AUTHOR = "Han, T. and Bain, M. and Nagrani, A. and Varol, G. and Xie, W. and Zisserman, A.",
        TITLE = "AutoAD III: The Prequel: Back to the Pixels",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18164-18174",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235720"}

@inproceedings{bb240804,
        AUTHOR = "Qu, H.X. and Cai, Y.J. and Liu, J.",
        TITLE = "LLMs are Good Action Recognizers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18395-18406",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235721"}

@inproceedings{bb240805,
        AUTHOR = "Chen, J. and Lv, Z.Y. and Wu, S.W. and Lin, K.Q.H. and Song, C. and Gao, D.F. and Liu, J.W. and Gao, Z.T. and Mao, D.X. and Shou, M.Z.",
        TITLE = "VideoLLM-online: Online Video Large Language Model for Streaming
Video",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18407-18418",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235722"}

@inproceedings{bb240806,
        AUTHOR = "Zhu, A. and Ke, Q.H. and Gong, M.M. and Bailey, J.",
        TITLE = "Part-Aware Unified Representation of Language and Skeleton for
Zero-Shot Action Recognition",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18761-18770",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235723"}

@inproceedings{bb240807,
        AUTHOR = "Chen, T.J. and Yu, H.S. and Yang, Z.G. and Li, Z.C. and Sun, W. and Chen, C.",
        TITLE = "OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor
for General Video Recognition",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18888-18898",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235724"}

@inproceedings{bb240808,
        AUTHOR = "Zhao, Q.H. and Dai, Y. and Li, H. and Hu, W. and Zhang, F. and Liu, J.",
        TITLE = "LTGC: Long-Tail Recognition via Leveraging LLMs-Driven Generated
Content",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "19510-19520",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235725"}

@inproceedings{bb240809,
        AUTHOR = "Siddiqui, Y. and Alliegro, A. and Artemov, A. and Tommasi, T. and Sirigatti, D. and Rosov, V. and Dai, A. and Nießner, M.",
        TITLE = "MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "19615-19625",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235726"}

@inproceedings{bb240810,
        AUTHOR = "Li, Z. and Gao, Z.Y. and Tan, C. and Ren, B. and Yang, L.T. and Li, S.Z.",
        TITLE = "General Point Model Pretraining with Autoencoding and Autoregressive",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "20954-20964",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235727"}

@inproceedings{bb240811,
        AUTHOR = "Dunlap, L. and Zhang, Y.H. and Wang, X.H. and Zhong, R.Q. and Darrell, T.J. and Steinhardt, J. and Gonzalez, J.E. and Yeung Levy, S.",
        TITLE = "Describing Differences in Image Sets with Natural Language",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24199-24208",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235728"}

@inproceedings{bb240812,
        AUTHOR = "Ishmam, A.M. and Thomas, C.",
        TITLE = "Semantic Shield: Defending Vision-Language Models Against Backdooring
and Poisoning via Fine-Grained Knowledge Alignment",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24820-24830",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235729"}

@inproceedings{bb240813,
        AUTHOR = "Yang, Y.J. and Zhou, T.Y. and Li, K. and Tao, D.P. and Li, L. and Shen, L. and He, X.D. and Jiang, J. and Shi, Y.H.",
        TITLE = "Embodied Multi-Modal Agent trained by an LLM from a Parallel
TextWorld",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26265-26275",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235730"}

@inproceedings{bb240814,
        AUTHOR = "Hong, Y. and Zheng, Z. and Chen, P.H. and Wang, Y.F. and Li, J. and Gan, C.",
        TITLE = "MultiPLY: A Multisensory Object-Centric Embodied Large Language Model
in 3D World",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26396-26406",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235731"}

@inproceedings{bb240815,
        AUTHOR = "Han, J.M. and Gong, K.X. and Zhang, Y.Y. and Wang, J.Q. and Zhang, K. and Lin, D. and Qiao, Y. and Gao, P. and Yue, X.Y.",
        TITLE = "OneLLM: One Framework to Align All Modalities with Language",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26574-26585",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235732"}

@inproceedings{bb240816,
        AUTHOR = "Xie, H.X. and Peng, C.J. and Tseng, Y.W. and Chen, H.J. and Hsu, C.F. and Shuai, H.H. and Cheng, W.H.",
        TITLE = "EmoVIT: Revolutionizing Emotion Insights with Visual Instruction
Tuning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26586-26595",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235733"}

@inproceedings{bb240817,
        AUTHOR = "Wang, X.Y. and Zhuang, B. and Wu, Q.",
        TITLE = "ModaVerse: Efficiently Transforming Modalities with LLMs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26596-26606",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235734"}

@inproceedings{bb240818,
        AUTHOR = "Lin, J. and Yin, H.X. and Ping, W. and Molchanov, P. and Shoeybi, M. and Han, S.",
        TITLE = "VILA: On Pre-training for Visual Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26679-26689",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235735"}

@inproceedings{bb240819,
        AUTHOR = "Lyu, Y.H. and Zheng, X. and Zhou, J.Z. and Wang, L.",
        TITLE = "UniBind: LLM-Augmented Unified and Balanced Representation Space to
Bind Them All",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "26742-26752",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235736"}

@inproceedings{bb240820,
        AUTHOR = "Zhu, L. and Wei, F.Y. and Lu, Y.",
        TITLE = "Beyond Text: Frozen Large Language Models in Visual Signal
Comprehension",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27037-27047",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235737"}

@inproceedings{bb240821,
        AUTHOR = "Tang, Z. and Yang, Z. and Khademi, M. and Liu, Y. and Zhu, C.G. and Bansal, M.",
        TITLE = "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any
Generation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "27415-27424",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235738"}

@inproceedings{bb240822,
        AUTHOR = "Yuan, Y.Q. and Li, W. and Liu, J. and Tang, D.Q. and Luo, X.J. and Qin, C. and Zhang, L. and Zhu, J.",
        TITLE = "Osprey: Pixel Understanding with Visual Instruction Tuning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28202-28211",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235739"}

@inproceedings{bb240823,
        AUTHOR = "Zheng, Z.H. and Wei, J. and Hu, X.F. and Zhu, H.D. and Nevatia, R.",
        TITLE = "Large Language Models are Good Prompt Learners for Low-Shot Image
Classification",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28453-28462",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235740"}

@inproceedings{bb240824,
        AUTHOR = "He, H.Y. and Pan, Z.Z. and Liu, J. and Cai, J.F. and Zhuang, B.",
        TITLE = "Efficient Stitchable Task Adaptation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28555-28565",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235741"}

@inproceedings{bb240825,
        AUTHOR = "Tian, X.Y. and Zou, S. and Yang, Z.Y. and Zhang, J.",
        TITLE = "ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28578-28587",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235742"}

@inproceedings{bb240826,
        AUTHOR = "Lv, J.X. and Huang, Y. and Yan, M. and Huang, J.C. and Liu, J.Z. and Liu, Y.F. and Wen, Y.F. and Chen, X.X. and Chen, S.F.",
        TITLE = "GPT4Motion: Scripting Physical Motions in Text-to-Video Generation
via Blender-Oriented GPT Planning",
        BOOKTITLE = PBDL24,
        YEAR = "2024",
        PAGES = "1430-1440",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235743"}

@inproceedings{bb240827,
        AUTHOR = "Wang, J.C. and Ke, L.",
        TITLE = "LLM-Seg: Bridging Image Segmentation and Large Language Model
Reasoning",
        BOOKTITLE = WhatNext24,
        YEAR = "2024",
        PAGES = "1765-1774",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235744"}

@inproceedings{bb240828,
        AUTHOR = "Hakim, Z.I.A. and Sarker, N.H. and Singh, R.P. and Paul, B. and Dabouei, A. and Xu, M.",
        TITLE = "Leveraging Generative Language Models for Weakly Supervised Sentence
Component Analysis in Video-Language Joint Learning",
        BOOKTITLE = MULA24,
        YEAR = "2024",
        PAGES = "1975-1985",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235745"}

@inproceedings{bb240829,
        AUTHOR = "Deria, A. and Kumar, K. and Chakraborty, S. and Mahapatra, D. and Roy, S.",
        TITLE = "InVERGe: Intelligent Visual Encoder for Bridging Modalities in Report
Generation",
        BOOKTITLE = MULA24,
        YEAR = "2024",
        PAGES = "2028-2038",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235746"}

@inproceedings{bb240830,
        AUTHOR = "Arefeen, M.A. and Debnath, B. and Uddin, M.Y.S. and Chakradhar, S.",
        TITLE = "ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based
Video Analysis System",
        BOOKTITLE = Reasoning24,
        YEAR = "2024",
        PAGES = "2266-2274",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235747"}

@inproceedings{bb240831,
        AUTHOR = "Chen, Y.W. and Chu, S.Y.",
        TITLE = "Large Language Models in Wargaming: Methodology, Application, and
Robustness",
        BOOKTITLE = AML24,
        YEAR = "2024",
        PAGES = "2894-2903",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235748"}

@inproceedings{bb240832,
        AUTHOR = "Lai, Z.X. and Wu, J. and Chen, S. and Zhou, Y.C. and Hovakimyan, N.",
        TITLE = "Residual-based Language Models are Free Boosters for Biomedical
Imaging Tasks",
        BOOKTITLE = DEF-AI-MIA24,
        YEAR = "2024",
        PAGES = "5086-5096",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235749"}

@inproceedings{bb240833,
        AUTHOR = "Fang, X. and Wang, W.G. and Lv, X.X. and Yan, J.",
        TITLE = "PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt
Condition",
        BOOKTITLE = NTIRE24,
        YEAR = "2024",
        PAGES = "6167-6176",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235750"}

@inproceedings{bb240834,
        AUTHOR = "Ye, Z. and Liu, J.X. and Cao, J.J. and Chen, Z.Y. and Xuan, Z.W. and Zhou, M.Y. and Liu, Q. and Qi, G.J.",
        TITLE = "OpenStory: A Large-Scale Open-Domain Dataset for Subject-Driven
Visual Storytelling",
        BOOKTITLE = VDU24,
        YEAR = "2024",
        PAGES = "7953-7962",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235751"}

@inproceedings{bb240835,
        AUTHOR = "Chen, X.Y. and Liu, J. and Wang, Y. and Wang, P.P. and Brand, M. and Wang, G.H. and Koike Akino, T.",
        TITLE = "SuperLoRA: Parameter-Efficient Unified Adaptation for Large Vision
Models",
        BOOKTITLE = ECV24,
        YEAR = "2024",
        PAGES = "8050-8055",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235752"}

@inproceedings{bb240836,
        AUTHOR = "Wei, C. and Liu, C.X. and Qiao, S.Y. and Zhang, Z.S. and Yuille, A.L. and Yu, J.H.",
        TITLE = "De-Diffusion Makes Text a Strong Cross-Modal Interface",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13492-13503",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235753"}

@inproceedings{bb240837,
        AUTHOR = "Chen, B. and Xu, Z. and Kirmani, S. and Ichter, B. and Sadigh, D. and Guibas, L.J. and Xia, F.",
        TITLE = "SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14455-14465",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235754"}

@inproceedings{bb240838,
        AUTHOR = "Dorkenwald, M. and Barazani, N. and Snoek, C.G.M. and Asano, Y.M.",
        TITLE = "PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13548-13558",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235755"}

@inproceedings{bb240839,
        AUTHOR = "Sun, Z.Y. and Fang, Y. and Wu, T. and Zhang, P. and Zang, Y.H. and Kong, S. and Xiong, Y.J. and Lin, D. and Wang, J.Q.",
        TITLE = "Alpha-CLIP: A CLIP Model Focusing on Wherever you Want",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13019-13029",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235756"}

@inproceedings{bb240840,
        AUTHOR = "Parashar, S. and Lin, Z.Q. and Liu, T. and Dong, X.J. and Li, Y. and Ramanan, D. and Caverlee, J. and Kong, S.",
        TITLE = "The Neglected Tails in Vision-Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "12988-12997",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235757"}

@inproceedings{bb240841,
        AUTHOR = "Luo, Y. and Shi, M. and Khan, M.O. and Afzal, M.M. and Huang, H. and Yuan, S. and Tian, Y. and Song, L. and Kouhana, A. and Elze, T. and Fang, Y. and Wang, M.Y.",
        TITLE = "FairCLIP: Harnessing Fairness in Vision-Language Learning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "12289-12301",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235758"}

@inproceedings{bb240842,
        AUTHOR = "Zara, G. and Conti, A. and Roy, S. and Lathuiliere, S. and Rota, P. and Ricci, E.",
        TITLE = "The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "10273-10283",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235759"}

@inproceedings{bb240843,
        AUTHOR = "Zhao, H.B. and Ni, B.L. and Fan, J.S. and Wang, Y.X. and Chen, Y.T. and Meng, G.F. and Zhang, Z.X.",
        TITLE = "Continual Forgetting for Pre-Trained Vision Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "28631-28642",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235760"}

@inproceedings{bb240844,
        AUTHOR = "Zhan, X.Y. and Yang, L.X. and Zhao, Y.F. and Mao, K. and Xu, H.L. and Lin, Z. and Li, K.L. and Lu, C.",
        TITLE = "OakInk2: A Dataset of Bimanual Hands-Object Manipulation in Complex
Task Completion",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "445-456",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235761"}

@inproceedings{bb240845,
        AUTHOR = "Li, Y.C. and Zhao, N. and Xiao, J.B. and Feng, C. and Wang, X. and Chua, T.S.",
        TITLE = "LASO: Language-Guided Affordance Segmentation on 3D Object",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14251-14260",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235762"}

@inproceedings{bb240846,
        AUTHOR = "Rotstein, N. and Bensaid, D. and Brody, S. and Ganz, R. and Kimmel, R.",
        TITLE = "FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "5677-5688",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235763"}

@article{bb240847,
        AUTHOR = "Wang, Z. and Cai, S.F. and Liu, A. and Jin, Y.G. and Hou, J. and Zhang, B. and Lin, H. and He, Z.F. and Zheng, Z.L. and Yang, Y.D. and Ma, X.J. and Liang, Y.",
        TITLE = "JARVIS-1: Open-World Multi-Task Agents With Memory-Augmented
Multimodal Language Models",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "1894-1907",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235764"}

@article{bb240848,
        AUTHOR = "Li, Y.X. and Jiang, S.Y. and Hu, B.T. and Wang, L.Y. and Zhong, W.Q. and Luo, W.H. and Ma, L. and Zhang, M.",
        TITLE = "Uni-MoE: Scaling Unified Multimodal LLMs With Mixture of Experts",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "3424-3439",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235765"}

@article{bb240849,
        AUTHOR = "Huang, Z.Z. and Zhong, S.S. and Zhou, P. and Gao, S. and Zitnik, M. and Lin, L.",
        TITLE = "A Causality-Aware Paradigm for Evaluating Creativity of Multimodal
Large Language Models",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "3830-3846",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235766"}

@article{bb240850,
        AUTHOR = "Villani, F. and Maljkovic, I. and Lazzaro, D. and Sotgiu, A. and Cina, A.E. and Roli, F.",
        TITLE = "Robust image classification with multi-modal large language models",
        JOURNAL = PRL,
        VOLUME = "194",
        YEAR = "2025",
        PAGES = "1-7",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235767"}

@article{bb240851,
        AUTHOR = "Shao, Z.W. and Yu, Z. and Yu, J. and Ouyang, X.C. and Zheng, L. and Gai, Z.B. and Wang, M.Y. and Kuang, Z.Z. and Ding, J.J.",
        TITLE = "Imp: Highly Capable Large Multimodal Models for Mobile Devices",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "2961-2974",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235768"}

@article{bb240852,
        AUTHOR = "Ge, J. and Zhang, X. and Zheng, Y. and Guo, K. and Liang, J.",
        TITLE = "RSTeller: Scaling up visual language modeling in remote sensing with
rich linguistic semantics from openly available data and large
language models",
        JOURNAL = PandRS,
        VOLUME = "226",
        YEAR = "2025",
        PAGES = "146-163",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235769"}

@article{bb240853,
        AUTHOR = "Li, Z.S. and Muhtar, D. and Gu, F. and He, Y.L.X. and Zhang, X.L. and Xiao, P.F. and He, G. and Zhu, X.X.",
        TITLE = "LHRS-Bot-Nova: Improved multimodal large language model for remote
sensing vision-language interpretation",
        JOURNAL = PandRS,
        VOLUME = "227",
        YEAR = "2025",
        PAGES = "539-550",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235770"}

@inproceedings{bb240854,
        AUTHOR = "Muhtar, D. and Li, Z.S. and Gu, F. and Zhang, X.L. and Xiao, P.F.",
        TITLE = "Lhrs-bot: Empowering Remote Sensing with Vgi-enhanced Large Multimodal
Language Model",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXXIV: 440-457",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235771"}

@article{bb240855,
        AUTHOR = "Li, X. and Zheng, Y. and Chen, H.T. and Chen, X.L. and Liang, Y.X. and Lai, C.H. and Li, B. and Xue, X.Y.",
        TITLE = "Instruction-guided fusion of multi-layer visual features in Large
Vision-Language Models",
        JOURNAL = PR,
        VOLUME = "170",
        YEAR = "2026",
        PAGES = "111932",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235772"}

@article{bb240856,
        AUTHOR = "Zhang, W.Y. and Wu, L. and Zhang, Z.Q. and Yu, T. and Ma, C. and Jin, X. and Yang, X.K. and Zeng, W.J.",
        TITLE = "Unleash the Power of Vision-Language Models by Visual Attention
Prompt and Multimodal Interaction",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "2399-2411",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235773"}

@article{bb240857,
        AUTHOR = "Weng, Y. and He, W.B. and Dong, J. and Chaomurilige and Liu, X. and Liu, Z.",
        TITLE = "Cross-Lingual Adaptation for Vision-Language Model via Multimodal
Semantic Distillation",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "3184-3196",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235774"}

@article{bb240858,
        AUTHOR = "Liang, J.W. and Liang, S.Y. and Liu, A.S. and Cao, X.C.",
        TITLE = "VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "7",
        MONTH = "July",
        PAGES = "3994-4013",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235775"}

@article{bb240859,
        AUTHOR = "Li, W.T. and Yuan, Y.Q. and Liu, J. and Tang, D.Q. and Wang, S. and Qin, J. and Zhu, J.K. and Zhang, L.",
        TITLE = "TokenPacker: Efficient Visual Projector for Multimodal LLM",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "10",
        MONTH = "October",
        PAGES = "6794-6812",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235776"}

@article{bb240860,
        AUTHOR = "Sun, H. and Song, Y. and Liu, J.Q. and Hu, J.H. and Chen, Y.W. and Lin, L.",
        TITLE = "One framework to rule them all:
Unifying multimodal tasks with LLM neural-tuning",
        JOURNAL = PR,
        VOLUME = "171",
        YEAR = "2026",
        PAGES = "112275",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235777"}

@article{bb240861,
        AUTHOR = "Huang, J.X. and Zhang, J.Y. and Jiang, K. and Qiu, H. and Zhang, X.Q. and Shao, L. and Lu, S.J. and Tao, D.C.",
        TITLE = "Visual Instruction Tuning towards General-Purpose Multimodal Large
Language Model: A Survey",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "8151-8189",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235778"}

@article{bb240862,
        AUTHOR = "Chu, T.Y. and Chen, Y.M. and Zhu, R. and Zeng, F.",
        TITLE = "Estimating urban flooding depth by integrating multimodal image-text
data: A segment-level direct preference optimization-based multimodal
large language model",
        JOURNAL = PandRS,
        VOLUME = "230",
        YEAR = "2025",
        PAGES = "895-917",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235779"}

@article{bb240863,
        AUTHOR = "Zhou, Y. and Feng, L. and Lan, M.C. and Yang, X. and Li, Q.Y. and Ke, Y.P. and Jiang, X. and Zhang, W.",
        TITLE = "Multimodal mathematical reasoning embedded in aerial vehicle imagery:
Benchmarking, analysis, and exploration",
        JOURNAL = PandRS,
        VOLUME = "230",
        YEAR = "2025",
        PAGES = "289-303",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235780"}

@article{bb240864,
        AUTHOR = "Ying, Z.H. and Liu, A.S. and Liang, S.Y. and Huang, L. and Guo, J.Y. and Zhou, W.B. and Liu, X.L. and Tao, D.C.",
        TITLE = "SafeBench: A Safety Evaluation Framework for Multimodal Large Language
Models",
        JOURNAL = IJCV,
        VOLUME = "134",
        YEAR = "2026",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "18",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235781"}

@article{bb240865,
        AUTHOR = "Chen, Y. and Ge, Y.Y. and Ge, Y.X. and Ding, M.Y. and Li, B.H. and Wang, R. and Xu, R.F. and Shan, Y. and Liu, X.H.",
        TITLE = "EgoPlan-Bench: Benchmarking Multimodal Large Language Models for
Human-Level Planning",
        JOURNAL = IJCV,
        VOLUME = "134",
        YEAR = "2026",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "118",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235782"}

@inproceedings{bb240866,
        AUTHOR = "Li, B.H. and Ge, Y.Y. and Ge, Y.X. and Wang, G.Z. and Wang, R. and Zhang, R.M. and Shan, Y.",
        TITLE = "SEED-Bench: Benchmarking Multimodal Large Language Models",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13299-13308",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235783"}

@inproceedings{bb240867,
        AUTHOR = "Abbasnejad, I. and Liu, X.F. and Roy, A.",
        TITLE = "Deciding the Path:
Leveraging Multi-Agent Systems for Solving Complex Tasks",
        BOOKTITLE = MultiEmbodied25,
        YEAR = "2025",
        PAGES = "4216-4225",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235784"}

@inproceedings{bb240868,
        AUTHOR = "Zhang, D. and Lei, J. and Li, J.X. and Wang, X.Z. and Liu, Y.J. and Yang, Z.L. and Li, J.T. and Wang, W. and Yang, S. and Wu, J.B. and Ye, P. and Ouyang, W.L. and Zhou, D.Z.",
        TITLE = "Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9050-9061",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235785"}

@inproceedings{bb240869,
        AUTHOR = "Li, L. and Wei, Y.C. and Xie, Z.H. and Yang, X. and Song, Y.F. and Wang, P. and An, C.X. and Liu, T.Y. and Li, S. and Lin, B.Y.C. and Kong, L.P. and Liu, Q.",
        TITLE = "VL-RewardBench: A Challenging Benchmark for Vision-Language
Generative Reward Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24657-24668",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235786"}

@inproceedings{bb240870,
        AUTHOR = "Yang, C. and Sui, Y. and Xiao, J.Q. and Huang, L. and Gong, Y. and Li, C. and Yan, J.H. and Bai, Y. and Sadayappan, P. and Hu, X. and Yuan, B.",
        TITLE = "TopV: Compatible Token Pruning with Inference Time Optimization for
Fast and Low-Memory Multimodal Vision Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19803-19813",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235787"}

@inproceedings{bb240871,
        AUTHOR = "Hong, W. and Cheng, Y. and Yang, Z. and Luo, Z.Y. and Wu, H.N. and Li, D.X. and Ma, J. and Kankanhalli, M. and Li, J.",
        TITLE = "VideoAutoArena: An Automated Arena for Evaluating Large Multimodal
Models in Video Analysis through User Simulation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "8461-8474",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235788"}

@inproceedings{bb240872,
        AUTHOR = "Tian, J. and Zhang, J.R. and Liu, S. and Xu, L. and Huang, Z.X. and Huang, G.",
        TITLE = "DTOS: Dynamic Time Object Sensing with Large Multimodal Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "13810-13820",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235789"}

@inproceedings{bb240873,
        AUTHOR = "Li, M. and Zhong, J. and Chen, T. and Lai, Y.X. and Psounis, K.",
        TITLE = "EEE-Bench: A Comprehensive Multimodal Electrical And Electronics
Engineering Benchmark",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "13337-13349",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235790"}

@inproceedings{bb240874,
        AUTHOR = "Liu, Z.H. and Xie, C.W. and Li, P. and Zhao, L.M. and Tang, L.X. and Zheng, Y. and Liu, C.B. and Xie, H.T.",
        TITLE = "Hybrid-Level Instruction Injection for Video Token Compression in
Multi-modal Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "8568-8578",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235791"}

@inproceedings{bb240875,
        AUTHOR = "Ma, Y.Y. and Liu, X.C. and Chen, X.K. and Liu, W. and Wu, C.Y. and Wu, Z.Y. and Pan, Z.Z. and Xie, Z. and Zhang, H. and Yu, X.K. and Zhao, L. and Wang, Y.S. and Liu, J.Y. and Ruan, C.",
        TITLE = "JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified
Multimodal Understanding and Generation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "7739-7751",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235792"}

@inproceedings{bb240876,
        AUTHOR = "Farina, M. and Mancini, M. and Iacca, G. and Ricci, E.",
        TITLE = "Rethinking Few-Shot Adaptation of Vision-Language Models in Two
Stages",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29989-29998",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235793"}

@inproceedings{bb240877,
        AUTHOR = "Zhang, Z. and Yadav, S. and Han, F.Z. and Shutova, E.",
        TITLE = "Cross-modal Information Flow in Multimodal Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19781-19791",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235794"}

@inproceedings{bb240878,
        AUTHOR = "Fang, Y. and Jin, B. and Shen, J.C. and Ding, S. and Tan, Q. and Han, J.W.",
        TITLE = "GraphGPT-o: Synergistic Multimodal Comprehension and Generation on
Graphs",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19467-19476",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235795"}

@inproceedings{bb240879,
        AUTHOR = "Hao, H.R. and Han, J.M. and Li, C.S. and Li, Y.F. and Yue, X.Y.",
        TITLE = "RAP: Retrieval-Augmented Personalization for Multimodal Large
Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14538-14548",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235796"}

@inproceedings{bb240880,
        AUTHOR = "Tong, B. and Lai, B. and Zhou, Y. and Luo, G. and Shen, Y.H. and Li, K. and Sun, X.S. and Ji, R.R.",
        TITLE = "FlashSloth: Lightning Multimodal Large Language Models via Embedded
Visual Compression",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14570-14581",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235797"}

@inproceedings{bb240881,
        AUTHOR = "Szot, A. and Mazoure, B. and Attia, O. and Timofeev, A. and Agrawal, H. and Hjelm, D. and Gan, Z. and Kira, Z. and Toshev, A.",
        TITLE = "From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "10644-10655",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235798"}

@inproceedings{bb240882,
        AUTHOR = "Gholami, M. and Akbari, M. and Cannons, K. and Zhang, Y.",
        TITLE = "CASP: Compression of Large Multimodal Models Based on Attention
Sparsity",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9372-9381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235799"}

@inproceedings{bb240883,
        AUTHOR = "Jia, H.R. and Jiang, C. and Xu, H.Y. and Ye, W. and Dong, M.F. and Yan, M. and Zhang, J. and Huang, F. and Zhang, S.K.",
        TITLE = "SymDPO: Boosting In-Context Learning of Large Multimodal Models with
Symbol Demonstration Direct Preference Optimization",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9361-9371",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235800"}

@inproceedings{bb240884,
        AUTHOR = "Alvar, S.R. and Singh, G. and Akbari, M. and Zhang, Y.",
        TITLE = "DivPrune: Diversity-based Visual Token Pruning for Large Multimodal
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9392-9401",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235801"}

@inproceedings{bb240885,
        AUTHOR = "Zhang, Z.F. and Tang, H.Z. and Sheng, J.W. and Zhang, Z.Y. and Ren, Y.M. and Li, Z.Y. and Yin, D.W. and Ma, D. and Liu, T.W.",
        TITLE = "Debiasing Multimodal Large Language Models via Noise-Aware Preference
Optimization",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9423-9433",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235802"}

@inproceedings{bb240886,
        AUTHOR = "Jiao, Q. and Chen, D. and Huang, Y.L. and Ding, B.L. and Li, Y. and Shen, Y.",
        TITLE = "Img-Diff: Contrastive Data Synthesis for Multimodal Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9296-9307",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235803"}

@inproceedings{bb240887,
        AUTHOR = "Ye, X. and Gan, Y. and Ge, Y.X. and Zhang, X.P. and Tang, Y.S.",
        TITLE = "ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24972-24982",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235804"}

@inproceedings{bb240888,
        AUTHOR = "Luo, G. and Yang, X. and Dou, W.H. and Wang, Z.K. and Liu, J.W. and Dai, J.F. and Qiao, Y. and Zhu, X.Z.",
        TITLE = "Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large
Language Models with Endogenous Visual Pre-training",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24960-24971",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235805"}

@inproceedings{bb240889,
        AUTHOR = "Qi, D. and Zhao, H. and Shi, J. and Jenni, S. and Fan, Y.F. and Dernoncourt, F. and Cohen, S. and Li, S.",
        TITLE = "The Photographer's Eye: Teaching Multimodal Large Language Models to
See and Critique like Photographers",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24807-24816",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235806"}

@inproceedings{bb240890,
        AUTHOR = "Liu, S. and Li, J.N. and Zhao, G.H. and Zhang, Y.J. and Meng, X. and Yu, F.R. and Ji, X.Y. and Li, M.",
        TITLE = "EventGPT: Event Stream Understanding with Multimodal Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29139-29149",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235807"}

@inproceedings{bb240891,
        AUTHOR = "Zhao, S.Y. and Wang, Z. and Juefei Xu, F. and Xia, X. and Liu, M. and Wang, X.F. and Liang, M. and Zhang, N. and Metaxas, D.N. and Yu, L.C.",
        TITLE = "Accelerating Multimodal Large Language Models by Searching Optimal
Vision Token Reduction",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29869-29879",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235808"}

@inproceedings{bb240892,
        AUTHOR = "Yan, Z. and Li, Z.L. and He, Y. and Wang, C.T. and Li, K. and Li, X.H. and Zeng, X.Y. and Wang, Z. and Wang, Y. and Qiao, Y. and Wang, L.M. and Wang, Y.",
        TITLE = "Task Preference Optimization: Improving Multimodal Large Language
Models with Vision Task Alignment",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29880-29892",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235809"}

@inproceedings{bb240893,
        AUTHOR = "Chen, C. and Zhai, Y.P. and Zhao, Y.F. and Gao, J.Y. and Ding, B.L. and Li, J.",
        TITLE = "Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation
In-Context Learning",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3826-3835",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235810"}

@inproceedings{bb240894,
        AUTHOR = "Zhang, Y.T. and Lu, H. and Hu, Q.Y. and Wang, Y. and Yuan, K. and Liu, X. and Wu, K.",
        TITLE = "Period-LLM: Extending the Periodic Capability of Multimodal Large
Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29237-29247",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235811"}

@inproceedings{bb240895,
        AUTHOR = "Lin, J. and Chen, H.R. and Fan, Y. and Fan, Y.Q. and Jin, X. and Su, H. and Fu, J. and Shen, X.Y.",
        TITLE = "Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods,
Analysis, and Best Practices",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4156-4166",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235812"}

@inproceedings{bb240896,
        AUTHOR = "Zhao, Q.Q. and Lu, Y. and Kim, M.J. and Fu, Z. and Zhang, Z.Y. and Wu, Y. and Li, Z.S. and Ma, Q.L. and Han, S. and Finn, C. and Handa, A. and Lin, T.Y. and Wetzstein, G. and Liu, M.Y. and Xiang, D.L.",
        TITLE = "CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "1702-1713",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235813"}

@inproceedings{bb240897,
        AUTHOR = "Lu, X.D. and Chen, Y.H. and Chen, C. and Tan, H. and Chen, B. and Xie, Y. and Hu, R. and Tan, G.X. and Wu, R.S. and Hu, Y. and Zeng, Y. and Wu, L. and Bian, L.Y. and Wang, Z.X. and Liu, L. and Yang, Y.Z. and Xiao, H. and Zhou, A. and Wen, Y.F. and Chen, X.X. and Ren, S. and Li, H.S.",
        TITLE = "BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large
Language Models on Mobile Devices",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4145-4155",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235814"}

@inproceedings{bb240898,
        AUTHOR = "Chen, S. and Han, Z. and He, B. and Liu, J.Z. and Buckley, M. and Qin, Y. and Torr, P. and Tresp, V. and Gu, J.D.",
        TITLE = "Can Multimodal Large Language Models Truly Perform Multimodal
In-Context Learning?",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6000-6010",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235815"}

@inproceedings{bb240899,
        AUTHOR = "Wang, C.Y. and Luo, W.X. and Dong, S. and Xuan, X.H. and Li, Z.X. and Ma, L. and Gao, S.H.",
        TITLE = "MLLM-Tool: A Multimodal Large Language Model for Tool Agent Learning",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6678-6687",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803mmllm5.html#TT235816"}
Last update:Feb 26, 2026 at 10:58:24