Keith Price Bibliography Bibtex Entry (ANCHOR 241500 URL http://dx.doi.org/10.1007/978-3-031-20059-5_1 TYPE CONFERENCE PAGES XXXVI:1-21 YEAR 2022 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236416 VOLUME NIL JOURNAL ECCV22 AUTHOR Boecking, B. and Usuyama, N. and Bannur, S. and Castro, D.C. and Schwaighofer, A. and Hyland, S. and Wetscherek, M. and Naumann, T. and Nori, A. and Alvarez Valle, J. and Poon, H. and Oktay, O. TITLE Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing)


@inproceedings{bb241500,
        AUTHOR = "Boecking, B. and Usuyama, N. and Bannur, S. and Castro, D.C. and Schwaighofer, A. and Hyland, S. and Wetscherek, M. and Naumann, T. and Nori, A. and Alvarez Valle, J. and Poon, H. and Oktay, O.",
        TITLE = "Making the Most of Text Semantics to Improve Biomedical Vision-Language
Processing",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:1-21",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236416"}

@inproceedings{bb241501,
        AUTHOR = "Cui, Q. and Zhou, B. and Guo, Y. and Yin, W.D. and Wu, H. and Yoshie, O. and Chen, Y.",
        TITLE = "Contrastive Vision-Language Pre-training with Limited Resources",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:236-253",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236417"}

@inproceedings{bb241502,
        AUTHOR = "Hu, X.W. and Gan, Z. and Wang, J.F. and Yang, Z.Y. and Liu, Z.C. and Lu, Y. and Wang, L.J.",
        TITLE = "Scaling Up Vision-Language Pretraining for Image Captioning",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "17959-17968",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236418"}

@inproceedings{bb241503,
        AUTHOR = "Zhang, P.C. and Li, X.J. and Hu, X.W. and Yang, J.W. and Zhang, L. and Wang, L.J. and Choi, Y.J. and Gao, J.F.",
        TITLE = "VinVL: Revisiting Visual Representations in Vision-Language Models",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "5575-5584",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236419"}

@inproceedings{bb241504,
        AUTHOR = "Li, Z.W. and Stengel Eskin, E. and Zhang, Y.X. and Xie, C. and Tran, Q. and van Durme, B. and Yuille, A.L.",
        TITLE = "Calibrating Concepts and Operations:
Towards Symbolic Reasoning on Real Images",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "14890-14899",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236420"}

@inproceedings{bb241505,
        AUTHOR = "Yang, X. and Zhang, H.W. and Qi, G.J. and Cai, J.F.",
        TITLE = "Causal Attention for Vision-Language Tasks",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "9842-9852",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236421"}

@inproceedings{bb241506,
        AUTHOR = "Zheng, W.B. and Yan, L. and Gou, C. and Wang, F.Y.",
        TITLE = "Webly Supervised Knowledge Embedding Model for Visual Reasoning",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "12442-12451",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236422"}

@inproceedings{bb241507,
        AUTHOR = "Nguyen, D.K. and Okatani, T.",
        TITLE = "Multi-Task Learning of Hierarchical Vision-Language Representation",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "10484-10493",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236423"}

@inproceedings{bb241508,
        AUTHOR = "Gupta, T. and Shih, K.J. and Singh, S. and Hoiem, D.",
        TITLE = "Aligned Image-Word Representations Improve Inductive Transfer Across
Vision-Language Tasks",
        BOOKTITLE = ICCV17,
        YEAR = "2017",
        PAGES = "4223-4232",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT236424"}

@article{bb241509,
        AUTHOR = "Liang, J.W. and Liang, S.Y. and Liu, A.S. and Cao, X.C.",
        TITLE = "VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "7",
        MONTH = "July",
        PAGES = "3994-4013",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236425"}

@article{bb241510,
        AUTHOR = "Fu, T.C. and Zhang, J.H. and Li, F.X. and Wei, P. and Zeng, X.L. and Zhou, W.",
        TITLE = "Multimodal alignment augmentation transferable attack on
vision-language pre-training models",
        JOURNAL = PRL,
        VOLUME = "191",
        YEAR = "2025",
        PAGES = "131-137",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236426"}

@article{bb241511,
        AUTHOR = "Jia, X.J. and Gao, S.S. and Guo, Q. and Qin, S. and Ma, K. and Huang, Y.H. and Liu, Y. and Tsang, I.W. and Cao, X.C.",
        TITLE = "Semantic-Aligned Adversarial Evolution Triangle for
High-Transferability Vision-Language Attack",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "10",
        MONTH = "October",
        PAGES = "8489-8505",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236427"}

@article{bb241512,
        AUTHOR = "Qian, Y.G. and Kong, Y.X. and Bao, Q.Q. and Gu, Z.Q. and Wang, B. and Ji, S. and Zhang, J.P. and Lei, Z.",
        TITLE = "Individual and Common Attack: Enhancing Transferability in VLP Models
Through Modal Feature Exploitation",
        JOURNAL = IP,
        VOLUME = "35",
        YEAR = "2026",
        PAGES = "1082-1095",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236428"}

@article{bb241513,
        AUTHOR = "Kuurila Zhang, H. and Chen, H.Y. and Zhao, G.Y.",
        TITLE = "Evaluating the Adversarial Robustness of Vision-Language Models for
Facial Expression Recognition",
        JOURNAL = IEEE_Int_Sys,
        VOLUME = "41",
        YEAR = "2026",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "105-112",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236429"}

@article{bb241514,
        AUTHOR = "Liu, C.H. and Wang, Y. and Cao, H.Y. and Liu, B. and Jiang, D.Q.",
        TITLE = "Evaluating the Adversarial Robustness of Vision-Language Models via
Internal Feature Perturbations",
        JOURNAL = CirSysVideo,
        VOLUME = "36",
        YEAR = "2026",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "3938-3950",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236430"}

@article{bb241515,
        AUTHOR = "Lu, Z. and Xu, N. and Tian, H. and Wang, L.J. and Liu, A.A.",
        TITLE = "Medical VLP Model Is Vulnerable: Toward Multimodal Adversarial Attack
on Large Medical Vision-Language Models",
        JOURNAL = CirSysVideo,
        VOLUME = "36",
        YEAR = "2026",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "2478-2491",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236431"}

@article{bb241516,
        AUTHOR = "Wang, B. and Qian, S.S. and Xu, C.S.",
        TITLE = "Invisible Backdoor Attack With Siamese Tuning on Pre-Trained
Vision-Language Models",
        JOURNAL = MultMed,
        VOLUME = "28",
        YEAR = "2026",
        PAGES = "1663-1676",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236432"}

@article{bb241517,
        AUTHOR = "Liu, D.Z. and Liu, W.Q. and Cai, X.W. and Zhou, P. and Guan, R.W. and Qu, X.Y. and Du, B.",
        TITLE = "Generating transferable attacks across large vision-language models
using adversarial deformation learning",
        JOURNAL = PR,
        VOLUME = "176",
        YEAR = "2026",
        PAGES = "113194",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236433"}

@inproceedings{bb241518,
        AUTHOR = "Cao, Y. and Xing, Y. and Zhang, J. and Lin, D. and Zhang, T.W. and Tsang, I. and Liu, Y. and Guo, Q.",
        TITLE = "SceneTAP: Scene-Coherent Typographic Adversarial Planner against
Vision-Language Models in Real-World Environments",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "25050-25059",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236434"}

@inproceedings{bb241519,
        AUTHOR = "Xie, P. and Bie, Y. and Mao, J. and Song, Y.Q. and Wang, Y. and Chen, H. and Chen, K.",
        TITLE = "Chain of Attack: On the Robustness of Vision-Language Models Against
Transfer-Based Adversarial Attacks",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14679-14689",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236435"}

@inproceedings{bb241520,
        AUTHOR = "Zhang, J.M. and Ye, J. and Ma, X. and Li, Y. and Yang, Y.F. and Chen, Y.H. and Sang, J. and Yeung, D.Y.",
        TITLE = "Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on
Vision-language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19900-19909",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236436"}

@inproceedings{bb241521,
        AUTHOR = "Liang, S.Y. and Liang, J.W. and Pang, T.Y. and Du, C. and Liu, A. and Zhu, M.L. and Cao, X.C. and Tao, D.C.",
        TITLE = "Revisiting Backdoor Attacks against Large Vision-Language Models from
Domain Shift",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9477-9486",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236437"}

@inproceedings{bb241522,
        AUTHOR = "Fime, A.A. and Hossain, M.Z. and Zaman, S. and Shahid, A.R. and Imteaj, A.",
        TITLE = "Towards Trustworthy Autonomous Vehicles with Vision-Language Models
under Targeted and Untargeted Adversarial Attacks",
        BOOKTITLE = "FaDE-TCV25",
        YEAR = "2025",
        PAGES = "619-628",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236438"}

@inproceedings{bb241523,
        AUTHOR = "Chen, L. and Chen, Y.L. and Luo, Y. and Dou, H. and Zhong, X.Y.",
        TITLE = "Attention-Guided Hierarchical Defense for Multimodal Attacks in
Vision-Language Models",
        BOOKTITLE = TrustworthyOpen25,
        YEAR = "2025",
        PAGES = "1598-1608",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236439"}

@inproceedings{bb241524,
        AUTHOR = "Xing, S. and Zhao, Z.Y. and Sebe, N.",
        TITLE = "CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards
Zero-shot Adversarial Robustness of CLIP",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "15172-15182",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236440"}

@inproceedings{bb241525,
        AUTHOR = "Ishmam, A.M. and Thomas, C.",
        TITLE = "Semantic Shield: Defending Vision-Language Models Against Backdooring
and Poisoning via Fine-Grained Knowledge Alignment",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24820-24830",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236441"}

@inproceedings{bb241526,
        AUTHOR = "Wang, Y. and Liu, X.G. and Li, Y. and Chen, M. and Xiao, C.W.",
        TITLE = "Adashield: Safeguarding Multimodal Large Language Models from
Structure-based Attack via Adaptive Shield Prompting",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XX: 77-94",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236442"}

@inproceedings{bb241527,
        AUTHOR = "Gao, S. and Jia, X.J. and Ren, X.H. and Tsang, I. and Guo, Q.",
        TITLE = "Boosting Transferability in Vision-language Attacks via Diversification
Along the Intersection Region of Adversarial Trajectory",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LVII: 442-460",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236443"}

@inproceedings{bb241528,
        AUTHOR = "Bai, J. and Gao, K. and Min, S.B. and Xia, S.T. and Li, Z.F. and Liu, W.",
        TITLE = "BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24239-24250",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236444"}

@inproceedings{bb241529,
        AUTHOR = "Liang, S.Y. and Zhu, M.L. and Liu, A. and Wu, B.Y. and Cao, X.C. and Chang, E.C.",
        TITLE = "BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal
Contrastive Learning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24645-24654",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236445"}

@inproceedings{bb241530,
        AUTHOR = "Lu, D. and Wang, Z.Q. and Wang, T. and Guan, W. and Gao, H.C. and Zheng, F.",
        TITLE = "Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "102-111",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803atkvlm4.html#TT236446"}

@article{bb241531,
        AUTHOR = "Zhao, Z. and Wang, S. and Gu, J. and Zhu, Y. and Mei, L. and Zhuang, Z.X. and Cui, Z.M. and Wang, Q. and Shen, D.G.",
        TITLE = "ChatCAD+: Toward a Universal and Reliable Interactive CAD Using LLMs",
        JOURNAL = MedImg,
        VOLUME = "43",
        YEAR = "2024",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "3755-3766",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236447"}

@article{bb241532,
        AUTHOR = "Luo, H.N. and Zeng, Y.J. and Yang, L. and Chen, K. and Shen, Z.X. and Lv, F.M.",
        TITLE = "VLAI: Exploration and Exploitation based on Visual-Language Aligned
Information for Robotic Object Goal Navigation",
        JOURNAL = IVC,
        VOLUME = "151",
        YEAR = "2024",
        PAGES = "105259",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236448"}

@article{bb241533,
        AUTHOR = "Mansourian, A. and Oucheikh, R.",
        TITLE = "ChatGeoAI: Enabling Geospatial Analysis for Public through Natural
Language, with Large Language Models",
        JOURNAL = IJGI,
        VOLUME = "13",
        YEAR = "2024",
        NUMBER = "10",
        PAGES = "348",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236449"}

@article{bb241534,
        AUTHOR = "Li, D. and Zhao, Y. and Wang, Z.F. and Jung, C. and Zhang, Z.",
        TITLE = "Large Language Model-Driven Structured Output: A Comprehensive
Benchmark and Spatial Data Generation Framework",
        JOURNAL = IJGI,
        VOLUME = "13",
        YEAR = "2024",
        NUMBER = "11",
        PAGES = "405",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236450"}

@article{bb241535,
        AUTHOR = "Li, Y.X. and Hu, B.T. and Chen, X.Y. and Ma, L. and Xu, Y. and Zhang, M.",
        TITLE = "LMEye: An Interactive Perception Network for Large Language Models",
        JOURNAL = MultMed,
        VOLUME = "26",
        YEAR = "2024",
        PAGES = "10952-10964",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236451"}

@article{bb241536,
        AUTHOR = "Shao, R. and Zhang, Z.Y. and Tao, C. and Zhang, Y.S. and Peng, C.L. and Li, H.F.",
        TITLE = "Homogeneous tokenizer matters: Homogeneous visual tokenizer for
remote sensing image understanding",
        JOURNAL = PandRS,
        VOLUME = "218",
        YEAR = "2024",
        PAGES = "294-310",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236452"}

@article{bb241537,
        AUTHOR = "Wang, Z.H. and Luo, T. and Liu, C. and Liu, W.C. and Goh, R.S.M. and Wong, W.F.",
        TITLE = "Enabling Energy-Efficient Deployment of Large Language Models on
Memristor Crossbar: A Synergy of Large and Small",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "916-933",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236453"}

@article{bb241538,
        AUTHOR = "Zhan, Y. and Xiong, Z. and Yuan, Y.",
        TITLE = "SkyEyeGPT: Unifying remote sensing vision-language tasks via
instruction tuning with large language model",
        JOURNAL = PandRS,
        VOLUME = "221",
        YEAR = "2025",
        PAGES = "64-77",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236454"}

@article{bb241539,
        AUTHOR = "Zhu, Y. and Wen, Z.Y. and Li, X. and Shi, X.F. and Wu, X. and Dong, H. and Chen, J.M.",
        TITLE = "ChatNav: Leveraging LLM to Zero-Shot Semantic Reasoning in Object
Navigation",
        JOURNAL = CirSysVideo,
        VOLUME = "35",
        YEAR = "2025",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "2369-2381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236455"}

@article{bb241540,
        AUTHOR = "Marasco, E. and Bourlai, T.",
        TITLE = "Enhancing trust in Large Language Models for streamlined
decision-making in military operations",
        JOURNAL = IVC,
        VOLUME = "158",
        YEAR = "2025",
        PAGES = "105489",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236456"}

@article{bb241541,
        AUTHOR = "Qiao, D. and Ao, X. and Liu, Y. and Chen, X.T. and Song, F.Y. and Qin, Z. and Jin, W.Q.",
        TITLE = "Tri-AFLLM: Resource-Efficient Adaptive Asynchronous Accelerated
Federated LLMs",
        JOURNAL = CirSysVideo,
        VOLUME = "35",
        YEAR = "2025",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "4198-4211",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236457"}

@article{bb241542,
        AUTHOR = "Zhang, Y.X. and Liu, C.B. and Liu, Y.Z. and Gao, Y.F. and Lu, Z.Y. and Xie, H.T. and Zhang, Y.D.",
        TITLE = "Leveraging Concise Concepts With Probabilistic Modeling for
Interpretable Visual Recognition",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "3117-3131",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236458"}

@article{bb241543,
        AUTHOR = "Chen, L.F. and Hu, P. and Pan, Z.L. and Liu, Q. and Zhang, S.H. and Liu, Z.",
        TITLE = "Large Language Models Can Achieve Explainable and Training-Free
One-Shot HRRP ATR",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "3395-3399",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236459"}

@article{bb241544,
        AUTHOR = "Yang, S.Y. and Yu, W.J. and Yang, W.J. and Liu, X.W. and Tan, H.B. and Lan, L. and Xiao, N.",
        TITLE = "WildVideo: Benchmarking LMMs for Understanding Video-Language
Interaction",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "10",
        MONTH = "October",
        PAGES = "9330-9344",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236460"}

@article{bb241545,
        AUTHOR = "Chen, G. and Jiao, H.Y. and Hou, S.Y. and Liu, Z.Q. and Xie, L. and Wu, S. and Wu, H.Y. and Guan, X.F. and Gui, Z.P.",
        TITLE = "GeoJSEval: An Automated Evaluation Framework for Large Language
Models on JavaScript-Based Geospatial Computation and Visualization
Code Generation",
        JOURNAL = IJGI,
        VOLUME = "14",
        YEAR = "2025",
        NUMBER = "10",
        PAGES = "382",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236461"}

@article{bb241546,
        AUTHOR = "Zhang, H.J. and Dong, L. and Liu, Y. and Huang, Y.F. and Wang, Y.L. and Wang, L.M. and Qiao, Y.",
        TITLE = "LvBench: A Benchmark for Long-form Video Understanding with Versatile
Multi-modal Question Answering",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "7726-7747",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236462"}

@inproceedings{bb241547,
        AUTHOR = "Li, K.C. and Wang, Y. and He, Y. and Li, Y.Z. and Wang, Y. and Liu, Y. and Wang, Z. and Xu, J. and Chen, G. and Lou, P. and Wang, L.M. and Qiao, Y.",
        TITLE = "MVBench: A Comprehensive Multi-modal Video Understanding Benchmark",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "22195-22206",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236463"}

@article{bb241548,
        AUTHOR = "Wang, X.R. and Zhang, H. and Li, B. and Liang, K.M. and Sun, H. and He, Z.J. and Ma, Z.Y. and Guo, J.",
        TITLE = "Detailed Object Description With Controllable Dimensions",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "8474-8485",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236464"}

@article{bb241549,
        AUTHOR = "Peng, Z.R. and Liu, X.M. and Yang, G. and Liu, J. and Peng, X.P. and Long, Y.",
        TITLE = "The uncertainty advantage: Enhancing large language models'
reliability through chain of uncertainty reasoning",
        JOURNAL = PRL,
        VOLUME = "200",
        YEAR = "2026",
        PAGES = "30-36",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236465"}

@article{bb241550,
        AUTHOR = "Li, Y.X. and Liu, Z.Y. and Hu, B. and Wang, W. and Ding, Y.X. and Cao, X.C. and Zhang, M.",
        TITLE = "Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and
Sharing in LLMs",
        JOURNAL = IP,
        VOLUME = "35",
        YEAR = "2026",
        PAGES = "858-871",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236466"}

@article{bb241551,
        AUTHOR = "Shi, Y.Q. and Yang, R. and Yin, C.S. and Lu, Y.W. and Huang, B. and Tao, Y. and Zhong, Y.H.",
        TITLE = "Two-Stage Fine-Tuning of Large Vision-Language Models with
Hierarchical Prompting for Few-Shot Object Detection in Remote
Sensing Images",
        JOURNAL = RS,
        VOLUME = "18",
        YEAR = "2026",
        NUMBER = "2",
        PAGES = "266",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236467"}

@article{bb241552,
        AUTHOR = "Li, Q.Y. and Ma, S. and Luo, J.W. and Yu, Y. and Zhou, Y. and Wang, F.X. and Lu, X.D. and Wang, X.X. and He, X. and Chen, Y.S. and Yang, X.",
        TITLE = "Co-Training Vision-Language Models for Remote Sensing Multi-Task
Learning",
        JOURNAL = RS,
        VOLUME = "18",
        YEAR = "2026",
        NUMBER = "2",
        PAGES = "222",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236468"}

@article{bb241553,
        AUTHOR = "Zhang, D. and Li, Z.Z. and Zhang, M.L. and Zhang, J.X. and Liu, Z.Y. and Yao, Y.X. and Xu, H.T. and Zheng, J.H. and Chen, X. and Zhang, Y.Y. and Yin, F. and Dong, J.H. and Guo, Z.J. and Song, L. and Liu, C.L.",
        TITLE = "From System 1 to System 2: A Survey of Reasoning Large Language
Models",
        JOURNAL = PAMI,
        VOLUME = "48",
        YEAR = "2026",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "3335-3354",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236469"}

@article{bb241554,
        AUTHOR = "Musacchio, E. and Siciliani, L. and Basile, P. and Semeraro, G.",
        TITLE = "Extending Large Language Models to multimodality for non-English
languages",
        JOURNAL = CVIU,
        VOLUME = "264",
        YEAR = "2026",
        PAGES = "104618",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236470"}

@article{bb241555,
        AUTHOR = "Wang, X. and Pan, Z. and Chen, H. and Zhu, W.W.",
        TITLE = "DiViCo: Disentangled Visual Token Compression for Efficient Large
Vision-Language Model",
        JOURNAL = CirSysVideo,
        VOLUME = "36",
        YEAR = "2026",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "1392-1405",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236471"}

@article{bb241556,
        AUTHOR = "Liu, Z.Y. and Sun, Z.Y. and Zang, Y.H. and Li, W. and Zhang, P. and Dong, X.Y. and Xiong, Y.J. and Lin, D. and Wang, J.Q.",
        TITLE = "RAR: Retrieving and Ranking Augmented MLLMs for Visual Recognition",
        JOURNAL = IP,
        VOLUME = "35",
        YEAR = "2026",
        PAGES = "388-401",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236472"}

@inproceedings{bb241557,
        AUTHOR = "Liu, Z.X. and Jiang, G.K. and Khajavi, S.",
        TITLE = "LLaVA-SCo: Teach Vision Language Models to Self-Correct",
        BOOKTITLE = WiCV25,
        YEAR = "2025",
        PAGES = "3406-3415",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236473"}

@inproceedings{bb241558,
        AUTHOR = "Khattak, M.U. and Naeem, M.F. and Hassan, J. and Naseer, M. and Tombari, F. and Khan, F.S. and Khan, S.",
        TITLE = "How Good is my Video-LMM? Complex Video Reasoning and Robustness
Evaluation Suite for Video-LMMs",
        BOOKTITLE = WhatNext25,
        YEAR = "2025",
        PAGES = "3642-3651",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236474"}

@inproceedings{bb241559,
        AUTHOR = "Pham, C. and Phan, H. and Doermann, D. and Tian, Y.J.",
        TITLE = "PLVM: A Tuning-Free Approach for Personalized Large Vision-Language
Model",
        BOOKTITLE = WhatNext25,
        YEAR = "2025",
        PAGES = "3632-3641",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236475"}

@inproceedings{bb241560,
        AUTHOR = "Xie, H.C. and Ma, R. and Zhu, J.G. and Mai, Z. and Abd Almageed, W. and Abraham, Z.",
        TITLE = "Efficiently Mitigating Video Content Misalignment on Large Vision
Model with Time-Series Data Alignment",
        BOOKTITLE = LargeVM25,
        YEAR = "2025",
        PAGES = "3292-3298",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236476"}

@inproceedings{bb241561,
        AUTHOR = "Li, Y.F. and Bao, W.T. and Ye, B.T. and Tan, Z. and Chen, T.L. and Liu, H. and Kong, Y.",
        TITLE = "Window Token Concatenation for Efficient Visual Large Language Models",
        BOOKTITLE = LargeVM25,
        YEAR = "2025",
        PAGES = "3178-3188",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236477"}

@inproceedings{bb241562,
        AUTHOR = "Huang, Y.Q. and Qi, H. and Chen, Z. and Zhang, H.P. and Yu, H.C. and Zhao, Z.",
        TITLE = "Autonomous Multimodal Reasoning via Implicit Chain-of-Vision",
        BOOKTITLE = Reasoning25,
        YEAR = "2025",
        PAGES = "2954-2963",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236478"}

@inproceedings{bb241563,
        AUTHOR = "Mushtaq, E. and Fabian, Z. and Bakman, Y.F. and Ramakrishna, A. and Soltanolkotabi, M. and Avestimehr, S.",
        TITLE = "HARMONY: Hidden Activation Representations and Model Output-Aware
Uncertainty Estimation for Vision-Language Models",
        BOOKTITLE = TrustworthyOpen25,
        YEAR = "2025",
        PAGES = "1654-1659",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236479"}

@inproceedings{bb241564,
        AUTHOR = "Wang, Z. and Lo, F.P.W. and Chen, Q. and Zhang, Y.Q. and Lin, C. and Chen, X. and Yu, Z.H. and Thompson, A.J. and Yeatman, E.M. and Lo, B.P.L.",
        TITLE = "An LLM-Enabled Multi-Agent Autonomous Mechatronics Design Framework",
        BOOKTITLE = MultiEmbodied25,
        YEAR = "2025",
        PAGES = "4205-4215",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236480"}

@inproceedings{bb241565,
        AUTHOR = "Chen, J.H. and Yang, Z.Q. and Xu, H.Y.G. and Zhang, D.D. and Mylonas, G.",
        TITLE = "Multi-Agent Systems for Robotic Autonomy with LLMs",
        BOOKTITLE = MultiEmbodied25,
        YEAR = "2025",
        PAGES = "4194-4204",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236481"}

@inproceedings{bb241566,
        AUTHOR = "Singh, K. and Singh, S. and Khanna, M.",
        TITLE = "Trishul: Towards Region Identification and Screen Hierarchy
Understanding for Large VLM Based GUI Agents",
        BOOKTITLE = "MULA25",
        YEAR = "2025",
        PAGES = "170-179",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236482"}

@inproceedings{bb241567,
        AUTHOR = "Ardakani, M. and Malekar, J. and Zand, R.",
        TITLE = "LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi",
        BOOKTITLE = EDGE25,
        YEAR = "2025",
        PAGES = "6369-6378",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236483"}

@inproceedings{bb241568,
        AUTHOR = "Villa, A. and Alcazar, J.L. and Soto, A. and Ghanem, B.",
        TITLE = "Behind the Magic, MERLIM: Multi-Modal Evaluation Benchmark for Large
Image-Language Models",
        BOOKTITLE = "AIBench25",
        YEAR = "2025",
        PAGES = "492-502",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236484"}

@inproceedings{bb241569,
        AUTHOR = "Mei, G.F. and Lin, W. and Riz, L. and Wu, Y.J. and Poiesi, F. and Wang, Y.M.",
        TITLE = "PerLA: Perceptive 3D language assistant",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14369-14379",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236485"}

@inproceedings{bb241570,
        AUTHOR = "Han, Y.D. and Guo, Q. and Pan, L.Y. and Liu, L. and Guan, Y. and Yang, M.",
        TITLE = "DynFocus: Dynamic Cooperative Network Empowers LLMs with Video
Understanding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "8512-8522",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236486"}

@inproceedings{bb241571,
        AUTHOR = "Liu, Y. and Liang, Z.Y. and Wang, Y.Z. and Wu, X.F. and Tang, F.L. and He, M. and Li, J. and Liu, Z. and Yang, H. and Lim, S. and Zhao, B.",
        TITLE = "Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering
Incorrectly",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9087-9097",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236487"}

@inproceedings{bb241572,
        AUTHOR = "Wang, Z.T. and Hu, S.M. and Zhao, S.Y. and Lin, X.W. and Juefei Xu, F. and Li, Z. and Han, L. and Subramanyam, H. and Chen, L. and Chen, J. and Jiang, N. and Lyu, L. and Ma, S.Q. and Metaxas, D.N. and Jain, A.",
        TITLE = "MLLM-as-a-Judge for Image Safety without Human Labeling",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14657-14666",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236488"}

@inproceedings{bb241573,
        AUTHOR = "Zhu, M. and Tian, Y.Z. and Chen, H. and Zhou, C. and Guo, Q. and Liu, Y. and Yang, M. and Shen, C.H.",
        TITLE = "SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by
Imitating Human Annotator Trajectories",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3686-3696",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236489"}

@inproceedings{bb241574,
        AUTHOR = "Zhu, L. and Chen, T.R. and Xu, Q.X. and Liu, X. and Ji, D. and Wu, H.Y. and Soh, D.W. and Liu, J.",
        TITLE = "POPEN: Preference-Based Optimization and Ensemble for LVLM-Based
Reasoning Segmentation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "30231-30240",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236490"}

@inproceedings{bb241575,
        AUTHOR = "Niu, J. and Li, Y.F. and Miao, Z.Y. and Ge, C.J. and Zhou, Y.H. and He, Q.H. and Dong, X.Y. and Duan, H.D. and Ding, S. and Qian, R. and Zhang, P. and Zang, Y.H. and Cao, Y.H. and He, C.H. and Wang, J.Q.",
        TITLE = "OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video
Understanding?",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "18902-18913",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236491"}

@inproceedings{bb241576,
        AUTHOR = "Xue, X.Y. and Lu, Z. and Huang, D. and Wang, Z.D. and Ouyang, W.L. and Bai, L.",
        TITLE = "ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously
Designing Collaborative AI Systems",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24614-24624",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236492"}

@inproceedings{bb241577,
        AUTHOR = "Zhao, Z. and Huo, Y.Q. and Yue, T.T. and Guo, L.T. and Lu, H.Y. and Wang, B.N. and Chen, W.P. and Liu, J.",
        TITLE = "Efficient Motion-Aware Video MLLM",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24159-24168",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236493"}

@inproceedings{bb241578,
        AUTHOR = "Wu, R.H. and Su, W. and Liao, J.",
        TITLE = "Chat2SVG: Vector Graphics Generation with Large Language Models and
Image Diffusion Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "23690-23700",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236494"}

@inproceedings{bb241579,
        AUTHOR = "Yang, S. and Chen, Y. and Tian, Z. and Wang, C.Y. and Li, J.Y. and Yu, B. and Jia, J.Y.",
        TITLE = "VisionZip: Longer is Better but Not Necessary in Vision Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19792-19802",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236495"}

@inproceedings{bb241580,
        AUTHOR = "Xie, J.Y. and Yang, J.T. and Luo, Z. and Cao, Y. and Gao, Q. and Zhang, M.Y. and Hu, W.P.",
        TITLE = "AdaDARE-y: Balancing Stability and Plasticity in Multi-modal LLMs
through Efficient Adaptation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19758-19768",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236496"}

@inproceedings{bb241581,
        AUTHOR = "Tao, K. and Qin, C. and You, H.X. and Sui, Y. and Wang, H.",
        TITLE = "DyCoke: Dynamic Compression of Tokens for Fast Video Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "18992-19001",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236497"}

@inproceedings{bb241582,
        AUTHOR = "Tao, C.X. and Su, S.Q. and Zhu, X.Z. and Zhang, C.Y. and Chen, Z. and Liu, J. and Wang, W.H. and Lu, L.W. and Huang, G. and Qiao, Y. and Dai, J.F.",
        TITLE = "HoVLE: Unleashing the Power of Monolithic Vision-Language Models with
Holistic Vision-Language Embedding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14559-14569",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236498"}

@inproceedings{bb241583,
        AUTHOR = "Yin, H. and Si, G.Z. and Wang, Z.",
        TITLE = "Lifting the Veil on Visual Information Flow in MLLMs: Unlocking
Pathways to Faster Inference",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9382-9391",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236499"}

@inproceedings{bb241584,
        AUTHOR = "Yang, L.R. and Shen, D. and Cai, C.X. and Chen, K.B. and Yang, F. and Gao, T.T. and Zhang, D. and Li, X.",
        TITLE = "Libra-Merging: Importance-Redundancy and Pruning-Merging Trade-Off
for Acceleration Plug-In in Large Vision-Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9402-9412",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236500"}

@inproceedings{bb241585,
        AUTHOR = "Liang, Y. and Wang, Z.W. and Xu, X.W. and Zhou, J. and Lu, J.W.",
        TITLE = "EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9445-9454",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236501"}

@inproceedings{bb241586,
        AUTHOR = "Heo, M. and Chen, M.H. and Huang, D.A. and Liu, S. and Radhakrishnan, S. and Kim, S.J. and Wang, Y.C.A.F. and Hachiuma, R.",
        TITLE = "Omni-RGPT: Unifying Image and Video Region-level Understanding via
Token Marks",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3919-3930",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236502"}

@inproceedings{bb241587,
        AUTHOR = "Ouali, Y. and Bulat, A. and Xenos, A. and Zaganidis, A. and Metaxas, I.M. and Martinez, B. and Tzimiropoulos, G.",
        TITLE = "VladVA: Discriminative Fine-tuning of LVLMs",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4101-4111",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236503"}

@inproceedings{bb241588,
        AUTHOR = "Schnaus, D. and Araslanov, N. and Cremers, D.",
        TITLE = "It's a (Blind) Match! Towards Vision-Language Correspondence without
Parallel Data",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24983-24992",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236504"}

@inproceedings{bb241589,
        AUTHOR = "Zhao, Y.Q. and Yin, Y.Y. and Li, L. and Lin, M. and Huang, V.S.J. and Chen, S.W. and Chen, W.P. and Yin, B. and Zhou, Z. and Zhang, W.T.",
        TITLE = "Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual
Knowledge",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24950-24959",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236505"}

@inproceedings{bb241590,
        AUTHOR = "Ye, X. and Gan, Y. and Huang, X. and Ge, Y.X. and Tang, Y.S.",
        TITLE = "VoCo-LLaMA: Towards Vision Compression with Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29836-29846",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236506"}

@inproceedings{bb241591,
        AUTHOR = "Hu, Y. and Song, Z.K. and Feng, N. and Luo, Y. and Yu, J.Q. and Chen, Y.P.P. and Yang, W.",
        TITLE = "SF2T: Self-supervised Fragment Finetuning of Video-LLMs for
Fine-Grained Understanding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29108-29117",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236507"}

@inproceedings{bb241592,
        AUTHOR = "Chen, J. and Zeng, Z.Y. and Lin, Y.Q. and Li, W. and Ma, Z. and Shou, M.Z.",
        TITLE = "Live: Learning Video LLM with Streaming Speech Transcription at Scale",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29083-29095",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236508"}

@inproceedings{bb241593,
        AUTHOR = "Wang, Z.W. and Chen, W.Z. and Yang, L. and Zhou, S. and Zhao, S. and Zhan, H. and Jin, J.C. and Li, L.C. and Shao, Z. and Bu, J.J.",
        TITLE = "MP-GUI: Modality Perception with MLLMs for GUI Understanding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29711-29721",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236509"}

@inproceedings{bb241594,
        AUTHOR = "Vayani, A. and Dissanayake, D. and Watawana, H. and Ahsan, N. and Sasikumar, N. and Thawakar, O. and Ademtew, H.B. and Hmaiti, Y. and Kumar, A. and Kuckreja, K. and Maslych, M. and Ghallabi, W.A. and Mihaylov, M. and Qin, C. and Shaker, A.M. and Zhang, M. and Ihsani, M.K. and Esplana, A. and Gokani, M. and Mirkin, S. and Singh, H. and Srivastava, A. and Hamerlik, E. and Izzati, F.A. and Maani, F.A. and Cavada, S. and Chim, J. and Gupta, R. and Manjunath, S. and Zhumakhanova, K. and Rabevohitra, F.H. and Amirudin, A. and Ridzuan, M. and Kareem, D. and More, K. and Li, K. and Shakya, P. and Saad, M. and Ghasemaghaei, A. and Djanibekov, A. and Azizov, D. and Jankovic, B. and Bhatia, N. and Cabrera, A. and Obando Ceron, J. and Otieno, O. and Farestam, F. and Rabbani, M. and Baliah, S. and Sanjeev, S. and Shtanchaev, A. and Fatima, M. and Nguyen, T. and Kareem, A. and Aremu, T. and Xavier, N. and Bhatkal, A. and Toyin, H. and Chadha, A. and Cholakkal, H. and Anwer, R.M. and Felsberg, M. and Laaksonen, J. and Solorio, T. and Choudhury, M. and Laptev, I. and Shah, M. and Khan, S. and Khan, F.S.",
        TITLE = "All Languages Matter: Evaluating LMMs on Culturally Diverse 100
Languages",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19565-19575",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236510"}

@inproceedings{bb241595,
        AUTHOR = "Cao, A. and Wei, X. and Ma, Z.H.",
        TITLE = "FLAME: Frozen Large Language Models Enable Data-Efficient
Language-Image Pre-training",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4080-4090",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236511"}

@inproceedings{bb241596,
        AUTHOR = "Bi, J. and Guo, J.J. and Tang, Y.L. and Wen, L.G.B. and Liu, Z. and Wang, B.J. and Xu, C.L.",
        TITLE = "Unveiling Visual Perception in Language Models: An Attention Head
Analysis Approach",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4135-4144",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236512"}

@inproceedings{bb241597,
        AUTHOR = "Li, S. and Hu, Y.C. and Ning, X.F. and Liu, X.H. and Hong, K. and Jia, X.T. and Li, X. and Yan, Y.Q. and Ran, P. and Dai, G.H. and Yan, S. and Yang, H.Z. and Wang, Y.",
        TITLE = "MBQ: Modality-Balanced Quantization for Large Vision-Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4167-4177",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236513"}

@inproceedings{bb241598,
        AUTHOR = "Liu, Z. and Li, Y.Q. and Nguyen, K.D. and Zhong, Y. and Li, Y.",
        TITLE = "PAVE: Patching and Adapting Video Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3306-3317",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236514"}

@inproceedings{bb241599,
        AUTHOR = "Malakouti, S. and Aghazadeh, A. and Khandelwal, A. and Kovashka, A.",
        TITLE = "Benchmarking VLMs' Reasoning About Persuasive Atypical Images",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "4788-4798",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT236515"}
Last update:Apr 6, 2026 at 11:28:57