20.4.3.3.15 Large Language Models, Evaluations, Benchmarks, Surveys

Chapter Contents (Back)
Large Language Models. LLM. Evaluation. Benchmarks.

Li, H.D.[Hao-Dong], Zhang, X.F.[Xiao-Feng], Qu, H.C.[Hai-Cheng],
DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark,
RS(17), No. 4, 2025, pp. 719.
DOI Link 2502
BibRef

Xu, P.[Peng], Shao, W.Q.[Wen-Qi], Zhang, K.P.[Kai-Peng], Gao, P.[Peng], Liu, S.[Shuo], Lei, M.[Meng], Meng, F.Q.[Fan-Qing], Huang, S.Y.[Si-Yuan], Qiao, Y.[Yu], Luo, P.[Ping],
LVLM-EHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models,
PAMI(47), No. 3, March 2025, pp. 1877-1893.
IEEE DOI 2502
Visualization, Benchmark testing, Data models, Cognition, Training data,Optical character recognition, Tuning, Training, multi-turnevaluation BibRef

Wang, J.[Jin], Lv, C.H.[Cheng-Hui], Li, X.[Xian], Dong, S.C.[Shi-Chao], Li, H.D.[Hua-Dong], Yao, K.[Kelu], Li, C.[Chao], Shao, W.Q.[Wen-Qi], Luo, P.[Ping],
Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models,
CVPR25(4233-4245)
IEEE DOI 2508
Visualization, Semantics, Detectors, Benchmark testing, Media, Forgery, Cognition, Internet, Security, forgery detection, large vision language models BibRef

Qin, Z.[Zhen], Chen, D.Y.[Dao-Yuan], Zhang, W.H.[Wen-Hao], Yao, L.[Liuyi], Huang, Y.L.[Yi-Lun], Ding, B.L.[Bo-Lin], Li, Y.L.[Ya-Liang], Deng, S.G.[Shui-Guang],
The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective,
PAMI(47), No. 10, October 2025, pp. 8415-8434.
IEEE DOI 2510
Data models, Surveys, Training, Taxonomy, Reviews, Pipelines, Usability, Large language models, Cognition, Analytical models, data-model co-development BibRef

Zhang, Y.H.[Yu-Hui], Su, Y.C.[Yu-Chang], Liu, Y.M.[Yi-Ming], Wang, X.H.[Xiao-Han], Burgess, J.[James], Sui, E.[Elaine], Wang, C.Y.[Chen-Yu], Aklilu, J.[Josiah], Lozano, A.[Alejandro], Wei, A.[Anjiang], Schmidt, L.[Ludwig], Yeung-Levy, S.[Serena],
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation,
CVPR25(29580-29590)
IEEE DOI 2508
Visualization, Accuracy, Natural languages, Transforms, Benchmark testing, Question answering (information retrieval), multiple choice questions BibRef

Jiang, X.[Xin], Zheng, J.W.[Jun-Wei], Liu, R.P.[Rui-Ping], Li, J.H.[Jia-Hang], Zhang, J.M.[Jia-Ming], Matthiesen, S.[Sven], Stiefelhagen, R.[Rainer],
@BENCH: Benchmarking Vision-Language Models for Human-centered Assistive Technology,
WACV25(3934-3943)
IEEE DOI 2505
Image segmentation, Visualization, Depth measurement, Optical character recognition, Visual impairment, VQA BibRef

Xiong, T.Y.[Tian-Yi], Wang, X.Y.[Xi-Yao], Guo, D.[Dong], Ye, Q.H.[Qing-Hao], Fan, H.Q.[Hao-Qi], Gu, Q.Q.[Quan-Quan], Huang, H.[Heng], Li, C.Y.[Chun-Yuan],
LLLaVA-Critic: Learning to Evaluate Multimodal Models,
CVPR25(13618-13628)
IEEE DOI 2508
Visualization, Computational modeling, Benchmark testing, Reliability, large multimodal models, multimodal evaluation, preference learning BibRef

Zhang, Q.H.[Qi-Hui], Ning, M.[Munan], Liu, Z.[Zheyuan], Huang, Y.[Yue], Yang, S.[Shuo], Wang, Y.B.[Yan-Bo], Ye, J.Y.[Jia-Yi], Chen, X.[Xiao], Song, Y.B.[Yi-Bing], Yuan, L.[Li],
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation,
CVPR25(9165-9174)
IEEE DOI 2508
Visualization, Correlation, Reviews, Large language models, Face recognition, Benchmark testing, Data models, evaluation BibRef

Fu, C.[Chaoyou], Dai, Y.H.[Yu-Han], Luo, Y.D.[Yong-Dong], Li, L.[Lei], Ren, S.[Shuhuai], Zhang, R.R.[Ren-Rui], Wang, Z.[Zihan], Zhou, C.Y.[Chen-Yu], Shen, Y.H.[Yun-Hang], Zhang, M.D.[Meng-Dan], Chen, P.X.[Pei-Xian], Li, Y.W.[Yan-Wei], Lin, S.H.[Shao-Hui], Zhao, S.[Sirui], Li, K.[Ke], Xu, T.[Tong], Zheng, X.[Xiawu], Chen, E.[Enhong], Shan, C.F.[Cai-Feng], He, R.[Ran], Sun, X.[Xing],
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis,
CVPR25(24108-24118)
IEEE DOI Code:
WWW Link. 2508
Visualization, Large language models, Manuals, Benchmark testing, Distance measurement, Reliability, Labeling, benchmark BibRef

Zhang, J.Y.[Jian-Yi], Yang, H.[Hao], Li, A.[Ang], Guo, X.[Xin], Wang, P.[Pu], Wang, H.M.[Hai-Ming], Chen, Y.R.[Yi-Ran], Li, H.[Hai],
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning,
WACV25(4066-4076)
IEEE DOI 2505
Training, Performance evaluation, Privacy, Heavily-tailed distribution, Federated learning, Servers BibRef

Snæbjarnarson, V.[Vésteinn], Du, K.[Kevin], Stoehr, N.[Niklas], Belongie, S.[Serge], Cotterell, R.[Ryan], Lang, N.[Nico], Frank, S.[Stella],
Taxonomy-Aware Evaluation of Vision-Language Models,
CVPR25(9109-9120)
IEEE DOI Code:
WWW Link. 2508
Non-flowering plants, Visualization, Codes, Accuracy, Computational modeling, Taxonomy, Predictive models, evaluation, vision-and-language BibRef

Tu, H.Q.[Hao-Qin], Cui, C.[Chenhang], Wang, Z.J.[Zi-Jun], Zhou, Y.Y.[Yi-Yang], Zhao, B.C.[Bing-Chen], Han, J.L.[Jun-Lin], Zhou, W.C.S.[Wang-Chun-Shu], Yao, H.X.[Hua-Xiu], Xie, C.[Cihang],
How Many Are in This Image A Safety Evaluation Benchmark for Vision LLMs,
ECCV24(LI: 37-55).
Springer DOI 2412
BibRef

Liu, X.[Xin], Zhu, Y.C.[Yi-Chen], Gu, J.D.[Jin-Dong], Lan, Y.[Yunshi], Yang, C.[Chao], Qiao, Y.[Yu],
MM-Safetybench: A Benchmark for Safety Evaluation of Multimodal Large Language Models,
ECCV24(LVI: 386-403).
Springer DOI 2412
BibRef

Roberts, J.[Jonathan], Lüddecke, T.[Timo], Sheikh, R.[Rehan], Han, K.[Kai], Albanie, S.[Samuel],
Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs,
EarthVision24(554-563)
IEEE DOI 2410
Visualization, Image segmentation, Navigation, Large language models, Disasters, Focusing, Benchmark testing, Evaluation BibRef

Verma, A.A.[Aayush Atul], Saeidi, A.[Amir], Hegde, S.[Shamanthak], Therala, A.[Ajay], Bardoliya, F.D.[Fenil Denish], Machavarapu, N.[Nagaraju], Ravindhiran, S.A.K.[Shri Ajay Kumar], Malyala, S.[Srija], Chatterjee, A.[Agneet], Yang, Y.Z.[Ye-Zhou], Baral, C.[Chitta],
Evaluating Multimodal Large Language Models across Distribution Shifts and Augmentations,
GenerativeFM24(5314-5324)
IEEE DOI 2410
Analytical models, Shape, Large language models, Computational modeling, Perturbation methods, Benchmark testing, Robustness BibRef

Hu, Y.T.[Yu-Tao], Li, T.[Tianbin], Lu, Q.[Quanfeng], Shao, W.Q.[Wen-Qi], He, J.J.[Jun-Jun], Qiao, Y.[Yu], Luo, P.[Ping],
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM,
CVPR24(22170-22183)
IEEE DOI Code:
WWW Link. 2410
Reflectivity, Visualization, Biological system modeling, Computational modeling, Medical services, Benchmark testing BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Image-Text Matching, Image Text Retrieval, Image-Text Retrieval .

Last update:Jul 6, 2026 at 19:51:11