Keith Price Bibliography Bibtex Entry (ANCHOR 242100 URL http://dx.doi.org/10.1016/j.patrec.2025.04.007 PAGES 64-70 YEAR 2025 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat825vc4.html#TT237003 VOLUME 193 JOURNAL PRL AUTHOR Ren, X. and Han, Y.F. and Wei, B. and Tang, X.S. and Hao, K.R. TITLE From visual features to key concepts: A Dynamic and Static Concept-driven approach for video captioning)


@article{bb242100,
        AUTHOR = "Ren, X. and Han, Y.F. and Wei, B. and Tang, X.S. and Hao, K.R.",
        TITLE = "From visual features to key concepts: A Dynamic and Static
Concept-driven approach for video captioning",
        JOURNAL = PRL,
        VOLUME = "193",
        YEAR = "2025",
        PAGES = "64-70",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237003"}

@article{bb242101,
        AUTHOR = "Wang, Y. and Liu, Y.Y. and Zhou, S.P. and Huang, Y.X. and Tang, C. and Zhou, W. and Chen, Z.",
        TITLE = "Emotion-Oriented Cross-Modal Prompting and Alignment for
Human-Centric Emotional Video Captioning",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "3766-3780",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237004"}

@article{bb242102,
        AUTHOR = "Luo, H.L. and Cai, X. and Shark, L.K.",
        TITLE = "Frame-by-Frame Multi-Object Tracking-Guided Video Captioning",
        JOURNAL = CirSysVideo,
        VOLUME = "35",
        YEAR = "2025",
        NUMBER = "7",
        MONTH = "July",
        PAGES = "6357-6370",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237005"}

@article{bb242103,
        AUTHOR = "Choi, W. and Chen, J. and Yoon, J.W.",
        TITLE = "ADVC: Adversarial dense video captioning with unsupervised
pretraining",
        JOURNAL = IVC,
        VOLUME = "161",
        YEAR = "2025",
        PAGES = "105595",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237006"}

@inproceedings{bb242104,
        AUTHOR = "Wu, K. and Li, P. and Fu, J.W. and Li, Y.Z. and Wu, Y. and Liu, Y.H. and Wang, J.J. and Zhou, S.P.",
        TITLE = "Event-Equalized Dense Video Captioning",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "8417-8427",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237007"}

@inproceedings{bb242105,
        AUTHOR = "Xue, Z.H. and An, J.B. and Yang, X.T. and Grauman, K.",
        TITLE = "Progress-Aware Video Frame Captioning",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "13639-13650",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237008"}

@inproceedings{bb242106,
        AUTHOR = "Lee, S.H. and Wang, J. and Fan, D. and Zhang, Z.K. and Liu, L. and Hao, X. and Bhat, V. and Li, X.Y.",
        TITLE = "Now you see Me: Context-Aware Automatic Audio Description",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "5530-5539",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237009"}

@inproceedings{bb242107,
        AUTHOR = "Kainulainen, J. and Guo, Z.X. and Laaksonen, J.",
        TITLE = "Diffusion-based Multimodal Video Captioning",
        BOOKTITLE = ACCV24,
        YEAR = "2024",
        PAGES = "III: 148-165",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237010"}

@inproceedings{bb242108,
        AUTHOR = "Perrett, T. and Han, T. and Damen, D. and Zisserman, A.",
        TITLE = "It's Just Another Day:
Unique Video Captioning by Discriminitive Prompting",
        BOOKTITLE = ACCV24,
        YEAR = "2024",
        PAGES = "III: 275-293",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237011"}

@inproceedings{bb242109,
        AUTHOR = "Kim, B. and Hwang, D. and Cho, S.J. and Jang, Y.S. and Lee, H.L. and Lee, M.",
        TITLE = "Show, Think, and Tell: Thought-Augmented Fine-Tuning of Large
Language Models for Video Captioning",
        BOOKTITLE = WhatNext24,
        YEAR = "2024",
        PAGES = "1808-1817",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237012"}

@inproceedings{bb242110,
        AUTHOR = "Shen, Y.H. and Yang, L.J. and Wen, L.Y. and Yu, H.C. and Elhamifar, E. and Wang, H.",
        TITLE = "Exploring the Role of Audio in Video Captioning",
        BOOKTITLE = MULA24,
        YEAR = "2024",
        PAGES = "2090-2100",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237013"}

@inproceedings{bb242111,
        AUTHOR = "Shoman, M. and Wang, D.D. and Aboah, A. and Abdel Aty, M.",
        TITLE = "Enhancing Traffic Safety with Parallel Dense Video Captioning for
End-to-End Event Analysis",
        BOOKTITLE = AICity24,
        YEAR = "2024",
        PAGES = "7125-7133",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237014"}

@inproceedings{bb242112,
        AUTHOR = "Wu, H. and Liu, H. and Qiao, Y. and Sun, X.",
        TITLE = "DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via
Pseudo Boundary Enrichment and Online Refinement",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18699-18708",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237015"}

@inproceedings{bb242113,
        AUTHOR = "Zhou, X.Y. and Arnab, A. and Buch, S. and Yan, S. and Myers, A. and Xiong, X. and Nagrani, A. and Schmid, C.",
        TITLE = "Streaming Dense Video Captioning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18243-18252",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237016"}

@inproceedings{bb242114,
        AUTHOR = "Kim, M. and Kim, H.B. and Moon, J. and Choi, J. and Kim, S.T.",
        TITLE = "Do You Remember? Dense Video Captioning with Cross-Modal Memory
Retrieval",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13894-13904",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237017"}

@inproceedings{bb242115,
        AUTHOR = "Xu, J. and Huang, Y.F. and Hou, J.L. and Chen, G. and Zhang, Y. and Feng, R. and Xie, W.",
        TITLE = "Retrieval-Augmented Egocentric Video Captioning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "13525-13536",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237018"}

@inproceedings{bb242116,
        AUTHOR = "Malakan, Z.M. and Hassan, G.M. and Mian, A.",
        TITLE = "Sequential Image Storytelling Model Based on Transformer Attention
Pooling",
        BOOKTITLE = IVCNZ23,
        YEAR = "2023",
        PAGES = "1-6",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237019"}

@inproceedings{bb242117,
        AUTHOR = "Sakaino, H.",
        TITLE = "Unseen and Adverse Outdoor Scenes Recognition Through Event-based
Captions",
        BOOKTITLE = VCL23,
        YEAR = "2023",
        PAGES = "3596-3603",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237020"}

@inproceedings{bb242118,
        AUTHOR = "Ma, Z.Y. and Zhang, Z.Q. and Chen, Y.X. and Qi, Z.A. and Luo, Y.M. and Li, Z.K. and Yuan, C.F. and Li, B. and Qie, X. and Shan, Y. and Hu, W.M.",
        TITLE = "Order-Prompted Tag Sequence Generation for Video Tagging",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15635-15644",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237021"}

@inproceedings{bb242119,
        AUTHOR = "Bulat, A. and Sanchez, E. and Martinez, B. and Tzimiropoulos, G.",
        TITLE = "ReGen: A good Generative zero-shot video classifier should be
Rewarded",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "13477-13487",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237022"}

@inproceedings{bb242120,
        AUTHOR = "Shen, Y.J. and Gu, X. and Xu, K. and Fan, H. and Wen, L.Y. and Zhang, L.",
        TITLE = "Accurate and Fast Compressed Video Captioning",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15512-15521",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237023"}

@inproceedings{bb242121,
        AUTHOR = "Lin, W. and Jin, T. and Wang, Y. and Pan, W.W. and Li, L.J. and Cheng, X.Z. and Zhao, Z.",
        TITLE = "Exploring Group Video Captioning with Efficient Relational
Approximation",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15235-15244",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237024"}

@inproceedings{bb242122,
        AUTHOR = "Damaceno, R.J.P. and Cesar, R.M.",
        TITLE = "An End-to-end Deep Learning Approach for Video Captioning Through
Mobile Devices",
        BOOKTITLE = CIARP23,
        YEAR = "2023",
        PAGES = "I:715-729",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237025"}

@inproceedings{bb242123,
        AUTHOR = "Munusamy, H. and Sekhar, C.C.",
        TITLE = "Multi-Modal Hierarchical Attention-Based Dense Video Captioning",
        BOOKTITLE = ICIP23,
        YEAR = "2023",
        PAGES = "475-479",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237026"}

@inproceedings{bb242124,
        AUTHOR = "Chen, K.X. and Di, Q.J. and Lu, Y. and Wang, H.Z.",
        TITLE = "Semantic Learning Network for Controllable Video Captioning",
        BOOKTITLE = ICIP23,
        YEAR = "2023",
        PAGES = "880-884",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237027"}

@inproceedings{bb242125,
        AUTHOR = "Nadeem, A. and Hilton, A. and Dawes, R. and Thomas, G. and Mustafa, A.",
        TITLE = "SEM-POS: Grammatically and Semantically Correct Video Captioning",
        BOOKTITLE = MULA23,
        YEAR = "2023",
        PAGES = "2606-2616",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237028"}

@inproceedings{bb242126,
        AUTHOR = "Ullah, N. and Mohanta, P.P.",
        TITLE = "Thinking Hallucination for Video Captioning",
        BOOKTITLE = ACCV22,
        YEAR = "2022",
        PAGES = "IV:623-640",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237029"}

@inproceedings{bb242127,
        AUTHOR = "Seo, P.H. and Nagrani, A. and Arnab, A. and Schmid, C.",
        TITLE = "End-to-end Generative Pretraining for Multimodal Video Captioning",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "17938-17947",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237030"}

@inproceedings{bb242128,
        AUTHOR = "Lin, K. and Li, L.J. and Lin, C.C. and Ahmed, F. and Gan, Z. and Liu, Z.C. and Lu, Y. and Wang, L.J.",
        TITLE = "SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "17928-17937",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237031"}

@inproceedings{bb242129,
        AUTHOR = "Shi, Y. and Yang, X. and Xu, H.Y. and Yuan, C.F. and Li, B. and Hu, W.M. and Zha, Z.J.",
        TITLE = "EMScore: Evaluating Video Captioning via Coarse-Grained and
Fine-Grained Embedding Matching",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "17908-17917",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237032"}

@inproceedings{bb242130,
        AUTHOR = "Chen, S.X. and Jiang, Y.G.",
        TITLE = "Motion Guided Region Message Passing for Video Captioning",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1523-1532",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237033"}

@inproceedings{bb242131,
        AUTHOR = "Joshi, P. and Saharia, C. and Singh, V. and Gautam, D. and Ramakrishnan, G. and Jyothi, P.",
        TITLE = "A Tale of Two Modalities for Video Captioning",
        BOOKTITLE = MMVAMTC19,
        YEAR = "2019",
        PAGES = "3708-3712",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237034"}

@inproceedings{bb242132,
        AUTHOR = "Wang, T. and Zhang, R.M. and Lu, Z.C. and Zheng, F. and Cheng, R. and Luo, P.",
        TITLE = "End-to-End Dense Video Captioning with Parallel Decoding",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "6827-6837",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237035"}

@inproceedings{bb242133,
        AUTHOR = "Yang, B. and Zou, Y.X.",
        TITLE = "Visual Oriented Encoder: Integrating Multimodal and Multi-Scale
Contexts for Video Captioning",
        BOOKTITLE = ICPR21,
        YEAR = "2021",
        PAGES = "188-195",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237036"}

@inproceedings{bb242134,
        AUTHOR = "Perez Martin, J. and Bustos, B. and Perez, J.",
        TITLE = "Attentive Visual Semantic Specialized Network for Video Captioning",
        BOOKTITLE = ICPR21,
        YEAR = "2021",
        PAGES = "5767-5774",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237037"}

@inproceedings{bb242135,
        AUTHOR = "Olivastri, S. and Singh, G. and Cuzzolin, F.",
        TITLE = "End-to-End Video Captioning",
        BOOKTITLE = HVU19,
        YEAR = "2019",
        PAGES = "1474-1482",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237038"}

@inproceedings{bb242136,
        AUTHOR = "Li, L. and Gong, B.",
        TITLE = "End-to-End Video Captioning With Multitask Reinforcement Learning",
        BOOKTITLE = WACV19,
        YEAR = "2019",
        PAGES = "339-348",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237039"}

@inproceedings{bb242137,
        AUTHOR = "Wang, B. and Ma, L. and Zhang, W. and Liu, W.",
        TITLE = "Reconstruction Network for Video Captioning",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "7622-7631",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237040"}

@inproceedings{bb242138,
        AUTHOR = "Li, Y. and Yao, T. and Pan, Y. and Chao, H. and Mei, T.",
        TITLE = "Jointly Localizing and Describing Events for Dense Video Captioning",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "7492-7500",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237041"}

@inproceedings{bb242139,
        AUTHOR = "Wu, X. and Li, G. and Cao, Q. and Ji, Q. and Lin, L.",
        TITLE = "Interpretable Video Captioning via Trajectory Structured Localization",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "6829-6837",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237042"}

@inproceedings{bb242140,
        AUTHOR = "Wang, X. and Chen, W. and Wu, J. and Wang, Y. and Wang, W.Y.",
        TITLE = "Video Captioning via Hierarchical Reinforcement Learning",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "4213-4222",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237043"}

@inproceedings{bb242141,
        AUTHOR = "Zhou, L. and Zhou, Y. and Corso, J.J. and Socher, R. and Xiong, C.",
        TITLE = "End-to-End Dense Video Captioning with Masked Transformer",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "8739-8748",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237044"}

@inproceedings{bb242142,
        AUTHOR = "Yang, D. and Yuan, C.",
        TITLE = "Hierarchical Context Encoding for Events Captioning in Videos",
        BOOKTITLE = ICIP18,
        YEAR = "2018",
        PAGES = "1288-1292",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237045"}

@inproceedings{bb242143,
        AUTHOR = "Shen, Z.Q. and Li, J.G. and Su, Z. and Li, M.J. and Chen, Y.R. and Jiang, Y.G. and Xue, X.Y.",
        TITLE = "Weakly Supervised Dense Video Captioning",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "5159-5167",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237046"}

@inproceedings{bb242144,
        AUTHOR = "Baraldi, L. and Grana, C. and Cucchiara, R.",
        TITLE = "Hierarchical Boundary-Aware Neural Encoder for Video Captioning",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "3185-3194",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237047"}

@inproceedings{bb242145,
        AUTHOR = "Pan, P.B. and Xu, Z.W. and Yang, Y. and Wu, F. and Zhuang, Y.T.",
        TITLE = "Hierarchical Recurrent Neural Encoder for Video Representation with
Application to Captioning",
        BOOKTITLE = CVPR16,
        YEAR = "2016",
        PAGES = "1029-1038",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237048"}

@inproceedings{bb242146,
        AUTHOR = "Yu, H.N. and Wang, J. and Huang, Z.H. and Yang, Y. and Xu, W.",
        TITLE = "Video Paragraph Captioning Using Hierarchical Recurrent Neural
Networks",
        BOOKTITLE = CVPR16,
        YEAR = "2016",
        PAGES = "4584-4593",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237049"}

@inproceedings{bb242147,
        AUTHOR = "Shin, A. and Ohnishi, K. and Harada, T.",
        TITLE = "Beyond caption to narrative: Video captioning with multiple sentences",
        BOOKTITLE = ICIP16,
        YEAR = "2016",
        PAGES = "3364-3368",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vc4.html#TT237050"}

@article{bb242148,
        AUTHOR = "Vakali, A. and Hacid, M.S. and Elmagarmid, A.",
        TITLE = "MPEG-7 based description schemes for multi-level video content
classification",
        JOURNAL = IVC,
        VOLUME = "22",
        YEAR = "2004",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "367-378",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237051"}

@article{bb242149,
        AUTHOR = "Fonseca, P.M. and Pereira, F.",
        TITLE = "Automatic video summarization based on MPEG-7 descriptions",
        JOURNAL = SP:IC,
        VOLUME = "19",
        YEAR = "2004",
        NUMBER = "8",
        MONTH = "September",
        PAGES = "685-699",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237052"}

@article{bb242150,
        AUTHOR = "Mrak, M. and Calic, J. and Kondoz, A.M.",
        TITLE = "Fast analysis of scalable video for adaptive browsing interfaces",
        JOURNAL = CVIU,
        VOLUME = "113",
        YEAR = "2009",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "425-434",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237053"}

@inproceedings{bb242151,
        AUTHOR = "Calic, J. and Mrak, M. and Kondoz, A.M.",
        TITLE = "Flexible generation of video summaries from layered video bit-streams",
        BOOKTITLE = ICIP08,
        YEAR = "2008",
        PAGES = "2516-2519",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237054"}

@article{bb242152,
        AUTHOR = "Herranz, L. and Martinez, J.M.",
        TITLE = "An integrated approach to summarization and adaptation using
H.264/MPEG-4 SVC",
        JOURNAL = SP:IC,
        VOLUME = "24",
        YEAR = "2009",
        NUMBER = "6",
        MONTH = "July",
        PAGES = "499-509",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237055"}

@article{bb242153,
        AUTHOR = "Herranz, L. and Martinez, J.M.",
        TITLE = "On the use of hierarchical prediction structures for efficient summary
generation of H.264/AVC bitstreams",
        JOURNAL = SP:IC,
        VOLUME = "24",
        YEAR = "2009",
        NUMBER = "8",
        MONTH = "September",
        PAGES = "615-629",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237056"}

@article{bb242154,
        AUTHOR = "Matos, N. and Pereira, F.",
        TITLE = "Automatic creation and evaluation of MPEG-7 compliant summary
descriptions for generic audiovisual content",
        JOURNAL = SP:IC,
        VOLUME = "23",
        YEAR = "2008",
        NUMBER = "8",
        MONTH = "September",
        PAGES = "581-598",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237057"}

@article{bb242155,
        AUTHOR = "Ren, J.C. and Jiang, J.M. and Feng, Y.",
        TITLE = "Activity-driven content adaptation for effective video summarization",
        JOURNAL = JVCIR,
        VOLUME = "21",
        YEAR = "2010",
        NUMBER = "8",
        MONTH = "November",
        PAGES = "930-938",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237058"}

@article{bb242156,
        AUTHOR = "Almeida, J. and Leite, N.J. and da Silva Torres, R.",
        TITLE = "VISON: VIdeo Summarization for ONline applications",
        JOURNAL = PRL,
        VOLUME = "33",
        YEAR = "2012",
        NUMBER = "4",
        MONTH = "March",
        PAGES = "397-409",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237059"}

@inproceedings{bb242157,
        AUTHOR = "Almeida, J. and Leite, N.J. and da Silva Torres, R.",
        TITLE = "Comparison of video sequences with histograms of motion patterns",
        BOOKTITLE = ICIP11,
        YEAR = "2011",
        PAGES = "3673-3676",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237060"}

@inproceedings{bb242158,
        AUTHOR = "Almeida, J. and Leite, N.J. and da Silva Torres, R.",
        TITLE = "Rapid Cut Detection on Compressed Video",
        BOOKTITLE = CIARP11,
        YEAR = "2011",
        PAGES = "71-78",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237061"}

@article{bb242159,
        AUTHOR = "Basavarajaiah, M. and Sharma, P.",
        TITLE = "Survey of Compressed Domain Video Summarization Techniques",
        JOURNAL = Surveys,
        VOLUME = "52",
        YEAR = "2019",
        NUMBER = "6",
        MONTH = "October",
        PAGES = "xx-yy",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237062"}

@inproceedings{bb242160,
        AUTHOR = "Lee, J.H. and Kim, W.Y.",
        TITLE = "Video Summarization and Retrieval System Using Face Recognition and
MPEG-7 Descriptors",
        BOOKTITLE = CIVR04,
        YEAR = "2004",
        PAGES = "170-178",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237063"}

@inproceedings{bb242161,
        AUTHOR = "Soysal, M. and Alatan, A.A.",
        TITLE = "Combining MPEG-7 Based Visual Experts for Reaching Semantics",
        BOOKTITLE = VLBV03,
        YEAR = "2003",
        PAGES = "66-75",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237064"}

@inproceedings{bb242162,
        AUTHOR = "Divakaran, A. and Peker, K.A. and Radhakrishnan, R. and Xiong, Z.Y. and Cabasson, R.",
        TITLE = "Video Summarization using MPEG-7 Motion Activity and Audio Descriptors",
        BOOKTITLE = VideoMining03,
        YEAR = "2003",
        PAGES = "Chapter 4",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237065"}

@inproceedings{bb242163,
        AUTHOR = "Sugano, M. and Nakajima, Y. and Yanagihara, H.",
        TITLE = "Automated MPEG audio-video summarization and description",
        BOOKTITLE = ICIP02,
        YEAR = "2002",
        PAGES = "I: 956-959",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237066"}

@inproceedings{bb242164,
        AUTHOR = "Lin, C.Y. and Tseng, B.L. and Naphade, M.R. and Natsev, A.P. and Smith, J.R.",
        TITLE = "VideoAL: A novel end-to-end MPEG-7 video automatic labeling system",
        BOOKTITLE = ICIP03,
        YEAR = "2003",
        PAGES = "III: 53-56",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237067"}

@inproceedings{bb242165,
        AUTHOR = "Kim, J.G. and Chang, H.S. and Kim, J.W. and Kim, H.M.",
        TITLE = "Efficient Camera Motion Characterization for MPEG Video Indexing",
        BOOKTITLE = ICME00,
        YEAR = "2000",
        PAGES = "TP11",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237068"}

@inproceedings{bb242166,
        AUTHOR = "DeMenthon, D.F. and Megret, R.",
        TITLE = "Spatio-temporal Segmentation of Video by
Hierarchical Mean Shift Analysis",
        BOOKTITLE = UMD,
        YEAR = "2002",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237069"}

@inproceedings{bb242167,
        AUTHOR = "Megret, R. and DeMenthon, D.F.",
        TITLE = "A Survey of Spatio-temporal Grouping Techniques",
        BOOKTITLE = UMD,
        YEAR = "2002",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237070"}

@inproceedings{bb242168,
        AUTHOR = "DeMenthon, D.F. and Latecki, L.J. and Rosenfeld, A. and Stueckelberg, M.V.",
        TITLE = "Relevance Ranking of Video Data using
Hidden Markov Model Distances and Polygon Simplification",
        BOOKTITLE = UMD,
        YEAR = "2001",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237071"}

@inproceedings{bb242169,
        AUTHOR = "DeMenthon, D.F. and Kobla, V. and Doermann, D.",
        TITLE = "Video Summarization by Curve Simplification",
        BOOKTITLE = UMD,
        YEAR = "1998",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237072"}

@inproceedings{bb242170,
        AUTHOR = "Yoon, K. and DeMenthon, D.F. and Doermann, D.",
        TITLE = "Event Detection from MPEG Video in the Compressed Domain",
        BOOKTITLE = ICPR00,
        YEAR = "2000",
        PAGES = "Vol I: 819-822",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825vm3.html#TT237073"}

@article{bb242171,
        AUTHOR = "Doulamis, A.D. and Doulamis, N.D. and Kollias, S.D.",
        TITLE = "A fuzzy video content representation for video summarization and
content-based retrieval",
        JOURNAL = SP,
        VOLUME = "80",
        YEAR = "2000",
        NUMBER = "6",
        MONTH = "June",
        PAGES = "1049-1067",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237074"}

@article{bb242172,
        AUTHOR = "Kollias, S.D. and Doulamis, N.D. and Doulamis, A.D.",
        TITLE = "A fuzzy video content representation for video summarization and
content-based retrieval",
        JOURNAL = SP,
        VOLUME = "82",
        YEAR = "2002",
        NUMBER = "4",
        MONTH = "April",
        PAGES = "545",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237074"}

@article{bb242173,
        AUTHOR = "Doulamis, N.D. and Doulamis, A.D. and Avrithis, Y.S. and Ntalianis, K.S. and Kollias, S.D.",
        TITLE = "Efficient Summarization of Stereoscopic Video Sequences",
        JOURNAL = CirSysVideo,
        VOLUME = "10",
        YEAR = "2000",
        NUMBER = "4",
        MONTH = "June",
        PAGES = "501-157",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237075"}

@inproceedings{bb242174,
        AUTHOR = "Ntalianis, K.S. and Doulamis, A.D. and Tsapatsoulis, N.",
        TITLE = "Implicit visual concept modeling in image/video annotation",
        BOOKTITLE = ARTEMIS10,
        YEAR = "2010",
        PAGES = "33-38",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237076"}

@inproceedings{bb242175,
        AUTHOR = "Doulamis, A.D. and Ntalianis, K.S.",
        TITLE = "On the Fly Semantic Annotation and Modelling of Multimedia",
        BOOKTITLE = WSSIP09,
        YEAR = "2009",
        PAGES = "1-4",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237077"}

@inproceedings{bb242176,
        AUTHOR = "Doulamis, N.D. and Doulamis, A.D. and Avrithis, Y.S. and Kollias, S.D.",
        TITLE = "Video content representation using optimal extraction of frames and
scenes",
        BOOKTITLE = ICIP98,
        YEAR = "1998",
        PAGES = "I: 875-879",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237078"}

@article{bb242177,
        AUTHOR = "Amir, A. and Ashour, G. and Srinivasan, S.",
        TITLE = "Automatic generation of conference video proceedings",
        JOURNAL = JVCIR,
        VOLUME = "15",
        YEAR = "2004",
        NUMBER = "3",
        MONTH = "September",
        PAGES = "467-488",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237079"}

@article{bb242178,
        AUTHOR = "Metze, F. and Ding, D. and Younessian, E. and Hauptmann, A.G.",
        TITLE = "Beyond audio and video retrieval:
Topic-oriented multimedia summarization",
        JOURNAL = MultInfoRetr,
        VOLUME = "2",
        YEAR = "2013",
        NUMBER = "2",
        MONTH = "June",
        PAGES = "131-144",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237080"}

@inproceedings{bb242179,
        AUTHOR = "Ding, D. and Metze, F. and Rawat, S. and Schulam, P.F. and Burger, S. and Younessian, E. and Bao, L. and Christel, M.G. and Hauptmann, A.G.",
        TITLE = "Beyond audio and video retrieval: Towards multimedia summarization",
        BOOKTITLE = ICMR12,
        YEAR = "2012",
        PAGES = "2",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237081"}

@article{bb242180,
        AUTHOR = "Bian, J.W. and Yang, Y. and Zhang, H.W. and Chua, T.S.",
        TITLE = "Multimedia Summarization for Social Events in Microblog Stream",
        JOURNAL = MultMed,
        VOLUME = "17",
        YEAR = "2015",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "216-228",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237082"}

@article{bb242181,
        AUTHOR = "Kuanar, S.K. and Ranga, K.B. and Chowdhury, A.S.",
        TITLE = "Multi-View Video Summarization Using Bipartite Matching Constrained
Optimum-Path Forest Clustering",
        JOURNAL = MultMed,
        VOLUME = "17",
        YEAR = "2015",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "1166-1173",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237083"}

@article{bb242182,
        AUTHOR = "Tan, C.C. and Ngo, C.W.",
        TITLE = "On the use of commonsense ontology for multimedia event recounting",
        JOURNAL = MultInfoRetr,
        VOLUME = "5",
        YEAR = "2016",
        NUMBER = "2",
        MONTH = "June",
        PAGES = "73-88",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237084"}

@article{bb242183,
        AUTHOR = "Wu, F. and Fang, H. and Li, X. and Tang, S. and Lu, W. and Yang, Y. and Zhu, W. and Zhuang, Y.",
        TITLE = "Aspect Learning for Multimedia Summarization via Nonparametric
Bayesian",
        JOURNAL = CirSysVideo,
        VOLUME = "26",
        YEAR = "2016",
        NUMBER = "10",
        MONTH = "October",
        PAGES = "1931-1942",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237085"}

@article{bb242184,
        AUTHOR = "Jiang, Y.G. and Wu, Z.X. and Tang, J.H. and Li, Z.C. and Xue, X.Y. and Chang, S.F.",
        TITLE = "Modeling Multimodal Clues in a Hybrid Deep Learning Framework for
Video Classification",
        JOURNAL = MultMed,
        VOLUME = "20",
        YEAR = "2018",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "3137-3147",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237086"}

@article{bb242185,
        AUTHOR = "Wu, Z.X. and Li, H.D. and Zheng, Y.B. and Xiong, C.M. and Jiang, Y.G. and Davis, L.S.",
        TITLE = "A Coarse-to-Fine Framework for Resource Efficient Video Recognition",
        JOURNAL = IJCV,
        VOLUME = "129",
        YEAR = "2021",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "2965-2977",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237087"}

@article{bb242186,
        AUTHOR = "Tian, F. and Wang, Q. and Li, X. and Sun, N.",
        TITLE = "Heterogeneous multimedia cooperative annotation based on multimodal
correlation learning",
        JOURNAL = JVCIR,
        VOLUME = "58",
        YEAR = "2019",
        PAGES = "544-553",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237088"}

@article{bb242187,
        AUTHOR = "Du, X.T. and Yuan, J. and Hu, L. and Dai, Y.",
        TITLE = "Description generation of open-domain videos incorporating multimodal
features and bidirectional encoder",
        JOURNAL = VC,
        VOLUME = "35",
        YEAR = "2018",
        NUMBER = "12",
        MONTH = "December",
        PAGES = "1703-1712",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237089"}

@article{bb242188,
        AUTHOR = "Li, J. and Wong, Y. and Zhao, Q. and Kankanhalli, M.S.",
        TITLE = "Video Storytelling: Textual Summaries for Events",
        JOURNAL = MultMed,
        VOLUME = "22",
        YEAR = "2020",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "554-565",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237090"}

@article{bb242189,
        AUTHOR = "Cascianelli, S. and Costante, G. and Devo, A. and Ciarfuglia, T.A. and Valigi, P. and Fravolini, M.L.",
        TITLE = "The Role of the Input in Natural Language Video Description",
        JOURNAL = MultMed,
        VOLUME = "22",
        YEAR = "2020",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "271-283",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237091"}

@article{bb242190,
        AUTHOR = "Zhang, Y.Z. and Liu, Y.M. and Kang, W. and Zheng, Y.X.",
        TITLE = "MAR-Net: Motion-Assisted Reconstruction Network for Unsupervised
Video Summarization",
        JOURNAL = SPLetters,
        VOLUME = "30",
        YEAR = "2023",
        PAGES = "1282-1286",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237092"}

@article{bb242191,
        AUTHOR = "Yuan, J.S. and Yun, J. and Zheng, B. and Jiao, L. and Liu, L.M.",
        TITLE = "MCR: Multilayer cross-fusion with reconstructor for multimodal
abstractive summarisation",
        JOURNAL = IET-CV,
        VOLUME = "17",
        YEAR = "2023",
        NUMBER = "4",
        PAGES = "389-403",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237093"}

@article{bb242192,
        AUTHOR = "Yu, L.J. and Zhao, X. and Xie, L. and Liang, H.R. and Liang, R.H.",
        TITLE = "Hierarchical multi-modal video summarization with dynamic sampling",
        JOURNAL = IET-IPR,
        VOLUME = "18",
        YEAR = "2024",
        NUMBER = "14",
        PAGES = "4577-4588",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237094"}

@article{bb242193,
        AUTHOR = "Sartinas, E.G. and Psarakis, E.Z. and Kosmopoulos, D.I.",
        TITLE = "A 3D wrist motion-based sign language video summarization technique",
        JOURNAL = PRL,
        VOLUME = "189",
        YEAR = "2025",
        PAGES = "23-30",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237095"}

@article{bb242194,
        AUTHOR = "Jin, C. and Lin, M. and Wu, F.J. and Wu, X.Y. and Zhou, Y. and Wang, J.C.",
        TITLE = "TVMTrailer: A Text-Video-Music AIGC Framework for Film Trailer
Generation",
        JOURNAL = SMCS,
        VOLUME = "55",
        YEAR = "2025",
        NUMBER = "9",
        MONTH = "September",
        PAGES = "6000-6010",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237096"}

@inproceedings{bb242195,
        AUTHOR = "Zohar, O. and Wang, X.H. and Dubois, Y. and Mehta, N. and Xiao, T. and Hansen Estruch, P. and Yu, L.C. and Wang, X.F. and Juefei Xu, F. and Zhang, N. and Yeung Levy, S. and Xia, X.",
        TITLE = "Apollo: An Exploration of Video Understanding in Large Multimodal
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "18891-18901",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237097"}

@inproceedings{bb242196,
        AUTHOR = "Bouritsas, G. and Koutras, P. and Zlatintsi, A. and Maragos, P.",
        TITLE = "Multimodal Visual Concept Learning with Weakly Supervised Techniques",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "4914-4923",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237098"}

@inproceedings{bb242197,
        AUTHOR = "Wang, J. and Wang, W. and Huang, Y. and Wang, L. and Tan, T.",
        TITLE = "M3: Multimodal Memory Modelling for Video Captioning",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "7512-7520",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237099"}

@inproceedings{bb242198,
        AUTHOR = "Kang, S.H. and Kim, J.Y. and Choi, H. and Kim, S.J. and Yoo, C.D.",
        TITLE = "Pivot Correlational Neural Network for Multimodal Video Categorization",
        BOOKTITLE = ECCV18,
        YEAR = "2018",
        PAGES = "XIV: 402-417",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237100"}

@inproceedings{bb242199,
        AUTHOR = "Mazaheri, A. and Shah, M.",
        TITLE = "Visual Text Correction",
        BOOKTITLE = ECCV18,
        YEAR = "2018",
        PAGES = "XIII: 159-175",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat825mms4.html#TT237101"}
Last update:Oct 6, 2025 at 14:07:43