20.4.5.6.5 Multimedia Summarization, Multimodal Summarization

Chapter Contents (Back)
Video Abstracts. Video Summarization. Video Analysis. Summarization.

Doulamis, A.D.[Anastasios D.], Doulamis, N.D.[Nikolaos D.], Kollias, S.D.[Stefanos D.],
A fuzzy video content representation for video summarization and content-based retrieval,
SP(80), No. 6, June 2000, pp. 1049-1067. 0008
BibRef
And: Corrections: SP(82), No. 4, April 2002, pp. 545.
HTML Version. 0206
BibRef

Doulamis, N.D.[Nikolaos D.], Doulamis, A.D.[Anastasios D.], Avrithis, Y.S., Ntalianis, K.S., Kollias, S.D.,
Efficient Summarization of Stereoscopic Video Sequences,
CirSysVideo(10), No. 4, June 2000, pp. 501-157.
IEEE Top Reference. 0006
BibRef

Ntalianis, K.S.[Klimis S.], Doulamis, A.D.[Anastasios D.], Tsapatsoulis, N.[Nicolas],
Implicit visual concept modeling in image/video annotation,
ARTEMIS10(33-38).
DOI Link 1111
BibRef
Earlier: A2, A1, Only:
On the Fly Semantic Annotation and Modelling of Multimedia,
WSSIP09(1-4).
IEEE DOI 0906
BibRef

Doulamis, N.D.[Nikolaos D.], Doulamis, A.D.[Anastasios D.], Avrithis, Y.S., Kollias, S.D.[Stefanos D.],
Video content representation using optimal extraction of frames and scenes,
ICIP98(I: 875-879).
IEEE DOI 9810
BibRef

Amir, A.[Arnon], Ashour, G.[Gal], Srinivasan, S.[Savitha],
Automatic generation of conference video proceedings,
JVCIR(15), No. 3, September 2004, pp. 467-488.
Elsevier DOI 0711
Video proceedings; Video on demand; Video indexing; Information retrieval; Remote education; Distance learning; Video segmentation; Multimedia browsing BibRef

Metze, F.[Florian], Ding, D.[Duo], Younessian, E.[Ehsan], Hauptmann, A.G.[Alexander G.],
Beyond audio and video retrieval: Topic-oriented multimedia summarization,
MultInfoRetr(2), No. 2, June 2013, pp. 131-144.
Springer DOI 1306
BibRef

Ding, D.[Duo], Metze, F.[Florian], Rawat, S.[Shourabh], Schulam, P.F.[Peter Franz], Burger, S.[Susanne], Younessian, E.[Ehsan], Bao, L.[Lei], Christel, M.G.[Michael G.], Hauptmann, A.G.[Alexander G.],
Beyond audio and video retrieval: Towards multimedia summarization,
ICMR12(2).
DOI Link 1301
BibRef

Bian, J.W.[Jing-Wen], Yang, Y.[Yang], Zhang, H.W.[Han-Wang], Chua, T.S.[Tat-Seng],
Multimedia Summarization for Social Events in Microblog Stream,
MultMed(17), No. 2, February 2015, pp. 216-228.
IEEE DOI 1502
Web sites BibRef

Kuanar, S.K., Ranga, K.B., Chowdhury, A.S.,
Multi-View Video Summarization Using Bipartite Matching Constrained Optimum-Path Forest Clustering,
MultMed(17), No. 8, August 2015, pp. 1166-1173.
IEEE DOI 1506
Cameras BibRef

Tan, C.C.[Chun-Chet], Ngo, C.W.[Chong-Wah],
On the use of commonsense ontology for multimedia event recounting,
MultInfoRetr(5), No. 2, June 2016, pp. 73-88.
WWW Link. 1605
BibRef

Wu, F., Fang, H., Li, X., Tang, S., Lu, W., Yang, Y., Zhu, W., Zhuang, Y.,
Aspect Learning for Multimedia Summarization via Nonparametric Bayesian,
CirSysVideo(26), No. 10, October 2016, pp. 1931-1942.
IEEE DOI 1610
Bayes methods BibRef

Jiang, Y.G.[Yu-Gang], Wu, Z.X.[Zu-Xuan], Tang, J.H.[Jin-Hui], Li, Z.C.[Ze-Chao], Xue, X.Y.[Xiang-Yang], Chang, S.F.[Shih-Fu],
Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification,
MultMed(20), No. 11, November 2018, pp. 3137-3147.
IEEE DOI 1810
Semantics, Feature extraction, Hidden Markov models, Machine learning, Optical imaging, Context modeling, video classification BibRef

Wu, Z.X.[Zu-Xuan], Li, H.D.[Heng-Duo], Zheng, Y.B.[Ying-Bin], Xiong, C.M.[Cai-Ming], Jiang, Y.G.[Yu-Gang], Davis, L.S.[Larry S.],
A Coarse-to-Fine Framework for Resource Efficient Video Recognition,
IJCV(129), No. 11, November 2021, pp. 2965-2977.
Springer DOI 2110
BibRef

Tian, F.[Feng], Wang, Q.[Quge], Li, X.[Xin], Sun, N.[Ning],
Heterogeneous multimedia cooperative annotation based on multimodal correlation learning,
JVCIR(58), 2019, pp. 544-553.
Elsevier DOI 1901
Multimedia annotation, Cooperative annotation, Multimodal correlation learning BibRef

Du, X.T.[Xiao-Tong], Yuan, J.[Jiabin], Hu, L.[Liu], Dai, Y.[Yuke],
Description generation of open-domain videos incorporating multimodal features and bidirectional encoder,
VC(35), No. 12, December 2018, pp. 1703-1712.
WWW Link. 1912
BibRef

Li, J., Wong, Y., Zhao, Q., Kankanhalli, M.S.,
Video Storytelling: Textual Summaries for Events,
MultMed(22), No. 2, February 2020, pp. 554-565.
IEEE DOI 2001
Visualization, Task analysis, Semantics, Streaming media, Recurrent neural networks, Measurement, Natural languages, multimodal embedding learning BibRef

Cascianelli, S., Costante, G., Devo, A., Ciarfuglia, T.A., Valigi, P., Fravolini, M.L.,
The Role of the Input in Natural Language Video Description,
MultMed(22), No. 1, January 2020, pp. 271-283.
IEEE DOI 2001
Video description, multimodal data, input preprocessing BibRef

Zhang, Y.Z.[Yun-Zuo], Liu, Y.M.[Ya-Meng], Kang, W.[Weili], Zheng, Y.X.[Yu-Xin],
MAR-Net: Motion-Assisted Reconstruction Network for Unsupervised Video Summarization,
SPLetters(30), 2023, pp. 1282-1286.
IEEE DOI 2310
BibRef

Yuan, J.S.[Jing-Shu], Yun, J.[Jing], Zheng, B.[Bofei], Jiao, L.[Lei], Liu, L.M.[Li-Min],
MCR: Multilayer cross-fusion with reconstructor for multimodal abstractive summarisation,
IET-CV(17), No. 4, 2023, pp. 389-403.
DOI Link 2306
multimedia systems, natural language processing BibRef

Yu, L.J.[Ling-Jian], Zhao, X.[Xing], Xie, L.[Liang], Liang, H.R.[Hao-Ran], Liang, R.H.[Rong-Hua],
Hierarchical multi-modal video summarization with dynamic sampling,
IET-IPR(18), No. 14, 2024, pp. 4577-4588.
DOI Link 2501
image processing, sampling methods, video codecs, video retrieval, video signal processing BibRef

Sartinas, E.G.[Evangelos G.], Psarakis, E.Z.[Emmanouil Z.], Kosmopoulos, D.I.[Dimitrios I.],
A 3D wrist motion-based sign language video summarization technique,
PRL(189), 2025, pp. 23-30.
Elsevier DOI 2503
Video summarization, Sign language, Frenet-Serret frame, Torsion BibRef

Jin, C.[Cong], Lin, M.[Meixiu], Wu, F.J.[Feng-Juan], Wu, X.Y.[Xiao-Yu], Zhou, Y.[Yu], Wang, J.C.[Jia-Cun],
TVMTrailer: A Text-Video-Music AIGC Framework for Film Trailer Generation,
SMCS(55), No. 9, September 2025, pp. 6000-6010.
IEEE DOI 2509
Motion pictures, Visualization, Transformers, Diversity reception, Deep learning, Rhythm, Media, Hands, Feature extraction, Encoding, video-to-music generation BibRef

Zohar, O.[Orr], Wang, X.H.[Xiao-Han], Dubois, Y.[Yann], Mehta, N.[Nikhil], Xiao, T.[Tong], Hansen-Estruch, P.[Philippe], Yu, L.C.[Li-Cheng], Wang, X.F.[Xiao-Fang], Juefei-Xu, F.[Felix], Zhang, N.[Ning], Yeung-Levy, S.[Serena], Xia, X.[Xide],
Apollo: An Exploration of Video Understanding in Large Multimodal Models,
CVPR25(18891-18901)
IEEE DOI 2508
Training, Schedules, Computational modeling, Data models, Computational efficiency, Videos, Guidelines, video understanding BibRef

Bouritsas, G.[Giorgos], Koutras, P.[Petros], Zlatintsi, A.[Athanasia], Maragos, P.[Petros],
Multimodal Visual Concept Learning with Weakly Supervised Techniques,
CVPR18(4914-4923)
IEEE DOI 1812
Visualization, Semantics, Face, Probabilistic logic, Fuzzy sets, Motion pictures, Task analysis BibRef

Wang, J., Wang, W., Huang, Y., Wang, L., Tan, T.,
M3: Multimodal Memory Modelling for Video Captioning,
CVPR18(7512-7520)
IEEE DOI 1812
Visualization, Decoding, Feature extraction, Computational modeling, Task analysis, Neural networks BibRef

Kang, S.H.[Sung-Hun], Kim, J.Y.[Jun-Yeong], Choi, H.[Hyunsoo], Kim, S.J.[Sung-Jin], Yoo, C.D.[Chang D.],
Pivot Correlational Neural Network for Multimodal Video Categorization,
ECCV18(XIV: 402-417).
Springer DOI 1810
BibRef

Mazaheri, A.[Amir], Shah, M.[Mubarak],
Visual Text Correction,
ECCV18(XIII: 159-175).
Springer DOI 1810
Finding and replacing an inaccurate word in the textual description of a video. BibRef

Rudinac, S.[Stevan], Chua, T.S.[Tat-Seng], Diaz-Ferreyra, N.[Nicolas], Friedland, G.[Gerald], Gornostaja, T.[Tatjana], Huet, B.[Benoit], Kaptein, R.[Rianne], Lindén, K.[Krister], Moens, M.F.[Marie-Francine], Peltonen, J.[Jaakko], Redi, M.[Miriam], Schedl, M.[Markus], Shamma, D.A.[David A.], Smeaton, A.[Alan], Xie, L.X.[Le-Xing],
Rethinking Summarization and Storytelling for Modern Social Multimedia,
MMMod18(I:632-644).
Springer DOI 1802
BibRef

Hori, C.[Chiori], Hori, T.[Takaaki], Lee, T.Y.[Teng-Yok], Zhang, Z.M.[Zi-Ming], Harsham, B.[Bret], Hershey, J.R.[John R.], Marks, T.K.[Tim K.], Sumi, K.[Kazuhiko],
Attention-Based Multimodal Fusion for Video Description,
ICCV17(4203-4212)
IEEE DOI 1802
feature extraction, image motion analysis, learning (artificial intelligence), Neural networks BibRef

Gupta, R.K.[Raj Kumar], Yang, Y.P.[Yin-Ping],
Leveraging Multi-modal Analyses and Online Knowledge Base for Video Aboutness Generation,
ISVC16(II: 55-64).
Springer DOI 1701
automatic generation of a concise natural-language description about a video. BibRef

Vallet, F.[Felicien], Essid, S.[Slim], Carrive, J.[Jean], Richard, G.[Gael],
Robust visual features for the multimodal identification of unregistered speakers in TV talk-shows,
ICIP10(1469-1472).
IEEE DOI 1009
BibRef

Bailer, W.[Werner], Thallinger, G.[Georg],
A framework for multimedia content abstraction and its application to rushes exploration,
CIVR07(146-153).
DOI Link 0707
BibRef

Tešic, J.[Jelena], Smith, J.R.[John R.],
Efficient Summarizing of Multimedia Archives Using Cluster Labeling,
CIVR06(518-520).
Springer DOI 0607
BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Video Skimming .

Last update:Jul 11, 2026 at 11:55:55