17.1.4.5 Video Moments Detection, Retrieval, Localization

Chapter Contents (Back)
Action Recognition. Moment Retrieval. Video Moments. 2510
A varitey of related topics.
See also Action Localization, Action Localisation.
See also Video Database Indexing Systems.
See also Human Activities, Sports, Planned Activities.

Hu, Y.P.[Yu-Peng], Liu, M.[Meng], Su, X.O.[Xia-Obin], Gao, Z.[Zan], Nie, L.Q.[Li-Qiang],
Video Moment Localization via Deep Cross-Modal Hashing,
IP(30), 2021, pp. 4667-4677.
IEEE DOI 2105
BibRef

Gao, J.Y.[Jun-Yu], Xu, C.S.[Chang-Sheng],
Learning Video Moment Retrieval Without a Single Annotated Video,
CirSysVideo(32), No. 3, March 2022, pp. 1646-1657.
IEEE DOI 2203
Visualization, Task analysis, Generators, Training, Graph neural networks, Semantics, Detectors, unpaired learning BibRef

Liu, M.[Meng], Nie, L.Q.[Li-Qiang], Wang, Y.X.[Yun-Xiao], Wang, M.[Meng], Rui, Y.[Yong],
A Survey on Video Moment Localization,
Surveys(55), No. 9, January 2023, pp. xx-yy.
DOI Link 2302
Survey, Video Moment Localization. vision and language, survey, cross-modal retrieval, video moment retrieval, Video moment localization BibRef

Sun, X.[Xin], Gao, J.L.[Jia-Lin], Zhu, Y.Z.[Yi-Zhe], Wang, X.[Xuan], Zhou, X.[Xi],
Video Moment Retrieval via Comprehensive Relation-Aware Network,
CirSysVideo(33), No. 9, September 2023, pp. 5281-5295.
IEEE DOI 2310
BibRef

Fang, X.[Xiang], Liu, D.Z.[Dai-Zong], Zhou, P.[Pan], Hu, Y.C.[Yu-Chong],
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval,
MultMed(25), 2023, pp. 7517-7532.
IEEE DOI 2311
BibRef

Yang, X.[Xun], Wang, S.S.[Shan-Shan], Dong, J.[Jian], Dong, J.F.[Jian-Feng], Wang, M.[Meng], Chua, T.S.[Tat-Seng],
Video Moment Retrieval With Cross-Modal Neural Architecture Search,
IP(31), 2022, pp. 1204-1216.
IEEE DOI 2202
Task analysis, Microprocessors, Network architecture, Proposals, Manuals, Location awareness, neural architecture search BibRef

Han, N.[Ning], Yang, X.[Xun], Lim, E.P.[Ee-Peng], Chen, H.[Hao], Sun, Q.[Qianru],
Efficient Cross-Modal Video Retrieval With Meta-Optimized Frames,
MultMed(26), 2024, pp. 10924-10936.
IEEE DOI 2412
Optimization, Training, Computational modeling, Metalearning, Feature extraction, Encoding, Task analysis, Cross-modal, multimodal, video compression BibRef

Teng, J.[Junya], Lu, X.K.[Xian-Kai], Gong, Y.S.[Yong-Shun], Liu, X.F.[Xin-Fang], Nie, X.S.[Xiu-Shan], Yin, Y.L.[Yi-Long],
Regularized Two Granularity Loss Function for Weakly Supervised Video Moment Retrieval,
MultMed(24), 2022, pp. 1141-1151.
IEEE DOI 2203
Iron, Barium, Ions, Integrated circuits, Legged locomotion, Erbium, Cameras, Weakly supervised video moment retrieval, segment-level loss BibRef

Wang, G.M.[Gong-Mian], Xu, X.[Xing], Shen, F.M.[Fu-Min], Lu, H.M.[Hui-Min], Ji, Y.L.[Yan-Li], Shen, H.T.[Heng Tao],
Cross-Modal Dynamic Networks for Video Moment Retrieval With Text Query,
MultMed(24), 2022, pp. 1221-1232.
IEEE DOI 2203
Feature extraction, Proposals, Location awareness, Task analysis, Visualization, Semantics, Pipelines, Cross-modal alignment, video moment retrieval BibRef

Huo, S.W.[Shu-Wei], Zhou, Y.[Yuan], Wang, R.L.[Ruo-Lin], Xiang, W.[Wei], Kung, S.Y.[Sun-Yuan],
Semantic Relevance Learning for Video-Query Based Video Moment Retrieval,
MultMed(25), 2023, pp. 9290-9301.
IEEE DOI 2312
BibRef

Wang, Y.X.[Yun-Xiao], Liu, M.[Meng], Wei, Y.W.[Yin-Wei], Cheng, Z.Y.[Zhi-Yong], Wang, Y.L.[Ying-Long], Nie, L.Q.[Li-Qiang],
Siamese Alignment Network for Weakly Supervised Video Moment Retrieval,
MultMed(25), 2023, pp. 3921-3933.
IEEE DOI 2310
BibRef

Wang, R.M.[Ruo-Mei], Feng, J.W.[Jia-Wei], Zhang, F.[Fuwei], Luo, X.N.[Xiao-Nan], Luo, Y.M.[Yuan-Mao],
Modality-Aware Heterogeneous Graph for Joint Video Moment Retrieval and Highlight Detection,
CirSysVideo(34), No. 9, September 2024, pp. 8896-8911.
IEEE DOI 2410
Task analysis, Correlation, Feature extraction, Cognition, Decoding, Generators, Video moment retrieval, cross-modal interaction BibRef

Wang, D.[Di], Lu, X.T.[Xian-Tao], Wang, Q.[Quan], Tian, Y.M.[Yu-Min], Wan, B.[Bo], He, L.[Lihuo],
Gist, Content, Target-Oriented: A 3-Level Human-Like Framework for Video Moment Retrieval,
MultMed(26), 2024, pp. 11044-11056.
IEEE DOI 2412
Task analysis, Location awareness, Behavioral sciences, Natural languages, Proposals, Ions, Correlation, Biconnected GCN, video moment retrieval BibRef

Huang, Z.H.[Zhang-Hao], Ji, Y.[Yi], Li, Y.[Ying], Liu, C.P.[Chun-Ping],
Gazing After Glancing: Edge Information Guided Perception Network for Video Moment Retrieval,
SPLetters(31), 2024, pp. 1535-1539.
IEEE DOI 2406
Feature extraction, Task analysis, Visualization, Location awareness, Convolution, Training, Semantics, vision language task BibRef

Han, D.[De], Cheng, X.[Xing], Guo, N.[Nan], Ye, X.C.[Xiao-Chun], Rainer, B.[Benjamin], Priller, P.[Peter],
Momentum Cross-Modal Contrastive Learning for Video Moment Retrieval,
CirSysVideo(34), No. 7, July 2024, pp. 5977-5994.
IEEE DOI 2407
Proposals, Semantics, Task analysis, Visualization, Location awareness, Feature extraction, Computational modeling, attention mechanism BibRef

Jiang, X.[Xun], Xu, X.[Xing], Zhou, Z.L.[Zai-Lei], Yang, Y.[Yang], Shen, F.M.[Fu-Min], Shen, H.T.[Heng Tao],
Zero-Shot Video Moment Retrieval with Angular Reconstructive Text Embeddings,
MultMed(26), 2024, pp. 9657-9670.
IEEE DOI 2410
Task analysis, Annotations, Proposals, Image reconstruction, Subspace constraints, Grounding, Costs, Video Moment Retrieval, Multimodal Video Understanding BibRef

Zhou, S.[Siyu], Zhang, F.[Fuwei], Wang, R.M.[Ruo-Mei], Zhou, F.[Fan], Su, Z.[Zhuo],
Subtask Prior-Driven Optimized Mechanism on Joint Video Moment Retrieval and Highlight Detection,
CirSysVideo(34), No. 11, November 2024, pp. 11271-11285.
IEEE DOI 2412
Task analysis, Interference, 3G mobile communication, Adaptation models, Correlation, Training, cross-modal interaction BibRef

Ge, H.L.[Hui-Lin], Liu, X.L.[Xiao-Lei], Guo, Z.H.[Zi-Hang], Qiu, Z.W.[Zhi-Wen],
Learning to Diversify for Robust Video Moment Retrieval,
CirSysVideo(35), No. 3, March 2025, pp. 2894-2904.
IEEE DOI 2503
Proposals, Semantics, Circuit faults, Feature extraction, Cognition, Visualization, Training, Robustness, Streaming media, cross-modal interaction BibRef

Zhao, Y.[Yibo], Gao, Z.[Zan], Ma, C.J.[Chun-Jie], Guan, W.[Weili], Wang, R.[Riwei], Chen, S.Y.[Sheng-Yong],
Fine-Grained Modality Relation-Aware Network for Video Moment Retrieval,
CirSysVideo(35), No. 4, April 2025, pp. 3315-3327.
IEEE DOI 2504
Proposals, Location awareness, Feature extraction, Semantics, Accuracy, Fuses, Sun, Industries, Encoding, proposal relation BibRef

Jiang, X.[Xun], Zhu, L.Q.[Li-Qing], Xu, X.[Xing], Shen, F.M.[Fu-Min], Yang, Y.[Yang], Shen, H.T.[Heng Tao],
Query as Supervision: Toward Low-Cost and Robust Video Moment and Highlight Retrieval,
CirSysVideo(35), No. 5, May 2025, pp. 3955-3968.
IEEE DOI Code:
WWW Link. 2505
Annotations, Robustness, Training, Semantics, Costs, Training data, Feature extraction, Location awareness, cross-modal retrieval BibRef

Zeng, R.H.[Run-Hao], Zhuo, Y.[Yishen], Li, J.L.[Jia-Liang], Yang, Y.J.[Yun-Jin], Wu, H.[Huisi], Chen, Q.[Qi], Hu, X.P.[Xi-Ping], Leung, V.C.M.[Victor C. M.],
Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction,
CirSysVideo(35), No. 5, May 2025, pp. 3940-3954.
IEEE DOI 2505
Annotations, Training, Neural networks, Semantics, Data models, Costs, Pervasive computing, annotation generation BibRef

Liu, J.[Jing], Zhang, Z.B.[Zong-Bing], Su, Y.T.[Yu-Ting], Yang, B.[Bing], Min, X.K.[Xiong-Kuo], Zhai, G.T.[Guang-Tao],
Aggregate and Discriminate: Pseudo Clips-Guided Boundary Perception for Video Moment Retrieval,
MultMed(27), 2025, pp. 4819-4830.
IEEE DOI 2509
Proposals, Semantics, Feature extraction, Decoding, Visualization, Accuracy, Transformers, Location awareness, Training, video moment retrieval BibRef

Cai, W.T.[Wei-Tong], Huang, J.[Jiabo], Gong, S.G.[Shao-Gang], Jin, H.L.[Hai-Lin], Liu, Y.[Yang],
MLLM as video narrator: Mitigating modality imbalance in video moment retrieval,
PR(166), 2025, pp. 111670.
Elsevier DOI 2505
Video moment retrieval, Multi-modal large language model, Video search, Multi-modal learning BibRef

Liu, W.J.[Wei-Jia], Miao, B.[Bo], Cao, J.X.[Jiu-Xin], Zhu, X.L.[Xue-Lin], Ge, J.W.[Jia-Wei], Liu, B.[Bo], Nasim, M.[Mehwish], Mian, A.[Ajmal],
Context-Enhanced Video Moment Retrieval With Large Language Models,
MultMed(27), 2025, pp. 6296-6306.
IEEE DOI 2510
Visualization, Context modeling, Semantics, Transformers, Proposals, Feature extraction, Location awareness, Large language models, video moment retrieval BibRef

Wang, D.[Di], Yu, Y.S.[You-Sheng], Li, S.F.[Shao-Feng], Zhong, H.[Haodi], Liang, X.[Xiao], Zhao, L.[Lin],
Scene-enhanced multi-scale temporal aware network for video moment retrieval,
PR(165), 2025, pp. 111642.
Elsevier DOI 2505
Video comprehension, Video moment retrieval, Multi-scale BibRef

Liu, J.[Jing], He, Z.[Zhuo], Nie, W.Z.[Wei-Zhi], Zhang, Z.B.[Zong-Bing], Su, Y.T.[Yu-Ting],
What and Where: Semantic Grasping and Contextual Scanning for Moment Retrieval and Highlight Detection,
CirSysVideo(35), No. 7, July 2025, pp. 7155-7166.
IEEE DOI Code:
WWW Link. 2507
Semantics, Streaming media, Context modeling, Feature extraction, Proposals, Location awareness, Decoding, Data mining, multi-context perception BibRef

Xie, P.Y.[Pei-Yu], Li, J.X.[Jin-Xing], Lu, G.M.[Guang-Ming], Xu, Y.[Yong], Zhang, D.[David],
Caption Assisted Multimodal Large Language Model for Video Moment Retrieval,
IP(34), 2025, pp. 6755-6766.
IEEE DOI Code:
WWW Link. 2511
Videos, Location awareness, Training, Feature extraction, Graphics processing units, Filtering, Accuracy, Visualization, multi-stage training BibRef

Yin, J.[Jiong], Li, L.[Liang], Zhang, J.[Jiehua], Yan, C.G.[Cheng-Gang], Wang, H.[Hongkui], Sun, Y.Q.[Yao-Qi], Zhu, Z.J.[Zun-Jie],
Hybrid Debiasing Transformer With Adaptive Regularization for Video Moment Localization,
MultMed(28), 2026, pp. 3986-4001.
IEEE DOI 2606
Videos, Semantics, Telecommunication traffic, Communication switching, Location awareness, video moment localization BibRef

Kwon, S.[Semi], Lee, J.H.[Ju-Hee], Kang, J.W.[Je-Won],
Lightweight Temporal Contextual Fine-Tuning Method of Large Multimodal Model for Video Moment Retrieval,
ICIP25(2880-2885)
IEEE DOI 2601
Correlation, Large language models, Graphics processing units, Cognition, Context modeling, Temporal Conditional Token BibRef

Nguyen-Nhu, T.A.[Tinh-Anh], Tran, H.L.[Huu-Loc], Le, N.K.[Nguyen-Khang], Nguyen, M.N.[Minh-Nhat], Nguyen, T.H.[Tien-Huy], Nguyen-Huu, H.L.[Hoang-Long], Phan-Nguyen, H.P.[Huu-Phong], Pham, H.T.[Huy-Thach], Nguyen, Q.[Quan], Le, H.M.[Hoang M.], Dinh, Q.V.[Quang-Vinh],
A Lightweight Moment Retrieval System with Global Re-Ranking and Robust Adaptive Bidirectional Temporal Search,
IntVidSea25(3708-3718)
IEEE DOI 2512
Location awareness, Visualization, Navigation, Semantics, Transforms, Stability analysis, Question answering (information retrieval), Videos BibRef

Tran, H.L.[Huu-Loc], Nguyen-Nhu, T.A.[Tinh-Anh], Phan-Nguyen, H.P.[Huu-Phong], Nguyen, T.H.[Tien-Huy], Nguyen-Dich, N.M.[Nhat-Minh], Dao, A.[Anh], Do, H.D.[Huy-Duc], Nguyen, Q.[Quan], Le, H.M.[Hoang M.], Dinh, Q.V.[Quang-Vinh],
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking,
IntVidSea25(3719-3729)
IEEE DOI 2512
Technological innovation, Accuracy, Limiting, Redundancy, Streaming media, Search problems, Optimization, Videos, Context modeling BibRef

Tan, J.W.[Jia-Wei], Wang, H.X.[Hong-Xing], Weng, J.[Junwu], Li, J.X.[Jia-Xin], Ou, Z.L.[Zhi-Ling], Dang, K.[Kang],
Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D,
CVPR25(24180-24189)
IEEE DOI Code:
WWW Link. 2508
Visualization, Codes, Semantics, Feature extraction, Videos, video moment retrieval BibRef

Jung, M.[Minjoon], Jang, Y.[Youwon], Choi, S.[Seongho], Kim, J.[Joochan], Kim, J.H.[Jin-Hwa], Zhang, B.T.[Byoung-Tak],
Background-Aware Moment Detection for Video Moment Retrieval,
WACV25(8586-8596)
IEEE DOI Code:
WWW Link. 2505
Sensitivity, Limiting, Codes, Computational modeling, Natural languages, Predictive models, Performance gain, video moment retrieval BibRef

Flanagan, K.[Kevin], Damen, D.[Dima], Wray, M.[Michael],
Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval,
WACV25(5336-5345)
IEEE DOI Code:
WWW Link. 2505
Training, Accuracy, Benchmark testing, Standards, moment retrieval, temporal sentence grounding, negative rejection BibRef

Panta, L.[Love], Shrestha, P.[Prashant], Sapkota, B.[Brabeem], Bhattarai, A.[Amrita], Manandhar, S.[Suresh], Sah, A.K.[Anand Kumar],
Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval,
Pretrain24(617-624)
IEEE DOI 2404
Representation learning, Visualization, Grounding, Self-supervised learning, Computer architecture BibRef

Luo, D.Z.[De-Zhao], Huang, J.[Jiabo], Gong, S.G.[Shao-Gang], Jin, H.L.[Hai-Lin], Liu, Y.[Yang],
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models,
WACV24(5452-5461)
IEEE DOI 2404
Vocabulary, Visualization, Correlation, Costs, Annotations, Transfer learning, Algorithms, Video recognition and understanding BibRef

Huang, C.[Cheng], Wu, Y.L.[Yi-Lun], Shuai, H.H.[Hong-Han], Huang, C.C.[Ching-Chun],
Semantic Fusion Augmentation and Semantic Boundary Detection: A Novel Approach to Multi-Target Video Moment Retrieval,
WACV24(6769-6778)
IEEE DOI Code:
WWW Link. 2404
Training, Source coding, Semantics, Natural languages, Noise measurement, Algorithms, Vision + language and/or other modalities BibRef

Xiao, Y.C.[Yi-Cheng], Luo, Z.Y.[Zhuo-Yan], Liu, Y.[Yong], Ma, Y.[Yue], Bian, H.W.[Heng-Wei], Ji, Y.[Yatai], Yang, Y.J.[Yu-Jiu], Li, X.[Xiu],
Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection,
CVPR24(18709-18719)
IEEE DOI Code:
WWW Link. 2410
Video on demand, Codes, Grounding, Computational modeling, Contrastive learning, Transformers, Video Moment Retrieval, Highlight Detection BibRef

Huang, B.[Bin], Wang, X.[Xin], Chen, H.[Hong], Song, Z.[Zihan], Zhu, W.W.[Wen-Wu],
VTimeLLM: Empower LLM to Grasp Video Moments,
CVPR24(14271-14280)
IEEE DOI Code:
WWW Link. 2410
Training, Visualization, Grounding, Large language models, Benchmark testing, Cognition BibRef

Luo, D.Z.[De-Zhao], Huang, J.[Jiabo], Gong, S.G.[Shao-Gang], Jin, H.L.[Hai-Lin], Liu, Y.[Yang],
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training,
CVPR23(23045-23055)
IEEE DOI 2309
BibRef

Ma, K.J.[Kai-Jing], Zang, X.H.[Xiang-Hao], Feng, Z.[Zerun], Fang, H.[Han], Ban, C.[Chao], Wei, Y.H.[Yu-Han], He, Z.J.[Zhong-Jiang], Li, Y.X.[Yong-Xiang], Sun, H.[Hao],
LLaViLo: Boosting Video Moment Retrieval via Adapter-Based Multimodal Modeling,
CLVL23(2790-2795)
IEEE DOI 2401
BibRef

Togashi, R.[Riku], Otani, M.[Mayu], Nakashima, Y.[Yuta], Rahtu, E.[Esa], Heikkilä, J.[Janne], Sakai, T.[Tetsuya],
AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval,
CVPR22(21044-21053)
IEEE DOI 2210
Current measurement, Computational modeling, Stability analysis, Reliability, Datasets and evaluation, Video analysis and understanding BibRef

Zhang, L.Y.[Ling-Yu], Radke, R.J.[Richard J.],
Natural Language Video Moment Localization Through Query-Controlled Temporal Convolution,
WACV22(2524-2532)
IEEE DOI 2202
Location awareness, Heating systems, Visualization, Convolution, Video sequences, Natural languages, Analysis and Understanding BibRef

Liu, Y.[Ye], Li, S.Y.[Si-Yuan], Wu, Y.[Yang], Chen, C.W.[Chang Wen], Shan, Y.[Ying], Qie, X.H.[Xiao-Hu],
UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection,
CVPR22(3032-3041)
IEEE DOI 2210
Video on demand, Natural languages, 3G mobile communication, Transformers, Generators, Proposals, retrieval BibRef

Gao, J.Y.[Jun-Yu], Xu, C.S.[Chang-Sheng],
Fast Video Moment Retrieval,
ICCV21(1503-1512)
IEEE DOI 2203
Semantics, Natural languages, Benchmark testing, Transformers, Robustness, Task analysis, Vision + language, Video analysis and understanding BibRef

Wang, H.[Hao], Zha, Z.J.[Zheng-Jun], Li, L.[Liang], Liu, D.[Dong], Luo, J.B.[Jie-Bo],
Structured Multi-Level Interaction Network for Video Moment Localization via Language Query,
CVPR21(7022-7031)
IEEE DOI 2111
Location awareness, Natural languages, Benchmark testing, Proposals, Task analysis BibRef

Mithun, N.C.[Niluthpol Chowdhury], Paul, S.[Sujoy], Roy-Chowdhury, A.K.[Amit K.],
Weakly Supervised Video Moment Retrieval From Text Queries,
CVPR19(11584-11593).
IEEE DOI 2002
BibRef

Chapter on Motion -- Human Motion, Surveillance, Tracking, Surveillance, Activities continues in
Accumulation Methods, Motion Histograms for Human Action Recognition .

Last update:Jul 6, 2026 at 19:51:11