17.1.4.8 Spatio-Temporal Techniques for Human Action Recognition and Detection

Chapter Contents (Back)
Action Recognition. Human Actions. Spatio-Temporal.
See also Motion Flow, Motion Vectors for Human Action Recognition and Detection.

Laptev, I.[Ivan], Caputo, B.[Barbara], Schuldt, C.[Christian], Lindeberg, T.[Tony],
Local velocity-adapted motion events for spatio-temporal recognition,
CVIU(108), No. 3, December 2007, pp. 207-229.
Elsevier DOI 0711
BibRef
Earlier: A3, A1, A2, Only:
Recognizing human actions: a local SVM approach,
ICPR04(III: 32-36).
IEEE DOI 0409
Dataset, Actions.
WWW Link. Motion; Local features; Motion descriptors; Matching; Velocity adaptation; Action recognition; Learning; SVM BibRef

Niebles, J.C.[Juan Carlos], Wang, H.C.[Hong-Cheng], Fei-Fei, L.[Li],
Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words,
IJCV(79), No. 3, September 2008, pp. xx-yy.
Springer DOI 0806
BibRef BMVC06(III:1249).
PDF File. 0609
BibRef

Fan, L.X.[Lin-Xi], Buch, S.[Shyamal], Wang, G.Z.[Guan-Zhi], Cao, R.[Ryan], Zhu, Y.[Yuke], Niebles, J.C.[Juan Carlos], Fei-Fei, L.[Li],
RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition,
ECCV20(XIX:505-521).
Springer DOI 2011
BibRef

Luo, Z.[Zelun], Hsieh, J.T.[Jun-Ting], Jiang, L.[Lu], Niebles, J.C.[Juan Carlos], Fei-Fei, L.[Li],
Graph Distillation for Action Detection with Privileged Modalities,
ECCV18(XIV: 174-192).
Springer DOI 1810
BibRef

Huang, D.A.[De-An], Fei-Fei, L.[Li], Niebles, J.C.[Juan Carlos],
Connectionist Temporal Modeling for Weakly Supervised Action Labeling,
ECCV16(IV: 137-153).
Springer DOI 1611
BibRef

Niebles, J.C.[Juan Carlos], Fei-Fei, L.[Li],
A Hierarchical Model of Shape and Appearance for Human Action Classification,
CVPR07(1-8).
IEEE DOI 0706
BibRef

Niebles, J.C.[Juan Carlos], Chen, C.W.[Chih-Wei], Fei-Fei, L.[Li],
Modeling Temporal Structure of Decomposable Motion Segments for Activity Classification,
ECCV10(II: 392-405).
Springer DOI 1009

See also Olympic Sports Dataset. BibRef

Lillo, I.[Ivan], Soto, A.[Alvaro], Niebles, J.C.[Juan Carlos],
Discriminative Hierarchical Modeling of Spatio-temporally Composable Human Activities,
CVPR14(812-819)
IEEE DOI 1409
action classification; composable actions; hierarchical modelling BibRef

Savarese, S.[Silvio], del Pozo, A.[Andrey], Niebles, J.C.[Juan Carlos], Fei-Fei, L.[Li],
Spatial-Temporal correlatons for unsupervised action classification,
Motion08(1-8).
IEEE DOI 0801
BibRef

Ning, H., Han, T.X., Walther, D.B., Liu, M., Huang, T.S.,
Hierarchical Space-Time Model Enabling Efficient Search for Human Actions,
CirSysVideo(19), No. 6, June 2009, pp. 808-820.
IEEE DOI 0906
BibRef

Liu, H.W.[Hao-Wei], Feris, R.S.[Rogerio S.], Krueger, V.[Volker], Sun, M.T.[Ming-Ting],
Unsupervised Action Classification Using Space-Time Link Analysis,
JIVP(2010), No. 2010, pp. xx-yy.
DOI Link 1003
BibRef

Ji, R.R.[Rong-Rong], Yao, H.X.[Hong-Xun], Sun, X.S.[Xiao-Shuai],
Actor-independent action search using spatiotemporal vocabulary with appearance hashing,
PR(44), No. 3, March 2011, pp. 624-638.
Elsevier DOI 1011
Video search; Action retrieval; Attention Shift; 3D-SIFT; Spatiotemporal vocabulary; Dynamic time warping; Appearance hashing BibRef

Chakraborty, B.[Bhaskar], Holte, M.B.[Michael B.], Moeslund, T.B.[Thomas B.], Gonzàlez, J.[Jordi],
Selective spatio-temporal interest points,
CVIU(116), No. 3, March 2012, pp. 396-410.
Elsevier DOI 1201
Action recognition; Complex scenes; Multiple actors; Spatio-temporal interest points; Local descriptors; Bag-of-words; Support vector machines BibRef

Chakraborty, B.[Bhaskar], Holte, M.B.[Michael B.], Moeslund, T.B.[Thomas B.], Gonzalez, J.[Jordi], Roca, F.X.[F. Xavier],
A selective spatio-temporal interest point detector for human action recognition in complex scenes,
ICCV11(1776-1783).
IEEE DOI 1201
BibRef

Wang, T.Q.[Tai-Qing], Wang, S.J.[Sheng-Jin], Ding, X.Q.[Xiao-Qing],
Detecting Human Action as the Spatio-Temporal Tube of Maximum Mutual Information,
CirSysVideo(24), No. 2, February 2014, pp. 277-290.
IEEE DOI 1403
Markov processes BibRef

Gu, J.X.[Jun-Xia], Ding, X.Q.[Xiao-Qing], Wang, S.J.[Sheng-Jin], Wu, Y.S.[You-Shou],
Full body tracking-based human action recognition,
ICPR08(1-4).
IEEE DOI 0812
BibRef
Earlier:
Adaptive particle filter with body part segmentation for full body tracking,
FG08(1-6).
IEEE DOI 0809
BibRef

Venkataraman, V.[Vinay], Turaga, P.K.[Pavan K.],
Shape Distributions of Nonlinear Dynamical Systems for Video-Based Inference,
PAMI(38), No. 12, December 2016, pp. 2531-2543.
IEEE DOI 1609
Analytical models BibRef

Wang, Q.[Qiao], Potaraju, C., Turaga, P.K.[Pavan K.],
Measuring Glide-Reflection Symmetry in Human Movements Using Elastic Shape Analysis,
Diff-CVML17(709-716)
IEEE DOI 1709
Foot, Legged locomotion, Real-time systems, Shape, Trajectory BibRef

Wang, Q.[Qiao], Anirudh, R.[Rushil], Turaga, P.K.[Pavan K.],
Temporal Reflection Symmetry of Human Actions: A Riemannian Analysis,
DIFF-CV15(xx-yy).
DOI Link 1601
BibRef

Bagheri, M.A.[Mohammad Ali], Gao, Q.G.[Qi-Gang], Escalera, S.[Sergio], Moeslund, T.B.[Thomas B.], Ren, H.M.[Hua-Min], Etemad, E.[Elham],
Locality regularized group sparse coding for action recognition,
CVIU(158), No. 1, 2017, pp. 106-114.
Elsevier DOI 1704
Bag of words BibRef

Ren, H.M.[Hua-Min], Kanhabua, N.[Nattiya], Møgelmose, A.[Andreas], Liu, W.F.[Wei-Feng], Kulkarni, K.[Kaustubh], Escalera, S.[Sergio], Baró, X.[Xavier], Moeslund, T.B.[Thomas B.],
Back-dropout transfer learning for action recognition,
IET-CV(12), No. 4, June 2018, pp. 484-491.
DOI Link 1805
BibRef

Bagheri, M.A.[Mohammad Ali], Gao, Q.G.[Qi-Gang], Escalera, S.[Sergio], Clapes, A.[Albert], Nasrollahi, K.[Kamal], Holte, M.B.[Michael B.], Moeslund, T.B.[Thomas B.],
Keep it accurate and diverse: Enhancing action recognition performance by ensemble learning,
ChaLearn15(22-29)
IEEE DOI 1510
Accuracy BibRef

Lakhal, M.I.[Mohamed Ilyes], Clapés, A.[Albert], Escalera, S.[Sergio], Lanz, O.[Oswald], Cavallaro, A.[Andrea],
Residual Stacked RNNs for Action Recognition,
HBU18(II:534-548).
Springer DOI 1905

See also Recurrent neural networks for remote sensing image classification. BibRef

Tseng, C.C.[Chien-Chung], Chen, J.C.[Ju-Chin], Fang, C.H.[Ching-Hsien], Lien, J.J.J.[Jenn-Jier James],
Human action recognition based on graph-embedded spatio-temporal subspace,
PR(45), No. 10, October 2012, pp. 3611-3624.
Elsevier DOI 1206
BibRef
Earlier: A3, A2, A1, A4:
Human Action Recognition Using Spatio-temporal Classification,
ACCV09(II: 98-109).
Springer DOI 0909
Human action recognition; Adaptive locality preserving projection; Large margin nearest neighbor BibRef

Gaidon, A.[Adrien], Harchaoui, Z.[Zaid], Schmid, C.[Cordelia],
Temporal Localization of Actions with Actoms,
PAMI(35), No. 11, 2013, pp. 2782-2795.
IEEE DOI 1309
BibRef
Earlier:
Recognizing activities with cluster-trees of tracklets,
BMVC12(30).
DOI Link 1301
BibRef
Earlier:
A time series kernel for action recognition,
BMVC11(xx-yy).
HTML Version. 1110
BibRef
And:
Actom sequence models for efficient action detection,
CVPR11(3201-3208).
IEEE DOI 1106
Action recognition;actoms;temporal localization;video analysis BibRef

Gaidon, A.[Adrien], Harchaoui, Z.[Zaid], Schmid, C.[Cordelia],
Activity representation with motion hierarchies,
IJCV(107), No. 3, May 2014, pp. 219-238.
Springer DOI 1404
Complex activities, example: pole vault. BibRef

Gaidon, A.[Adrien], Marszalek, M.[Marcin], Schmid, C.[Cordelia],
Mining visual actions from movies,
BMVC09(xx-yy).
PDF File. 0909
BibRef

Weinzaepfel, P., Harchaoui, Z.[Zaid], Schmid, C.[Cordelia],
Learning to Track for Spatio-Temporal Action Localization,
ICCV15(3164-3172)
IEEE DOI 1602
Detectors BibRef

Laptev, I.[Ivan], Marszalek, M.[Marcin], Schmid, C.[Cordelia], Rozenfeld, B.[Benjamin],
Learning realistic human actions from movies,
CVPR08(1-8).
IEEE DOI 0806

See also Structured Learning of Human Interactions in TV Shows. BibRef

Laptev, I.[Ivan], Perez, P.[Patrick],
Retrieving actions in movies,
ICCV07(1-8).
IEEE DOI 0710
BibRef

Kviatkovsky, I.[Igor], Rivlin, E.[Ehud], Shimshoni, I.[Ilan],
Online action recognition using covariance of shape and motion,
CVIU(129), No. 1, 2014, pp. 15-26.
Elsevier DOI 1411
Online action recognition BibRef

Derpanis, K.G.P.[Konstantinos G.P.], Sizintsev, M.[Mikhail], Cannons, K.[Kevin], Wildes, R.P.[Richard P.],
Action Spotting and Recognition Based on a Spatiotemporal Orientation Analysis,
PAMI(35), No. 3, March 2013, pp. 527-540.
IEEE DOI 1303
BibRef
Earlier:
Efficient action spotting based on a spacetime oriented structure representation,
CVPR10(1990-1997).
IEEE DOI 1006
Combine action spotting, action recognition, classification into category. human actions in video. Descriptors computed from raw intensity data.
See also Spatiotemporal Stereo and Scene Flow via Stequel Matching. BibRef

Zhang, W.Y.[Wei-Yu], Zhu, M.L.[Meng-Long], Derpanis, K.G.P.[Konstantinos G.P.],
From Actemes to Action: A Strongly-Supervised Representation for Detailed Action Understanding,
ICCV13(2248-2255)
IEEE DOI 1403
action classification, action detection
See also Penn Action Dataset. BibRef

Sizintsev, M.[Mikhail], Wildes, R.P.[Richard P.],
Spatiotemporal oriented energies for spacetime stereo,
ICCV11(1140-1147).
IEEE DOI 1201
BibRef

Ma, A.J.H.[Andy Jin-Hua], Yuen, P.C.[Pong C.], Zou, W.W.W.[Wilman Wei-Wen], Lai, J.H.[Jian-Huang],
Supervised Spatio-Temporal Neighborhood Topology Learning for Action Recognition,
CirSysVideo(23), No. 8, 2013, pp. 1447-1460.
IEEE DOI 1307
BibRef
Earlier:
Supervised Neighborhood Topology Learning for Human Action Recognition,
MLMotion09(476-481).
IEEE DOI 0910
BibRef

Zhang, X.R.[Xiang-Rong], Yang, Y.[Yang], Jiao, L.C.[Li-Cheng], Dong, F.[Feng],
Manifold-constrained coding and sparse representation for human action recognition,
PR(46), No. 7, July 2013, pp. 1819-1831.
Elsevier DOI 1303
Human action recognition; Local manifold-constrained coding; Sparse representation; Bag-of-features model; Spatio-temporal local features BibRef

Zhang, X.R.[Xiang-Rong], Yang, H.[Hao], Jiao, L.C., Yang, Y.[Yang], Dong, F.[Feng],
Laplacian group sparse modeling of human actions,
PR(47), No. 8, 2014, pp. 2689-2701.
Elsevier DOI 1405
Action recognition BibRef

Ahmed, J.[Javed], Abbasi, S.[Sadaf], Shaikh, M.Z.[M. Zakir],
Fast spatiotemporal MACH filter for action recognition,
MVA(24), No. 5, July 2013, pp. 909-918.
WWW Link. 1306
BibRef

Burghouts, G.J.[Gertjan J.], Schutte, K.[Klamer],
Spatio-temporal layout of human actions for improved bag-of-words action detection,
PRL(34), No. 15, 2013, pp. 1861-1869.
Elsevier DOI 1309
BibRef
Earlier:
Correlations between 48 human actions improve their detection,
ICPR12(3815-3818).
WWW Link. 1302
Human action recognition
See also unified approach to the recognition of complex actions from sequences of zone-crossings, A. BibRef

Burghouts, G.J.[Gertjan J.], Eendebak, P.[Pieter], Bouma, H.[Henri], ten Hove, R. .J.M.[R. Johan-Martijn],
Improved action recognition by combining multiple 2D views in the bag-of-words model,
AVSS13(250-255)
IEEE DOI 1311
Accuracy BibRef

Burghouts, G.J., van den Broek, S.P., ten Hove, R.J.M.,
Spatio-temporal Saliency for Action Similarity,
ActionSim13(257-262)
IEEE DOI 1309
Saliency map BibRef

Borzeshi, E.Z.[E. Zare], Perez Concha, O.[Oscar], Xu, R.Y.D.[Richard Yi Da], Piccardi, M.[Massimo],
Joint Action Segmentation and Classification by an Extended Hidden Markov Model,
SPLetters(20), No. 12, 2013, pp. 1207-1210.
IEEE DOI 1311
Accuracy BibRef

Borzeshi, E.Z.[Ehsan Zare], Perez Concha, O.[Oscar], Piccardi, M.[Massimo],
Human Action Recognition in Video by Fusion of Structural and Spatio-temporal Features,
SSSPR12(474-482).
Springer DOI 1211
BibRef

Borzeshi, E.Z.[Ehsan Zare], Xu, R.Y.D.[Richard Yi Da], Piccardi, M.[Massimo],
Automatic Human Action Recognition in Videos by Graph Embedding,
CIAP11(II: 19-28).
Springer DOI 1109
BibRef

Perez Concha, O.[Oscar], Xu, R.Y.D.[Richard Yi Da], Piccardi, M.[Massimo],
Compressive Sensing of Time Series for Human Action Recognition,
DICTA10(454-461).
IEEE DOI 1012
BibRef

Cheng, J.[Jian], Liu, H.J.[Hai-Jun], Li, H.S.[Hong-Sheng],
Silhouette analysis for human action recognition based on maximum spatio-temporal dissimilarity embedding,
MVA(25), No. 4, May 2014, pp. 1007-1018.
WWW Link. 1404
BibRef

Talha, A.M.[Ayesha M.], Junejo, I.N.[Imran N.],
Dynamic scene understanding using temporal association rules,
IVC(32), No. 12, 2014, pp. 1102-1116.
Elsevier DOI 1412
Scene understanding. Spatio-temporal abnormalities in event analysis. BibRef

Nguyen, T.V., Song, Z.[Zheng], Yan, S.C.[Shui-Cheng],
STAP: Spatial-Temporal Attention-Aware Pooling for Action Recognition,
CirSysVideo(25), No. 1, January 2015, pp. 77-86.
IEEE DOI 1502
gesture recognition BibRef

Ding, W.W.[Wen-Wen], Liu, K.[Kai], Cheng, F.[Fei], Zhang, J.[Jin],
STFC: Spatio-Temporal Feature Chain for Skeleton-Based Human Action Recognition,
JVCIR(26), No. 1, 2015, pp. 329-337.
Elsevier DOI 1502
View-invariant representation BibRef

Ding, W.W.[Wen-Wen], Liu, K.[Kai], Belyaev, E.[Evgeny], Cheng, F.[Fei],
Tensor-based linear dynamical systems for action recognition from 3D skeletons,
PR(77), 2018, pp. 75-86.
Elsevier DOI 1802
Skeleton joints, Action recognition, Subspace learning, Tensor learning, Grassmann manifold BibRef

Ding, W.W.[Wen-Wen], Liu, K.[Kai], Cheng, F.[Fei], Zhang, J.[Jin],
Learning hierarchical spatio-temporal pattern for human activity prediction,
JVCIR(35), No. 1, 2016, pp. 103-111.
Elsevier DOI 1602
Skeleton joints BibRef

Ding, W.W.[Wen-Wen], Liu, K.[Kai], Fu, X.[Xujia], Cheng, F.[Fei],
Profile HMMs for skeleton-based human action recognition,
SP:IC(42), No. 1, 2016, pp. 109-119.
Elsevier DOI 1603
View-invariant representation BibRef

Li, Y.[Yang], Ye, J.Y.[Jun-Yong], Wang, T.Q.[Tong-Qing], Huang, S.J.[Shi-Jian],
Augmenting bag-of-words: a robust contextual representation of spatiotemporal interest points for action recognition,
VC(31), No. 10, October 2015, pp. 1383-1394.
WWW Link. 1509
BibRef

Li, Y.[Yang], Ye, J.Y.[Jun-Yong], Wang, T.Q.[Tong-Qing], Huang, S.J.[Shi-Jian],
Statistics on Temporal Changes of Sparse Coding Coefficients in Spatial Pyramids for Human Action Recognition,
IEICE(E98-D), No. 9, September 2015, pp. 1711-1714.
WWW Link. 1509
BibRef

Huang, S.J.[Shi-Jian], Ye, J.Y.[Jun-Yong], Wang, T.Q.[Tong-Qing], Jiang, L.[Li], Xing, C.Y.[Chang-Yuan], Li, Y.[Yang],
Learning a Similarity Constrained Discriminative Kernel Dictionary from Concatenated Low-Rank Features for Action Recognition,
IEICE(E99-D), No. 2, February 2016, pp. 541-544.
WWW Link. 1604
BibRef

Kihl, O.[Olivier], Picard, D.[David], Gosselin, P.H.[Philippe-Henri],
A unified framework for local visual descriptors evaluation,
PR(48), No. 4, 2015, pp. 1174-1184.
Elsevier DOI 1502
BibRef
Earlier:
A unified formalism for video descriptors,
ICIP13(2416-2419)
IEEE DOI 1402
Image processing and computer vision. action analysis BibRef

Kihl, O.[Olivier], Picard, D.[David], Gosselin, P.H.[Philippe-Henri],
Local polynomial space-time descriptors for action classification,
MVA(27), No. 3, April 2016, pp. 351-361.
WWW Link. 1604
BibRef

Pei, L.S.[Li-Shen], Ye, M.[Mao], Zhao, X.Z.[Xue-Zhuan], Xiang, T.[Tao], Li, T.[Tao],
Learning spatio-temporal features for action recognition from the side of the video,
SIViP(10), No. 1, January 2016, pp. 199-206.
WWW Link. 1601
BibRef

Dawn, D.D.[Debapratim Das], Shaikh, S.H.[Soharab Hossain],
A comprehensive survey of human action recognition with spatio-temporal interest point (STIP) detector,
VC(32), No. 3, March 2016, pp. 289-306.
WWW Link. 1604
BibRef

Tran, D.[Du], Torresani, L.[Lorenzo],
EXMOVES: Mid-level Features for Efficient Action Recognition and Video Analysis,
IJCV(119), No. 3, September 2016, pp. 239-253.
Springer DOI 1608
BibRef

Tran, D.[Du], Bourdev, L.[Lubomir], Fergus, R.[Rob], Torresani, L.[Lorenzo], Paluri, M.[Manohar],
Learning Spatiotemporal Features with 3D Convolutional Networks,
ICCV15(4489-4497)
IEEE DOI 1602
3D CNN, Convolution BibRef

Korbar, B., Tran, D.[Du], Torresani, L.[Lorenzo],
SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition,
ICCV19(6231-6241)
IEEE DOI 2004
feature extraction, image classification, image motion analysis, learning (artificial intelligence), BibRef

Liu, Y.N.[Yi-Nan], Wu, Q.B.[Qing-Bo], Xu, L.F.[Lin-Feng], Wu, B.[Bo],
Mining Spatial Temporal Saliency Structure for Action Recognition,
IEICE(E99-D), No. 10, October 2016, pp. 2643-2646.
WWW Link. 1610
BibRef

Liu, Y.N.[Yi-Nan], Wu, Q.B.[Qing-Bo], Tang, L.Z.[Liang-Zhi], Xu, L.F.[Lin-Feng],
Self-Supervised Learning of Video Representation for Anticipating Actions in Early Stage,
IEICE(E101-D), No. 5, May 2018, pp. 1449-1452.
WWW Link. 1805
BibRef

Megrhi, S.[Sameh], Jmal, M.[Marwa], Souidene, W.[Wided], Beghdadi, A.[Azeddine],
Spatio-temporal action localization and detection for human action recognition in big dataset,
JVCIR(41), No. 1, 2016, pp. 375-390.
Elsevier DOI 1612
Spatio-temporal action detection BibRef

Yang, X.D.[Xiao-Dong], Tian, Y.L.[Ying-Li],
Super Normal Vector for Human Activity Recognition with Depth Cameras,
PAMI(39), No. 5, May 2017, pp. 1028-1039.
IEEE DOI 1704
BibRef
Earlier:
Super Normal Vector for Activity Recognition Using Depth Sequences,
CVPR14(804-811)
IEEE DOI 1409
BibRef
And:
Action Recognition Using Super Sparse Coding Vector with Spatio-temporal Awareness,
ECCV14(II: 727-741).
Springer DOI 1408
Cameras BibRef

Ulhaq, A.[Anwaar], Yin, X.X.S.[Xiao-Xia Sunny], He, J.[Jing], Zhang, Y.C.[Yan-Chun],
On Space-Time Filtering Framework for Matching Human Actions Across Different Viewpoints,
IP(27), No. 3, March 2018, pp. 1230-1242.
IEEE DOI 1801
Correlation, Fourier transforms, Frequency-domain analysis, Image recognition, Tensile stress, view-invariance BibRef

Nazir, S.[Saima], Yousaf, M.H.[Muhammad Haroon], Nebel, J.C.[Jean-Christophe], Velastin, S.A.[Sergio A.],
A Bag of Expression framework for improved human action recognition,
PRL(103), 2018, pp. 39-45.
Elsevier DOI 1802
BibRef
Earlier: A1, A2, A4, Only:
Feature Similarity and Frequency-Based Weighted Visual Words Codebook Learning Scheme for Human Action Recognition,
PSIVT17(326-336).
Springer DOI 1802
human action in simple and realistic scenarios. Add space-time to BoW. Human action recognition, Bag of Words, Bag of visual words BibRef

Murtaza, F.[Fiza], Yousaf, M.H.[Muhammad Haroon], Velastin, S.A.[Sergio A.],
TAB: Temporally aggregated bag-of-discriminant-words for temporal action proposals,
CVIU(183), 2019, pp. 42-52.
Elsevier DOI 1906
Temporal action detection, Bag of words, temporal action proposals BibRef

Murtaza, F.[Fiza], Yousaf, M.H.[Muhammad Haroon], Velastin, S.A.[Sergio A.], Qian, Y.,
End-to-End Temporal Action Detection Using Bag of Discriminant Snippets,
SPLetters(26), No. 2, February 2019, pp. 272-276.
IEEE DOI 1902
feature extraction, gesture recognition, image classification, image motion analysis, image representation, temporal-action proposals BibRef

Naeem, H.B.[Hajra Binte], Murtaza, F.[Fiza], Yousaf, M.H.[Muhammad Haroon], Velastin, S.A.[Sergio A.],
T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition,
PRL(148), 2021, pp. 22-28.
Elsevier DOI 2107
BibRef
Earlier: A2, A3, A4, Only:
DA-VLAD: Discriminative Action Vector of Locally Aggregated Descriptors for Action Recognition,
ICIP18(3993-3997)
IEEE DOI 1809
Human action recognition, Multi-view, View-invariant, Temporal action sequence, VLAD, Short segment features. Feature extraction, Encoding, Videos, Task analysis, Training, Trajectory, Standards, Human action recognition, improved dense trajectories (iDT) BibRef

Xu, W.[Wanru], Miao, Z.J.[Zhen-Jiang], Zhang, X.P., Tian, Y.[Yi],
A Hierarchical Spatio-Temporal Model for Human Activity Recognition,
MultMed(19), No. 7, July 2017, pp. 1494-1509.
IEEE DOI 1706
Activity recognition, Computational modeling, Feature extraction, Hidden Markov models, Multimedia communication, Streaming media, Video sequences, Activity recognition, hidden conditional random field (HCRF), hierarchical structure, spatio-temporal, dependencies BibRef

Tian, Y.[Yi], Kong, Y.[Yu], Ruan, Q.Q.[Qiu-Qi], An, G.Y.[Gao-Yun], Fu, Y.[Yun],
Hierarchical and Spatio-Temporal Sparse Representation for Human Action Recognition,
IP(27), No. 4, April 2018, pp. 1748-1762.
IEEE DOI 1802
Correlation, Encoding, Hidden Markov models, Image coding, Layout, Video sequences, Visualization, Action Recognition, locally consistent group sparse coding BibRef

Xu, W.[Wanru], Miao, Z.J.[Zhen-Jiang], Zhang, J.[Jian], Tian, Y.[Yi],
Learning Spatio-Temporal Features for Action Recognition with Modified Hidden Conditional Random Field,
VECTaR14(786-801).
Springer DOI 1504
BibRef

Xu, W.[Wanru], Miao, Z.J.[Zhen-Jiang], Zhang, J.[Jian], Zhang, Q.A.[Qi-Ang], Wu, H.[Hao],
Spatial-Temporal Context for Action Recognition Combined with Confidence and Contribution Weight,
ACPR13(576-580)
IEEE DOI 1408
data mining BibRef

Martínez, F.[Fabio], Manzanera, A.[Antoine], Romero, E.[Eduardo],
Spatio-temporal multi-scale motion descriptor from a spatially-constrained decomposition for online action recognition,
IET-CV(11), No. 7, October 2017, pp. 541-549.
DOI Link 1709
BibRef

Jia, C., Shao, M., Li, S., Zhao, H., Fu, Y.,
Stacked Denoising Tensor Auto-Encoder for Action Recognition With Spatiotemporal Corruptions,
IP(27), No. 4, April 2018, pp. 1878-1887.
IEEE DOI 1802
correlation methods, divide and conquer methods, feature extraction, image denoising, image motion analysis, spatiotemporal corruption BibRef

Ma, S.[Shugao], Zhang, J.M.[Jian-Ming], Sclaroff, S.[Stan], Ikizler-Cinbis, N.[Nazli], Sigal, L.[Leonid],
Space-Time Tree Ensemble for Action Recognition and Localization,
IJCV(126), No. 2-4, April 2018, pp. 314-332.
Springer DOI 1804
BibRef
Earlier: A1, A2, A4, A3, Only:
Action Recognition and Localization by Hierarchical Space-Time Segments,
ICCV13(2744-2751)
IEEE DOI 1403
action localization; action recognition; space-time representation BibRef

Ma, S.[Shugao], Sigal, L.[Leonid], Sclaroff, S.[Stan],
Learning Activity Progression in LSTMs for Activity Detection and Early Detection,
CVPR16(1942-1950)
IEEE DOI 1612
BibRef
Earlier:
Space-time tree ensemble for action recognition,
CVPR15(5024-5032)
IEEE DOI 1510
BibRef

Li, Y.S.[Yan-Shan], Xia, R.J.[Rong-Jie], Xie, W.X.[Wei-Xin],
A unified model of appearance and motion of video and its application in STIP detection,
SIViP(12), No. 3, March 2018, pp. 403-410.
Springer DOI 1804
Spatio-temporal interest points for action recognition. BibRef

Yu, T.Z.[Ting-Zhao], Guo, C.X.[Chao-Xu], Wang, L.F.[Ling-Feng], Gu, H.X.[Hu-Xiang], Xiang, S.M.[Shi-Ming], Pan, C.H.[Chun-Hong],
Joint spatial-temporal attention for action recognition,
PRL(112), 2018, pp. 226-233.
Elsevier DOI 1809
BibRef
Earlier: A1, A4, A3, A5, A6, Only:
Cascaded temporal spatial features for video action recognition,
ICIP17(1552-1556)
IEEE DOI 1803
Action recognition, Spatial-Temporal attention, Two-Stage. Convolution, Feature extraction, Training, spatial-temporal decomposition BibRef

Yu, T.Z.[Ting-Zhao], Wang, L.F.[Ling-Feng], Guo, C.X.[Chao-Xu], Gu, H.X.[Hu-Xiang], Xiang, S.M.[Shi-Ming], Pan, C.H.[Chun-Hong],
Pseudo low rank video representation,
PR(85), 2019, pp. 50-59.
Elsevier DOI 1810
Pseudo low rank, Data driven, Low resolution, Action recognition BibRef

Song, L.F.[Li-Fei], Weng, L.G.[Li-Guo], Wang, L.F.[Ling-Feng], Min, X.[Xia], Pan, C.H.[Chun-Hong],
Two-Stream Designed 2D/3D Residual Networks with LSTMS for Action Recognition in Videos,
ICIP18(808-812)
IEEE DOI 1809
Videos, Solid modeling, Convolution, Logic gates, Training, score distribution fusion BibRef

Bhorge, S.B.[Sidharth B.], Manthalkar, R.R.[Ramachandra R.],
Three-dimensional spatio-temporal trajectory descriptor for human action recognition,
MultInfoRetr(8), No. 3, September 2018, pp. 197-205.
Springer DOI 1809
BibRef

Tong, M.[Ming], Chen, Y.R.[Yi-Ran], Zhao, M.G.[Men-Gao], Tian, W.J.[Wei-Juan],
A new framework of action recognition with discriminative parts, spatio-temporal and causal interaction descriptors,
JVCIR(56), 2018, pp. 116-130.
Elsevier DOI 1811
Action recognition, Spectral clustering, Discriminative constraint, Action part, Causal relationship BibRef

Tu, Z.G.[Zhi-Gang], Li, H.Y.[Hong-Yan], Zhang, D.J.[De-Jun], Dauwels, J.[Justin], Li, B.X.[Bao-Xin], Yuan, J.S.[Jun-Song],
Action-Stage Emphasized Spatiotemporal VLAD for Video Action Recognition,
IP(28), No. 6, June 2019, pp. 2799-2812.
IEEE DOI 1905
feature extraction, gesture recognition, image colour analysis, image motion analysis, ActionS-ST-VLAD BibRef

Abrishami-Moghaddam, H.[Hamid], Zare, A.[Amin],
Spatiotemporal wavelet correlogram for human action recognition,
MultInfoRetr(8), No. 3, September 2019, pp. 167-180.
WWW Link. 1908
BibRef

Xue, F.[Fei], Ji, H.B.[Hong-Bing], Zhang, W.B.[Wen-Bo], Cao, Y.[Yi],
Attention-based spatial-temporal hierarchical ConvLSTM network for action recognition in videos,
IET-CV(13), No. 8, December 2019, pp. 708-718.
DOI Link 1912
BibRef

Xue, F.[Fei], Ji, H.B.[Hong-Bing], Zhang, W.B.[Wen-Bo], Cao, Y.[Yi],
Self-supervised video representation learning by maximizing mutual information,
SP:IC(88), 2020, pp. 115967.
Elsevier DOI 2009
Different clips from same video share some features. Self-supervised learning, Deep learning, Video representation, Mutual information, Action recognition BibRef

Xue, F.[Fei], Ji, H.B.[Hong-Bing], Zhang, W.B.[Wen-Bo],
Mutual information guided 3D ResNet for self-supervised video representation learning,
IET-IPR(14), No. 13, November 2020, pp. 3066-3075.
DOI Link 2012
BibRef

Ye, Y.C.[Yuan-Cheng], Yang, X.D.[Xiao-Dong], Tian, Y.L.[Ying-Li],
Discovering spatio-temporal action tubes,
JVCIR(58), 2019, pp. 515-524.
Elsevier DOI 1901
Spatio-temporal action detection, Deep neural networks BibRef

Jing, L.L.[Long-Long], Ye, Y.C.[Yuan-Cheng], Yang, X.D.[Xiao-Dong], Tian, Y.L.[Ying-Li],
3D convolutional neural network with multi-model framework for action recognition,
ICIP17(1837-1841)
IEEE DOI 1803
Data mining, Feature extraction, Optical computing, Optical fiber networks, Optical flow, Video Classification BibRef

Song, S., Lan, C.L.[Cui-Ling], Xing, J.L.[Jun-Liang], Zeng, W.J.[Wen-Jun], Liu, J.Y.[Jia-Ying],
Spatio-Temporal Attention-Based LSTM Networks for 3D Action Recognition and Detection,
IP(27), No. 7, July 2018, pp. 3459-3471.
IEEE DOI 1805
Computational modeling, Feature extraction, Proposals, Recurrent neural networks, Skeleton, temporal attention BibRef

Zhou, Y.Z.[Yi-Zhou], Sun, X.Y.[Xiao-Yan], Zha, Z.J.[Zheng-Jun], Zeng, W.J.[Wen-Jun],
MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition,
CVPR18(449-458)
IEEE DOI 1812
3D CNN is high complexity training, integrate 2D CNN to get 3D feature maps. Convolution, Kernel, Videos, Image recognition, Training BibRef

Li, Y.H.[Yang-Hao], Lan, C.L.[Cui-Ling], Xing, J.L.[Jun-Liang], Zeng, W.J.[Wen-Jun], Yuan, C.F.[Chun-Feng], Liu, J.Y.[Jia-Ying],
Online Human Action Detection Using Joint Classification-Regression Recurrent Neural Networks,
ECCV16(VII: 203-220).
Springer DOI 1611
BibRef

Soltanian, M., Amini, S., Ghaemmaghami, S.,
Spatio-Temporal VLAD Encoding of Visual Events Using Temporal Ordering of the Mid-Level Deep Semantics,
MultMed(22), No. 7, July 2020, pp. 1769-1784.
IEEE DOI 2007
Encoding, Visualization, Semantics, Task analysis, Convex functions, Principal component analysis, Training, support vector machine BibRef

Li, D.[Dong], Yao, T.[Ting], Duan, L.Y.[Ling-Yu], Mei, T.[Tao], Rui, Y.[Yong],
Unified Spatio-Temporal Attention Networks for Action Recognition in Videos,
MultMed(21), No. 2, February 2019, pp. 416-428.
IEEE DOI 1902
Videos, Feature extraction, Task analysis, deep convolutional networks BibRef

Li, T.J.[Tian-Jiao], Luo, Y.[Yang], Zhang, W.[Wei], Duan, L.Y.[Ling-Yu], Liu, J.[Jun],
HARDer-Net: Hardness-Guided Discrimination Network for 3D Early Activity Prediction,
CirSysVideo(34), No. 12, December 2024, pp. 12112-12126.
IEEE DOI 2501
BibRef
Earlier: A1, A5, A3, A4, Only:
Hard-Net: Hardness-aware Discrimination Network for 3d Early Activity Prediction,
ECCV20(XI:420-436).
Springer DOI 2011
Predictive models, Interference, Adversarial machine learning, Solid modeling, Task analysis, hardness-guided learning BibRef

Li, D.[Dong], Qiu, Z.F.[Zhao-Fan], Pan, Y.W.[Ying-Wei], Yao, T.[Ting], Li, H.Q.[Hou-Qiang], Mei, T.[Tao],
Representing Videos as Discriminative Sub-graphs for Action Recognition,
CVPR21(3309-3318)
IEEE DOI 2111
Prototypes, Complexity theory, Proposals, Kernel BibRef

Li, D.[Dong], Qiu, Z.F.[Zhao-Fan], Dai, Q.[Qi], Yao, T.[Ting], Mei, T.[Tao],
Recurrent Tubelet Proposal and Recognition Networks for Action Detection,
ECCV18(VI: 306-322).
Springer DOI 1810
BibRef

Hao, W.L.[Wang-Li], Zhang, Z.X.[Zhao-Xiang],
Spatiotemporal distilled dense-connectivity network for video action recognition,
PR(92), 2019, pp. 13-24.
Elsevier DOI 1905
Two-stream, Action recognition, Dense-connectivity, Knowledge distillation BibRef

Escorcia, V.[Victor], Dao, C.D.[Cuong D.], Jain, M.[Mihir], Ghanem, B.[Bernard], Snoek, C.G.M.[Cees G.M.],
Guess where? Actor-supervision for spatiotemporal action localization,
CVIU(192), 2020, pp. 102886.
Elsevier DOI 2002
Actor-supervision, Spatiotemporal action localization, Action understanding, Video analysis, Weakly-supervised BibRef

Song, X., Lan, C., Zeng, W., Xing, J., Sun, X., Yang, J.,
Temporal-Spatial Mapping for Action Recognition,
CirSysVideo(30), No. 3, March 2020, pp. 748-759.
IEEE DOI 2003
Feature extraction, Optical imaging, Computational modeling, deep learning BibRef

Zhang, D.J.[De-Jun], He, L.C.[Lin-Chao], Tu, Z.G.[Zhi-Gang], Zhang, S.[Shifu], Han, F.[Fei], Yang, B.X.[Bo-Xiong],
Learning motion representation for real-time spatio-temporal action localization,
PR(103), 2020, pp. 107312.
Elsevier DOI 2005
Spatio-Temporal Action Localization, Real-time Computation, Optical Flow Sub-network, Pyramid Hierarchical Fusion BibRef

Liu, Y.Z.[Yuan-Zhong], Tu, Z.G.[Zhi-Gang], Lin, L.[Liyu], Xie, X.[Xing], Qin, Q.Q.[Qian-Qing],
Real-time Spatio-temporal Action Localization via Learning Motion Representation,
MMHUA20(184-198).
Springer DOI 2103
BibRef

Yang, H., Yuan, C., Zhang, L., Sun, Y., Hu, W., Maybank, S.J.,
STA-CNN: Convolutional Spatial-Temporal Attention Learning for Action Recognition,
IP(29), 2020, pp. 5783-5793.
IEEE DOI 2005
Videos, Feature extraction, Motion segmentation, Computational modeling, Image recognition, Solid modeling, action recognition BibRef

Yu, J.[Jongmin], Kim, D.Y.[Du Yong], Yoon, Y.[Yongsang], Jeon, M.[Moongu],
Action matching network: open-set action recognition using spatio-temporal representation matching,
VC(36), No. 7, July 2020, pp. 1457-1471.
WWW Link. 2005
BibRef

Baddar, W.J.[Wissam J.], Ro, Y.M.[Yong Man],
Encoding features robust to unseen modes of variation with attentive long short-term memory,
PR(100), 2020, pp. 107159.
Elsevier DOI 2005
Long short-term memory, Recurrent neural networks, Attention, Robust features, Modes of variation, Human action recognition BibRef

Seo, J.J.[Jeong-Jik], Baddar, W.J.[Wissam J.], Kim, D.H.[Dae Hoe], Ro, Y.M.[Yong Man],
Human action recognition using time-invariant key-trajectories describing spatio-temporal salient motion,
ICIP15(586-590)
IEEE DOI 1512
Human action recognition BibRef

Yang, C., Xu, Y., Shi, J., Dai, B., Zhou, B.,
Temporal Pyramid Network for Action Recognition,
CVPR20(588-597)
IEEE DOI 2008
Visualization, Semantics, Videos, Modulation, Feature extraction BibRef

Huang, J., Li, N., Li, T., Liu, S., Li, G.,
Spatial-Temporal Context-Aware Online Action Detection and Prediction,
CirSysVideo(30), No. 8, August 2020, pp. 2650-2662.
IEEE DOI 2008
Videos, Electron tubes, Proposals, Context modeling, Object detection, Predictive models, Computational modeling, online action tube generation BibRef

Jiang, M.[Min], Pan, N.[Na], Kong, J.[Jun],
Spatial-temporal saliency action mask attention network for action recognition,
JVCIR(71), 2020, pp. 102846.
Elsevier DOI 2009
Action recognition, Two-stream, Saliency attention, Key-frame BibRef

Li, Y.X.[Yu-Xi], Lin, W.Y.[Wei-Yao], See, J.[John], Xu, N.[Ning], Xu, S.G.[Shu-Gong], Yan, K.[Ke], Yang, C.[Cong],
CFAD: Coarse-to-fine Action Detector for Spatiotemporal Action Localization,
ECCV20(XVI: 510-527).
Springer DOI 2010
BibRef

Cai, J.H.[Jia-Hui], Hu, J.G.[Jian-Guo], Li, S.[Shiren], Lin, J.L.[Jia-Ling], Wang, J.[Jun],
Combination of temporal-channels correlation information and bilinear feature for action recognition,
IET-CV(14), No. 8, December 2020, pp. 634-641.
DOI Link 2012
BibRef

Eun, H.[Hyunjun], Moon, J.Y.[Jin-Young], Park, J.Y.[Jong-Youl], Jung, C.[Chanho], Kim, C.[Changick],
Temporal filtering networks for online action detection,
PR(111), 2021, pp. 107695.
Elsevier DOI 2012
Online action detection, Temporal filtering networks, Filter modules, TFN BibRef

Tomei, M.[Matteo], Baraldi, L.[Lorenzo], Calderara, S.[Simone], Bronzin, S.[Simone], Cucchiara, R.[Rita],
Video action detection by learning graph-based spatio-temporal interactions,
CVIU(206), 2021, pp. 103187.
Elsevier DOI 2104
Video understanding, Action detection, Graph learning BibRef

Tapaswi, M.[Makarand], Kumar, V.[Vijay], Laptev, I.[Ivan],
Long term spatio-temporal modeling for action detection,
CVIU(210), 2021, pp. 103242.
Elsevier DOI 2109
Spatio-temporal action detection, Graph neural networks, Atomic visual actions BibRef

Cao, H.Z.[Hao-Zhi], Xu, Y.C.[Yue-Cong], Yang, J.F.[Jian-Fei], Mao, K.Z.[Ke-Zhi], Yin, J.X.[Jian-Xiong], See, S.[Simon],
Effective action recognition with embedded key point shifts,
PR(120), 2021, pp. 108172.
Elsevier DOI 2109
Action recognition, Temporal feature, Key point shifts BibRef

Xu, Y.C.[Yue-Cong], Cao, H.Z.[Hao-Zhi], Yin, J.X.[Jian-Xiong], Chen, Z.H.[Zheng-Hua], Li, X.L.[Xiao-Li], Li, Z.G.[Zheng-Guo], Xu, Q.W.[Qian-Wen], Yang, J.F.[Jian-Fei],
Going Deeper into Recognizing Actions in Dark Environments: A Comprehensive Benchmark Study,
IJCV(132), No. 4, April 2024, pp. 1292-1309.
Springer DOI 2404
BibRef

Wang, Y.Z.[Yan-Ze], Ye, J.Y.[Jun-Yong],
TMF: Temporal Motion and Fusion for action recognition,
CVIU(213), 2021, pp. 103304.
Elsevier DOI 2112
Action recognition, Motion extraction, Temporal crossing fusion BibRef

Fu, H.[Hui], Zhang, K.[Ke], Li, H.Y.[Hao-Yu], Wang, J.Y.[Jing-Yu], Wang, Z.[Zhen],
Spatial Temporal and Channel Aware Network for Video-Based Person Re-Identification,
IVC(118), 2022, pp. 104356.
Elsevier DOI 2202
Video-based Re-ID, Spatial temporal feature, Channel segmentation, Group shuffle convolution BibRef

Zhu, L.C.[Lin-Chao], Fan, H.[Hehe], Luo, Y.W.[Ya-Wei], Xu, M.L.[Ming-Liang], Yang, Y.[Yi],
Temporal Cross-Layer Correlation Mining for Action Recognition,
MultMed(24), 2022, pp. 668-676.
IEEE DOI 2202
Convolution, Logic gates, Correlation, Trajectory, Aggregates, Training, Deep learning, video feature learning, frame correlation mining BibRef

Kushwaha, A.[Arati], Khare, A.[Ashish], Khare, M.[Manish],
Human Activity Recognition Algorithm in Video Sequences Based on Integration of Magnitude and Orientation Information of Optical Flow,
IJIG(22), No. 1 2022, pp. 2250009.
DOI Link 2202
BibRef

Shen, Z.W.[Zhong-Wei], Wu, X.J.[Xiao-Jun], Xu, T.Y.[Tian-Yang],
FEXNet: Foreground Extraction Network for Human Action Recognition,
CirSysVideo(32), No. 5, May 2022, pp. 3141-3151.
IEEE DOI 2205
Convolutional neural networks, Spatiotemporal phenomena, Feature extraction, Solid modeling, action recognition BibRef

Wu, C.[Cong], Wu, X.J.[Xiao-Jun], Xu, T.Y.[Tian-Yang], Kittler, J.V.[Josef V.],
Scene adaptive mechanism for action recognition,
CVIU(238), 2024, pp. 103854.
Elsevier DOI 2312
Scene adaptive mechanism, Action recognition BibRef

Wang, J.P.[Jin-Peng], Lin, Y.Q.[Yi-Qi], Zhang, M.L.[Man-Lin], Gao, Y.[Yuan], Ma, A.J.[Andy J.],
Multi-Level Temporal Dilated Dense Prediction for Action Recognition,
MultMed(24), 2022, pp. 2553-2566.
IEEE DOI 2205
Feature extraction, Convolution, Image recognition, Task analysis, Solid modeling, 3D Convolutional Neural Network BibRef

Wang, J.L.[Jiang-Liu], Jiao, J.B.[Jian-Bo], Bao, L.C.[Lin-Chao], He, S.F.[Sheng-Feng], Liu, W.[Wei], Liu, Y.H.[Yun-Hui],
Self-Supervised Video Representation Learning by Uncovering Spatio-Temporal Statistics,
PAMI(44), No. 7, July 2022, pp. 3791-3806.
IEEE DOI 2206
BibRef
Earlier: A1, A2, A3, A4, A6, A5:
Self-Supervised Spatio-Temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics,
CVPR19(4001-4010).
IEEE DOI 2002
Task analysis, Neural networks, Image color analysis, Visualization, Training, Feature extraction, 3D CNN BibRef

Wang, J.L.[Jiang-Liu], Jiao, J.B.[Jian-Bo], Liu, Y.H.[Yun-Hui],
Self-supervised Video Representation Learning by Pace Prediction,
ECCV20(XVII:504-521).
Springer DOI 2011
BibRef

Hejazi, S.M.[Seyed Mostafa], Abhayaratne, C.[Charith],
Retraction notice: Handcrafted localized phase features for human action recognition,
IVC(169), 2026, pp. 105954.
Elsevier DOI 2604
BibRef

Geng, T.T.[Tian-Tian], Zheng, F.[Feng], Hou, X.R.[Xiao-Rong], Lu, K.[Ke], Qi, G.J.[Guo-Jun], Shao, L.[Ling],
Spatial-Temporal Pyramid Graph Reasoning for Action Recognition,
IP(31), 2022, pp. 5484-5497.
IEEE DOI 2209
Cognition, Feature extraction, Task analysis, Kernel, Video sequences, Image recognition, Action recognition, spatial-temporal attention BibRef

Tian, Y.[Yuan], Yan, Y.C.[Yi-Chao], Zhai, G.T.[Guang-Tao], Guo, G.D.[Guo-Dong], Gao, Z.Y.[Zhi-Yong],
EAN: Event Adaptive Network for Enhanced Action Recognition,
IJCV(130), No. 10, October 2022, pp. 2453-2471.
Springer DOI 2209
Code, Action Recognition.
WWW Link. BibRef

Zhou, Y.C.[Yi-Chen], Huang, Z.Y.[Zi-Yuan], Yang, X.[Xulei], Ang, M.[Marcelo], Ng, T.K.[Teck Khim],
GCM: Efficient video recognition with glance and combine module,
PR(133), 2023, pp. 108970.
Elsevier DOI 2210
Glance and combine module, Video action recognition, Spatio-temporal convolution, Action recognition datasets BibRef

Hao, Y.B.[Yan-Bin], Wang, S.[Shuo], Tan, Y.[Yi], He, X.N.[Xiang-Nan], Liu, Z.G.[Zhen-Guang], Wang, M.[Meng],
Spatio-Temporal Collaborative Module for Efficient Action Recognition,
IP(31), 2022, pp. 7279-7291.
IEEE DOI 2212
Computational modeling, Feature extraction, Convolution, Solid modeling, Complexity theory, Collaboration, feature contextualization BibRef

Indhumathi, C., Murugan, V., Muthulakshmii, G.,
Human Action Recognition Using Spatio-Temporal Multiplier Network and Attentive Correlated Temporal Feature,
IJIG(22), No. 5 2022, pp. 2250051.
DOI Link 2212
BibRef

Li, X.[Xing], Huang, Q.[Qian], Wang, Z.J.[Zhi-Jian],
Spatial and temporal information fusion for human action recognition via Center Boundary Balancing Multimodal Classifier,
JVCIR(90), 2023, pp. 103716.
Elsevier DOI 2301
Human action recognition, Gaussian pyramid depth motion images, Depth temporal maps, Center Boundary Balancing Multimodal Classifier BibRef

Wang, M.M.[Meng-Meng], Xing, J.Z.[Jia-Zheng], Su, J.[Jing], Chen, J.[Jun], Liu, Y.[Yong],
Learning SpatioTemporal and Motion Features in a Unified 2D Network for Action Recognition,
PAMI(45), No. 3, March 2023, pp. 3347-3362.
IEEE DOI 2302
Spatiotemporal phenomena, Feature extraction, Optical flow, Videos, Training, Convolution, Action recognition, frequency illustration, twins training framework BibRef

Wang, M.M.[Meng-Meng], Huang, Z.Y.[Ze-Yi], Kong, X.J.[Xiang-Jie], Shen, G.J.[Guo-Jiang], Dai, G.[Guang], Wang, J.D.[Jing-Dong], Liu, Y.[Yong],
Action Detail Matters: Refining Video Recognition with Local Action Queries,
CVPR25(19132-19142)
IEEE DOI 2508
Representation learning, Visualization, Filtering, Refining, Noise, Robustness, Computational efficiency, Spatiotemporal phenomena, Videos BibRef

Xing, J.Z.[Jia-Zheng], Wang, M.M.[Meng-Meng], Ruan, Y.[Yudi], Chen, B.[Bofan], Guo, Y.W.[Yao-Wei], Mu, B.[Boyu], Dai, G.[Guang], Wang, J.D.[Jing-Dong], Liu, Y.[Yong],
Boosting Few-shot Action Recognition with Graph-guided Hybrid Matching,
ICCV23(1740-1750)
IEEE DOI Code:
WWW Link. 2401
BibRef

Zhang, H.G.[Hui-Gang], Wang, L.[Liuan], Sun, J.[Jun],
Exploiting spatio-temporal knowledge for video action recognition,
IET-CV(17), No. 2, 2023, pp. 222-230.
DOI Link 2304
action recognition, commonsense knowledge, GCN, STKM BibRef

Bai, Y.C.[Yu-Cai], Zou, Q.[Qin], Chen, X.Y.L.[Xie-Yuan-Li], Li, L.X.[Ling-Xi], Ding, Z.M.[Zheng-Ming], Chen, L.[Long],
Extreme Low-Resolution Action Recognition with Confident Spatial-Temporal Attention Transfer,
IJCV(131), No. 6, June 2023, pp. 1550-1565.
Springer DOI 2305
BibRef

Korban, M.[Matthew], Youngs, P.[Peter], Acton, S.T.[Scott T.],
A Multi-Modal Transformer network for action detection,
PR(142), 2023, pp. 109713.
Elsevier DOI 2307
Action detection, Transformer network, Optical flow, Motion features BibRef

Korban, M.[Matthew], Youngs, P.[Peter], Acton, S.T.[Scott T.],
A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection,
PAMI(46), No. 9, September 2024, pp. 6055-6069.
IEEE DOI 2408
Semantics, Spatiotemporal phenomena, Transformers, Videos, Encoding, Feature extraction, Standards, Human action detection, positional encoding BibRef

Korban, M.[Matthew], Youngs, P.[Peter], Acton, S.T.[Scott T.],
A dynamic predictive transformer with temporal relevance regression for action detection,
PR(166), 2025, pp. 111644.
Elsevier DOI 2505
Action detection, Transformer network, Attention, Skeleton pose, Regression BibRef

Liu, S.C.[Shao-Can], Ma, X.[Xin],
Attention-Driven Appearance-Motion Fusion Network for Action Recognition,
MultMed(25), 2023, pp. 2573-2584.
IEEE DOI 2307
Optical flow, Videos, Neural networks, Feature extraction, Spatiotemporal phenomena, 2D-single-convnet BibRef

Qing, Z.W.[Zhi-Wu], Zhang, S.W.[Shi-Wei], Huang, Z.Y.[Zi-Yuan], Xu, Y.[Yi], Wang, X.[Xiang], Gao, C.X.[Chang-Xin], Jin, R.[Rong], Sang, N.[Nong],
Self-Supervised Learning from Untrimmed Videos via Hierarchical Consistency,
PAMI(45), No. 10, October 2023, pp. 12408-12426.
IEEE DOI 2310
BibRef

Qing, Z.W.[Zhi-Wu], Zhang, S.W.[Shi-Wei], Huang, Z.Y.[Zi-Yuan], Wang, X.[Xiang], Wang, Y.H.[Yue-Huan], Lv, Y.[Yiliang], Gao, C.X.[Chang-Xin], Sang, N.[Nong],
MAR: Masked Autoencoders for Efficient Action Recognition,
MultMed(26), 2024, pp. 218-233.
IEEE DOI 2401
BibRef

Qing, Z.W.[Zhi-Wu], Zhang, S.W.[Shi-Wei], Huang, Z.Y.[Zi-Yuan], Xu, Y.[Yi], Wang, X.[Xiang], Tang, M.Q.[Ming-Qian], Gao, C.X.[Chang-Xin], Jin, R.[Rong], Sang, N.[Nong],
Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical Consistency,
CVPR22(13811-13821)
IEEE DOI 2210
Representation learning, Visualization, Supervised learning, Performance gain, Classification algorithms, Self- semi- meta- unsupervised learning BibRef

Huang, L.H.[Liang-Hua], Liu, Y.[Yu], Wang, B.[Bin], Pan, P.[Pan], Xu, Y.H.[Ying-Hui], Jin, R.[Rong],
Self-Supervised Video Representation Learning by Context and Motion Decoupling,
CVPR21(13881-13890)
IEEE DOI 2111
Feature extraction, Task analysis BibRef

Wang, Q.[Qiang], Zhang, Y.H.[Yan-Hao], Zheng, Y.[Yun], Pan, P.[Pan],
RCL: Recurrent Continuous Localization for Temporal Action Detection,
CVPR22(13556-13565)
IEEE DOI 2210
Location awareness, Detectors, Performance gain, Benchmark testing, Action and event recognition, Video analysis and understanding BibRef

Mac, K.N.C.[Khoi-Nguyen C.], Do, M.N.[Minh N.], Vo, M.P.[Minh P.],
Efficient Human Vision Inspired Action Recognition Using Adaptive Spatiotemporal Sampling,
IP(32), 2023, pp. 5245-5256.
IEEE DOI Code:
WWW Link. 2310
BibRef

Guo, F.T.[Fang-Tai], Jin, T.L.[Tian-Lei], Zhu, S.Q.[Shi-Qiang], Xi, X.M.[Xiang-Ming], Wang, W.[Wen], Meng, Q.W.[Qi-Wei], Song, W.[Wei], Zhu, J.K.[Jia-Kai],
B2C-AFM: Bi-Directional Co-Temporal and Cross-Spatial Attention Fusion Model for Human Action Recognition,
IP(32), 2023, pp. 4989-5003.
IEEE DOI Code:
WWW Link. 2310
BibRef

Xie, Z.[Zhao], Chen, J.S.[Jian-Song], Wu, K.W.[Ke-Wei], Guo, D.[Dan], Hong, R.C.[Ri-Chang],
Global Temporal Difference Network for Action Recognition,
MultMed(25), 2023, pp. 7594-7606.
IEEE DOI 2311
BibRef

Zhang, Y.[Yi], Li, Y.C.[Yu-Chang], Liu, M.W.[Ming-Wei],
Learning Self-Correlation in Space and Time as Motion Representation for Action Recognition,
SPLetters(30), 2023, pp. 1747-1751.
IEEE DOI 2312
BibRef

Jin, Z.H.[Zhi-Hao], Wang, Y.F.[Yi-Fan], Wang, Q.[Qicong], Shen, Y.[Yehu], Meng, H.Y.[Hong-Ying],
SSRL: Self-Supervised Spatial-Temporal Representation Learning for 3D Action Recognition,
CirSysVideo(34), No. 1, January 2024, pp. 274-285.
IEEE DOI 2401
BibRef

Li, A.[Ao], Yi, Y.[Yang], Liang, D.[Daan],
Residual attention fusion network for video action recognition,
JVCIR(98), 2024, pp. 103987.
Elsevier DOI 2402
Action recognition, Temporal modeling, Channel-wise attention, Pixel-wise attention BibRef

Raj, M.S.S.[M.S. Subodh], George, S.N.[Sudhish N.], Raja, K.[Kiran],
Leveraging spatio-temporal features using graph neural networks for human activity recognition,
PR(150), 2024, pp. 110301.
Elsevier DOI 2403
Covariance descriptor, Graph neural network, Human activity, Subspace clustering BibRef

Kim, M.[Myeongjun], Spinola, F.[Federica], Benz, P.[Philipp], Kim, T.H.[Tae-Hoon],
A*: Atrous Spatial Temporal Action Recognition for Real Time Applications,
WACV24(6999-7000)
IEEE DOI 2404
YOLO, Deep learning, Fuses, Surveillance, Face recognition, Streaming media, Algorithms, Video recognition and understanding BibRef

Qian, H.F.[Hui-Fang], Zhang, J.L.[Jia-Lun], Yi, J.P.[Jian-Ping], Shi, Z.Y.[Zhen-Yu], Zhang, Y.M.[Yi-Min],
CTM: Cross-time temporal module for fine-grained action recognition,
CVIU(244), 2024, pp. 104013.
Elsevier DOI 2405
Temporal context information, Fine-grained action recognition, Spatio-temporal characteristics representation, Lightweight adaptive module BibRef

Jiang, Y.Q.[Yu-Qin], Popov, A.A.[Andrey A.], Li, Z.[Zhenlong], Hodgson, M.E.[Michael E.], Huang, B.H.[Bing-Hu],
A Sensor-Based Simulation Method for Spatiotemporal Event Detection,
IJGI(13), No. 5, 2024, pp. 141.
DOI Link 2405
BibRef

Wang, F.[Fan], Li, X.K.[Xin-Ke], Xiong, H.[Han], Mo, H.[Haofan], Li, Y.M.[Yong-Ming],
MLENet: Multi-Level Extraction Network for video action recognition,
PR(154), 2024, pp. 110614.
Elsevier DOI 2406
Action recognition, Spatio-temporal, Temporal feature refinement extraction module, Optical flow guided feature BibRef

Wang, X.Y.[Xiang-Yang], Yang, K.[Kun], Ding, Q.[Qiang], Wang, R.[Rui], Sun, J.H.[Jin-Hua],
TQRFormer: Tubelet query recollection transformer for action detection,
IVC(147), 2024, pp. 105059.
Elsevier DOI Code:
WWW Link. 2406
Spatio-temporal action detection, Transformer, Query recollection, Matching strategy, Long-term context BibRef

Khezerlou, F.[Fatemeh], Baradarani, A.[Aryaz], Balafar, M.A.[Mohammad Ali], Maev, R.G.[Roman Gr.],
Spatio-temporal attention modules in orientation-magnitude-response guided multi-stream CNNs for human action recognition,
IET-IPR(18), No. 9, 2024, pp. 2372-2388.
DOI Link 2407
convolutional neural nets, feature extraction, human computer interaction, image motion analysis, video signal processing BibRef

Li, P.[Ping], Ye, X.C.[Xing-Chao], He, L.F.[Ling-Feng],
Coarse-to-Fine Hypergraph Network for Spatiotemporal Action Detection,
CirSysVideo(35), No. 9, September 2025, pp. 8653-8665.
IEEE DOI 2509
Spatiotemporal phenomena, Computational modeling, Proposals, History, Feature extraction, Attention mechanisms, Wheels, Watches, attention mechanism BibRef

Chen, G.[Guo], Zheng, Y.D.[Yin-Dong], Zhu, W.[Wei], Wang, J.H.[Jia-Hao], Lu, T.[Tong],
Feature matters: Revisiting channel attention for Temporal Action Detection,
PR(169), 2026, pp. 111846.
Elsevier DOI 2509
Temporal Action Detection, Video analysis, Deep learning BibRef

Liu, X.X.[Xiao-Xi], Liu, J.[Ju], Gu, L.C.[Ling-Chen], Li, Y.F.[Ya-Feng], Chang, X.J.[Xiao-Jun], Nie, F.P.[Fei-Ping],
Mining the Salient Spatio-Temporal Feature with S2TF-Net for action recognition,
SP:IC(138), 2025, pp. 117381.
Elsevier DOI Code:
WWW Link. 2509
Video classification, Action recognition, 3D residual block, Salient features, Pooling BibRef

Kim, Y.[Yehna], Kim, Y.E.[Young-Eun], Lee, S.W.[Seong-Whan],
Enhancing spatio-temporal zero-shot action recognition with language-driven description attributes,
PR(172), 2026, pp. 112687.
Elsevier DOI 2601
Zero-shot transfer, Action recognition, Vision-language model BibRef

Liu, M.Y.[Meng-Yuan], Liu, J.[Jinfu], Jiang, Y.K.[Yong-Kang], He, B.[Bin],
Heatmap Pooling Network for Action Recognition From RGB Videos,
PAMI(48), No. 3, March 2026, pp. 3726-3743.
IEEE DOI 2602
Heating systems, Videos, Feature extraction, Pose estimation, Visualization, Human activity recognition, Redundancy, Data mining, multimodal data BibRef

Nguyen, D.D.M.[Dang Duc Manh], Nhan, B.D.[Bui Duc], Wang, J.C.[Jia-Ching], Duong, V.H.[Viet-Hang],
YOWOv3: An Efficient and Generalized Framework for Spatiotemporal Action Detection,
IEEE_Int_Sys(41), No. 1, January 2026, pp. 75-85.
IEEE DOI 2602
Computational modeling, Computer architecture, Feature extraction, Solid modeling, Data mining, Detection algorithms BibRef

Ullah, H.[Hayat], Shafique, M.A.[Muhammad Ali], Khan, A.[Abbas], Munir, A.[Arslan],
DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition,
CirSysVideo(36), No. 3, March 2026, pp. 2952-2967.
IEEE DOI Code:
WWW Link. 2603
Videos, Computational modeling, Transformers, Accuracy, Computational efficiency, Feature extraction, Training, scene understanding BibRef

Wang, H.[Hui], Li, J.H.[Jun-Hao], Zeng, K.L.[Kang-Li], Zhao, C.H.[Chun-Hui], Yang, H.[Hui],
MSAW-Net: Dual-Path Fusion Network With Multi-Scale Spatiotemporal Attention Weighting for Human Action Recognition,
SPLetters(33), 2026, pp. 1866-1870.
IEEE DOI 2605
Activity recognition, Human activity recognition, Circuits, Pixel, Internet of Things, Videos, Communication systems, spatiotemporal modeling BibRef

Leng, C.J.[Chuan-Jiang], Wu, C.D.[Cheng-Dong], Chen, A.[Ange], Li, H.[Hexiao], Wu, H.[Hao],
BDTSNet: A novel bidirectional two-stream network for video-based human action recognition,
SP:IC(146), 2026, pp. 117558.
Elsevier DOI 2606
Action recognition, Bidirectional network, Spatiotemporal features, Keyframes selection, Feature representation BibRef

Shahabinejad, M.[Mostafa], Kezele, I.[Irina], Nabavi, S.S.[Seyed Shahabeddin], Liu, W.T.[Wen-Tao], Patel, S.[Seel], Yu, Y.H.[Yuan-Hao], Wang, Y.[Yang], Tang, J.[Jin],
Video Action Recognition with Adaptive Zooming Using Motion Residuals,
REDLCV23(1206-1215)
IEEE DOI 2401
BibRef

Diba, A.[Ali], Sharma, V.[Vivek], Arzani, M.M.[Mohammad. M], Van Gool, L.J.[Luc J.],
Spatio-Temporal Convolution-Attention Video Network,
NIVT23(859-869)
IEEE DOI 2401
BibRef

Strafforello, O.[Ombretta], Liu, X.[Xin], Schutte, K.[Klamer], van Gemert, J.C.[Jan C.],
Video BagNet: short temporal receptive fields increase robustness in long-term action recognition,
VIPriors23(159-166)
IEEE DOI 2401
BibRef

Sardari, F.[Faegheh], Mustafa, A.[Armin], Jackson, P.J.B.[Philip J. B.], Hilton, A.[Adrian],
PAT: Position-Aware Transformer for Dense Multi-Label Action Detection,
CVEU23(2980-2989)
IEEE DOI 2401
BibRef

Wang, K.C.[Kuan-Chieh], Weng, Z.Z.[Zhen-Zhen], Xenochristou, M.[Maria], Araújo, J.P.[João Pedro], Gu, J.[Jeffrey], Liu, C.K.[C. Karen], Yeung, S.[Serena],
NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action,
CVPR23(22129-22138)
IEEE DOI 2309
BibRef

Nag, S.[Sauradip], Zhu, X.T.[Xia-Tian], Song, Y.Z.[Yi-Zhe], Xiang, T.[Tao],
Post-Processing Temporal Action Detection,
CVPR23(18837-18845)
IEEE DOI 2309
BibRef

Lee, P.[Pilhyeon], Kim, T.[Taeoh], Shim, M.H.[Min-Ho], Wee, D.Y.[Dong-Yoon], Byun, H.R.[Hye-Ran],
Decomposed Cross-Modal Distillation for RGB-based Temporal Action Detection,
CVPR23(2373-2383)
IEEE DOI 2309
BibRef

Wasim, S.T.[Syed Talal], Khattak, M.U.[Muhammad Uzair], Naseer, M.[Muzammal], Khan, S.[Salman], Shah, M.[Mubarak], Khan, F.S.[Fahad Shahbaz],
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition,
ICCV23(13732-13743)
IEEE DOI Code:
WWW Link. 2401
BibRef

Dave, I.R.[Ishan Rajendrakumar], Rizve, M.N.[Mamshad Nayeem], Chen, C.[Chen], Shah, M.[Mubarak],
TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition,
CVPR23(2341-2352)
IEEE DOI 2309
BibRef

Zhao, C.[Chen], Ramazanova, M.[Merey], Xu, M.M.[Meng-Meng], Ghanem, B.[Bernard],
Segtad: Precise Temporal Action Detection via Semantic Segmentation,
CVEU22(576-593).
Springer DOI 2304
BibRef

Singh, G.[Gurkirt], Choutas, V.[Vasileios], Saha, S.[Suman], Yu, F.[Fisher], Van Gool, L.J.[Luc J.],
Spatio-Temporal Action Detection Under Large Motion,
WACV23(5998-6007)
IEEE DOI 2302
Tracking, Shape, Detectors, Feature extraction, Cameras BibRef

Sui, L.[Lin], Zhang, C.L.[Chen-Lin], Gu, L.X.[Li-Xin], Han, F.[Feng],
A Simple and Efficient Pipeline to Build an End-to-End Spatial-Temporal Action Detector,
WACV23(5988-5997)
IEEE DOI 2302
Training, Codes, Computational modeling, Pipelines, Detectors, Algorithms: Video recognition and understanding BibRef

Kim, S.[Sangwon], Ahn, D.[Dasom], Ko, B.C.[Byoung Chul],
Cross-Modal Learning with 3D Deformable Attention for Action Recognition,
ICCV23(10231-10241)
IEEE DOI 2401
BibRef

Ahn, D.[Dasom], Kim, S.[Sangwon], Hong, H.[Hyunsu], Ko, B.C.[Byoung Chul],
STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition,
WACV23(3319-3328)
IEEE DOI 2302
Representation learning, Computational modeling, Pose estimation, Transformers, Skeleton, Data models, Trajectory, visual reasoning BibRef

Qiu, Y.[Yue], Nagasaki, Y.[Yoshiki], Hara, K.[Kensho], Kataoka, H.[Hirokatsu], Suzuki, R.[Ryota], Iwata, K.[Kenji], Satoh, Y.[Yutaka],
VirtualHome Action Genome: A Simulated Spatio-Temporal Scene Graph Dataset with Consistent Relationship Labels,
WACV23(3340-3349)
IEEE DOI 2302
Location awareness, Limiting, Correlation, Costs, Annotations, Genomics, Transformers, Robotics BibRef

Jin, R.R.[Rong-Rong], Ye, W.R.[Wei-Rong], Wang, X.[Xiao], Yan, Y.[Yan], Wang, H.Z.[Han-Zi],
MDNet: Motion Distinction Network for Effective Action Recognition,
ICIP22(3236-3240)
IEEE DOI 2211
Image recognition, Benchmark testing, Spatiotemporal phenomena, Action recognition, motion enhancement, video understanding BibRef

Nag, S.[Sauradip], Zhu, X.T.[Xia-Tian], Deng, J.K.[Jian-Kang], Song, Y.Z.[Yi-Zhe], Xiang, T.[Tao],
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion,
ICCV23(10328-10340)
IEEE DOI Code:
WWW Link. 2401
BibRef
Earlier: A1, A2, A4, A5, Only:
Semi-supervised Temporal Action Detection with Proposal-Free Masking,
ECCV22(III:663-680).
Springer DOI 2211
BibRef
And: A1, A2, A4, A5, Only:
Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning,
ECCV22(III:645-662).
Springer DOI 2211
BibRef

Xiang, W.M.[Wang-Meng], Li, C.[Chao], Wang, B.[Biao], Wei, X.[Xihan], Hua, X.S.[Xian-Sheng], Zhang, L.[Lei],
Spatiotemporal Self-Attention Modeling with Temporal Patch Shift for Action Recognition,
ECCV22(III:627-644).
Springer DOI 2211
BibRef

Li, X.H.[Xian-Hang], Wang, H.Y.[Hui-Yu], Wei, C.[Chen], Mei, J.[Jieru], Yuille, A.L.[Alan L.], Zhou, Y.[Yuyin], Xie, C.[Cihang],
In Defense of Image Pre-Training for Spatiotemporal Recognition,
ECCV22(XXV:675-691).
Springer DOI 2211
BibRef

Tai, T.M.[Tsung-Ming], Fiameni, G.[Giuseppe], Lee, C.K.[Cheng-Kuang], Lanz, O.[Oswald],
Higher-Order Recurrent Network with Space-Time Attention for Video Early Action Recognition,
ICIP22(1631-1635)
IEEE DOI 2211
Visualization, Image recognition, Predictive models, Cognition, History, Video prediction, early action recognition, space-time attention BibRef

Foo, L.G.[Lin Geng], Li, T.J.[Tian-Jiao], Rahmani, H.[Hossein], Liu, J.[Jun],
Action Detection via an Image Diffusion Process,
CVPR24(18351-18361)
IEEE DOI 2410
Casting, Image synthesis, Diffusion processes, Transformers, Videos, Action Detection, Diffusion Model BibRef

Li, T.J.[Tian-Jiao], Foo, L.G.[Lin Geng], Ke, Q.H.[Qiu-Hong], Rahmani, H.[Hossein], Wang, A.[Anran], Wang, J.H.[Jing-Hua], Liu, J.[Jun],
Dynamic Spatio-Temporal Specialization Learning for Fine-Grained Action Recognition,
ECCV22(IV:386-403).
Springer DOI 2211
BibRef

Wang, J.[Jue], Torresani, L.[Lorenzo],
Deformable Video Transformer,
CVPR22(14033-14042)
IEEE DOI 2210
For action classification. Deformable models, Costs, Computational modeling, Dynamics, Predictive models, Transformers, Representation learning BibRef

Fuad, K.A.A.[Kazi Ahmed Asif], Martin, P.E.[Pierre-Etienne], Giot, R.[Romain], Bourqui, R.[Romain], Benois-Pineau, J.[Jenny], Zemmari, A.[Akka],
Features Understanding in 3D CNNs for Actions Recognition in Video,
IPTA20(1-6)
IEEE DOI 2206
Measurement, Correlation coefficient, Visualization, Task analysis, Optical flow, Sports, Explainable Deep Learning, 3D convolutions, Table Tennis BibRef

Li, L.[Li], Zhuang, L.S.[Lian-Sheng],
MEViT: Motion Enhanced Video Transformer for Video Classification,
MMMod22(II:419-430).
Springer DOI 2203
Use transformers rather than CNN. BibRef

Wang, J.H.[Jia-Hao], Chen, G.[Guo], Huang, Y.F.[Yi-Fei], Wang, L.M.[Li-Min], Lu, T.[Tong],
Memory-and-Anticipation Transformer for Online Action Understanding,
ICCV23(13778-13789)
IEEE DOI Code:
WWW Link. 2401
BibRef

Liu, Z.Y.[Zhao-Yang], Wang, L.M.[Li-Min], Wu, W.[Wayne], Qian, C.[Chen], Lu, T.[Tong],
TAM: Temporal Adaptive Module for Video Recognition,
ICCV21(13688-13698)
IEEE DOI 2203

WWW Link. Adaptation models, Codes, Computational modeling, Dynamics, Video analysis and understanding BibRef

Kataoka, H.[Hirokatsu], Hara, K.[Kensho], Hayashi, R.[Ryusuke], Yamagata, E.[Eisuke], Inoue, N.[Nakamasa],
Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns,
WACV22(737-746)
IEEE DOI 2202
Solid modeling, Codes, Computational modeling, Supervised learning, Evaluation and Comparison of Vision Algorithms BibRef

Das, P.[Pratyusha], Ortega, A.[Antonio], Chen, S.[Siheng], Mansour, H.[Hassan], Vetro, A.[Anthony],
Application-Agnostic Spatio-Temporal Hand Graph Representations for Stable Activity Understanding,
ICIP21(1074-1078)
IEEE DOI 2201
Measurement, Image segmentation, Motion segmentation, Signal processing algorithms, Feature extraction, Stability analysis BibRef

Liang, M.[Morgan], Li, X.[Xun], Onie, S.[Sandersan], Larsen, M.[Mark], Sowmya, A.[Arcot],
Improved Spatio-Temporal Action Localization for Surveillance Videos,
DICTA21(01-08)
IEEE DOI 2201
Location awareness, Surveillance, Digital images, Pipelines, Benchmark testing, Spatiotemporal phenomena, Proposals BibRef

Zhu, J.L.[Jin-Lei], Chen, H.J.[Hou-Jin], Pan, P.[Pan], Sun, J.[Jia], Jing, K.[Kun], Zhang, C.F.[Chuan-Feng],
Multi-loss Spatial-Temporal Attention-Convolution Network for Action Tube Detection,
ICIVC21(301-305)
IEEE DOI 2112
Visualization, Video sequences, Network architecture, Feature extraction, Real-time systems, Electron tubes, human action tube detection BibRef

Liu, X.[Xin], Pintea, S.L.[Silvia L.], Nejadasl, F.K.[Fatemeh Karimi], Booij, O.[Olaf], van Gemert, J.C.[Jan C.],
No frame left behind: Full Video Action Recognition,
CVPR21(14887-14896)
IEEE DOI 2111
Training, Philosophical considerations, Semantics, Memory management, Sampling methods, Nonhomogeneous media BibRef

Sarfraz, M.S.[M. Saquib], Murray, N.[Naila], Sharma, V.[Vivek], Diba, A.[Ali], Van Gool, L.J.[Luc J.], Stiefelhagen, R.[Rainer],
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation,
CVPR21(11220-11229)
IEEE DOI 2111
Training, Measurement, Visualization, Codes, Spatiotemporal phenomena BibRef

Song, X.L.[Xiao-Lin], Zhao, S.C.[Si-Cheng], Yang, J.Y.[Jing-Yu], Yue, H.J.[Huan-Jing], Xu, P.F.[Peng-Fei], Hu, R.B.[Run-Bo], Chai, H.[Hua],
Spatio-temporal Contrastive Domain Adaptation for Action Recognition,
CVPR21(9782-9790)
IEEE DOI 2111
Measurement, Bridges, Adaptation models, Benchmark testing, Data models BibRef

Bai, S.[Sikai], Wang, Q.[Qi], Li, X.L.[Xue-Long],
MFI: Multi-range Feature Interchange for Video Action Recognition,
ICPR21(6664-6671)
IEEE DOI 2105
Convolution, Feature extraction, Encoding, Optical flow, Videos BibRef

Zhou, C.H.[Cheng-Hui], Chen, X.L.[Xiao-Lei], Sun, P.[Pei], Zhang, G.W.[Guan-Wen], Zhou, W.[Wei],
Compressed Video Action Recognition Using Motion Vector Representation,
CADL20(701-713).
Springer DOI 2103
BibRef

Li, C., Zhang, J., Shan, S., Chen, X.,
PAS-Net: Pose-based and Appearance-based Spatiotemporal Networks Fusion for Action Recognition,
FG20(215-221)
IEEE DOI 2102
Feature extraction, Spatiotemporal phenomena, Training BibRef

Pan, Y., Sun, X., Wu, F.,
Enriching Optical Flow with Appearance Information for Action Recognition,
VCIP20(251-254)
IEEE DOI 2102
Training, Adaptive optics, Feature extraction, Streaming media, Optical flow, Optical fiber networks, Action Recognition BibRef

Kim, M., Kim, T., Kim, D.,
Spatio-Temporal Slowfast Self-Attention Network For Action Recognition,
ICIP20(2206-2210)
IEEE DOI 2011
Feature extraction, Image recognition, Convolutional neural networks, Semantics, Atomic Visual Actions BibRef

Kasai, S., Ishikawa, Y., Hayashi, M., Aoki, Y., Hara, K., Kataoka, H.,
Retrieving and Highlighting Action with Spatiotemporal Reference,
ICIP20(1401-1405)
IEEE DOI 2011
Videos, Visualization, Feature extraction, Spatiotemporal phenomena, Task analysis, Training, Convolution, interpretability BibRef

Qiu, Z., Zhao, X., Hu, Z.,
Efficient Temporal-Spatial Feature Grouping For Video Action Recognition,
ICIP20(2176-2180)
IEEE DOI 2011
Convolution, Kernel, Feature extraction, kernel decomposition BibRef

Kepple, D.R.[Daniel R.], Lee, D.W.[Dae-Won], Prepsius, C.[Colin], Isler, V.[Volkan], Park, I.M.[Il Memming], Lee, D.D.[Daniel D.],
Jointly Learning Visual Motion and Confidence from Local Patches in Event Cameras,
ECCV20(VI:500-516).
Springer DOI 2011
BibRef

Wu, W., He, D., Tan, X., Chen, S., Yang, Y., Wen, S.,
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition,
EDLCV20(2890-2898)
IEEE DOI 2008
Computational modeling, Convolution, Writing, Solid modeling, Feature extraction BibRef

Yao, Y.[Yuan], Liu, C.[Chang], Luo, D.Z.[De-Zhao], Zhou, Y.[Yu], Ye, Q.X.[Qi-Xiang],
Video Playback Rate Perception for Self-Supervised Spatio-Temporal Representation Learning,
CVPR20(6547-6556)
IEEE DOI 2008
Task analysis, Decoding, Convolution, Image reconstruction, Semantics, Signal resolution BibRef

Ji, J., Krishna, R., Fei-Fei, L., Niebles, J.C.,
Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs,
CVPR20(10233-10244)
IEEE DOI 2008
Videos, Genomics, Bioinformatics, Task analysis, Visualization, Cognitive science, Databases BibRef

Kim, J., Cha, S., Wee, D., Bae, S., Kim, J.,
Regularization on Spatio-Temporally Smoothed Feature for Action Recognition,
CVPR20(12100-12109)
IEEE DOI 2008
Training, Computational modeling, Perturbation methods, Image recognition, Frequency modulation BibRef

Li, X.H.[Xian-Hang], Wang, Y.[Yali], Zhou, Z.P.[Zhi-Peng], Qiao, Y.[Yu],
SmallBigNet: Integrating Core and Contextual Views for Video Classification,
CVPR20(1089-1098)
IEEE DOI 2008
Convolution, Semantics BibRef

Wang, H.[Heng], Tran, D.[Du], Torresani, L.[Lorenzo], Feiszli, M.[Matt],
Video Modeling With Correlation Networks,
CVPR20(349-358)
IEEE DOI 2008
Correlation, Optical imaging, Optical filters, Solid modeling, Feature extraction, Optical fiber networks BibRef

Zhao, J.J.[Jiao-Jiao], Zhang, Y.[Yanyi], Li, X.Y.[Xin-Yu], Chen, H.[Hao], Shuai, B.[Bing], Xu, M.Z.[Ming-Ze], Liu, C.H.[Chun-Hui], Kundu, K.[Kaustav], Xiong, Y.J.[Yuan-Jun], Modolo, D.[Davide], Marsic, I.[Ivan], Snoek, C.G.M.[Cees G.M.], Tighe, J.[Joseph],
TubeR: Tubelet Transformer for Video Action Detection,
CVPR22(13588-13597)
IEEE DOI 2210
Location awareness, Context-aware services, Codes, Switches, Detectors, Transformers, Action and event recognition, Video analysis and understanding BibRef

Li, X.Y.[Xin-Yu], Liu, C.H.[Chun-Hui], Shuai, B.[Bing], Zhu, Y.[Yi], Chen, H.[Hao], Tighe, J.[Joseph],
NUTA: Non-uniform Temporal Aggregation for Action Recognition,
WACV22(827-836)
IEEE DOI 2202
Visualization, Solid modeling, Aggregates, Feature extraction, Synchronization, Task analysis, Action and Behavior Recognition Motion Processing BibRef

Li, X.Y.[Xin-Yu], Shuai, B.[Bing], Tighe, J.[Joseph],
Directional Temporal Modeling for Action Recognition,
ECCV20(VI:275-291).
Springer DOI 2011
BibRef

Wang, Z.[Zhe], Chen, H.[Hao], Li, X.Y.[Xin-Yu], Liu, C.H.[Chun-Hui], Xiong, Y.J.[Yuan-Jun], Tighe, J.[Joseph], Fowlkes, C.C.[Charless C.],
SSCAP: Self-supervised Co-occurrence Action Parsing for Unsupervised Temporal Action Segmentation,
WACV22(175-184)
IEEE DOI 2202
Training, Representation learning, Correlation, Clustering algorithms, Benchmark testing, Feature extraction, Action and Behavior Recognition BibRef

Martínez, B.M., Modolo, D., Xiong, Y.J.[Yuan-Jun], Tighe, J.[Joseph],
Action Recognition With Spatial-Temporal Discriminative Filter Banks,
ICCV19(5481-5490)
IEEE DOI 2004
channel bank filters, image recognition, image representation, object recognition, Aggregates BibRef

Tavakolian, M., Tavakoli, H.R., Hadid, A.,
AWSD: Adaptive Weighted Spatiotemporal Distillation for Video Representation,
ICCV19(8019-8028)
IEEE DOI 2004
Code, Video Analysis.
WWW Link. Gaussian processes, image classification, image representation, image segmentation, spatiotemporal phenomena, Covariance matrices BibRef

Zhao, H., Wildes, R.P.[Richard P.],
Spatiotemporal Feature Residual Propagation for Action Prediction,
ICCV19(7002-7011)
IEEE DOI 2004
image filtering, image motion analysis, image recognition, image representation, Kalman filters, spatiotemporal phenomena, Training BibRef

Seong, H.J.[Hong-Je], Hyun, J.[Junhyuk], Kim, E.T.[Eun-Tai],
Video Multitask Transformer Network,
CoView19(1553-1561)
IEEE DOI 2004
convolutional neural nets, feature extraction, image classification, image fusion, image motion analysis, untrimmed video BibRef

Girdhar, R., Tran, D., Torresani, L., Ramanan, D.,
DistInit: Learning Video Representations Without a Single Labeled Video,
ICCV19(852-861)
IEEE DOI 2004
image classification, image representation, learning (artificial intelligence), spatiotemporal phenomena, Computational modeling BibRef

Jiang, B., Wang, M., Gan, W., Wu, W., Yan, J.,
STM: SpatioTemporal and Motion Encoding for Action Recognition,
ICCV19(2000-2009)
IEEE DOI 2004
feature extraction, image motion analysis, image recognition, learning (artificial intelligence), neural nets, Computer architecture BibRef

Meng, L., Zhao, B., Chang, B., Huang, G., Sun, W., Tung, F., Sigal, L.,
Interpretable Spatio-Temporal Attention for Video Action Recognition,
HVU19(1513-1522)
IEEE DOI 2004
feature extraction, image classification, image motion analysis, image representation, image sequences, Spatio temporal attention BibRef

Materzynska, J., Xiao, T., Herzig, R., Xu, H., Wang, X., Darrell, T.J.,
Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks,
CVPR20(1046-1056)
IEEE DOI 2008
Videos, Cognition, Training, Task analysis, Feature extraction, Detectors, Computational modeling BibRef

Herzig, R., Levi, E., Xu, H., Gao, H., Brosh, E., Wang, X., Globerson, A., Darrell, T.J.,
Spatio-Temporal Action Graph Networks,
ADW19(2347-2356)
IEEE DOI 2004
graph theory, image representation, learning (artificial intelligence), video signal processing, Collisions BibRef

Piergiovanni, A.J., Angelova, A., Toshev, A., Ryoo, M.S.,
Evolving Space-Time Neural Architectures for Videos,
ICCV19(1793-1802)
IEEE DOI 2004
convolutional neural nets, evolutionary computation, image representation, neural net architecture, Kinetic theory BibRef

Piergiovanni, A.J., Ryoo, M.S.[Michael S.],
Recognizing Actions in Videos from Unseen Viewpoints,
CVPR21(4122-4130)
IEEE DOI 2111
BibRef
Earlier:
Learning Multimodal Representations for Unseen Activities,
WACV20(506-515)
IEEE DOI 2006
BibRef
Earlier:
Representation Flow for Action Recognition,
CVPR19(9937-9945).
IEEE DOI 2002
Training, Training data, Cameras, Data models. Videos, Decoding, Task analysis, Activity recognition, Generators BibRef

Yang, X.T.[Xi-Tong], Yang, X.D.[Xiao-Dong], Liu, M.Y.[Ming-Yu], Xiao, F.Y.[Fan-Yi], Davis, L.S.[Larry S.], Kautz, J.[Jan],
STEP: Spatio-Temporal Progressive Learning for Video Action Detection,
CVPR19(264-272).
IEEE DOI 2002
BibRef

Song, L.[Lin], Zhang, S.W.[Shi-Wei], Yu, G.[Gang], Sun, H.B.[Hong-Bin],
TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection,
CVPR19(11979-11987).
IEEE DOI 2002
BibRef

Li, C.[Chao], Zhong, Q.Y.[Qiao-Yong], Xie, D.[Di], Pu, S.L.[Shi-Liang],
Collaborative Spatiotemporal Feature Learning for Video Action Recognition,
CVPR19(7864-7873).
IEEE DOI 2002
BibRef

Park, J., Lee, J., Jeon, S., Kim, S., Sohn, K.,
Graph Regularization Network with Semantic Affinity for Weakly-Supervised Temporal Action Localization,
ICIP19(3701-3705)
IEEE DOI 1910
weakly-supervised temporal action localization, graph Laplacian regularization, semantic affinity BibRef

Kong, J., Xu, R., Xing, J., Li, K., Ma, W.,
Spatial Temporal Attentional Glimpse for Human Activity Classification in Video,
ICIP19(4040-4044)
IEEE DOI 1910
Human Action, Classification, Deep Learning BibRef

Gleason, J.[Joshua], Ranjan, R.[Rajeev], Schwarcz, S.[Steven], Castillo, C.[Carlos], Chen, J.C.[Jun-Cheng], Chellappa, R.[Rama],
A Proposal-Based Solution to Spatio-Temporal Action Detection in Untrimmed Videos,
WACV19(141-150)
IEEE DOI 1904
feature extraction, image classification, image colour analysis, image motion analysis, Automobiles BibRef

Ahsan, U., Madhok, R., Essa, I.,
Video Jigsaw: Unsupervised Learning of Spatiotemporal Context for Video Action Recognition,
WACV19(179-189)
IEEE DOI 1904
image recognition, image sequences, unsupervised learning, video signal processing, spatiotemporal context, Spatiotemporal phenomena BibRef

Aakur, S.N.[Sathyanarayanan N.], Sawyer, D.[Daniel], Sarkar, S.[Sudeep],
Fine-grained Action Detection in Untrimmed Surveillance Videos,
HADCV19(38-40)
IEEE DOI 1902
Videos, Proposals, Feature extraction, Spatiotemporal phenomena, Object detection BibRef

Hara, K., Kataoka, H., Satoh, Y.,
Towards Good Practice for Action Recognition with Spatiotemporal 3D Convolutions,
ICPR18(2516-2521)
IEEE DOI 1812
Training, Videos, Kinetic theory, Kernel BibRef

Tran, D., Wang, H., Torresani, L., Ray, J., Le Cun, Y., Paluri, M.,
A Closer Look at Spatiotemporal Convolutions for Action Recognition,
CVPR18(6450-6459)
IEEE DOI 1812
Spatiotemporal phenomena, Solid modeling, Feature extraction, Computer architecture BibRef

Diba, A.[Ali], Fayyaz, M.[Mohsen], Sharma, V.[Vivek], Arzani, M.M.[M. Mahdi], Yousefzadeh, R.[Rahman], Gall, J.[Juergen], Van Gool, L.J.[Luc J.],
Spatio-temporal Channel Correlation Networks for Action Classification,
ECCV18(II: 299-315).
Springer DOI 1810
BibRef

Duan, X., Wang, L., Zhai, C., Zheng, N., Zhang, Q., Niu, Z., Hua, G.,
Joint Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation,
ICIP18(918-922)
IEEE DOI 1809
Videos, Detectors, Proposals, Image color analysis, Optimization, Testing, Action Localization, LSTM BibRef

Yang, H., He, X., Porikli, F.M.,
Instance-Aware Detailed Action Labeling in Videos,
WACV18(1577-1586)
IEEE DOI 1806
feature extraction, image colour analysis, image fusion, learning (artificial intelligence), object detection, Videos BibRef

Zhou, K., Zhu, Y., Zhao, Y.,
A spatio-temporal deep architecture for surveillance event detection based on ConvLSTM,
VCIP17(1-4)
IEEE DOI 1804
feature extraction, learning (artificial intelligence), object detection, Surveillance Video BibRef

Wu, Q., Quo, H., Wu, X., Zhou, Y., Li, N.,
Fast action localization based on spatio-temporal path search,
ICIP17(3350-3354)
IEEE DOI 1803
Dynamic programming, Estimation, Measurement, Proposals, Real-time systems, Task analysis, Videos, Action localization, Spatiotemporal path BibRef

Yadav, G.K., Sethi, A.,
Action recognition using spatio-temporal differential motion,
ICIP17(3415-3419)
IEEE DOI 1803
Cameras, Databases, Feature extraction, Integrated optics, Streaming media, Training, Video sequences, optical flow BibRef

Zhu, H.Y.[Hong-Yuan], Vial, R.[Romain], Lu, S.J.[Shi-Jian],
TORNADO: A Spatio-Temporal Convolutional Regression Network for Video Action Proposal,
ICCV17(5814-5822)
IEEE DOI 1802
convolution, image motion analysis, object detection, recurrent neural nets, regression analysis, BibRef

Singh, G., Saha, S., Sapienza, M.[Michael], Torr, P.H.S.[Philip H.S.], Cuzzolin, F.[Fabio],
Online Real-Time Multiple Spatiotemporal Action Localisation and Prediction,
ICCV17(3657-3666)
IEEE DOI 1802
feature extraction, image classification, learning (artificial intelligence), object detection, Streaming media BibRef

Saha, S., Singh, G., Cuzzolin, F.,
AMTnet: Action-Micro-Tube Regression by End-to-end Trainable Deep Architecture,
ICCV17(4424-4433)
IEEE DOI 1802
convolution, feature extraction, image classification, image motion analysis, image recognition, image representation, Training BibRef

Hara, K., Kataoka, H., Satoh, Y.,
Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition,
EmotionComp17(3154-3160)
IEEE DOI 1802
Databases, Kernel, Kinetic theory, Training, Videos BibRef

Stroud, J.C., Ross, D.A., Sun, C., Deng, J., Sukthankar, R.,
D3D: Distilled 3D Networks for Video Action Recognition,
WACV20(614-623)
IEEE DOI 2006
Integrated optics, Task analysis, Solid modeling, Optical fiber networks, Training, Kinetic theory BibRef

Jiang, Z.L.[Zhuo-Lin], Rozgic, V.[Viktor], Adali, S.[Sancar],
Learning Spatiotemporal Features for Infrared Action Recognition with 3D Convolutional Neural Networks,
PBVS17(309-317)
IEEE DOI 1709
Convolutional codes, Image recognition, Optical imaging, Solid modeling, Videos BibRef

Tu, Z., Cao, J.[Jun], Li, Y.K.[Yi-Kang], Li, B.,
MSR-CNN: Applying motion salient region based descriptors for action recognition,
ICPR16(3524-3529)
IEEE DOI 1705
Feature extraction, Optical imaging, Sparse matrices, Tracking, Trajectory, Action recognition, Convolutional Neural Networks, Motion, salient, regions BibRef

Aydin, B., Angryk, R.A.,
Spatiotemporal event sequence mining from evolving regions,
ICPR16(4172-4177)
IEEE DOI 1705
Algorithm design and analysis, Extraterrestrial measurements, Geometry, Indexes, Spatiotemporal phenomena, TV, Trajectory, Event Sequence Mining, Sequence Patterns, Spatiotemporal, Knowledge, Discovery BibRef

Li, N.N.[Nan-Nan], Xu, D.[Dan], Ying, Z.Q.[Zhen-Qiang], Li, Z.H.[Zhi-Hao], Li, G.[Ge],
Searching Action Proposals via Spatial Actionness Estimation and Temporal Path Inference and Tracking,
ACCV16(II: 384-399).
Springer DOI 1704
BibRef