16.6.2.4.1 Vision Transformers for Tracking

Chapter Contents (Back)
Target Tracking. Transformers. ViT.

Zhao, C.H.[Chun-Hui], Liu, H.J.[Hong-Jiao], Su, N.[Nan], Xu, C.[Congan], Yan, Y.M.[Yi-Ming], Feng, S.[Shou],
TMTNet: A Transformer-Based Multimodality Information Transfer Network for Hyperspectral Object Tracking,
RS(15), No. 4, 2023, pp. xx-yy.
DOI Link 2303
BibRef

Chen, X.[Xin], Yan, B.[Bin], Zhu, J.[Jiawen], Lu, H.C.[Hu-Chuan], Ruan, X.[Xiang], Wang, D.[Dong],
High-Performance Transformer Tracking,
PAMI(45), No. 7, July 2023, pp. 8507-8523.
IEEE DOI 2306
Transformers, Target tracking, Correlation, Magnetic heads, Feature extraction, Semantics, Head, Cross-attention BibRef

Wei, H.R.[Hao-Ran], Wan, G.[Gang], Ji, S.P.[Shun-Ping],
ParallelTracker: A Transformer Based Object Tracker for UAV Videos,
RS(15), No. 10, 2023, pp. xx-yy.
DOI Link 2306
BibRef

Wu, S.[Shan], Hadachi, A.[Amnir], Lu, C.R.[Chao-Ru], Vivet, D.[Damien],
Transformer for multiple object tracking: Exploring locality to vision,
PRL(170), 2023, pp. 70-76.
Elsevier DOI 2306
Multi-object tracking, Transformer, Deep learning, Locality to vision BibRef

Gao, L.[Long], Chen, L.K.[Lang-Kun], Liu, P.[Pan], Jiang, Y.[Yan], Li, Y.S.[Yun-Song], Ning, J.F.[Ji-Feng],
Transformer-based visual object tracking via fine-coarse concatenated attention and cross concatenated MLP,
PR(146), 2024, pp. 109964.
Elsevier DOI 2311
Visual object tracking, Transformer, Fine-coarse concatenated attention, Multi-layer perceptron, Siamese network BibRef

Gao, P.[Peng], Zhang, X.Y.[Xin-Yue], Yang, X.L.[Xiao-Li], Ni, J.C.[Jian-Cheng], Wang, F.[Fei],
Robust Visual Tracking Using Hierarchical Vision Transformer with Shifted Windows Multi-Head Self-Attention,
IEICE(E107-D), No. 1, January 2024, pp. 161-164.
WWW Link. 2401
BibRef

Hu, X.T.[Xian-Tao], Zhong, B.[Bineng], Liang, Q.H.[Qi-Hua], Zhang, S.P.[Sheng-Ping], Li, N.[Ning], Li, X.X.[Xian-Xian], Ji, R.R.[Rong-Rong],
Transformer Tracking via Frequency Fusion,
CirSysVideo(34), No. 2, February 2024, pp. 1020-1031.
IEEE DOI 2402
Transformers overlook high frequency information. Transformers, Feature extraction, Target tracking, Task analysis, Predictive models, Visualization, Computational modeling, vision transformer BibRef

Gu, F.W.[Feng-Wei], Lu, J.[Jun], Cai, C.T.[Cheng-Tao], Zhu, Q.[Qidan], Ju, Z.J.[Zhao-Jie],
RTSformer: A Robust Toroidal Transformer With Spatiotemporal Features for Visual Tracking,
HMS(54), No. 2, April 2024, pp. 214-225.
IEEE DOI 2404
Transformers, Target tracking, Vectors, Feature extraction, Visualization, Convolution, Spatiotemporal phenomena, visual tracking BibRef

Zhou, Z.[Ze], Sun, Y.H.[Ying-Hui], Sun, Q.S.[Quan-Sen], Li, C.[Chaobo], Ren, Z.W.[Zhen-Wen],
Unit Correlation With Interactive Feature for Robust and Effective Tracking,
MultMed(26), 2024, pp. 4242-4254.
IEEE DOI 2403
Target tracking, Correlation, Feature extraction, Robustness, Transformers, Visualization, Finite element analysis, unit correlation BibRef

Liu, T.P.[Tian-Peng], Li, J.[Jing], Wu, J.[Jia], Zhang, L.[Lefei], Chang, J.[Jun], Wan, J.[Jun], Lian, L.Z.[Le-Zhi],
Tracking With Saliency Region Transformer,
IP(33), 2024, pp. 285-296.
IEEE DOI 2401
Heuristic two-stage tracker: lightweight tracking stage and a saliency stage BibRef

Ni, X.Y.[Xiao-Yu], Yuan, L.[Liang], Lv, K.[Kai],
Efficient Single-Object Tracker Based on Local-Global Feature Fusion,
CirSysVideo(34), No. 2, February 2024, pp. 1114-1122.
IEEE DOI 2402
Transformers, Target tracking, Visualization, Feature extraction, Task analysis, CNN BibRef

Ye, J.X.[Jia-Xin], Zhong, B.[Bineng], Liang, Q.H.[Qi-Hua], Zhang, S.P.[Sheng-Ping], Li, X.X.[Xian-Xian], Ji, R.R.[Rong-Rong],
Positive-Sample-Free Object Tracking via a Soft Constraint,
CirSysVideo(34), No. 3, March 2024, pp. 1364-1375.
IEEE DOI 2403
Target tracking, Task analysis, Feature extraction, Visualization, Proposals, Transformers, Training, Object tracking, soft constraint, vision transformer BibRef

Ning, T.Y.[Tian-Yu], Zhong, B.[Bineng], Liang, Q.H.[Qi-Hua], Tang, Z.J.[Zhen-Jun], Li, X.X.[Xian-Xian],
Robust Tracking via Bidirectional Transduction With Mask Information,
MultMed(26), 2024, pp. 4308-4319.
IEEE DOI 2403
Target tracking, History, Feature extraction, Task analysis, Aggregates, Search problems, Correlation, Attention, visual tracking BibRef

Wang, Z.[Zheng'ao], Zhou, Z.[Zikun], Chen, F.L.[Fang-Lin], Xu, J.[Jun], Pei, W.J.[Wen-Jie], Lu, G.M.[Guang-Ming],
Robust Tracking via Fully Exploring Background Prior Knowledge,
CirSysVideo(34), No. 5, May 2024, pp. 3353-3367.
IEEE DOI 2405
Target tracking, Transformers, Feature extraction, Decoding, Robustness, Knowledge engineering, Location awareness, distractors mining BibRef

Wang, J.H.[Jia-Hao], Liu, F.[Fang], Jiao, L.C.[Li-Cheng], Gao, Y.J.[Ying-Jia], Wang, H.[Hao], Li, L.L.[Ling-Ling], Chen, P.[Puhua], Liu, X.[Xu], Li, S.[Shuo],
Satellite Video Object Tracking Based on Location Prompts,
CirSysVideo(34), No. 7, July 2024, pp. 6253-6264.
IEEE DOI Code:
WWW Link. 2407
Target tracking, Satellites, Object tracking, Feature extraction, Transformers, Tracking, Visualization, Object Tracking, motion features BibRef

Sun, B.Z.[Bao-Zhen], Wang, Z.H.[Zhen-Hua], Wang, S.L.[Shi-Lei], Cheng, Y.K.[Yong-Kang], Ning, J.F.[Ji-Feng],
Bidirectional Interaction of CNN and Transformer Feature for Visual Tracking,
CirSysVideo(34), No. 8, August 2024, pp. 7259-7271.
IEEE DOI 2408
Transformers, Target tracking, Feature extraction, Convolutional neural networks, Semantics, bi-directional interaction BibRef

Zhang, M.H.[Ming-Hua], Zhang, Q.[Qiuyang], Song, W.[Wei], Huang, D.M.[Dong-Mei], He, Q.[Qi],
PromptVT: Prompting for Efficient and Accurate Visual Tracking,
CirSysVideo(34), No. 8, August 2024, pp. 7373-7385.
IEEE DOI Code:
WWW Link. 2408
Target tracking, Transformers, Visualization, Real-time systems, Training, Neck, Visual object tracking, transformer tracking BibRef

Xun, Z.Z.[Zi-Zheng], Di, S.Z.[Shang-Zhe], Gao, Y.[Yulu], Tang, Z.H.[Zong-Heng], Wang, G.[Gang], Liu, S.[Si], Li, B.[Bo],
Linker: Learning Long Short-term Associations for Robust Visual Tracking,
MultMed(26), 2024, pp. 6228-6237.
IEEE DOI 2404
Target tracking, Transformers, Visualization, Feature extraction, Object tracking, Interference, Task analysis, Long short-term, transformer BibRef

Xie, F.[Fei], Wang, C.Y.[Chun-Yu], Wang, G.[Guangting], Cao, Y.[Yue], Yang, W.K.[Wan-Kou], Zeng, W.J.[Wen-Jun],
Correlation-Aware Deep Tracking,
CVPR22(8741-8750)
IEEE DOI 2210
Visualization, Target tracking, Correlation, Systematics, Pipelines, Feature extraction, Transformers, Motion and tracking BibRef

Xiao, D.K.[Ding-Kun], Wei, Z.Z.[Zhen-Zhong], Zhang, G.J.[Guang-Jun],
Efficient Transformer Tracking with Adaptive Attention,
IET-CV(18), No. 8, 2024, pp. 1338-1350.
DOI Link 2501
convolution, convolutional neural nets, object tracking, target tracking, tracking BibRef

Zhang, C.[Chi], Gao, Y.[Yun], Meng, T.[Tao], Wang, T.[Tao],
Partitioned token fusion and pruning strategy for transformer tracking,
IVC(154), 2025, pp. 105431.
Elsevier DOI 2502
Object tracking, Vision transformer, One-stream tracking, Background interference, Partitioned fusion and pruning BibRef

Zhao, L.[Li], Fan, C.X.[Chen-Xiang], Li, M.[Min], Zheng, Z.L.[Zhong-Long], Zhang, X.Q.[Xiao-Qin],
Global-local feature-mixed network with template update for visual tracking,
PRL(188), 2025, pp. 111-116.
Elsevier DOI 2502
Local vision transformer, Depth-wise convolution, Visual object tracking, Template update BibRef

Wang, Y.J.[Yong-Jun], Hao, X.H.[Xiao-Hui],
AdaMoT: Adaptive Motion-Aware Transformer for Efficient Visual Tracking,
SPLetters(32), 2025, pp. 1450-1454.
IEEE DOI 2504
Transformers, Tracking, Motion estimation, Complexity theory, Computational efficiency, Benchmark testing, Training BibRef

Chen, S.F.[Shih-Fang], Chen, J.C.[Jun-Cheng], Jhuo, I.H.[I-Hong], Lin, Y.Y.[Yen-Yu],
Improving Visual Object Tracking Through Visual Prompting,
MultMed(27), 2025, pp. 2682-2694.
IEEE DOI 2505
Visualization, Target tracking, Training, Foundation models, Feature extraction, Transformers, Object tracking, transformer BibRef

Wang, Y.[Ye], Mei, S.H.[Shao-Hui], Ma, M.Y.[Ming-Yang], Liu, Y.H.[Yu-Heng], Su, Y.[Yuru],
HTACPE: A Hybrid Transformer With Adaptive Content and Position Embedding for Sample Learning Efficiency of Hyperspectral Tracker,
MultMed(27), 2025, pp. 2384-2398.
IEEE DOI 2505
Hyperspectral imaging, Transformers, Adaptation models, Encoding, Object tracking, Feature extraction, Convolution, hyperspectral object tracking BibRef

Wang, Y.[Ye], Ma, M.Y.[Ming-Yang], Zhang, G.[Ge], Liu, Y.H.[Yu-Heng], Gao, T.[Tao], Mei, S.H.[Shao-Hui],
Hyperspectral Tracker With Constrained Object Adaptive Learning and Trajectory Construction,
CirSysVideo(35), No. 12, December 2025, pp. 12666-12679.
IEEE DOI Code:
WWW Link. 2512
Hyperspectral imaging, Transformers, Trajectory, Target tracking, Adaptive learning, Object tracking, Feature extraction, parameter-efficient fine-tuning BibRef

Chen, M.[Meiyu], Wang, P.[Peng], Xue, W.[Wu],
Enhancing Spatial Perception for Satellite Video Target Tracking,
RS(17), No. 17, 2025, pp. 3046.
DOI Link 2509
BibRef

Zhang, H.[Hong], Xing, W.L.[Wan-Li], Yang, Y.F.[Yi-Fan], Liu, H.Y.[Han-Yang], Yuan, D.[Ding],
TransSTC: transformer tracker meets efficient spatial-temporal cues,
PR(172), 2026, pp. 112303.
Elsevier DOI 2512
Object tracking, Transformer tracker, Spatial-temporal cues, Motion constraint BibRef

Lin, L.T.[Li-Ting], Fan, H.[Heng], Zhang, Z.P.[Zhi-Peng], Wang, Y.W.[Yao-Wei], Xu, Y.[Yong], Ling, H.B.[Hai-Bin],
Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance,
ECCV24(I: 300-318).
Springer DOI 2412
Code:
WWW Link. BibRef

Tao, X.[Xi], Qi, K.[Ke], Chen, P.[Peijia], Xu, W.H.[Wen-Hao], Qi, Y.T.[Yu-Tao],
Sparse Transformer Refinement Similarity Map for Aerial Tracking,
ICIP24(556-562)
IEEE DOI Code:
WWW Link. 2411
Visualization, Target tracking, Codes, Attention mechanisms, Accuracy, Transformers, Feature extraction, Transformers, aerial tracking BibRef

Nguyen, V.N.[Van Nguyen], Du, Y.M.[Yu-Ming], Xiao, Y.[Yang], Ramamonjisoa, M.[Michaël], Lepetit, V.[Vincent],
PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF Tracking,
3DV22(515-525)
IEEE DOI Code:
WWW Link. 2408
Training, Solid modeling, Target tracking, Source coding, Video sequences, Transformers, object pose estimation, object tracking BibRef

Zhou, X.Y.[Xing-Yi], Yin, T.W.[Tian-Wei], Koltun, V.[Vladlen], Krähenbühl, P.[Philipp],
Global Tracking Transformers,
CVPR22(8761-8770)
IEEE DOI 2210
Detectors, Object detection, Benchmark testing, Transformer cores, Transformers, Motion and tracking BibRef

Ma, F.[Fan], Shou, M.Z.[Mike Zheng], Zhu, L.C.[Lin-Chao], Fan, H.Q.[Hao-Qi], Xu, Y.L.[Yi-Lei], Yang, Y.[Yi], Yan, Z.C.[Zhi-Cheng],
Unified Transformer Tracker for Object Tracking,
CVPR22(8771-8780)
IEEE DOI 2210
Training, Target tracking, Correlation, Computational modeling, Benchmark testing, Transformers, Motion and tracking BibRef

Cao, Z.[Ziang], Fu, C.H.[Chang-Hong], Ye, J.J.[Jun-Jie], Li, B.[Bowen], Li, Y.M.[Yi-Ming],
HiFT: Hierarchical Feature Transformer for Aerial Tracking,
ICCV21(15437-15446)
IEEE DOI 2203
Convolutional codes, Location awareness, Visualization, Target tracking, Semantics, Decision making, Modulation, Vision applications and systems BibRef

Gopal, G.Y.[Goutam Yelluru], Amer, M.A.[Maria A.],
Separable Self and Mixed Attention Transformers for Efficient Object Tracking,
WACV24(6694-6703)
IEEE DOI Code:
WWW Link. 2404
Target tracking, Computational modeling, Color, Predictive models, Benchmark testing, Transformers BibRef

Gopal, G.Y.[Goutam Yelluru], Amer, M.A.[Maria A.],
Reliable Temporally Consistent Feature Adaptation for Visual Object Tracking,
ICIP20(2081-2085)
IEEE DOI 2011
Target tracking, Robustness, Optimization, Noise measurement, Correlation, Object tracking, Correlation Filters, Coordinate Ascent BibRef

Yu, J.L.[Jiang-Lei], Ma, X.[Xin],
Transformer Visual Tracker Based on Template Features Corresponding to Foreground Region,
ICIP22(1091-1095)
IEEE DOI 2211
Visualization, Fuses, Interference, Benchmark testing, Transformers, Feature extraction, Search problems, Visual Tracking, Template Features corresponding to Foreground Region BibRef

Li, Z.[Zhuang], Cao, L.L.[Lei-Lei], Wang, H.B.[Hong-Bin],
Limited Sampling Reference Frame for MaskTrack R-CNN,
OVIS21(3847-3850)
IEEE DOI 2112
Training, Image segmentation, Stochastic processes, Object detection, Transformers BibRef

Fang, K.[Kuan], Toshev, A.[Alexander], Fei-Fei, L.[Li], Savarese, S.[Silvio],
Scene Memory Transformer for Embodied Agents in Long-Horizon Tasks,
CVPR19(538-547).
IEEE DOI 2002
remember long-term history. BibRef

Wang, Z.Y.[Zi-Yu], Kamata, S.I.[Sei-Ichiro],
Multiple Mask Enhanced Transformer for Robust Visual Tracking,
ICRVC22(43-48)
IEEE DOI 2301
Visualization, Target tracking, Correlation, Transformers, Decoding, object tracking, transformer, multiple masks BibRef

Chapter on Motion -- Feature-Based, Long Range, Motion and Structure Estimates, Tracking, Surveillance, Activities continues in
Siamese Networks for Tracking .

Last update:Jan 8, 2026 at 12:52:16