26.1.8.3.1 Combined Audio Visual Speaker Tracking, Localization

Chapter Contents (Back)
Real Time Vision. Audio-Visual Speech. Audio-Visual Tracking. Speaker Tracking. Speaker Localization.
See also Audio Source Separation, Source Localization, Direction of Arrival, DoA, Analysis.

Zotkin, D.N.[Dmitry N.], Duraiswami, R.[Ramani], Davis, L.S.[Larry S.],
Joint Audio-Visual Tracking Using Particle Filters,
JASP(2002), No. 11, November 2002, pp. 1154.
WWW Link. 0304
BibRef

Garg, A.[Ashutosh], Pavlovic, V.[Vladimir], Rehg, J.M.[James M.],
Boosted learning in dynamic Bayesian networks for multimodal speaker detection,
PIEEE(91), No. 9, September 2003, pp. 1355-1369.
IEEE DOI 0309
BibRef
Earlier:
Audio-visual speaker detection using dynamic Bayesian networks,
AFGR00(384-390).
IEEE DOI 0003
BibRef

Pavlovic, V.[Vladimir], Garg, A.[Ashutosh], Rehg, J.M.[James M.], Huang, T.S.[Thomas S.],
Multimodal Speaker Detection using Error Feedback Dynamic Bayesian Networks,
CVPR00(II: 34-41).
IEEE DOI 0005
BibRef

Pavlovic, V., Berry, G., and Huang, T.S.,
Integration of Audio/Visual Information for Use in Human-Computer Intelligent Interaction,
ICIP97(I: 121-124).
IEEE DOI BibRef 9700

Choudhury, T.[Tanzeem], Rehg, J.M., Pavlovic, V., Pentland, A.P.,
Boosting and structure learning in dynamic Bayesian networks for audio-visual speaker detection,
ICPR02(III: 789-794).
IEEE DOI 0211
BibRef

Pavlovic, V.[Vladimir],
Multimodal tracking and classification of audio-visual features,
ICIP98(I: 343-347).
IEEE DOI 9810
BibRef

Rehg, J.M.[James M.], Murphy, K.P.[Kevin P.], Fieguth, P.W.[Paul W.],
Vision-Based Speaker Detection Using Bayesian Networks,
CVPR99(II: 110-116).
IEEE DOI More particuarly the one talking. BibRef 9900

Vajaria, H.[Himanshu], Sankar, R.[Ravi], Kasturi, R.[Ranga],
Exploring Co-Occurence Between Speech and Body Movement for Audio-Guided Video Localization,
CirSysVideo(18), No. 11, November 2008, pp. 1608-1617.
IEEE DOI 0811
BibRef

Vajaria, H.[Himanshu], Islam, T.[Tanmoy], Sarkar, S.[Sudeep], Sankar, R.[Ravi], Kasturi, R.[Ranga],
Audio Segmentation and Speaker Localization in Meeting Videos,
ICPR06(II: 1150-1153).
IEEE DOI 0609
BibRef

Talantzis, F., Pnevmatikakis, A., Constantinides, A.G.,
Audio-Visual Active Speaker Tracking in Cluttered Indoors Environments,
SMC-B(39), No. 1, February 2009, pp. 7-15.
IEEE DOI 0902
BibRef
Earlier: SMC-B(38), No. 3, June 2008, pp. 799-807.
IEEE DOI 0711
The top one is the special issue, it was published early in the other issue. BibRef

Lee, J.S.[Jong-Seok], de Simone, F.[Francesca], Ebrahimi, T.[Touradj],
Efficient video coding based on audio-visual focus of attention,
JVCIR(22), No. 8, November 2011, pp. 704-711.
Elsevier DOI 1110
Video coding; Audio-visual focus of attention; Quality of experience; Audio-visual source localization; H.264/AVC; Flexible macroblock ordering (FMO); Canonical correlation analysis; Subjective quality assessment BibRef

Blauth, D.A.[Dante A.], Minotto, V.P.[Vicente P.], Jung, C.R.[Claudio R.], Lee, B.[Bowon], Kalker, T.[Ton],
Voice activity detection and speaker localization using audiovisual cues,
PRL(33), No. 4, March 2012, pp. 373-380.
Elsevier DOI 1201
User interfaces; Voice activity detection; Speaker localization; Multimodal analysis; Hidden Markov Models BibRef

Montazzolli, S., Jung, C.R., Gelb, D.[Dan],
Audiovisual voice activity detection using off-the-shelf cameras,
ICIP15(3886-3890)
IEEE DOI 1512
Lip Movement BibRef

Minotto, V.P.[V. Peruffo], Jung, C.R.[C. Rosito], Lee, B.[Bowon],
Simultaneous-Speaker Voice Activity Detection and Localization Using Mid-Fusion of SVM and HMMs,
MultMed(16), No. 4, June 2014, pp. 1032-1044.
IEEE DOI 1407
Accuracy BibRef

Qian, X., Brutti, A., Lanz, O., Omologo, M., Cavallaro, A.,
Multi-Speaker Tracking From an Audio-Visual Sensing Device,
MultMed(21), No. 10, October 2019, pp. 2576-2588.
IEEE DOI 1910
image colour analysis, object detection, object tracking, particle filtering (numerical methods), sensor fusion, particle filter BibRef

Pu, J., Panagakis, Y., Pantic, M.,
Active Speaker Detection and Localization in Videos Using Low-Rank and Kernelized Sparsity,
SPLetters(27), 2020, pp. 865-869.
IEEE DOI 2006
Sparse matrices, Kernel, Visualization, Matrix decomposition, Videos, Correlation, Spectrogram, Active speaker localization, kernels BibRef

Qian, X.Y.[Xin-Yuan], Liu, Q.[Qi], Wang, J.D.[Jia-Dong], Li, H.Z.[Hai-Zhou],
Three-Dimensional Speaker Localization: Audio-Refined Visual Scaling Factor Estimation,
SPLetters(28), 2021, pp. 1405-1409.
IEEE DOI 2108
Location awareness, Visualization, Cameras, Microphone arrays, Estimation, Adaptive arrays, dynamic sensor weighting BibRef

Ban, Y.T.[Yu-Tong], Alameda-Pineda, X.[Xavier], Girin, L.[Laurent], Horaud, R.[Radu],
Variational Bayesian Inference for Audio-Visual Tracking of Multiple Speakers,
PAMI(43), No. 5, May 2021, pp. 1761-1776.
IEEE DOI 2104
BibRef
Earlier: A1, A3, A2, A4:
Exploiting the Complementarity of Audio and Visual Data in Multi-speaker Tracking,
CVAVM17(446-454)
IEEE DOI 1802
Visualization, Target tracking, Acoustics, Bayes methods, Cameras, Object tracking, Direction-of-arrival estimation, speaker diarization. Cameras, Detectors, Kalman filters, Microphones, Robots, Tracking, Visualization BibRef

Qian, X.Y.[Xin-Yuan], Brutti, A.[Alessio], Lanz, O.[Oswald], Omologo, M.[Maurizio], Cavallaro, A.[Andrea],
Audio-Visual Tracking of Concurrent Speakers,
MultMed(24), 2022, pp. 942-954.
IEEE DOI 2202
Target tracking, Acoustics, Faces, Cameras, Visualization, Image color analysis, 3D multiple target tracking, particle filter BibRef

Hu, D.[Di], Wei, Y.[Yake], Qian, R.[Rui], Lin, W.Y.[Wei-Yao], Song, R.H.[Rui-Hua], Wen, J.R.[Ji-Rong],
Class-Aware Sounding Objects Localization via Audiovisual Correspondence,
PAMI(44), No. 12, December 2022, pp. 9844-9859.
IEEE DOI 2212
Where did the sound come from. Location awareness, Visualization, Task analysis, Annotations, Semantics, Dictionaries, Videos, distribution alignment BibRef

Zheng, A.[Aihua], Hu, M.[Menglan], Jiang, B.[Bo], Huang, Y.[Yan], Yan, Y.[Yan], Luo, B.[Bin],
Adversarial-Metric Learning for Audio-Visual Cross-Modal Matching,
MultMed(24), 2022, pp. 338-351.
IEEE DOI 2202
Visualization, Task analysis, Measurement, Speech recognition, Videos, Location awareness, Image recognition, metric learning BibRef

Wang, H.[Hao], Zha, Z.J.[Zheng-Jun], Li, L.[Liang], Chen, X.J.[Xue-Jin], Luo, J.B.[Jie-Bo],
Semantic and Relation Modulation for Audio-Visual Event Localization,
PAMI(45), No. 6, June 2023, pp. 7711-7725.
IEEE DOI 2305
Visualization, Location awareness, Correlation, Proposals, Semantics, Task analysis, Modulation, Audio-visual learning, normalization BibRef

Garg, R.[Rishabh], Gao, R.H.[Ruo-Han], Grauman, K.[Kristen],
Visually-Guided Audio Spatialization in Video with Geometry-Aware Multi-task Learning,
IJCV(131), No. 10, October 2023, pp. 2723-2737.
Springer DOI 2309
BibRef

Wang, J.X.[Jia-Xiang], Li, C.L.[Cheng-Long], Zheng, A.[Aihua], Tang, J.[Jin], Luo, B.[Bin],
Looking and Hearing Into Details: Dual-Enhanced Siamese Adversarial Network for Audio-Visual Matching,
MultMed(25), 2023, pp. 7505-7516.
IEEE DOI 2311
BibRef

Traa, J., Smaragdis, P.,
A Wrapped Kalman Filter for Azimuthal Speaker Tracking,
SPLetters(20), No. 12, 2013, pp. 1257-1260.
IEEE DOI 1311
Approximation methods BibRef

Qian, X.Y.[Xin-Yuan], Zhang, Q.[Qiquan], Guan, G.H.[Guo-Hui], Xue, W.[Wei],
Deep Audio-Visual Beamforming for Speaker Localization,
SPLetters(29), 2022, pp. 1132-1136.
IEEE DOI 2205
Microphones, Location awareness, Correlation, Array signal processing, Visualization, Feature extraction, variational auto-encoder BibRef

Xuan, H.Y.[Han-Yu], Wu, Z.L.[Zhi-Liang], Yang, J.[Jian], Jiang, B.[Bo], Luo, L.[Lei], Alameda-Pineda, X.[Xavier], Yan, Y.[Yan],
Robust Audio-Visual Contrastive Learning for Proposal-Based Self-Supervised Sound Source Localization in Videos,
PAMI(46), No. 7, July 2024, pp. 4896-4907.
IEEE DOI 2406
BibRef
Earlier: A1, A2, A3, A7, A6, Only:
A Proposal-based Paradigm for Self-supervised Sound Source Localization in Videos,
CVPR22(1019-1028)
IEEE DOI 2210
Task analysis, Semantics, Visualization, Videos, Annotations, Location awareness, Synchronization, Sound source localization, proposal-based method. Interpolation, Shape, Recognition: detection, Self- semi- meta- Vision + X BibRef

Li, Y.[Yidi], Liu, H.[Hong], Yang, B.[Bing],
STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking,
MultMed(27), 2025, pp. 1835-1847.
IEEE DOI 2504
Visualization, Feature extraction, Acoustics, Acoustic measurements, Target tracking, Location awareness, cross-modal attention BibRef

Senocak, A.[Arda], Ryu, H.[Hyeonggon], Kim, J.[Junsik], Oh, T.H.[Tae-Hyun], Pfister, H.[Hanspeter], Chung, J.S.[Joon Son],
Toward Interactive Sound Source Localization: Better Align Sight and Sound!,
PAMI(47), No. 9, September 2025, pp. 7643-7659.
IEEE DOI 2508
Location awareness, Benchmark testing, Visualization, Measurement, Semantics, Contrastive learning, Cross modal retrieval, cross-modal retrieval BibRef

Liao, J.H.[Jun-Hua], Duan, H.H.[Hai-Han], Feng, K.H.[Kang-Hui], Zhao, W.B.[Wan-Bing], Yang, Y.B.[Yan-Bing], Chen, L.Y.[Liang-Yin], Chen, Y.R.[Yan-Ru],
LR-ASD: Lightweight and Robust Network for Active Speaker Detection,
IJCV(133), No. 7, July 2025, pp. 4749-4769.
Springer DOI 2506
BibRef

Jiang, Z.Y.[Zi-Yang], Chen, X.[Xueyan], Wang, S.[Shuai], Qian, X.Y.[Xin-Yuan], Li, H.Z.[Hai-Zhou],
TPEech: Target Speaker Extraction and Noise Suppression With Historical Dialogue Text Cues,
SPLetters(33), 2026, pp. 351-355.
IEEE DOI 2601
Speech enhancement, Noise measurement, Speech recognition, Signal to noise ratio, Noise reduction, Training, Interference, multi-modal BibRef

Yang, W.H.[Wen-Hao], Wei, J.G.[Jian-Guo], Lu, W.H.[Wen-Huan], Song, X.Y.[Xin-Yue], Yue, X.[Xianghu],
Listening for 'You': Enhancing Speech Image Retrieval via Target Speaker Extraction,
SPLetters(33), 2026, pp. 201-205.
IEEE DOI 2601
Feature extraction, Transformers, Semantics, Convolution, Noise, Contrastive learning, Computational modeling, Visualization BibRef

Um, S.J.[Sung Jin], Kim, D.J.[Dong-Jin], Lee, S.[Sangmin], Kim, J.U.[Jung Uk],
Object-aware Sound Source Localization via Audio-Visual Scene Understanding,
CVPR25(8342-8351)
IEEE DOI Code:
WWW Link. 2508
Location awareness, Visualization, Codes, Large language models, Computational modeling, Semantics, audio-visual BibRef

Kim, I.H.[In-Ho], Song, Y.[Youngkil], Park, J.[Jicheol], Kim, W.H.[Won Hwa], Kwak, S.[Suha],
Improving Sound Source Localization with Joint Slot Attention on Image and Audio,
CVPR25(3121-3130)
IEEE DOI 2508
Location awareness, Computational modeling, Noise, Contrastive learning, Benchmark testing, Vectors, Standards, Cross modal retrieval BibRef

Ryu, H.[Hyeonggon], Kim, S.[Seongyu], Chung, J.S.[Joon Son], Senocak, A.[Arda],
Seeing Speech and Sound: Distinguishing and Locating Audio Sources in Visual Scenes,
CVPR25(13540-13549)
IEEE DOI 2508
Visualization, Accuracy, Grounding, Computational modeling, Complexity theory, Standards, Cross modal retrieval BibRef

Ye, Y.X.[Yu-Xin], Yang, W.M.[Wen-Ming], Tian, Y.P.[Ya-Peng],
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation,
WACV24(5496-5507)
IEEE DOI Code:
WWW Link. 2404
Visualization, Correlation, Particle separators, Spatial audio, Transfer learning, Collaboration, Algorithms BibRef

Wang, X.Z.[Xi-Zi], Cheng, F.[Feng], Bertasius, G.[Gedas],
LoCoNet: Long-Short Context Network for Active Speaker Detection,
CVPR24(18462-18472)
IEEE DOI Code:
WWW Link. 2410
Convolutional codes, Visualization, Benchmark testing, Robustness, Convolutional neural networks BibRef

Chen, J.B.[Jia-Ben], Zhang, R.R.[Ren-Rui], Lian, D.Z.[Dong-Ze], Yang, J.Q.[Jia-Qi], Zeng, Z.Y.[Zi-Yao], Shi, J.B.[Jian-Bo],
iQuery: Instruments as Queries for Audio-Visual Sound Separation,
CVPR23(14675-14686)
IEEE DOI 2309
BibRef

Tan, R.[Reuben], Ray, A.[Arijit], Burns, A.[Andrea], Plummer, B.A.[Bryan A.], Salamon, J.[Justin], Nieto, O.[Oriol], Russell, B.[Bryan], Saenko, K.[Kate],
Language-Guided Audio-Visual Source Separation via Trimodal Consistency,
CVPR23(10575-10584)
IEEE DOI 2309
BibRef

Sun, W.X.[Wei-Xuan], Zhang, J.Y.[Jia-Yi], Wang, J.Y.[Jian-Yuan], Liu, Z.Y.[Zhe-Yuan], Zhong, Y.R.[Yi-Ran], Feng, T.P.[Tian-Peng], Guo, Y.D.[Yan-Dong], Zhang, Y.H.[Yan-Hao], Barnes, N.M.[Nick M.],
Learning Audio-Visual Source Localization via False Negative Aware Contrastive Learning,
CVPR23(6420-6429)
IEEE DOI 2309
BibRef

Huang, C.[Chao], Tian, Y.P.[Ya-Peng], Kumar, A.[Anurag], Xu, C.L.[Chen-Liang],
Egocentric Audio-Visual Object Localization,
CVPR23(22910-22921)
IEEE DOI 2309
BibRef

Nugroho, M.A.[Muhammad Adi], Woo, S.[Sangmin], Lee, S.[Sumin], Kim, C.[Changick],
Audio-Visual Glance Network for Efficient Video Recognition,
ICCV23(10116-10125)
IEEE DOI 2401
BibRef

Liu, Y.[Yang], Tan, Y.[Ying], Lan, H.Y.[Hao-Yuan],
Self-Supervised Contrastive Learning for Audio-Visual Action Recognition,
ICIP23(1000-1004)
IEEE DOI 2312
BibRef

Alcázar, J.L.[Juan León], Cordes, M.[Moritz], Zhao, C.[Chen], Ghanem, B.[Bernard],
End-to-End Active Speaker Detection,
ECCV22(XXXVII:126-143).
Springer DOI 2211
BibRef

Mo, S.T.[Shen-Tong], Morgado, P.[Pedro],
Localizing Visual Sounds the Easy Way,
ECCV22(XXXVII:218-234).
Springer DOI 2211
BibRef

Xia, Y.[Yan], Zhao, Z.[Zhou],
Cross-modal Background Suppression for Audio-Visual Event Localization,
CVPR22(19957-19966)
IEEE DOI 2210
Location awareness, Visualization, Codes, Logic gates, Feature extraction, Robustness, Action and event recognition, Vision + X BibRef

Wang, H.[Huasen], Gao, L.L.[Ling-Ling], Tan, Q.C.[Qian-Chao], Ji, L.P.[Lu-Ping],
Visual Sound Source Separation with Partial Supervision Learning,
ICIP22(2127-2131)
IEEE DOI 2211
Deep learning, Visualization, Source separation, Semisupervised learning, Benchmark testing, Audio-visual Matching BibRef

Jiang, H.[Hao], Murdock, C.[Calvin], Ithapu, V.K.[Vamsi Krishna],
Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization,
CVPR22(10534-10542)
IEEE DOI 2210
Location awareness, Voice activity detection, Visualization, Machine vision, Lighting, Real-time systems, Microphone arrays, Vision applications and systems BibRef

Min, K.[Kyle], Roy, S.[Sourya], Tripathi, S.[Subarna], Guha, T.[Tanaya], Majumdar, S.[Somdeb],
Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection,
ECCV22(XXXV:371-387).
Springer DOI 2211
BibRef

Duan, B.[Bin], Tang, H.[Hao], Wang, W.[Wei], Zong, Z.L.[Zi-Liang], Yang, G.W.[Guo-Wei], Yan, Y.[Yan],
Audio-Visual Event Localization via Recursive Fusion by Joint Co-Attention,
WACV21(4012-4021)
IEEE DOI 2106
Location awareness, Visualization, Fuses, Task analysis BibRef

Nguyen, Q.[Quan], Richter, J.[Julius], Lauri, M.[Mikko], Gerkmann, T.[Timo], Frintrop, S.[Simone],
Improving mix-and-separate training in audio-visual sound source separation with an object prior,
ICPR21(5844-5851)
IEEE DOI 2105
Training, Visualization, Source separation, Instruments, Music, Robustness, Data models BibRef

Wu, Y.[Yu], Zhu, L.C.[Lin-Chao], Yan, Y.[Yan], Yang, Y.[Yi],
Dual Attention Matching for Audio-Visual Event Localization,
ICCV19(6291-6299)
IEEE DOI 2004
feature extraction, image fusion, video signal processing, Video sequences BibRef

Majumder, S.[Sagnik], Grauman, K.[Kristen],
Active Audio-Visual Separation of Dynamic Sound Sources,
ECCV22(XXIX:551-569).
Springer DOI 2211
BibRef

Majumder, S.[Sagnik], Al-Halah, Z.[Ziad], Grauman, K.[Kristen],
Move2Hear: Active Audio-Visual Source Separation,
ICCV21(275-285)
IEEE DOI 2203
Solid modeling, Source separation, Robot vision systems, Reinforcement learning, Ear, Vision + other modalities, Vision for robotics and autonomous vehicles BibRef

Alcázar, J.L.[Juan León], Heilbron, F.C.[Fabian Caba], Thabet, A.K.[Ali K.], Ghanem, B.[Bernard],
MAAS: Multi-modal Assignation for Active Speaker Detection,
ICCV21(265-274)
IEEE DOI 2203
Visualization, Benchmark testing, Feature extraction, Data structures, Task analysis, Vision + other modalities, Video analysis and understanding BibRef

Köpüklü, O.[Okan], Taseska, M.[Maja], Rigoll, G.[Gerhard],
How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild,
ICCV21(1173-1183)
IEEE DOI 2203
Codes, Computational modeling, Pipelines, Encoding, Task analysis, Vision + other modalities, Vision applications and systems BibRef

Wu, Y.[Yu], Yang, Y.[Yi],
Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing,
CVPR21(1326-1335)
IEEE DOI 2111
Training, Visualization, Target tracking, Annotations, Predictive models BibRef

Liu, H.[Hong], Sun, Y.H.[Yong-Heng], Li, Y.D.[Yi-Di], Yang, B.[Bing],
3D Audio-Visual Speaker Tracking with A Novel Particle Filter,
ICPR21(7343-7348)
IEEE DOI 2105
BibRef
Earlier: A1, A3, A4, Only:
3D Audio-Visual Speaker Tracking with A Two-Layer Particle Filter,
ICIP19(1955-1959)
IEEE DOI 1910
Visualization, Histograms, Head, Image color analysis, Sensor phenomena and characterization, compact platform. 3D speaker tracking, audio-visual fusion, particle filter, adaptive likelihood BibRef

He, G., Liu, X., Fan, F., You, J.,
Image2Audio: Facilitating Semi-supervised Audio Emotion Recognition with Facial Expression Image,
VL3W20(3978-3983)
IEEE DOI 2008
Spectrogram, Training, Emotion recognition, Reliability, Visualization, Face recognition BibRef

Le, N.[Nam], Heili, A.[Alexandre], Wu, D.[Di], Odobez, J.M.[Jean-Marc],
Temporally subsampled detection for accurate and efficient face tracking and diarization,
ICPR16(1792-1797)
IEEE DOI 1705
Detectors, Face, Face detection, Image color analysis, Motion pictures, TV, Tracking BibRef

Saeed, A.[Anwar], Al-Hamadi, A.[Ayoub], Heuer, M.[Michael],
Speaker Tracking Using Multi-modal Fusion Framework,
ICISP12(539-546).
Springer DOI 1208
BibRef

Kelly, D.[Damien], Pitie, F.[Francois], Kokaram, A.[Anil], Boland, F.[Frank],
A Comparative Error Analysis of Audio-Visual Source Localization,
M2SFA208(xx-yy). 0810
BibRef

Katsarakis, N.[Nikos], Talantzis, F.[Fotios], Pnevmatikakis, A.[Aristodemos], Polymenakos, L.[Lazaros],
The AIT 3D Audio / Visual Person Tracker for CLEAR 2007,
MTPH07(xx-yy).
Springer DOI 0705

See also AIT 2D Face Detection and Tracking System for CLEAR 2007, The.
See also AIT Multimodal Person Identification System for CLEAR 2007, The. BibRef

Kushal, A.[Akash], Rahurkar, M.[Mandar], Fei-Fei, L.[Li], Ponce, J.[Jean], Huang, T.[Thomas],
Audio-Visual Speaker Localization Using Graphical Models,
ICPR06(I: 291-294).
IEEE DOI 0609
BibRef

Tsuji, T.[Tokuo], Yamamoto, K.[Kenkichi], Ishii, I.[Idaku],
Real-time Sound Source Localization Based on Audiovisual Frequency Integration,
ICPR06(IV: 322-325).
IEEE DOI 0609
BibRef

Megherbi, N., Ambellouis, S., Colot, O., Cabestaing, F.,
Data Association in Multi-Target Tracking Using Belief Theory: Handling Target Emergence and Disappearance Issue,
AVSBS05(517-521).
IEEE DOI 0602
BibRef

Megherbi, N., Ambellouis, S., Colot, O., Cabestaing, F.,
Joint audio-video people tracking using belief theory,
AVSBS05(135-140).
IEEE DOI 0602
BibRef

Li, X.[Xin], Sun, L.[Luo], Tao, L.M.[Lin-Mi], Xu, G.Y.[Guang-You], Jia, Y.[Ying],
A Speaker Tracking Algorithm Based on Audio and Visual Information Fusion Using Particle Filter,
ICIAR04(II: 572-580).
Springer DOI 0409
BibRef

Lange, C.[Christian], Hermann, T.[Thomas], Ritter, H.[Helge],
Holistic Body Tracking for Gestural Interfaces,
GW03(132-139).
Springer DOI 0405
BibRef

Blake, A., Gangnet, M., Perez, P., Vermaak, J.,
Integrated tracking with vision and sound,
CIAP01(354-357).
IEEE DOI 0210
BibRef

Chapter on New Unsorted Entries, and Other Miscellaneous Papers continues in
Audio-Visual Segmentation .

Last update:Jun 13, 2026 at 20:41:05