26.1.8.3 Audio Source Separation, Source Localization, Direction of Arrival, DoA, Analysis

Chapter Contents (Back)
Audio. Source Separation. Localization. Source Localization. Direction of Arrival. DoA.
See also Combined Audio Visual Speaker Tracking, Localization.

Aarabi, P.,
Self-localizing dynamic microphone arrays,
SMC-C(32), No. 4, November 2002, pp. 474-484.
IEEE Top Reference. 0301
BibRef

Aarabi, P.,
Localization-Based Sensor Validation Using the Kullback-Leibler Divergence,
SMC-B(34), No. 2, April 2004, pp. 1007-1016.
IEEE Abstract. 0404
BibRef

Le Roux, J., Vincent, E.,
Consistent Wiener Filtering for Audio Source Separation,
SPLetters(20), No. 3, March 2013, pp. 217-220.
IEEE DOI 1303
BibRef

Kowalczyk, K., Habets, E.A.P., Kellermann, W., Naylor, P.A.,
Blind System Identification Using Sparse Learning for TDOA Estimation of Room Reflections,
SPLetters(20), No. 7, 2013, pp. 653-656.
IEEE DOI 1307
acoustic signal processing; blind source separation BibRef

Jiang, K., Wu, C., Guo, Y., Fu, Q., Yan, Y.,
Acoustic Echo Control with Frequency-Domain Stage-Wise Regression,
SPLetters(21), No. 10, October 2014, pp. 1265-1269.
IEEE DOI 1407
Acoustics BibRef

Arberet, S., Vandergheynst, P.,
Reverberant Audio Source Separation via Sparse and Low-Rank Modeling,
SPLetters(21), No. 4, April 2014, pp. 404-408.
IEEE DOI 1403
audio signal processing BibRef

Vincent, E., Bertin, N., Gribonval, R., Bimbot, F.,
From Blind to Guided Audio Source Separation: How models and side information can improve the separation of sound,
SPMag(31), No. 3, May 2014, pp. 107-115.
IEEE DOI 1405
Audio systems BibRef

Ewert, S., Pardo, B., Mueller, M., Plumbley, M.,
Score-Informed Source Separation for Musical Audio Recordings: An overview,
SPMag(31), No. 3, May 2014, pp. 116-124.
IEEE DOI 1405
Audio recording BibRef

Barnard, M., Koniusz, P., Wang, W.W.[Wen-Wu], Kittler, J.V.[Josef V.], Naqvi, S.M., Chambers, J.,
Robust Multi-Speaker Tracking via Dictionary Learning and Identity Modeling,
MultMed(16), No. 3, April 2014, pp. 864-880.
IEEE DOI 1405
direction-of-arrival estimation BibRef

Kilic, V., Barnard, M., Wang, W.W.[Wen-Wu], Kittler, J.V.[Josef V.],
Audio Assisted Robust Visual Tracking With Adaptive Particle Filtering,
MultMed(17), No. 2, February 2015, pp. 186-200.
IEEE DOI 1502
Gaussian noise BibRef

Han, T.J.[Taek-Jin], Kim, K.J.[Ki-Jun], Park, H.[Hochong],
Location Estimation of Predominant Sound Source with Embedded Source Separation in Amplitude-Panned Stereo Signal,
SPLetters(22), No. 10, October 2015, pp. 1685-1688.
IEEE DOI 1506
audio signal processing BibRef

Lima, M.V.S., Martins, W.A., Nunes, L.O., Biscainho, L.W.P., Ferreira, T.N., Costa, M.V.M., Lee, B.[Bowon],
A Volumetric SRP with Refinement Step for Sound Source Localization,
SPLetters(22), No. 8, August 2015, pp. 1098-1102.
IEEE DOI 1502
computational complexity BibRef

Yook, D., Lee, T., Cho, Y.,
Fast Sound Source Localization Using Two-Level Search Space Clustering,
Cyber(46), No. 1, January 2016, pp. 20-26.
IEEE DOI 1601
Accuracy BibRef

Kugler, M.[Mauricio], Tossavainen, T.[Teemu], Kuroyanagi, S.[Susumu], Iwata, A.[Akira],
Design of a Compact Sound Localization Device on a Stand-Alone FPGA-Based Platform,
IEICE(E99-D), No. 11, November 2016, pp. 2682-2693.
WWW Link. 1611
BibRef

Salvati, D.[Daniele], Drioli, C.[Carlo], Foresti, G.L.[Gian Luca],
A weighted MVDR beamformer based on SVM learning for sound source localization,
PRL(84), No. 1, 2016, pp. 15-21.
Elsevier DOI 1612
Sound source localization BibRef

Yu, K., Hudson, R.E., Zhang, Y.D., Yao, K., Taylor, C., Wang, Z.,
Low-Complexity 2D Direction-of-Arrival Estimation for Acoustic Sensor Arrays,
SPLetters(23), No. 12, December 2016, pp. 1791-1795.
IEEE DOI 1612
direction-of-arrival estimation BibRef

Chan, T.S.T., Yang, Y.H.[Yi-Hsuan],
Complex and Quaternionic Principal Component Pursuit and Its Application to Audio Separation,
SPLetters(23), No. 2, February 2016, pp. 287-291.
IEEE DOI 1602
audio signal processing BibRef

Choi, J., Kim, J., Kim, N.S.,
Robust Time-Delay Estimation for Acoustic Indoor Localization in Reverberant Environments,
SPLetters(24), No. 2, February 2017, pp. 226-230.
IEEE DOI 1702
acoustic signal processing BibRef

Cobos, M., García-Pineda, M., Arevalillo-Herráez, M.,
Steered Response Power Localization of Acoustic Passband Signals,
SPLetters(24), No. 5, May 2017, pp. 717-721.
IEEE DOI 1704
Acoustics BibRef

Evers, C., Habets, E.A.P., Gannot, S., Naylor, P.A.,
DoA Reliability for Distributed Acoustic Tracking,
SPLetters(25), No. 9, September 2018, pp. 1320-1324.
IEEE DOI 1809
acoustic communication (telecommunication), direction-of-arrival estimation, wireless sensor networks, smart homes BibRef

Fourer, D., Auger, F., Peeters, G.,
Local AM/FM Parameters Estimation: Application to Sinusoidal Modeling and Blind Audio Source Separation,
SPLetters(25), No. 10, October 2018, pp. 1600-1604.
IEEE DOI 1810
amplitude modulation, audio signal processing, blind source separation, frequency estimation, time-frequency analysis BibRef

Chen, Y., Wang, W., Wang, Z., Xia, B.,
A Source Counting Method Using Acoustic Vector Sensor Based on Sparse Modeling of DOA Histogram,
SPLetters(26), No. 1, January 2019, pp. 69-73.
IEEE DOI 1901
acoustic signal processing, array signal processing, blind source separation, direction-of-arrival estimation, OMP BibRef

Karamatli, E., Cemgil, A.T., Kirbiz, S.,
Audio Source Separation Using Variational Autoencoders and Weak Class Supervision,
SPLetters(26), No. 9, September 2019, pp. 1349-1353.
IEEE DOI 1909
audio signal processing, neural nets, source separation, weak class supervision, source separation method, Variational Autoencoders BibRef

Renda, W.[William], Zhang, C.H.[Charlie H.],
Comparative Analysis of Firearm Discharge Recorded by Gunshot Detection Technology and Calls for Service in Louisville, Kentucky,
IJGI(8), No. 6, 2019, pp. xx-yy.
DOI Link 1908
BibRef

Magron, P., Virtanen, T.,
Online Spectrogram Inversion for Low-Latency Audio Source Separation,
SPLetters(27), 2020, pp. 306-310.
IEEE DOI 2003
Audio source separation, low-latency, online spectrogram inversion, phase recovery, sinusoidal modeling BibRef

Pezzoli, M., Carabias-Orti, J.J., Cobos, M., Antonacci, F., Sarti, A.,
Ray-Space-Based Multichannel Nonnegative Matrix Factorization for Audio Source Separation,
SPLetters(28), 2021, pp. 369-373.
IEEE DOI 2102
Microphones, Time-frequency analysis, Transmission line matrix methods, Arrays, Microphone arrays, array signal processing BibRef

Chen, J.H.[Jin-Hui], Takashima, R.[Ryoichi], Guo, X.C.[Xing-Chen], Zhang, Z.H.[Zhi-Hong], Xu, X.X.[Xue-Xin], Takiguchi, T.[Tetsuya], Hancock, E.R.[Edwin R.],
Multimodal fusion for indoor sound source localization,
PR(115), 2021, pp. 107906.
Elsevier DOI 2104
Sound source localization, Acoustic transfer function, HMM, Polar HOG, SVM BibRef

Cheng, G., Liao, L., Chen, H., Lu, J.,
Semi-Blind Source Separation for Nonlinear Acoustic Echo Cancellation,
SPLetters(28), 2021, pp. 474-478.
IEEE DOI 2103
Numerical models, Adaptation models, Signal processing algorithms, Adaptive filters, Echo cancellers, semi-blind source separation BibRef

Lu, D.[Da], Duan, R.[Rui], Yang, K.[Kunde],
Closed-Form Hybrid Cramer-Rao Bound for DOA Estimation by an Acoustic Vector Sensor Under Orientation Deviation,
SPLetters(28), 2021, pp. 2033-2037.
IEEE DOI 2111
Estimation, Direction-of-arrival estimation, Acoustics, Cramer-Rao bounds, Acoustic measurements, Data models, orientation deviation BibRef

Li, W.[Wei], Schotland, J.C.[John C.], Yang, Y.[Yang], Zhong, Y.M.[Yi-Min],
An Acousto-electric Inverse Source Problem,
SIIMS(14), No. 4, 2021, pp. 1601-1616.
DOI Link 2112
BibRef

Sedighi, S.[Saeid], Shankar, M.R.B.[M. R. Bhavani], Soltanalian, M.[Mojtaba], Ottersten, B.[Björn],
DoA Estimation Using Low-Resolution Multi-Bit Sparse Array Measurements,
SPLetters(28), 2021, pp. 1400-1404.
IEEE DOI 2108
Direction-of-arrival estimation, Estimation, Covariance matrices, Optimization, Quantization (signal), Sparse matrices, Simulation, few-bit quantization BibRef

Xiang, X.X.[Xiao-Xiao], Zhang, X.J.[Xiao-Juan], Xie, W.[Wupeng],
Distributed Microphones Speech Separation by Learning Spatial Information With Recurrent Neural Network,
SPLetters(29), 2022, pp. 1541-1545.
IEEE DOI 2208
Task analysis, Convolution, Speech enhancement, Training, Noise measurement, Recurrent neural networks, Decoding, time-domain BibRef

Qu, X.H.[Xing-Hao], Lou, Y.[Yi], Zhao, Y.J.[Yun-Jiang], Lu, Y.H.[Yin-Heng], Qiao, G.[Gang],
Augmented Tensor MUSIC for DOA Estimation Using Nested Acoustic Vector-Sensor Array,
SPLetters(29), 2022, pp. 1624-1628.
IEEE DOI 2208
Tensors, Sensor arrays, Estimation, Correlation, Direction-of-arrival estimation, Apertures, Acoustic arrays, tensor modeling BibRef

Zhou, L.[Lang], Ye, K.[Kun], Qi, J.[Jie], Sun, H.X.[Hai-Xin],
DOA Estimation Based on Pseudo-Noise Subspace for Relocating Enhanced Nested Array,
SPLetters(29), 2022, pp. 1858-1862.
IEEE DOI 2209
Direction-of-arrival estimation, Sensor arrays, Estimation, Sensors, Signal processing algorithms, Array signal processing, relocating enhanced nested array BibRef

Sprunck, T.[Tom], Deleforge, A.[Antoine], Privat, Y.[Yannick], Foy, C.[Cédric],
Gridless 3D Recovery of Image Sources From Room Impulse Responses,
SPLetters(29), 2022, pp. 2427-2431.
IEEE DOI 2212
Inverse problems, Array signal processing, Propagation, Superresolution, Radon, Signal processing algorithms, convex optimization BibRef

Wang, R.[Ran], Yi, X.Q.[Xiao-Quan], Yu, L.[Liang], Zhang, C.Y.[Chen-Yu], Wang, T.D.[Tong-Dong], Zhang, X.P.[Xiao-Peng],
Infrasound Source Localization of Distributed Stations Using Sparse Bayesian Learning and Bayesian Information Fusion,
RS(14), No. 13, 2022, pp. xx-yy.
DOI Link 2208
BibRef

Marchegiani, L.[Letizia], Newman, P.[Paul],
Listening for Sirens: Locating and Classifying Acoustic Alarms in City Scenes,
ITS(23), No. 10, October 2022, pp. 17087-17096.
IEEE DOI 2210
Acoustics, Signal to noise ratio, Spectrogram, Image segmentation, Direction-of-arrival estimation, Multitasking, Deep learning, deep learning BibRef

Salvati, D.[Daniele], Drioli, C.[Carlo], Foresti, G.L.[Gian Luca],
Acoustic Source Localization Using a Geometrically Sampled Grid SRP-PHAT Algorithm With Max-Pooling Operation,
SPLetters(29), 2022, pp. 1828-1832.
IEEE DOI 2209
Location awareness, Reverberation, Mathematical models, Spatial resolution, Signal processing algorithms, Phased arrays, steered response power BibRef

Salvati, D.[Daniele],
Entropy-Based Geometry Design for SRP-PHAT Acoustic Source Localization,
SPLetters(33), 2026, pp. 1336-1340.
IEEE DOI 2604
Geometry, Sensitivity, Microphone arrays, Entropy, Location awareness, Sensor arrays, Array signal processing, entropy BibRef

Guo, X.C.[Xing-Chen], Xu, X.X.[Xue-Xin], Chen, X.Q.[Xun-Quan], Chen, J.H.[Jin-Hui], Jia, R.[Rong], Zhang, Z.H.[Zhi-Hong], Takiguchi, T.[Tetsuya], Hancock, E.R.[Edwin R.],
Direction of arrival estimation for indoor environments based on acoustic composition model with a single microphone,
PR(129), 2022, pp. 108715.
Elsevier DOI 2206
Gaussian mixture model (GMM), Acoustic transfer function (ATF), Talker localization BibRef

Arriaga-Trejo, I.A.[Israel A.], Orozco-Lugo, A.G.[Aldo G.], He, J.[Jin], Shu, T.[Ting], Truong, T.K.[Trieu-Kien],
Azimuth-Elevation Direction Finding With a Pair of Acoustic Vector Sensors in the Presence of a Reflecting Boundary,
SPLetters(29), 2022, pp. 2138-2142.
IEEE DOI 2211
Sensors, Signal processing algorithms, Acoustics, Transmission line matrix methods, Tensors, Matrix decomposition, fourth-order cumulant BibRef

Lee, S.[Seungjun], Yang, H.[Haesang], Choi, H.[Hwiyong], Seong, W.[Woojae],
Zero-Shot Single-Microphone Sound Classification and Localization in a Building Via the Synthesis of Unseen Features,
MultMed(24), 2022, pp. 2339-2351.
IEEE DOI 2205
Location awareness, Microphones, Buildings, Feature extraction, Training, Reverberation, Data models, zero-shot learning BibRef

Lin, Y.B.[Yan-Bo], Tseng, H.Y.[Hung-Yu], Lee, H.Y.[Hsin-Ying], Lin, Y.Y.[Yen-Yu], Yang, M.H.[Ming-Hsuan],
Unsupervised sound localization via iterative contrastive learning,
CVIU(227), 2023, pp. 103602.
Elsevier DOI 2301
Sound localization, Unsupervised Learning, Contrastive learning BibRef

Silber, E.A.[Elizabeth A.], Bowman, D.C.[Daniel C.], Giannone, M.R.[Miro Ronac],
Detection of the Large Surface Explosion Coupling Experiment by a Sparse Network of Balloon-Borne Infrasound Sensors,
RS(15), No. 2, 2023, pp. xx-yy.
DOI Link 2301
BibRef

Luo, Z.Q.[Zhong-Qiang],
Independent vector analysis: Model, applications, challenges,
PR(138), 2023, pp. 109376.
Elsevier DOI 2303
IVA, BSS, ICA, Source priori models, Unsupervised learning, Audio source separation BibRef

Yang, Y.[Yi], Hu, Q.[Qi], Zhao, Q.W.[Qing-Wei], Zhang, P.Y.[Peng-Yuan],
So-DAS: A Two-Step Soft-Direction-Aware Speech Separation Framework,
SPLetters(30), 2023, pp. 344-348.
IEEE DOI 2305
Direction-of-arrival estimation, Particle separators, Training data, Training, Signal to noise ratio, Reflection, deep learning BibRef

Luo, X.Q.[Xue-Qin], Jin, J.[Jilu], Huang, G.P.[Gong-Ping], Chen, J.D.[Jing-Dong], Benesty, J.[Jacob],
Design of Steerable Linear Differential Microphone Arrays With Omnidirectional and Bidirectional Sensors,
SPLetters(30), 2023, pp. 463-467.
IEEE DOI 2305
Microphone arrays, Sensors, Sensor arrays, Array signal processing, Jacobian matrices, White noise, Image color analysis, directivity factor BibRef

Chu, N.[Ning], Hu, K.Y.[Ke-Yu], Yu, L.[Liang], Mohammad-Djafari, A.[Ali], Yang, W.H.[Wei-Hua],
High-Resolution Fast-Rotating Sound Localization Based on Modal Composition Beamforming and Bayesian Inversion,
SPLetters(30), 2023, pp. 349-353.
IEEE DOI 2305
Array signal processing, Bayes methods, Location awareness, Frequency-domain analysis, Time-domain analysis, TV, subspace variational bayesian method BibRef

Zhang, Z.[Zhe], Wen, F.Q.[Fang-Qing], Shi, J.P.[Jun-Peng], He, J.[Jin], Truong, T.K.[Trieu-Kien],
2D-DOA Estimation for Coherent Signals via a Polarized Uniform Rectangular Array,
SPLetters(30), 2023, pp. 893-897.
IEEE DOI 2308
Sensor arrays, Estimation, Matrix decomposition, Transmission line matrix methods, Sensors, Smoothing methods, parallel factor analysis BibRef

Bando, Y.[Yoshiaki], Sekiguchi, K.[Kouhei], Masuyama, Y.[Yoshiki], Nugraha, A.A.[Aditya Arie], Fontaine, M.[Mathieu], Yoshii, K.[Kazuyoshi],
Neural Full-Rank Spatial Covariance Analysis for Blind Source Separation,
SPLetters(28), 2021, pp. 1670-1674.
IEEE DOI 2109
Training, Predictive models, Decoding, Reverberation, Neural networks, Computational modeling, Analytical models, variational autoencoders BibRef

Munakata, H.[Hokuto], Bando, Y.[Yoshiaki], Takeda, R.[Ryu], Komatani, K.[Kazunori], Onishi, M.[Masaki],
Joint Separation and Localization of Moving Sound Sources Based on Neural Full-Rank Spatial Covariance Analysis,
SPLetters(30), 2023, pp. 384-388.
IEEE DOI 2305
Location awareness, Blind source separation, Training, Predictive models, Neural networks, Standards, Geometry, source separation and localization BibRef

Zhu, G.[Ge], Darefsky, J.[Jordan], Jiang, F.[Fei], Selitskiy, A.[Anton], Duan, Z.Y.[Zhi-Yao],
Music Source Separation With Generative Flow,
SPLetters(29), 2022, pp. 2288-2292.
IEEE DOI 2212
Source separation, Training, Spectrogram, Generators, Task analysis, Optimization, Multiple signal classification, music source separation BibRef

Hu, D.[De], Chen, Z.[Zhe], Yin, F.[Fuliang],
Acoustic SLAM With Moving Sound Event Based on Auxiliary Microphone Arrays,
ITS(24), No. 11, November 2023, pp. 11823-11834.
IEEE DOI 2311
BibRef

Liu, D.[Debang], Zhang, T.Q.[Tian-Qi], Christensen, M.G.[Mads Græsbøll], Yi, C.[Chen], Wei, Y.[Ying],
Multi-layer encoder-decoder time-domain single channel speech separation,
PRL(181), 2024, pp. 86-91.
Elsevier DOI 2405
Time-domain speech separation, Attention mechanism, Multi-layer encoder-decoder, Training cost BibRef

Sun, D.J.[Da-Jun], Fu, X.Y.[Xiao-Ying], Teng, T.T.[Ting-Ting],
A Deep Learning Localization Method for Acoustic Source via Improved Input Features and Network Structure,
RS(16), No. 8, 2024, pp. 1391.
DOI Link 2405
BibRef

Hu, K.Y.[Ke-Yu], Chu, N.[Ning], Yu, L.[Liang], Jiang, H.[Hanbo], Mohammad-Djafari, A.[Ali],
A Separation-Based Localization Method Between Rotating and Static Sources,
SPLetters(31), 2024, pp. 1359-1363.
IEEE DOI 2405
Array signal processing, Location awareness, Microphone arrays, Vectors, Imaging, Background noise, Time-frequency analysis, Sound Source Localization BibRef

Juanola, X.[Xavier], Haro, G.[Gloria],
A Brief Analysis of SLAVC method for Sound Source Localization,
IPOL(14), 2024, pp. 159-172.
DOI Link 2406
BibRef

Akhter, S.[Suravi], Alam, M.M.[Muhammad Mahbub], Islam, M.S.[Md. Shariful], Momen, M.A.[M. Arshad], Islam, M.S.[Md. Shariful], Shoyaib, M.[Mohammad],
Low-cost orthogonal basis-core extraction for classification and reconstruction using tensor ring,
PR(154), 2024, pp. 110548.
Elsevier DOI 2406
Feature extraction, Classification, OTR, Reconstruction, Reshaping of matrices BibRef

Ge, Y.[Yuhai], Meng, W.X.[Wei-Xin], Li, X.D.[Xiao-Dong], Zheng, C.S.[Cheng-Shi],
Geometry Calibration for Deformable Linear Microphone Arrays With Bézier Curve Fitting,
SPLetters(31), 2024, pp. 1620-1624.
IEEE DOI 2406
Geometry, Calibration, Sensors, Microphone arrays, Sensor arrays, Shape, Noise, Geometry calibration, Bézier curves, microphone arrays BibRef

Lu, Y.L.[Yi-Long], Pan, C.[Chao], Chen, J.D.[Jing-Dong], Benesty, J.[Jacob],
A Closed-Form DOA Estimator Using Spherical Microphone Arrays in the Presence of Interference,
SPLetters(31), 2024, pp. 1770-1774.
IEEE DOI 2408
Direction-of-arrival estimation, Interference, Vectors, Harmonic analysis, Estimation, Covariance matrices, robustness BibRef

Zhu, B.[Bing], Zhang, W.[Wen], Chen, J.D.[Jing-Dong], Zhu, M.Y.[Meng-Yao], Li, C.J.[Chun-Jian],
Multi-Source DOA Estimation Using Higher-Order Pseudo Intensity Vector on a Spherical Microphone Array,
SPLetters(31), 2024, pp. 1935-1939.
IEEE DOI 2408
Direction-of-arrival estimation, Vectors, Estimation, Harmonic analysis, Microphone arrays, Indexes, Accuracy, spherical microphone array BibRef

Elminshawi, M.[Mohamed], Chetupalli, S.R.[Srikanth Raj], Habets, E.A.P.[Emanuël A. P.],
Dynamic Slimmable Network for Speech Separation,
SPLetters(31), 2024, pp. 2205-2209.
IEEE DOI 2409
Computational efficiency, Transformers, Computational complexity, Training, Kernel, Computational modeling, Vectors, Speech separation, transformer architecture BibRef

Zhang, W.J.[Wen-Jie], Yu, P.[Peng], Yin, J.[Jun], Jiang, X.H.[Xiao-Heng], Xu, M.L.[Ming-Liang],
Automated Audio Data Augmentation Network Using Bi-Level Optimization for Sound Event Localization and Detection,
SPLetters(31), 2024, pp. 2770-2774.
IEEE DOI 2410
Data augmentation, Optimization, Data models, Feature extraction, Location awareness, Training, Adaptation models, Visualization, bi-level optimization BibRef

Xie, J.L.[Jing-Li], Zhao, X.D.[Xu-Dong], Zhang, J.Q.[Jun-Qing], Benesty, J.[Jacob], Chen, J.D.[Jing-Dong],
On the Design of Robust Differential Beamformers From the Beampattern Error Perspective,
SPLetters(31), 2024, pp. 2685-2689.
IEEE DOI 2410
Array signal processing, Acoustics, Vectors, Robustness, Frequency measurement, Eigenvalues and eigenfunctions, quadratic eigenvalue problem (QEP) BibRef

Song, Z.J.[Zeng-Jie], Zhang, J.S.[Jiang-She], Wang, Y.X.[Yu-Xi], Fan, J.S.[Jun-Song], Zhang, Z.X.[Zhao-Xiang],
Enhancing Sound Source Localization via False Negative Elimination,
PAMI(46), No. 12, December 2024, pp. 10499-10514.
IEEE DOI 2411
Visualization, Contrastive learning, Location awareness, Task analysis, Feature extraction, Representation learning, sound source localization BibRef

Guo, J.Y.[Jin-Yuan], Wang, C.X.[Cai-Xia], Xu, J.[Jia], Jia, S.[Song], Yang, H.[Hui], Sun, Z.[Zhuling], Wang, X.B.[Xiao-Bao],
Study and Analysis of the Thunder Source Location Error Based on Acoustic Ray-Tracing,
RS(16), No. 21, 2024, pp. 4000.
DOI Link 2411
BibRef

Lu, X.[Xiu], Li, G.N.[Guan-Nan], Song, X.Q.[Xiao-Qing], Zhou, L.C.[Liang-Chen], Lv, G.N.[Guo-Nian],
Concept, Framework, and Data Model for Geographical Soundscapes,
IJGI(14), No. 1, 2025, pp. 36.
DOI Link 2501
More than just direction. BibRef

Qian, X.Y.[Xin-Yuan], Yue, X.[Xianghu], Wang, J.[Jiadong], Zhuang, H.P.[Hui-Ping], Li, H.Z.[Hai-Zhou],
Analytic Class Incremental Learning for Sound Source Localization With Privacy Protection,
SPLetters(32), 2025, pp. 726-730.
IEEE DOI 2502
Training, Data privacy, Location awareness, Direction-of-arrival estimation, Accuracy, Robots, Protection, human-robot interaction BibRef

Koldovský, Z.[Zbynek], Cmejla, J.[Jaroslav], O'Regan, S.[Stephen],
Blind Capon Beamformer Based on Independent Component Extraction: Single-Parameter Algorithm,
SPLetters(32), 2025, pp. 801-805.
IEEE DOI 2503
Vectors, Signal processing algorithms, Covariance matrices, Array signal processing, Direction-of-arrival estimation, speaker extraction BibRef

Strauss, M.[Martin], Mack, W.[Wolfgang], Valero, M.L.[María Luis], Köpüklü, O.[Okan],
Inference-Adaptive Steering of Neural Networks for Real-Time Area-Based Sound Source Separation,
SPLetters(32), 2025, pp. 1041-1045.
IEEE DOI 2503
Microphone arrays, Source separation, Noise, Training, Real-time systems, Indexes, Mathematical models, Background noise, source separation BibRef

Chen, W.G.[Wei-Guang], Zhang, J.J.[Jun-Jie], Yang, J.L.[Jie-Long], Chng, E.S.[Eng Siong], Zhong, X.H.[Xiong-Hu],
UniArray: Unified Spectral-Spatial Modeling for Array-Geometry-Agnostic Speech Separation,
SPLetters(32), 2025, pp. 2164-2168.
IEEE DOI 2506
Feature extraction, Particle separators, Time-frequency analysis, Microphone arrays, Geometry, Training, Estimation, virtual microphone BibRef

Rybicka, M.[Magdalena], Kowalczyk, K.[Konrad], Thebaud, T.[Thomas], Dehak, N.[Najim], Villalba, J.[Jesús],
Joint Diarization and Separation Using SepFormer With Non-Autoregressive Attractors,
SPLetters(32), 2025, pp. 2913-2917.
IEEE DOI 2509
Recording, Training, Estimation, Transformers, Computational modeling, Voice activity detection, speech separation BibRef

Zhang, S.[Shuang], Zhang, J.[Jie], Wang, Y.[Yichi], Yan, H.Y.[Hao-Yin],
DOA or Speaker Embedding: Which is Better for Multi-Microphone Target Speaker Extraction,
SPLetters(32), 2025, pp. 3350-3354.
IEEE DOI 2509
Feature extraction, Microphone arrays, Time-frequency analysis, Spatiotemporal phenomena, Signal to noise ratio, target speaker extraction BibRef

Chen, Y.J.[Yuan-Jian], Xiao, Y.[Yang], Yin, H.[Han], Guan, Y.D.[Ya-Dong], Liu, X.[Xubo],
Noise-Robust Sound Event Detection and Counting via Language-Queried Sound Separation,
SPLetters(32), 2025, pp. 3974-3978.
IEEE DOI 2511
Noise measurement, Training, Testing, Noise robustness, Predictive models, Event detection, Accuracy, Standards, noisy robust learning BibRef

Xiang, M.[MinJie], Liang, R.[Ruiyu], Ni, Y.[Ye], Zhao, L.[Li], Schuller, B.W.[Björn W.],
Lightweight Attentive ConvNeXt-TCN for Causal Target Sound Extraction,
SPLetters(32), 2025, pp. 4234-4238.
IEEE DOI 2511
Convolution, Time-frequency analysis, Kernel, Tensors, Time-domain analysis, Signal to noise ratio, Decoding, efficient BibRef

Huang, C.[Chao], Liang, S.[Susan], Tian, Y.P.[Ya-Peng], Kumar, A.[Anurag], Xu, C.L.[Chen-Liang],
High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling,
IJCV(134), No. 1, January 2026, pp. 104.
Springer DOI 2602
BibRef
Earlier:
High-quality Visually-guided Sound Separation from Diverse Categories,
ACCV24(VI: 104-122).
Springer DOI 2412
BibRef

Park, S.[Sooyoung], Senocak, A.[Arda], Chung, J.S.[Joon Son],
Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization,
IJCV(134), No. 4, April 2026, pp. 179.
Springer DOI 2603
BibRef

Berghi, D.[Davide], Jackson, P.J.B.[Philip J. B.],
Reverberation-Based Features for Sound Event Localization and Detection With Distance Estimation,
SPLetters(33), 2026, pp. 1841-1845.
IEEE DOI 2605
Feeds, Microwave integrated circuits, Filtering, Band-pass filters, Filter banks, Filters, Integrated circuits, Location awareness, reverberation BibRef

Yeow, J.W.[Jun-Wei], Tan, E.L.[Ee-Leng], Peksi, S.[Santi], Gan, W.S.[Woon-Seng],
WINTER: Wrapped Interval Normalization for Elevation Representation in Stereo 3-D Sound Event Localization and Detection,
SPLetters(33), 2026, pp. 1851-1855.
IEEE DOI 2605
Filtering, Filter banks, Filters, Band-pass filters, Location awareness, Radio access networks, sound distance estimation BibRef

Luo, L.J.[Long-Jie], Wu, J.[Junnan], Fan, L.C.[Li-Chun], Luo, Z.B.[Zhen-Bo], Luan, J.[Jian], Hong, Q.Y.[Qing-Yang], Li, L.[Lin],
ZoneSep: A Lightweight End-to-End Neural Beamformer With Post-Mask Decoder for In-Vehicle Multi-Zone Speech Separation,
SPLetters(33), 2026, pp. 2575-2579.
IEEE DOI 2607
Speech, Modeling, Silicon, Vehicles, Decoding, Timing, Array signal processing, Automobiles, Measurement, neural beamformer BibRef

Shi, Y.[Ying], Han, J.Q.[Ji-Qing],
Dual-Path Conditional Chain for CTC-Based Multi-Talker Speech Recognition,
SPLetters(33), 2026, pp. 2570-2574.
IEEE DOI 2607
Context, Modeling, Speech, Decoding, Recurrent neural networks, Training, Speech recognition, Automatic speech recognition, CTC BibRef

Liu, X.L.[Xiu-Long], Kumar, A.[Anurag], Calamia, P.[Paul], Amengual, S.V.[Sebastià V.], Murdock, C.[Calvin], Ananthabhotla, I.[Ishwarya], Robinson, P.[Philip], Shlizerman, E.[Eli], Ithapu, V.K.[Vamsi Krishna], Gao, R.H.[Ruo-Han],
Hearing Anywhere in Any Environment,
CVPR25(5732-5741)
IEEE DOI 2508
Geometry, Surface reconstruction, Computational modeling, Mixed reality, Predictive models, Feature extraction, Acoustics, Material properties BibRef

Min, A.[Anna], Chen, Z.Y.[Zi-Yang], Zhao, H.[Hang], Owens, A.[Andrew],
Supervising Sound Localization by In-the-wild Egomotion,
CVPR25(23936-23946)
IEEE DOI 2508
Location awareness, Geometry, Visualization, Predictive models, Cameras, Data models, Videos, sound localization, spatial audio, audio-visual spatial perception BibRef

He, Y.H.[Yu-Hang], Shin, S.[Sangyun], Cherian, A.[Anoop], Trigoni, N.[Niki], Markham, A.[Andrew],
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera,
WACV25(5408-5418)
IEEE DOI 2505
Location awareness, Semantics, Noise, Cameras, Microphone arrays, Robustness, Noise measurement, Machinery, Surface treatment, 3d sound source localization and classification BibRef

Shi, D.[Diya], Deng, Y.J.[Yuan-Jie], Wei, Y.[Ying],
Visually-guided Order-fixed Speech Separation Algorithm,
ICIVC24(445-449)
IEEE DOI 2503
Visualization, Computational modeling, Switches, Feature extraction, Data mining, Time-domain analysis, time domain BibRef

Mahmud, T.[Tanvir], Tian, Y.P.[Ya-Peng], Marculescu, D.[Diana],
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures,
CVPR24(26732-26741)
IEEE DOI Code:
WWW Link. 2410
Location awareness, Training, Visualization, Codes, Semantics, Benchmark testing, Audio-Visual Learning, CLIP BibRef

Kim, D.J.[Dong-Jin], Um, S.J.[Sung Jin], Lee, S.[Sangmin], Kim, J.U.[Jung Uk],
Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge,
CVPR24(26457-26466)
IEEE DOI Code:
WWW Link. 2410
Location awareness, Accuracy, Codes, Face recognition, Benchmark testing, Multiple signal classification, Audio-Visual Learning BibRef

Islam, M.A.[Md Amirul], Nabavi, S.S.[Seyed Shahabeddin], Kezele, I.[Irina], Wang, Y.[Yang], Yu, Y.H.[Yuan-Hao], Tang, J.[Jin],
Visually Guided Audio Source Separation with Meta Consistency Learning,
WACV24(3002-3011)
IEEE DOI 2404
Training, Adaptation models, Visualization, Source separation, Instruments, Music, Performance gain, Algorithms BibRef

Park, S.[Sooyoung], Senocak, A.[Arda], Chung, J.S.[Joon Son],
Can CLIP Help Sound Source Localization?,
WACV24(5699-5708)
IEEE DOI 2404
Location awareness, Image segmentation, Grounding, Computational modeling, Self-supervised learning, Vision + language and/or other modalities BibRef

Yun, H.[Heeseung], Na, J.[Joonil], Kim, G.[Gunhee],
Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal Distillation,
ICCV23(7829-7838)
IEEE DOI 2401
BibRef

Chen, Z.Y.[Zi-Yang], Qian, S.[Shengyi], Owens, A.[Andrew],
Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation,
ICCV23(7863-7874)
IEEE DOI Code:
WWW Link. 2401
BibRef

Senocak, A.[Arda], Ryu, H.[Hyeonggon], Kim, J.[Junsik], Oh, T.H.[Tae-Hyun], Pfister, H.[Hanspeter], Chung, J.S.[Joon Son],
Sound Source Localization is All about Cross-Modal Alignment,
ICCV23(7743-7753)
IEEE DOI 2401
BibRef

Ryan, F.[Fiona], Jiang, H.[Hao], Shukla, A.[Abhinav], Rehg, J.M.[James M.], Ithapu, V.K.[Vamsi Krishna],
Egocentric Auditory Attention Localization in Conversations,
CVPR23(14663-14674)
IEEE DOI 2309
BibRef

Mo, S.T.[Shen-Tong], Tian, Y.P.[Ya-Peng],
Audio-Visual Grouping Network for Sound Localization from Mixtures,
CVPR23(10565-10574)
IEEE DOI 2309
BibRef

Buchanan, C.[Caleb], Bi, Y.[Ying], Xue, B.[Bing], Vennell, R.[Ross], Childerhouse, S.[Simon], Pine, M.K.[Matthew K.], Briscoe, D.[Dana], Zhang, M.J.[Meng-Jie],
Deep Convolutional Neural Networks for Detecting Dolphin Echolocation Clicks,
IVCNZ21(1-6)
IEEE DOI 2201
BibRef

Hu, X.[Xixi], Chen, Z.Y.[Zi-Yang], Owens, A.[Andrew],
Mix and Localize: Localizing Sound Sources in Mixtures,
CVPR22(10473-10482)
IEEE DOI 2210
Measurement, Visualization, Computational modeling, Instruments, Music, Vision + X BibRef

Chen, Z.Y.[Zi-Yang], Fouhey, D.F.[David F.], Owens, A.[Andrew],
Sound Localization by Self-supervised Time Delay Estimation,
ECCV22(XXVI:489-508).
Springer DOI 2211
BibRef

Zhou, X.C.[Xin-Chi], Zhou, D.Z.[Dong-Zhan], Hu, D.[Di], Zhou, H.[Hang], Ouyang, W.L.[Wan-Li],
Exploiting Visual Context Semantics for Sound Source Localization,
WACV23(5188-5197)
IEEE DOI 2302
Location awareness, Training, Visualization, Semantics, Feature extraction, Cognition, Algorithms: Vision + language and/or other modalities BibRef

Zhou, X.C.[Xin-Chi], Zhou, D.Z.[Dong-Zhan], Ouyang, W.L.[Wan-Li], Zhou, H.[Hang], Hu, D.[Di],
SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance,
WACV23(5157-5166)
IEEE DOI 2302
Training, Deep learning, Visualization, Costs, Instruments, System performance, Algorithms: Vision + language and/or other modalities BibRef

Chatterjee, M.[Moitreya], Le Roux, J.[Jonathan], Ahuja, N.[Narendra], Cherian, A.[Anoop],
Visual Scene Graphs for Audio Source Separation,
ICCV21(1184-1193)
IEEE DOI 2203
Training, Visualization, Source separation, Pipelines, Music, Training data, Multiple signal classification, Scene analysis and understanding BibRef

Senocak, A.[Arda], Ryu, H.G.[Hyeong-Gon], Kim, J.[Junsik], Kweon, I.S.[In So],
Less Can Be More: Sound Source Localization With a Classification Model,
WACV22(577-586)
IEEE DOI 2202
Location awareness, Training, Analytical models, Annotations, Task analysis, Visual Reasoning, Analysis and Understanding Audio-Visual learning BibRef

Shi, J.Y.[Jia-Yin], Ma, C.[Chao],
Unsupervised Sounding Object Localization with Bottom-Up and Top-Down Attention,
WACV22(2161-2170)
IEEE DOI 2202
Location awareness, Visualization, Correlation, Codes, Annotations, Manuals, Multimedia Applications BibRef

Zhu, L.Y.[Ling-Yu], Rahtu, E.[Esa],
V-SlowFast Network for Efficient Visual Sound Separation,
WACV22(2182-2192)
IEEE DOI 2202
Visualization, Computational modeling, Spectrogram, Deep Learning Vision and Sound BibRef

Cokelek, M.[Mert], Imamoglu, N.[Nevrez], Ozcinar, C.[Cagri], Erdem, E.[Erkut], Erdem, A.[Aykut],
Leveraging Frequency Based Salient Spatial Sound Localization to Improve 360° Video Saliency Prediction,
MVA21(1-5)
DOI Link 2109
Location awareness, Visualization, Social networking (online), Computational modeling, Predictive models, Streaming media, Observers BibRef

Tanaka, T.[Tomohiro], Shinozaki, T.[Takahiro],
Unsupervised Sound Source Localization From Audio-Image Pairs Using Input Gradient Map,
ICPR21(6501-6508)
IEEE DOI 2105
Location awareness, Backpropagation, Gradient methods, Image color analysis, Neural networks, input gradient BibRef

Zhu, L.Y.[Ling-Yu], Rahtu, E.[Esa],
Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations,
WACV22(2171-2181)
IEEE DOI 2202
BibRef
Earlier:
Visually Guided Sound Source Separation Using Cascaded Opponent Filter Network,
ACCV20(VI:409-426).
Springer DOI 2103
Location awareness, Source separation, Instruments, Video sequences, Detectors, Deep Learning vision + audio BibRef

Oya, T.[Takashi], Iwase, S.[Shohei], Natsume, R.[Ryota], Itazuri, T.[Takahiro], Yamaguchi, S.[Shugo], Morishima, S.[Shigeo],
Do We Need Sound for Sound Source Localization?,
ACCV20(VI:119-136).
Springer DOI 2103
BibRef

Chen, W.[Wei], Hu, R.M.[Rui-Min], Wang, X.C.[Xiao-Chen], Li, D.S.[Deng-Shi],
HRTF Representation with Convolutional Auto-encoder,
MMMod20(I:605-616).
Springer DOI 2003
Head-related transfer function. Sound direction. BibRef

Guan, D.Z.[Duan-Zheng], Li, D.S.[Deng-Shi], Cai, X.B.[Xue-Bei], Wang, X.C.[Xiao-Chen], Hu, R.M.[Rui-Min],
Perceptual Localization of Virtual Sound Source Based on Loudspeaker Triplet,
MMMod20(II:189-200).
Springer DOI 2003
BibRef

Qian, R.[Rui], Hu, D.[Di], Dinkel, H.[Heinrich], Wu, M.Y.[Meng-Yue], Xu, N.[Ning], Lin, W.Y.[Wei-Yao],
Multiple Sound Sources Localization from Coarse to Fine,
ECCV20(XX:292-308).
Springer DOI 2011
BibRef

Xu, X., Dai, B., Lin, D.,
Recursive Visual Sound Separation Using Minus-Plus Net,
ICCV19(882-891)
IEEE DOI 2004
acoustic signal processing, audio signal processing, neural nets, source separation, recursive visual sound separation, BibRef

Colangelo, F., Battisti, F., Carli, M., Neri, A., Calabró, F.,
Enhancing audio surveillance with hierarchical recurrent neural networks,
AVSS17(1-6)
IEEE DOI 1806
audio signal processing, recurrent neural nets, signal classification, signal detection, video surveillance, Training BibRef

Saggese, A., Strisciuglio, N., Vento, M., Petkov, N.,
A real-time system for audio source localization with cheap sensor device,
AVSS17(1-7)
IEEE DOI 1806
Gaussian processes, audio signal processing, biomimetics, feature extraction, microphones, Surveillance BibRef

Moon, S.K.[Sung-Kyu], Shon, S.[Suwon], Kim, W.[Wooil], Han, D.K.[David K.],
Generalized cross-correlation based noise robust abnormal acoustic event localization utilizing non-negative matrix factorization,
AVSS14(171-174)
IEEE DOI 1411
Acoustics BibRef

Stachurski, J.[Jacek], Netsch, L.[Lorin], Cole, R.[Randy],
Sound source localization for video surveillance camera,
AVSS13(93-98)
IEEE DOI 1311
Adaptive filters BibRef

Zhang, Z.L.[Zhi-Long], Li, W.H.[Wei-Hong], Gong, W.G.[Wei-Guo], Zhong, J.H.[Jian-Hua],
An improved EEMD model for feature extraction and classification of gunshot in public places,
ICPR12(1517-1520).
WWW Link. 1302
BibRef

Lecomte, S., Lengelle, R., Richard, C., Capman, F., Ravera, B.,
Abnormal events detection using unsupervised One-Class SVM: Application to audio surveillance and evaluation,
AVSBS11(124-129).
IEEE DOI 1111
BibRef

Salvati, D., Roda, A., Canazza, S., Foresti, G.L.,
Multiple acoustic sources localization using incident Signal Power comparison,
AVSBS11(77-82).
IEEE DOI 1111
BibRef

Han, Y.[Yi], Wu, C.N.[Chu-Na],
A new moving sound source localization method based on the time difference of arrival,
IASP10(118-122).
IEEE DOI 1004
BibRef

Martens, W.L.[William L.], Sakamoto, S.[Shuichi], Suzuki, Y.[Yoiti],
Multimodal interaction of auditory spatial cues and passive observer movement in simulated self motion,
3DTV09(1-4).
IEEE DOI 0905
BibRef

Kwak, K.C.[Keun-Chang],
Sound Localization Based on Excitation Source Information for Intelligent Home Service Robots,
ICISP08(536-543).
Springer DOI 0807
BibRef

Munguía, R.[Rodrigo], Grau, A.[Antoni],
Single Sound Source SLAM,
CIARP08(70-77).
Springer DOI 0809
BibRef

Keyrouz, F.[Fakheredine], Diepold, K.[Klaus], Keyrouz, S.[Shady],
High performance 3D sound localization for surveillance applications,
AVSBS07(563-566).
IEEE DOI 0709
BibRef

Valenzise, G., Gerosa, L., Tagliasacchi, M., Antonacci, F., Sarti, A.,
Scream and gunshot detection and localization for audio-surveillance systems,
AVSBS07(21-26).
IEEE DOI 0709
BibRef

Antonacci, F., Riva, D., Sarti, A., Tagliasacchi, M., Tubaro, S.,
Tracking of two acoustic sources in reverberant environments using a particle swarm optimizer,
AVSBS07(567-572).
IEEE DOI 0709
BibRef

Korhonen, T.[Teemu], Pertilä, P.[Pasi],
TUT Acoustic Source Tracking System 2007,
MTPH07(xx-yy).
Springer DOI 0705
BibRef

Marzàbal, A.[Albert], Grau, A.[Antoni], Bolea, Y.[Yolanda],
Model-Based Localization Method by Non-speech Sound Via Wavelet Transform and Dynamic Neural Network,
CIARP06(363-370).
Springer DOI 0611
BibRef

Chapter on New Unsorted Entries, and Other Miscellaneous Papers continues in
Combined Audio Visual Speaker Tracking, Localization .

Last update:Jul 11, 2026 at 11:55:55