26.1.13.3 Speech Analysis, other than Recognition

de-la-Calle-Silos, F., Stern, R.M.,
Synchrony-Based Feature Extraction for Robust Automatic Speech Recognition,
SPLetters(24), No. 8, August 2017, pp. 1158-1162.
IEEE DOI 1708
feature extraction, speech recognition, auditory-nerve activity, feature extraction schemes, generalized synchrony detector, robust automatic speech recognition, BibRef

Zhang, Q., Chen, Z., Yin, F.,
Speaker Tracking Based on Distributed Particle Filter in Distributed Microphone Networks,
SMCS(47), No. 9, September 2017, pp. 2433-2443.
IEEE DOI 1708
Bayes methods, Cybernetics, Estimation, Kalman filters, Microphones, Particle filters, Reverberation, Average consensus filter, distributed microphone networks, distributed particle filter (DPF), multiple-hypothesis model, speaker tracking. BibRef

Ávila, F.R., Tcheou, M.P., Biscainho, L.W.P.,
Audio Soft Declipping Based on Constrained Weighted Least Squares,
SPLetters(24), No. 9, September 2017, pp. 1348-1352.
IEEE DOI 1708
Cost function, Discrete cosine transforms, Frequency-domain analysis, Nonlinear distortion, Predistortion, Speech, Audio declipping, nonlinear signal processing, sparsity, weighted least squares (WLS) BibRef

Huang, Z.[Zhen], Siniscalchi, S.M.[Sabato Marco], Lee, C.H.[Chin-Hui],
Hierarchical Bayesian combination of plug-in maximum a posteriori decoders in deep neural networks-based speech recognition and speaker adaptation,
PRL(98), No. 1, 2017, pp. 1-7.
Elsevier DOI 1710
System, combination BibRef

Nishimura, R.[Ryouichi], Enomoto, S.[Seigo], Kato, H.[Hiroaki],
Speech Privacy for Sound Surveillance Using Super-Resolution Based on Maximum Likelihood and Bayesian Linear Regression,
IEICE(E101-D), No. 1, January 2018, pp. 53-63.
WWW Link. 1801
BibRef

Chee, K.Y.[Kong-Yik], Jin, Z.[Zhe], Cai, D.[Danwei], Li, M.[Ming], Yap, W.S.[Wun-She], Lai, Y.L.[Yen-Lung], Goi, B.M.[Bok-Min],
Cancellable speech template via random binary orthogonal matrices projection hashing,
PR(76), No. 1, 2018, pp. 273-287.
Elsevier DOI 1801
Cancellable biometrics BibRef

Bernardini, A., Antonacci, F., Sarti, A.,
Wave Digital Implementation of Robust First-Order Differential Microphone Arrays,
SPLetters(25), No. 2, February 2018, pp. 253-257.
IEEE DOI 1802
acoustic signal processing, array signal processing, delays, microphone arrays, multiplying circuits, time-domain analysis, wave digital filters (WDFs) BibRef

Liu, Q., Wang, W., de Campos, T.E., Jackson, P.J.B., Hilton, A.,
Multiple Speaker Tracking in Spatial Audio via PHD Filtering and Depth-Audio Fusion,
MultMed(20), No. 7, July 2018, pp. 1767-1780.
IEEE DOI 1806
Azimuth, Clutter, Metadata, Microphones, Target tracking, Trajectory, Multi-person tracking, spatial audio BibRef

Lu, R., Duan, Z., Zhang, C.,
Listen and Look: Audio-Visual Matching Assisted Speech Source Separation,
SPLetters(25), No. 9, September 2018, pp. 1315-1319.
IEEE DOI 1809
image matching, source separation, speech processing, speaker-independent speech source separation BibRef

Wu, K.B.[Ke-Bin], Zhang, D.[David], Lu, G.M.[Guang-Ming], Guo, Z.H.[Zhen-Hua],
Joint learning for voice based disease detection,
PR(87), 2019, pp. 130-139.
Elsevier DOI 1812
Joint learning, Ridge regression, Low-rank regression, ?-dragging technique, Voice based pathology detection BibRef

Kumar, R.K.[R. Kishore], Birla, L.[Lokendra], Rao, K.S.[K. Sreenivasa],
A robust unsupervised pattern discovery and clustering of speech signals,
PRL(116), 2018, pp. 254-261.
Elsevier DOI 1812
Speech processing, Unsupervised pattern discovery, Clustering of speech utterances BibRef

Gong, C.[Chen], Yi, X.W.[Xiao-Wei], Zhao, X.F.[Xian-Feng],
Pitch Delay Based Adaptive Steganography for AMR Speech Stream,
IWDW18(275-289).
Springer DOI 1905
BibRef

Skovranek, T., Despotovic, V., Peric, Z.,
Optimal Fractional Linear Prediction With Restricted Memory,
SPLetters(26), No. 5, May 2019, pp. 760-764.
IEEE DOI 1905
approximation theory, frequency-domain analysis, least squares approximations, optimisation, prediction theory, speech processing BibRef

Zhang, J., Koutrouvelis, A.I., Heusdens, R., Hendriks, R.C.,
Distributed Rate-Constrained LCMV Beamforming,
SPLetters(26), No. 5, May 2019, pp. 675-679.
IEEE DOI 1905
acoustic communication (telecommunication), array signal processing, correlation methods, acoustic sensor networks BibRef

Keerthana, Y.M., Reddy, M.K., Rao, K.S.,
CWT-Based Approach for Epoch Extraction From Telephone Quality Speech,
SPLetters(26), No. 8, August 2019, pp. 1107-1111.
IEEE DOI 1908
speech processing, telephone sets, wavelet transforms, vocal tract system, clean speech signals, Hilbert transform BibRef

Gurugubelli, K., Vuppala, A.K.,
Stable Implementation of Zero Frequency Filtering of Speech Signals for Efficient Epoch Extraction,
SPLetters(26), No. 9, September 2019, pp. 1310-1314.
IEEE DOI 1909
feature extraction, filtering theory, resonator filters, speech processing, identification accuracy, false alarm rate, zero phase BibRef

Deb, S., Dandapat, S.,
Emotion Classification Using Segmentation of Vowel-Like and Non-Vowel-Like Regions,
AffCom(10), No. 3, July 2019, pp. 360-373.
IEEE DOI 1909
Speech, Feature extraction, Switches, Speech recognition, Mel frequency cepstral coefficient, Speech processing, binary-cascade multi-class classification BibRef

Kotropoulos, C.L.[Constantine L.],
Source phone identification using sketches of features,
IET-Bio(3), No. 2, June 2014, pp. 75-83.
DOI Link 1407
Speech based. BibRef

Rajan, V., Brutti, A., Cavallaro, A.,
ConflictNET: End-to-End Learning for Speech-Based Conflict Intensity Estimation,
SPLetters(26), No. 11, November 2019, pp. 1668-1672.
IEEE DOI 1911
Estimation, Feature extraction, Convolution, Metadata, Support vector machines, convolutional-recurrent network BibRef

Lotfian, R., Busso, C.,
Building Naturalistic Emotionally Balanced Speech Corpus by Retrieving Emotional Speech from Existing Podcast Recordings,
AffCom(10), No. 4, October 2019, pp. 471-483.
IEEE DOI 1912
Information retrieval, Speech recognition, Digital audio broadcasting, Speech processing, emotion ranking BibRef

Lee, Y., Min, J., Han, D.K., Ko, H.,
Spectro-Temporal Attention-Based Voice Activity Detection,
SPLetters(27), 2020, pp. 131-135.
IEEE DOI 2001
Deep neural networks, attention mechanism, voice activity detection, speech activity detection, speech detection BibRef

Lim, H., Kim, Y., Goo, J., Kim, H.,
Interlayer Selective Attention Network for Robust Personalized Wake-Up Word Detection,
SPLetters(27), 2020, pp. 126-130.
IEEE DOI 2001
Interlayer selective attention network (ISAN), acoustic word embedding BibRef

Yang, H., Yang, Z., Bao, Y., Liu, S., Huang, Y.,
Fast Steganalysis Method for VoIP Streams,
SPLetters(27), 2020, pp. 286-290.
IEEE DOI 2003
Speech steganography, speech steganalysis, code-word correlation BibRef

Zhang, L.W.[Li-Wen], Shi, Z.Q.[Zi-Qiang], Han, J.Q.[Ji-Qing], Shi, A.[Anyan], Ma, D.[Ding],
Furcanext: End-to-end Monaural Speech Separation with Dynamic Gated Dilated Temporal Convolutional Networks,
MMMod20(I:653-665).
Springer DOI 2003
BibRef

Lin, X., Zhu, J., Chen, D.,
Subband Aware CNN for Cell-Phone Recognition,
SPLetters(27), 2020, pp. 605-609.
IEEE DOI 2005
Microphones, Training, Spectrogram, Audio recording, Task analysis, Fingerprint recognition, Noise measurement, attention mechanism BibRef

Tagliasacchi, M., Gfeller, B., Quitry, F.d.C., Roblek, D.,
Pre-Training Audio Representations With Self-Supervision,
SPLetters(27), 2020, pp. 600-604.
IEEE DOI 2005
Task analysis, Decoding, Training, Spectrogram, Predictive models, Time-frequency analysis, audio processing BibRef

Yatabe, K.,
Consistent ICA: Determined BSS Meets Spectrogram Consistency,
SPLetters(27), 2020, pp. 870-874.
IEEE DOI 2006
Spectrogram, Time-frequency analysis, Time-domain analysis, Matrix converters, Blind source separation, Smoothing methods, short-time Fourier transform BibRef

Muralishankar, R., Ghosh, D., Gurugopinath, S.,
A Novel Modified Mel-DCT Filter Bank Structure With Application to Voice Activity Detection,
SPLetters(27), 2020, pp. 1240-1244.
IEEE DOI 2007
Frequency domain long-term differential entropy, Mel-DCT, Mel-frequency, modified Mel-DCT, voice activity detection BibRef

Jiang, F., Duan, Z.,
Speaker Attractor Network: Generalizing Speech Separation to Unseen Numbers of Sources,
SPLetters(27), 2020, pp. 1859-1863.
IEEE DOI 2011
Training, Decoding, Convolution, Spectrogram, Estimation, Speech processing, Testing, Speech separation, speaker attractor BibRef

Kim, J., Lee, Y., Kim, E.,
Accelerating RNN Transducer Inference via Adaptive Expansion Search,
SPLetters(27), 2020, pp. 2019-2023.
IEEE DOI 2012
Decoding, Speech recognition, Acoustic beams, Acceleration, Acoustics, Speech processing, Indexes, Beam search, RNN transducer BibRef

Janbakhshi, P., Kodrasi, I., Bourlard, H.,
Subspace-Based Learning for Automatic Dysarthric Speech Detection,
SPLetters(28), 2021, pp. 96-100.
IEEE DOI 2101
Voice activity detection, Feature extraction, Manifolds, Databases, Acoustics, Pathology, Kernel, Spectral subspace, temporal subspace, SVD BibRef

Gimeno, P.[Pablo], Mingote, V.[Victoria], Ortega, A.[Alfonso], Miguel, A.[Antonio], Lleida, E.[Eduardo],
Generalizing AUC Optimization to Multiclass Classification for Audio Segmentation With Limited Training Data,
SPLetters(28), 2021, pp. 1135-1139.
IEEE DOI 2106
Measurement, Training, Task analysis, Optimization, Training data, Multiple signal classification, Deep learning, multiclass AUC optimisation BibRef

Queiroz, A., Coelho, R.,
F0-Based Gammatone Filtering for Intelligibility Gain of Acoustic Noisy Signals,
SPLetters(28), 2021, pp. 1225-1229.
IEEE DOI 2106
Noise measurement, Harmonic analysis, Estimation, Speech processing, Power harmonic filters, Signal to noise ratio, intelligibility improvement BibRef

Vrbík, D.[Daniel], Lábus, V.[Václav],
Crowdsourcing of Popular Toponyms: How to Collect and Preserve Toponyms in Spoken Use,
IJGI(10), No. 5, 2021, pp. xx-yy.
DOI Link 2106
BibRef

Ikeshita, R.[Rintaro], Kinoshita, K.[Keisuke], Kamo, N.[Naoyuki], Nakatani, T.[Tomohiro],
Online Speech Dereverberation Using Mixture of Multichannel Linear Prediction Models,
SPLetters(28), 2021, pp. 1580-1584.
IEEE DOI 2108
Switches, Time-frequency analysis, Reverberation, Signal processing algorithms, Optimization, Additive noise, sparsity BibRef

Jiang, Y.C.[Yue-Chi], Leung, F.H.F.[Frank H. F.],
Vector-Based Feature Representations for Speech Signals: From Supervector to Latent Vector,
MultMed(23), 2021, pp. 2641-2655.
IEEE DOI 2109
Acoustics, Probabilistic logic, Computational modeling, Adaptation models, Computational efficiency, Task analysis, vector-based feature representation BibRef

Esmaeilpour, M.[Mohammad], Cardinal, P.[Patrick], Koerich, A.L.[Alessandro Lameiras],
Cyclic Defense GAN Against Speech Adversarial Attacks,
SPLetters(28), 2021, pp. 1769-1773.
IEEE DOI 2109
Spectrogram, Discrete wavelet transforms, Generative adversarial networks, Generators, adversarial defense BibRef

Kodrasi, I.[Ina],
Temporal Envelope and Fine Structure Cues for Dysarthric Speech Detection Using CNNs,
SPLetters(28), 2021, pp. 1853-1857.
IEEE DOI 2109
Voice activity detection, Indexes, Convolutional neural networks, Phonetics, Databases, Band-pass filters, convolutional neural network BibRef

Ikeshita, R., Kamo, N., Nakatani, T.,
Blind Signal Dereverberation Based on Mixture of Weighted Prediction Error Models,
SPLetters(28), 2021, pp. 399-403.
IEEE DOI 2103
Reverberation, Finite impulse response filters, Switches, Time-frequency analysis, Speech recognition, Estimation, microphone array BibRef

Liu, Z.T.[Zhen-Tao], Rehman, A.[Abdul], Wu, M.[Min], Cao, W.H.[Wei-Hua], Hao, M.[Man],
Speech Personality Recognition Based on Annotation Classification Using Log-Likelihood Distance and Extraction of Essential Audio Features,
MultMed(23), 2021, pp. 3414-3426.
IEEE DOI 2109
Feature extraction, Speech recognition, Reliability, Training, Emotion recognition, Human computer interaction, Task analysis, annotation clustering BibRef

Kim, H.Y.[Hyung Yong], Yoon, J.W.[Ji Won], Cho, W.I.[Won Ik], Kim, N.S.[Nam Soo],
Neurally Optimized Decoder for Low Bitrate Speech Codec,
SPLetters(29), 2022, pp. 244-248.
IEEE DOI 2202
Decoding, Speech coding, Speech codecs, Bit rate, Encoding, Convolution, Knowledge engineering, Speech codecs, attention mechanism BibRef

Cohen, E.[Eyal], Kreuk, F.[Felix], Keshet, J.[Joseph],
Speech Time-Scale Modification With GANs,
SPLetters(29), 2022, pp. 1067-1071.
IEEE DOI 2205
Spectrogram, Generators, Signal processing algorithms, Decoding, Training, Vocoders, Time-domain analysis, Deep neural networks, time-scale modification BibRef

Choi, J.[Jeonghwan], Chang, J.H.[Joon-Hyuk],
Supervised Learning Approach for Explicit Spatial Filtering of Speech,
SPLetters(29), 2022, pp. 1412-1416.
IEEE DOI 2207
Microphones, Reflection, Gain, Convolution, Filtering, Direction-of-arrival estimation, Training data, sound source localization BibRef

Fu, M.J.[Mei-Jun], Wang, X.M.[Xiao-Min], Wang, J.[Jun],
Polynomial-Decomposition-Based LPC for Formant Estimation,
SPLetters(29), 2022, pp. 1392-1396.
IEEE DOI 2207
LPC: linear prediction coding. Corporate acquisitions, Estimation, Signal processing algorithms, Prediction algorithms, Statistical analysis, division algorithm for polynomial BibRef

Kim, M.S.[Min Sik], Kim, H.S.[Hyung Soon],
Attentive Pooling-Based Weighted Sum of Spectral Decay Rates for Blind Estimation of Reverberation Time,
SPLetters(29), 2022, pp. 1639-1643.
IEEE DOI 2208
Reverberation, Estimation, Feature extraction, Speech processing, Training data, Training, Signal to noise ratio, reverberation time BibRef

Reddy, M.K.[Mittapalle Kiran], Keerthana, Y.M.[Yagnavajjula Madhu], Alku, P.[Paavo],
End-to-End Pathological Speech Detection Using Wavelet Scattering Network,
SPLetters(29), 2022, pp. 1863-1867.
IEEE DOI 2209
Wireless sensor networks, Scattering, Pathology, Feature extraction, Task analysis, Convolutional neural networks, MP3 compression BibRef

Karamatli, E.[Ertug], Kirbiz, S.[Serap],
MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training,
SPLetters(29), 2022, pp. 2637-2641.
IEEE DOI 2301
Training, Recording, Source separation, Time-domain analysis, Task analysis, Optimized production technology, unsupervised learning BibRef

McKinney, A.F.[Alex F.], Cauchi, B.[Benjamin],
Non-Intrusive Binaural Speech Intelligibility Prediction From Discrete Latent Representations,
SPLetters(29), 2022, pp. 987-991.
IEEE DOI 2205
Feature extraction, Training, Indexes, Speech processing, Speech coding, Speech recognition, Predictive models, self-supervised representation learning BibRef

de Lacerda-Pataca, C.[Caluã], Costa, P.D.P.[Paula Dornhofer Paro],
Hidden Bawls, Whispers, and Yelps: Can Text Convey the Sound of Speech, Beyond Words?,
AffCom(14), No. 1, January 2023, pp. 6-16.
IEEE DOI 2303
Visualization, Acoustics, Speech recognition, Linguistics, Auditory system, Automobiles, Modulation, Affective computing, speech analysis BibRef

Chen, G.[Gang], Li, X.G.[Xiang-Ge], Xiao, S.Y.[Shuai-Yong], Zhang, C.H.[Cheng-Hong], Lu, X.H.[Xiang-Hua],
RACL: A robust adaptive contrastive learning method for conversational satisfaction prediction,
PR(138), 2023, pp. 109386.
Elsevier DOI 2303
BibRef

Cheng, J.M.[Jia-Ming], Liang, R.[Ruiyu], Zhao, L.[Li], Huang, C.W.[Cheng-Wei], Schuller, B.W.[Björn W.],
Speech Denoising and Compensation for Hearing Aids Using an FTCRN-Based Metric GAN,
SPLetters(30), 2023, pp. 374-378.
IEEE DOI 2305
Auditory system, Measurement, Generators, Noise reduction, Noise measurement, Training, Hearing aids, Hearing aid, metric generative adversarial network BibRef

Shu, Y.C.[Yu-Chun], Luo, H.N.[Hao-Neng], Zhang, S.L.[Shi-Liang], Wang, L.B.[Long-Biao], Dang, J.W.[Jian-Wu],
A CIF-Based Speech Segmentation Method for Streaming E2E ASR,
SPLetters(30), 2023, pp. 344-348.
IEEE DOI 2305
Acoustics, Decoding, Training, Semantics, Earth Observing System, Real-time systems, Convolution, Continuous integrate-and-fire, two-pass ASR BibRef

Zhou, Y.[Yi], Wu, Z.Z.[Zhi-Zheng], Zhang, M.Y.[Ming-Yang], Tian, X.H.[Xiao-Hai], Li, H.Z.[Hai-Zhou],
TTS-Guided Training for Accent Conversion Without Parallel Data,
SPLetters(30), 2023, pp. 533-537.
IEEE DOI 2305
Acoustics, Training, Decoding, Feature extraction, Data models, Phonetics, Error analysis, Accent conversion (AC), text-to-speech (TTS) BibRef

Koepke, A.S.[A. Sophia], Oncescu, A.M.[Andreea-Maria], Henriques, J.F.[João F.], Akata, Z.[Zeynep], Albanie, S.[Samuel],
Audio Retrieval With Natural Language Queries: A Benchmark Study,
MultMed(25), 2023, pp. 2675-2685.
IEEE DOI 2307
Task analysis, Benchmark testing, Natural languages, Visualization, Metadata, Grounding, Visual databases, Audio retrieval, datasets BibRef

Park, D.[Dongkeon], Yu, Y.[Yechan], Katabi, D.[Dina], Kim, H.K.[Hong Kook],
Adversarial Continual Learning to Transfer Self-Supervised Speech Representations for Voice Pathology Detection,
SPLetters(30), 2023, pp. 932-936.
IEEE DOI 2308
Task analysis, Pathology, Adaptation models, Feature extraction, Context modeling, Data models, Support vector machines, WAV2VEC 2.0 BibRef

Kim, H.[Hyeonseung], Shin, J.W.[Jong Won],
On Training Speech Separation Models With Various Numbers of Speakers,
SPLetters(30), 2023, pp. 1202-1206.
IEEE DOI 2310
BibRef

Joglekar, A.[Aditya], Hansen, J.H.L.[John H. L],
DeepComboSAD: Spectro-Temporal Correlation Based Speech Activity Detection for Naturalistic Audio Streams,
SPLetters(30), 2023, pp. 1472-1476.
IEEE DOI 2311
BibRef

Cai, Y.Q.[Yun-Qi], Li, L.[Lantian], Abel, A.[Andrew], Zhu, X.Y.[Xiao-Yan], Wang, D.[Dong],
Maximum Gaussianality training for deep speaker vector normalization,
PR(145), 2024, pp. 109977.
Elsevier DOI 2311
Speaker embedding, Normalization flow, Gaussianality training BibRef

Raman, C.[Chirag], Prabhu, N.R.[Navin Raj], Hung, H.[Hayley],
Perceived Conversation Quality in Spontaneous Interactions,
AffCom(14), No. 4, October 2023, pp. 2901-2912.
IEEE DOI 2312
BibRef

Atito, S.[Sara], Awais, M.[Muhammed], Alex, T.[Tony], Kittler, J.V.[Josef V.],
Group Masked Model Learning for General Audio Representation,
ICIP23(2600-2604)
IEEE DOI 1806
BibRef

Lee, H.[Harlin], Saeed, A.[Aaqib],
Distilled non-semantic speech embeddings with binary neural networks for low-resource devices,
PRL(177), 2024, pp. 15-19.
Elsevier DOI 2401
Speech representations, Knowledge distillation, Paralinguistic tasks, Binary neural networks, Digital health, Internet-of-things BibRef

Ye, L.X.[Ling-Xuan], Gao, C.F.[Chang-Feng], Cheng, G.F.[Gao-Feng], Luo, L.P.[Liu-Ping], Zhao, Q.W.[Qing-Wei],
ASQ: An Ultra-Low Bit Rate ASR-Oriented Speech Quantization Method,
SPLetters(31), 2024, pp. 221-225.
IEEE DOI 2401
BibRef

Li, C.T.[Chang-Tao], Yang, F.[Feiran], Yang, J.[Jun],
Restoration of Bone-Conducted Speech With U-Net-Like Model and Energy Distance Loss,
SPLetters(31), 2024, pp. 166-170.
IEEE DOI 2401
BibRef

Rababaah, A.R.[Aaron Rasheed],
Intelligent classification model for holy Quran recitation Maqams,
IJCVR(14), No. 2, 2024, pp. 170-190.
DOI Link 2403
BibRef

Muraleedharan, K.M., Kumar, K.T.B.[K. T. Bibish], John, S.I.[Sun-Il], Kumar, R.K. .S.I.[R.K. Sun-Il],
Combined Use of Nonlinear Measures for Analyzing Pathological Voices,
IJIG(24), No. 3, May 2024, pp. 2450035.
DOI Link 2406
BibRef

Wang, Z.Q.[Zhong-Qiu],
Mixture to Mixture: Leveraging Close-Talk Mixtures as Weak-Supervision for Speech Separation,
SPLetters(31), 2024, pp. 1715-1719.
IEEE DOI 2407
Microphones, Machine-to-machine communications, Training, Signal processing algorithms, Microwave integrated circuits, Weakly-supervised neural speech separation BibRef

Zhang, C.[Cheng], Jiang, S.[Shujuan],
Detection of QIM-Based Steganography in VoIP Streams: A MobileViT-Inspired Model,
SPLetters(31), 2024, pp. 1735-1739.
IEEE DOI 2407
Correlation, Convolutional codes, Feature extraction, Steganography, Transformers, Convolution, Filters, multimedia forensics BibRef

Wang, Z.C.[Zhi-Chao], Chen, Y.Z.[Yuan-Zhe], Wang, X.S.[Xin-Sheng], Xie, L.[Lei], Wang, Y.P.[Yu-Ping],
StreamVoice+: Evolving Into End-to-End Streaming Zero-Shot Voice Conversion,
SPLetters(31), 2024, pp. 3000-3004.
IEEE DOI 2411
Semantics, Codecs, Connectors, Acoustics, Training, Feature extraction, Speech coding, Timbre, Data mining, Adaptation models, parameter-efficient fine-tuning BibRef

Guo, N.[Ning], Edler, B.[Bernd],
Frequency Domain Prediction of Tonal Signals With Time-Varying Pitches,
SPLetters(32), 2025, pp. 31-35.
IEEE DOI 2501
Harmonic analysis, Transforms, Time-frequency analysis, Prediction algorithms, Audio coding, Speech coding, FDJHP BibRef

López-Espejo, I.[Iván], Roselló, E.[Eros], Edraki, A.[Amin], Harte, N.[Naomi], Jensen, J.[Jesper],
Noise-Robust Hearing Aid Voice Control,
SPLetters(32), 2025, pp. 241-245.
IEEE DOI 2501
Microphones, Noise, Noise measurement, Training, IEC, Loudspeakers, Signal to noise ratio, Mouth, Auditory system, Transfer functions, bone-conducted speech (BCS) BibRef

Xie, H.[Huang], Khorrami, K.[Khazar], Räsänen, O.[Okko], Virtanen, T.[Tuomas],
Text-Based Audio Retrieval by Learning From Similarities Between Audio Captions,
SPLetters(32), 2025, pp. 221-225.
IEEE DOI 2501
Training, Computational modeling, Contrastive learning, Probability distribution, Predictive models, Logistics, textual similarity BibRef

Yuan, C.S.[Cheng-Sheng], Chen, Y.F.[Yi-Fei], Zhou, Z.[Zhili], Xia, Z.H.[Zhi-Hua], Huang, Y.F.[Yong-Feng],
Compressed Domain Invariant Adversarial Representation Learning for Robust Audio Deepfake Detection,
SPLetters(32), 2025, pp. 1111-1115.
IEEE DOI 2503
Charge coupled devices, Feature extraction, Codecs, Deepfakes, Adaptation models, Training, Forgery, Robustness, domain adversarial learning BibRef

Unoki, M.[Masashi], Li, K.[Kai], Chaiwongyen, A.[Anuwat], Nguyen, Q.H.[Quoc-Huy], Zaman, K.[Khalid],
Deepfake Speech Detection: Approaches from Acoustic Features to Deep Neural Networks,
IEICE(E108-D), No. 4, April 2025, pp. 300-310.
WWW Link. 2504
BibRef

Shin, U.H.[Ui-Hyeop], Ku, B.H.[Bon Hyeok], Park, H.M.[Hyung-Min],
TF-CorrNet: Leveraging Spatial Correlation for Continuous Speech Separation,
SPLetters(32), 2025, pp. 1875-1879.
IEEE DOI 2505
Transformers, Time-frequency analysis, Correlation, Estimation, Information filters, Convolution, Array signal processing, Transformer BibRef

Ta, B.T.[Bao Thang], Le, N.M.[Nhat Minh], Binh, H.T.T.[Huynh Thi Thanh], Do, V.H.[Van Hai],
Exploring Non-Matching Multiple References for Speech Quality Assessment,
SPLetters(32), 2025, pp. 1610-1614.
IEEE DOI 2505
Training, Quality assessment, Predictive models, Mathematical models, Computational modeling, Speech processing, speech quality assessment BibRef

Jin, L.B.[Long-Bin], Min, D.[Donghun], Yu, C.[CheolHee], Shin, J.E.[Jung Eun], Kim, E.Y.[Eun Yi],
Detecting Hearing Impairment Through Localizing Abnormal Speech Patterns,
SPLetters(32), 2025, pp. 1945-1949.
IEEE DOI 2505
Auditory system, Prototypes, Feature extraction, Training, Speech recognition, Frequency measurement, Location awareness, word recognition test BibRef

Liu, D.[Debang], Zhang, T.Q.[Tian-Qi], Wei, Y.[Ying], Yi, C.[Chen], Christensen, M.G.[Mads Græsbøll],
Speech Conv-Mamba: Selective Structured State Space Model With Temporal Dilated Convolution for Efficient Speech Separation,
SPLetters(32), 2025, pp. 2015-2019.
IEEE DOI 2505
Convolution, Decoding, Computational modeling, Training, Feature extraction, Convolutional neural networks, dilated convolution BibRef

Liu, F.[Fei], Ai, Y.[Yang], Ling, Z.H.[Zhen-Hua],
Token-Prediction-Based Post-Processing for Low-Bitrate Speech Coding,
SPLetters(32), 2025, pp. 3235-3239.
IEEE DOI 2509
Speech coding, Training, Speech codecs, Bit rate, Feature extraction, Decoding, Probability distribution, Additive noise, neural network BibRef

Zhang, Z.X.[Zi-Xing], Xu, W.X.[Wei-Xiang], Dong, Z.[Zhongren], Wang, K.L.[Kang-Lin], Wu, Y.M.[Yi-Meng], Peng, J.[Jing], Wang, R.[Runming], Huang, D.Y.[Dong-Yan],
ParaLBench: A Large-Scale Benchmark for Computational Paralinguistics Over Acoustic Foundation Models,
AffCom(16), No. 3, July 2025, pp. 1290-1306.
IEEE DOI 2509
Acoustics, Benchmark testing, Analytical models, Feature extraction, Computational modeling, Linguistics, non-verbal information extraction BibRef

Yang, Y.[Yi], Zhou, C.[Caigen],
DPARNet-RSE: Toward Angular Region-Customizable Speech Extraction,
SPLetters(32), 2025, pp. 3779-3783.
IEEE DOI 2510
Training, Feature extraction, Convergence, Computational modeling, Data models, Data mining, Computer architecture, Adaptation models, boundary-conditioned attention BibRef

Zhao, Z.Y.[Zhen-Ye], Peng, Y.[Yong], Camilleri, K.[Kenneth], Kong, W.Z.[Wan-Zeng], Cichocki, A.[Andrzej],
Imagined Speech Decoding by Learning Consensus Graph From RKHS-Based Multi-View EEG Features,
SPLetters(32), 2025, pp. 3944-3948.
IEEE DOI 2511
Electroencephalography, Brain modeling, Feature extraction, Decoding, Data models, Linear programming, Kernel, speech imagery BibRef

Tan, Z.W.[Zhi-Wei], Reju, V.G., Tewari, R.C.[Ritesh Chandra], Ding, R.T.[Ruo-Tong], Khong, A.W.H.[Andy W. H.],
Joint Enhancement and Bandwidth Extension for Radar Through-Barrier Speech Acquisition,
SPLetters(33), 2026, pp. 176-180.
IEEE DOI 2601
Bandwidth, Deconvolution, Vibrations, Speech enhancement, Convolution, Laser radar, Time-frequency analysis, Doppler radar, bandwidth extension BibRef

Fu, R.[Rong], Tang, L.[Lili], Tian, H.[Hui], Chang, C.C.[Chin-Chen],
Fuzzy-Clustering-Based Domain Adaptation for Speech Steganalysis in Dynamic Scenarios,
SPLetters(33), 2026, pp. 366-370.
IEEE DOI 2601
Feature extraction, Optimization, Accuracy, Vectors, Steganography, Estimation, Training, Decoding, Artificial intelligence, steganography BibRef

Wang, T.[Tao], Yi, J.Y.[Jiang-Yan], Fu, R.[Ruibo], Qiang, C.Y.[Chun-Yu], Chong, D.[Dading], Wang, C.[Chao], Dai, D.Y.[Dong-Yang], Wen, Z.Q.[Zheng-Qi], Tao, J.H.[Jian-Hua],
SpeechPalette: A Comprehensive Speech Editing Method for Text-Based Speech Editing, One-Shot TTS and Attributes Editing,
PAMI(48), No. 3, March 2026, pp. 2596-2609.
IEEE DOI 2602
Speech processing, Decoding, Acoustics, Computational modeling, Semantics, Automation, Transformers, Training, Speech coding, speed editing BibRef

Hu, H.Q.[Hao-Qi], Liao, Y.[Yuan], Cai, S.Q.[Si-Qi], Li, H.Z.[Hai-Zhou],
The effect of speech representations on EEG-based auditory attention detection,
PRL(203), 2026, pp. 146-151.
Elsevier DOI Code:
WWW Link. 2604
EEG, Speech representation, Auditory attention, Cocktail party problem BibRef

Kim, D.[Doyeon], Jung, S.K.[Sung Kyo],
Bin-Wise Zone-Based Speech Presence Detection With Metric-Aligned DCF Optimization,
SPLetters(33), 2026, pp. 1471-1475.
IEEE DOI 2604
Noise, Training, Measurement, Interference, Reverberation, Voice activity detection, Standards, Costs, Cost function, metric-oriented optimization BibRef

Zhang, W.J.[Wen-Jie], Qian, Y.K.[Yu-Kun], Cao, Y.[Yinghan], He, C.J.[Chang-Jun], Xu, S.[Shiyun], Wang, M.J.[Ming-Jiang],
CARVE: Content-Adaptive Rate-Variable Encoding for Neural Speech Codecs,
SPLetters(33), 2026, pp. 2036-2040.
IEEE DOI 2606
Feeds, Digital audio broadcasting, Broadcasting, Speech codecs, Codecs, Media Access Control, Communication equipment, information density BibRef

Shah, A.J.[Arth J.], Pandey, A.[Aniket], Patil, H.A.[Hemant A.],
WINning Against Audio Deepfakes,
SPLetters(33), 2026, pp. 2240-2244.
IEEE DOI 2606
Modeling, Fans, Speech, Deepfakes, Signal detection, Frequency, Timing, Transformers, Wavelets, FAN, transformers, ADD BibRef

Wani, T.M.[Taiba Majid], Amerini, I.[Irene],
Deepfakes Audio Detection Leveraging Audio Spectrogram and Convolutional Neural Networks,
CIAP23(II:156-167).
Springer DOI 2312
BibRef

Choi, S.[Sunmook], Oh, S.[Seungsang], Yang, J.[Jonghoon], Lee, Y.[Yerin], Kwak, I.Y.[Il-Youp],
Light-weight Frequency Information Aware Neural Network Architecture for Voice Spoofing Detection,
ICPR22(477-483)
IEEE DOI 2212
Loudspeakers, Convolution, Error analysis, Virtual assistants, Neural networks, Feature extraction, Complexity theory BibRef

Li, X.[Xiao], Hu, X.[Xiao], Chen, X.[Xiao], Pan, H.[Hang], Niu, K.[Kun],
Deep Speaker Embedding Using Hybrid Network of Multi-Feature Aggregation and Multi-Loss Fusion for TI-SV,
ICPR22(506-512)
IEEE DOI 2212
Training, Adaptive systems, Fuses, Frequency-domain analysis, Aggregates, Feature extraction BibRef

Zhang, B.[Bowen], Sim, T.[Terence],
Localizing Fake Segments in Speech,
ICPR22(3224-3230)
IEEE DOI 2212
Location awareness, Cloning, Speech recognition, Detectors, Telephony, Benchmark testing, Feature extraction BibRef

Teng, Z.W.[Zhong-Wei], Fu, Q.[Quchen], White, J.[Jules], Powell, M.E.[Maria E.], Schmidt, D.C.[Douglas C.],
ARawNet: A Lightweight Solution for Leveraging Raw Waveforms in Spoof Speech Detection,
ICPR22(692-698)
IEEE DOI 2212
Voice activity detection, Representation learning, Backpropagation, Computational modeling, Speech recognition, spoof speech detection BibRef

Stefanov, K.[Kalin], Adiban, M.[Mohammad], Salvi, G.[Giampiero],
Spatial Bias in Vision-Based Voice Activity Detection,
ICPR21(10433-10440)
IEEE DOI 2105
Voice activity detection, Performance evaluation, Visualization, Analytical models, Magnetic heads, Spatial databases, Data models, spatial bias BibRef

Barros, F.[Fábio], Conde, Â.[Ângelo], Soares, S.C.[Sandra C.], Neves, A.J.R.[António J. R.], Silva, S.[Samuel],
Understanding Public Speakers' Performance: First Contributions to Support a Computational Approach,
ICIAR20(I:343-355).
Springer DOI 2007
BibRef

Bílková, Z.[Zuzana], Novozámský, A.[Adam], Domínec, A.[Adam], Greško, Š.[Šimon], Zitová, B.[Barbara], Paroubková, M.[Markéta],
Automatic Evaluation of Speech Therapy Exercises Based on Image Data,
ICIAR19(I:397-404).
Springer DOI 1909
BibRef

Dai, J.J.[Jia-Jie], Dixon, S.[Simon],
Understanding Intonation Trajectories and Patterns of Vocal Notes,
MMMod19(II:243-253).
Springer DOI 1901
BibRef

Zheng, S., Wang, J., Xiao, J., Hsu, W., Glass, J.,
A Noise-Robust Self-Adaptive Multitarget Speaker Detection System,
ICPR18(1068-1072)
IEEE DOI 1812
Blacklisting, Feature extraction, Noise measurement, Detectors, Acoustics, Data models BibRef

Athanasopoulos, G., Hagihara, K., Cierro, A., Guérit, R., Chatelain, J., Lucas, C., Macq, B.,
3D immersive karaoke for the learning of foreign language pronunciation,
IC3D17(1-8)
IEEE DOI 1804
computer based training, data visualisation, linguistics, natural language processing, virtual reality, pronunciation training BibRef

Serras, M.[Manex], Torres, M.I.[María Inés], del Pozo, A.[Arantza],
Online Learning of Attributed Bi-Automata for Dialogue Management in Spoken Dialogue Systems,
IbPRIA17(22-31).
Springer DOI 1706
BibRef

Nagpal, A.[Ankit], Patil, H.A.[Hemant A.],
Novel Gammatone Filterbank Based Spectro-Temporal Features for Robust Phoneme Recognition,
PReMI17(342-350).
Springer DOI 1711
BibRef

Grachev, A.M.[Artem M.], Ignatov, D.I.[Dmitry I.], Savchenko, A.V.[Andrey V.],
Neural Networks Compression for Language Modeling,
PReMI17(351-357).
Springer DOI 1711
BibRef

Zhang, L., Chen, J.X.[Jia-Xu], Luo, Y.[You], Fu, J.F.[Jia-Fei], Ye, Z.F.[Zhong-Fu],
Supervised single-channel speech dereverberation and denoising using a two-stage processing,
ICIVC17(818-822)
IEEE DOI 1708
Adaptive filters, Noise measurement, Speech, non-negative matrix factorization, room impulse response, speech dereverberation and denoising, two-stage, processing BibRef

Bedoui, A., Ben Jebara, S.,
On the use of opening phase slopes of the glottal signal to characterize unilateral vocal folds paralysis,
ISIVC16(41-46)
IEEE DOI 1704
Estimation BibRef

Ben Ali, F., Djaziri-Larbi, S.,
A very low bit rate codec for wide band speech based on a long-term perceptual harmonic plus noise model,
ISIVC16(71-76)
IEEE DOI 1704
Bit rate BibRef

Ferreira, A.,
Implantation of voicing on whispered speech using frequency-domain parametric modelling of source and filter information,
ISIVC16(159-166)
IEEE DOI 1704
Estimation BibRef

Pozzebon, A.[Alessandro], Biliotti, F.[Francesca], Calamai, S.[Silvia],
Places Speaking with Their Own Voices. A Case Study from the Gra.fo Archives,
EuroMed16(II: 232-239).
Springer DOI 1611
BibRef

Vlaj, D., Kos, M., Kacic, Z.,
Quick and efficient definition of hangbefore and hangover criteria for voice activity detection,
WSSIP16(1-4)
IEEE DOI 1608
speech processing BibRef

Ballesteros L, D.M.[Dora M.], Renza, D.[Diego], Camacho, S.[Steven],
High Scrambling Degree in Audio Through Imitation of an Unintelligible Signal,
MCPR16(251-259).
Springer DOI 1608
BibRef

Onchis, D.M.[Darian M.], Real, P.[Pedro],
On Homotopy Continuation for Speech Restoration,
CTIC16(152-156).
Springer DOI 1608
BibRef

Dubey, M.L., Shultz, P.F., Kenyon, G.T.,
Learning phase-rich features from streaming auditory images,
Southwest16(73-76)
IEEE DOI 1605
Convolution BibRef

Montalvo, A.[Ana], Costa, Y.M.G.[Yandre M. G.], Calvo, J.R.[José Ramón],
Language Identification Using Spectrogram Texture,
CIARP15(543-550).
Springer DOI 1511
BibRef

Aizezi, Y.[Yasen], Jamal, A.[Anwar], Mamat, D.[Dilxat], Abdurexit, R.[Ruxianguli], Ubul, K.[Kurban],
Analytical Method and Research of Uyghur Language Chunks Based on Digital Forensics,
ISCA15(258-266).
Springer DOI 1511
BibRef

Hammami, N., Bedda, M., Farah, N., Mansouri, S.,
R-Letter disorder diagnosis (R-LDD): Arabic speech database development for automatic diagnosis of childhood speech disorders (Case study),
ISCV15(1-7)
IEEE DOI 1506
acoustic signal processing BibRef

Nakajima, J.[Jiro], Kimura, A.[Akisato], Sugimoto, A.[Akihiro], Kashino, K.[Kunio],
Visual Attention Driven by Auditory Cues,
MMMod15(II: 74-86).
Springer DOI 1501
BibRef

Ishikura, K.[Kazumasa], Uemura, A.[Aiko], Katto, J.[Jiro],
Live Version Identification with Audio Scene Detection,
MMMod15(I: 408-417).
Springer DOI 1501
BibRef

Xie, S.B.[Song-Bo], Yang, Y.H.[Yu-Hong], Hu, R.M.[Rui-Min], Wang, Y.Y.[Yan-Ye], Yu, H.J.[Hong-Jiang], Dong, S.L.[Shao-Long], Gao, L.[Li], Yang, C.[Cheng],
Signal-Aware Parametric Quality Model for Audio and Speech over IP Networks,
MMMod15(I: 487-497).
Springer DOI 1501
BibRef

Xue, L.[Like], Su, F.[Feng],
Auditory Scene Classification with Deep Belief Network,
MMMod15(I: 348-359).
Springer DOI 1501
BibRef

Tu, M.[Ming], Xie, X.[Xiang], Na, X.Y.[Xing-Yu],
Computational Auditory Scene Analysis Based Voice Activity Detection,
ICPR14(797-802)
IEEE DOI 1412
Feature extraction BibRef

Lu, T.[Tong], Weng, Y.B.[Yang-Bing], Wang, G.Y.[Gong-You],
Audiotory Movie Summarization by Detecting Scene Changes and Sound Events,
ICPR14(756-760)
IEEE DOI 1412
Awards activities BibRef

Nguyen-Son, H.Q.[Hoang-Quoc], Hoang, A.T.[Anh-Tu], Tran, M.T.[Minh-Triet], Yoshiura, H.[Hiroshi], Sonehara, N.[Noboru], Echizen, I.[Isao],
Anonymizing Temporal Phrases in Natural Language Text to be Posted on Social Networking Services,
IWDW13(437-451).
Springer DOI 1407
BibRef

Maka, T.[Tomasz], Dziurzanski, P.[Piotr],
Feature contours fusion for determining segment boundaries in audio data,
WSSIP14(111-114) 1406
Educational institutions BibRef

Souza, D.[Danilo], Saturnino, L.[Levi], Maciel, A.M.A.[Alexandre M.A.],
A portability evaluation of Brazilian Portuguese voices produced with MARY TTS,
WSSIP14(95-98) 1406
BibRef

Frid, A.[Alex], Lavner, Y.Z.[Yi-Zhar],
Spectral and textural features for automatic classification of fricatives using SVM,
WSSIP14(99-102) 1406
Auditory system BibRef

Savchenko, A.V.[Andrey V.],
Semi-automated Speaker Adaptation: How to Control the Quality of Adaptation?,
ICISP14(638-646).
Springer DOI 1406
BibRef

Merazka, F.[Fatiha],
Wideband Speech Encryption Based Arnold Cat Map for AMR-WB G.722.2 Codec,
ICISP14(658-664).
Springer DOI 1406
BibRef

Souli, S.[Sameh], Lachiri, Z.[Zied], Kuznietsov, A.[Alexander],
Using Three Reassigned Spectrogram Patches and Log-Gabor Filter for Audio Surveillance Application,
CIARP13(I:527-534).
Springer DOI 1311
BibRef

Joseph, S.M.[Shijo M.], Babu, A.P.[Anto P.],
Continuous speech coding using coiflets wavelet,
ICSIPR13(253-257).
IEEE DOI 1304
BibRef

Nivedita, D.[Deshpande], Kavita, T.[Thakur], Zadgaonkar, A.S.,
First degree heart block determination from speech analysis,
ICSIPR13(103-106).
IEEE DOI 1304
BibRef

Sadjadi, S.O., Hansen, J.H.L.,
Unsupervised Speech Activity Detection Using Voicing Measures and Perceptual Spectral Flux,
SPLetters(20), No. 3, March 2013, pp. 197-200.
IEEE DOI 1303
BibRef

Zhang, L.[Long], Li, H.F.[Hai-Feng], Ma, L.[Lin],
An adaptive unsupervised clustering of pronunciation errors for automatic pronunciation error detection,
ICPR12(1521-1525).
WWW Link. 1302
BibRef

Rosales-Pérez, A.[Alejandro], Reyes-García, C.A.[Carlos A.], Gonzalez, J.A.[Jesus A.], Arch-Tirado, E.[Emilio],
Infant Cry Classification Using Genetic Selection of a Fuzzy Model,
CIARP12(212-219).
Springer DOI 1209
BibRef

González, D.C.[Diana Cristina], Ling, L.L.[Lee Luan], Violaro, F.[Fábio],
Analysis of the Multifractal Nature of Speech Signals,
CIARP12(740-748).
Springer DOI 1209
BibRef

Tanveer, S.[Saad], Muhammad, A.[Aslam], Martinez-Enriquez, A.M., Escalada-Imaz, G.,
Phonetic Unification of Multiple Accents for Spanish and Arabic Languages,
MCPR12(323-333).
Springer DOI 1208
BibRef

Falek, L.[Leila], Teffahi, H.[Hocine], Djeradi, A.[Amar],
Methodology for Acoustic Characterization of a Labial Constraint in Speech Production,
ICISP12(131-141).
Springer DOI 1208
BibRef

Krum, D.M.[David M.], Suma, E.A.[Evan A.], Bolas, M.[Mark],
Spatial misregistration of virtual human audio: Implications of the precedence effect,
3DUI12(147-148).
IEEE DOI 1204
BibRef

Yang, Y.J.[Ying-Jie], Zhang, H.H.[Huan-Huan], Guo, X.[Xiue],
A pitch tracking method mixing ACF and AMDF algorithms based on correlations,
IASP11(553-556).
IEEE DOI 1112
autocorrelation functions; average magnitude difference functions. Speech BibRef

Guo, S.[Shuni], Gao, L.[Lu], Yu, H.Z.[Hong-Zhi],
Research on Lhasa Tibetan prosodic model of journalese based on respiratory signal,
IASP11(26-30).
IEEE DOI 1112
BibRef

Resmi, K., Kumar, S.[Satish], Sardana, H.K., Chhabra, R.[Radhika],
Graphical Speech Training system for hearing impaired,
ICIIP11(1-6).
IEEE DOI 1112
BibRef

Gómez, J.A.[Jon Ander], Calvo, M.[Marcos],
Improvements on Automatic Speech Segmentation at the Phonetic Level,
CIARP11(557-564).
Springer DOI 1111
BibRef

Le, P.N.[Phu Ngoc], Epps, J.[Julien], Choi, E.H.C.[Eric H.C.], Ambikairajah, E.[Eliathamby],
A Study of Voice Source and Vocal Tract Filter Based Features in Cognitive Load Classification,
ICPR10(4516-4519).
IEEE DOI 1008
BibRef

Stark, M.[Michael], Wohlmayr, M.[Michael], Pernkopf, F.[Franz],
Single Channel Speech Separation Using Source-Filter Representation,
ICPR10(826-829).
IEEE DOI 1008
BibRef

Stadelmann, T.[Thilo], Wang, Y.H.[Ying-Hui], Smith, M.[Matthew], Ewerth, R.[Ralph], Freisleben, B.[Bernd],
Rethinking Algorithm Design and Development in Speech Processing,
ICPR10(4476-4479).
IEEE DOI 1008
BibRef

Gonzalez-Caravaca, G.[Guillermo], Toledano, D.T.[Doroteo Torre], Puertas, M.[Maria],
Phone-Conditioned Suboptimal Wiener Filtering,
ICPR10(4480-4483).
IEEE DOI 1008
BibRef

Sepehr, H.[Hamid], Nooralahiyan, A.Y.[Amir Y.], Brennan, P.V.[Paul V.],
Improving Performance of a Noise Reduction Algorithm by Switching the Analysis Filter Bank,
ICISP10(262-271).
Springer DOI 1006
for speech BibRef

Kos, M., Grasic, M., Vlaj, D., Kacic, Z.,
On-Line Speech/Music Segmentation for Broadcast News Domain,
WSSIP09(1-4).
IEEE DOI 0906
BibRef

Grasic, M., Kos, M., Vlaj, D., Kacic, Z.,
The Influence of Speech/Non-Speech Segmentation on On-Line and Off-Line Speaker Segmentation Accuracy,
WSSIP09(1-4).
IEEE DOI 0906
BibRef

Zuta, V.[Vivien],
Voice Pleasantness of Female Voices and the Assessment of Physical Characteristics,
COST08(116-125).
Springer DOI 0810
BibRef

Stadelmann, T., Heinzl, S., Unterberger, M., Freisleben, B.,
WebVoice: A Toolkit for Perceptual Insights into Speech Processing,
CISP09(1-5).
IEEE DOI 0910
BibRef

Tang, Y.B.[Yi-Bin], Huang, R.[Rong], Wu, Z.Y.[Zhen-Yang],
A 2.4kbps Multiband Characteristic Waveform Interpolation Speech Coding Algorithm,
CISP09(1-4).
IEEE DOI 0910
BibRef

Zou, X.[Xia], Zhang, X.W.[Xiong-Wei],
A 450bps Speech Coding Algorithm Based on Multi-Mode Matrix Quantization,
CISP09(1-3).
IEEE DOI 0910
BibRef

Li, X.K.[Xiao-Kun], Deng, Y.[Yunbin],
Combining speech energy and edge information for fast and efficient voice activity detection in noisy environments,
ICPR08(1-4).
IEEE DOI 0812
BibRef

Kukharchik, P., Kheidorov, I., Bovbel, E., Ladeev, D.,
Speech Signal Processing Based on Wavelets and SVM for Vocal Tract Pathology Detection,
ICISP08(192-199).
Springer DOI 0807
BibRef

Nagesha, Kumar, G.H.[G. Hemantha],
Signal Resampling Technique Combining Level Crossing and Auditory Features,
PReMI07(447-454).
Springer DOI 0712
BibRef

Várallyay, G.[György],
SSM: A Novel Method to Recognize the Fundamental Frequency in Voice Signals,
CIARP07(88-95).
Springer DOI 0711
BibRef

Ferrer, C.A.[Carlos A.], González, E.[Eduardo], Hernández-Díaz, M.E.[María E.],
Evaluation of Time and Frequency Domain-Based Methods for the Estimation of Harmonics-to-Noise-Ratios in Voice Signals,
CIARP06(406-415).
Springer DOI 0611
BibRef

Xue, W.[Wei], Du, S.[Sidan], Fang, C.Z.[Cheng-Zhi], Ye, Y.X.[Ying-Xian],
Voice Activity Detection Using Wavelet-Based Multiresolution Spectrum and Support Vector Machines and Audio Mixing Algorithm,
CVHCI06(78-88).
Springer DOI 0605
BibRef

García-Perera, L.P.[L. Paola], Nolazco-Flores, J.A.[Juan A.], Mex-Perera, C.[Carlos],
Cryptographic-Speech-Key Generation Architecture Improvements,
IbPRIA05(II:579).
Springer DOI 0509
BibRef

Welk, M.[Martin], Bergmeister, A.[Achim], Weickert, J.[Joachim],
Denoising of Audio Data by Nonlinear Diffusion,
ScaleSpace05(598-609).
Springer DOI 0505
BibRef

Cristani, M., Bicego, M., Murino, V.,
On-line adaptive background modelling for audio surveillance,
ICPR04(II: 399-402).
IEEE DOI 0409
BibRef

Lefevre, S., Maillard, B., Vincent, N.,
A two level classifier process for audio segmentation,
ICPR02(III: 891-894).
IEEE DOI 0211
BibRef

de Stefano, C., Della Cioppa, A., Marcelli, A.,
An investigation on MPEG audio segmentation by evolutionary algorithms,
ICDAR01(952-956).
IEEE DOI 0109
BibRef

Edmonds, E.A., Pan, L.Y., O'Brien, S.M.,
Automatic feature extraction from spectrograms for acoustic-phonetic analysis,
ICPR92(II:701-704).
IEEE DOI 9208
BibRef

Chapter on New Unsorted Entries, and Other Miscellaneous Papers continues in
Speech Enhancement .

Last update:Jul 11, 2026 at 11:55:55