26.1.13 Speech Recognition, Speech Analysis, Signal Processing

Chapter Contents (Back)
These are mostly included since they are in the full ToC for journals that are taken completely. There is no attempt to have anywhere near complete speech recognition coverage. Speech.
See also Hidden Markov Models for Speech Recognition, HMM.
See also Speech Recognition, Neural Networks, CNN.
See also Emotion Recognition, from Other Than Faces.

Dragon Voice,
2005 Speech Recognition
WWW Link. Vendor, Speech Recognition. Developed from the original Dragon speech system.

Hanson, A.R., Riseman, E.M., Fisher, E.,
Context in word recognition,
PR(8), No. 1, January 1976, pp. 35-45.
Elsevier DOI 0309
BibRef

Maroy, J.P., Berthod, M.,
Natural language understanding by a robot: A pattern recognition problem,
PR(10), No. 2, 1978, pp. 63-71.
Elsevier DOI 0309
BibRef

Lee, L.S., Tseng, C.Y., Chen, K.J., Huang, J., Hwang, C.H., Ting, P.Y., Lin, L.J., Chen, C.C.,
A Mandarin dictation machine based upon a hierarchical recognition approach and Chinese natural language analysis,
PAMI(12), No. 7, July 1990, pp. 695-704.
IEEE DOI 0401
BibRef

Casacuberta, F.,
Some relations among stochastic finite state networks used in automatic speech recognition,
PAMI(12), No. 7, July 1990, pp. 691-695.
IEEE DOI 0401
BibRef

Yannakoudakis, E.J., Tsomokos, I., Hutton, P.J.,
n-Grams and their implication to natural language understanding,
PR(23), No. 5, 1990, pp. 509-528.
Elsevier DOI 0401
BibRef

Ney, H.[Hermann],
A comparative study of two search strategies for connected word recognition: dynamic programming and heuristic search,
PAMI(14), No. 5, May 1992, pp. 586-595.
IEEE DOI 0401
BibRef

Ney, H.[Hermann],
Stochastic Modelling: From Pattern Classification to Speech Recognition and Translation,
ICPR00(Vol III: 21-28).
IEEE DOI 0009
BibRef

Liu, L.C.[Lih-Cherng], Chiou, D.[Denis], Wang, H.C.[Hsiao-Chuan],
A speech recognition method based on feature distributions,
PR(24), No. 8, 1991, pp. 717-722.
Elsevier DOI 0401
BibRef

Pinkowski, B.[Ben],
Multiscale fourier descriptors for classifying semivowels in spectrograms,
PR(26), No. 10, October 1993, pp. 1593-1602.
Elsevier DOI 0401
BibRef

Pinkowski, B.[Ben],
Principal Component Analysis of Speech Spectrogram Images,
PR(30), No. 5, May 1997, pp. 777-787.
Elsevier DOI 9705
BibRef

Mast, M., Kummert, F., Ehrlich, U., Fink, G.A., Kuhn, T., Niemann, H., Sagerer, G.F.,
A speech understanding and dialog system with a homogeneous linguistic knowledge base,
PAMI(16), No. 2, February 1994, pp. 179-194.
IEEE DOI 0401
BibRef

Pham, T.D.[Tuan D.], Wagner, M.[Michael],
A geostatistical model for linear prediction analysis of speech,
PR(31), No. 12, December 1998, pp. 1981-1991.
Elsevier DOI 0401
BibRef

Han, J.Q.[Ji-Qing], Gao, W.[Wen],
Robust telephone speech recognition based on channel compensation,
PR(32), No. 6, June 1999, pp. 1061-1067.
Elsevier DOI 0401
BibRef

Deng, S.[Shiwen], Han, J.Q.[Ji-Qing],
Sparse Decomposition for Signal Periodic Model Over Complex Exponential Dictionary,
SPLetters(23), No. 12, December 2016, pp. 1858-1861.
IEEE DOI 1612
signal representation BibRef
And:
Voice Activity Detection Based on Complex Exponential Atomic Decomposition and Likelihood Ratio Test,
ICPR10(89-92).
IEEE DOI 1008
BibRef

Lewis, M.A.[Michael A.], Ramachandran, R.P.[Ravi P.],
Cochannel speaker count labelling based on the use of cepstral and pitch prediction derived features,
PR(34), No. 2, February 2001, pp. 499-507.
Elsevier DOI 0011
BibRef

Kant, S.[Shri], Verma, N.[Neelam],
An Effective Source Recognition Algorithm: Extraction of Significant Binary Words,
PRL(21), No. 11, October 2000, pp. 981-988. 0010
BibRef

Wu, C.H., Chen, Y.J., Yan, G.L.,
Integration of phonetic and prosodic information for robust utterance verification,
VISP(147), No. 1, February 2000, pp. 55. 0005
BibRef

Kim, W.[Wooil], Kang, S.[Sunmee], Ko, H.S.[Han-Seok],
Spectral subtraction based on phonetic dependency and masking effects,
VISP(147), No. 5, October 2000, pp. 423-427. 0101
BibRef

Hussain, A., Campbell, D.R.,
Intelligibility improvements using binaural diverse sub-band processing applied to speech corrupted with automobile noise,
VISP(148), No. 2, April 2001, pp. 127-132. 0106
BibRef

Bohez, E.L.J.[Erik L.J.], Senevirathne, T.R.,
Speech recognition using fractals,
PR(34), No. 11, November 2001, pp. 2227-2243.
Elsevier DOI 0108
BibRef

Chen, S.H., Wang, J.F.,
Application of wavelet transforms for C/V segmentation on Mandarin speech signals,
VISP(148), No. 2, April 2001, pp. 133-139. 0106
BibRef

Mouria-Beji, F.[Fériel],
A hierarchical Bayesian model for continuous speech recognition,
PRL(23), No. 7, May 2002, pp. 773-781.
Elsevier DOI 0203
BibRef

Chen, F.K., Yang, J.F., Yan, Y.L.,
Candidate scheme for fast ACELP search,
VISP(149), No. 1, February 2002, pp. 10-16.
IEEE Top Reference. 0205
Algebraic code excited linear prediction. Speech coding. BibRef

Liu, J.W.[Jing-Wei], Cheng, Q.S.[Qian-Sheng], Zheng, Z.G.[Zhong-Guo], Qian, M.P.[Min-Ping],
A DTW-based probability model for speaker feature analysis and data mining,
PRL(23), No. 11, September 2002, pp. 1271-1276.
Elsevier DOI 0206
BibRef

Huang, C.S.[Chao-Shih], Wang, H.C.[Hsiao-Chuan],
Bandwidth-adjusted LPC analysis for robust speech recognition,
PRL(24), No. 9-10, June 2003, pp. 1583-1587.
Elsevier DOI 0304
BibRef

Juang, Y.T.[Yau-Tarng], Huang, K.C.[Kuo-Chang], Ding, I.J.[Ing-Jr],
Speaker adaptation based on MAP estimation using fuzzy controller,
PRL(24), No. 15, November 2003, pp. 2807-2813.
Elsevier DOI 0308
BibRef

Li, T.F.[Tze Fen],
Speech Recognition of Mandarin Monosyllables,
PR(36), No. 11, November 2003, pp. 2713-2721.
Elsevier DOI 0309
BibRef

Farooq, O., Datta, S.,
Wavelet based robust sub-band features for phoneme recognition,
VISP(151), No. 3, June 2004, pp. 187-193.
IEEE Abstract. 0409
BibRef

Ricotti, L.P.,
Multitapering and a wavelet variant of MFCC in speech recognition,
VISP(152), No. 1, February 2005, pp. 29-35.
IEEE Abstract. 0501
BibRef

Chen, K.[Ke],
On the use of different speech representations for speaker modeling,
SMC-C(35), No. 3, August 2005, pp. 301-314.
IEEE DOI 0508
BibRef

Zhong, W., Li, S., Tai, H.M.,
Signal subspace approach for narrowband noise reduction in speech,
VISP(152), No. 6, December 2005, pp. 800-805.
DOI Link 0512
BibRef

Chen, B.[Berlin],
Exploring the use of latent topical information for statistical Chinese spoken document retrieval,
PRL(27), No. 1, 1 January 2006, pp. 9-18.
Elsevier DOI 0512
BibRef

Chen, B.[Berlin], Chen, Y.T.[Yi-Ting],
Extractive spoken document summarization for information retrieval,
PRL(29), No. 4, 1 March 2008, pp. 426-437.
Elsevier DOI 0711
Extractive summarization; Information retrieval; Topical mixture model; Spoken documents; Speech recognition BibRef

Wan, C.[Chunru], Liu, M.C.[Ming-Chun],
Content-based audio retrieval with relevance feedback,
PRL(27), No. 2, 15 January 2006, pp. 85-92.
Elsevier DOI 0512
BibRef

Radhakrishnan, R.[Regunathan], Divakaran, A.[Ajay], Xiong, Z.Y.[Zi-You], Otsuka, I.[Isao],
A Content-Adaptive Analysis and Representation Framework for Audio Event Discovery from 'Unscripted' Multimedia,
JASP(2006), 2006, pp. 1-24.
DOI Link 0603
BibRef

Chu, W.T.[Wei-Ta], Cheng, W.H.[Wen-Huang], Wu, J.L.[Ja-Ling],
Semantic Context Detection Using Audio Event Fusion,
JASP(2006), 2006, pp. 1-12.
WWW Link. 0603
BibRef

Leavitt, N.,
Two technologies vie for recognition in speech market,
Computer(36), No. 6, June 2003, pp. 13-16.
IEEE DOI 0306
BibRef

Paulson, L.D.,
Speech Recognition Moves from Software to Hardware,
Computer(39), No. 11, November 2006, pp. 15-18.
IEEE DOI 0611
BibRef

Araujo, L.[Lourdes], Serrano, J.I.[J. Ignacio],
Highly accurate error-driven method for noun phrase detection,
PRL(29), No. 4, 1 March 2008, pp. 547-557.
Elsevier DOI 0711
Noun phrase detection; Evolutionary programming; Grammar induction; Information retrieval BibRef

Zhang, Y.X.[Yong-Xin], Scordilis, M.S.[Michael S.],
Effective online unsupervised adaptation of Gaussian mixture models and its application to speech classification,
PRL(29), No. 6, 15 April 2008, pp. 735-744.
Elsevier DOI 0803
Gaussian mixture model; Speech classification; Online adaptation; Unsupervised adaptation BibRef

Chen, B.[Berlin], Liu, S.H.[Shih-Hung], Chu, F.H.[Fang-Hui],
Training data selection for improving discriminative training of acoustic models,
PRL(30), No. 13, 1 October 2009, pp. 1228-1235.
Elsevier DOI 0909
Continuous speech recognition; Discriminative training; Acoustic models; Data selection; Phone accuracy; Entropy BibRef

Kang, S.W.[Sang-Woo], Kim, H.[Harksoo], Seo, J.Y.[Jung-Yun],
A reliable multidomain model for speech act classification,
PRL(31), No. 1, 1 January 2010, pp. 71-74.
Elsevier DOI 1001
Speech act classification; Dialogue domain detection; Multidomain dialogue BibRef

Kang, S.W.[Sang-Woo], Seo, J.Y.[Jung-Yun],
Two-phase reanalysis model for understanding user intention,
PRL(42), No. 1, 2014, pp. 35-39.
Elsevier DOI 1404
Natural language processing BibRef

Lu, Y.[Yong], Wu, H.Y.[Hai-Yang], Zhou, L.[Lin], Wu, Z.Y.[Zhen-Yang],
Multi-environment model adaptation based on vector Taylor series for robust speech recognition,
PR(43), No. 9, September 2010, pp. 3093-3099.
Elsevier DOI 1006
Model adaptation; Vector Taylor series; Multi-environment model; Speech recognition BibRef

Hong, H., Zhao, Z., Wang, X., Tao, Z.,
Detection of Dynamic Structures of Speech Fundamental Frequency in Tonal Languages,
SPLetters(17), No. 10, October 2010, pp. 843-846.
IEEE DOI 1008
BibRef

Chen, B.[Berlin], Chen, W.H.[Wei-Hau], Lin, S.H.[Shih-Hsiang], Chu, W.Y.[Wen-Yi],
Robust speech recognition using spatial-temporal feature distribution characteristics,
PRL(32), No. 7, 1 May 2011, pp. 919-926.
Elsevier DOI 1101
Speech recognition, Noise robustness, Histogram equalization, Spatial-temporal distribution characteristics, Aurora-2 BibRef

Lo, H.Y., Wang, J.C., Wang, H.M., Lin, S.D.,
Cost-Sensitive Multi-Label Learning for Audio Tag Annotation and Retrieval,
MultMed(13), No. 3, 2011, pp. 518-529.
IEEE DOI 1106
BibRef

Lu, L., Ghoshal, A., Renals, S.,
Regularized Subspace Gaussian Mixture Models for Speech Recognition,
SPLetters(18), No. 7, July 2011, pp. 419-422.
IEEE DOI 1101
BibRef

Lu, L., Renals, S.,
Probabilistic Linear Discriminant Analysis for Acoustic Modeling,
SPLetters(21), No. 6, June 2014, pp. 702-706.
IEEE DOI 1404
Analytical models BibRef

Remes, U., Palomaki, K.J., Raiko, T., Honkela, A., Kurimo, M.,
Missing-Feature Reconstruction With a Bounded Nonlinear State-Space Model,
SPLetters(18), No. 10, October 2011, pp. 563-566.
IEEE DOI 1109
Speech recognition. BibRef

He, Y., Han, J.,
Gaussian Specific Compensation for Channel Distortion in Speech Recognition,
SPLetters(18), No. 10, October 2011, pp. 599-602.
IEEE DOI 1109
BibRef

Roupakia, Z., Gales, M.,
Kernel Eigenvoices (Revisited) for Large-Vocabulary Speech Recognition,
SPLetters(18), No. 12, December 2011, pp. 709-712.
IEEE DOI 1112
BibRef

Kim, S.[Seonho], Yoon, J.[Juntae], Seo, J.Y.[Jung-Yun], Park, S.[Seog],
Improving Korean verb-verb morphological disambiguation using lexical knowledge from unambiguous unlabeled data and selective web counts,
PRL(33), No. 1, 1 January 2012, pp. 62-70.
Elsevier DOI 1112
POS tagging; Verb-verb morphological disambiguation; Unlabeled corpora; Automatic annotation; Web counts; Hard example-based selective sampling BibRef

Geller, T.[Tom],
Talking to Machines,
CACM(55), No. 4, April 2012, pp. 14-16.
DOI Link 1204
Voice recognition programs like Siri are now capable of understanding spoken commands, recognizing a conversation's context, and answering questions in a personable manner. BibRef

Norrenbrock, C.R., Hinterleitner, F., Heute, U., Moller, S.,
Instrumental Assessment of Prosodic Quality for Text-to-Speech Signals,
SPLetters(19), No. 5, May 2012, pp. 255-258.
IEEE DOI 1204
BibRef

Seon, C.N.[Choong-Nyoung], Kim, H.[Harksoo], Seo, J.Y.[Jung-Yun],
A statistical prediction model of speakers' intentions using multi-level features in a goal-oriented dialog system,
PRL(33), No. 10, 15 July 2012, pp. 1397-1404.
Elsevier DOI 1205
Speech act prediction; Concept sequence prediction; Multi-level feature BibRef

Kang, S.W.[Sang-Woo], Ko, Y.J.[Young-Joong], Seo, J.Y.[Jung-Yun],
Hierarchical speech-act classification for discourse analysis,
PRL(34), No. 10, 15 July 2013, pp. 1119-1124.
Elsevier DOI 1306
Natural language processing; Discourse analysis; Speech act classification; Hierarchical structure; Dialogue system BibRef

Dehzangi, O.[Omid], Ma, B.[Bin], Chng, E.S.[Eng Siong], Li, H.Z.[Hai-Zhou],
Discriminative feature extraction for speech recognition using continuous output codes,
PRL(33), No. 13, 1 October 2012, pp. 1703-1709.
Elsevier DOI 1208
BibRef
Earlier:
Fuzzy rule selection using Iterative Rule Learning for speech data classification,
ICPR08(1-4).
IEEE DOI 0812
Speech recognition; Feature transformation; Generalized discriminant analysis; Output coding BibRef

Schroder, M.[Marc], Bevacqua, E.[Elisabetta], Cowie, R.[Roddy], Eyben, F.[Florian], Gunes, H.[Hatice], Heylen, D.[Dirk], ter Maat, M.[Mark], McKeown, G.[Gary], Pammi, S.[Sathish], Pantic, M.[Maja], Pelachaud, C.[Catherine], Schuller, B.[Bjorn], de Sevin, E.[Etienne], Valstar, M.F.[Michel F.], Wollmer, M.[Martin],
Building Autonomous Sensitive Artificial Listeners,
AffCom(3), No. 2, 2012, pp. 165-183.
IEEE DOI 1208
BibRef

Furui, S., Deng, L., Gales, M., Ney, H., Tokuda, K.,
Fundamental Technologies in Modern Speech Recognition,
SPMag(29), No. 3, 2012, pp. 16-17.
IEEE DOI 1210
From the Guest Editors. Survey of speech recognition, intro to special issue BibRef

Saon, G., Chien, J.T.,
Large-Vocabulary Continuous Speech Recognition Systems: A Look at Some Recent Advances,
SPMag(29), No. 3, 2012, pp. 18-33.
IEEE DOI 1210
Survey, Speech Recognition. BibRef

Wang, H.P.[Hai-Peng], Leung, C.C.[Cheung-Chi], Lee, T.[Tan], Ma, B.[Bin], Li, H.Z.[Hai-Zhou],
Shifted-Delta MLP Features for Spoken Language Recognition,
SPLetters(20), No. 1, January 2013, pp. 15-18.
IEEE DOI 1212
BibRef

Edwards, J.,
Researchers Push Speech Recognition Toward the Mainstream,
SPMag(30), No. 1, 2012, pp. 8-11.
IEEE DOI 1212
[Special Reports] BibRef

Das, B.[Biswajit], Mandal, S.[Sandipan], Mitra, P.[Pabitra], Basu, A.[Anupam],
Aging speech recognition with speaker adaptation techniques: Study on medium vocabulary continuous Bengali speech,
PRL(34), No. 3, 1 February 2013, pp. 335-343.
Elsevier DOI 1301
Aging speech recognition; Vocal tract length normalization (VTLN); Maximum likelihood linear transform (MLLT); Maximum likelihood linear regression (MLLR); Maximum a posteriori (MAP); Maximum mutual information estimation (MMIE) BibRef

Keefer, R., Liu, Y., Bourbakis, N.,
The Development and Evaluation of an Eyes-Free Interaction Model for Mobile Reading Devices,
HMS(43), No. 1, January 2013, pp. 76-91.
IEEE DOI 1301
Voice user interface. BibRef

O'Shaughnessy, D., Deng, L., Li, H.,
Speech Information Processing: Theory and Applications,
PIEEE(100), No. 5, May 2013, pp. 1034-1037.
IEEE DOI 1305
[Scanning the Issue], Introduction to special issue. BibRef

O'Shaughnessy, D.,
Acoustic Analysis for Automatic Speech Recognition,
PIEEE(100), No. 5, May 2013, pp. 1038-1053.
IEEE DOI 1305
BibRef

Fosler-Lussier, E., He, Y., Jyothi, P., Prabhavalkar, R.,
Conditional Random Fields in Speech, Audio, and Language Processing,
PIEEE(100), No. 5, May 2013, pp. 1054-1075.
IEEE DOI 1305
BibRef

Hermansky, H.,
Multistream Recognition of Speech: Dealing With Unknown Unknowns,
PIEEE(100), No. 5, May 2013, pp. 1076-1088.
IEEE DOI 1305
BibRef

Lee, C.H., Siniscalchi, S.M.,
An Information-Extraction Approach to Speech Processing: Analysis, Detection, Verification, and Recognition,
PIEEE(100), No. 5, May 2013, pp. 1089-1115.
IEEE DOI 1305
BibRef

He, X., Deng, L.,
Speech-Centric Information Processing: An Optimization-Oriented Approach,
PIEEE(100), No. 5, May 2013, pp. 1116-1135.
IEEE DOI 1305
BibRef

Young, S., Gasic, M., Thomson, B., Williams, J.D.,
POMDP-Based Statistical Spoken Dialog Systems: A Review,
PIEEE(100), No. 5, May 2013, pp. 1160-1179.
IEEE DOI 1305
Survey, Speech. BibRef

Li, W.F.[Wei-Feng], Zhou, Y.C.[Yi-Cong], Poh, N., Zhou, F.[Fei], Liao, Q.M.[Qing-Min],
Feature Denoising Using Joint Sparse Representation for In-Car Speech Recognition,
SPLetters(20), No. 7, 2013, pp. 681-684.
IEEE DOI cepstral analysis 1307
BibRef

Hermansky, H., Cohen, J.R., Stern, R.M.,
Perceptual Properties of Current Speech Recognition Technology,
PIEEE(101), No. 9, 2013, pp. 1968-1985.
IEEE DOI 1309
Auditory system BibRef

Kolossa, D., Zeiler, S., Saeidi, R., Astudillo, R.F.[R. Fernandez],
Noise-Adaptive LDA: A New Approach for Speech Recognition Under Observation Uncertainty,
SPLetters(20), No. 11, 2013, pp. 1018-1021.
IEEE DOI 1310
speech recognition BibRef

Saeidi, R., Astudillo, R.F., Kolossa, D.,
Uncertain LDA: Including Observation Uncertainties in Discriminative Transforms,
PAMI(38), No. 7, July 2016, pp. 1479-1488.
IEEE DOI 1606
Estimation BibRef

Kim, K.T.[Kyung-Tae], Lin, K.H.[Kai-Hsiang], Walther, D.B.[Dirk B.], Hasegawa-Johnson, M.A.[Mark A.], Huang, T.S.[Tomas S.],
Automatic detection of auditory salience with optimized linear filters derived from human annotation,
PRL(38), No. 1, 2014, pp. 78-85.
Elsevier DOI 1402
Auditory salience BibRef

Huang, X.D.[Xue-Dong], Baker, J.[James], Reddy, R.[Raj],
A Historical Perspective of Speech Recognition,
CACM(57), No. 1, January 2014, pp. 94-103.
DOI Link 1402
Survey, Speech Recognition. What do we know now that we did not know 40 years ago? BibRef

Shi, Y.Z.[Yong-Zhe], Zhang, W.Q.[Wei-Qiang], Cai, M.[Meng], Liu, J.[Jia],
Efficient One-Pass Decoding with NNLM for Speech Recognition,
SPLetters(21), No. 4, April 2014, pp. 377-381.
IEEE DOI 1403
decoding BibRef

Zhang, W.B.[Wei-Bin], Fung, P.,
Efficient Sparse Banded Acoustic Models for Speech Recognition,
SPLetters(21), No. 3, March 2014, pp. 280-283.
IEEE DOI 1403
covariance matrices BibRef

Triefenbach, F., Demuynck, K., Martens, J.P.,
Large Vocabulary Continuous Speech Recognition With Reservoir-Based Acoustic Models,
SPLetters(21), No. 3, March 2014, pp. 311-315.
IEEE DOI 1403
error statistics BibRef

Diez, M.[Mireia], Varona, A.[Amparo], Penagarikano, M.[Mikel], Rodriguez-Fuentes, L.J.[Luis Javier], Bordel, G.[German],
On the Complementarity of Phone Posterior Probabilities for Improved Speaker Recognition,
SPLetters(21), No. 6, June 2014, pp. 649-652.
IEEE DOI 1404
BibRef
Earlier: A1, A3, A2, A4, A5:
On the Use of Dot Scoring for Speaker Diarization,
IbPRIA11(612-619).
Springer DOI 1106
audio databases BibRef

Räsänen, O.[Okko], Laine, U.K.[Unto K.],
A method for noise-robust context-aware pattern discovery and recognition from categorical sequences,
PR(45), No. 1, 2012, pp. 606-616.
Elsevier DOI 1410
Speech recognition BibRef

Liu, N.H.[Ning-Han],
Effective Results Ranking for Mobile Query by Singing/Humming Using a Hybrid Recommendation Mechanism,
MultMed(16), No. 5, August 2014, pp. 1407-1420.
IEEE DOI 1410
audio signal processing BibRef

Schneiderman, R.,
Accuracy, Apps Advance Speech Recognition,
SPMag(32), No. 1, January 2015, pp. 12-125.
IEEE DOI 1502
Special Reports. Commercialization BibRef

Ban, S.M., Kim, H.S.,
Weight-Space Viterbi Decoding Based Spectral Subtraction for Reverberant Speech Recognition,
SPLetters(22), No. 9, September 2015, pp. 1424-1428.
IEEE DOI 1503
Decoding BibRef

Sakano, T.[Toshihiro], Kobayashi, Y.[Yosuke], Kondo, K.[Kazuhiro],
A Speech Intelligibility Estimation Method Using a Non-reference Feature Set,
IEICE(E98-D), No. 1, January 2015, pp. 21-28.
WWW Link. 1503
BibRef

Khaldi, K.[Kais], Boudraa, A.O.[Abdel-Ouahab], Torresani, B.[Bruno], Chonavel, T.[Thierry],
HHT-based audio coding,
SIViP(9), No. 1, January 2015, pp. 107-115.
Springer DOI 1503
BibRef

Savchenko, A.V.[Andrey V.], Savchenko, L.V.[Liudmila V.],
Towards the creation of reliable voice control system based on a fuzzy approach,
PRL(65), No. 1, 2015, pp. 145-151.
Elsevier DOI 1511
Signal processing BibRef

Suh, Y.J.[Young-Joo], Kim, H.[Hoirin],
Probabilistic Class Histogram Equalization Based on Posterior Mean Estimation for Robust Speech Recognition,
SPLetters(22), No. 12, December 2015, pp. 2421-2424.
IEEE DOI 1512
maximum likelihood estimation BibRef

Wang, X.Y.[Xiao-Yun], Yamamoto, S.[Seiichi],
Speech Recognition of English by Japanese Using Lexicon Represented by Multiple Reduced Phoneme Sets,
IEICE(E98-D), No. 12, December 2015, pp. 2271-2279.
WWW Link. 1601
BibRef

Tohidypour, H.R.[Hamid Reza], Banitalebi-Dehkordi, A.[Amin],
Speech frame recognition based on less shift sensitive wavelet filter banks,
SIViP(10), No. 4, April 2016, pp. 633-637.
WWW Link. 1604
BibRef

Ansari, J.A., Sathyamurthy, A., Balasubramanyam, R.,
An Open Voice Command Interface Kit,
HMS(46), No. 3, June 2016, pp. 467-473.
IEEE DOI 1605
Hardware BibRef

Cho, B.J., Kwon, H., Cho, J.W., Kim, C., Stern, R.M., Park, H.M.,
A Subband-Based Stationary-Component Suppression Method Using Harmonics and Power Ratio for Reverberant Speech Recognition,
SPLetters(23), No. 6, June 2016, pp. 780-784.
IEEE DOI 1606
maximum likelihood estimation BibRef

Ren, H., Yan, Y.,
Structural Optimization and Online Evolutionary Learning for Spoken Dialog Management,
SPLetters(23), No. 7, July 2016, pp. 1013-1017.
IEEE DOI 1608
Monte Carlo methods BibRef

Khoubrouy, S.A., Hansen, J.H.L.,
Microphone Array Processing Strategies for Distant-Based Automatic Speech Recognition,
SPLetters(23), No. 10, October 2016, pp. 1344-1348.
IEEE DOI 1610
microphone arrays BibRef

Lamberti, F., Manuri, F., Paravati, G., Piumatti, G., Sanna, A.,
Using Semantics to Automatically Generate Speech Interfaces for Wearable Virtual and Augmented Reality Applications,
HMS(47), No. 1, February 2017, pp. 152-164.
IEEE DOI 1702
augmented reality BibRef

Ganapathy, S.,
Multivariate Autoregressive Spectrogram Modeling for Noisy Speech Recognition,
SPLetters(24), No. 9, September 2017, pp. 1373-1377.
IEEE DOI 1708
Discrete cosine transforms, Estimation, Feature extraction, Noise measurement, Spectrogram, Speech, Speech recognition, Feature extraction, Riesz envelopes, multivariate autoregressive (MAR) models, speech, recognition BibRef

Monroe, D.[Don],
Digital Hearing,
CACM(60), No. 10, October 2017, pp. 18-20.
DOI Link 1710
BibRef

Kim, J., Hahn, M.,
Voice Activity Detection Using an Adaptive Context Attention Model,
SPLetters(25), No. 8, August 2018, pp. 1181-1185.
IEEE DOI 1808
speech recognition, adaptive context attention model, voice activity detection, speech-related applications, voice activity detection (VAD) BibRef

Edwards, J.,
Something to Talk About: Signal Processing in Speech and Audiology Research: Promising Investigations Explore New Opportunities in Human Communication,
SPMag(35), No. 6, November 2018, pp. 8-12.
IEEE DOI 1812
Special Reports. Mice, Research and development, Microphones, Acoustics, Time-frequency analysis, Auditory system BibRef

Shin, Y., Yoo, K.M., Lee, S.,
Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding,
SPLetters(26), No. 3, March 2019, pp. 505-509.
IEEE DOI 1903
learning (artificial intelligence), natural language processing, speech processing, travel industry, slot filling BibRef

Yang, B.H.[Bo-Hong], Yao, Z.P.[Ze-Ping], Lu, H.[Hong], Zhou, Y.Q.[Ya-Qian], Xu, J.K.[Jin-Kai],
In-classroom learning analytics based on student behavior, topic and teaching characteristic mining,
PRL(129), 2020, pp. 224-231.
Elsevier DOI 2001
Student behavior analysis, Topic modeling, Audio analysis, Sequential mining BibRef

Chandrakala, S., Jayalakshmi, S.L.,
Generative Model Driven Representation Learning in a Hybrid Framework for Environmental Audio Scene and Sound Event Recognition,
MultMed(22), No. 1, January 2020, pp. 3-14.
IEEE DOI 2001
Sound event recognition, environmental audio scene recognition, audio surveillance, adapted Gaussian mixture model BibRef

Yadav, I.C., Pradhan, G.,
Significance of Pitch-Based Spectral Normalization for Children's Speech Recognition,
SPLetters(26), No. 12, December 2019, pp. 1822-1826.
IEEE DOI 2001
acoustic correlation, feature extraction, fuzzy set theory, speech recognition, pitch-based spectral normalization, DLSTM BibRef

Shahnawazuddin, S., Adiga, N.[Nagaraj], Kathania, H.K.[Hemant Kumar], Sai, B.T.[B. Tarun],
Creating speaker independent ASR system through prosody modification based data augmentation,
PRL(131), 2020, pp. 213-218.
Elsevier DOI 2004
BibRef

Park, T.J., Han, K.J., Kumar, M., Narayanan, S.,
Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap,
SPLetters(27), 2020, pp. 381-385.
IEEE DOI 2004
Auto-Tuning, spectral clustering, Eigengap heuristic, speaker diarization BibRef

Deb, S., Dandapat, S., Krajewski, J.,
Analysis and Classification of Cold Speech Using Variational Mode Decomposition,
AffCom(11), No. 2, April 2020, pp. 296-307.
IEEE DOI 2006
Speech, Databases, Pathology, Speech recognition, Feature extraction, Nose, Mel frequency cepstral coefficient, Cold speech, SVM classifier BibRef

Sánchez-Junquera, J.[Javier], Villaseñor-Pineda, L.[Luis], Montes-y-Gómez, M.[Manuel], Rosso, P.[Paolo], Stamatatos, E.[Efstathios],
Masking domain-specific information for cross-domain deception detection,
PRL(135), 2020, pp. 122-130.
Elsevier DOI 2006
Deception detection, Domain adaptation, Masking information BibRef

Rill-García, R.[Rodrigo], Villaseñor-Pineda, L.[Luis], Reyes-Meza, V.[Verónica], Escalante, H.J.[Hugo Jair],
From Text to Speech: A Multimodal Cross-Domain Approach for Deception Detection,
MIPPSNA18(164-177).
Springer DOI 1901
BibRef

Lim, H., Kim, Y., Kim, H.,
Cross-Informed Domain Adversarial Training for Noise-Robust Wake-Up Word Detection,
SPLetters(27), 2020, pp. 1769-1773.
IEEE DOI 2010
Training, Noise robustness, Encoding, Optimization, Training data, Domain adversarial training, noise robustness, wake-up word detection BibRef

Zhao, L.[Ling], Zhang, A.[Ailian], Liu, Y.[Ying], Fei, H.[Hao],
Encoding multi-granularity structural information for joint Chinese word segmentation and POS tagging,
PRL(138), 2020, pp. 163-169.
Elsevier DOI 2010
Chinese word segmentation, POS tagging, Joint model, Lattice model, Graph model BibRef

Bang, J.[Jeesoo], Han, S.[Sangdo], Lee, J.H.[Jong-Hyeok],
Listening-oriented response generation by exploiting user responses,
PRL(140), 2020, pp. 230-237.
Elsevier DOI 2012
Natural language processing, Dialogue system, Response generation, Listening-oriented dialogue, Affective computing BibRef

Zhou, J.T.Y.[Joey Tian-Yi], Zhang, H.[Hao], Jin, D.[Di], Peng, X.[Xi],
Dual Adversarial Transfer for Sequence Labeling,
PAMI(43), No. 2, February 2021, pp. 434-446.
IEEE DOI 2101
Labeling, Task analysis, Training, Feature extraction, Tagging, Natural language processing, adversarial training BibRef

Chen, N., Watanabe, S., Villalba, J., Zelasko, P., Dehak, N.,
Non-Autoregressive Transformer for Speech Recognition,
SPLetters(28), 2021, pp. 121-125.
IEEE DOI 2101
Training, Computational modeling, Speech recognition, Mathematical model, Predictive models, Iterative decoding, History, non-autoregressive BibRef

Haeb-Umbach, R., Heymann, J., Drude, L., Watanabe, S., Delcroix, M., Nakatani, T.,
Far-Field Automatic Speech Recognition,
PIEEE(109), No. 2, February 2021, pp. 124-148.
IEEE DOI 2101
Speech recognition, Microphones, Speech enhancement, Reverberation, Robustness, Array signal processing, Acoustic systems, speech enhancement BibRef

Fritsch, J., Magimai-Doss, M.,
Utterance Verification-Based Dysarthric Speech Intelligibility Assessment Using Phonetic Posterior Features,
SPLetters(28), 2021, pp. 224-228.
IEEE DOI 2102
Databases, Phonetics, Correlation, Testing, Speech coding, Estimation, Dysarthric speech, utterance verification BibRef

Lu, L.[Liang], Kanda, N.[Naoyuki], Li, J.Y.[Jin-Yu], Gong, Y.F.[Yi-Fan],
Streaming End-to-End Multi-Talker Speech Recognition,
SPLetters(28), 2021, pp. 803-807.
IEEE DOI 2105
Speech recognition, Training, Heating systems, Computational modeling, Transducers, Delays, Shape, heuristic error assignment training BibRef

Yi, C.[Cheng], Zhou, S.Y.[Shi-Yu], Xu, B.[Bo],
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-Resource Speech Recognition,
SPLetters(28), 2021, pp. 788-792.
IEEE DOI 2105
Acoustics, Bit error rate, Linguistics, Task analysis, Training, Decoding, Data models, BERT, end-to-end modeling, low-resource ASR, wav2vec BibRef

Xu, P.[Peng], Huang, Y.[Yongye], Yuan, T.[Tongtong], Xiang, T.[Tao], Hospedales, T.M.[Timothy M.], Song, Y.Z.[Yi-Zhe], Wang, L.[Liang],
On Learning Semantic Representations for Large-Scale Abstract Sketches,
CirSysVideo(31), No. 9, September 2021, pp. 3366-3379.
IEEE DOI 2109
Semantics, Visualization, Task analysis, Games, Feature extraction, Quantization (signal), Speech recognition, edge-map dataset BibRef

Kim, J.[Juntae], Lee, Y.[Yoonhan],
Improving End-to-End Contextual Speech Recognition via a Word-Matching Algorithm With Backward Search,
SPLetters(28), 2021, pp. 2087-2091.
IEEE DOI 2112
Sugar, Phonetics, Decoding, Context modeling, Training, Signal processing algorithms, Tagging, Speech recognition, biasing, context BibRef

Zhu, S.[Shirong], Zhang, Y.[Ying], He, K.[Kai], Zhao, L.[Lasheng],
Acoustic Word Embedding Based on Multi-Head Attention Quadruplet Network,
SPLetters(29), 2022, pp. 184-188.
IEEE DOI 2202
Acoustics, Training, Vocabulary, Linear programming, Task analysis, Speech recognition, Phonetics, Acoustic word embedding, attention mechanism BibRef

Tiwari, R.[Rajdev], Sharma, V.[Vidha], Sahoo, R.C.[Ramesh Chandra],
Isolated spoken word recognition using packed-MFCC on padded-voice signal for unscripted languages,
IJCVR(12), No. 2, 2022, pp. 120-140.
DOI Link 2203
BibRef

Tian, Z.K.[Zheng-Kun], Yi, J.Y.[Jiang-Yan], Tao, J.H.[Jian-Hua], Zhang, S.[Shuai], Wen, Z.Q.[Zheng-Qi],
Hybrid Autoregressive and Non-Autoregressive Transformer Models for Speech Recognition,
SPLetters(29), 2022, pp. 762-766.
IEEE DOI 2204
Decoding, Transformers, Acoustics, Predictive models, Training, Speech recognition, Linguistics, Autoregressive BibRef

Xiao, F.Y.[Fei-Yang], Guan, J.[Jian], Lan, H.Y.[Hai-Yan], Zhu, Q.[Qiaoxi], Wang, W.W.[Wen-Wu],
Local Information Assisted Attention-Free Decoder for Audio Captioning,
SPLetters(29), 2022, pp. 1604-1608.
IEEE DOI 2208
Decoding, Feature extraction, Wind forecasting, Interference, Convolution, Transformers, Task analysis, attention-free transformer BibRef

Perochon, S.[Sam],
A Presentation and Short Discussion of rVAD-fast, a Fast Voice Activity Detector,
IPOL(12), 2022, pp. 404-419.
DOI Link 2210
BibRef

Huang, H.J.[Hao-Jing], Huang, P.J.[Pei-Jie], Zhu, Z.B.[Zhan-Biao], Li, J.[Jia], Lin, P.[Piyuan],
CLID: A Chunk-Level Intent Detection Framework for Multiple Intent Spoken Language Understanding,
SPLetters(29), 2022, pp. 2123-2127.
IEEE DOI 2211
Filling, Task analysis, Semantics, Decoding, Training, Predictive models, Testing, Chunk-level, intent detection, spoken language understanding BibRef

Du, X.[Xia], Pun, C.M.[Chi-Man],
Robust Audio Patch Attacks Using Physical Sample Simulation and Adversarial Patch Noise Generation,
MultMed(24), 2022, pp. 4381-4393.
IEEE DOI 2212
Perturbation methods, Speech recognition, Robustness, Signal to noise ratio, Training, Detectors, ensemble method BibRef

Kim, H.[Hoki], Park, J.[Jinseong], Lee, J.W.[Jae-Wook],
Generating Transferable Adversarial Examples for Speech Classification,
PR(137), 2023, pp. 109286.
Elsevier DOI 2302
Speech classification, Adversarial attack, Transferability BibRef

Wei, G.Y.[Guang-Yong], Duan, Z.K.[Zhi-Kui], Li, S.[Shiren], Yu, X.M.[Xin-Mei], Yang, G.G.[Guang-Guang],
LFEformer: Local Feature Enhancement Using Sliding Window With Deformability for Automatic Speech Recognition,
SPLetters(30), 2023, pp. 180-184.
IEEE DOI 2303
Feature extraction, Transformers, Decoding, Mathematical models, Data mining, Acoustics, Data preprocessing, Speech Recognition, Local Feature BibRef

Xiao, F.Y.[Fei-Yang], Guan, J.[Jian], Zhu, Q.[Qiaoxi], Wang, W.W.[Wen-Wu],
Graph Attention for Automated Audio Captioning,
SPLetters(30), 2023, pp. 413-417.
IEEE DOI 2305
Feature extraction, Decoding, Transformers, Semantics, Acoustics, Noise measurement, Matrix converters, Audio modelling, temporal information BibRef

Chang, C.M.[Chun-Min], Lee, C.C.[Chi-Chun],
Learning Enhanced Acoustic Latent Representation for Small Scale Affective Corpus with Adversarial Cross Corpora Integration,
AffCom(14), No. 2, April 2023, pp. 1308-1321.
IEEE DOI 2306
Databases, Emotion recognition, Acoustics, Training, Speech recognition, Transfer learning, Task analysis, cross corpus learning BibRef

Qu, H.L.[Hong-Lin], Su, X.D.[Xiang-Dong], Wang, Y.[Yonghe], Hao, X.[Xiang], Gao, G.L.[Guang-Lai],
Noise-Separated Adaptive Feature Distillation for Robust Speech Recognition,
SPLetters(30), 2023, pp. 763-767.
IEEE DOI 2307
Speech recognition, Noise measurement, Adaptation models, Task analysis, Training, Propagation losses, Knowledge transfer, speech recognition BibRef

Nga, C.H.[Cao Hong], Vu, D.Q.[Duc-Quang], Luong, H.H.[Huong Hoang], Huang, C.L.[Chien-Lin], Wang, J.C.[Jia-Ching],
Cyclic Transfer Learning for Mandarin-English Code-Switching Speech Recognition,
SPLetters(30), 2023, pp. 1387-1391.
IEEE DOI 2310
BibRef

Dong, F.[Fang], Qian, Y.Y.[Yi-Yang], Wang, T.L.[Tian-Lei], Liu, P.[Peng], Cao, J.W.[Jiu-Wen],
A Transformer-Based End-to-End Automatic Speech Recognition Algorithm,
SPLetters(30), 2023, pp. 1592-1596.
IEEE DOI 2311
BibRef

Fan, P.[Peng], Shan, C.H.[Chang-Hao], Sun, S.N.[Si-Ning], Yang, Q.[Qing], Zhang, J.W.[Jian-Wei],
Key Frame Mechanism for Efficient Conformer Based End-to-End Speech Recognition,
SPLetters(30), 2023, pp. 1612-1616.
IEEE DOI 2311
BibRef

Mahmoudi, H.[Homeyra], Camboim, S.[Silvana], Brovelli, M.A.[Maria Antonia],
Development of a Voice Virtual Assistant for the Geospatial Data Visualization Application on the Web,
IJGI(12), No. 11, 2023, pp. xx-yy.
DOI Link 2312
BibRef

Vitolo, P.[Paola], Liguori, R.[Rosalba], di Benedetto, L.[Luigi], Rubino, A.[Alfredo], Licciardo, G.D.[Gian Domenico],
Automatic Audio Feature Extraction for Keyword Spotting,
SPLetters(31), 2024, pp. 161-165.
IEEE DOI 2401
BibRef

Li, J.H.[Jun-Hua], Duan, Z.K.[Zhi-Kui], Li, S.[Shiren], Yu, X.M.[Xin-Mei], Yang, G.G.[Guang-Guang],
ESAformer: Enhanced Self-Attention for Automatic Speech Recognition,
SPLetters(31), 2024, pp. 471-475.
IEEE DOI 2402
Feature extraction, Transformers, Convolution, Logic gates, Testing, Tensors, Training, Speech recognition, transformer, multi-order interaction BibRef

Nie, W.Z.[Wei-Zhi], Bao, Y.[Yuru], Zhao, Y.[Yue], Liu, A.[Anan],
Long Dialogue Emotion Detection Based on Commonsense Knowledge Graph Guidance,
MultMed(26), 2024, pp. 514-528.
IEEE DOI 2402
Emotion recognition, Commonsense reasoning, Oral communication, Correlation, Transformers, Speech recognition, topic module BibRef

Sun, T.L.[Tian-Li], Chen, H.N.[Hao-Nan], Hu, G.S.[Guo-Sheng], He, L.H.[Liang-Hua], Zhao, C.R.[Cai-Rong],
Explainability of Speech Recognition Transformers via Gradient-Based Attention Visualization,
MultMed(26), 2024, pp. 1395-1406.
IEEE DOI 2402
Transformers, Analytical models, Visualization, Predictive models, Data models, Computational modeling, Training, Explainability, attention visualization BibRef

Jacobs, C.[Christiaan], Kamper, H.[Herman],
Leveraging Multilingual Transfer for Unsupervised Semantic Acoustic Word Embeddings,
SPLetters(31), 2024, pp. 311-315.
IEEE DOI 2402
Semantics, Phonetics, Training, Data models, Task analysis, Acoustics, Decoding, Acoustic word embeddings, query-by-example search, semantic retrieval BibRef

Wang, F.Y.[Fang-Yuan], Xu, B.[Bo], Xu, B.[Bo],
SSCFormer: Push the Limit of Chunk-Wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution,
SPLetters(31), 2024, pp. 421-425.
IEEE DOI 2402
Convolution, Complexity theory, Computational modeling, Decoding, Training, Kernel, Transformers, Conformer, streaming ASR, linear complexity BibRef

Fan, R.[Ruchao], Shankar, N.B.[Natarajan Balaji], Alwan, A.[Abeer],
UniEnc-CASSNAT: An Encoder-Only Non-Autoregressive ASR for Speech SSL Models,
SPLetters(31), 2024, pp. 711-715.
IEEE DOI 2403
Decoding, Feature extraction, Acoustics, Iterative decoding, Transformers, Training, Task analysis, Non-autoregressive ASR, speech foundation model BibRef

Xing, B.[Bowen], Tsang, I.W.[Ivor W.],
Co-Guiding for Multi-Intent Spoken Language Understanding,
PAMI(46), No. 5, May 2024, pp. 2965-2980.
IEEE DOI 2404
Task analysis, Semantics, Filling, Predictive models, Adaptation models, Decoding, Analytical models, Dialog system, spoken language understanding BibRef

Hwang, K.[Kitae], Jung, I.H.[In Hwan], Lee, J.M.[Jae Moon],
An implementation of searchable video player,
IJCVR(14), No. 3, 2024, pp. 325-337.
DOI Link 2405
Android app, SVPlayer, that searches for scenes in a video. Based on audio/speech recognition, search the text. BibRef

Ma, Y.K.[Yu-Kun], Zhang, C.[Chong], Chen, Q.[Qian], Wang, W.[Wen], Ma, B.[Bin],
Tuning Large Language Model for Speech Recognition With Mixed-Scale Re-Tokenization,
SPLetters(31), 2024, pp. 1740-1744.
IEEE DOI 2407
Speech recognition, Task analysis, Speech processing, Training, Adaptation models, Acoustics, Tokenization, re-tokenization BibRef

Mu, B.S.[Bing-Shen], Wan, X.[Xucheng], Zheng, N.[Naijun], Zhou, H.[Huan], Xie, L.[Lei],
MMGER: Multi-Modal and Multi-Granularity Generative Error Correction With LLM for Joint Accent and Speech Recognition,
SPLetters(31), 2024, pp. 1940-1944.
IEEE DOI 2408
Linguistics, Acoustics, Task analysis, Multitasking, Speech recognition, Decoding, Standards, MMGER BibRef

Shi, Y.[Ying], Li, L.[Lantian], Wang, D.[Dong], Han, J.Q.[Ji-Qing],
Keyword Guided Target Speech Recognition,
SPLetters(31), 2024, pp. 1945-1949.
IEEE DOI 2408
Speech recognition, Task analysis, Training, Internet, Decoding, Target recognition, Speech processing, Key content spotting, target speech recognition BibRef

Gao, X.X.[Xiao-Xue], Li, Z.X.[Ze-Xin], Chen, Y.M.[Yi-Ming], Liu, C.[Cong], Li, H.Z.[Hai-Zhou],
Transferable Adversarial Attacks Against ASR,
SPLetters(31), 2024, pp. 2200-2204.
IEEE DOI 2409
Optimization, Perturbation methods, Speech recognition, Closed box, Feature extraction, Glass box, Robustness, Adversarial attacks, speech recognition BibRef

Lu, H.[Haitian], Cheng, G.F.[Gao-Feng], Yan, Y.H.[Yong-Hong],
Conversational Short-Phrase Speaker Diarization via Self-Adjusting Speech Segmentation and Embedding Extraction,
SPLetters(31), 2024, pp. 2340-2344.
IEEE DOI 2410
Speech recognition, Standards, Mixers, Acoustics, Error analysis, Training, Switches, Speaker diarization, self-adjusting, conversational short-phrase BibRef

Lee, C.W.[Chae-Won], Lee, J.H.[Jae-Hong], Chang, J.H.[Joon-Hyuk],
Language Model Personalization for Speech Recognition: A Clustered Federated Learning Approach With Adaptive Weight Average,
SPLetters(31), 2024, pp. 2710-2714.
IEEE DOI 2410
Data models, Adaptation models, Mathematical models, Federated learning, Training, Speech recognition, Degradation, clustered federated learning BibRef

Xing, B.[Bowen], Tsang, I.W.[Ivor W.],
HC2L: Hybrid and Cooperative Contrastive Learning for Cross-Lingual Spoken Language Understanding,
PAMI(46), No. 12, December 2024, pp. 8094-8105.
IEEE DOI 2411
Semantics, Task analysis, Filling, Training, Labeling, Decoding, Data models, Dialog system, spoken language understanding, cross-lingual BibRef

Chang, X.[Xuankai], Guo, P.C.[Peng-Cheng], Fujita, Y.[Yuya], Maekaku, T.[Takashi], Watanabe, S.[Shinji],
MC-Whisper: Extending Speech Foundation Models to Multichannel Distant Speech Recognition,
SPLetters(31), 2024, pp. 2850-2854.
IEEE DOI 2411
Speech recognition, Recording, Biological system modeling, Training, Microphones, Task analysis, Speech enhancement, distant speech processing BibRef

Chen, Y.Q.[Ya-Qi], Niu, T.[Tong], Zhang, H.[Hao], Zhang, W.[Wenlin], Qu, D.[Dan],
Meta-Prompt: Boosting Whisper's Performance in Low-Resource Speech Recognition,
SPLetters(31), 2024, pp. 3039-3043.
IEEE DOI 2411
Training, Metalearning, Decoding, Speech recognition, Adaptation models, Tuning, Costs, Vectors, Multitasking, Whisper BibRef

Zheng, L.[Lin], Zhu, H.[Han], Tian, S.[Sanli], Zhao, Q.W.[Qing-Wei], Li, T.[Ta],
Unsupervised Domain Adaptation on End-to-End Multi-Talker Overlapped Speech Recognition,
SPLetters(31), 2024, pp. 3119-3123.
IEEE DOI 2411
Training, Speech recognition, Accuracy, Multiprotocol label switching, Interference, Filtering, pseudo-labeling BibRef

Lee, H.[Hyeonseung], Yoon, J.W.[Ji Won], Kim, S.S.[Sung-Soo], Kim, N.S.[Nam Soo],
Towards Maximum Likelihood Training for Transducer-Based Streaming Speech Recognition,
SPLetters(32), 2025, pp. 26-30.
IEEE DOI 2501
Transducers, Training, Accuracy, Neural networks, Deformable models, Mathematical models, Context modeling, Bayes methods, streaming ASR BibRef

Zhuang, X.[Xuyi], Qian, Y.K.[Yu-Kun], Wang, M.J.[Ming-Jiang],
Hypformer: A Fast Hypothesis-Driven Rescoring Speech Recognition Framework,
SPLetters(32), 2025, pp. 471-475.
IEEE DOI 2501
Decoding, Training, Iterative decoding, Transformers, Accuracy, Standards, Symbols, Switches, Signal processing algorithms, rescoring BibRef

Akman, A.[Alican], Sun, Q.[Qiyang], Schuller, B.W.[Björn W.],
Improving Audio Explanations Using Audio Language Models,
SPLetters(32), 2025, pp. 741-745.
IEEE DOI 2502
Computational modeling, Speech recognition, Foundation models, Feature extraction, Vectors, Standards, Mathematical models, explainable artificial intelligence BibRef

Liu, Y.P.[Yun-Peng], Yang, X.[Xukui], Zhang, J.Y.[Jia-Yi], Xi, Y.L.[Yang-Li], Qu, D.[Dan],
TAML-Adapter: Enhancing Adapter Tuning Through Task-Agnostic Meta-Learning for Low-Resource Automatic Speech Recognition,
SPLetters(32), 2025, pp. 636-640.
IEEE DOI 2502
Adaptation models, Metalearning, Speech recognition, Tuning, Data models, Signal processing algorithms, Multilingual, Training, Task-Agnostic Meta-Learning BibRef

Kumar, K.V.[K. Vijay], Rao, R.R.[Ramisetty Rajeswara],
An approach for speaker diarisation using whale-anti coronavirus optimisation integrated deep fuzzy clustering,
IJCVR(15), No. 2, 2025, pp. 177-197.
DOI Link 2503
BibRef

Kim, T.Y.[Tae-Young], Yang, J.F.[Ju-Feng], Park, E.[Eunil],
MSDLF-K: A Multimodal Feature Learning Approach for Sentiment Analysis in Korean Incorporating Text and Speech,
MultMed(27), 2025, pp. 1266-1276.
IEEE DOI 2503
Sentiment analysis, Linguistics, Deep learning, Accuracy, Spectrogram, Reviews, Feature extraction, Syntactics, Web sites, speech recognition BibRef

Zhang, W.J.[Wen-Jie], Xia, Z.H.[Zhi-Hua], Ma, B.[Bin], Yan, D.[Diqun],
Paradoxical Role of Adversarial Attacks: Enabling Crosslinguistic Attacks and Information Hiding in Multilingual Speech Recognition,
SPLetters(32), 2025, pp. 1046-1050.
IEEE DOI 2503
Perturbation methods, Multilingual, Optimization, Signal to noise ratio, Training, Target recognition, Data mining, multilingual speech recognition BibRef

Jia, G.[Guimin], He, D.[Dong], Zhou, X.[Xilong],
Low-Resource Speech Recognition of Radiotelephony Communications Based on Continuous Learning of In-Domain and Out-of-Domain Knowledge,
SPLetters(32), 2025, pp. 1136-1140.
IEEE DOI 2503
Training, Decoding, Data models, Computational modeling, Predictive models, Acoustics, Feature extraction, radiotelephony communication BibRef

Nga, C.H.[Cao Hong], Vu, D.Q.[Duc-Quang], Le, P.T.[Phuong Thi], Luong, H.H.[Huong Hoang], Wang, J.C.[Jia-Ching],
MLSS: Mandarin English Code-Switching Speech Recognition via Mutual Learning-Based Semi-Supervised Method,
SPLetters(32), 2025, pp. 1510-1514.
IEEE DOI 2504
Training, Decoding, Knowledge engineering, Speech recognition, Data models, Speech coding, Semisupervised learning, Switches, mutual learning-based semi-supervised learning BibRef

Peng, Z.H.[Zheng-Hua], Chen, T.S.[Tian-Shui], Huang, S.P.[Shuang-Ping], Hu, Y.Q.[Yun-Qing],
Heterogeneous Correlation Aware Regularization for Sequential Confidence Calibration,
PAMI(47), No. 6, June 2025, pp. 4597-4613.
IEEE DOI 2505
Calibration, Predictive models, Context modeling, Training, Text recognition, Semantics, Speech recognition, Adaptation models, speech recognition BibRef

Peng, Z.H.[Zheng-Hua], Luo, Y.[Yu], Chen, T.S.[Tian-Shui], Xu, K.[Keke], Huang, S.P.[Shuang-Ping],
Perception and Semantic Aware Regularization for Sequential Confidence Calibration,
CVPR23(10658-10668)
IEEE DOI 2309
BibRef

Lee, M.H.[Mun-Hak], Mo, J.H.[Ji-Hwan], Kang, J.H.[Ji-Hun], Son, J.Y.[Jin-Young], Chang, J.H.[Joon-Hyuk],
Bayesian Language Model Adaptation for Personalized Speech Recognition,
SPLetters(32), 2025, pp. 1620-1624.
IEEE DOI 2505
Computational modeling, Decoding, Calibration, Training, Bayes methods, Degradation, Adaptation models, Vocabulary, language model adaptation BibRef

Ghane, M.[Mohsen], Safari, M.S.[Mohammad Sadegh],
End-to-End Target Speaker Speech Recognition Using Context-Aware Attention Mechanisms for Challenging Enrollment Scenario,
SPLetters(32), 2025, pp. 1940-1944.
IEEE DOI 2505
Training, Recurrent neural networks, Hidden Markov models, Attention mechanisms, Artificial intelligence, Transducers, RNN-Transducer BibRef

Rouditchenko, A.[Andrew], Thomas, S.[Samuel], Kuehne, H.[Hilde], Feris, R.[Rogerio], Glass, J.[James],
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition,
SPLetters(32), 2025, pp. 2144-2148.
IEEE DOI 2506
Multilingual, Training, Decoding, Visualization, Noise measurement, Logic gates, Transformers, Artificial intelligence, multilingual BibRef

Ye, G.[Guoguo], Chen, Q.Q.[Qi-Qi], Kong, Z.Y.[Zhi-Yang], Zhou, M.R.[Ming-Rui], Peng, Y.[Yong],
Adaptive Multi-Granularity Information Exploration for EEG-Based Speech Recognition,
SPLetters(32), 2025, pp. 2987-2991.
IEEE DOI 2509
Electroencephalography, Vectors, Brain modeling, Optimization, Decoding, Adaptation models, Speech recognition, Accuracy, domain-sample-feature importance BibRef

Kutum, S.[Subham], Sinha, A.[Abhijit], Kathania, H.K.[Hemant Kumar], Kadiri, S.R.[Sudarsana Reddy], Govil, M.C.[Mahesh Chandra],
Zero-shot KWS for children's speech using layer-wise features from SSL models,
PRL(197), 2025, pp. 304-311.
Elsevier DOI 2510
Keyword spotting, Children speech, Self-supervised learning (SSL) features, DNN, Kaldi BibRef

Sinha, A.[Abhijit], Kathania, H.K.[Hemant Kumar], Kadiri, S.R.[Sudarsana Reddy], Narayanan, S.[Shrikanth],
Can Layer-Wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?,
SPLetters(32), 2025, pp. 3759-3763.
IEEE DOI 2510
Feature extraction, Speech recognition, Training, Analytical models, Data models, Adaptation models, Acoustics, zero-shot ASR BibRef

Jayasinghe, H.M.[Hiruni Maleesa], Wong, K.W.[Kok Wai], Nugaliyadde, A.[Anupiya],
A systematic review of interpretability and explainability for speech emotion features in automatic speech emotion recognition,
PR(171), 2026, pp. 112122.
Elsevier DOI 2510
Speech emotion features, Automatic speech emotion recognition, Interpretability, Explainability BibRef

Gu, Y.[Yue], Du, Z.H.[Zhi-Hao], Shi, Y.[Ying], Han, J.Q.[Ji-Qing], He, Y.J.[Yong-Jun],
Knowledge-Decoupled Functionally Invariant Path With Synthetic Personal Data for Personalized ASR,
SPLetters(32), 2025, pp. 4024-4028.
IEEE DOI 2511
Adaptation models, Data models, Synthetic data, Training, Logic gates, Data augmentation, Vectors, functionally invariant path BibRef

Kim, J.Y.[Joshua Y.], Yacef, K.[Kalina],
Encoding Affective Cues in Multimodal Textual Transcriptions,
AffCom(16), No. 4, October 2025, pp. 3624-3632.
IEEE DOI 2512
Annotations, Affective computing, Standards, Data mining, Training, Speech to text, Oral communication, Internet, Usability, data integration BibRef

Yoon, S.[Seojin], Kim, H.[Hyunji], Kim, K.[Kyusung], Lee, S.[Sangmin],
Comparative Analysis of Automatic Speech Recognition Fine-Tuning Strategies for Speech From Cochlear Implant Users,
SPLetters(33), 2026, pp. 236-240.
IEEE DOI 2601
Speech recognition, Adaptation models, Training, Computational modeling, Decoding, Speech processing, Data models, Whisper BibRef

Xing, B.[Bowen], Qin, L.[Libo], Zhu, Z.H.[Zhi-Hong], Yu, Z.[Zhou], Tsang, I.W.[Ivor W.],
DXA-Net: Dual-Task Cross-Lingual Alignment Network for Zero-Shot Cross-Lingual Spoken Language Understanding,
PAMI(48), No. 2, February 2026, pp. 1052-1062.
IEEE DOI 2601
Semantics, Multilingual, Filling, Correlation, Training, Decoding, Contrastive learning, Learning systems, Predictive models, dialog system BibRef

Li, X.J.[Xiao-Jun], Mao, J.J.[Jun-Jie], Shi, H.X.[Han-Xiao], Chen, L.[Liao],
Fine-grained evaluation for offensive speech detection on social media,
PR(174), 2026, pp. 113000.
Elsevier DOI 2602
Social media, Offensive speech detection, Knowledge graph, Fine grained evaluation, KAN BibRef

Namomsa, G.B.[Galane Basha], Gichamba, A.[Alex], Ebiyau, B.[Brian], Barros, J.[João],
Eyes and Ears: Automated Annotation of Audio Data Using Computer Vision,
ICIP25(2748-2753)
IEEE DOI 2601
Annotations, Computational modeling, Wildlife, Manuals, Cameras, Data models, Labeling, Automobiles, Microphones, Audio Classification BibRef

Tang, J.[Jiuqiang], Sarokin, R.[Raman], Ignasheva, E.[Ekaterina], Jensen, G.[Grant], Chen, L.[Lin], Lee, J.[Juhyun], Kulik, A.[Andrei], Grundmann, M.[Matthias],
Scaling On-Device GPU Inference for Large Generative Models,
EDGE25(6345-6354)
IEEE DOI 2512
Tensors, Quantization (signal), Generative AI, Graphics processing units, Speech recognition, Transformers, Bars BibRef

Chen, K.[Kai], Gou, Y.H.[Yun-Hao], Huang, R.[Runhui], Liu, Z.[Zhili], Tan, D.X.[Da-Xin], Xu, J.[Jing], Wang, C.W.[Chun-Wei], Zhu, Y.[Yi], Zeng, Y.H.[Yi-Han], Yang, K.[Kuo], Wang, D.D.[Ding-Dong], Xiang, K.[Kun], Li, H.Y.[Hao-Yuan], Bai, H.[Haoli], Han, J.H.[Jian-Hua], Li, X.H.[Xiao-Hui], Jin, W.[Weike], Xie, N.[Nian], Zhang, Y.[Yu], Kwok, J.T.[James T.], Zhao, H.S.[Heng-Shuang], Liang, X.D.[Xiao-Dan], Yeung, D.Y.[Dit-Yan], Chen, X.[Xiao], Li, Z.G.[Zhen-Guo], Zhang, W.[Wei], Liu, Q.[Qun], Hong, L.Q.[Lan-Qing], Hou, L.[Lu], Xu, H.[Hang],
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions,
CVPR25(5455-5466)
IEEE DOI 2508
Bridges, Emotion recognition, Foundation models, Large language models, Personal voice assistants, speech-language BibRef

Wang, J.Y.[Jia-Yi], Liu, Z.[Zihao], Wu, X.Y.[Xiao-Yu],
LOCO-MAD: Long-range Context-enhanced Model Towards Plot-centric Movie Audio Description,
ACCV24(V: 95-112).
Springer DOI 2412
BibRef

Lin, J.[Jingru], Ge, M.[Meng], Wang, W.[Wupeng], Li, H.Z.[Hai-Zhou], Feng, M.L.[Meng-Ling],
Selective HuBERT: Self-Supervised Pre-Training for Target Speaker in Clean and Mixture Speech,
SPLetters(31), 2024, pp. 1014-1018.
IEEE DOI 2405
Transformers, Task analysis, Training, Predictive models, Speech recognition, Self-supervised learning, Noise BibRef

Feng, Y.[Yarong], Liu, Z.Y.[Zong-Yi], Luo, S.[Shunyan], Ling, Y.[Yuan], Dong, S.[Shujing], Wang, S.Y.[Shu-Yi], Ferry, B.[Bruce],
Noise-Free Audio Signal Processing in Noisy Environment: A Hardware and Algorithm Solution,
VAQuality24(368-373)
IEEE DOI 2404
Event detection, Signal processing algorithms, Speech recognition, Hardware, Robustness BibRef

Ng, H.W.[Han Wei], Guan, C.T.[Cun-Tai],
Efficient Representation Learning for Inner Speech Domain Generalization,
CAIP23(I:131-141).
Springer DOI 2312
BibRef

Oneata, D.[Dan], Cucu, H.[Horia],
Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations,
MULA22(4578-4587)
IEEE DOI 2210
Training, Couplings, Visualization, Image recognition, Keyword search, Speech recognition, Machine learning BibRef

Tapia, L.S.[Luis Sanchez], Gomez, A.[Antonio], Esparza, M.[Mario], Jatla, V.[Venkatesh], Pattichis, M.[Marios], Celedón-Pattichis, S.[Sylvia], López Leiva, C.[Carlos],
Bilingual Speech Recognition by Estimating Speaker Geometry from Video Data,
CAIP21(I:79-89).
Springer DOI 2112
BibRef

Qiao, F.C.[Feng-Chun], Peng, X.[Xi],
Uncertainty-guided Model Generalization to Unseen Domains,
CVPR21(6786-6796)
IEEE DOI 2111
Training, Image segmentation, Uncertainty, Perturbation methods, Text categorization, Semantics, Speech recognition BibRef

Ngantcha, P.[Patricia], Amith, M.[Muhammad], Tao, C.[Cui], Roberts, K.[Kirk],
Patient-Provider Communication Training Models for Interactive Speech Devices,
DHM21(I:250-268).
Springer DOI 2108
BibRef

Wu, Y.C.[Yi-Chieh], Liao, W.H.[Wen-Hung],
Toward Text-independent Cross-lingual Speaker Recognition Using English-Mandarin-Taiwanese Dataset,
ICPR21(8515-8522)
IEEE DOI 2105
Sociology, Speech recognition, Data collection, Acoustics, Data models, Speaker recognition, Speaker recognition, Cross-lingual dataset BibRef

Chen, Y.B.[Yang-Bin], Ma, Y.[Yun], Ko, T.[Tom], Wang, J.P.[Jian-Ping], Li, Q.[Qing],
MetaMix: Improved Meta-Learning with Interpolation-based Consistency Regularization,
ICPR21(407-414)
IEEE DOI 2105
Training, Adaptation models, Training data, Speech recognition, Classification algorithms, Task analysis BibRef

Zhou, L.X.[Li-Xia], Zhang, J.[Jun],
From Bottom to Top: A Coordinated Feature Representation Method for Speech Recognition,
MMDLCA20(396-403).
Springer DOI 2103
BibRef

Zhao, J., Parry, C.J., dos Anjos, R., Anslow, C., Rhee, T.,
Voice Interaction for Augmented Reality Navigation Interfaces with Natural Language Understanding,
IVCNZ20(1-6)
IEEE DOI 2012
Productivity, Image recognition, Navigation, Natural languages, Human-robot interaction, Speech recognition, Augmented reality, intelligent interface BibRef

ABAKARIM, F., ABENAOU, A.,
Amazigh isolated word speech recognition system using the Adaptive Orthogonal Transform Method.,
ISCV20(1-6)
IEEE DOI 2011
discrete wavelet transforms, feature extraction, principal component analysis, speech recognition, voice signals, DWT BibRef

Pérez, A.F., Sanguineti, V., Morerio, P., Murino, V.,
Audio-Visual Model Distillation Using Acoustic Images,
WACV20(2843-2852)
IEEE DOI 2006
Acoustics, Visualization, Data models, Training, Microphones, Machine learning, Synchronization BibRef

Tapu, R., Mocanu, B., Zaharia, T.,
Dynamic Subtitles: A Multimodal Video Accessibility Enhancement Dedicated to Deaf and Hearing Impaired Users,
ACVR19(2558-2566)
IEEE DOI 2004
audio signal processing, feature extraction, handicapped aids, hearing, speaker recognition, video signal processing, deaf users, active speaker detection BibRef

Roberto, A.[Antonio], Saggese, A.[Alessia], Vento, M.[Mario],
A Challenging Voice Dataset for Robotic Applications in Noisy Environments,
CAIP19(II:354-364).
Springer DOI 1909
BibRef

Naszádi, K.[Kata], Oualil, Y.[Youssef], Klakow, D.[Dietrich],
Image-Sensitive Language Modeling for Automatic Speech Recognition,
VL18(IV:173-179).
Springer DOI 1905
BibRef

Gauvain, J.[Jodie], Lamel, L.[Lori], Le, V.B.[Viet Bac], Despres, J.[Julien], Gauvain, J.L.[Jean-Luc], Messaoudi, A.[Abdel], Vieru, B.[Bianca], Ben Kheder, W.[Waad],
Challenges in Audio Processing of Terrorist-Related Data,
MMMod19(II:80-92).
Springer DOI 1901
BibRef

Jorrín, J.[Jesús], Buera, L.[Luis],
DANTE Speaker Recognition Module. An Efficient and Robust Automatic Speaker Searching Solution for Terrorism-Related Scenarios,
MMMod19(I:704-715).
Springer DOI 1901
BibRef

Galanopoulos, D.[Damianos], Mezaris, V.[Vasileios],
Temporal Lecture Video Fragmentation Using Word Embeddings,
MMMod19(II:254-265).
Springer DOI 1901
BibRef

Mukherjee, H., Obaidullah, S.M., Phadikar, S., Roy, K.,
A Dravidian Language Identification System,
ICPR18(2654-2657)
IEEE DOI 1812
Feature extraction, Speech recognition, Videos, Databases, NIST, Language Identification, Dravidian Language, LSP-G, FURIA BibRef

Galiotou, E.[Eleni], Karanikolas, N.[Nikitas], Ralli, A.[Angela],
Preservation and Management of Greek Dialectal Data,
EuroMed18(I:752-761).
Springer DOI 1811
Text and oral, dialects. BibRef

Li, R., Yu, J.,
Multimodal 3D visible articulation system for syllable based Mandarin Chinese training,
VCIP17(1-4)
IEEE DOI 1804
computer animation, computer based training, data visualisation, linguistics, mean square error methods, speech processing, multimodal human-computer interface BibRef

Le, N., Odobez, J.M.,
Improving Speaker Turn Embedding by Crossmodal Transfer Learning from Face Embedding,
CVAVM17(428-437)
IEEE DOI 1802
Acoustics, Face, Speech, Speech recognition, TV, Training BibRef

Arandjelovic, R.[Relja], Zisserman, A.[Andrew],
Look, Listen and Learn,
ICCV17(609-617)
IEEE DOI 1802
Audio-visual. learning (artificial intelligence), object recognition, video signal processing, audio networks, audio representations, Visualization BibRef

Muniandy, T.[Thagirarani], Alvar, T.A.[Thamilvaani Arvaree], Boon, C.J.[Chong Jiang],
Mandarin Language Learning System for Nasal Voice User,
IVIC17(376-388).
Springer DOI 1711
BibRef

Madhavi, M.C.[Maulik C.], Patil, H.A.[Hemant A.], Bhendawade, N.[Nikhil],
Spoken Keyword Retrieval Using Source and System Features,
PReMI17(333-341).
Springer DOI 1711
BibRef

Kacprzak, S.,
Spoken language clustering in the i-vectors space,
WSSIP17(1-5)
IEEE DOI 1707
Clustering algorithms, Data visualization, Impurities, NIST, Speech, Training, Training data, i-vectors, language clustering, language, recognition BibRef

Pironkov, G., Dupont, S., Dutoit, T.,
Speaker-aware Multi-Task Learning for automatic speech recognition,
ICPR16(2900-2905)
IEEE DOI 1705
Acoustics, Automatic speech recognition, Feature extraction, Machine learning, Speech, Training BibRef

Zhao, Y., Zhao, R.[Rui], Wang, X.Y.[Xiao-Yang], Ji, Q.,
Multilingual articulatory features augmentation learning,
ICPR16(2895-2899)
IEEE DOI 1705
Dictionaries, Encoding, Feature extraction, Mel frequency cepstral coefficient, Semantics, Speech, Speech recognition, latent attribute learning, multilingual articulatory features, phone recognition, sparse coding, speech, attributes BibRef