11.14.4.5 Talking Heads, Speech Driven Face Animation

Ding, Y., Huang, J., Pelachaud, C.,
Audio-Driven Laughter Behavior Controller,
AffCom(8), No. 4, October 2017, pp. 546-558.
IEEE DOI 1712
Animation, Correlation, Hidden Markov models, Lips, Mouth, Speech, Torso, Kalman filter, Laughter, animation synthesis, audio-driven, virtual character BibRef

Castro-González, Á., Alcocer-Luna, J., Malfaz, M., Alonso-Martín, F., Salichs, M.A.,
Evaluation of Artificial Mouths in Social Robots,
HMS(48), No. 4, August 2018, pp. 369-379.
IEEE DOI 1808
human-robot interaction, social robot, speaking robot, on-video robot, mouthless robot, artificial LED-based mouth, social robot BibRef

Jamaludin, A.[Amir], Chung, J.S.[Joon Son], Zisserman, A.[Andrew],
You Said That?: Synthesising Talking Faces from Audio,
IJCV(127), No. 11-12, December 2019, pp. 1767-1779.
Springer DOI 1911
BibRef

Vougioukas, K.[Konstantinos], Petridis, S.[Stavros], Pantic, M.[Maja],
Realistic Speech-Driven Facial Animation with GANs,
IJCV(128), No. 5, May 2020, pp. 1398-1413.
Springer DOI 2005
BibRef

Ahuja, C.[Chaitanya], Lee, D.W.[Dong Won], Nakano, Y.I.[Yukiko I.], Morency, L.P.[Louis-Philippe],
Style Transfer for Co-speech Gesture Animation: A Multi-speaker Conditional-mixture Approach,
ECCV20(XVIII:248-265).
Springer DOI 2012
BibRef

Sadoughi, N.[Najmeh], Busso, C.[Carlos],
Speech-Driven Expressive Talking Lips with Conditional Sequential Generative Adversarial Networks,
AffCom(12), No. 4, October 2021, pp. 1031-1044.
IEEE DOI 2112
Hidden Markov models, Speech recognition, Adaptation models, Training data, Data models, Lips, Generative adversarial networks, generative adversarial network BibRef

Zhang, J.N.[Jiang-Ning], Zeng, X.F.[Xian-Fang], Xu, C.[Chao], Liu, Y.[Yong],
Real-Time Audio-Guided Multi-Face Reenactment,
SPLetters(29), 2022, pp. 1-5.
IEEE DOI 2202
Faces, Task analysis, Head, Training, Real-time systems, Feature extraction, Convolution, Real-time face reenactment, generative adversarial nets BibRef

Xia, Y.F.[Yi-Fan], Zheng, W.B.[Wen-Bo], Wang, Y.M.[Yi-Ming], Yu, H.[Hui], Dong, J.Y.[Jun-Yu], Wang, F.Y.[Fei-Yue],
Local and Global Perception Generative Adversarial Network for Facial Expression Synthesis,
CirSysVideo(32), No. 3, March 2022, pp. 1443-1452.
IEEE DOI 2203
Task analysis, Face recognition, Mouth, Generative adversarial networks, Facial features, Generators, facial mask BibRef

Websdale, D.[Danny], Taylor, S.[Sarah], Milner, B.[Ben],
Speaker-Independent Speech Animation Using Perceptual Loss Functions and Synthetic Data,
MultMed(24), 2022, pp. 2539-2552.
IEEE DOI 2205
Visualization, Speech recognition, Real-time systems, Facial animation, Hidden Markov models, Face recognition, Mouth, recurrent neural networks BibRef

Yu, L.Y.[Ling-Yun], Xie, H.T.[Hong-Tao], Zhang, Y.D.[Yong-Dong],
Multimodal Learning for Temporally Coherent Talking Face Generation With Articulator Synergy,
MultMed(24), 2022, pp. 2950-2962.
IEEE DOI 2206
Mouth, Lips, Faces, Facial animation, Shape, Visualization, Task analysis, Articulator synergy, multimodal learning, video synthesis BibRef

Pham, H.X.[Hai X.], Wang, Y.T.[Yu-Ting], Pavlovic, V.[Vladimir],
Learning Continuous Facial Actions From Speech for Real-Time Animation,
AffCom(13), No. 3, July 2022, pp. 1567-1580.
IEEE DOI 2209
Acoustics, Faces, Hidden Markov models, Face recognition, Animation, Solid modeling, Deep learning, speech, emotion, facial action unit, animation BibRef

Sanguineti, V.[Valentina], Morerio, P.[Pietro], del Bue, A.[Alessio], Murino, V.[Vittorio],
Unsupervised Synthetic Acoustic Image Generation for Audio-Visual Scene Understanding,
IP(31), 2022, pp. 7102-7115.
IEEE DOI 2212
Acoustics, Task analysis, Visualization, Location awareness, Image reconstruction, Generative adversarial networks, Training, spatial audio BibRef

Zhang, J.L.[Jia-Le], Liu, C.X.[Cheng-Xin], Xian, K.[Ke], Cao, Z.G.[Zhi-Guo],
Large motion anime head animation using a cascade pose transform network,
PR(135), 2023, pp. 109181.
Elsevier DOI 2212
Talking head animation, Generative adversarial networks, Pose transformation, Anime image generation, Anime dataset BibRef

Zhang, J.L.[Jia-Le], Xian, K.[Ke], Liu, C.X.[Cheng-Xin], Chen, Y.P.[Yin-Peng], Cao, Z.G.[Zhi-Guo], Zhong, W.[Weicai],
Cptnet: Cascade Pose Transform Network for Single Image Talking Head Animation,
ACCV20(IV:493-508).
Springer DOI 2103
BibRef

Song, L.[Linsen], Wu, W.[Wayne], Fu, C.[Chaoyou], Loy, C.C.[Chen Change], He, R.[Ran],
Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis,
CirSysVideo(33), No. 3, March 2023, pp. 1247-1261.
IEEE DOI 2303
Faces, Mouth, Training, Production, Training data, Shape, Visualization, Talking face generation, video generation, GAN, thin-plate spline BibRef

Ye, Z.P.[Zi-Peng], Xia, M.F.[Meng-Fei], Yi, R.[Ran], Zhang, J.Y.[Ju-Yong], Lai, Y.K.[Yu-Kun], Huang, X.[Xuwei], Zhang, G.X.[Guo-Xin], Liu, Y.J.[Yong-Jin],
Audio-Driven Talking Face Video Generation With Dynamic Convolution Kernels,
MultMed(25), 2023, pp. 2033-2046.
IEEE DOI 2306
Kernel, Task analysis, Convolution, Faces, Feature extraction, Streaming media, Dynamic kernel, convolutional neural network, audio-driven talking-face generation BibRef

Xia, G.Y.[Gui-Yu], Luo, D.[Dong], Zhang, Z.Y.[Ze-Yuan], Sun, Y.[Yubao], Liu, Q.S.[Qing-Shan],
3D Information Guided Motion Transfer via Sequential Image Based Human Model Refinement and Face-Attention GAN,
CirSysVideo(33), No. 7, July 2023, pp. 3270-3283.
IEEE DOI 2307
Solid modeling, Image reconstruction, Faces, Image synthesis, Deformable models, Surface reconstruction, Motion transfer, motion image generation BibRef

Doukas, M.C.[Michail Christos], Ververas, E.[Evangelos], Sharmanska, V.[Viktoriia], Zafeiriou, S.P.[Stefanos P.],
Free-HeadGAN: Neural Talking Head Synthesis With Explicit Gaze Control,
PAMI(45), No. 8, August 2023, pp. 9743-9756.
IEEE DOI 2307
Faces, Head, Solid modeling, Videos, Magnetic heads, Optical imaging, Canonical 3D key-points, gaze estimation, gaze redirection, reenactment BibRef

Wu, R.L.[Rong-Liang], Yu, Y.C.[Ying-Chen], Zhan, F.N.[Fang-Neng], Zhang, J.H.[Jia-Hui], Zhang, X.Q.[Xiao-Qin], Lu, S.J.[Shi-Jian],
Audio-driven talking face generation with diverse yet realistic facial animations,
PR(144), 2023, pp. 109865.
Elsevier DOI 2310
Audio-driven talking face generation, Face, Face animation, Audio-to-visual mapping, Image synthesis BibRef

Sheng, Z.C.[Zhi-Cheng], Nie, L.Q.[Li-Qiang], Liu, M.[Meng], Wei, Y.W.[Yin-Wei], Gao, Z.[Zan],
Toward Fine-Grained Talking Face Generation,
IP(32), 2023, pp. 5794-5807.
IEEE DOI 2311
BibRef

Chen, B.L.[Bo-Lin], Wang, Z.[Zhao], Li, B.Z.[Bin-Zhe], Wang, S.Q.[Shi-Qi], Ye, Y.[Yan],
Compact Temporal Trajectory Representation for Talking Face Video Compression,
CirSysVideo(33), No. 11, November 2023, pp. 7009-7023.
IEEE DOI Code:
WWW Link. 2311
BibRef

Chen, B.L.[Bo-Lin], Wang, Z.[Zhao], Li, B.Z.[Bin-Zhe], Wang, S.R.[Shu-Run], Wang, S.Q.[Shi-Qi], Ye, Y.[Yan],
Interactive Face Video Coding: A Generative Compression Framework,
IP(34), 2025, pp. 2910-2925.
IEEE DOI Code:
WWW Link. 2505
Faces, Video coding, Image coding, Video compression, Analytical models, Image reconstruction, Solid modeling, Decoding, face video BibRef

Shen, S.[Shuai], Li, W.[Wanhua], Huang, X.[Xiaoke], Zhu, Z.[Zheng], Zhou, J.[Jie], Lu, J.W.[Ji-Wen],
SD-NeRF: Towards Lifelike Talking Head Animation via Spatially-Adaptive Dual-Driven NeRFs,
MultMed(26), 2024, pp. 3221-3234.
IEEE DOI 2402
Head, Videos, Solid modeling, Animation, Mouth, Visualization, Attention mechanism, neural radiance fields, talking head video synthesis BibRef

Hong, F.T.[Fa-Ting], Shen, L.[Li], Xu, D.[Dan],
DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video Generation,
PAMI(46), No. 5, May 2024, pp. 2997-3012.
IEEE DOI 2404
Faces, Head, Geometry, Magnetic heads, Estimation, Annotations, Talking head generation, geometry-guided video generation BibRef

Hong, F.T.[Fa-Ting], Zhang, L.H.[Long-Hao], Shen, L.[Li], Xu, D.[Dan],
Depth-Aware Generative Adversarial Network for Talking Head Video Generation,
CVPR22(3387-3396)
IEEE DOI 2210
Geometry, Learning systems, Annotations, Face recognition, Image representation, Generative adversarial networks, Image and video synthesis and generation BibRef

Xu, C.H.[Cheng-Hao], Yan, J.[Jiexi], Yang, Y.H.[Yan-Hua], Deng, C.[Cheng],
Implicit Compositional Generative Network for Length-Variable Co-Speech Gesture Synthesis,
MultMed(26), 2024, pp. 6325-6335.
IEEE DOI 2404
Interpolation, Encoding, Task analysis, Semantics, Mel frequency cepstral coefficient, Transformers, Correlation, compositional generation BibRef

Xu, C.H.[Cheng-Hao], Yan, J.[Jiexi], Deng, C.[Cheng],
Keep and Extent: Unified Knowledge Embedding for Few-Shot Image Generation,
IP(34), 2025, pp. 2315-2324.
IEEE DOI 2505
Training, Generators, Adaptation models, Image synthesis, Vectors, Matrix decomposition, Data models, Training data, generative adaptation BibRef

Zhao, M.[Minglu], Wang, W.[Wenmin], Chen, T.B.[Tong-Bao], Zhang, R.[Rui], Li, R.[Ruochen],
TA2V: Text-Audio Guided Video Generation,
MultMed(26), 2024, pp. 7250-7264.
IEEE DOI 2405
Task analysis, Semantics, Generators, Generative adversarial networks, Computational modeling, deep learning BibRef

Guo, J.Y.[Jia-Yi], Manukyan, H.[Hayk], Yang, C.Y.[Chen-Yu], Wang, C.F.[Chao-Fei], Khachatryan, L.[Levon], Navasardyan, S.[Shant], Song, S.[Shiji], Shi, H.[Humphrey], Huang, G.[Gao],
FaceCLIP: Facial Image-to-Video Translation via a Brief Text Description,
CirSysVideo(34), No. 6, June 2024, pp. 4270-4284.
IEEE DOI 2406
Task analysis, Training, Faces, Solid modeling, Image synthesis, Image reconstruction, Autoencoder, CLIP, facial video generation, transformer BibRef

Wang, X.P.[Xue-Ping], Ruan, T.[Tao], Xu, J.[Jun], Guo, X.[Xueni], Li, J.[Jiahe], Yan, F.H.[Fei-Hu], Zhao, G.Z.[Guang-Zhe], Wang, C.Y.[Cai-Yong],
Expression-aware neural radiance fields for high-fidelity talking portrait synthesis,
IVC(147), 2024, pp. 105075.
Elsevier DOI 2406
Talking portrait synthesis, Expression-aware neural radiance fields, Attention mechanism BibRef

Li, J.[Jiahe], Zhang, J.W.[Jia-Wei], Bai, X.[Xiao], Zhou, J.[Jun], Gu, L.[Lin],
Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis,
ICCV23(7534-7544)
IEEE DOI Code:
WWW Link. 2401
BibRef

Shin, A.H.[Ah-Hyung], Lee, J.H.[Jae-Ho], Hwang, J.[Jiwon], Kim, Y.[Yoonhyung], Park, G.M.[Gyeong-Moon],
Wav2NeRF: Audio-driven realistic talking head generation via wavelet-based NeRF,
IVC(148), 2024, pp. 105104.
Elsevier DOI 2407
Talking head generation, Neural radiance fields, Cross-modal generation, Audio-visual, Wavelet transform BibRef

Qiu, H.N.[Hao-Nan], Chen, Z.X.[Zhao-Xi], Jiang, Y.M.[Yu-Ming], Zhou, H.[Hang], Fan, X.Y.[Xiang-Yu], Yang, L.[Lei], Wu, W.[Wayne], Liu, Z.W.[Zi-Wei],
ReliTalk: Relightable Talking Portrait Generation from a Single Video,
IJCV(132), No. 8, August 2024, pp. 2713-2728.
Springer DOI 2408
BibRef

Gao, J.[Jian], Shu, C.[Chang], Zheng, X.M.[Xi-Min], Lu, Z.[Zheng], Bao, N.S.[Neng-Sheng],
MergeTalk: Audio-Driven Talking Head Generation From Single Image With Feature Merge,
SPLetters(31), 2024, pp. 1850-1854.
IEEE DOI 2408
Faces, Feature extraction, Solid modeling, Lips, Generative adversarial networks, Training, GAN BibRef

Liu, J.[Jin], Wang, X.[Xi], Fu, X.M.[Xiao-Meng], Chai, Y.S.[Ye-Sheng], Yu, C.[Cai], Dai, J.[Jiao], Han, J.Z.[Ji-Zhong],
OSM-Net: One-to-Many One-Shot Talking Head Generation With Spontaneous Head Motions,
CirSysVideo(34), No. 8, August 2024, pp. 6888-6900.
IEEE DOI 2408
Head, Mouth, Feature extraction, Faces, Circuits and systems, Shape, Task analysis, Talking head generation, generative model, one-to-many mapping BibRef

Zhang, J.[Jiale], Liu, C.X.[Cheng-Xin], Xian, K.[Ke], Cao, Z.G.[Zhi-Guo],
Hierarchical Feature Warping and Blending for Talking Head Animation,
CirSysVideo(34), No. 8, August 2024, pp. 7301-7314.
IEEE DOI 2408
Head, Image resolution, Task analysis, Generators, Vectors, Animation, Iterative methods, Talking head animation, anime dataset BibRef

Wang, S.Z.[Su-Zhen], Ma, Y.F.[Yi-Feng], Ding, Y.[Yu], Hu, Z.P.[Zhi-Peng], Fan, C.J.[Chang-Jie], Lv, T.J.[Tang-Jie], Deng, Z.D.[Zhi-Dong], Yu, X.[Xin],
StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads,
PAMI(46), No. 6, June 2024, pp. 4331-4347.
IEEE DOI 2405
Head, Videos, Magnetic heads, Codes, Faces, Decoding, Deep learning, facial animation, head pose generation, neural network, talking head generation BibRef

Chu, Z.J.[Zhao-Jie], Guo, K.L.[Kai-Ling], Xing, X.F.[Xiao-Fen], Lan, Y.L.[Yi-Lin], Cai, B.[Bolun], Xu, X.M.[Xiang-Min],
CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation,
CirSysVideo(34), No. 9, September 2024, pp. 8953-8965.
IEEE DOI Code:
WWW Link. 2410
Facial animation, Correlation, Mouth, Decoding, Speech processing, Visualization, 3D facial animation, hierarchical speech features, transformer BibRef

Wang, Z.[Zheng], Zhang, W.[Wei], Ye, L.[Long], Zeng, D.[Dan], Mei, T.[Tao],
Cross-Modal Quantization for Co-Speech Gesture Generation,
MultMed(26), 2024, pp. 10251-10263.
IEEE DOI 2410
Codes, Speech coding, Quantization (signal), Task analysis, Lips, Speech enhancement, Co-speech gesture generation, social robots BibRef

Tang, A.[Anni], He, T.Y.[Tian-Yu], Tan, X.[Xu], Ling, J.[Jun], Li, R.[Runnan], Zhao, S.[Sheng], Bian, J.[Jiang], Song, L.[Li],
Memories are One-to-Many Mapping Alleviators in Talking Face Generation,
PAMI(46), No. 12, December 2024, pp. 8758-8770.
IEEE DOI 2411
Faces, Visualization, Shape, Rendering (computer graphics), Feature extraction, Lips, Training, Memory learning, talking face generation BibRef

Sun, M.Z.[Ming-Ze], Xu, C.[Chao], Jiang, X.Y.[Xin-Yu], Liu, Y.[Yang], Sun, B.G.[Bai-Gui], Huang, R.Q.[Ru-Qi],
Beyond Talking: Generating Holistic 3D Human Dyadic Motion for Communication,
IJCV(133), No. 5, May 2025, pp. 2910-2926.
Springer DOI 2504
BibRef

Lyu, J.Y.[Jia-Yi], Lan, X.[Xing], Hu, G.[Guohong], Jiang, H.Y.[Han-Yu], Gan, W.[Wei], Wang, J.B.[Jin-Bao], Xue, J.[Jian],
Multimodal Emotional Talking Face Generation Based on Action Units,
CirSysVideo(35), No. 5, May 2025, pp. 4026-4038.
IEEE DOI 2505
Faces, Face recognition, Head, Accuracy, Mouth, Feature extraction, Lips, Facial muscles, Facial animation, Diffusion models, emotion generation BibRef

Chen, K.L.[Ke-Liang], Li, Z.Z.[Zong-Ze], Cui, F.[Fang], Ni, M.[Mao], Wang, S.Y.[Shao-Ying], Che, J.L.[Jun-Lin], Liu, F.[Feng], Qi, Y.G.[Yong-Gang], Zhang, F.W.[Fang-Wei], Liu, J.[Jun], Guo, G.[Gan], Fu, R.R.[Rong-Rong], Huang, Y.X.[Yun-Xia],
FastTalker: Real-time audio-driven talking face generation with 3D Gaussian,
IVC(159), 2025, pp. 105573.
Elsevier DOI 2505
Talking head generation, Portrait generation BibRef

Chen, L.Y.[Li-Yang], Bao, W.H.[Wei-Hong], Lei, S.[Shun], Tang, B.[Boshi], Wu, Z.Y.[Zhi-Yong], Kang, S.Y.[Shi-Yin], Huang, H.Z.[Hao-Zhi], Meng, H.[Helen],
AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation,
MultMed(27), 2025, pp. 3598-3609.
IEEE DOI 2506
Facial animation, Adaptation models, Head, Magnetic heads, Hidden Markov models, Faces, Synchronization, Solid modeling, Lips, talking face generation BibRef

Zhou, M.[Mohan], Bai, Y.[Yalong], Zhang, W.[Wei], Yao, T.[Ting], Zhao, T.J.[Tie-Jun],
Interactive Conversational Head Generation,
PAMI(47), No. 8, August 2025, pp. 6673-6686.
IEEE DOI 2507
Head, Oral communication, Magnetic heads, Artificial intelligence, Lips, Generators, Training, Faces, Digital humans, Data mining, video synthesis BibRef

Chu, Z.J.[Zhao-Jie], Guo, K.L.[Kai-Ling], Xing, X.F.[Xiao-Fen], Liu, P.S.[Peng-Sheng], Cai, B.[Bolun], Xu, X.M.[Xiang-Min],
DCPTalk: Speech-Driven 3D Face Animation With Personalized Facial Dynamic Coupling Properties,
MultMed(27), 2025, pp. 4427-4440.
IEEE DOI 2509
Facial animation, Facial muscles, Muscles, Mouth, Skin, Control systems, Lips, Shape, Deformation, 3D facial animation, facial muscle movement BibRef

Shi, W.Z.[Wu-Zhen], Xue, Z.[Zibang], Wen, Y.[Yang],
Keypoints and Action Units Jointly Drive Talking Head Generation for Video Conferencing,
CirSysVideo(35), No. 9, September 2025, pp. 8692-8706.
IEEE DOI 2509
Head, Faces, Accuracy, Videoconferences, Superresolution, Video recording, Quality assessment, Lips, Training, temporal consistency BibRef

Tang, J.X.[Jia-Xiang], Wang, K.S.Y.[Kai-Si-Yuan], Zhou, H.[Hang], Chen, X.K.[Xiao-Kang], He, D.L.[Dong-Liang], Hu, T.S.[Tian-Shu], Liu, J.T.[Jing-Tuo], Liu, Z.W.[Zi-Wei], Zeng, G.[Gang], Wang, J.D.[Jing-Dong],
Real-Time Neural Radiance Talking Portrait Synthesis via Audio-Spatial Decomposition,
IJCV(133), No. 9, September 2025, pp. 6362-6373.
Springer DOI 2509
BibRef

Ma, Y.F.[Yi-Feng], Wang, S.[Suzhen], Ding, Y.[Yu], Ma, B.[Bowen], Lv, T.J.[Tang-Jie], Fan, C.J.[Chang-Jie], Hu, Z.P.[Zhi-Peng], Deng, Z.D.[Zhi-Dong], Yu, X.[Xin],
TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles,
MultMed(27), 2025, pp. 6335-6346.
IEEE DOI 2510
Videos, Annotations, Gold, Training, Natural languages, Faces, Detectors, Lips, Visualization, Talking head generation, text-guided speaking styles BibRef

Vo, A.H.[Anh H.], Kim, T.S.[Tae-Seok], Jin, H.[Hulin], Choi, S.M.[Soo-Mi], Kim, Y.G.[Yong-Guk],
Instruction-Driven 3D Facial Expression Generation and Transition,
MultMed(27), 2025, pp. 6140-6153.
IEEE DOI 2510
Faces, Rendering (computer graphics), Vectors, Trajectory, Head, Neural radiance field, Fires, Field effect transistors, Avatars, instruction-driven BibRef

Wang, X.[Xihua], Song, R.H.[Rui-Hua], Li, C.X.[Chong-Xuan], Cheng, X.[Xin], Li, B.[Boyuan], Wu, Y.H.[Yi-Han], Wang, Y.Y.[Yu-Yue], Xu, H.T.[Hong-Teng], Wang, Y.F.[Yun-Feng],
Animate and Sound an Image,
CVPR25(23369-23378)
IEEE DOI 2508
Animates a static image and generates synchronized sound simultaneously. Measurement, Benchmark testing, Transformers, Diffusion models, Synchronization, Videos, video-audio joint generation, diffusion BibRef

Zhu, Y.M.[Yong-Ming], Zhang, L.H.[Long-Hao], Rong, Z.K.[Zheng-Kun], Hu, T.S.[Tian-Shu], Liang, S.[Shuang], Ge, Z.P.[Zhi-Peng],
INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations,
CVPR25(10667-10677)
IEEE DOI 2508
Visualization, Head, Codes, Noise reduction, Oral communication, Switches, Manuals, Linguistics, Videos BibRef

Guan, J.Z.[Jia-Zhi], Wang, K.Y.[Kaisi-Yuan], Xu, Z.L.[Zhi-Liang], Yang, Q.W.[Quan-Wei], Sun, Y.S.[Ya-Sheng], He, S.Y.[Sheng-Yi], Liang, B.[Borong], Cao, Y.[Yukang], Li, Y.Y.[Ying-Ying], Feng, H.C.[Hao-Cheng], Ding, E.[Errui], Wang, J.D.[Jing-Dong], Zhao, Y.J.[You-Jian], Zhou, H.[Hang], Liu, Z.W.[Zi-Wei],
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers,
CVPR25(10678-10689)
IEEE DOI Code:
WWW Link. 2508
Hands, Lips, Face recognition, Fitting, Transformers, Synchronization, Videos BibRef

Li, H.[Hao], Dai, J.[Ju], Zhao, X.[Xin], Zhou, F.[Feng], Pan, J.J.[Jun-Jun], Li, L.[Lei],
Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation,
CVPR25(183-192)
IEEE DOI Code:
WWW Link. 2508
Couplings, Solid modeling, Shape, Lips, Source coding, Semantics, Feature extraction, Decorrelation, Facial animation, bert BibRef

Wang, S.Z.[Sheng-Ze], Li, X.T.[Xue-Ting], Liu, C.[Chao], Chan, M.[Matthew], Stengel, M.[Michael], Fuchs, H.[Henry], de Mello, S.[Shalini], Nagano, K.[Koki],
Coherent 3D Portrait Video Reconstruction via Triplane Fusion,
CVPR25(10712-10722)
IEEE DOI 2508
Hands, Telepresence, Lighting, Streaming media, Real-time systems, Image reconstruction, Videos, Synthetic data, neural rendering BibRef

Ji, X.Z.[Xiao-Zhong], Hu, X.B.[Xia-Bin], Xu, Z.H.[Zhi-Hong], Zhu, J.W.[Jun-Wei], Lin, C.[Chuming], He, Q.[Qingdong], Zhang, J.N.[Jiang-Ning], Luo, D.H.[Dong-Hao], Chen, Y.[Yi], Lin, Q.[Qin], Lu, Q.L.[Qing-Lin], Wang, C.J.[Cheng-Jie],
Sonic: Shifting Focus to Global Audio Perception in Portrait Animation,
CVPR25(193-203)
IEEE DOI 2508
Visualization, Lips, Interference, Animation, Quality assessment, Synchronization, Video recording, Faces BibRef

Lai, P.[Peiwen], Zhong, W.Z.[Wei-Zhi], Qin, Y.P.[Yi-Peng], Ren, X.H.[Xiao-Hang], Wang, B.Y.[Bao-Yuan], Li, G.B.[Guan-Bin],
LLM-driven Multimodal and Multi-Identity Listening Head Generation,
CVPR25(10656-10666)
IEEE DOI 2508
Large language models, Face recognition, Computational modeling, Organizations, Acoustics, Digital humans, Speech processing, large language model BibRef

Zhen, D.C.[Ding-Cheng], Yin, S.[Shunshun], Qin, S.[Shiyang], Yi, H.[Hou], Zhang, Z.W.[Zi-Wei], Liu, S.Y.[Si-Yuan], Qi, G.[Gan], Tao, M.[Ming],
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation,
CVPR25(21075-21085)
IEEE DOI 2508
Unified modeling language, Animation, Transformers, Rendering (computer graphics), Real-time systems, Neck, ar tranformer BibRef

Li, X.[Xuanchen], Wang, J.Y.[Jian-Yu], Cheng, Y.H.[Yu-Hao], Zeng, Y.K.[Yi-Kun], Ren, X.Y.[Xing-Yu], Zhu, W.H.[Wen-Han], Zhao, W.M.[Wei-Ming], Yan, Y.C.[Yi-Chao],
Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture,
CVPR25(204-214)
IEEE DOI Code:
WWW Link. 2508
Geometry, Correlation, Avatars, Dynamics, Diffusion processes, Rendering (computer graphics), Facial animation, Faces, latent diffusion model BibRef

Zhong, T.Y.[Tian-Yun], Liang, C.[Chao], Jiang, J.W.[Jian-Wen], Lin, G.[Gaojie], Yang, J.Q.[Jia-Qi], Zhao, Z.[Zhou],
FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation,
CVPR25(3101-3110)
IEEE DOI Code:
WWW Link. 2508
Degradation, Ethics, Correlation, Avatars, Diffusion models, Robustness, Data models, Videos, talking head generation, diffusion distillation BibRef

Gong, S.J.[Sheng-Jie], Li, H.J.[Hao-Jie], Tang, J.P.[Jia-Peng], Hu, D.M.[Dong-Ming], Huang, S.[Shuangping], Chen, H.[Hao], Chen, T.S.[Tian-Shui], Liu, Z.[Zhuoman],
Monocular and Generalizable Gaussian Talking Head Animation,
CVPR25(5523-5534)
IEEE DOI Code:
WWW Link. 2508
Point cloud compression, Geometry, Head, Filtering, Depth measurement, Training data, Animation, generalizable 3d gaussian splatting BibRef

Li, J.[Jiahe], Zhang, J.W.[Jia-Wei], Bai, X.[Xiao], Zheng, J.[Jin], Zhou, J.[Jun], Gu, L.[Lin],
InsTaG: Learning Personalized 3D Talking Head from Few-Second Video,
CVPR25(10690-10700)
IEEE DOI Code:
WWW Link. 2508
Adaptation models, Synthesizers, Dynamics, Training data, Data models, Videos, talking head synthesis, 3d gaussian splatting, audio-visual generation BibRef

Chen, J.C.[Jian-Chuan], Hu, J.[Jingchuan], Wang, G.[Gaige], Jiang, Z.H.[Zhong-Hua], Zhou, T.[Tiansong], Chen, Z.W.[Zhi-Wen], Lv, C.F.[Cheng-Fei],
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting,
CVPR25(10723-10734)
IEEE DOI 2508
Deformation, Shape, Avatars, Rendering (computer graphics), Real-time systems, Mobile handsets, Distance measurement, multi-view BibRef

Gan, Y.[Yuan], Miao, J.X.[Jia-Xu], Wang, Y.Z.[Yun-Ze], Yang, Y.[Yi],
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation,
CVPR25(13434-13444)
IEEE DOI Code:
WWW Link. 2508
Privacy, Ethics, Purification, Perturbation methods, Animation, Synchronization, Security, Protection, Artificial intelligence, ai security BibRef

Peng, Z.Q.[Zi-Qiao], Fan, Y.B.[Yan-Bo], Wu, H.Y.[Hao-Yu], Wang, X.[Xuan], Liu, H.Y.[Hong-Yan], He, J.[Jun], Fan, Z.X.[Zhao-Xin],
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations,
CVPR25(21055-21064)
IEEE DOI Code:
WWW Link. 2508
Solid modeling, Fluids, Lips, Oral communication, Switches, Synchronization, Videos, talking head, interaction, conversation, facial animation BibRef

Chae-Yeon, L.[Lee], Hyun-Bin, O.[Oh], EunGi, H.[Han], Sung-Bin, K.[Kim], Nam, S.[Suekyeong], Oh, T.H.[Tae-Hyun],
Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics,
CVPR25(21065-21074)
IEEE DOI Code:
WWW Link. 2508
Measurement, Training, Solid modeling, Accuracy, Lips, Face recognition, Synchronization, Plugs, audio-visual representation learning BibRef

Li, Y.[Yuan], Bai, Z.Q.[Zi-Qian], Tan, F.[Feitong], Cui, Z.P.[Zhao-Peng], Fanello, S.[Sean], Zhang, Y.[Yinda],
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos,
CVPR25(21107-21116)
IEEE DOI 2508
Training, Headphones, Solid modeling, Head, Training data, Rendering (computer graphics), Cameras, Image reconstruction, Videos BibRef

Zhao, S.[Shuling], Hong, F.T.[Fa-Ting], Huang, X.S.[Xiao-Shui], Xu, D.[Dan],
Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation,
CVPR25(26232-26241)
IEEE DOI Code:
WWW Link. 2508
Codes, Image synthesis, Face recognition, Dynamics, Transformers, Distortion, Decoding, Faces, Videos, talking head video generation, codebook compensation BibRef

Wang, H.T.[Hao-Tian], Weng, Y.Z.[Yu-Zhe], Li, Y.Y.[Yue-Yan], Guo, Z.L.[Zi-Lu], Du, J.[Jun], Niu, S.T.[Shu-Tong], Ma, J.F.[Jie-Feng], He, S.[Shan], Wu, X.Y.[Xiao-Yan], Hu, Q.M.[Qi-Ming], Yin, B.[Bing], Liu, C.[Cong], Liu, Q.F.[Qing-Feng],
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion,
CVPR25(26212-26221)
IEEE DOI Code:
WWW Link. 2508
Measurement, Lips, Controllability, Diffusion models, Stability analysis, Thermal stability, Faces, Videos, emotion controllability BibRef

Khungurn, P.[Pramook],
Talking Head Anime 4: Distillation for Real-Time Performance,
WACV25(5018-5029)
IEEE DOI 2505
Image quality, Head, Computational modeling, Avatars, Graphics processing units, Games, machine learning BibRef

Hogue, S.[Steven], Zhang, C.X.[Chen-Xu], Tian, Y.P.[Ya-Peng], Guo, X.[Xiaohu],
Joint Co-Speech Gesture and Expressive Talking Face Generation Using Diffusion with Adapters,
WACV25(4163-4172)
IEEE DOI 2505
Training, Adaptation models, Diffusion models, Complexity theory, Faces, co-speech gestures, adapters BibRef

Diao, X.J.[Xing-Jian], Cheng, M.[Ming], Barrios, W.[Wayner], Jin, S.[Sou_Young],
FT2TF: First-Person Statement Text-to-Talking Face Generation,
WACV25(4821-4830)
IEEE DOI 2505
Measurement, Visualization, Teleconferencing, Fuses, Large language models, Pipelines, Linguistics, Feature extraction, multimodal learning BibRef

Ki, T.[Taekyung], Min, D.[Dongchan], Chae, G.[Gyeongsu],
Learning to Generate Conditional Tri-plane for 3d-aware Expression Controllable Portrait Animation,
ECCV24(I: 476-493).
Springer DOI 2412
BibRef

Tian, L.[Linrui], Wang, Q.[Qi], Zhang, B.[Bang], Bo, L.[Liefeng],
EMO: Emote Portrait Alive Generating Expressive Portrait Videos with Audio2video Diffusion Model Under Weak Conditions,
ECCV24(LXXXIII: 244-260).
Springer DOI 2412
BibRef

Fan, X.Y.[Xiang-Yu], Li, J.Q.[Jia-Qi], Lin, Z.Q.[Zhi-Qian], Xiao, W.Y.[Wei-Ye], Yang, L.[Lei],
Unitalker: Scaling up Audio-driven 3d Facial Animation Through A Unified Model,
ECCV24(XLI: 204-221).
Springer DOI 2412
BibRef

Deng, Y.[Yu], Wang, D.[Duomin], Wang, B.Y.[Bao-Yuan],
Portrait4D-V2: Pseudo Multi-view Data Creates Better 4d Head Synthesizer,
ECCV24(XVII: 316-333).
Springer DOI 2412
BibRef

Xu, Z.H.[Zhi-Hao], Gong, S.J.[Sheng-Jie], Tang, J.P.[Jia-Peng], Liang, L.Y.[Ling-Yu], Huang, Y.[Yining], Li, H.J.[Hao-Jie], Huang, S.P.[Shuang-Ping],
Kmtalk: Speech-driven 3d Facial Animation with Key Motion Embedding,
ECCV24(LVI: 236-253).
Springer DOI 2412
BibRef

Nocentini, F.[Federico], Besnier, T.[Thomas], Ferrari, C.[Claudio], Arguillere, S.[Sylvain], Berretti, S.[Stefano], Daoudi, M.[Mohamed],
Scantalk: 3d Talking Heads from Unregistered Scans,
ECCV24(XXIX: 19-36).
Springer DOI 2412
BibRef

Prashnani, E.[Ekta], Nagano, K.[Koki], de Mello, S.[Shalini], Luebke, D.[David], Gallo, O.[Orazio],
Avatar Fingerprinting for Authorized Use of Synthetic Talking-head Videos,
ECCV24(XV: 209-228).
Springer DOI 2412
BibRef

Li, D.Z.[Dong-Ze], Zhao, K.[Kang], Wang, W.[Wei], Ma, Y.F.[Yi-Feng], Peng, B.[Bo], Zhang, Y.Y.[Ying-Ya], Dong, J.[Jing],
S^3d-nerf: Single-shot Speech-driven Neural Radiance Field for High Fidelity Talking Head Synthesis,
ECCV24(X: 365-382).
Springer DOI 2412
BibRef

Wu, X.Z.[Xiu-Zhe], Sun, Y.T.[Yang-Tian], Chen, H.[Handi], Zhou, H.[Hang], Wang, J.D.[Jing-Dong], Liu, Z.Z.[Zheng-Zhe], Qi, X.J.[Xiao-Juan],
3D-Aware Text-Driven Talking Avatar Generation,
ECCV24(LXXXVIII: 416-433).
Springer DOI 2412
BibRef

Zhang, W.X.[Wei-Xia], Zhu, C.G.[Cheng-Guang], Gao, J.N.[Jing-Nan], Yan, Y.C.[Yi-Chao], Zhai, G.T.[Guang-Tao], Yang, X.K.[Xiao-Kang],
A Comparative Study of Perceptual Quality Metrics For Audio-Driven Talking Head Videos,
ICIP24(1218-1224)
IEEE DOI Code:
WWW Link. 2411
Performance evaluation, Visualization, Head, Image coding, Gaussian noise, Transform coding, Propulsion, audio-driven talking head generation BibRef

Lei, H.[Haobo], Bie, Z.[Zhisong], Jing, Z.[Zhao], Bie, H.X.[Hong-Xia],
Talking-Head Video Compression With Motion Semantic Enhancement Model,
ICIP24(1980-1986)
IEEE DOI 2411
Visualization, Image coding, Accuracy, Semantics, Redundancy, Bit rate, Estimation, video compression, motion semantic representation, deformable feature estimation BibRef

Xing, Y.Z.[Ya-Zhou], He, Y.Q.[Ying-Qing], Tian, Z.[Zeyue], Wang, X.T.[Xin-Tao], Chen, Q.F.[Qi-Feng],
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners,
CVPR24(7151-7161)
IEEE DOI Code:
WWW Link. 2410
Training, Industries, Bridges, Visualization, Noise reduction, Motion pictures BibRef

Mughal, M.H.[Muhammad Hamza], Dabral, R.[Rishabh], Habibie, I.[Ikhsanul], Donatelli, L.[Lucia], Habermann, M.[Marc], Theobalt, C.[Christian],
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis,
CVPR24(1388-1398)
IEEE DOI 2410
Focusing, Propulsion, Diffusion models, Controllability, gesture synthesis, multi-modal motion synthesis BibRef

Mehta, S.[Shivam], Deichler, A.[Anna], O'Regan, J.[Jim], Moëll, B.[Birger], Beskow, J.[Jonas], Henter, G.E.[Gustav Eje], Alexanderson, S.[Simon],
Fake it to make it: Using synthetic data to remedy the data shortage in joint multi-modal speech-and-gesture synthesis,
HUMOGen24(1952-1964)
IEEE DOI 2410
Training, Training data, Oral communication, motion synthesis, gesture synthesis, synthetic data, training-on-generated-data BibRef

Zhang, Q.[Qiang], Xiao, T.[Tong], Habeeb, H.[Haroun], Laich, L.[Larissa], Bouaziz, S.[Sofien], Snape, P.[Patrick], Zhang, W.J.[Wen-Jing], Cioffi, M.[Matthew], Zhang, P.Z.[Pei-Zhao], Pidlypenskyi, P.[Pavel], Lin, W.[Winnie], Ma, L.[Luming], Wang, M.J.[Meng-Jiao], Li, K.[Kunpeng], Long, C.J.[Cheng-Jiang], Song, S.[Steven], Prazak, M.[Martin], Sjoholm, A.[Alexander], Deogade, A.[Ajinkya], Lee, J.[Jaebong], Mangas, J.D.[Julio Delgado], Aubel, A.[Amaury],
REFA: Real-time Egocentric Facial Animations for Virtual Reality,
ABAW24(4793-4802)
IEEE DOI 2410
Headphones, Training, Solid modeling, Virtual environments, Resists, Cameras, Real-time systems, face tracking, virtual reality, face alignment BibRef

Yang, K.D.[Karren D.], Ranjan, A.[Anurag], Chang, J.H.R.[Jen-Hao Rick], Vemulapalli, R.[Raviteja], Tuzel, O.[Oncel],
Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks, Methods, and Applications,
CVPR24(27284-27293)
IEEE DOI 2410
Measurement, Training, Geometry, Solid modeling, Lips, Benchmark testing, speech-driven facial animation, synthetic data generation BibRef

Liu, Y.F.[Yi-Fei], Cao, Q.[Qiong], Wen, Y.D.[Yan-Dong], Jiang, H.[Huaiguang], Ding, C.X.[Chang-Xing],
Towards Variable and Coordinated Holistic Co-Speech Motion Generation,
CVPR24(1566-1576)
IEEE DOI Code:
WWW Link. 2410
Couplings, Codes, Quantization (signal), Avatars, Focusing, Probabilistic logic, Human Motion Generation, Speech-Driven 3D Avatar Synthesis BibRef

Ng, E.[Evonne], Romero, J.[Javier], Bagautdinov, T.[Timur], Bai, S.J.[Shao-Jie], Darrell, T.J.[Trevor J.], Kanazawa, A.[Angjoo], Richard, A.[Alexander],
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations,
CVPR24(1001-1010)
IEEE DOI 2410
Ethics, Visualization, Photorealism, Avatars, Vector quantization, Face recognition, gestures, generative motion, multimodal, face, body, hands BibRef

Zhang, Z.C.[Zi-Cheng], Zheng, R.[Ruobing], Li, B.[Bonan], Han, C.Y.[Cong-Ying], Li, T.Q.[Tian-Qi], Wang, M.[Meng], Guo, T.D.[Tian-De], Chen, J.D.[Jing-Dong], Liu, Z.W.[Zi-Wen], Yang, M.[Ming],
Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis,
CVPR24(5209-5219)
IEEE DOI Code:
WWW Link. 2410
Geometry, Training, Visualization, Deformation, Dynamics, Video sequences BibRef

Jang, Y.J.[Young-Joon], Kim, J.H.[Ji-Hoon], Ahn, J.[Junseok], Kwak, D.[Doyeop], Yang, H.S.[Hong-Sun], Ju, Y.C.[Yoon-Cheol], Kim, I.H.[Il-Hwan], Kim, B.Y.[Byeong-Yeol], Chung, J.S.[Joon Son],
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text,
CVPR24(8818-8828)
IEEE DOI 2410
Codes, Impedance matching, Noise, Text to speech, Timbre BibRef

Aneja, S.[Shivangi], Thies, J.[Justus], Dai, A.[Angela], Niessner, M.[Matthias],
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models,
CVPR24(21263-21273)
IEEE DOI Code:
WWW Link. 2410
Hair, Solid modeling, Shape, Face recognition, Diffusion models, Magnetic heads, Facial Animation, Digital Humans, Talking Heads BibRef

Hogue, S.[Steven], Zhang, C.X.[Chen-Xu], Daruger, H.[Hamza], Tian, Y.P.[Ya-Peng], Guo, X.H.[Xiao-Hu],
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures,
HUMOGen24(1922-1931)
IEEE DOI 2410
Head, Diffusion models, Rendering (computer graphics), Animation, Diffusion, co-speech gestures, talking video BibRef

Yaman, D.[Dogucan], Eyiokur, F.I.[Fevziye Irem], Bärmann, L.[Leonard], Akti, S.[Seymanur], Ekenel, H.K.[Hazim Kemal], Waibel, A.[Alexander],
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation,
NTIRE24(6003-6013)
IEEE DOI 2410
Measurement, Training, Visualization, Lips, Face recognition, Watermarking, Speech enhancement BibRef

Pham, T.T.[Trong Thang], Do, T.[Tuong], Le, N.[Nhat], Le, N.[Ngan], Nguyen, H.[Hung], Tjiputra, E.[Erman], Tran, Q.[Quang], Nguyen, A.[Anh],
Style Transfer for 2D Talking Head Generation,
GCV24(7500-7509)
IEEE DOI 2410
Head, Source coding, Streaming media, Animation, Generators, Distance measurement, Feeds, Talking Head Generation BibRef

Xu, C.[Chao], Liu, Y.[Yang], Xing, J.Z.[Jia-Zheng], Wang, W.[Weida], Sun, M.Z.[Ming-Ze], Dan, J.[Jun], Huang, T.X.[Tian-Xin], Li, S.Y.[Si-Yuan], Cheng, Z.Q.[Zhi-Qi], Tai, Y.[Ying], Sun, B.[Baigui],
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio,
CVPR24(1292-1302)
IEEE DOI 2410
Training, Geometry, Costs, Semantics, Diffusion models, Controllability, Talking Face, FaceChain BibRef

Stypulkowski, M.[Michal], Vougioukas, K.[Konstantinos], He, S.[Sen], Zieba, M.[Maciej], Petridis, S.[Stavros], Pantic, M.[Maja],
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation,
WACV24(5089-5098)
IEEE DOI 2404
Data models, Complexity theory, Faces, Videos, Algorithms, Generative models for image, video, 3D, etc., Algorithms, Biometrics, Vision + language and/or other modalities BibRef

Ni, H.M.[Hao-Miao], Liu, J.C.[Jia-Chen], Xue, Y.[Yuan], Huang, S.X.[Sharon X.],
3D-Aware Talking-Head Video Motion Transfer,
WACV24(4942-4952)
IEEE DOI 2404
Geometry, Solid modeling, Head, Art, Computational modeling, Algorithms, Generative models for image, video, 3D, etc., Algorithms, image and video synthesis BibRef

Zhao, L.[Lin], Li, H.X.[Hong-Xuan], Ning, X.F.[Xue-Fei], Jiang, X.[Xinru],
THInImg: Cross-modal Steganography for Presenting Talking Heads in Images,
WACV24(5541-5550)
IEEE DOI 2404
Steganography, Image resolution, Pipelines, Copyright protection, Encoding, Algorithms, image and video synthesis BibRef

Liu, Y.F.[Yun-Fei], Lin, L.J.[Li-Jian], Yu, F.[Fei], Zhou, C.Y.[Chang-Yin], Li, Y.[Yu],
MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions,
ICCV23(22963-22972)
IEEE DOI 2401
BibRef

Zheng, J.L.[Jia-Li], Jang, Y.[Youngkyoon], Papaioannou, A.[Athanasios], Kampouris, C.[Christos], Potamias, R.A.[Rolandos Alexandros], Papantoniou, F.P.[Foivos Paraperas], Galanakis, E.[Efstathios], Leonardis, A.[Aleš], Zafeiriou, S.[Stefanos],
ILSH: The Imperial Light-Stage Head Dataset for Human Head View Synthesis,
RHWC23(1104-1112)
IEEE DOI 2401
BibRef

Muaz, U.[Urwa], Jang, W.[Wondong], Tripathi, R.[Rohun], Mani, S.[Santhosh], Ouyang, W.B.[Wen-Bin], Gadde, R.T.[Ravi Teja], Gecer, B.[Baris], Elizondo, S.[Sergio], Madad, R.[Reza], Nair, N.[Naveen],
SIDGAN: High-Resolution Dubbed Video Generation via Shift-Invariant Learning,
ICCV23(7799-7808)
IEEE DOI 2401
BibRef

Li, W.C.[Wei-Chuang], Zhang, L.H.[Long-Hao], Wang, D.[Dong], Zhao, B.[Bin], Wang, Z.G.[Zhi-Gang], Chen, M.[Mulin], Zhang, B.[Bang], Wang, Z.J.[Zhong-Jian], Bo, L.[Liefeng], Li, X.L.[Xue-Long],
One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field,
CVPR23(17969-17978)
IEEE DOI 2309
BibRef

Jeong, Y.J.[Yu-Jin], Ryoo, W.[Wonjeong], Lee, S.H.[Seung-Hyun], Seo, D.[Dabin], Byeon, W.[Wonmin], Kim, S.[Sangpil], Kim, J.[Jinkyu],
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion,
ICCV23(7788-7798)
IEEE DOI Code:
WWW Link. 2401
BibRef

Gururani, S.[Siddharth], Mallya, A.[Arun], Wang, T.C.[Ting-Chun], Valle, R.[Rafael], Liu, M.Y.[Ming-Yu],
SPACE: Speech-driven Portrait Animation with Controllable Expression,
ICCV23(20857-20866)
IEEE DOI Code:
WWW Link. 2401
BibRef

Thambiraja, B.[Balamurugan], Habibie, I.[Ikhsanul], Aliakbarian, S.[Sadegh], Cosker, D.[Darren], Theobalt, C.[Christian], Thies, J.[Justus],
Imitator: Personalized Speech-driven 3D Facial Animation,
ICCV23(20564-20574)
IEEE DOI Code:
WWW Link. 2401
BibRef

Yang, P.[Peiji], Wei, H.[Huawei], Zhong, Y.C.[Yi-Cheng], Wang, Z.S.[Zhi-Sheng],
Semi-supervised Speech-driven 3D Facial Animation via Cross-modal Encoding,
ICCV23(20975-20984)
IEEE DOI 2401
BibRef

Wu, X.Z.[Xiu-Zhe], Hu, P.F.[Peng-Fei], Wu, Y.[Yang], Lyu, X.Y.[Xiao-Yang], Cao, Y.P.[Yan-Pei], Shan, Y.[Ying], Yang, W.M.[Wen-Ming], Sun, Z.Q.[Zhong-Qian], Qi, X.J.[Xiao-Juan],
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video,
ICCV23(22111-22120)
IEEE DOI Code:
WWW Link. 2401
BibRef

He, S.[Shan], He, H.[Haonan], Yang, S.[Shuo], Wu, X.Y.[Xiao-Yan], Xia, P.C.[Peng-Cheng], Yin, B.[Bing], Liu, C.[Cong], Dai, L.R.[Li-Rong], Xu, C.[Chang],
Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial Animation,
ICCV23(14146-14156)
IEEE DOI 2401
BibRef

Choi, J.[Jeongsoo], Hong, J.[Joanna], Ro, Y.M.[Yong Man],
DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding,
ICCV23(7778-7787)
IEEE DOI 2401
BibRef

Gong, Y.[Yuan], Zhang, Y.[Yong], Cun, X.D.[Xiao-Dong], Yin, F.[Fei], Fan, Y.B.[Yan-Bo], Wang, X.[Xuan], Wu, B.Y.[Bao-Yuan], Yang, Y.[Yujiu],
ToonTalker: Cross-Domain Face Reenactment,
ICCV23(7656-7666)
IEEE DOI 2401
BibRef

Yu, Z.T.[Zhen-Tao], Yin, Z.X.[Zi-Xin], Zhou, D.Y.[De-Yu], Wang, D.[Duomin], Wong, F.[Finn], Wang, B.Y.[Bao-Yuan],
Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors,
ICCV23(7611-7621)
IEEE DOI 2401
BibRef

Oorloff, T.[Trevine], Yacoob, Y.[Yaser],
Expressive Talking Head Video Encoding in StyleGAN2 Latent Space,
CVEU23(2990-2999)
IEEE DOI Code:
WWW Link. 2401
BibRef

Chen, L.Y.[Li-Yang], Wu, Z.Y.[Zhi-Yong], Li, R.[Runnan], Bao, W.H.[Wei-Hong], Ling, J.[Jun], Tan, X.[Xu], Zhao, S.[Sheng],
VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer,
CVEU23(2969-2979)
IEEE DOI 2401
BibRef

Hong, F.T.[Fa-Ting], Xu, D.[Dan],
Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Video Generation,
ICCV23(23005-23015)
IEEE DOI 2401
BibRef

Nocentini, F.[Federico], Ferrari, C.[Claudio], Berretti, S.[Stefano],
Learning Landmarks Motion from Speech for Speaker-agnostic 3d Talking Heads Generation,
CIAP23(I:340-351).
Springer DOI 2312
BibRef

Wang, Q.[Qianrui], Li, D.[Dengshi], Liao, L.[Liang], Song, H.[Hao], Li, W.[Wei], Xiao, J.[Jing],
ASVFI: Audio-Driven Speaker Video Frame Interpolation,
ICIP23(3200-3204)
IEEE DOI 2312
BibRef

Zeng, B.[Bohan], Liu, X.H.[Xu-Hui], Gao, S.C.[Si-Cheng], Liu, B.[Boyu], Li, H.[Hong], Liu, J.Z.[Jian-Zhuang], Zhang, B.C.[Bao-Chang],
Face Animation with an Attribute-Guided Diffusion Model,
GCV23(628-637)
IEEE DOI 2309
BibRef

Shen, S.[Shuai], Zhao, W.L.[Wen-Liang], Meng, Z.[Zibin], Li, W.[Wanhua], Zhu, Z.[Zheng], Zhou, J.[Jie], Lu, J.W.[Ji-Wen],
DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation,
CVPR23(1982-1991)
IEEE DOI 2309
BibRef

Zhang, B.[Bowen], Qi, C.Y.[Chen-Yang], Zhang, P.[Pan], Zhang, B.[Bo], Wu, H.T.[Hsiang-Tao], Chen, D.[Dong], Chen, Q.F.[Qi-Feng], Wang, Y.[Yong], Wen, F.[Fang],
MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation,
CVPR23(22096-22105)
IEEE DOI 2309
BibRef

Vahdati, D.S.[Danial Samadi], Nguyen, T.D.[Tai Duc], Stamm, M.C.[Matthew C.],
Defending Low-Bandwidth Talking Head Videoconferencing Systems From Real-Time Puppeteering Attacks,
WMF23(983-992)
IEEE DOI 2309
BibRef

Wang, D.[Duomin], Deng, Y.[Yu], Yin, Z.X.[Zi-Xin], Shum, H.Y.[Heung-Yeung], Wang, B.Y.[Bao-Yuan],
Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head Synthesis,
CVPR23(17979-17989)
IEEE DOI 2309
BibRef

Wang, J.[Jiayu], Zhao, K.[Kang], Zhang, S.W.[Shi-Wei], Zhang, Y.Y.[Ying-Ya], Shen, Y.J.[Yu-Jun], Zhao, D.L.[De-Li], Zhou, J.[Jingren],
LipFormer: High-fidelity and Generalizable Talking Face Generation with A Pre-learned Facial Codebook,
CVPR23(13844-13853)
IEEE DOI 2309
BibRef

Zhong, W.Z.[Wei-Zhi], Fang, C.W.[Chao-Wei], Cai, Y.Q.[Yin-Qi], Wei, P.X.[Peng-Xu], Zhao, G.M.[Gang-Ming], Lin, L.[Liang], Li, G.B.[Guan-Bin],
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors,
CVPR23(9729-9738)
IEEE DOI 2309
BibRef

Zhang, W.X.[Wen-Xuan], Cun, X.D.[Xiao-Dong], Wang, X.[Xuan], Zhang, Y.[Yong], Shen, X.[Xi], Guo, Y.[Yu], Shan, Y.[Ying], Wang, F.[Fei],
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation,
CVPR23(8652-8661)
IEEE DOI 2309
BibRef

Gao, Y.[Yue], Zhou, Y.[Yuan], Wang, J.L.[Jing-Lu], Li, X.[Xiao], Ming, X.[Xiang], Lu, Y.[Yan],
High-Fidelity and Freely Controllable Talking Head Video Generation,
CVPR23(5609-5619)
IEEE DOI 2309
BibRef

Huang, R.C.[Ri-Cong], Lai, P.W.[Pei-Wen], Qin, Y.P.[Yi-Peng], Li, G.B.[Guan-Bin],
Parametric Implicit Face Representation for Audio-Driven Facial Reenactment,
CVPR23(12759-12768)
IEEE DOI 2309
BibRef

Xing, J.[Jinbo], Xia, M.[Menghan], Zhang, Y.C.[Yue-Chen], Cun, X.D.[Xiao-Dong], Wang, J.[Jue], Wong, T.T.[Tien-Tsin],
CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior,
CVPR23(12780-12790)
IEEE DOI 2309
BibRef

Chatziagapi, A.[Aggelina], Samaras, D.[Dimitris],
AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction,
CVPR23(16878-16889)
IEEE DOI 2309
BibRef

Gustafson, J.[Joakim], Székely, E.[Eva], Alexandersson, S.[Simon], Beskow, J.[Jonas],
Casual chatter or speaking up? Adjusting articulatory effort in generation of speech and animation for conversational characters,
FG23(1-4)
IEEE DOI 2303
Lips, Face recognition, Social robots, Speech recognition, Gesture recognition, Animation, Behavioral sciences BibRef

Agarwal, A.[Aditya], Sen, B.[Bipasha], Mukhopadhyay, R.[Rudrabha], Namboodiri, V.[Vinay], Jawahar, C.V.,
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale,
WACV23(2216-2225)
IEEE DOI 2302
Training, Vocabulary, Statistical analysis, Veins, Pipelines, Auditory system, Applications: Social good, Education BibRef

Agarwal, M.[Madhav], Mukhopadhyay, R.[Rudrabha], Namboodiri, V.[Vinay], Jawahar, C.V.[C V],
Audio-Visual Face Reenactment,
WACV23(5167-5176)
IEEE DOI 2302
Measurement, Visualization, Motion segmentation, Lips, Mouth, Streaming media, Generators, Commercial/retail BibRef

Kim, K.[Kangyeol], Park, S.[Sunghyun], Lee, J.[Jaeseong], Chung, S.[Sunghyo], Lee, J.[Junsoo], Choo, J.[Jaegul],
AnimeCeleb: Large-Scale Animation CelebHeads Dataset for Head Reenactment,
ECCV22(VIII:414-430).
Springer DOI 2211
BibRef

Ling, J.W.[Jing-Wang], Wang, Z.B.[Zhi-Bo], Lu, M.[Ming], Wang, Q.[Quan], Qian, C.[Chen], Xu, F.[Feng],
Structure-Aware Editable Morphable Model for 3D Facial Detail Animation and Manipulation,
ECCV22(III:249-267).
Springer DOI 2211
BibRef

Youwang, K.[Kim], Ji-Yeon, K.[Kim], Oh, T.H.[Tae-Hyun],
CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes,
ECCV22(III:173-191).
Springer DOI 2211
BibRef

Zhou, M.[Mohan], Bai, Y.[Yalong], Zhang, W.[Wei], Yao, T.[Ting], Zhao, T.J.[Tie-Jun], Mei, T.[Tao],
Responsive Listening Head Generation: A Benchmark Dataset and Baseline,
ECCV22(XXXVIII:124-142).
Springer DOI 2211
BibRef

Hong, J.[Joanna], Kim, M.[Minsu], Ro, Y.M.[Yong Man],
VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection,
ECCV22(XXXVI:452-468).
Springer DOI 2211
BibRef

Shen, S.[Shuai], Li, W.H.[Wan-Hua], Zhu, Z.[Zheng], Duan, Y.Q.[Yue-Qi], Zhou, J.[Jie], Lu, J.W.[Ji-Wen],
Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis,
ECCV22(XII:666-682).
Springer DOI 2211
BibRef

Liang, B.[Borong], Pan, Y.[Yan], Guo, Z.Z.[Zhi-Zhi], Zhou, H.[Hang], Hong, Z.B.[Zhi-Bin], Han, X.G.[Xiao-Guang], Han, J.Y.[Jun-Yu], Liu, J.T.[Jing-Tuo], Ding, E.[Errui], Wang, J.D.[Jing-Dong],
Expressive Talking Head Generation with Granular Audio-Visual Control,
CVPR22(3377-3386)
IEEE DOI 2210
Training, Visualization, Shape, Lips, Pipelines, Mouth, Speech recognition, Image and video synthesis and generation BibRef

Fan, Y.R.[Ying-Ruo], Lin, Z.J.[Zhao-Jiang], Saito, J.[Jun], Wang, W.P.[Wen-Ping], Komura, T.[Taku],
FaceFormer: Speech-Driven 3D Facial Animation with Transformers,
CVPR22(18749-18758)
IEEE DOI 2210
Geometry, Solid modeling, Lips, Predictive models, Transformers, Vision + graphics, Vision applications and systems BibRef

Liu, X.[Xian], Wu, Q.Y.[Qian-Yi], Zhou, H.[Hang], Xu, Y.H.[Ying-Hao], Qian, R.[Rui], Lin, X.Y.[Xin-Yi], Zhou, X.W.[Xiao-Wei], Wu, W.[Wayne], Dai, B.[Bo], Zhou, B.[Bolei],
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation,
CVPR22(10452-10462)
IEEE DOI 2210
Avatars, Semantics, Pipelines, Vision + X, Face and gestures BibRef

Medina, S.[Salvador], Tome, D.[Denis], Stoll, C.[Carsten], Tiede, M.[Mark], Munhall, K.[Kevin], Hauptmann, A.[Alex], Matthews, I.[Iain],
Speech Driven Tongue Animation,
CVPR22(20374-20384)
IEEE DOI 2210
Solid modeling, Tongue, Lips, Face recognition, Mouth, Speech recognition, Face and gestures, Vision + graphics BibRef

Song, H.K.[Hyoung-Kyu], Woo, S.H.[Sang Hoon], Lee, J.[Junhyeok], Yang, S.M.[Seung-Min], Cho, H.[Hyunjae], Lee, Y.[Youseong], Choi, D.[Dongho], Kim, K.W.[Kang-Wook],
Talking Face Generation with Multilingual TTS,
CVPR22(21393-21398)
IEEE DOI 2210
Training, Face recognition, Buildings, Speech synthesis, Faces, Videos BibRef

Richard, A.[Alexander], Zollhöfer, M.[Michael], Wen, Y.D.[Yan-Dong], de la Torre, F.[Fernando], Sheikh, Y.[Yaser],
MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement,
ICCV21(1153-1162)
IEEE DOI 2203
Tongue, Telepresence, Lips, Scalability, Cameras, Vision + other modalities, Faces BibRef

Zhang, C.X.[Chen-Xu], Zhao, Y.F.[Yi-Fan], Huang, Y.F.[Yi-Fei], Zeng, M.[Ming], Ni, S.F.[Sai-Feng], Budagavi, M.[Madhukar], Guo, X.H.[Xiao-Hu],
FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning,
ICCV21(3847-3856)
IEEE DOI 2203
Solid modeling, Correlation, Lips, Dynamics, Rendering (computer graphics), Generative adversarial networks, Image and video synthesis BibRef

Guo, Y.D.[Yu-Dong], Chen, K.Y.[Ke-Yu], Liang, S.[Sen], Liu, Y.J.[Yong-Jin], Bao, H.J.[Hu-Jun], Zhang, J.Y.[Ju-Yong],
AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis,
ICCV21(5764-5774)
IEEE DOI 2203
Hair, Solid modeling, Head, Neural networks, Meetings, Neural generative models, Image and video synthesis, Vision + other modalities BibRef

Meshry, M.[Moustafa], Suri, S.[Saksham], Davis, L.S.[Larry S.], Shrivastava, A.[Abhinav],
Learned Spatial Representations for Few-shot Talking-Head Synthesis,
ICCV21(13809-13818)
IEEE DOI 2203
Solid modeling, Head, Shape, Image color analysis, Layout, Lighting, Image and video synthesis, Neural generative models, Representation learning BibRef

Wang, Q.L.[Qiu-Lin], Zhang, L.[Lu], Li, B.[Bo],
SAFA: Structure Aware Face Animation,
3DV21(679-688)
IEEE DOI 2201
Hair, Geometry, Solid modeling, Face recognition, Transforms, Animation, Face Animation, 3DMM, GAN BibRef

Zhou, H.[Hang], Sun, Y.S.[Ya-Sheng], Wu, W.[Wayne], Loy, C.C.[Chen Change], Wang, X.G.[Xiao-Gang], Liu, Z.W.[Zi-Wei],
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation,
CVPR21(4174-4184)
IEEE DOI 2111
Speech coding, Face recognition, Lips, Speech recognition, Aerospace electronics, Robustness BibRef

Ye, S.Q.[Shu-Quan], Han, C.[Chu], Lin, J.Y.[Jia-Ying], Han, G.Q.[Guo-Qiang], He, S.F.[Sheng-Feng],
Coherence and Identity Learning for Arbitrary-length Face Video Generation,
ICPR21(915-922)
IEEE DOI 2105
Interpolation, Visualization, Face recognition, Coherence, Generative adversarial networks, Generators BibRef

Liang, H.[Hao], Yu, L.[Lulan], Xu, G.[Guikang], Raj, B.[Bhiksha], Singh, R.[Rita],
Controlled Autoencoders to Generate Faces from Voices,
ISVC20(I:476-487).
Springer DOI 2103
BibRef

Liao, M.[Miao], Zhang, S.[Sibo], Wang, P.[Peng], Zhu, H.[Hao], Zuo, X.[Xinxin], Yang, R.G.[Rui-Gang],
Speech2video Synthesis with 3d Skeleton Regularization and Expressive Body Poses,
ACCV20(V:308-323).
Springer DOI 2103
BibRef

Xue, H., Ling, J., Song, L., Xie, R., Zhang, W.,
Realistic Talking Face Synthesis With Geometry-Aware Feature Transformation,
ICIP20(1581-1585)
IEEE DOI 2011
Talking face synthesis, GANs, geometry-aware, feature transformation BibRef

Chen, L.[Lele], Cui, G.F.[Guo-Feng], Liu, C.L.[Ce-Long], Li, Z.[Zhong], Kou, Z.[Ziyi], Xu, Y.[Yi], Xu, C.L.[Chen-Liang],
Talking-head Generation with Rhythmic Head Motion,
ECCV20(IX:35-51).
Springer DOI 2011
BibRef

Khakhulin, T.[Taras], Sklyarova, V.[Vanessa], Lempitsky, V.[Victor], Zakharov, E.[Egor],
Realistic One-Shot Mesh-Based Head Avatars,
ECCV22(II:345-362).
Springer DOI 2211
BibRef

Zakharov, E.[Egor], Ivakhnenko, A.[Aleksei], Shysheya, A.[Aliaksandra], Lempitsky, V.[Victor],
Fast Bi-layer Neural Synthesis of One-shot Realistic Head Avatars,
ECCV20(XII: 524-540).
Springer DOI 2010
BibRef

Chu, H.[Hang], Ma, S.G.[Shu-Gao], de la Torre, F.[Fernando], Fidler, S.[Sanja], Sheikh, Y.[Yaser],
Expressive Telepresence via Modular Codec Avatars,
ECCV20(XII: 330-345).
Springer DOI 2010
BibRef

Thies, J.[Justus], Elgharib, M.[Mohamed], Tewari, A.[Ayush], Theobalt, C.[Christian], Nießner, M.[Matthias],
Neural Voice Puppetry: Audio-driven Facial Reenactment,
ECCV20(XVI: 716-731).
Springer DOI 2010
BibRef

Pang, W.[Wei], Wang, X.J.[Xiao-Jie],
Guessing State Tracking for Visual Dialogue,
ECCV20(XVI: 683-698).
Springer DOI 2010
BibRef

Das, D.[Dipanjan], Biswas, S.[Sandika], Sinha, S.[Sanjana], Bhowmick, B.[Brojeshwar],
Speech-driven Facial Animation Using Cascaded Gans for Learning of Motion and Texture,
ECCV20(XXX: 408-424).
Springer DOI 2010
BibRef

Shalev, Y.[Yoav], Wolf, L.B.[Lior B.],
Image Animation with Perturbed Masks,
CVPR22(3637-3646)
IEEE DOI 2210
Codes, Shape, Perturbation methods, Benchmark testing, Generators, Encoding, Image and video synthesis and generation, Vision applications and systems BibRef

Mittal, G., Wang, B.,
Animating Face using Disentangled Audio Representations,
WACV20(3279-3287)
IEEE DOI 2006
Face, Solid modeling, Phonetics, Predictive models BibRef

Chen, Z., Liu, Z., Hu, H., Bai, J., Lian, S., Shi, F., Wang, K.,
A Realistic Face-to-Face Conversation System Based on Deep Neural Networks,
ACVR19(2575-2583)
IEEE DOI 2004
avatars, computer animation, face recognition, learning (artificial intelligence), neural nets, Face Synthesizer BibRef

Zakharov, E., Shysheya, A., Burkov, E., Lempitsky, V.,
Few-Shot Adversarial Learning of Realistic Neural Talking Head Models,
ICCV19(9458-9467)
IEEE DOI 2004
convolutional neural nets, image classification, learning (artificial intelligence), video signal processing, Adaptation models BibRef

Cudeiro, D.[Daniel], Bolkart, T.[Timo], Laidlaw, C.[Cassidy], Ranjan, A.[Anurag], Black, M.J.[Michael J.],
Capture, Learning, and Synthesis of 3D Speaking Styles,
CVPR19(10093-10103).
IEEE DOI 2002
BibRef

Chen, L.[Lele], Maddox, R.K.[Ross K.], Duan, Z.Y.[Zhi-Yao], Xu, C.L.[Chen-Liang],
Hierarchical Cross-Modal Talking Face Generation With Dynamic Pixel-Wise Loss,
CVPR19(7824-7833).
IEEE DOI 2002
BibRef

Chu, H.[Hang], Li, D.Q.[Dai-Qing], Fidler, S.[Sanja],
A Face-to-Face Neural Conversation Model,
CVPR18(7113-7121)
IEEE DOI 1812
Conversation. Face, Motion pictures, Adaptation models, Hidden Markov models, Decoding, History, Encoding BibRef

Afouras, T.[Triantafyllos], Asano, Y.M.[Yuki M.], Fagan, F.[Francois], Vedaldi, A.[Andrea], Metze, F.[Florian],
Self-supervised object detection from audio-visual correspondence,
CVPR22(10565-10576)
IEEE DOI 2210
Training, Location awareness, Heating systems, Instruments, Music, Detectors, Object detection, Vision + X, Recognition: detection, Self-& semi-& meta- & unsupervised learning BibRef

Feng, C.[Chao], Chen, Z.Y.[Zi-Yang], Owens, A.[Andrew],
Self-Supervised Video Forensics by Audio-Visual Anomaly Detection,
CVPR23(10491-10503)
IEEE DOI 2309
BibRef

Afouras, T.[Triantafyllos], Owens, A.[Andrew], Chung, J.S.[Joon Son], Zisserman, A.[Andrew],
Self-supervised Learning of Audio-visual Objects from Video,
ECCV20(XVIII:208-224).
Springer DOI 2012
BibRef

Wiles, O.[Olivia], Koepke, A.S.[A. Sophia], Zisserman, A.[Andrew],
Self-Supervised Learning of Class Embeddings from Video,
CEFRL19(3019-3027)
IEEE DOI 2004
BibRef
Earlier:
X2Face: A Network for Controlling Face Generation Using Images, Audio, and Pose Codes,
ECCV18(XIII: 690-706).
Springer DOI 1810
feature extraction, pose estimation, probability, supervised learning, video signal processing, learned representations. BibRef

Modrzejewski, M.[Mateusz], Rokita, P.[Przemyslaw],
Graphical Interface Design for Chatbots for the Needs of Artificial Intelligence Support in Web and Mobile Applications,
ICCVG18(48-56).
Springer DOI 1810
BibRef

Nakatani, S.[Shota], Saiki, S.[Sachio], Nakamura, M.[Masahide], Yasuda, K.[Kiyoshi],
Generating Personalized Virtual Agent in Speech Dialogue System for People with Dementia,
DHM18(326-337).
Springer DOI 1807
BibRef

Huber, B., McDuff, D.,
Facial Expression Grounded Conversational Dialogue Generation,
FG18(365-372)
IEEE DOI 1806
Face, Gesture recognition, Dialogue Generation, Facial Expression BibRef

Luo, C., Yu, J., Li, X., Zhang, L.,
HMM based speech-driven 3D tongue animation,
ICIP17(4377-4381)
IEEE DOI 1803
Animation, Deformable models, Hidden Markov models, Sensors, Solid modeling, Speech, Tongue, articulatory movements, tongue animation BibRef

Filntisis, P.P., Katsamanis, A., Maragos, P.,
Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis,
ICIP17(2941-2945)
IEEE DOI 1803
Acoustics, Active appearance model, Adaptation models, Hidden Markov models, Interpolation, Shape, Visualization, photorealistic BibRef

Filntisis, P.P., Katsamanis, A., Maragos, P.,
Demonstration of an HMM-based photorealistic expressive audio-visual speech synthesis system,
ICIP17(4588-4588)
IEEE DOI 1803
Face, Hidden Markov models, Interpolation, Portable computers, Speech, Speech synthesis, Technological innovation BibRef

Wang, Y.B.[Yan-Bin], Khoo, E.T.[Eng Tat],
Real-time stereoscopic rendering of realistic avatar for interactive 3D telepresence system,
ICIVC17(577-581)
IEEE DOI 1708
Avatars, Cameras, Collaboration, Rendering (computer graphics), Virtual environments, avatar rendering, collaborative virtual environment, stereoscopic 3D, telepresence, virtual, reality BibRef

Yu, J.[Jun],
A Real-Time 3D Visual Singing Synthesis: From Appearance to Internal Articulators,
MMMod17(I: 53-64).
Springer DOI 1701
BibRef

Dawood, S.[Samia], Hicks, Y.[Yulia], Marshall, D.[David],
Speech-Driven Facial Animation Using Manifold Relevance Determination,
CVAVM16(II: 869-882).
Springer DOI 1611
BibRef

Malleson, C.[Charles], Bazin, J.C., Wang, O., Bradley, D., Beeler, T., Hilton, A.[Adrian], Sorkine-Hornung, A.,
FaceDirector: Continuous Control of Facial Performance in Video,
ICCV15(3979-3987)
IEEE DOI 1602
Face BibRef

Musti, U.[Utpala], Zhou, Z.H.[Zi-Heng], Pietikainen, M.[Matti],
Facial 3D Shape Estimation from Images for Visual Speech Animation,
ICPR14(40-45)
IEEE DOI 1412
Estimation BibRef

Yu, J.[Jun], Li, A.[Aijun],
3D visual pronunciation of Mandarine Chinese for language learning,
ICIP14(2036-2040)
IEEE DOI 1502
Animation BibRef

Anderson, R.[Robert], Stenger, B.[Bjorn], Wan, V.[Vincent], Cipolla, R.[Roberto],
Expressive Visual Text-to-Speech Using Active Appearance Models,
CVPR13(3382-3389)
IEEE DOI 1309

See also Dense Active Appearance Models Using a Bounded Diameter Minimum Spanning Tree. BibRef

Manresa-Yee, C.[Cristina], Ponsa, P.[Pere], Arellano, D.[Diana], Larrea, M.[Martin],
An Avatar Acceptance Study for Home Automation Scenarios,
AMDO12(230-238).
Springer DOI 1208
BibRef

Tang, Y.Q.[Yong-Qing], Fang, Y.[Yong], Huang, Q.H.[Qing-Hua],
Audio personalization using head related transfer function in 3DTV,
3DTV11(1-4).
IEEE DOI 1105
BibRef

Liu, K.[Kang], Ostermann, J.[Joern],
Realistic head motion synthesis for an image-based talking head,
FG11(125-130).
IEEE DOI 1103
BibRef
And: FG11(221-226).
IEEE DOI 1103
BibRef

Chaloupka, J.[Josef], Chaloupka, Z.[Zdenek],
Czech Artificial Computerized Talking Head George,
COST08(324-330).
Springer DOI 0810
BibRef

Zhao, H.[Hui], Chen, Y.B.[Yue-Bing], Shen, Y.M.[Ya-Min], Tang, C.J.[Chao-Jing],
Audio-Visual Speech Synthesis Based on Chinese Visual Triphone,
CISP09(1-5).
IEEE DOI 0910
BibRef

Hu, Y.L.[Yong-Li], Zhou, M.Q.[Ming-Quan], Wu, Z.K.[Zhong-Ke],
An Automatic Dense Point Registration Method for 3D Face Animation,
CISP09(1-6).
IEEE DOI 0910
BibRef

Berger, M.O.[Marie-Odile], Ponroy, J.[Jonathan], Wrobel-Dautcourt, B.[Brigitte],
Realistic Face Animation for Audiovisual Speech Applications: A Densification Approach Driven by Sparse Stereo Meshes,
MIRAGE09(297-307).
Springer DOI 0905
BibRef

Verdet, F.[Florian], Hennebert, J.[Jean],
Impostures of Talking Face Systems Using Automatic Face Animation,
BTAS08(1-4).
IEEE DOI 0809
BibRef

Gaur, U.[Utkarsh], Jain, A.[Amrita], Goel, S.[Sanjay],
Towards Real-Time Monocular Video-Based Avatar Animation,
ISVC08(II: 949-958).
Springer DOI 0812
BibRef

Badin, P.[Pierre], Elisei, F.[Frédéric], Bailly, G.[Gérard], Tarabalka, Y.[Yuliya],
An Audiovisual Talking Head for Augmented Speech Generation: Models and Animations Based on a Real Speaker's Articulatory Data,
AMDO08(xx-yy).
Springer DOI 0807
BibRef

Fanelli, G.[Gabriele], Fratarcangeli, M.[Marco],
A Non-Invasive Approach for Driving Virtual Talking Heads from Real Facial Movements,
3DTV07(1-4).
IEEE DOI 0705
BibRef

Xiong, L.[Lei], Zheng, N.N.[Nan-Ning], You, Q.[Qubo], Liu, J.Y.[Jian-Yi],
Facial Expression Sequence Synthesis Based on Shape and Texture Fusion Model,
ICIP07(IV: 473-476).
IEEE DOI 0709
BibRef

Beaumesnil, B.[Brice], Luthon, F.[Franck],
Real Time Tracking for 3D Realistic Lip Animation,
ICPR06(I: 219-222).
IEEE DOI 0609
BibRef

Ravindra de Silva, P., Madurapperuma, A.P., Marasinghe, A., Osano, M.,
Integrating Animated Pedagogical Agent as Motivational Supporter into Interactive System,
CRV06(34-34).
IEEE DOI 0607
BibRef

Pei, Y.R.[Yu-Ru], Zha, H.B.[Hong-Bin],
Vision Based Speech Animation Transferring with Underlying Anatomical Structure,
ACCV06(I:591-600).
Springer DOI 0601
BibRef

Liu, Y.H.[Yang-Hua], Xu, G.Y.[Guang-You], Tao, L.M.[Lin-Mi],
An Efficient Approach for Multi-view Face Animation Based on Quasi 3D Model,
ACCV06(II:913-922).
Springer DOI 0601
BibRef

Leszczynski, M.[Mariusz], Skarbek, W.[Wladyslaw],
Viseme Classification for Talking Head Application,
CAIP05(773).
Springer DOI 0509
BibRef
Earlier:
Viseme recognition: A comparative study,
AVSBS05(287-292).
IEEE DOI 0602
BibRef

Leszczynski, M.[Mariusz], Skarbek, W.[Wladyslaw], Badura, S.[Stanislaw],
Fast Viseme Recognition for Talking Head Application,
ICIAR05(516-523).
Springer DOI 0509
BibRef

Gracia-Roche, J.J.[Juan José], Orrite, C.[Carlos], Bernués, E.[Emiliano], Herrero, J.E.[José Elías],
Color Distribution Tracking for Facial Analysis,
IbPRIA05(I:484).
Springer DOI 0509
BibRef

Ypsilos, I.A., Hilton, A., Turkmani, A., Jackson, P.J.B.,
Speech-driven face synthesis from 3D video,
3DPVT04(58-65).
IEEE DOI 0412
BibRef

Saisan, P.[Payam], Bissacco, A.[Alessandro], Chiuso, A.[Alessandro], Soatto, S.[Stefano],
Modeling and Synthesis of Facial Motion Driven by Speech,
ECCV04(Vol III: 456-467).
Springer DOI 0405
BibRef

Malcangi, M.[Mario], de Tintis, R.[Raffaele],
Audio Based Real-Time Speech Animation of Embodied Conversational Agents,
GW03(350-360).
Springer DOI 0405
BibRef

Aleksic, P.S., Katsaggelos, A.K.,
Speech-to-video synthesis using facial animation parameters,
ICIP03(III: 1-4).
IEEE DOI 0312
BibRef

Hack, C.A., Taylor, C.J.,
Modelling 'Talking Head' Behaviour,
BMVC03(xx-yy).
HTML Version. 0409
BibRef

Choi, K.H.[Kyoung-Ho], Hwang, J.N.[Jenq-Neng],
Creating 3D speech-driven talking heads: a probabilistic network approach,
ICIP02(I: 984-987).
IEEE DOI 0210
BibRef

Hong, P.Y.[Peng-Yu], Wen, Z.[Zhen], Huang, T.S., Shum, H.Y.[Heung-Yeung],
Real-time speech-driven 3D face animation,
3DPVT02(713-716).
IEEE DOI 0206
BibRef

Morishima, S., Yotsukura, T.,
Hypermask: Talking Head Projected Onto Moving Surface,
ICIP01(III: 947-950).
IEEE DOI 0108
BibRef

Neumann, J.[Jan], Aloimonos, Y.[Yiannis],
Talking Heads: Introducing the tool of 3D motion fields in the study of action,
HUMO00(25-32).
IEEE Top Reference. 0010
BibRef

Chen, T.H.[Tsu-Han], Wang, Y.[Yao], Graf, H.P., Swain, C.T.,
A new frame interpolation scheme for talking head sequences,
ICIP95(II: 591-594).
IEEE DOI 9510
BibRef

Shan, S.,
Individual 3d Face Synthesis Based on Orthogonal Photos and Speech-driven Facial Animation,
ICIP00(Vol III: 238-241).
IEEE DOI 0008
BibRef

Noh, J.Y.[Jun-Yong], Neumann, U.[Ulrich],
Talking Face,
ICME00(TA1). 0007
BibRef

Kakihara, K.[Kiyotsugu], Nakamura, S.[Satoshi], Shikano, K.[Kiyohiro],
Speech-To-Face Movement Synthesis Based on HMMS,
ICME00(MP7). 0007
BibRef

Van Gool, L.J.[Luc J.], Tuytelaars, T.[Tinne], Pollefeys, M.[Marc],
Adventurous Tourism for Couch Potatoes,
CAIP99(98-107).
Springer DOI 9909
Talking mask, display of scene, etc. BibRef

Ishikawa, T., Sera, H., Morishima, S., Terzopoulos, D.,
Facial Image Reconstruction by Estimated Muscle Parameter,
AFGR98(342-347).
IEEE DOI BibRef 9800

Bothe, H.H.[Hans H.],
A visual speech model based on fuzzy-neuro methods,
CIAP95(152-158).
Springer DOI 9509
BibRef

Chapter on 3-D Object Description and Computation Techniques, Surfaces, Deformable, View Generation, Video Conferencing continues in
Audio Video Synchronization, Analysis, Generation .

Last update:Oct 6, 2025 at 14:07:43