11.14.4.7.5 Audio-Visuao Deep Fake, Generation, Detection

Chapter Contents (Back)
Audio-Visual Deepfakes. Deepfakes. Fakes. 2506

Kong, C.Q.[Chen-Qi], Chen, B.L.[Bao-Liang], Yang, W.H.[Wen-Han], Li, H.L.[Hao-Liang], Chen, P.L.[Pei-Lin], Wang, S.Q.[Shi-Qi],
Appearance Matters, So Does Audio: Revealing the Hidden Face via Cross-Modality Transfer,
CirSysVideo(32), No. 1, January 2022, pp. 423-436.
IEEE DOI 2201
Faces, Videos, Information integrity, Face recognition, Training, Generative adversarial networks, Testing, Deepfake, cross modality, fake face BibRef

Cai, Z.X.[Zhi-Xi], Ghosh, S.[Shreya], Dhall, A.[Abhinav], Gedeon, T.[Tom], Stefanov, K.[Kalin], Hayat, M.[Munawar],
Glitch in the matrix: A large scale benchmark for content driven audio-visual forgery detection and localization,
CVIU(236), 2023, pp. 103818.
Elsevier DOI 2310
Datasets, Deepfake, Localization, Detection BibRef

Chu, B.[Beilin], You, W.[Weike], Yang, Z.[Zhen], Zhou, L.[Linna], Wang, R.[Renying],
Protecting World Leader Using Facial Speaking Pattern Against Deepfakes,
SPLetters(29), 2022, pp. 2078-2082.
IEEE DOI 2211
Lips, Deepfakes, Feature extraction, Faces, Gold, Transformers, Detectors, Face manipulation detection, speech pattern recognition BibRef

He, Y.[Yi], Yang, L.[Lei], Wang, S.L.[Shi-Lin], Liew, A.W.C.[Alan Wee-Chung],
Lip Feature Disentanglement for Visual Speaker Authentication in Natural Scenes,
CirSysVideo(34), No. 10, October 2024, pp. 9898-9909.
IEEE DOI 2411
Feature extraction, Lips, Authentication, Deepfakes, Visualization, Data mining, Shape, Lip biometrics, DeepFake spoofs BibRef

Wang, R.[Rui], Ye, D.[Dengpan], Tang, L.[Long], Zhang, Y.M.[Yun-Ming], Deng, J.C.[Jia-Cheng],
AVT^2-DWF: Improving Deepfake Detection With Audio-Visual Fusion and Dynamic Weighting Strategies,
SPLetters(31), 2024, pp. 1960-1964.
IEEE DOI 2408
Feature extraction, Transformers, Visualization, Training, Faces, Deepfakes, Forgery, Audio-visual, deepfake detection, dynamic weight fusion BibRef

Liu, M.[Miao], Wang, J.[Jing], Qian, X.Y.[Xin-Yuan], Li, H.Z.[Hai-Zhou],
Audio-Visual Temporal Forgery Detection Using Embedding-Level Fusion and Multi-Dimensional Contrastive Loss,
CirSysVideo(34), No. 8, August 2024, pp. 6937-6948.
IEEE DOI 2408
Deepfakes, Forgery, Location awareness, Visualization, Detectors, Task analysis, Proposals, Audio-visual deepfake detection, audio-visual inconsistency BibRef

Yu, Y.[Yang], Liu, X.L.[Xiao-Long], Ni, R.R.[Rong-Rong], Yang, S.Y.[Si-Yuan], Zhao, Y.[Yao], Kot, A.C.[Alex C.],
PVASS-MDD: Predictive Visual-Audio Alignment Self-Supervision for Multimodal Deepfake Detection,
CirSysVideo(34), No. 8, August 2024, pp. 6926-6936.
IEEE DOI 2408
Deepfakes, Visualization, Feature extraction, Forgery, Faces, Collaboration, Task analysis, Multimodal deepfake detection, self-supervised auxiliary BibRef

Wang, Y.J.[Yu-Jia], Huang, H.[Hua],
Audio-visual deepfake detection using articulatory representation learning,
CVIU(248), 2024, pp. 104133.
Elsevier DOI 2409
Deepfake detection, Audio-visual, Articulatory representation BibRef

Chen, Y.[Yu], Yu, Y.[Yang], Ni, R.R.[Rong-Rong], Li, H.L.[Hao-Liang], Wang, W.[Wei], Zhao, Y.[Yao],
NPVForensics: Learning VA correlations in non-critical phoneme-viseme regions for deepfake detection,
IVC(156), 2025, pp. 105461.
Elsevier DOI 2503
Multimodal deepfake detection, Non-critical phoneme-viseme, VA correlation learning, Self-supervised learning BibRef

Smeu, S.[Stefan], Boldisor, D.A.[Dragos-Alexandru], Oneata, D.[Dan], Oneata, E.[Elisabeta],
Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning,
CVPR25(18815-18825)
IEEE DOI 2508
Training, Deepfakes, Machine learning, Benchmark testing, Robustness, Data models, Safety, Unsupervised learning, deepfake detection, dataset bias BibRef

Astrid, M.[Marcella], Ghorbel, E.[Enjie], Aouada, D.[Djamila],
Statistics-Aware Audio-Visual Deepfake Detector,
ICIP24(2557-2563)
IEEE DOI 2411
Deepfakes, Visualization, Computational modeling, Deep architecture, Detectors, similarity BibRef

Oorloff, T.[Trevine], Koppisetti, S.[Surya], Bonettini, N.[Nicolò], Solanki, D.[Divyaraj], Colman, B.[Ben], Yacoob, Y.[Yaser], Shahriyari, A.[Ali], Bharaj, G.[Gaurav],
AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection,
CVPR24(27092-27102)
IEEE DOI 2410
Training, Representation learning, Learning systems, Deepfakes, Visualization, Accuracy, video deepfake detection, multimodal BibRef

Wani, T.M.[Taiba Majid], Gulzar, R.[Reeva], Amerini, I.[Irene],
ABC-CapsNet: Attention based Cascaded Capsule Network for Audio Deepfake Detection,
WiCV24(2464-2472)
IEEE DOI 2410
Deepfakes, Adaptation models, Attention mechanisms, Computational modeling, Scalability, FoR BibRef

Lu, Q.X.[Qian-Xi], He, Y.[Yi], Wang, S.L.[Shi-Lin],
Personatalk: Preserving Personalized Dynamic Speech Style In Talking Face Generation,
ICIP24(2257-2263)
IEEE DOI 2411
Training, Measurement, Visualization, Deepfakes, Lips, Dynamics, Authentication, Talking face generation, contrastive learning, reading intelligibility BibRef

Bohacek, M.[Matyas], Farid, H.[Hany],
Lost in Translation: Lip-Sync Deepfake Detection from Audio-Video Mismatch,
WMF24(4315-4323)
IEEE DOI 2410
Deepfakes, Voting, Mouth, Cloning, Robustness, deepfakes, media forensics BibRef

Jia, S.[Shan], Lyu, R.[Reilin], Zhao, K.[Kangran], Chen, Y.Z.[Yi-Ze], Yan, Z.Y.[Zhi-Yuan], Ju, Y.[Yan], Hu, C.B.[Chuan-Bo], Li, X.[Xin], Wu, B.Y.[Bao-Yuan], Lyu, S.W.[Si-Wei],
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics,
WMF24(4324-4333)
IEEE DOI 2410
Deepfakes, Machine learning algorithms, Forensics, Large language models, Training data, Focusing, Deepfake Detection, GPT4V BibRef

Raza, M.A.[Muhammad Anas], Malik, K.M.[Khalid Mahmood],
Multimodaltrace: Deepfake Detection using Audiovisual Representation Learning,
WMF23(993-1000)
IEEE DOI 2309
BibRef

Cozzolino, D.[Davide], Pianese, A.[Alessandro], Nießner, M.[Matthias], Verdoliva, L.[Luisa],
Audio-Visual Person-of-Interest DeepFake Detection,
WMF23(943-952)
IEEE DOI 2309
BibRef

Zhou, Y.[Yipin], Lim, S.N.[Ser-Nam],
Joint Audio-Visual Deepfake Detection,
ICCV21(14780-14789)
IEEE DOI 2203
Deep learning, Visualization, Computational modeling, Synchronization, Speech synthesis, Task analysis, Vision + other modalities BibRef

Ren, Y.Z.[Yan-Zhen], Liu, W.Y.[Wu-Yang], Liu, D.K.[Deng-Kai], Wang, L.[Lina],
Recalibrated Bandpass Filtering on Temporal Waveform for Audio Spoof Detection,
ICIP21(3907-3911)
IEEE DOI 2201
Filtering, Convolution, Tools, Feature extraction, Cognition, Speech synthesis, Audio spoof detection, Deepfake, ASVspoof BibRef

Agarwal, S.[Shruti], Farid, H.[Hany], Fried, O., Agrawala, M.,
Detecting Deep-Fake Videos from Phoneme-Viseme Mismatches,
WMF20(2814-2822)
IEEE DOI 2008
Videos, Lips, Face, Shape, Teeth, Robustness BibRef

Agarwal, S.[Shruti], Farid, H.[Hany],
Detecting Deep-Fake Videos from Aural and Oral Dynamics,
WMF21(981-989)
IEEE DOI 2109
Irrigation, Shape, Tracking, Face recognition, Forensics, Dynamics, Mouth BibRef

Hosler, B.[Brian], Salvi, D.[Davide], Murray, A.[Anthony], Antonacci, F.[Fabio], Bestagini, P.[Paolo], Tubaro, S.[Stefano], Stamm, M.C.[Matthew C.],
Do Deepfakes Feel Emotions? A Semantic Approach to Detecting Deepfakes Via Emotional Inconsistencies,
WMF21(1013-1022)
IEEE DOI 2109
Emotion recognition, Law, Semantics, Speech recognition, Media, Forgery BibRef

Gu, Y.W.[Ye-Wei], Zhao, X.F.[Xian-Feng], Gong, C.[Chen], Yi, X.W.[Xiao-Wei],
Deepfake Video Detection Using Audio-visual Consistency,
IWDW20(168-180).
Springer DOI 2103
BibRef

Jeon, H., Bang, Y., Woo, S.S.,
FakeTalkerDetect: Effective and Practical Realistic Neural Talking Head Detection with a Highly Unbalanced Dataset,
HBU19(1285-1287)
IEEE DOI 2004
face recognition, learning (artificial intelligence), neural nets, video signal processing, FakeTalkerDetect, few shot learning BibRef

Chapter on 3-D Object Description and Computation Techniques, Surfaces, Deformable, View Generation, Video Conferencing continues in
Fake News, Generation, Detection .

Last update:Oct 6, 2025 at 14:07:43