11.14.3.7.4 Vision Transformers for Image Generation and Image Synthesis

Chapter Contents (Back)
Vision Transformers. Transformers. Synthesis. Image Generation. Image Synthesis.
See also Vision Transformers, ViT.
See also SWIN Transformer.
See also Detection Transformer, DETR Applications.

Naveen, S., Ram Kiran, M.S., Indupriya, M., Manikanta, T.V., Sudeep, P.V.,
Transformer models for enhancing AttnGAN based text to image generation,
IVC(115), 2021, pp. 104284.
Elsevier DOI 2110
Generative Adversarial Networks (GANs), Natural Language Processing (NLP), Text to image synthesis, Attention mechanism BibRef

Dalmaz, O.[Onat], Yurt, M.[Mahmut], Çukur, T.[Tolga],
ResViT: Residual Vision Transformers for Multimodal Medical Image Synthesis,
MedImg(41), No. 10, October 2022, pp. 2598-2614.
IEEE DOI 2210
Transformers, Biomedical imaging, Subspace constraints, Task analysis, Image synthesis, Magnetic resonance imaging, unified BibRef

Zhang, X.[Xin], Jiao, W.T.[Wen-Tao], Wang, B.[Bing], Tian, X.D.[Xue-Dong],
CT-GAN: A conditional Generative Adversarial Network of transformer architecture for text-to-image,
SP:IC(115), 2023, pp. 116959.
Elsevier DOI 2306
Generative Adversarial Networks (GANs), Text-to-image, Transformer, Filter module, Shift self-attention BibRef

Sortino, R.[Renato], Palazzo, S.[Simone], Rundo, F.[Francesco], Spampinato, C.[Concetto],
Transformer-based image generation from scene graphs,
CVIU(233), 2023, pp. 103721.
Elsevier DOI 2307
BibRef
Earlier: A1, A2, A4, Only: Sortino, R.[Renato], Palazzo, S.[Simone], Spampinato, C.[Concetto],
Transforming Image Generation from Scene Graphs,
ICPR22(4118-4124)
IEEE DOI 2212
Scene graphs, Transformers, Generative models, Conditional image generation. Visualization, Image synthesis, Semantics, Process control, Genomics, Rendering (computer graphics) BibRef

Wang, Z.C.[Zi-Cong], Ren, Q.[Qiang], Wang, J.L.[Jun-Li], Yan, C.G.[Chun-Gang], Jiang, C.J.[Chang-Jun],
Mush: Multi-scale Hierarchical Feature Extraction for Semantic Image Synthesis,
ACCV22(VII:185-201).
Springer DOI 2307
BibRef

Wei, Z.P.[Zhi-Peng], Chen, J.J.[Jing-Jing], Goldblum, M.[Micah], Wu, Z.X.[Zu-Xuan], Goldstein, T.[Tom], Jiang, Y.G.[Yu-Gang], Davis, L.S.[Larry S],
Towards Transferable Adversarial Attacks on Image and Video Transformers,
IP(32), 2023, pp. 6346-6358.
IEEE DOI 2311
Image recognition, Codes, Perturbation methods, Computational modeling, Boosting, Data models, Adversarial attack and defense BibRef

Wei, Z.P.[Zhi-Peng], Chen, J.J.[Jing-Jing], Wu, Z.X.[Zu-Xuan], Jiang, Y.G.[Yu-Gang],
Adaptive Cross-Modal Transferable Adversarial Attacks From Images to Videos,
PAMI(46), No. 5, May 2024, pp. 3772-3783.
IEEE DOI 2404
BibRef
Earlier:
Cross-Modal Transferable Adversarial Attacks from Images to Videos,
CVPR22(15044-15053)
IEEE DOI 2210
Videos, Adaptation models, Perturbation methods, Feature extraction, Computational modeling, Glass box, Closed box, transferable attack BibRef

Bahani, M.[Mourad], El Ouaazizi, A.[Aziza], Maalmi, K.[Khalil],
The effectiveness of T5, GPT-2, and BERT on text-to-image generation task,
PRL(173), 2023, pp. 57-63.
Elsevier DOI 2310
Deep learning, Generative adversarial networks, Text-to-image generation, Natural language processing, Transformer-based models BibRef

Su, S.[Sitong], Zhu, J.C.[Jun-Chen], Gao, L.L.[Lian-Li], Song, J.K.[Jing-Kuan],
Utilizing Greedy Nature for Multimodal Conditional Image Synthesis in Transformers,
MultMed(26), 2024, pp. 2354-2366.
IEEE DOI 2402
Transformers, Image synthesis, Visualization, Image segmentation, Task analysis, Image reconstruction, transformer BibRef

Li, Z.[Zhan], Liu, F.[Feng],
Scalable video transformer for full-frame video prediction,
CVIU(249), 2024, pp. 104166.
Elsevier DOI 2412
Video prediction, Novel view synthesis, Optical flow BibRef

Cao, B.[Bing], Qi, G.L.[Guo-Liang], Zhao, J.M.[Jia-Ming], Zhu, P.F.[Peng-Fei], Hu, Q.H.[Qing-Hua], Gao, X.B.[Xin-Bo],
RTF: Recursive TransFusion for Multi-Modal Image Synthesis,
IP(34), 2025, pp. 1573-1587.
IEEE DOI Code:
WWW Link. 2503
Image synthesis, Transformers, Feature extraction, Data mining, Convolutional neural networks, Magnetic resonance imaging, global dependencies BibRef

Zheng, J.B.[Jian-Bin], Liu, D.Q.[Da-Qing], Wang, C.Y.[Chao-Yue], Hu, M.H.[Ming-Hui], Yang, Z.P.[Zuo-Peng], Ding, C.X.[Chang-Xing], Tao, D.C.[Da-Cheng],
MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal Conditional Image Synthesis,
IJCV(132), No. 1, January 2024, pp. 3537-3565.
Springer DOI 2409
BibRef

Wu, C.Y.[Cheng-Yue], Chen, X.K.[Xiao-Kang], Wu, Z.Y.[Zhi-Yu], Ma, Y.Y.[Yi-Yang], Liu, X.C.[Xing-Chao], Pan, Z.Z.[Zi-Zheng], Liu, W.[Wen], Xie, Z.[Zhenda], Yu, X.K.[Xing-Kai], Ruan, C.[Chong], Luo, P.[Ping],
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation,
CVPR25(12966-12977)
IEEE DOI 2508
Unifies multimodal understanding and generation. Visualization, Codes, Computational modeling, Transformers, Encoding, Next generation networking BibRef

Zha, K.W.[Kai-Wen], Yu, L.J.[Li-Jun], Fathi, A.[Alireza], Ross, D.A.[David A.], Schmid, C.[Cordelia], Katabi, D.[Dina], Gu, X.[Xiuye],
Language-Guided Image Tokenization for Generation,
CVPR25(15713-15722)
IEEE DOI 2508
Visualization, Image coding, Translation, Image synthesis, Semantics, Text to image, Transformers, Tokenization, Image reconstruction BibRef

Tu, K.Y.[Ke-Yu], Huang, M.Q.[Meng-Qi], Chen, Z.[Zhuowei], Mao, Z.D.[Zhen-Dong],
A4A: Adapter for Adapter Transfer via All-for-All Mapping for Cross-Architecture Models,
CVPR25(18476-18485)
IEEE DOI 2508
Couplings, Adaptation models, Image synthesis, Computational modeling, Text to image, Space mapping, Transformers BibRef

Wang, H.J.[Hong-Jun], Byeon, W.[Wonmin], Xu, J.R.[Jia-Rui], Gu, J.[Jinwei], Cheung, K.C.[Ka Chun], Wang, X.L.[Xiao-Long], Han, K.[Kai], Kautz, J.[Jan], Liu, S.[Sifei],
Parallel Sequence Modeling via Generalized Spatial Propagation Network,
CVPR25(4473-4483)
IEEE DOI Code:
WWW Link. 2508
Attention mechanisms, Image synthesis, Computational modeling, Spatial coherence, Text to image, Transformers, Data models BibRef

Deng, J.Y.[Jun-Yuan], Wu, X.[Xinyi], Yang, Y.X.[Yong-Xing], Zhu, C.C.[Cong-Chao], Wang, S.[Song], Wu, Z.Y.[Zhen-Yao],
Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration,
CVPR25(23195-23206)
IEEE DOI 2508
Training, Adaptation models, Visualization, Costs, Computational modeling, Training data, Text to image, Transformers, Image restoration BibRef

Choudhury, Z.Z.[Zakia Zinat], McCane, B.[Brendan], Coffey, S.[Sean],
Medical Image Synthesis Using Autoencoder with Vision Transformer,
IVCNZ24(1-6)
IEEE DOI 2503
Measurement, Computational modeling, Training data, Transforms, Transformers, Data models, Real-time systems, Image Synthesis BibRef

Tschannen, M.[Michael], Eastwood, C.[Cian], Mentzer, F.[Fabian],
GIVT: Generative Infinite-vocabulary Transformers,
ECCV24(LVII: 292-309).
Springer DOI 2412
BibRef

Ni, Z.[Zanlin], Wang, Y.L.[Yu-Lin], Zhou, R.P.[Ren-Ping], Lu, R.[Rui], Guo, J.Y.[Jia-Yi], Hu, J.Y.[Jin-Yi], Liu, Z.Y.[Zhi-Yuan], Yao, Y.[Yuan], Huang, G.[Gao],
Adanat: Exploring Adaptive Policy for Token-based Image Generation,
ECCV24(XVI: 302-319).
Springer DOI 2412
Code:
WWW Link. BibRef

Xu, M.[Meng], Lin, M.Y.[Ming-Ying], Ren, Q.[Qi], Jia, S.[Sen],
Ssthyper: Sparse Spectral Transformer for Hyperspectral Image Reconstruction,
ACCV24(IV: 142-159).
Springer DOI 2412
BibRef

Hatamizadeh, A.[Ali], Song, J.M.[Jia-Ming], Liu, G.L.[Gui-Lin], Kautz, J.[Jan], Vahdat, A.[Arash],
Diffit: Diffusion Vision Transformers for Image Generation,
ECCV24(VIII: 37-55).
Springer DOI 2412
BibRef

Gu, Y.C.[Yu-Chao], Wang, X.T.[Xin-Tao], Ge, Y.X.[Yi-Xiao], Shan, Y.[Ying], Shou, M.Z.[Mike Zheng],
Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis,
CVPR24(7631-7640)
IEEE DOI 2410
Visualization, Image coding, Image synthesis, Semantics, Pipelines, Transformers, Image and video synthesis and generation BibRef

Ni, Z.L.[Zan-Lin], Wang, Y.L.[Yu-Lin], Zhou, R.P.[Ren-Ping], Guo, J.Y.[Jia-Yi], Hu, J.Y.[Jin-Yi], Liu, Z.Y.[Zhi-Yuan], Song, S.[Shiji], Yao, Y.[Yuan], Huang, G.[Gao],
Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis,
CVPR24(7007-7016)
IEEE DOI 2410
Training, Costs, Image synthesis, Manuals, Diffusion models, Transformers, Hyperparameter optimization BibRef

Zhao, Y.Q.[Yi-Qun], Zhao, Z.[Zibo], Li, J.[Jing], Dong, S.[Sixun], Gao, S.H.[Sheng-Hua],
RoomDesigner: Encoding Anchor-latents for Style-consistent and Shape-compatible Indoor Scene Generation,
3DV24(1413-1423)
IEEE DOI 2408
Geometry, Shape, Vector quantization, Layout, Predictive models, Transformers, 3D Scene Generation BibRef

Cai, H.[Han], Li, M.[Muyang], Zhang, Q.S.[Qin-Sheng], Liu, M.Y.[Ming-Yu], Han, S.[Song],
Condition-Aware Neural Network for Controlled Image Generation,
CVPR24(7194-7203)
IEEE DOI 2410
Image synthesis, Computational modeling, Neural networks, Text to image, Process control, Transformers, efficient deep learning BibRef

Zheng, S.[Siming], Yuan, X.[Xin],
Unfolding Framework with Prior of Convolution-Transformer Mixture and Uncertainty Estimation for Video Snapshot Compressive Imaging,
ICCV23(12692-12703)
IEEE DOI Code:
WWW Link. 2401
BibRef

Cao, S.Y.[Shi-Yue], Yin, Y.Q.[Yue-Qin], Huang, L.H.[Liang-Hua], Liu, Y.[Yu], Zhao, X.[Xin], Zhao, D.L.[De-Li], Huang, K.Q.[Kai-Qi],
Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient Vision Transformers,
ICCV23(7334-7343)
IEEE DOI 2401
BibRef

Yun, J.[Jooyeol], Lee, S.[Sanghyeon], Park, M.H.[Min-Ho], Choo, J.[Jaegul],
iColoriT: Towards Propagating Local Hints to the Right Region in Interactive Colorization by Leveraging Vision Transformer,
WACV23(1787-1796)
IEEE DOI 2302
Convolutional codes, Image color analysis, Stacking, Gray-scale, Transformers, Algorithms: Computational photography, image and video synthesis BibRef

Lin, K.E.[Kai-En], Yen-Chen, L.[Lin], Lai, W.S.[Wei-Sheng], Lin, T.Y.[Tsung-Yi], Shih, Y.C.[Yi-Chang], Ramamoorthi, R.[Ravi],
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image,
WACV23(806-815)
IEEE DOI 2302
Shape, Pose estimation, Feature extraction, Transformers, Cameras, Algorithms: Computational photography, 3D computer vision BibRef

Lezama, J.[José], Chang, H.[Huiwen], Jiang, L.[Lu], Essa, I.[Irfan],
Improved Masked Image Generation with Token-Critic,
ECCV22(XXIII:70-86).
Springer DOI 2211
Generative transformer. BibRef

Kong, X.[Xiang], Jiang, L.[Lu], Chang, H.[Huiwen], Zhang, H.[Han], Hao, Y.[Yuan], Gong, H.F.[Hai-Feng], Essa, I.[Irfan],
BLT: Bidirectional Layout Transformer for Controllable Layout Generation,
ECCV22(XVII:474-490).
Springer DOI 2211
BibRef

Kong, D.[Daehyeon], Kong, K.[Kyeongbo], Kim, K.[Kyunghun], Min, S.J.[Sung-Jun], Kang, S.J.[Suk-Ju],
Image-Adaptive Hint Generation via Vision Transformer for Outpainting,
WACV22(4029-4038)
IEEE DOI 2202
Image synthesis, Neural networks, Complex networks, Benchmark testing, Transformers, Vision Systems and Applications BibRef

Maharana, A.[Adyasha], Hannan, D.[Darryl], Bansal, M.[Mohit],
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation,
ECCV22(XXXVII:70-87).
Springer DOI 2211
BibRef

Kim, T.[Taehoon], Song, G.[Gwangmo], Lee, S.[Sihaeng], Kim, S.[Sangyun], Seo, Y.[Yewon], Lee, S.[Soonyoung], Kim, S.H.[Seung Hwan], Lee, H.L.[Hong-Lak], Bae, K.[Kyunghoon],
L-Verse: Bidirectional Generation Between Image and Text,
CVPR22(16505-16515)
IEEE DOI 2210
Representation learning, Training, Scalability, Transformers, Robustness, Scene analysis and understanding BibRef

Wang, J.A.[Jian-An], Lu, G.S.[Guan-Song], Xu, H.[Hang], Li, Z.G.[Zhen-Guo], Xu, C.J.[Chun-Jing], Fu, Y.W.[Yan-Wei],
ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation,
CVPR22(10697-10707)
IEEE DOI 2210
Image synthesis, Semantics, Transformers, Task analysis, Image and video synthesis and generation, Vision+language BibRef

Liu, Z.Z.[Zheng-Zhe], Wang, Y.[Yi], Qi, X.J.[Xiao-Juan], Fu, C.W.[Chi-Wing],
Towards Implicit Text-Guided 3D Shape Generation,
CVPR22(17875-17885)
IEEE DOI 2210
Codes, Shape, Image color analysis, Benchmark testing, Transformers, Vision+language, 3D from single images BibRef

Wu, F.X.[Fu-Xiang], Liu, L.[Liu], Hao, F.S.[Fu-Sheng], He, F.X.[Feng-Xiang], Cheng, J.[Jun],
Text-to-Image Synthesis based on Object-Guided Joint-Decoding Transformer,
CVPR22(18092-18101)
IEEE DOI 2210
Visualization, Image coding, Image synthesis, Layout, Semantics, Natural languages, Transformers, Vision+language, Image and video synthesis and generation BibRef

Wang, X.P.[Xin-Peng], Yeshwanth, C.[Chandan], Nießner, M.[Matthias],
SceneFormer: Indoor Scene Generation with Transformers,
3DV21(106-115)
IEEE DOI 2201
Layout, Transformers, Task analysis, scene generation, transformer, text conditioned, indoor scene, deep learning, machine learning, virtual reality BibRef

Mariotti, O.[Octave], Aodha, O.M.[Oisin Mac], Bilen, H.[Hakan],
ViewNet: Unsupervised Viewpoint Estimation from Conditional Generation,
ICCV21(10398-10408)
IEEE DOI 2203
Training, Annotations, Estimation, Benchmark testing, Transformers, Representation learning, Transfer/Low-shot/Semi/Unsupervised Learning BibRef

Ribeiro, L.S.F.[Leo Sampaio Ferraz], Bui, T.[Tu], Collomosse, J.[John], Ponti, M.[Moacir],
Scene Designer: A Unified Model for Scene Search and Synthesis from Sketch,
SHE21(2424-2433)
IEEE DOI 2112
Visualization, Correlation, Digital images, Layout, Transformer cores, Search problems, Transformers BibRef

Yang, C.F.[Cheng-Fu], Fan, W.C.[Wan-Cyuan], Yang, F.E.[Fu-En], Wang, Y.C.A.F.[Yu-Chi-Ang Frank],
LayoutTransformer: Scene Layout Generation with Conceptual and Spatial Diversity,
CVPR21(3731-3740)
IEEE DOI 2111
Visualization, Spatial diversity, Layout, Semantics, Fitting, Genomics BibRef

Chapter on 3-D Object Description and Computation Techniques, Surfaces, Deformable, View Generation, Video Conferencing continues in
Text to 3D Synthesis, Text to 3D Generation .

Last update:May 24, 2026 at 14:46:09