12.1.4.7 Fusion, General Multi-Modal

Chapter Contents (Back)
Fusion. Sensor Fusion. Multi-Modal Fusion. Cross-Modal Fusion.

Luo, R.C., Lin, M.H., Scherp, R.S.,
Dynamic Multisensor Data Fusion System for Intelligent Robots,
RA(4), 1988, pp. 386-396. BibRef 8800

Abidi, M.A., Gonzalez, R.C.,
The Use of Multisensor Data for Robotic Applications,
RA(6), 1990, pp. 159-177. BibRef 9000

Houzelle, S., Giraudon, G.,
Contribution To Multisensor Fusion Formalization,
RobAS(13), No. 1, 1994, pp. 69-85. BibRef 9400

Pien, H.H., Gauch, J.M.,
A Variational Approach to Multisensor Fusion of Images,
AppIntel(5), No. 3, July 1995, pp. 217-235. BibRef 9507

Jain, Z.S., Chau, Y.G.A.,
Optimum Multisensor Data Fusion for Image Change Detection,
SMC(25), No. 9, September 1995, pp. 1340-1347. Change Detection. BibRef 9509

Matia, F., Jimenez, A.,
Multisensor Fusion: An Autonomous Mobile Robot,
JIRS(22), No. 2, June 1998, pp. 129-141. 9807
BibRef

Wan, W., Fraser, D.,
Multisource Data Fusion with Multiple Self-Organizing Maps,
GeoRS(37), No. 3, May 1999, pp. 1344.
IEEE Top Reference. BibRef 9905

Zhukov, B.S., Oertel, D.A., Lanzl, F., Reinhäckel, G.,
Unmixing-Based Multisensor Multiresolution Image Fusion,
GeoRS(37), No. 3, May 1999, pp. 1212.
IEEE Top Reference. BibRef 9905

Argenti, F., Alparone, L.,
Filterbanks Design for Multisensor Data Fusion,
SPLetters(7), No. 5, May 2000, pp. 100-103.
IEEE Top Reference. 0005
BibRef

Pan, H.[Hao], Liang, Z.P.[Zhi-Pei], Huang, T.S.[Thomas S.],
Estimation of the joint probability of multisensory signals,
PRL(22), No. 13, November 2001, pp. 1431-1437.
Elsevier DOI 0108
BibRef

Nikou, C.[Christophoros], Heitz, F.[Fabrice], Armspach, J.P.[Jean-Paul],
Robust voxel similarity metrics for the registration of dissimilar single and multimodal images,
PR(32), No. 8, August 1999, pp. 1351-1368.
Elsevier DOI BibRef 9908
Earlier:
Robust Registration of Dissimilar Single and Multi-Modal Images,
ECCV98(II: 51).
Springer DOI BibRef
Earlier:
Multimodal image registration using statistically constrained deformable multimodels,
ICIP98(I: 838-842).
IEEE DOI 9810
Subpixel registration.
See also efficient incremental strategy for constrained groupwise registration based on symmetric pairwise registration, An. BibRef

Hermosillo, G.[Gerardo], Chef d'Hotel, C.[Christophe], Faugeras, O.D.[Olivier D.],
Variational Methods for Multimodal Image Matching,
IJCV(50), No. 3, December 2002, pp. 329-343.
DOI Link 0211
BibRef

Chef d'Hotel, C.[Christophe], Hermosillo, G.[Gerardo], Faugeras, O.D.[Olivier D.],
A Variational Approach to Multi-Modal Image Matching,
LevelSet01(xx-yy). 0106
BibRef
And: A2, A1, A3: INRIARR-4117, February 2001.
HTML Version. Non-parametric image matching. Show various examples. 0105
BibRef

Chef d'Hotel, C.[Christophe],
A Method for the Transport and Registration of Images on Implicit Surfaces,
SSVM07(860-870).
Springer DOI 0705
BibRef

Hermosillo, G., Faugeras, O.D.,
Dense Image Matching with Global and Local Statistical Criteria: A Variational Approach,
CVPR01(I:73-78).
IEEE DOI 0110
Award, CVPR, Student, HM. Image registration. BibRef

Faugeras, O.D.[Olivier D.], Hermosillo, G.[Gerardo],
Well-posedness of eight problems of multi-modal statistical image-matching,
INRIARR-4235, August 2001.
HTML Version. 0211
BibRef

Liu, J.D.[Jun-Dong], Vemuri, B.C.[Baba C.], Bova, F.[Frank],
Efficient multi-modal image registration using local-frequency maps,
MVA(13), No. 3, 2002, pp. 149-163.
Springer DOI 0208
BibRef
Earlier:
Multimodal Image Registration Using Local Frequency,
WACV00(120-125).
IEEE DOI 0010
Registration using features. BibRef

Liu, J.D.[Jun-Dong], Vemuri, B.C.[Baba C.], Marroquin, J.L.,
Local frequency representations for robust multimodal image registration,
MedImg(21), No. 5, May 2002, pp. 462-469.
IEEE Top Reference. 0206
BibRef

Wang, F., Vemuri, B.C., Rao, M., Chen, Y.,
Cumulative residual entropy, a new measure of information and its application to image alignment,
ICCV03(548-553).
IEEE DOI 0311
BibRef

Rogelj, P.[Peter], Kovacic, S.[Stanislav], Gee, J.C.[James C.],
Point similarity measures for non-rigid registration of multi-modal data,
CVIU(92), No. 1, October 2003, pp. 112-140.
Elsevier DOI 0310
BibRef

Li, W., Leung, H.[Henry],
Simultaneous registration and fusion of multiple dissimilar sensors for cooperative driving,
ITS(5), No. 2, June 2004, pp. 84-98.
IEEE Abstract. 0501
BibRef

Wang, F.[Fei], Vemuri, B.C.[Baba C.],
Non-Rigid Multi-Modal Image Registration Using Cross-Cumulative Residual Entropy,
IJCV(74), No. 2, August 2007, pp. 201-215.
Springer DOI 0705
BibRef

Orchard, J.[Jeff],
Efficient Least Squares Multimodal Registration With a Globally Exhaustive Alignment Search,
IP(16), No. 10, October 2007, pp. 2526-2534.
IEEE DOI 0711
BibRef
And:
Globally Optimal Multimodal Rigid Registration: An Analytic Solution using Edge Information,
ICIP07(I: 485-488).
IEEE DOI 0709
BibRef
Earlier:
Efficient Global Weighted Least-Squares Translation Registration in the Frequency Domain,
ICIAR05(116-124).
Springer DOI 0509
BibRef
Earlier:
Image Deformation Using Velocity Fields: An Exact Solution,
ICIAR05(439-446).
Springer DOI 0509
BibRef

Orchard, J.[Jeff], Mann, R.,
Registering a Multi-Sensor Ensemble of Images,
IP(19), No. 5, May 2010, pp. 1236-1247.
IEEE DOI 1004
BibRef

Clarkson, E.W., Kupinski, M.A., Barrett, H.H., Furenlid, L.,
A Task-Based Approach to Adaptive and Multimodality Imaging,
PIEEE(96), No. 3, March 2008, pp. 500-511.
IEEE DOI 0804
BibRef

Loza, A.[Artur], Bull, D.R.[David R.], Canagarajah, C.N.[C. Nishan], Achim, A.[Alin],
Non-Gaussian model-based fusion of noisy images in the wavelet domain,
CVIU(114), No. 1, January 2010, pp. 54-65.
Elsevier DOI 1001
Multimodal; Image fusion; Statistical modelling; Denoising BibRef

Loza, A.[Artur], Bull, D.R.[David R.], Achim, A.[Alin],
Automatic contrast enhancement of low-light images based on local statistics of wavelet coefficients,
ICIP10(3553-3556).
IEEE DOI 1009
BibRef

Cvejic, N., Lewis, J., Bull, D.R., Canagarajah, C.N.,
Region-Based Multimodal Image Fusion using ICA Bases,
ICIP06(1801-1804).
IEEE DOI 0610
BibRef

Nikolov, S.G., Bull, D.R., Canagarajah, C.N., Halliwell, M., Wells, P.N.T.,
Fusion of 2-D Images Using Their Multiscale Edges,
ICPR00(Vol III: 41-44).
IEEE DOI 0009

See also Virtual Liver Biopsy: Image Processing and 3d Visualization. BibRef

Hill, P.R., Al-Mualla, M.E., Bull, D.R.,
Perceptual Image Fusion Using Wavelets,
IP(26), No. 3, March 2017, pp. 1076-1088.
IEEE DOI 1703
image fusion BibRef

Hill, P.R., Bull, D.R., Canagarajah, C.N.,
Image Fusion Using a New Framework for Complex Wavelet Transforms,
ICIP05(II: 1338-1341).
IEEE DOI 0512
BibRef
Earlier: A1, A3, A2:
Image Fusion Using Complex Wavelets,
BMVC02(Poster Session). 0208

See also Genetic Stereo Matching Using Complex Conjugate Wavelet Pyramids. BibRef

Hasan, M.[Mahmudul], Pickering, M.R.[Mark R.], Jia, X.P.[Xiu-Ping],
Robust Automatic Registration of Multimodal Satellite Images Using CCRE With Partial Volume Interpolation,
GeoRS(50), No. 10, October 2012, pp. 4050-4061.
IEEE DOI 1210
BibRef
Earlier:
Multi-modal Registration of SAR and Optical Satellite Images,
DICTA09(447-453).
IEEE DOI 0912
BibRef

Zhang, Q.A.[Qi-Ang], Ma, Z.K.[Zhao-Kun], Wang, L.[Long],
Multimodality Image Fusion by Using Both Phase and Magnitude Information,
PRL(34), No. 2, 15 January 2013, pp. 185-193.
Elsevier DOI 1212
Multimodality image fusion; Shiftable complex directional pyramid transform; Phase and magnitude; Circular correlation coefficient; Weighted circular variance BibRef

Woo, J.Y.[Jongh-Ye], Stone, M., Prince, J.L.,
Multimodal Registration via Mutual Information Incorporating Geometric and Spatial Context,
IP(24), No. 2, February 2015, pp. 757-769.
IEEE DOI 1502
edge detection BibRef

Bu, S.H.[Shu-Hui], Cheng, S.G.[Shao-Guang], Liu, Z.B.[Zhen-Bao], Han, J.W.[Jun-Wei],
Multimodal Feature Fusion for 3D Shape Recognition and Retrieval,
MultMedMag(21), No. 4, October 2014, pp. 38-46.
IEEE DOI 1502
Boltzmann machines BibRef

Sutour, C.[Camille], Aujol, J.F.[Jean-François], Deledalle, C.A.[Charles-Alban], de Senneville, B.D.[Baudouin Denis],
Edge-Based Multi-modal Registration and Application for Night Vision Devices,
JMIV(53), No. 2, October 2015, pp. 131-150.
Springer DOI 1508
BibRef

Pitts, B., Riggs, S.L., Sarter, N.,
Crossmodal Matching: A Critical but Neglected Step in Multimodal Research,
HMS(46), No. 3, June 2016, pp. 445-450.
IEEE DOI 1605
Equating perceived intensities of stimuli across two sensory modalities. BibRef

Wang, K.[Kaiye], He, R.[Ran], Wang, L.[Liang], Wang, W.[Wei], Tan, T.N.[Tie-Niu],
Joint Feature Selection and Subspace Learning for Cross-Modal Retrieval,
PAMI(38), No. 10, October 2016, pp. 2010-2023.
IEEE DOI 1609
BibRef
Earlier: A1, A2, A4, A3, A5:
Learning Coupled Feature Spaces for Cross-Modal Matching,
ICCV13(2088-2095)
IEEE DOI 1403
BibRef
And: A1, A4, A2, A3, A5:
Multi-modal Subspace Learning with Joint Graph Regularization for Cross-Modal Retrieval,
ACPR13(236-240)
IEEE DOI 1408
Buildings. graph theory BibRef

Li, Q.[Qi], Sun, Z.A.[Zhen-An], He, R.[Ran], Tan, T.N.[Tie-Niu],
Joint Alignment and Clustering via Low-Rank Representation,
ACPR13(591-595)
IEEE DOI 1408
image representation BibRef

Wang, K.[Kaiye], Wang, W.[Wei], Wang, L.[Liang],
Learning unified sparse representations for multi-modal data,
ICIP15(3545-3549)
IEEE DOI 1512
Cross-modal retrieval BibRef

Zu, C.[Chen], Wang, Z.X.[Zheng-Xia], Zhang, D.Q.[Dao-Qiang], Liang, P.P.[Pei-Peng], Shi, Y.H.[Yong-Hong], Shen, D.G.[Ding-Gang], Wu, G.R.[Guo-Rong],
Robust multi-atlas label propagation by deep sparse representation,
PR(63), No. 1, 2017, pp. 511-517.
Elsevier DOI 1612
Hierarchical sparse representation BibRef

Song, G.L.[Guo-Li], Wang, S.H.[Shu-Hui], Huang, Q.M.[Qing-Ming], Tian, Q.[Qi],
Multimodal Similarity Gaussian Process Latent Variable Model,
IP(26), No. 9, September 2017, pp. 4168-4181.
IEEE DOI 1708
BibRef
And:
Multimodal Gaussian Process Latent Variable Models with Harmonization,
ICCV17(5039-5047)
IEEE DOI 1802
BibRef
Earlier:
Similarity Gaussian Process Latent Variable Model for Multi-modal Data Analysis,
ICCV15(4050-4058)
IEEE DOI 1602
Gaussian processes, content-based retrieval, gradient methods, learning (artificial intelligence), pattern classification, cross-modal content retrieval, distance preservation, gradient descent techniques, heterogeneous modalities, BibRef

Song, G.L.[Guo-Li], Wang, S.H.[Shu-Hui], Huang, Q.M.[Qing-Ming], Tian, Q.[Qi],
Harmonized Multimodal Learning with Gaussian Process Latent Variable Models,
PAMI(43), No. 3, March 2021, pp. 858-872.
IEEE DOI 2102
Data models, Kernel, Correlation, Semantics, Gaussian processes, Learning systems, Probabilistic logic, Multimodal learning, cross-modal retrieval BibRef

Gesto-Diaz, M., Tombari, F., Gonzalez-Aguilera, D., Lopez-Fernandez, L., Rodriguez-Gonzalvez, P.,
Feature matching evaluation for multimodal correspondence,
PandRS(129), No. 1, 2017, pp. 179-188.
Elsevier DOI 1706
Features. 28 different combinations of detectors. BibRef

Wang, S.P.[Shi-Ping], Guo, W.Z.[Wen-Zhong],
Sparse Multigraph Embedding for Multimodal Feature Representation,
MultMed(19), No. 7, July 2017, pp. 1454-1466.
IEEE DOI 1706
Clustering algorithms, Correlation, Data integration, Feature extraction, Learning systems, Optimization, Sparse matrices, Feature fusion, graph embedding, machine learning, multimodal data, sparse, representation BibRef

Li, K.[Ke], Zou, C.Q.[Chang-Qing], Bu, S.H.[Shu-Hui], Liang, Y.[Yun], Zhang, J.[Jian], Gong, M.L.[Ming-Lun],
Multi-Modal Feature Fusion for Geographic Image Annotation,
PR(73), No. 1, 2018, pp. 1-14.
Elsevier DOI 1709
Convolutional neural networks, (CNNs) BibRef

Amer, M.R.[Mohamed R.], Shields, T.[Timothy], Siddiquie, B.[Behjat], Tamrakar, A.[Amir], Divakaran, A.[Ajay], Chai, S.[Sek],
Deep Multimodal Fusion: A Hybrid Approach,
IJCV(126), No. 2-4, April 2018, pp. 440-456.
Springer DOI 1804
BibRef

Amer, M.R.[Mohamed R.], Siddiquie, B.[Behjat], Khan, S.[Saad], Divakaran, A.[Ajay], Sawhney, H.S.[Harpreet S.],
Multimodal fusion using dynamic hybrid models,
WACV14(556-563)
IEEE DOI 1406
Computational modeling BibRef

Cun, X.D.[Xiao-Dong], Pun, C.M.[Chi-Man], Gao, H.[Hao],
Applying stochastic second-order entropy images to multi-modal image registration,
SP:IC(65), 2018, pp. 201-209.
Elsevier DOI 1805
Multi-modal image registration, Image-processing, Image matching, Entropy image, Structural representation, Second order entropy BibRef

Wang, R.[Ruili], Ji, W.T.[Wan-Ting], Liu, M.Z.[Ming-Zhe], Wang, X.[Xun], Weng, J.[Jian], Deng, S.[Song], Gao, S.Y.[Su-Ying], Yuan, C.A.[Chang-An],
Review on mining data from multiple data sources,
PRL(109), 2018, pp. 120-128.
Elsevier DOI 1806
Multiple data source mining, Pattern analysis, Data classification, Data clustering, Data fusion BibRef

Alvén, J.[Jennifer], Kahl, F.[Fredrik], Landgren, M.[Matilda], Larsson, V.[Viktor], Ulén, J.[Johannes], Enqvist, O.[Olof],
Shape-aware label fusion for multi-atlas frameworks,
PRL(124), 2019, pp. 109-117.
Elsevier DOI 1906
Multi-atlas label fusion, Shape models, Medical image segmentation BibRef

Gao, L.[Lin], Battistelli, G.[Giorgio], Chisci, L.[Luigi],
Multiobject Fusion With Minimum Information Loss,
SPLetters(27), 2020, pp. 201-205.
IEEE DOI 2002
Generalized covariance intersection, Kullback-Leibler divergence, random finite set, data fusion, linear opinion pool BibRef

Yao, W.[Wei], Jiang, Y.[Ying], Lu, W.[Wenda], Chen, J.[Jun], Xie, L.C.[Lin-Chao],
RETRACTED: Deeply fusing multimodal features in hypergraph,
JVCIR(69), 2020, pp. 102836.
Elsevier DOI 2006
BibRef
And: Original: JVCIR(62), 2019, pp. 97-104. 1908
Multimodel, Deeply fusing BibRef

Cao, S., Shen, H., Chen, S., Li, C.,
Boosting Structure Consistency for Multispectral and Multimodal Image Registration,
IP(29), 2020, pp. 5147-5162.
IEEE DOI 2004
Transforms, Image registration, Boosting, Correlation, Entropy, Image edge detection, Histograms, Multispectral image, optimization BibRef

Pamart, A.[Anthony], Morlet, F.[François], de Luca, L.[Livio], Veron, P.[Philippe],
A Robust and Versatile Pipeline for Automatic Photogrammetric-Based Registration of Multimodal Cultural Heritage Documentation,
RS(12), No. 12, 2020, pp. xx-yy.
DOI Link 2006
BibRef

Meher, B.[Bikash], Agrawal, S.[Sanjay], Panda, R.[Rutuparna], Dora, L.[Lingraj], Abraham, A.[Ajith],
A novel region-based multimodal image fusion technique using improved dictionary learning,
IJIST(30), No. 3, 2020, pp. 558-576.
DOI Link 2008
dictionary learning, image fusion, region-based fusion, sparse representation BibRef

Shen, G.R.[Guo-Rong],
Image understanding via learning weakly-supervised cross-modal semantic translation,
JVCIR(71), 2020, pp. 102789.
Elsevier DOI 2009
Image understanding, Cross-modal semantic translation, Weakly-supervised learning BibRef

Wang, S.Y.[Shi-Ying], Shen, Y.[Yan],
Multi-modal image fusion based on saliency guided in NSCT domain,
IET-IPR(14), No. 13, November 2020, pp. 3188-3201.
DOI Link 2012
NSCT: Non-Subsampled Contourlet Transform. BibRef

Shen, D.H.[Dong-Hao], Zareapoor, M.[Masoumeh], Yang, J.[Jie],
Multimodal image fusion based on point-wise mutual information,
IVC(105), 2021, pp. 104047.
Elsevier DOI 2101
Image fusion, Multimodal, Point-wise mutual information, Markov random field model, Gradient domain BibRef

Kavipriya, A., Muthukumar, A.,
Special Issue Retraction: Innovative approach for multimodal fusion recognition based feature extraction using band-limited phase-only correlation and discrete orthonormal Stockwell transform,
IET-IPR(17), No. 1, January 2023, pp. 301.
DOI Link 2301
BibRef
And: IET-IPR(14), No. 15, 15 December 2020, pp. 3669-3675.
DOI Link 2103
BibRef

Liu, B.[Bin],
Robust Dynamic Multi-Modal Data Fusion: A Model Uncertainty Perspective,
SPLetters(28), 2021, pp. 2107-2111.
IEEE DOI 2112
Data models, Heuristic algorithms, Signal processing algorithms, Uncertainty, Computational modeling, Bayes methods, Task analysis, particle filter BibRef

Liu, R.S.[Ri-Sheng], Liu, J.Y.[Jin-Yuan], Jiang, Z.Y.[Zhi-Ying], Fan, X.[Xin], Luo, Z.X.[Zhong-Xuan],
A Bilevel Integrated Model With Data-Driven Layer Ensemble for Multi-Modality Image Fusion,
IP(30), 2021, pp. 1261-1274.
IEEE DOI 2012
Image fusion, Task analysis, Transforms, Optimization, Magnetic resonance imaging, Dictionaries, neural networks BibRef

Liu, J.Y.[Jin-Yuan], Lin, R.J.[Run-Jia], Wu, G.Y.[Guan-Yao], Liu, R.S.[Ri-Sheng], Luo, Z.X.[Zhong-Xuan], Fan, X.[Xin],
CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion,
IJCV(132), No. 5, May 2024, pp. 1748-1775.
Springer DOI 2405
BibRef

Lei, J.[Jia], Li, J.W.[Jia-Wei], Liu, J.Y.[Jin-Yuan], Wang, B.[Bin], Zhou, S.H.[Shi-Hua], Zhang, Q.[Qiang], Wei, X.P.[Xiao-Peng], Kasabov, N.K.[Nikola K.],
MLFuse: Multi-Scenario Feature Joint Learning for Multi-Modality Image Fusion,
MultMed(27), 2025, pp. 3880-3894.
IEEE DOI 2507
Image fusion, Feature extraction, Generative adversarial networks, Transformers, Multitasking, medical image BibRef

Mao, Y.D.[Yu-Dong], Jiang, Q.P.[Qiu-Ping], Cong, R.M.[Run-Min], Gao, W.[Wei], Shao, F.[Feng], Kwong, S.[Sam],
Cross-Modality Fusion and Progressive Integration Network for Saliency Prediction on Stereoscopic 3D Images,
MultMed(24), 2022, pp. 2435-2448.
IEEE DOI 2205
Feature extraction, Fuses, Decoding, Predictive models, Pipelines, Visualization, Stereoscopic 3D image, Progressive integration BibRef

Wang, J.P.[Jin-Ping], Li, J.[Jun], Shi, Y.L.[Yan-Li], Lai, J.H.[Jian-Huang], Tan, X.J.[Xiao-Jun],
AM³Net: Adaptive Mutual-Learning-Based Multimodal Data Fusion Network,
CirSysVideo(32), No. 8, August 2022, pp. 5411-5426.
IEEE DOI 2208
Feature extraction, Laser radar, Convolution, Kernel, Data integration, Convolutional neural networks, and multimodal data classification BibRef

Tu, H.W.[Huang-Wei], Zhu, Y.[Yu], Han, C.P.[Chang-Pei],
RI-LPOH: Rotation-Invariant Local Phase Orientation Histogram for Multi-Modal Image Matching,
RS(14), No. 17, 2022, pp. xx-yy.
DOI Link 2209
BibRef

Öfverstedt, J.[Johan], Lindblad, J.[Joakim], Sladoje, N.[Nataša],
Fast computation of mutual information in the frequency domain with applications to global multimodal image alignment,
PRL(159), 2022, pp. 196-203.
Elsevier DOI 2206
Mutual information, Image alignment, Global optimization, Multimodal, Entropy BibRef

Marivani, I.[Iman], Tsiligianni, E.[Evaggelia], Cornelis, B.[Bruno], Deligiannis, N.[Nikos],
Designing CNNs for Multimodal Image Restoration and Fusion via Unfolding the Method of Multipliers,
CirSysVideo(32), No. 9, September 2022, pp. 5830-5845.
IEEE DOI 2209
Image restoration, Image fusion, Computational modeling, Convolutional neural networks, Task analysis, Image resolution, multimodal CNN BibRef

Wang, J.[Jing], Zhang, W.J.[Wen-Juan], Zhu, R.[Rui],
A multimodal molecular image fusion method based on relative total variation and co-saliency detection,
IJIST(33), No. 2, 2023, pp. 523-546.
DOI Link 2303
image fusion, molecular image, multimodality, relative total variation, saliency detection BibRef

Xu, H.[Han], Yuan, J.[Jiteng], Ma, J.Y.[Jia-Yi],
MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion,
PAMI(45), No. 10, October 2023, pp. 12148-12166.
IEEE DOI 2310
BibRef

Tang, L.F.[Lin-Feng], Yan, Q.L.[Qing-Long], Xiang, X.Y.[Xin-Yu], Fang, L.Y.[Le-Yuan], Ma, J.Y.[Jia-Yi],
C2RF: Bridging Multi-Modal Image Registration and Fusion via Commonality Mining and Contrastive Learning,
IJCV(133), No. 8, August 2025, pp. 5262-5280.
Springer DOI 2508
BibRef

Xu, H.[Han], Ma, J.Y.[Jia-Yi], Yuan, J.[Jiteng], Le, Z.L.[Zhu-Liang], Liu, W.[Wei],
RFNet: Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion,
CVPR22(19647-19656)
IEEE DOI 2210
Measurement, Deformable models, Image registration, Task analysis, Image fusion, Low-level vision BibRef

Li, J.Y.[Jia-Yuan], Hu, Q.W.[Qing-Wu], Zhang, Y.J.[Yong-Jun],
Multimodal Image Matching: A Scale-Invariant Algorithm and an Open Dataset,
PandRS(204), 2023, pp. 77-88.
Elsevier DOI 2310
Image matching, Feature descriptor, Dataset, SAR-optical, Multimodal images BibRef

Zhou, Y.[Yang], Han, Z.[Zhen], Dou, Z.[Zeng], Huang, C.B.[Cheng-Bin], Cong, L.[Li], Lv, N.[Ning], Chen, C.[Chen],
Edge Consistency Feature Extraction Method for Multi-Source Image Registration,
RS(15), No. 20, 2023, pp. 5051.
DOI Link 2310
BibRef

Lu, H.J.[Heng-Jie], Xu, S.G.[Shu-Gong], Wang, J.H.[Jia-Hao],
Multi-dataset fusion for multi-task learning on face attribute recognition,
PRL(173), 2023, pp. 72-78.
Elsevier DOI 2310
Face attribute recognition, Multi-dataset fusion, Multi-task learning, Knowledge distillation, Deep learning BibRef

Wei, J.[Jiwei], Yang, Y.[Yang], Xu, X.[Xing], Song, J.K.[Jing-Kuan], Wang, G.Q.[Guo-Qing], Shen, H.T.[Heng Tao],
Less is Better: Exponential Loss for Cross-Modal Matching,
CirSysVideo(33), No. 9, September 2023, pp. 5271-5280.
IEEE DOI 2310
BibRef

Islam, M.M.[Md Mofijul], Yasar, M.S.[Mohammad Samin], Iqbal, T.[Tariq],
MAVEN: A Memory Augmented Recurrent Approach for Multimodal Fusion,
MultMed(25), 2023, pp. 3694-3708.
IEEE DOI 2310
BibRef

Wang, Q.[Qun], Yang, B.[Boli], Li, L.[Luchun], Liang, H.Y.[Hong-Yi], Zhu, X.L.[Xiao-Lin], Cao, R.[Ruyin],
Within-Season Crop Identification by the Fusion of Spectral Time-Series Data and Historical Crop Planting Data,
RS(15), No. 20, 2023, pp. 5043.
DOI Link 2310
BibRef

Zhang, J.[Jun], Jiao, L.C.[Li-Cheng], Ma, W.P.[Wen-Ping], Liu, F.[Fang], Liu, X.[Xu], Li, L.L.[Ling-Ling], Chen, P.[Puhua], Yang, S.Y.[Shu-Yuan],
Transformer Based Conditional GAN for Multimodal Image Fusion,
MultMed(25), 2023, pp. 8988-9001.
IEEE DOI 2312
BibRef

Wang, J.P.[Jin-Ping], Tan, X.J.[Xiao-Jun],
Mutually Beneficial Transformer for Multimodal Data Fusion,
CirSysVideo(33), No. 12, December 2023, pp. 7466-7479.
IEEE DOI 2312
BibRef

Luo, X.[Xing], Fu, G.Z.[Gui-Zhong], Yang, J.X.[Jiang-Xin], Cao, Y.L.[Yan-Long], Cao, Y.P.[Yan-Peng],
Multi-Modal Image Fusion via Deep Laplacian Pyramid Hybrid Network,
CirSysVideo(33), No. 12, December 2023, pp. 7354-7369.
IEEE DOI Code:
WWW Link. 2312
BibRef

Yan, X.[Xiaohu], Cao, Y.H.[Yi-Hang], Yang, Y.J.[Yi-Jun], Yao, Y.X.[Yong-Xiang],
Multi-Modal Image Registration Based on Phase Exponent Differences of the Gaussian Pyramid,
RS(15), No. 24, 2023, pp. 5764.
DOI Link 2401
BibRef

Chen, R.[Rui], Zhao, L.[Long],
Two-Level Integrity-Monitoring Method for Multi-Source Information Fusion Navigation,
RS(16), No. 1, 2024, pp. xx-yy.
DOI Link 2401
BibRef

Li, J.Y.[Jia-Yao], Li, L.[Li], Sun, R.Z.[Rui-Zhi], Yuan, G.[Gang], Wang, S.[Shufan], Sun, S.[Shulin],
MMAN-M2: Multiple multi-head attentions network based on encoder with missing modalities,
PRL(177), 2024, pp. 110-120.
Elsevier DOI 2401
Multi-modal fusion, Multi-head attention, Random missing modalities, Encoder-decoder, Missing modalities BibRef

Zhao, Z.X.[Zi-Xiang], Bai, H.W.[Hao-Wen], Zhu, Y.Z.[Yuan-Zhi], Zhang, J.S.[Jiang-She], Xu, S.[Shuang], Zhang, Y.[Yulun], Zhang, K.[Kai], Meng, D.Y.[De-Yu], Timofte, R.[Radu], Van Gool, L.J.[Luc J.],
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion,
ICCV23(8048-8059)
IEEE DOI Code:
WWW Link. 2401
BibRef

Sun, Y.[Yuli], Lei, L.[Lin], Li, Z.[Zhang], Kuang, G.Y.[Gang-Yao],
Similarity and dissimilarity relationships based graphs for multimodal change detection,
PandRS(208), 2024, pp. 70-88.
Elsevier DOI Code:
WWW Link. 2402
Multimodal change detection, Dissimilarity relationship, k-farthest neighbors, k-nearest neighbors, Image regression BibRef

Zhao, Y.Y.[Yang-Yang], Zheng, Q.C.[Qing-Chun], Zhu, P.H.[Pei-Hao], Zhang, X.[Xu], Ma, W.P.[Wen-Peng],
TUFusion: A Transformer-Based Universal Fusion Algorithm for Multimodal Images,
CirSysVideo(34), No. 3, March 2024, pp. 1712-1725.
IEEE DOI Code:
WWW Link. 2403
Image fusion, Transformers, Feature extraction, Biomedical imaging, Deep learning, Heuristic algorithms, Visualization, fusion strategy BibRef

Moreshet, A.[Aviad], Keller, Y.[Yosi],
Attention-based multimodal image matching,
CVIU(241), 2024, pp. 103949.
Elsevier DOI 2403
Multisensor image matching, Deep learning, Attention-based BibRef

Liu, J.Y.[Jin-Yang], Li, S.T.[Shu-Tao], Dian, R.[Renwei], Song, Z.[Ze],
Focus Relationship Perception for Unsupervised Multi-Focus Image Fusion,
MultMed(26), 2024, pp. 6155-6165.
IEEE DOI 2404
Image fusion, Feature extraction, Loss measurement, Data mining, Visual perception, Tensors, Optimization, Multi-focus image fusion, unsupervised learning BibRef

He, X.W.[Xin-Wei], Cheng, S.[Silin], Liang, D.K.[Ding-Kang], Bai, S.[Song], Wang, X.[Xi], Zhu, Y.Y.[Ying-Ying],
LATFormer: Locality-Aware Point-View Fusion Transformer for 3D shape recognition,
PR(151), 2024, pp. 110413.
Elsevier DOI 2404
3D shape retrieval and classification, Point cloud, Multi-view, Multimodal fusion, Transformer BibRef

Almarines, N.R.[Nico R.], Hashimoto, S.[Shizuka], Pulhin, J.M.[Juan M.], Tiburan, C.L.[Cristino L.], Magpantay, A.T.[Angelica T.], Saito, O.[Osamu],
Influence of Image Compositing and Multisource Data Fusion on Multitemporal Land Cover Mapping of Two Philippine Watersheds,
RS(16), No. 12, 2024, pp. 2167.
DOI Link 2406
BibRef

Sun, L.[Le], Tang, M.Q.[Meng-Qi], Muhammad, G.[Ghulam],
CABnet: A channel attention dual adversarial balancing network for multimodal image fusion,
IVC(147), 2024, pp. 105065.
Elsevier DOI 2406
Image processing, Infrared and visible image fusion, Complementary information extract, Adaptive factor BibRef

Deng, X.[Xin], Liu, E.[Enpeng], Gao, C.[Chao], Li, S.X.[Sheng-Xi], Gu, S.H.[Shu-Hang], Xu, M.[Mai],
CrossHomo: Cross-Modality and Cross-Resolution Homography Estimation,
PAMI(46), No. 8, August 2024, pp. 5725-5742.
IEEE DOI 2407
Estimation, Image resolution, Feature extraction, Superresolution, Deep learning, Task analysis, Spatial resolution, multi-modal image registration BibRef

Lin, S.Y.[Shu-Yuan], Huang, F.R.[Fei-Ran], Lai, T.T.[Tao-Tao], Lai, J.H.[Jian-Huang], Wang, H.Z.[Han-Zi], Weng, J.[Jian],
Robust Heterogeneous Model Fitting for Multi-source Image Correspondences,
IJCV(132), No. 8, August 2024, pp. 2907-2928.
Springer DOI 2408
BibRef

Li, C.[Can], Zuo, Z.[Zhen], Tong, X.Z.[Xiao-Zhong], Huang, H.[Honghe], Yuan, S.D.[Shu-Dong], Dang, Z.Y.[Zhao-Yang],
CPROS: A Multimodal Decision-Level Fusion Detection Method Based on Category Probability Sets,
RS(16), No. 15, 2024, pp. 2745.
DOI Link 2408
BibRef

Tang, Y.Q.[Yu-Qi], Yang, X.[Xin], Han, T.[Te], Sun, K.[Kai], Guo, Y.Q.[Yu-Qiang], Hu, J.[Jun],
Iterative Optimization-Enhanced Contrastive Learning for Multimodal Change Detection,
RS(16), No. 19, 2024, pp. 3624.
DOI Link 2410
BibRef

Han, W.C.[Wen-Cheng], Dong, X.P.[Xing-Ping], Zhang, Y.Y.[Yi-Yuan], Crandall, D.[David], Xu, C.Z.[Cheng-Zhong], Shen, J.B.[Jian-Bing],
Asymmetric Convolution: An Efficient and Generalized Method to Fuse Feature Maps in Multiple Vision Tasks,
PAMI(46), No. 11, November 2024, pp. 7363-7376.
IEEE DOI 2410
Task analysis, Fuses, Feature extraction, Visualization, Convolution, Target tracking, Shape, Asymmetric convolution, feature maps, vision tasks BibRef

Wu, Q.[Quan], Yu, Q.[Qida],
A Fast Sequential Similarity Detection Algorithm for Multi-Source Image Matching,
RS(16), No. 19, 2024, pp. 3589.
DOI Link 2410
BibRef

Saidi, S.[Souad], Idbraim, S.[Soufiane], Karmoude, Y.[Younes], Masse, A.[Antoine], Arbelo, M.[Manuel],
Deep-Learning for Change Detection Using Multi-Modal Fusion of Remote Sensing Images: A Review,
RS(16), No. 20, 2024, pp. 3852.
DOI Link 2411
BibRef

Liu, Y.Y.[Yu-Yan], He, W.[Wei], Zhang, H.Y.[Hong-Yan],
GRiD: Guided Refinement for Detector-Free Multimodal Image Matching,
IP(33), 2024, pp. 5892-5906.
IEEE DOI 2411
Feature extraction, Image matching, Transformers, Optical imaging, Detectors, Semantics, Image edge detection, Adaptive optics, multimodal images BibRef

Liu, Y.[Yang], Liu, F.[Fang], Jiao, L.C.[Li-Cheng], Bao, Q.Y.[Qian-Yue], Sun, L.[Long], Li, S.[Shuo], Li, L.L.[Ling-Ling], Liu, X.[Xu],
Multi-Grained Gradual Inference Model for Multimedia Event Extraction,
CirSysVideo(34), No. 10, October 2024, pp. 10507-10520.
IEEE DOI 2411
Visualization, Data mining, Task analysis, Streaming media, Feature extraction, Boats, multimodal alignment BibRef

Wang, X.X.[Xiang-Xiang], Fang, L.X.[Li-Xing], Zhao, J.L.[Jun-Li], Pan, Z.K.[Zhen-Kuan], Li, H.[Hui], Li, Y.[Yi],
MMAE: A universal image fusion method via mask attention mechanism,
PR(158), 2025, pp. 111041.
Elsevier DOI Code:
WWW Link. 2411
Deep learning, Image fusion, Universal, Mask attention mechanism BibRef

Zhang, D.[Duoyi], Bashar, M.A.[Md Abul], Nayak, R.[Richi],
A novel multi-modal fusion method based on uncertainty-guided meta-learning,
PR(158), 2025, pp. 110993.
Elsevier DOI 2411
Multi-modal fusion, Neural networks, Feature-level bias, Uncertainty estimation, Meta-learning framework BibRef

Lv, T.[Ting], Ji, C.M.[Chuan-Ming], Jiang, H.[Hong], Liu, Y.[Yu],
HF2TNet: A Hierarchical Fusion Two-Stage Training Network for Infrared and Visible Image Fusion,
SPLetters(31), 2024, pp. 3164-3168.
IEEE DOI 2411
Feature extraction, Training, Image reconstruction, Image fusion, Transformers, Decoding, Convolution, Vectors BibRef

Meng, X.C.[Xiang-Chao], Chen, C.Q.[Chao-Qi], Liu, Q.[Qiang], Shao, F.[Feng],
Multi-domain pseudo-reference quality evaluation for infrared and visible image fusion,
IET-IPR(18), No. 13, 2024, pp. 4095-4113.
DOI Link 2411
image enhancement, image fusion BibRef

Bai, Y.[Yang], Gao, M.[Meijing], Li, S.Y.[Shi-Yu], Wang, P.[Ping], Guan, N.[Ning], Yin, H.Z.[Hao-Zheng], Yan, Y.H.[Yong-Hao],
IBFusion: An Infrared and Visible Image Fusion Method Based on Infrared Target Mask and Bimodal Feature Extraction Strategy,
MultMed(26), 2024, pp. 10610-10622.
IEEE DOI 2411
Feature extraction, Image fusion, Data mining, Deep learning, Training, Generative adversarial networks, Degradation, bimodal feature extraction BibRef

Wang, X.X.[Xiang-Xiang], Fang, L.X.[Li-Xing], Zhao, J.L.[Jun-Li], Pan, Z.K.[Zhen-Kuan], Li, H.[Hui], Li, Y.[Yi],
UUD-Fusion: An unsupervised universal image fusion approach via generative diffusion model,
CVIU(249), 2024, pp. 104218.
Elsevier DOI Code:
WWW Link. 2412
Two-stage unsupervised universal image fusion. Unsupervised, Universal, Image fusion, Diffusion, Sampling algorithm BibRef

Wu, X.[Xiao], Cao, Z.H.[Zi-Han], Huang, T.Z.[Ting-Zhu], Deng, L.J.[Liang-Jian], Chanussot, J.[Jocelyn], Vivone, G.[Gemine],
Fully-Connected Transformer for Multi-Source Image Fusion,
PAMI(47), No. 3, March 2025, pp. 2071-2088.
IEEE DOI 2502
Algebra, Imaging, Pansharpening, Image representation, Transformers, Mathematical models, Computational efficiency, Sensors, visible and infrared image fusion BibRef

Hussain, I.[Israr], Tan, S.Q.[Shun-Quan], Huang, J.W.[Ji-Wu],
Few-Shot Based Learning Recaptured Image Detection with Multi-Scale Feature Fusion and Attention,
PR(161), 2025, pp. 111248.
Elsevier DOI 2502
Recaptured image detection, Few-shot learning, Multi-scale attention, Attention mechanism, Efficient-Net-models BibRef

Tang, H.[Hao], Liu, D.W.[Da-Wei], Shen, C.C.[Cheng-Chao],
Data-efficient multi-scale fusion vision transformer,
PR(161), 2025, pp. 111305.
Elsevier DOI Code:
WWW Link. 2502
Deep learning, Image classification, Vision transformer, Data efficiency, Multi-scale fusion BibRef

Liu, T.F.[Tong-Fei], Zhang, M.Y.[Ming-Yang], Gong, M.[Maoguo], Zhang, Q.F.[Qing-Fu], Jiang, F.L.[Fen-Long], Zheng, H.H.[Han-Hong], Lu, D.[Di],
Commonality Feature Representation Learning for Unsupervised Multimodal Change Detection,
IP(34), 2025, pp. 1219-1233.
IEEE DOI 2502
Feature extraction, Image reconstruction, Training, Data mining, Autoencoders, Representation learning, Image sensors, Decoding, commonality feature BibRef

Xu, J.J.[Jian-Jian], Liu, T.F.[Tong-Fei], Lei, T.[Tao], Chen, H.R.X.[Hong-Rui-Xuan], Yokoya, N.[Naoto], Lv, Z.Y.[Zhi-Yong], Gong, M.[Maoguo],
CGSL: Commonality graph structure learning for unsupervised multimodal change detection,
PandRS(229), 2025, pp. 92-106.
Elsevier DOI Code:
WWW Link. 2510
Multimodal change detection, Heterogeneous change detection, Heterogeneous images, Graph convolutional network, Commonality structural feature BibRef

Dong, C.[Chunru], Wang, L.Z.[Li-Zhen], Zhang, F.[Feng], Hua, Q.[Qiang],
Multi-modal Few-shot Image Recognition with enhanced semantic and visual integration,
IVC(157), 2025, pp. 105490.
Elsevier DOI 2504
Few-shot image recognition, Multi-modal fusion, Similarity measurement BibRef

Tang, L.[Long], Liu, Y.[Yelei], Tian, Y.J.[Ying-Jie], Pardalos, P.M.[Panos M],
Complementary label learning with multi-view data and a semi-supervised labeling mechanism,
PR(165), 2025, pp. 111651.
Elsevier DOI 2505
Complementary label learning, Semi-supervised labeling, Multi-view fusion, Consensus principle, Complementary principle BibRef

Zhou, M.[Man], Huang, J.[Jie], Yan, K.Y.[Ke-Yu], Hong, D.F.[Dan-Feng], Jia, X.P.[Xiu-Ping], Chanussot, J.[Jocelyn], Li, C.Y.[Chong-Yi],
A General Spatial-Frequency Learning Framework for Multimodal Image Fusion,
PAMI(47), No. 7, July 2025, pp. 5281-5298.
IEEE DOI 2506
Frequency-domain analysis, Superresolution, Image fusion, Task analysis, Spatial resolution, Remote sensing, Convolution, multimodal image fusion BibRef

Wang, Z.[Zeyu], Zhao, L.[Libo], Zhang, J.Z.[Ji-Zheng], Song, R.[Rui], Song, H.Y.[Hai-Yu], Meng, J.[Jiana], Wang, S.D.[Shi-Dong],
Multi-Text Guidance Is Important: Multi-Modality Image Fusion via Large Generative Vision-Language Model,
IJCV(133), No. 7, July 2025, pp. 4646-4668.
Springer DOI 2506
BibRef

Liu, Y.[Yi], Li, C.X.[Cheng-Xin], Xu, S.K.[Shou-Kun], Han, J.G.[Jun-Gong],
Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding,
IJCV(133), No. 7, July 2025, pp. 4483-4503.
Springer DOI Code:
WWW Link. 2506
BibRef

Ravi, J.[Jampani], Narmadha, R.,
A Systematic Literature Review on Multimodal Image Fusion Models with Challenges and Future Research Trends,
IJIG(25), No. 4, July 2025, pp. 2550039.
DOI Link 2507
BibRef

Liu, Y.P.[Ye-Peng], Sun, Z.C.[Zhi-Chao], Yu, B.S.[Bao-Sheng], Zhao, Y.T.[Yi-Tian], Du, B.[Bo], Xu, Y.C.[Yong-Chao], Cheng, J.[Jun],
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching,
IP(34), 2025, pp. 3593-3608.
IEEE DOI Code:
WWW Link. 2507
Image matching, Feature extraction, Training, Graph neural networks, Diffusion models, Detectors, Semantics, feature descriptor optimization BibRef

Lu, M.[Ming], Jiang, M.[Min], Tao, X.F.[Xue-Feng], Kong, J.[Jun],
AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion,
IP(34), 2025, pp. 4721-4735.
IEEE DOI Code:
WWW Link. 2508
Translation, Feature extraction, Training, Convolution, Semantics, Noise reduction, Image registration, Kernel, Measurement, denoising diffusion probabilistic models BibRef

Wang, Q.H.[Qing-Hua], Li, Z.W.[Zi-Wei], Zhang, S.Q.[Shu-Qi], Chi, N.[Nan], Dai, Q.H.[Qiong-Hai],
WaveFusion: A Novel Wavelet Vision Transformer With Saliency-Guided Enhancement for Multimodal Image Fusion,
CirSysVideo(35), No. 8, August 2025, pp. 7526-7542.
IEEE DOI 2508
Image fusion, Feature extraction, Wavelet transforms, Transformers, Convolution, Computer architecture, Computational efficiency, saliency-guided loss BibRef

Liang, P.W.[Peng-Wei], Jiang, J.J.[Jun-Jun], Ma, Q.[Qing], Wang, C.Y.[Chen-Yang], Liu, X.M.[Xian-Ming], Ma, J.Y.[Jia-Yi],
FusionINV: A Diffusion-Based Approach for Multimodal Image Fusion,
IP(34), 2025, pp. 5355-5368.
IEEE DOI Code:
WWW Link. 2509
Diffusion models, Image fusion, Adaptation models, Training, Noise reduction, Computational modeling, Noise, infrared image BibRef

Shi, L.T.[Liang-Tao], Zhong, B.[Bineng], Liang, Q.H.[Qi-Hua], Hu, X.T.[Xian-Tao], Mo, Z.Y.[Zhi-Yi], Song, S.X.[Shu-Xiang],
Mamba Adapter: Efficient Multi-Modal Fusion for Vision-Language Tracking,
CirSysVideo(35), No. 9, September 2025, pp. 9300-9311.
IEEE DOI Code:
WWW Link. 2509
Visualization, Feature extraction, Adaptation models, Target tracking, Natural languages, Semantics, Transformers, mamba BibRef

Liu, X.Y.[Xin-Yu], Ming, R.[Rui], Du, S.L.[Song-Lin], He, L.H.[Liang-Hua], Luo, H.B.[Hai-Bo], Xiao, G.[Guobao],
HSENet: Hierarchical Semantic-Enriched Network for Multi-Modal Image Fusion,
PR(170), 2026, pp. 112043.
Elsevier DOI Code:
WWW Link. 2509
Image fusion, High-level vision task, Semantic gathering and distribution, Progressive semantic dense injection BibRef

Zavras, A.[Angelos], Michail, D.[Dimitrios], Demir, B.[Begüm], Papoutsis, I.[Ioannis],
Mind the modality gap: Towards a remote sensing vision-language model via cross-modal alignment,
PandRS(228), 2025, pp. 270-287.
Elsevier DOI Code:
WWW Link. 2509
Vision-language model, Foundation model, Multi-modal learning, Cross-modal alignment, Cross-modal retrieval, Remote sensing BibRef

Cheng, T.[Tao], Chen, H.[Hao], Zhang, X.H.[Xiang-Hui], Gao, X.W.[Xiao-Wei], Yin, L.[Lu], Jiao, J.B.[Jian-Bin],
Multi-Channel Spatio-Temporal Data Fusion of 'Big' and 'Small' Network Data Using Transformer Networks,
IJGI(14), No. 8, 2025, pp. 286.
DOI Link 2509
BibRef

Hu, J.J.[Jun-Jie], Fan, C.[Chenyou], Ozay, M.[Mete], Gao, Q.[Qing], Guo, Y.L.[Yu-Lan], Lam, T.L.[Tin Lun],
Robust Depth Estimation Under Sensor Degradations: A Multi-Sensor Fusion Perspective,
PAMI(47), No. 10, October 2025, pp. 8691-8707.
IEEE DOI 2510
Depth measurement, Robot sensing systems, Laser radar, Feature extraction, Degradation, Cameras, Visualization, Accuracy, multi-modality data fusion BibRef

Xin, J.W.[Jing-Wei], Shi, B.[Boneng], Wang, N.N.[Nan-Nan], Li, J.[Jie], Gao, X.B.[Xin-Bo],
MVFusion: Generative Representation Learning With Masked Variational Autoencoders for Multi-Modality Image Fusion,
IP(34), 2025, pp. 6418-6431.
IEEE DOI Code:
WWW Link. 2510
Image fusion, Autoencoders, Representation learning, Training, Adaptation models, Image reconstruction, Degradation, Redundancy, unified fusion framework BibRef

Zheng, T.H.[Tian-Heng], Dong, G.L.[Guang-Lu], Zhang, P.P.[Ping-Ping], He, X.[Xiaohai], Ren, C.[Chao],
Plug-and-Play General Image Registration for Misaligned Multi-Modal Image Fusion,
CirSysVideo(35), No. 10, October 2025, pp. 10017-10031.
IEEE DOI Code:
WWW Link. 2510
Image registration, Image fusion, Training, Data models, Computational modeling, Integrated circuit modeling, details enhancement BibRef

Jiao, S.C.[Shi-Chao], Long, L.[Liye], Kuang, L.Q.[Li-Qun], Xiong, F.G.[Feng-Guang], Han, X.[Xie],
Multi-modal semantic embedding network for 3D shape recognition and retrieval,
JVCIR(112), 2025, pp. 104559.
Elsevier DOI 2511
Multi-modal, Multi-views, Point clouds, 3D shape recognition, 3D shape retrieval BibRef

Sun, H.[Hui], Lv, L.[Long], Zhang, P.P.[Ping-Ping], Tang, T.D.[Tong-Dan], Tian, F.[Feng], Sun, W.B.[Wei-Bing], Lu, H.C.[Hu-Chuan],
Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion,
IP(34), 2025, pp. 7684-7696.
IEEE DOI Code:
WWW Link. 2512
Feature extraction, Transformers, Image fusion, Frequency-domain analysis, Training, Image reconstruction, Head, image reconstruction BibRef

Zhu, Y.X.[Yi-Xin], Lv, L.[Long], Zhang, P.P.[Ping-Ping], Liu, X.H.[Xue-Hu], Tang, T.D.[Tong-Dan], Tian, F.[Feng], Sun, W.B.[Wei-Bing], Lu, H.C.[Hu-Chuan],
Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion,
IP(35), 2026, pp. 2380-2392.
IEEE DOI Code:
WWW Link. 2603
Feature extraction, Frequency-domain analysis, Image fusion, Transformers, Fuses, Frequency modulation, Computational modeling, visual Mamba BibRef

Sun, Y.J.[Yu-Jia], Dong, W.S.[Wei-Sheng], Wang, S.[Shuaibo], Wu, P.[Peng], Feng, M.T.[Ming-Tao], Li, X.[Xin], Shi, G.M.[Guang-Ming],
Distilling Hierarchical Knowledge From Multimodal Fusion for Unimodal Image Segmentation,
CirSysVideo(35), No. 12, December 2025, pp. 11797-11809.
IEEE DOI 2512
Image fusion, Feature extraction, Data mining, Visualization, Training, Semantic segmentation, Semantics, Computational modeling, visible image segmentation BibRef

Yu, C.B.[Chao-Bo], Pei, Z.H.[Zhong-Hui], Wang, X.R.[Xiao-Ran], Zhou, H.B.[Hua-Bing],
CrossGlue: Cross-Modal Image matching via potential message investigation and visual-gradient message integration,
JVCIR(114), 2026, pp. 104620.
Elsevier DOI 2512
Cross-modal image matching, One-to-one image transfer, Visual-gradient attention BibRef

Zhou, D.D.[Dan-Dan], Xu, L.[Lina], Wu, K.[Ke], Liu, H.Z.[Hui-Ze], Jiang, M.T.[Meng-Ting],
DSEPGAN: A Dual-Stream Enhanced Pyramid Based on Generative Adversarial Network for Spatiotemporal Image Fusion,
RS(17), No. 24, 2025, pp. 4050.
DOI Link 2512
BibRef

Jiang, J.L.[Jin-Lin], Hu, G.[Gang], Sheng, G.L.[Guang-Lei], Wei, G.[Guo],
PSG-MCANet: Multi-order cross-attention modeling for multimodal fusion based on punning semantic guidance,
PR(172), 2026, pp. 112723.
Elsevier DOI 2601
Multimodal image fusion, Punning semantic guidance, Multi-information cross attention, Advanced visual tasks, Multi-scale feature extraction BibRef

Li, M.Y.[Meng-Yu], Meng, C.[Cheng], Fan, X.D.[Xiao-Dan],
Iterative optimal transport for multimodal image registration,
PR(172), 2026, pp. 112736.
Elsevier DOI 2601
Multimodal image registration, Optimal transport, Polynomial transformation, Alternating minimization, Medical imaging BibRef

Wang, Y.X.[Yu-Xuan], Shen, Z.W.[Zhong-Wei], Li, H.[Hui], Zhang, Y.N.[Yu-Ning], Xia, Z.P.[Zhen-Ping],
SGCNet: Silhouette Guided Cascaded Network for Multi-Modal Image Fusion,
CVIU(263), 2026, pp. 104603.
Elsevier DOI 2601
Image fusion, Multi-modal fusion, Multi-head cross attention, Semantic information
See also SCAFNet: Multimodal Stroke Medical Image Synthesis and Fusion Network Based on Self Attention and Cross Attention. BibRef

He, D.[Dan], Wang, G.F.[Guo-Fen], Li, W.S.[Wei-Sheng], Shu, Y.C.[Yu-Cheng], Li, W.B.[Wen-Bo], Yang, L.J.[Li-Jian], Huang, Y.P.[Yu-Ping], Li, F.Y.[Fei-Yan],
Rethinking normalization strategies and convolutional kernels for multimodal image fusion,
PR(173), 2026, pp. 112903.
Elsevier DOI Code:
WWW Link. 2601
Multimodal image fusion, Normalization, Large kernel convolution, Multipath adaptive fusion BibRef

Li, S.T.[Song-Tao], Tang, H.[Hao],
Multimodal Alignment and Fusion: A Survey,
IJCV(134), No. 1, January 2026, pp. 103.
Springer DOI 2602
Survey, Fusion. BibRef

Fu, Y.[Yubo], Ye, X.[Xia], Kong, X.Y.[Xin-Yan],
KPTFusion: Knowledge Prior-based Task-Driven Multimodal Image Fusion,
IVC(167), 2026, pp. 105886.
Elsevier DOI 2602
Image fusion, Knowledge prior, Downstream tasks, Feature interaction BibRef

Qin, X.R.[Xin-Ran], Cui, Y.N.[Yu-Ning], Sun, S.Q.[Shang-Quan], Chen, R.[Ruoyu], Ren, W.Q.[Wen-Qi], Knoll, A.[Alois], Cao, X.C.[Xiao-Chun],
Disentangle to Fuse: Toward Content Preservation and Cross-Modality Consistency for Multi-Modality Image Fusion,
IP(35), 2026, pp. 1756-1770.
IEEE DOI 2602
Semantics, Image fusion, Feature extraction, Visualization, Degradation, Fast Fourier transforms, Semantic segmentation, content-style disentanglement BibRef

Chen, H.[Hao], Zhou, H.R.[Hao-Ran], Zhang, Y.[Yunshu], Lin, Z.[Zheng], Deng, Y.J.[Yong-Jian],
Dissecting RGB-D Learning for Improved Multi-Modal Fusion,
IP(35), 2026, pp. 1846-1857.
IEEE DOI 2602
Semantics, Visualization, Logic, Filters, Solid modeling, Computer architecture, Collaboration, Artificial neural networks, multi-modal dissection BibRef

Zhang, J.J.[Jun-Jie], Zhao, F.[Feng], Liu, H.Q.[Han-Qiang], Yu, J.[Jun],
Generative Information-Guided Heterogeneous Cross-Fusion Network With Contrastive Learning for Multimodal Remote Sensing Image Classification,
CirSysVideo(36), No. 2, February 2026, pp. 1876-1892.
IEEE DOI Code:
WWW Link. 2602
Image classification, Feature extraction, Contrastive learning, Laser radar, Diffusion models, Videos, Mamba BibRef

Mutakabbir, A.[Abdul], Lung, C.H.[Chung-Horng], Zaman, M.[Marzia], Upadhyay, D.[Darshana], Naik, K.[Kshirasagar], Millard, K.[Koreen], Ravichandran, T.[Thambirajah], Purcell, R.[Richard],
NOAH: A Multi-Modal and Sensor Fusion Dataset for Generative Modeling in Remote Sensing,
RS(18), No. 3, 2026, pp. 466.
DOI Link 2602
BibRef

Rao, J.H.[Jia-Hao], Liu, R.[Rui], Guan, J.J.[Jian-Jun], Tian, X.[Xin],
AMS-Former: Adaptive multi-scale transformer for multi-modal image matching,
PandRS(232), 2026, pp. 957-973.
Elsevier DOI Code:
WWW Link. 2602
Multi-modal image matching, Transformer, Adaptive modulation, Deep-learning BibRef

Cao, J.Z.[Jin-Zhou], Chen, J.S.[Jia-Shi], Wang, X.X.[Xiang-Xu], Huang, W.M.[Wei-Ming], Chen, D.S.[Dong-Sheng], Zhao, T.H.[Tian-Hong], Tu, W.[Wei], Li, Q.Q.[Qing-Quan],
UrbanMMCL: Urban region representations via multi-modal and multi-graph self-supervised contrastive learning,
PandRS(232), 2026, pp. 75-93.
Elsevier DOI 2602
Urban region representation learning, Contrastive learning, Pretrain-finetune, Multimodal fusion, Urban foundation model BibRef

Ying, Z.H.[Zhi-Hao], Guo, J.[Jie], Li, Y.S.[Yun-Song], Gao, Y.[Yu'e], Li, C.Y.[Chen-Yu],
Diff-Transformer: Heterogeneous Feature Fusion Network for Multisource Remote Sensing Classification,
CirSysVideo(36), No. 2, February 2026, pp. 1501-1516.
IEEE DOI 2602
Feature extraction, Transformers, Laser radar, Data mining, Diffusion models, Videos, Image classification, multimodal BibRef

Li, J.Y.[Jia-Yang], Jiang, C.J.[Cheng-Jie], Jiang, J.J.[Jun-Jun], Liang, P.W.[Peng-Wei], Ma, J.Y.[Jia-Yi], Nie, L.Q.[Li-Qiang],
Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach,
PAMI(48), No. 4, April 2026, pp. 3970-3987.
IEEE DOI 2603
Semantics, Image fusion, Training, Image segmentation, Transformers, Optimization, Data models, Visual effects, Feature extraction, text control BibRef

Panda, G.[Gargi], Kundu, S.[Soumitra], Bhattacharya, S.[Saumik], Routray, A.[Aurobinda],
L_0-Regularized Sparse Coding-Based Interpretable Network for Multi-Modal Image Fusion,
PAMI(48), No. 4, April 2026, pp. 4081-4097.
IEEE DOI 2603
Convolutional codes, Feature extraction, Encoding, Training, Image fusion, Estimation, Sparse approximation, multi-modal image fusion (MMIF) BibRef

Kamara, A.A.[Alpha Alimamy], He, S.[Shiwen], Fofanah, A.J.[Abdul Joseph],
FAMAFuse: Functional-Anatomical Multiscale Attention for Multimodal Image Fusion,
CirSysVideo(36), No. 3, March 2026, pp. 3215-3230.
IEEE DOI Code:
WWW Link. 2603
Image fusion, Transformers, Feature extraction, Magnetic resonance imaging, spatial attention multiscale BibRef

Fan, J.[Jiahe], Bocus, M.J.[Mohammud J.], Shu, S.L.[Shao-Long],
Embodied multi-modal data fusion via geometry anchoring for continuous perception in ground robots,
PRL(203), 2026, pp. 162-169.
Elsevier DOI 2604
Continuous perception, Unsupervised domain adaptation, Multi-modal data fusion, Embodied ground robots BibRef

Zhang, L.[Lu], Yang, Y.G.[Yao-Guang], He, Z.S.[Zhao-Shuang], Li, G.L.[Guo-Long], Zhao, F.[Feng], Hua, W.Q.[Wen-Qiang], Xiao, G.W.[Gong-Wei], Zhang, J.Y.[Jing-Yan],
Multimodal Remote Sensing Image Classification Based on Dynamic Group Convolution and Bidirectional Guided Cross-Attention Fusion,
RS(18), No. 7, 2026, pp. 1066.
DOI Link 2604
BibRef

Yu, M.[Miao], Lu, X.[Xing], Yang, Z.[Ziyao], Gao, D.[Daoxing], Zhong, G.Q.[Guo-Qiang],
DAMFusion: Multi-Spectral Image Segmentation via Competitive Query and Boundary Region Attention,
RS(18), No. 7, 2026, pp. 1064.
DOI Link 2604
BibRef

Yang, J.[Jiwoong], Chung, H.[Haejun], Jang, I.[Ikbeom],
Hierarchical mutual distillation for multi-view fusion: Learning from all possible view combinations,
PR(178), 2026, pp. 113432.
Elsevier DOI Code:
WWW Link. 2605
Multi-view learning, Hierarchical mutual distillation, Uncertainty-aware fusion, Flexible multi-view inference, Image classification BibRef

Pan, Y.J.[Yi-Jie], Shi, Y.C.[Yuan-Chun], Yu, C.[Chun], Kong, X.Z.[Xiang-Zeng], Zhang, Y.[Yan], Xiao, N.[Nai'an],
Beyond a single perspective: A multi-agent debate framework for affective computing,
PR(178), 2026, pp. 113445.
Elsevier DOI 2605
Affective computing, Multi-agent systems, Multi-modal fusion BibRef

Yang, A.[Anke], Liu, B.Q.[Bing-Qi], Liu, M.Z.[Ming-Zhe], Ding, H.H.[Hai-Hua], Mo, P.J.[Pei-Jun], Zhao, C.Q.[Cheng-Qiang], Liu, X.H.[Xiang-He], Ye, T.[Tao],
RIF-Fuse: Invertible Frequency Decomposition with Residual Enhancement for Robust Multimodal Fusion,
RS(18), No. 10, 2026, pp. 1520.
DOI Link 2605
BibRef

Zhang, Y.C.[Yu-Cheng], Chen, R.S.[Rong-Shan], Zhang, S.[Shuo], Leng, B.[Biao],
Focus-then-fusion: Learning discriminative cross-modal prototypes for few-shot classification,
PR(179), 2026, pp. 113527.
Elsevier DOI 2606
Few-shot classification, Multimodal fusion, Feature focusing BibRef

Zhou, Z.C.[Zhi-Cheng], Yu, T.Y.[Tian-Ye], Chen, J.F.[Jin-Feng], Liang, J.[Jing],
DGNNF: Dynamic Graph Neural Network Fusion for 3D object detection,
PR(179), 2026, pp. 113707.
Elsevier DOI 2606
3D object detection, Multi-modal fusion, Cross-modal semantic embedding, Dynamic graph neural network BibRef

Li, Y.[Yan], Xing, Y.F.[Yi-Fei], Lan, X.Y.[Xiang-Yuan], Li, X.[Xin], Chen, H.F.[Hai-Feng], Jiang, D.M.[Dong-Mei],
AlignMamba-2: Enhancing multimodal fusion and sentiment analysis with modality-aware Mamba,
PR(179), 2026, pp. 113517.
Elsevier DOI 2606
Multimodal fusion, Cross-modal alignment, Sentiment analysis, Mamba, Mixture-of-experts BibRef

Chen, T.[Tao], Wang, C.[Chuang], Zhang, Y.D.[Yu-Dong], Xia, K.J.[Kai-Jian], Qian, P.J.[Peng-Jiang],
DMFusion: Degradation-Customized Mixture-of-Experts With Adaptive Discrimination for Multi-Modal Image Fusion,
CirSysVideo(36), No. 6, June 2026, pp. 8506-8521.
IEEE DOI Code:
WWW Link. 2606
Degradation, Image restoration, Image fusion, Vectors, Noise, Adaptation models, Training, Logic gates, Decoding, mixture-of-experts BibRef

Li, Z.P.[Zheng-Peng], Hu, J.[Jun], Guan, W.[Weichun], Miao, J.W.[Jia-Wei], Wu, K.[Kunyang], Xia, Z.G.[Zhi-Guo], Yang, B.[Bin], Wu, J.S.[Jian-Sheng],
FTransMamba: A multi-stage fusion transformer and mamba modeling for multimodal remote sensing scene understanding,
PR(179), 2026, pp. 113625.
Elsevier DOI Code:
WWW Link. 2606
Multimodal remote sensing, Scene understanding, Feature fusion, Transformer and mamba architecture, Adaptive receptive field BibRef

Ma, X.Y.[Xin-Yu], Yang, Y.[Yankan], Bian, K.[Kun],
WiViHAR: A Deep Learning-Based Human Activity Recognition Method Using WiFi and Vision Multimodal Fusion,
HMS(56), No. 3, June 2026, pp. 582-591.
IEEE DOI 2606
Activity recognition, Human activity recognition, Sensor systems, Antennas, Receiving antennas, Transmitting antennas, WiFi BibRef

Yu, Y.Y.[Yan-Yan], Wang, T.[Tianli], Qiang, Y.[Yu], Wang, X.Y.[Xing-Ying], Chen, X.[Xin], Qiu, W.[Weibao],
Plane-Wave Image Reconstruction With Hy-PCF: A Novel Hybrid CNN-Transformer for Progressive Cross-Domain Fusion,
MedImg(45), No. 6, June 2026, pp. 3007-3020.
IEEE DOI 2606
Feature extraction, Imaging, Array signal processing, Image reconstruction, Ultrasonic imaging, Deep learning, Hybrid-CNN-Transformer network BibRef

Hu, M.Q.[Mao-Qing], Sun, B.[Bin], Li, S.T.[Shu-Tao], Ma, J.Y.[Jia-Yi],
SPEN: Sub-Pixel Position Error Estimation Network for Multi-Modal Image Matching,
CirSysVideo(36), No. 6, June 2026, pp. 8006-8020.
IEEE DOI Code:
WWW Link. 2606
Feature extraction, Distortion, Error analysis, Detectors, Accuracy, Nonlinear distortion, Robustness, Image matching, Cameras, sub-pixel position error estimation BibRef

Sun, Y.M.[Yi-Ming], Cui, X.[Xinyu], Wang, Z.[Zhen], Cheng, H.[Hao], Dong, Y.F.[Yong-Feng], Zhu, P.F.[Peng-Fei], Li, K.[Kai],
TEDFuse: Task-Driven Equivariant Consistency Decomposition Network for Multi-Modal Image Fusion,
MultMed(28), 2026, pp. 4332-4345.
IEEE DOI 2606
Semantics, Image fusion, Feature extraction, Semantic segmentation, Visualization, Reflection, Image restoration, Object detection, equivariant consistency BibRef

Wang, M.Y.[Meng-Yu], Liu, Z.Y.[Zhen-Yu], Li, K.[Kun], Wang, Y.[Yu], Wang, Y.W.[Yu-Wei], Wei, Y.Y.[Yan-Yan], Wang, F.[Fei],
Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion,
MultMed(28), 2026, pp. 4624-4637.
IEEE DOI 2607
Image fusion, Frequency-domain analysis, Feature extraction, Adaptation models, Transformers, Convolution, Mamba BibRef

Yu, D.[Dong], Tang, Y.[Yepeng], Zhang, C.J.[Chun-Jie], Wang, W.[Wei], Yang, G.D.[Guo-Dong], Zheng, X.L.[Xiao-Long], Zhao, Y.[Yao],
IA2GNN: Imbalance-Aware Adaptive Graph Construction for Multi-Modal Image Fusion,
MultMed(28), 2026, pp. 4747-4758.
IEEE DOI 2607
Image fusion, Feature extraction, Adaptation models, Transformers, Graph neural networks, Generative adversarial networks BibRef

Li, Y.L.[Yue-Long], Li, L.[Lin], Zhao, X.W.[Xing-Wang], Wang, J.M.[Jian-Ming],
F&S-Net: A Dual Mission (Fusion and Super-Resolution) Framework Under Various Input Resolution,
MultMed(28), 2026, pp. 4928-4941.
IEEE DOI 2607
Superresolution, Image resolution, Computer architecture, Feature extraction, Merging, Hands, Transformers, Kernel, unified framework BibRef

Xue, F.[Fei], Elflein, S.[Sven], Leal-Taixé, L.[Laura], Zhou, Q.[Qunjie],
MATCHA: Towards Matching Anything,
CVPR25(27081-27091)
IEEE DOI Code:
WWW Link. 2508
To match anything. Location awareness, Runtime, Image resolution, Foundation models, Face recognition, Semantics, Image retrieval, Diffusion models, temporal matching BibRef

Zhou, B.[Bo], Li, L.[Liulei], Wang, Y.J.[Yu-Jia], Liu, H.F.[Hua-Feng], Yao, Y.Z.[Ya-Zhou], Wang, W.G.[Wen-Guan],
UniAlign: Scaling Multimodal Alignment within One Unified Model,
CVPR25(29644-29655)
IEEE DOI 2508
Training, Point cloud compression, Adaptation models, Solid modeling, Foundation models, Computational modeling, LoRa BibRef

Hou, J.M.[Jun-Ming], Chen, X.Y.[Xiao-Yu], Ran, R.[Ran], Cong, X.F.[Xiao-Feng], Liu, X.Y.[Xin-Yang], You, J.W.[Jian Wei], Deng, L.J.[Liang-Jian],
Binarized Neural Network for Multi-spectral Image Fusion,
CVPR25(2236-2245)
IEEE DOI 2508
Wavelet transforms, Representation learning, Satellites, Limiting, Convolution, Neural networks, Memory management, Calibration, binarized neural network BibRef

Li, Y.[Yan], Xing, Y.F.[Yi-Fei], Lan, X.Y.[Xiang-Yuan], Li, X.[Xin], Chen, H.F.[Hai-Feng], Jiang, D.M.[Dong-Mei],
AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-Modal Alignment,
CVPR25(24774-24784)
IEEE DOI 2508
Accuracy, Computational modeling, Graphics processing units, Transformers, Data models, Computational efficiency, multimodal learning BibRef

Maniparambil, M.[Mayug], Akshulakov, R.[Raiymbek], Djilali, Y.A.D.[Yasser Abdelaziz Dahou], Narayan, S.[Sanath], Singh, A.[Ankit], O'Connor, N.E.[Noel E.],
Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment,
CVPR25(29847-29857)
IEEE DOI 2508
Training, Adaptation models, Technological innovation, Computational modeling, Large language models, Semantics, VLM BibRef

Li, H.[Heng], Hou, Y.N.[Yue-Nan], Xing, X.H.[Xiao-Han], Ma, Y.X.[Yue-Xin], Sun, X.[Xiao], Zhang, Y.[Yanyong],
OccMamba: Semantic Occupancy Prediction with State Space Models,
CVPR25(11949-11959)
IEEE DOI Code:
WWW Link. 2508
Training, Visualization, Semantics, Predictive models, Benchmark testing, Transformers, Prediction algorithms, multi-modal fusion BibRef

Wu, G.Y.[Guan-Yao], Liu, H.Y.[Hao-Yu], Fu, H.M.[Hong-Ming], Peng, Y.C.[Yi-Chuan], Liu, J.Y.[Jin-Yuan], Fan, X.[Xin], Liu, R.S.[Ri-Sheng],
Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond,
CVPR25(17882-17891)
IEEE DOI Code:
WWW Link. 2508
Knowledge engineering, Visualization, Adaptation models, Codes, Semantics, Data mining, Computational complexity, Image fusion, Optimization BibRef

Tran, Q.H.[Quoc-Huy], Ahmed, M.[Muhammad], Popattia, M.[Murad], Ahmed, M.H.[M. Hassan], Konin, A.[Andrey], Zia, M.Z.[M. Zeeshan],
Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion,
ECCV24(L: 141-161).
Springer DOI 2412
BibRef

Li, C.X.[Chen-Xin], Liu, X.Y.[Xin-Yu], Wang, C.[Cheng], Liu, Y.F.[Yi-Fan], Yu, W.H.[Wei-Hao], Shao, J.[Jing], Yuan, Y.X.[Yi-Xuan],
GTP-4O: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation,
ECCV24(IV: 168-187).
Springer DOI 2412
BibRef

Song, Z.Q.[Ze-Qun], Wang, L.F.[Ling-Feng],
Dual Multi-Modal Feature Fusion Network for the Evaluation of Osteosarcoma,
ICIP24(2937-2943)
IEEE DOI 2411
Accuracy, Feature extraction, Data augmentation, Tumors, Biomedical imaging, Dual input, Multi-modal information, Osteosarcoma evaluation BibRef

Gao, Z.X.[Zi-Xian], Jiang, X.[Xun], Xu, X.[Xing], Shen, F.M.[Fu-Min], Li, Y.J.[Yu-Jie], Shen, H.T.[Heng Tao],
Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion,
CVPR24(26866-26875)
IEEE DOI 2410
Uncertainty, Noise, Contrastive learning, Benchmark testing, Robustness, Multimodal Fusion, Information Bottleneck BibRef

Jiang, H.[Hanwen], Karpur, A.[Arjun], Cao, B.[Bingyi], Huang, Q.X.[Qi-Xing], Araujo, A.[Andre],
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance,
CVPR24(19865-19875)
IEEE DOI Code:
WWW Link. 2410
Training, Codes, Attention mechanisms, Computational modeling, Image matching, Benchmark testing BibRef

Yi, X.P.[Xun-Peng], Xu, H.[Han], Zhang, H.[Hao], Tang, L.F.[Lin-Feng], Ma, J.Y.[Jia-Yi],
Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion,
CVPR24(27016-27025)
IEEE DOI Code:
WWW Link. 2410
Degradation, Codes, Semantics, Pipelines, Feature extraction, Image fusion, Multi-modal fusion, Text BibRef

Vouitsis, N.[Noël], Liu, Z.Y.[Zhao-Yan], Gorti, S.K.[Satya Krishna], Villecroze, V.[Valentin], Cresswell, J.C.[Jesse C.], Yu, G.W.[Guang-Wei], Loaiza-Ganem, G.[Gabriel], Volkovs, M.[Maksims],
Data-Efficient Multimodal Fusion on a Single GPU,
CVPR24(27229-27241)
IEEE DOI Code:
WWW Link. 2410
Costs, Codes, Art, Computational modeling, Text to image, Graphics processing units, multimodal, efficient, CLIP, mixup BibRef

Zhao, Z.X.[Zi-Xiang], Bai, H.W.[Hao-Wen], Zhang, J.S.[Jiang-She], Zhang, Y.[Yulun], Zhang, K.[Kai], Xu, S.[Shuang], Chen, D.D.[Dong-Dong], Timofte, R.[Radu], Van Gool, L.J.[Luc J.],
Equivariant Multi-Modality Image Fusion,
CVPR24(25912-25921)
IEEE DOI Code:
WWW Link. 2410
Training, Image sensors, Image segmentation, Self-supervised learning, low-level vision BibRef

Han, K.Y.[Kai-Yang], Cao, F.Z.[Fan-Zhi], Shi, T.X.[Tian-Xin], Wang, P.[Pu],
A Dual Attention Network for Multimodal Remote Sensing Image Matching,
CVIDL23(128-134)
IEEE DOI 2403
Training, Deep learning, Image matching, Nonlinear distortion, Imaging, Sensors, multimodal image matching, attention mechanism BibRef

Liu, B.[Bing], Xu, Z.Q.[Zi-Qi], Bao, X.L.[Xue-Liang], Zhong, Z.[Zhaohao],
MUNformer: A strong encoder that uses multi-level features extracted by different feature extractors for fusion,
CVIDL23(291-295)
IEEE DOI 2403
Semantics, Feature extraction, Transformers, Decoding, Data mining, component, semantic segmentation BibRef

He, C.M.[Chun-Ming], Li, K.[Kai], Xu, G.X.[Guo-Xia], Zhang, Y.[Yulun], Hu, R.Z.[Run-Ze], Guo, Z.H.[Zhen-Hua], Li, X.[Xiu],
Degradation-Resistant Unfolding Network for Heterogeneous Image Fusion,
ICCV23(12577-12587)
IEEE DOI 2401
BibRef

Liu, J.Y.[Jin-Yuan], Liu, Z.[Zhu], Wu, G.Y.[Guan-Yao], Ma, L.[Long], Liu, R.S.[Ri-Sheng], Zhong, W.[Wei], Luo, Z.X.[Zhong-Xuan], Fan, X.[Xin],
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation,
ICCV23(8081-8090)
IEEE DOI Code:
WWW Link. 2401
BibRef

Sippel, F.[Frank], Seiler, J.[Jürgen], Kaup, A.[André],
Cross Spectral Image Reconstruction Using a Deep Guided Neural Network,
ICIP23(226-230)
IEEE DOI 2312
BibRef

Myers, A.[Audun], Kvinge, H.[Henry], Emerson, T.[Tegan],
TopFusion: Using Topological Feature Space for Fusion and Imputation in Multi-Modal Data,
TAG-PRA23(600-609)
IEEE DOI 2309
BibRef

Xue, Z.[Zihui], Marculescu, R.[Radu],
Dynamic Multimodal Fusion,
MULA23(2575-2584)
IEEE DOI 2309
BibRef

Kong, L.K.[Ling-Ke], Qi, X.S.[X. Sharon], Shen, Q.J.[Qi-Jin], Wang, J.C.[Jia-Cheng], Zhang, J.Y.[Jing-Yi], Hu, Y.[Yanle], Zhou, Q.C.[Qi-Chao],
Indescribable Multi-Modal Spatial Evaluator,
CVPR23(9853-9862)
IEEE DOI 2309

WWW Link. BibRef

Zhao, Z.X.[Zi-Xiang], Bai, H.W.[Hao-Wen], Zhang, J.S.[Jiang-She], Zhang, Y.[Yulun], Xu, S.[Shuang], Lin, Z.[Zudi], Timofte, R.[Radu], Van Gool, L.J.[Luc J.],
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion,
CVPR23(5906-5916)
IEEE DOI 2309
BibRef

Li, Y.W.[Yao-Wei], Quan, R.J.[Rui-Jie], Zhu, L.C.[Lin-Chao], Yang, Y.[Yi],
Efficient Multimodal Fusion via Interactive Prompting,
CVPR23(2604-2613)
IEEE DOI 2309
BibRef

Wetzer, E.[Elisabeth], Lindblad, J.[Joakim], Sladoje, N.[Nataša],
Can Representation Learning for Multimodal Image Registration be Improved by Supervision of Intermediate Layers?,
IbPRIA23(261-275).
Springer DOI 2307
BibRef

Huang, Z.B.[Zhan-Bo], Liu, J.Y.[Jin-Yuan], Fan, X.[Xin], Liu, R.S.[Ri-Sheng], Zhong, W.[Wei], Luo, Z.X.[Zhong-Xuan],
ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion,
ECCV22(XVIII:539-555).
Springer DOI 2211
BibRef

Duan, J.L.[Jia-Li], Chen, L.Q.[Li-Qun], Tran, S.[Son], Yang, J.Y.[Jin-Yu], Xu, Y.[Yi], Zeng, B.[Belinda], Chilimbi, T.[Trishul],
Multi-modal Alignment using Representation Codebook,
CVPR22(15630-15639)
IEEE DOI 2210
Training, Representation learning, Image coding, Dictionaries, Benchmark testing, Vision + language BibRef

Xue, Z.H.[Zi-Hui], Ren, S.C.[Su-Cheng], Gao, Z.Q.[Zheng-Qi], Zhao, H.[Hang],
Multimodal Knowledge Expansion,
ICCV21(834-843)
IEEE DOI 2203
Multimodal sensors, Semisupervised learning, Data collection, Data models, Internet, Task analysis, Vision + other modalities, Transfer/Low-shot/Semi/Unsupervised Learning BibRef

Zolfaghari, M.[Mohammadreza], Zhu, Y.[Yi], Gehler, P.[Peter], Brox, T.[Thomas],
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations,
ICCV21(1430-1439)
IEEE DOI 2203
Vision + language, Vision + other modalities BibRef

Yang, J.H.[Jian-Hua], Huang, Y.[Yan], Ma, Z.Y.[Zhan-Yu], Wang, L.[Liang],
CMF: Cascaded Multi-Model Fusion for Referring Image Segmentation,
ICIP21(2289-2293)
IEEE DOI 2201
Convolutional codes, Image segmentation, Visualization, Fuses, Linguistics, Benchmark testing, Referring Image Segmentation, Context Modeling BibRef

Panda, R.[Rameswar], Chen, C.F.R.[Chun-Fu Richard], Fan, Q.F.[Quan-Fu], Sun, X.[Ximeng], Saenko, K.[Kate], Oliva, A.[Aude], Feris, R.S.[Rogerio S.],
AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition,
ICCV21(7556-7565)
IEEE DOI 2203
Adaptation models, Computational modeling, Standards, Video analysis and understanding, BibRef

Shi, Z.S.[Zhen-Sheng], Liang, J.[Ju], Li, Q.Q.[Qian-Qian], Zheng, H.Y.[Hai-Yong], Gu, Z.R.[Zhao-Rui], Dong, J.Y.[Jun-Yu], Zheng, B.[Bing],
Multi-Modal Multi-Action Video Recognition,
ICCV21(13658-13667)
IEEE DOI 2203
Convolutional codes, Visualization, Analytical models, Computational modeling, Benchmark testing, Video analysis and understanding BibRef

Huang, S.C.[Shih-Cheng], Shen, L.Y.[Li-Yue], Lungren, M.P.[Matthew P.], Yeung, S.[Serena],
GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition,
ICCV21(3922-3931)
IEEE DOI 2203
Representation learning, Deep learning, Training, Image segmentation, Image recognition, Image analysis, Vision + language BibRef

Chen, B.[Brian], Rouditchenko, A.[Andrew], Duarte, K.[Kevin], Kuehne, H.[Hilde], Thomas, S.[Samuel], Boggust, A.[Angie], Panda, R.[Rameswar], Kingsbury, B.[Brian], Feris, R.S.[Rogerio S.], Harwath, D.[David], Glass, J.[James], Picheny, M.[Michael], Chang, S.F.[Shih-Fu],
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos,
ICCV21(7992-8001)
IEEE DOI 2203
Training, Optical losses, Location awareness, Annotations, Semantics, Pipelines, Video analysis and understanding, Vision + other modalities BibRef

Liang, T.[Tao], Lin, G.S.[Guo-Sheng], Feng, L.[Lei], Zhang, Y.[Yan], Lv, F.M.[Feng-Mao],
Attention is not Enough: Mitigating the Distribution Discrepancy in Asynchronous Multimodal Sequence Fusion,
ICCV21(8128-8136)
IEEE DOI 2203
Correlation, Fuses, Computational modeling, Benchmark testing, Transformers, Acoustics, Video analysis and understanding, BibRef

Liu, Y.Z.[Yun-Ze], Fan, Q.N.[Qing-Nan], Zhang, S.H.[Shang-Hang], Dong, H.[Hao], Funkhouser, T.[Thomas], Yi, L.[Li],
Contrastive Multimodal Fusion with TupleInfoNCE,
ICCV21(734-743)
IEEE DOI 2203
Training, Representation learning, Benchmark testing, Task analysis, Optimization, Vision + other modalities, Representation learning BibRef

Ouerghi, H.[Hajer], Mourali, O.[Olfa], Zagrouba, E.[Ezzeddine],
Multi-modal Image Fusion Based on Weight Local Features and Novel Sum-modified-laplacian in Non-subsampled Shearlet Transform Domain,
ISVC20(II:166-179).
Springer DOI 2103
BibRef

Perez-Rua, J.M.[Juan-Manuel], Vielzeuf, V.[Valentin], Pateux, S.[Stephane], Baccouche, M.[Moez], Jurie, F.[Frederic],
MFAS: Multimodal Fusion Architecture Search,
CVPR19(6959-6968).
IEEE DOI 2002
BibRef

Sun, S.H.[Shan-Hui], Hu, J.[Jing], Yao, M.Q.[Ming-Qing], Hu, J.R.[Jin-Rong], Yang, X.D.[Xiao-Dong], Song, Q.[Qi], Wu, X.[Xi],
Robust Multimodal Image Registration Using Deep Recurrent Reinforcement Learning,
ACCV18(II:511-526).
Springer DOI 1906
BibRef

Vielzeuf, V.[Valentin], Lechervy, A.[Alexis], Pateux, S.[Stéphane], Jurie, F.[Frédéric],
CentralNet: A Multilayer Approach for Multimodal Fusion,
MultLearnApp18(VI:575-589).
Springer DOI 1905
BibRef

Son, C.H., Zhang, X.P.,
Multimodal fusion via a series of transfers for noise removal,
ICIP17(530-534)
IEEE DOI 1803
Image representation, Imaging, Visual communication, Near-infrared imaging, multimodal fusion BibRef

Shrivastava, A.[Ashish], Rastegari, M.[Mohammad], Shekhar, S.[Sumit], Chellappa, R.[Rama], Davis, L.S.[Larry S.],
Class consistent multi-modal fusion with binary features,
CVPR15(2282-2291)
IEEE DOI 1510
BibRef

Kasiri, K.[Keyvan], Fieguth, P.W.[Paul W.], Clausi, D.A.[David A.],
Self-similarity measure for multi-modal image registration,
ICIP16(4498-4502)
IEEE DOI 1610
BibRef
Earlier:
Structural Representations for Multi-modal Image Registration Based on Modified Entropy,
ICIAR15(82-89).
Springer DOI 1507
Brain. BibRef

Zhang, H.[Hong], Chen, L.[Li], Liu, J.[Jun], Yuan, J.S.[Jun-Song],
Hierarchical multi-feature fusion for multimodal data analysis,
ICIP14(5916-5920)
IEEE DOI 1502
Algorithm design and analysis BibRef

Shen, X.Y.[Xiao-Yong], Xu, L.[Li], Zhang, Q.[Qi], Jia, J.Y.[Jia-Ya],
Multi-modal and Multi-spectral Registration for Natural Images,
ECCV14(IV: 309-324).
Springer DOI 1408
BibRef

Sahoo, S., Nanda, P.K., Samant, S.,
Tsallis and Renyi's embedded entropy based mutual information for multimodal image registration,
NCVPRIPG13(1-4)
IEEE DOI 1408
biomedical MRI BibRef

Kim, M.J.[Min-Jae], Han, D.K.[David K.], Ko, H.S.[Han-Seok],
Multimodal image fusion via sparse representation with local patch dictionaries,
ICIP13(1301-1305)
IEEE DOI 1402
Dictionaries BibRef

Glodek, M.[Michael], Schels, M.[Martin], Palm, G.[Gunther], Schwenker, F.[Friedhelm],
Multi-modal Fusion based on classifiers using reject options and Markov Fusion Networks,
ICPR12(1084-1087).
WWW Link. 1302
BibRef

Forsberg, D.[Daniel], Farnebäck, G.[Gunnar], Knutsson, H.[Hans], Westin, C.F.[Carl-Fredrik],
Multi-modal Image Registration Using Polynomial Expansion and Mutual Information,
WBIR12(40-49).
Springer DOI 1208
BibRef

Bodensteiner, C., Huebner, W., Jueng-Ling, K., Mueller, J., Arens, M.,
Local multi-modal image matching based on self-similarity,
ICIP10(937-940).
IEEE DOI 1009
BibRef

Vegh, V.[Viktor], Yang, Z.Y.[Zheng-Yi], Tieng, Q.M.[Quang M.], Reutens, D.C.[David C.],
Multimodal image registration using stochastic differential equation optimization,
ICIP10(4385-4388).
IEEE DOI 1009
BibRef

Peng, T.Y.[Ting-Ying], Yigitsoy, M.[Mehmet], Eslami, A.[Abouzar], Bayer, C.[Christine], Navab, N.[Nassir],
Deformable Registration of Multi-modal Microscopic Images Using a Pyramidal Interactive Registration-Learning Methodology,
WBIR14(144-153).
Springer DOI 1407
BibRef

Wachinger, C.[Christian], Navab, N.[Nassir],
Manifold Learning for Multi-modal Image Registration,
BMVC10(xx-yy).
HTML Version. 1009
BibRef

Xu, J.[Jiang], Yuan, J.S.[Jun-Song], Wu, Y.[Ying],
Multimodal Partial Estimates Fusion,
ICCV09(2177-2184).
IEEE DOI
PDF File. 0909
BibRef

Ma, W.Y.[Wen-Ying], Li, S.[Sheng], Yao, Y.F.[Yong-Fang], Lan, C.[Chao], Gao, S.Q.[Shi-Qiang], Tang, H.[Hui], Jing, X.Y.[Xiao-Yuan],
Multi-Modal Biometrics Pixel Level Fusion and KPCA-RBF Feature Classification for Single Sample Recognition Problem,
CISP09(1-5).
IEEE DOI 0910
BibRef

Town, C.[Christopher], Zhu, Z.G.[Zhi-Gang],
Sensor Fusion and Environmental Modelling for Multimodal Sentient Computing,
MSCSAS07(1-2).
IEEE DOI 0706
BibRef

Datar, M., Gopalakrishnan, G., Ranjan, S., Mullick, R.,
Anatomically Guided Registration for Multimodal Images,
AIPR06(10-10).
IEEE DOI 0610
BibRef

Gopalakrishnan, G., Kumar, S.V.B., Narayanan, A., Mullick, R.,
A fast piecewise deformable method for multi-modality image registration,
AIPR05(114-119).
IEEE DOI 0510
BibRef

Kelman, A.[Avi], Sofka, M.[Michal], Stewart, C.V.[Charles V.],
Keypoint Descriptors for Matching Across Multiple Image Modalities and Non-linear Intensity Variations,
Fusion07(1-7).
IEEE DOI 0706
BibRef

Guo, Y.J.[Yu-Jun], Lu, C.C.[Cheng-Chang],
Multi-modality Image Registration Using Mutual Information Based on Gradient Vector Flow,
ICPR06(III: 697-700).
IEEE DOI 0609
BibRef

Andronache, A.[Adrian], Cattin, P.C.[Philippe C.], Székely, G.[Gábor],
Local Intensity Mapping for Hierarchical Non-rigid Registration of Multi-modal Images Using the Cross-Correlation Coefficient,
WBIR06(26-33).
Springer DOI 0607
BibRef

Cremers, D.[Daniel], Guetter, C.[Christoph], Xu, C.Y.[Chen-Yang],
Nonparametric Priors on the Space of Joint Intensity Distributions for Non-Rigid Multi-Modal Image Registration,
CVPR06(II: 1777-1783).
IEEE DOI 0606
BibRef

Zöllei, L.[Lilla], Wells, III, W.M.[William M.],
Multi-modal Image Registration Using Dirichlet-Encoded Prior Information,
WBIR06(34-42).
Springer DOI 0607
BibRef

Zollei, L.[Lilla], Fisher, J.[John], Wells, III, W.M.[William M.],
A Unified Statistical and Information Theoretic Framework for Multi-modal Image Registration,
MIT AIM-2004-011, April 28, 2004.
WWW Link. 0501
BibRef

Chan, H.M.[Ho-Ming], Chung, A.C.S., Yu, S.C.H., Norbash, A., Wells, III, W.M.[William M.],
Multi-modal image registration by minimizing Kullback-Leibler distance between expected and observed joint class histograms,
CVPR03(II: 570-576).
IEEE DOI 0307
BibRef

Chapter on Registration, Matching and Recognition Using Points, Lines, Regions, Areas, Surfaces continues in
Object Detection with Multi-Modal Fusion .

Last update:Jul 11, 2026 at 11:55:55