12.1.4.7.1 Object Detection with Multi-Modal Fusion

Chapter Contents (Back)
Fusion. Sensor Fusion. Multi-Modal Fusion. Cross-Modal Fusion. Object Detection.

Kim, I., Vachtsevanos, G.J.,
Overlapping Object Recognition: A Paradigm for Multiple Sensor Fusion,
RAMag(5), No. 3, September 1998, pp. 37-44. 9810
BibRef

Yu, J.G.[Jin-Gang], Gao, C.X.[Chang-Xin], Tian, J.W.[Jin-Wen],
Collaborative multicue fusion using the cross-diffusion process for salient object detection,
JOSA-A(33), No. 3, March 2016, pp. 404-415.
DOI Link 1603
Digital image processing BibRef

Liu, W.B.[Wen-Bing], Wang, H.B.[Hai-Bo], Gao, Q.X.[Quan-Xue], Zhu, Z.R.[Zhao-Rui],
Multi-modal object detection via transformer network,
IET-IPR(17), No. 12, 2023, pp. 3541-3550.
DOI Link 2310
image representations, object detection BibRef

Lee, S.[Seungik], Park, J.[Jaehyeong], Park, J.[Jinsun],
CrossFormer: Cross-guided attention for multi-modal object detection,
PRL(179), 2024, pp. 144-150.
Elsevier DOI 2403
Object detection, Multi-modal, Sensor fusion BibRef

Deng, Y.H.[Yao-Hua], Liu, X.L.[Xia-Li], Yang, K.[Kenan], Li, Z.H.[Ze-Hang],
Flexible thin parts multi-target positioning method of multi-level feature fusion,
IET-IPR(18), No. 11, 2024, pp. 2996-3012.
DOI Link 2409
Gaussian processes, image fusion, image recognition, object recognition BibRef

Wang, J.P.[Jin-Peng], Su, N.[Nan], Zhao, C.H.[Chun-Hui], Yan, Y.M.[Yi-Ming], Feng, S.[Shou],
Multi-Modal Object Detection Method Based on Dual-Branch Asymmetric Attention Backbone and Feature Fusion Pyramid Network,
RS(16), No. 20, 2024, pp. 3904.
DOI Link 2411
BibRef

Dong, A.[Aimei], Wang, L.[Long], Liu, J.[Jian], Xu, J.Y.[Jing-Yuan], Zhao, G.X.[Gui-Xin], Zhai, Y.[Yi], Lv, G.H.[Guo-Hua], Cheng, J.[Jinyong],
Co-Enhancement of Multi-Modality Image Fusion and Object Detection via Feature Adaptation,
CirSysVideo(34), No. 12, December 2024, pp. 12624-12637.
IEEE DOI 2501
Image fusion, Task analysis, Semantics, Feature extraction, Object detection, Visualization, Visual perception, Image fusion, mutual promotion BibRef

Cao, Z.H.[Zi-Han], Liang, Y.J.[Yu-Jie], Deng, L.J.[Liang-Jian], Vivone, G.[Gemine],
An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance,
PAMI(47), No. 11, November 2025, pp. 9845-9862.
IEEE DOI 2510
Image fusion, Training, Semantics, Windows, Flowering plants, Diffusion models, Pansharpening, Image sensors, Object detection, deep learning BibRef

Liu, Z.W.[Zhan-Wen], Cheng, J.[Juanru], Fan, J.[Jin], Lin, S.[Shan], Wang, Y.[Yang], Zhao, X.M.[Xiang-Mo],
Multi-Modal Fusion Based on Depth Adaptive Mechanism for 3D Object Detection,
MultMed(27), 2025, pp. 707-717.
IEEE DOI 2502
Point cloud compression, Feature extraction, Object detection, Laser radar, Image color analysis, Detectors, Deep learning, camera sensor BibRef

Yang, Z.[Zeyu], Song, N.[Nan], Li, W.[Wei], Zhu, X.T.[Xia-Tian], Zhang, L.[Li], Torr, P.H.S.[Philip H.S.],
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving,
PAMI(47), No. 8, August 2025, pp. 6749-6763.
IEEE DOI 2507
Point cloud compression, Object detection, Feature extraction, Laser radar, Autonomous vehicles, Decoding, Cameras, Transformers, multi-modal fusion BibRef

Hu, S.[Shuo], Liu, T.[Tongtong], Han, L.Y.[Li-Yang], Xing, R.[Run],
Vision-language tracking with attention-based optimization,
JVCIR(114), 2026, pp. 104644.
Elsevier DOI 2512
Object tracking, Vision-language tracking, Feature alignment, Multimodal fusion BibRef

Ning, T.[Tong], Lu, K.[Ke], Jiang, X.[Xirui], Xue, J.[Jian],
Mambafusion: State-space model-driven object-scene fusion for multi-modal 3D object detection,
PR(173), 2026, pp. 112820.
Elsevier DOI 2601
Autonomous driving, 3D object detection, Multi-modal fusion, State space model, Computer vision BibRef

Ning, Z.W.[Zhi-Wei], Liu, Z.J.[Zhao-Jiang], Gao, X.[Xuanang], Zuo, Y.F.[Yi-Fan], Yang, J.[Jie], Fang, Y.M.[Yu-Ming], Liu, W.[Wei],
CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection With IoU Joint Prediction,
CirSysVideo(36), No. 2, February 2026, pp. 2177-2190.
IEEE DOI Code:
WWW Link. 2602
Proposals, Laser radar, Feature extraction, Detectors, Cameras, Training, Sensors, Point cloud compression, Pipelines, cross-view alignment BibRef

Lu, R.[Ruitao], Zhuo, Z.H.[Zhan-Hong], Wang, S.[Siyu], Fan, J.[Jiwei], Shen, T.[Tong], Yang, X.G.[Xiao-Gang],
SAMKD: A Hybrid Lightweight Algorithm Based on Selective Activation and Masked Knowledge Distillation for Multimodal Object Detection,
RS(18), No. 3, 2026, pp. 450.
DOI Link 2602
BibRef

Zhang, Y.[Yusi], Xie, W.Y.[Wei-Ying], Hui, T.L.[Tian-Lin], Li, D.X.[Dai-Xun], Zhang, J.Q.[Jia-Qing], Lei, J.[Jie], Li, Y.S.[Yun-Song], Fang, L.Y.[Le-Yuan],
LoME: LoRA-Driven Multimodal Extractor for RGB-X Vision Tasks,
CirSysVideo(36), No. 2, February 2026, pp. 1487-1500.
IEEE DOI Code:
WWW Link. 2602
Feature extraction, Optimization, Adaptation models, Training, Object detection, Accuracy, Videos, Lighting, LoRA BibRef

Yang, Z.[Zhen], Dong, Y.P.[Yan-Peng], Wang, J.Y.[Jia-Yu], Wang, H.[Heng], Ma, L.C.[Li-Chao], Cui, Z.J.[Zi-Jian], Liu, Q.[Qi], Pei, H.R.[Hao-Ran], Zhang, K.[Kexin], Zhang, C.[Chao],
DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction,
CirSysVideo(36), No. 2, February 2026, pp. 1742-1753.
IEEE DOI Code:
WWW Link. 2602
Point cloud compression, Feature extraction, Object detection, Image resolution, Semantics, Geometry, Cameras, Training, autonomous driving BibRef

Li, J.[Jie], Sui, C.H.[Chen-Hong], Wang, J.[Jing], Zhou, J.[Jun],
PMDet: Patch-Aware Enhancement and Fusion for Multispectral Object Detection,
RS(18), No. 7, 2026, pp. 1068.
DOI Link 2604
BibRef

Hao, L.[Lei], Xu, L.[Lina], Liu, C.[Chang], Dong, Y.[Yanni],
LASFNet: A Lightweight Attention-Guided Self-Modulation Feature Fusion Network for Multimodal Object Detection,
Cyber(56), No. 5, May 2026, pp. 2516-2528.
IEEE DOI Code:
WWW Link. 2604
Feature extraction, Object detection, Neck, Accuracy, Adaptation models, Computational efficiency, Remote sensing, self-modulation BibRef

Shrivastava, A.[Ayush], Owens, A.[Andrew],
Self-Supervised Spatial Correspondence Across Modalities,
CVPR25(6383-6393)
IEEE DOI 2508
Visualization, Semantics, Benchmark testing, Object recognition, tracking, cross-modal matching, self-supervised learning, correspondence BibRef

Chen, L.[Luke], Wang, J.[Junyao], Mortlock, T.[Trier], Khargonekar, P.[Pramod], Faruque, M.A.A.[Mohammad Abdullah Al],
Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles Perception,
CVPR25(22306-22316)
IEEE DOI 2508
Training, Uncertainty, Semantic segmentation, Multimodal sensors, Object detection, Machine learning, Reliability BibRef

Mei, S.B.[Shi-Bin], Ni, B.B.[Bing-Bing], Wang, H.[Hang], Zhao, C.L.[Cheng-Long], Hu, F.[Fengfa], Pi, Z.M.[Zhi-Ming], Ke, B.[Bilian],
Object-Oriented Anchoring and Modal Alignment in Multimodal Learning,
ECCV24(L: 179-196).
Springer DOI 2412
BibRef

Bahaduri, B.[Bissmella], Ming, Z.H.[Zu-Heng], Feng, F.C.[Fang-Chen], Mokraoui, A.[Anissa],
Multimodal Transformer Using Cross-Channel Attention for Object Detection in Remote Sensing Images,
ICIP24(2620-2626)
IEEE DOI 2411
Convolutional codes, Object detection, Self-supervised learning, Transformers, Robustness, Sensors, Multimodal fusion, remote sensing imagery BibRef

Li, X.[Xilai], Li, X.S.[Xiao-Song], Ye, T.[Tao], Cheng, X.Q.[Xiao-Qi], Liu, W.Y.[Wu-Yang], Tan, H.[Haishu],
Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion,
WACV24(1617-1626)
IEEE DOI Code:
WWW Link. 2404
Optical filters, Smoothing methods, Fuses, Estimation, Object detection, Optical imaging, Maintenance, Algorithms, Autonomous Driving BibRef

Li, X.[Xin], Ma, T.[Tao], Hou, Y.N.[Yue-Nan], Shi, B.[Botian], Yang, Y.C.[Yu-Chen], Liu, Y.[Youquan], Wu, X.J.[Xing-Jiao], Chen, Q.[Qin], Li, Y.K.[Yi-Kang], Qiao, Y.[Yu], He, L.[Liang],
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion,
CVPR23(17524-17534)
IEEE DOI 2309
BibRef

Piergiovanni, A.J., Casser, V.[Vincent], Ryoo, M.S.[Michael S.], Angelova, A.[Anelia],
4D-Net for Learned Multi-Modal Alignment,
ICCV21(15415-15425)
IEEE DOI 2203
Point cloud compression, Codes, Dynamics, Object detection, Sensors, Vision for robotics and autonomous vehicles, Detection and localization in 2D and 3D BibRef

Chapter on Registration, Matching and Recognition Using Points, Lines, Regions, Areas, Surfaces continues in
Fusion, Range or Depth and Intensity or Color Data .

Last update:Apr 23, 2026 at 15:05:02