Keith Price Bibliography journal Details for mula

Journals starting with mula

MULA21 * *Multimodal Learning and Applications Workshop
* 3D Hand Pose Estimation via aligned latent space injection and kinematic losses
* Adaptive Intermediate Representations for Video Understanding
* APES: Audiovisual Person Search in Untrimmed Video
* Beyond VQA: Generating Multi-word Answers and Rationales to Visual Questions
* Cross-modal Speaker Verification and Recognition: A Multilingual Perspective
* Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation
* Editing like Humans: A Contextual, Multimodal Framework for Automated Video Editing
* Exploring the Limits of Zero-Shot Learning: How Low Can You Go?
* Improved Attention for Visual Question Answering, An
* Practical Cross-modal Manifold Alignment for Robotic Grounded Language Learning
* Private-Shared Disentangled Multimodal VAE for Learning of Latent Representations
* Progressive Knowledge-Embedded Unified Perceptual Parsing for Scene Understanding
* Radar Camera Fusion via Representation Learning in Autonomous Driving
* Self-supervised Feature Learning by Cross-modality and Cross-view Correspondences
* Target-Tailored Source-Transformation for Scene Graph Generation
* Using Text to Teach Image Retrieval
17 for MULA21

MULA22 * *Multimodal Learning and Applications
* Cascaded Siamese Self-supervised Audio to Video GAN
* Coarse-to-Fine Reasoning for Visual Question Answering
* Coupling Vision and Proprioception for Navigation of Legged Robots
* Doubling down: sparse grounding with an additional, almost-matching caption for detection-oriented multimodal pretraining
* Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval
* Guiding Attention using Partial-Order Relationships for Image Captioning
* Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations
* Learning to Ask Informative Sub-Questions for Visual Question Answering
* M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation
* Modulating Bottom-Up and Top-Down Visual Processing via Language-Conditional Filters
* Probabilistic Compositional Embeddings for Multimodal Image Retrieval
* Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog
* Semantically Grounded Visual Embeddings for Zero-Shot Learning
* Transformer Decoders with Multi-Modal Regularization for Cross-Modal Food Retrieval
* Unreasonable Effectiveness of CLIP Features for Image Captioning: An Experimental Analysis, The
16 for MULA22

MULA23 * *Multimodal Learning and Applications
* Adapting Grounded Visual Question Answering Models to Low Resource Languages
* Dynamic Multimodal Fusion
* Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
* MONET dataset: Multimodal drone thermal dataset recorded in rural scenarios, The
* Multi Event Localization by Audio-Visual Fusion with Omnidirectional Camera and Microphone Array
* Robust Multiview Multimodal Driver Monitoring System Using Masked Multi-Head Self-Attention
* SEM-POS: Grammatically and Semantically Correct Video Captioning
* SSGVS: Semantic Scene Graph-to-Video Synthesis
* TFRGAN: Leveraging Text Information for Blind Face Restoration with Extreme Degradation
10 for MULA23

MULA24 * *Multimodal Learning and Applications
* AIGeN: An Adversarial Approach for Instruction Generation in VLN
* Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection
* De-noised Vision-language Fusion Guided by Visual Cues for E-commerce Product Search
* Exploring the Role of Audio in Video Captioning
* InVERGe: Intelligent Visual Encoder for Bridging Modalities in Report Generation
* LAformer: Trajectory Prediction for Autonomous Driving with Lane-Aware Scene Constraints
* Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning
* Listen Then See: Video Alignment with Speaker Attention
* Multi-Modal Fusion of Event and RGB for Monocular Depth Estimation Using a Unified Transformer-based Architecture
* Multimodal Understanding of Memes with Fair Explanations
* RGB-D Cube R-CNN: 3D Object Detection with Selective Modality Dropout
* VMCML: Video and Music Matching via Cross-Modality Lifting
* ZInD-Tell: Towards Translating Indoor Panoramas into Descriptions
14 for MULA24

MULA25 * Compositional Image-Text Matching and Retrieval by Grounding Entities
* Exploring Missing Modality in Multimodal Egocentric Datasets
* ICT-QA: Question Answering Over Multi-Modal Contexts Including Image, Chart, and Text Modalities
* Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge
* Location-Free Scene Graph Generation
* LVP-CLIP: Revisiting CLIP for Continual Learning with Label Vector Pool
* Multimodal Rationales for Explainable Visual Question Answering
* MVCM: Enhancing Multi-View and Cross-Modality Alignment for Medical Visual Question Answering and Medical Image-Text Retrieval
* Online Gaussian Test-Time Adaptation of Vision-Language Models
* Pose-Aware Weakly-Supervised Action Segmentation
* QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-Free Visual Document Understanding
* Skin Lesion Classification using Dermoscopic Images and Clinical Metadata: Insights from Multimodal Models
* SplatTouch: Explicit 3D Representation Binding Vision and Touch
* TLAC: Two-Stage LMM Augmented CLIP for Zero-Shot Classification
* Transformer-Based Lung Infection Severity Prediction with Cross Attention and Conditional TransMix Augmentation
* Trishul: Towards Region Identification and Screen Hierarchy Understanding for Large VLM Based GUI Agents
* Vocabulary-Free Few-Shot Learning for Vision-Language Models
17 for MULA25

Last update:26-Feb-26 11:51:09
Use price@usc.edu for comments.