Zhenbo Luo

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (3)Computer Vision (2)Speech & Audio (1)Training Efficiency & Optimization (1)

Frequent co-authors

Jianzhong Ju (2)Jian Luan (2)Yiduo Jia (1)Muzhi Zhu (1)

Papers (3)

Apr 9, 2026

Yiduo Jia +113w ago·also Xiaomi Inc, ZJU

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

OmniJigsaw reveals a "bi-modal shortcut phenomenon" in joint audio-visual integration, demonstrating that naive fusion can be surprisingly ineffective and highlighting the importance of carefully designed cross-modal training strategies.

Yiduo Jia, Muzhi Zhu, Haoyang Zhong +9

Computer Vision Multimodal Models Speech & Audio

Feb 26, 2026

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

By jointly training a keyframe sampler with an MLLM, MSJoE achieves state-of-the-art accuracy in long-form video understanding while significantly reducing computational cost.

Wenhui Tan, Xiaoyi Yu, Xiaoyi Yu +8

Computer Vision Multimodal Models Training Efficiency & Optimization

Feb 26, 2026

ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding

Unleashing powerful reasoning in OLLMs doesn't require expensive training data or compute – just clever guidance from existing Large Reasoning Models.

Yiran Guan, Sifan Tu, Sifan Tu +7

Multimodal Models Reasoning & Chain-of-Thought Tool Use & Agents

Search

Zhenbo Luo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)