Maosong Sun

MemoryCard transforms long videos into coherent, topic-focused segments, boosting long-video QA accuracy by over 21% while maintaining visual-token efficiency.

Qing Yang, Pengcheng Huang, Xinze Li +6

Computer Vision Multimodal Models

May 28, 2026

2w ago·also Tsinghua AI, PKU

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

Crafter revolutionizes scientific figure generation by enabling multi-type outputs and local editability, outperforming existing systems across diverse benchmarks.

Haozhe Zhao, Shuzheng Si, Zhenhailong Wang +5

Computer Vision Multimodal Models Scientific Discovery & Drug Design

May 25, 2026

Tsinghua AI3w ago·also BJTU, Northwest Polytechnical University

Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

Multi-source visual reasoning can actually *hurt* performance when modalities conflict, but MARS solves this by adaptively emphasizing mutual promotion and suppressing noise, leading to significant gains.

Fanhu Zeng, Zhicong Luo, Zefan Wang +3

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

May 3, 2026

Central Conservatory of MusicMay 3, 2026·also Tsinghua AI

Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

Forget separate structure and fidelity models – Khala shows you can generate high-quality music with text-vocal alignment using a single acoustic-token hierarchy.

Jiafeng Liu, Yuanliang Dong, Hongjia Liu +7

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Speech & Audio

Search

Maosong Sun

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)