Liefeng Bo

Spatial-Omni achieves superior spatial audio understanding by seamlessly integrating FOA encoding into existing LLMs, outperforming traditional models without compromising general audio processing.

Zhiyuan Zhu, Yixuan Chen, Yiwen Shao +12

Multimodal Models Speech & Audio

NUS1w ago·also Tencent AI, XJTU

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Flow-DPPO outperforms traditional PPO methods by achieving higher rewards and greater training stability through a novel divergence proximal constraint.

Bowen Ping, Xiangxin Zhou, Penghui Qi +3

Multimodal Models RLHF & Preference Learning

Jun 8, 2026

Jiarui Yao +51w ago·also Tencent AI

Rethinking the Divergence Regularization in LLM RL

Smooth gradient adjustments in DRPO prevent harmful policy shifts, leading to more stable and efficient LLM training.

Jiarui Yao, Xiangxin Zhou, Penghui Qi +3

RLHF & Preference Learning

Jun 5, 2026

1w ago·also Fudan, Hunyuan Team, NTU, PKU +4

MMAE: A Massive Multitask Audio Editing Benchmark

Current audio editing models are failing spectacularly, with an Exact Match Rate below 5% in complex tasks, exposing a critical need for improvement.

Ziyang Ma, Ruiqi Yan, Ruiyang Xu +33

Eval Frameworks & Benchmarks Multimodal Models Speech & Audio

Apr 9, 2026

Xiangyue Liu +5Apr 9, 2026·also Corresponding author, Tencent AI

Symbiotic-MoE: Unlocking the Synergy between Generation and Understanding

LMMs can learn to generate images *and* improve their understanding abilities, without catastrophic forgetting, by carefully disentangling and sharing experts within a MoE architecture.

Xiangyue Liu, Zijian Zhang, Miles Yang +3

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Mar 16, 2026

Mar 16, 2026·also RUC, TAU

HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization

Achieve SOTA in both visual generation and understanding by harmonizing generative and semantic representations within a single ViT architecture.

Yutao Cui, Junzhe Li, Jiakui Hu +4

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Mar 11, 2026

Mar 11, 2026·also PKU, Tencent AI, ZJU

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Ditch discrete visual tokens: UniCom achieves SOTA multimodal generation by compressing continuous semantic representations, unlocking better controllability and consistency in image editing.

Wang Lin, Miles Yang, Jingyuan Chen +3

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Search

Liefeng Bo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (8)