Qi Feng

State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University;

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (2)Multimodal Models (2)Robotics & Embodied AI (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Yulin Luo (1)Hao Chen (1)Zhuangzhe Wu (1)Bowen Sui (1)

Papers (2)

Mar 16, 2026

Mar 16, 2026·also CUHK, Simplexity Robotics;

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Visual grounding in VLAs weakens in deeper layers, but injecting multi-level visual features and pruning irrelevant tokens can boost performance by 9% in simulation and 7.5% in the real world.

Yulin Luo, Hao Chen, Zhuangzhe Wu +11

Computer Vision Multimodal Models Robotics & Embodied AI

May 18, 2025

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

A 7B model can beat much larger models at visuospatial reasoning by using a specialized architecture and training dataset.

Qi Feng7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models+1

Search

Qi Feng

Research focus

Frequent co-authors

Papers (2)