Huadong Ma

Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (5)Computer Vision (3)Reasoning & Chain-of-Thought (2)Code Generation & Program Synthesis (1)

Frequent co-authors

Mengshi Qi (4)Shuaikun Liu (2)Zhaohong Liu (2)Wei Deng (2)

Papers (6)

Jun 9, 2026

1d ago·also Beijing Key Laboratory of Intelligent

Leveraging Metric Depth for Relative Depth Prediction

Achieving a score of $2.68 \times 10^{-3}$ in a depth estimation challenge reveals the untapped potential of zero-shot learning in complex visual tasks.

Xiaoyang Bi, Shuaikun Liu, Zhaohong Liu +4

Computer Vision Multimodal Models

Zijie Lou +421d ago·also Beijing Key Laboratory of Intelligent, BUPT

The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

A unified evaluation framework for portrait composition could revolutionize how AI interprets and generates artistic images.

Zijie Lou, Youyun Tang, Xiaochao Qu +40

Computer Vision Multimodal Models

Jun 8, 2026

2d ago·also Beijing Key Laboratory of Intelligent

Claude Code-Driving Scenario Mining for the Argoverse 2 Challenge

Autonomous code generation combined with rigorous semantic review can drastically enhance scenario mining accuracy in complex driving environments.

Wei Deng, Caoshengzhe Xue, Shuaikun Liu +3

Code Generation & Program Synthesis Data Curation & Synthetic Data Robotics & Embodied AI

Jun 4, 2026

Beijing Key Laboratory of Intelligent6d ago·also BUPT

Global-Local Monte Carlo Tree Search in Vision-Language Models for Text-to-3D Indoor Scene Generation

By rethinking text-to-3D generation as a planning problem, this approach significantly reduces error propagation and enhances scene realism.

Mengshi Qi, Wei Deng, Xianlin Zhang +1

Multimodal Models Reasoning & Chain-of-Thought World Models & Planning

Jun 1, 2026

1w ago·also Beijing Key Laboratory of Intelligent

Question-Aware Evidence Ledgers for Video Relational Reasoning

Achieving nearly 93% accuracy in video relational reasoning, this approach reveals how structured evidence can dramatically enhance model performance in complex visual contexts.

Yilin Ou, Mengshi Qi, Huadong Ma

Multimodal Models Reasoning & Chain-of-Thought

May 27, 2026

2w ago·also Beijing Key Laboratory of Intelligent

VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer

VLMs can achieve state-of-the-art video recognition by splitting temporal modeling experts into specialized roles for spatial understanding and motion processing.

Rui Lin, Chuanming Wang, Huadong Ma

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models