Hongjie Zhang

AI Laboratory

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (5)Computer Vision (3)Tool Use & Agents (1)Eval Frameworks & Benchmarks (1)

Frequent co-authors

Yifei Liu (2)Yuning Gong (2)Xue Yang (2)Zhihang Zhong (2)

Papers (5)

May 22, 2026

2w ago·also AI Laboratory, Cornell, Northeastern, PhotoFlow +3

PhotoFlow: Agentic 3D Virtual Photography Missions

LLM-powered agents can now produce surprisingly strong photographs in complex 3D environments, suggesting a path towards embodied AI with aesthetic awareness.

Jiarui Guo, Haojia Wei, Yifei Liu +4

Computer Vision Multimodal Models Tool Use & Agents

May 21, 2026

D visual recognition and2w ago·also AI Laboratory, Beihang, Chongqing, D scene information. First +4

SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

Visual degradations can cripple the spatial reasoning abilities of even state-of-the-art MLLMs, but targeted finetuning can restore—and even surpass—human-level performance.

Xiaolong Zhou, Yifei Liu, Ziyang Gong +6

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Mar 17, 2026

Mar 17, 2026·also AI Laboratory, Fudan, NJU, Shanghai AI Lab

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

By explicitly exposing the model's reasoning process during SVG generation, CTRL-S achieves higher task success rates, superior SVG code quality, and exceptional visual fidelity compared to existing methods.

Haomin Wang, Qianli Ma, Jinhui Yin +1

Code Generation & Program Synthesis Multimodal Models Reasoning & Chain-of-Thought

Mar 10, 2026

Mar 10, 2026·also AGI Research Center, AI Laboratory, BUPT, CUHK +6

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

A 4B-parameter model, InternVL-U, outperforms 14B-parameter models in multimodal generation and editing, proving that size isn't everything.

Changyao Tian, Danni Yang, Guanzhou Chen +27

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Open-Source Models & Weights

Mar 8, 2026

Mar 8, 2026·also AI Laboratory, PhotoFlow, SCU, visionary-laboratory

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Forget hand-annotated 3D datasets: a new automated pipeline generates massive, high-quality 3D spatial intelligence from raw video, unlocking better VLM reasoning.

Xinhao Ji, Yuning Gong, Yuanjun Liao +4

Computer Vision Data Curation & Synthetic Data Multimodal Models

Search

Hongjie Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)