Haohuan Fu

Tsinghua Shenzhen International Graduate School, Shenzhen, China, National Supercomputing Center in Shenzhen, Shenzhen, China

Tsinghua AI

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (6)Computer Vision (3)Training Efficiency & Optimization (2)Inference & Quantization (1)

Frequent co-authors

Jianxi Huang (3)Zi Ye (2)Jing Wu (2)Shilei Cao (2)

Papers (7)

Jun 30, 2026

Tsinghua AI1w ago·also National Supercomputing Center in Shenzhen, SYSU

Attend, Transform, or Silence: Operator-Level Visual Skipping for Efficient Multimodal LLM Inference

Late visual-token updates can be safely ignored, leading to a 33.7% reduction in computational load without sacrificing performance.

Zhaoyang Luo, Runmin Dong, Miao Yang +3

Inference & Quantization Multimodal Models

Jun 18, 2026

Tsinghua AI3w ago·also Bocconi University, Macao Polytechnic University, National Supercomputing Center in Shenzhen

TaCauchy: An Extensible FEM Framework for Vision-Based Tactile Simulation

Achieving over 555 FPS in tactile simulations, TaCauchy delivers unprecedented accuracy in mechanical stress computation for robotics applications.

Hengfei Zhao, Yifan Xie, Junhao Gong +6

Computer Vision Robotics & Embodied AI

May 21, 2026

May 21, 2026·also Tsinghua AI, Agricultural University, National Supercomputing Center, National Supercomputing Center in Shenzhen +3

AgroTools: A Benchmark for Tool-Augmented Multimodal Agents in Agriculture

Today's best multimodal LLMs are surprisingly inept at using tools to solve agricultural tasks, struggling with everything from planning to error recovery.

Zi Ye, Yibin Wen, Xiaoya Fan +8

Eval Frameworks & Benchmarks Multimodal Models Tool Use & Agents

Apr 16, 2026

Peifeng Zhang +6Apr 16, 2026·also Tsinghua AI, National Supercomputing Center in Shenzhen

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning

VLMs forget visual reasoning skills in continual learning because today's methods over-protect the language model while neglecting the vision encoder.

Peifeng Zhang, Zice Qiu, Donghua Yu +4

Multimodal Models Training Efficiency & Optimization

Apr 14, 2026

Tsinghua AIApr 14, 2026·also Agricultural University, CAU, National Supercomputing Center in Shenzhen, Northeastern +2

GTPBD-MM: A Global Terraced Parcel and Boundary Dataset with Multi-Modality

Extracting agricultural parcels from satellite imagery gets a whole lot harder (and more realistic) with a new dataset focused on the complex, irregular, and heterogeneous terrain of terraced farms.

Zhiwei Zhang, Xingyuan Zeng, Xinkai Kong +6

Computer Vision Data Curation & Synthetic Data Multimodal Models

Mar 18, 2026

Mar 18, 2026·also Tsinghua AI, Agricultural University, National Supercomputing Center in Shenzhen, Southwest Jiaotong University

Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation

Achieve state-of-the-art performance in multimodal remote sensing semantic segmentation with significantly fewer trainable parameters by using a novel parameter-efficient and modality-balanced symmetric fusion framework.

Haocheng Li, Juepeng Zheng, Shuangxi Miao +4

Computer Vision Multimodal Models Training Efficiency & Optimization

Mar 16, 2026

Mar 16, 2026·also Tsinghua AI, Kuaishou, National Supercomputing Center in Shenzhen, NSFC

AGCD: Agent-Guided Cross-Modal Decoding for Weather Forecasting

Injecting physics-based priors derived from MLLMs at decoding time significantly boosts weather forecasting accuracy and stability, even in long autoregressive rollouts.

Jing Wu, Junbo Zeng, Jiabin Wang +8

Multimodal Models Scientific Discovery & Drug Design

Search

Haohuan Fu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (7)