Xianghao Kong

HKUST

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (4)Reasoning & Chain-of-Thought (2)Computer Vision (2)Eval Frameworks & Benchmarks (1)

Frequent co-authors

A. Rao (4)Hohin Kwan (1)Hongyu Li (1)Ray Zhang (1)

Papers (4)

Jun 26, 2026

2w ago·also Beihang, Meituan

Video-MME-Logical: A Controlled Diagnostic Benchmark for Video Temporal-Logical Reasoning

MLLMs struggle with video temporal-logical reasoning, showing a substantial performance gap compared to human capabilities, especially as complexity increases.

Hohin Kwan, Hongyu Li, Ray Zhang +6

Eval Frameworks & Benchmarks Multimodal Models Reasoning & Chain-of-Thought

May 1, 2026

Stanford HAIMay 1, 2026·also Tsinghua AI, Beihang, CUHK, HKUST +1

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Instead of training separate video diffusion models for each multimodal task, UniVidX learns a single model that handles diverse pixel-aligned video generation problems.

Houyuan Chen, Hong Li, Xianghao Kong +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 13, 2026

Apr 13, 2026·also V) setting. Figure 6: Fine-grained

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Unified multimodal models aren't truly unified: vision and language modalities exhibit divergent entropy patterns during encoding and generation, hindering effective reasoning-based image synthesis.

Songlin Yang, Xianghao Kong, A. Rao

Interpretability & Mechanistic Interp Multimodal Models Reasoning & Chain-of-Thought

Mar 12, 2026

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Forget wrestling with finicky text prompts or tedious manual camera paths: ShotVerse lets you generate cinematic multi-shot videos from text, thanks to its clever "Plan-then-Control" framework and a dataset of aligned camera trajectories.

Songlin Yang, Zhe Wang, Xuyi Yang +7

Computer Vision Multimodal Models Natural Language Processing

Search

Xianghao Kong

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)