Cho-Jui Hsieh

DualEval reveals that unifying static and preference-based evaluations can lead to more reliable model rankings and deeper insights into item performance.

Aaron J. Li, Hao Huang, Youngmin Park +5

Eval Frameworks & Benchmarks RLHF & Preference Learning

Jun 11, 2026

Jun 11, 2026·also Arena Intelligence Inc, PKU, UMD

Self-Evolving Visual Questioner

A VLM can autonomously evolve its questioning capabilities, producing harder and more diverse questions that enhance its overall performance without needing external data.

Hengguang Zhou, Lichen Li, Cho-Jui Hsieh +1

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

Jun 9, 2026

Jun 9, 2026·also Google Research, Arena Intelligence Inc

APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

APEX reveals that optimizing data alongside prompts can boost LLM performance by over 11% while significantly reducing wasted compute resources.

Fei Wang, Si Si, Cho-Jui Hsieh +1

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Jun 9, 2026·also Arena Intelligence Inc, Georgia Tech

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design

Rethinking supervised fine-tuning as target distribution design reveals that optimizing token likelihood may overlook richer model knowledge, leading to significant performance gains.

Tong Xie, Yuanhao Ban, Yunqi Hong +3

Natural Language Processing Scalable Oversight & Alignment Theory Training Efficiency & Optimization

May 22, 2026

Tsinghua AIMay 22, 2026·also Arena Intelligence Inc

One-Forcing: Towards Stable One-Step Autoregressive Video Generation

One-Forcing achieves state-of-the-art one-step video generation while slashing training costs to a third of previous methods.

Jiaqi Feng, Justin Cui, Yuanhao Ban +1

Computer Vision World Models & Planning

May 20, 2026

University of CaliforniaMay 20, 2026·also Arena Intelligence Inc

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

Forget training costly reward models for text-to-image alignment – AutoRubric-T2I learns interpretable rubrics that outperform them using less than 0.01% of the data.

Kuei-Chun Kao, Daixuan Huo, Yuanhao Ban +1

Computer Vision Eval Frameworks & Benchmarks Multimodal Models+1

Apr 20, 2026

Apr 20, 2026·also Arena Intelligence Inc, UMD, University of California

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Forget hand-crafted environments: ClawEnvKit lets you automatically generate diverse, verified environments for claw-like agents from natural language, slashing costs by 13,800x.

Xirui Li, Derry Xu, Wei-Lin Chiang +2

Data Curation & Synthetic Data Robotics & Embodied AI Tool Use & Agents

Search

Cho-Jui Hsieh

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (9)