Conghui He

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Data Curation & Synthetic Data (2)Code Generation & Program Synthesis (1)Training Efficiency & Optimization (1)Tool Use & Agents (1)

Frequent co-authors

Chenkai Pan (1)Xing Xu (1)Xinglong Xu (1)Yuhang Xu (1)

Papers (3)

Apr 27, 2026

Chenkai Pan +95d ago

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

LLMs can be systematically debugged and improved by treating training data as code, allowing for targeted "patches" that fix concept-level gaps and reasoning errors.

Chenkai Pan, Xing Xu, Xinglong Xu +7

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 12, 2026

2w ago·also SJTU, USTC

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

LLM datasets aren't independent islands: tracing their lineage reveals hidden redundancy, benchmark contamination, and opportunities for more diverse training data.

Yu Li, Xiaoran Shang, Qizhi Pei +8

Data Curation & Synthetic Data Tool Use & Agents

Jan 20, 2026

Jan 20, 2026·also PKU, RUC, Shanghai AI Lab

ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Forget simplistic synthetic data: ChartVerse generates complex charts and reliable reasoning data from scratch, enabling an 8B model to outperform its 30B teacher in chart reasoning.

Zheng Liu, Honglin Lin, Chonghan Qin +13

Search

Conghui He

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)