Lattice AI Research

Research focus

Data Curation & Synthetic Data (2)Training Efficiency & Optimization (2)Scaling Laws & Emergent Abilities (1)Natural Language Processing (1)

Frequent co-authors

K. Kim (1)Konwoo Kim (1)Yejin Choi (1)Tatsunori Hashimoto (1)

Papers (2)

Mar 19, 2026

K. Kim +6Mar 19, 2026·also AI2, Stanford HAI

Data-efficient pre-training by scaling synthetic megadocs

Forget rephrasing: stitching synthetic text into "megadocs" unlocks surprisingly better pre-training, especially for long-context tasks, and keeps improving as you scale.

K. Kim, Konwoo Kim, Suhas Kotha +4

Data Curation & Synthetic Data Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Mar 5, 2026

Stanford HAIMar 5, 2026

Replaying pre-training data improves fine-tuning

Replaying generic pre-training data during fine-tuning boosts target task performance by up to 2x, challenging the common practice of minimizing its use.

Suhas Kotha, Percy Liang

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Search

Suhas Kotha

Research focus

Frequent co-authors

Papers (2)