Lattice AI Research

Research focus

Data Curation & Synthetic Data (2)Natural Language Processing (2)Training Efficiency & Optimization (1)

Frequent co-authors

Suhas Kotha (1)Jeffrey Li (1)Jeffrey Li (1)Josh Gardner (1)

Papers (2)

Mar 5, 2026

Stanford HAIMar 5, 2026

Replaying pre-training data improves fine-tuning

Replaying generic pre-training data during fine-tuning boosts target task performance by up to 2x, challenging the common practice of minimizing its use.

Suhas Kotha, Percy Liang

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Feb 23, 2026

Stanford HAIFeb 23, 2026·also Apple ML, Google Research, Ant Group, UofT

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

Sticking to a single HTML-to-text extractor in your LLM pretraining pipeline could be leaving 71% of the data on the table.

Jeffrey Li, Jeffrey Li, Josh Gardner +19

Data Curation & Synthetic Data Natural Language Processing

Search

Percy Liang

Research focus

Frequent co-authors

Papers (2)