Zhengping Wang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Data Curation & Synthetic Data (2)Natural Language Processing (2)Training Efficiency & Optimization (1)Scaling Laws & Emergent Abilities (1)

Frequent co-authors

Tony Jiang (2)Christina Baek (1)R. Monti (1)David Schwab (1)

Papers (2)

Mar 17, 2026

Christina Baek +33Mar 17, 2026·also DatologyAI

The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data

Stop wasting your finetuning data: Specialized Pretraining (SPT) can outperform standard pretraining and finetuning, achieving better domain performance with fewer parameters and less compute.

Christina Baek, R. Monti, David Schwab +31

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Feb 16, 2026

DatologyAIFeb 16, 2026·also AI2, UW

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

Multilingual interference isn't a fundamental capacity limit, but a data problem: targeted curation of just 8% of your training data can yield 4-10x FLOPs savings.

DatologyAI, Aldo Gael Carranza, Kaleigh Mentzer +8

Data Curation & Synthetic Data Natural Language Processing Scaling Laws & Emergent Abilities

Search

Zhengping Wang

Research focus

Frequent co-authors

Papers (2)