Patrick Haller

Humboldt-Universität zu Berlin

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Data Curation & Synthetic Data (1)Natural Language Processing (1)Training Efficiency & Optimization (1)

Frequent co-authors

Ansar Aynetdinov (1)Alan Akbik (1)

Papers (1)

Apr 30, 2026

Ansar Aynetdinov +23w ago·also Humboldt-Universität zu Berlin

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Forget scaling up data volume: repeating a smaller, high-quality German dataset yields superior language models compared to single-pass training on a larger, less filtered corpus.

Ansar Aynetdinov, Patrick Haller, Alan Akbik

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Search

Patrick Haller

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)