March 18 – March 25, 2026

Data Curation & Synthetic Data - Weekly Roundup

50 papers published across 5 labs.

72% acceleration

Selected Labs publishing this week

Tsinghua AI2 AI21 Stanford HAI1 DAMO1 Meta AI1

Top Papers

Mar 24, 2026

Royden Wagner +201w ago

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Training data is not enough: reasoning traces from diverse cultural backgrounds are critical for safe and reliable autonomous driving in rare, long-tail scenarios.

Royden Wagner, O. Tas, Jaime Villa +18

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Mar 20, 2026

1w ago

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Unlock the potential of full-duplex speech language models with Sommelier, a new open-source pipeline that tackles the messy reality of multi-speaker conversations.

Kyudan Jung, Ji-Hoon Kim, Soyoon Kim +3

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Mar 19, 2026

1w ago·also CUHK, Received 25 December 2024; revised 1

Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation.

Even with only 5% labeled data, Switch achieves ultrasound segmentation accuracy exceeding fully supervised methods, thanks to its clever multiscale and frequency-domain switching.

Jingguo Qu, Xinyang Han, Yao Pu +10

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Bin Cao +51w ago

OpenT2M: No-frill Motion Generation with Open-source,Large-scale, High-quality Data

A million-sequence, high-quality, open-source motion dataset finally lets text-to-motion models generalize beyond toy benchmarks.

Bin Cao, Sipeng Zheng, Hao Luo +3

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Anh-Tuan Dao +51w ago

Enhancing Multi-Corpus Training in SSL-Based Anti-Spoofing Models: Domain-Invariant Feature Extraction

Multi-corpus training can actually *hurt* spoofing detection, unless you strip out dataset-specific biases with this clever domain-invariant feature extraction trick.

Anh-Tuan Dao, Driss Matrouf, D. Matrouf +3

Data Curation & Synthetic Data Speech & Audio Training Efficiency & Optimization

All Papers (50)

Mar 24, 2026

Royden Wagner +201w ago

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Training data is not enough: reasoning traces from diverse cultural backgrounds are critical for safe and reliable autonomous driving in rare, long-tail scenarios.

Royden Wagner, O. Tas, Jaime Villa +18

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Mar 20, 2026

1w ago

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Unlock the potential of full-duplex speech language models with Sommelier, a new open-source pipeline that tackles the messy reality of multi-speaker conversations.

Kyudan Jung, Ji-Hoon Kim, Soyoon Kim +3

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Mar 19, 2026

1w ago·also CUHK, Received 25 December 2024; revised 1

Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation.

Even with only 5% labeled data, Switch achieves ultrasound segmentation accuracy exceeding fully supervised methods, thanks to its clever multiscale and frequency-domain switching.

Jingguo Qu, Xinyang Han, Yao Pu +10

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Bin Cao +51w ago

OpenT2M: No-frill Motion Generation with Open-source,Large-scale, High-quality Data

A million-sequence, high-quality, open-source motion dataset finally lets text-to-motion models generalize beyond toy benchmarks.

Bin Cao, Sipeng Zheng, Hao Luo +3

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Anh-Tuan Dao +51w ago

Enhancing Multi-Corpus Training in SSL-Based Anti-Spoofing Models: Domain-Invariant Feature Extraction

Multi-corpus training can actually *hurt* spoofing detection, unless you strip out dataset-specific biases with this clever domain-invariant feature extraction trick.

Anh-Tuan Dao, Driss Matrouf, D. Matrouf +3

Data Curation & Synthetic Data Speech & Audio Training Efficiency & Optimization

1w ago·also Jagannath University

Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework with Multi-City Temporal Analysis

Predictive policing algorithms can exhibit extreme racial bias, with one city showing a 157x higher detection rate for one racial group in a single year.

Pronob Kumar Barman, P. K. Barman, Pronoy Kumar Barman

Constitutional AI & AI Ethics Data Curation & Synthetic Data World Models & Planning

Madeline Bittner +101w ago

A Dataset and Resources for Identifying Patient Health Literacy Information from Clinical Notes

Unlock automated health literacy assessment from clinical notes with HEALIX, the first publicly available dataset of its kind.

Madeline Bittner, Dina Demner-Fushman, Yasmeen Shabazz +8

Data Curation & Synthetic Data Natural Language Processing

Yipu Dou +11w ago

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Forget random data mixing: MOSAIC uses failure analysis to intelligently curate training data, leading to better safety, less over-refusal, and improved instruction following, all at once.

Yipu Dou, Wang Yang

Constitutional AI & AI Ethics Data Curation & Synthetic Data RLHF & Preference Learning

Chuxuan Hu +31w ago

SODIUM: From Open Web Data to Queryable Databases

Automating web data integration for expert querying is now possible: SODIUM-Agent achieves a 2x accuracy boost over existing systems on a new benchmark of 105 real-world tasks.

Chuxuan Hu, Philip Li, Maxwell Yang +1

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval+1

Yongwei Jiang +71w ago

Remedying Target-Domain Astigmatism for Cross-Domain Few-Shot Object Detection

Object detectors in new visual domains suffer from "astigmatism," but mimicking the human eye's foveal vision can bring them into focus.

Yongwei Jiang, Yong Jiang, Yixiong Zou +5

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Yang Fu +71w ago

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Current video object removal methods leave distracting visual artifacts behind, but EffectErase tackles this problem head-on by jointly removing objects and their pesky visual effects.

Yang Fu, Yang Fu, Yike Zheng +5

Computer Vision Data Curation & Synthetic Data

1w ago

Data-driven construction of machine-learning-based interatomic potentials for gas-surface scattering dynamics: the case of NO on graphite

Descriptor-guided sampling and active learning slashes the cost of simulating gas-surface interactions, enabling accurate molecular dynamics at scale.

Samuel Del Fré, Samuel Del Fr'e, Gilberto A. Alou Angulo +4

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Mohamed Youssef +41w ago

Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

Encoding realism as a knowledge graph of interpretable traits unlocks zero-shot sim2real image translation that outperforms state-of-the-art diffusion methods.

Mohamed Youssef, Mayar Elfares, Anna-Maria Meer +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

1w ago

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

Diffusion models can now generate rare concepts and execute complex edits with greater fidelity, thanks to a training-free prompt blending technique that leverages statistical properties of the diffusion process itself.

Kwanyoung Lee, SeungJu Cha, Yebin Ahn +4

Computer Vision Data Curation & Synthetic Data Multimodal Models

Masoumeh Shafieinejad +171w ago

MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data

Diffusion models, despite their generative prowess, may not offer the silver-bullet privacy guarantees often assumed when synthesizing tabular data, as demonstrated by novel membership inference attacks.

Masoumeh Shafieinejad, Masoumeh Shafieinejad, Xi He +15

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

1w ago

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Stop guessing how much to pretrain vs. specialize your language model – scaling laws can now tell you the optimal compute allocation for maximizing performance on downstream tasks.

Skyler Seto, Pierre Ablin, Anastasiia Filippova +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Maria Milkova +21w ago

Detecting Basic Values in A Noisy Russian Social Media Text Data: A Multi-Stage Classification Framework

LLMs, when used to annotate social media for human values, systematically overestimate "Openness to Change" compared to human experts, revealing a potential bias in automated value detection.

Maria Milkova, Maria A. Milkova, Maksim Rudnev

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

Jason Dury1w ago

From Topic to Transition Structure: Unsupervised Concept Discovery at Corpus Scale via Predictive Associative Memory

Move over, topic models: this method discovers functional text categories like "courtroom cross-examination" and "lyrical meditation" by learning how text *does*, not just what it's *about*.

Jason Dury

Data Curation & Synthetic Data Natural Language Processing

Oliver Cory +21w ago

SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Automating linguistically-grounded sign language annotation is now possible, unlocking scalable dataset curation previously limited by manual effort.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden

Data Curation & Synthetic Data Multimodal Models Tool Use & Agents

Siqi Song +21w ago

ARTT: Augmented Reverberant-Target Training for Unsupervised Monaural Speech Dereverberation

Training a DNN to recover a reverberant signal from a *more* reverberant version surprisingly reduces reverberation in the original signal.

Siqi Song, Fulin Wu, Zhong-Qiu Wang

Data Curation & Synthetic Data Speech & Audio Training Efficiency & Optimization

1w ago

Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation

Escape the scripted feel of simulated conversations: Interplay trains independent user and recommender LLMs that interact in real-time, without pre-defined target items, for more realistic and diverse conversational recommendation data.

Jerome Ramos, Feng Xia, Xi Wang +4

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

1w ago

Improving RCT-Based Treatment Effect Estimation Under Covariate Mismatch via Calibrated Alignment

Aligning covariates across RCTs and observational studies via calibrated embeddings dramatically improves treatment effect estimation, especially when dealing with nonlinear relationships where traditional imputation struggles.

Amir Asiaee, Amir Asiaee, Samhita Pal +1

Data Curation & Synthetic Data Natural Language Processing

Yizhou Han +31w ago

DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning

Federated learning can adapt to asynchronous data drift with up to 83% less retraining cost by using a Mixture-of-Experts architecture to selectively update local parameters.

Yizhou Han, Yi-seop Han, Di Wu +1

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

AI21w ago·also Stanford HAI

Data-efficient pre-training by scaling synthetic megadocs

Forget rephrasing: stitching synthetic text into "megadocs" unlocks surprisingly better pre-training, especially for long-context tasks, and keeps improving as you scale.

Konwoo Kim, K. Kim, Suhas Kotha +4

Data Curation & Synthetic Data Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Pius Horn +21w ago

Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation

LLMs beat traditional metrics at judging PDF table extraction quality, finally offering a way to evaluate semantic correctness, not just structural similarity.

Pius Horn, J. Keuper, Janis Keuper

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Mar 18, 2026

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Cem Uluoglakci +12w ago

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Teaching LLMs to say "I don't know" is now possible via targeted SFT, slashing hallucination rates without sacrificing performance on other tasks.

Cem Uluoglakci, Tugba Taskaya Temizel

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Evangelia Zve +32w ago

From Noise to Signal: When Outliers Seed New Topics

Outliers aren't just noise: some are early harbingers of entirely new topics, detectable by tracking document trajectories.

Evangelia Zve, Gauvain Bourgne, B. Icard +1

Data Curation & Synthetic Data Natural Language Processing

Tianhui Zhang +22w ago

Synthetic Data Generation for Training Diversified Commonsense Reasoning Models

Training on synthetically generated data can significantly boost both the diversity and quality of commonsense reasoning in LLMs, outperforming models trained on scarce human-annotated data.

Tianhui Zhang, Bei Peng, D. Bollegala

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

Zeeshan Akram2w ago

Circumventing Platform Defenses at Scale: Automated Content Replication from YouTube to Blockchain-Based Decentralized Storage

YouTube's platform defenses are a house of cards: circumventing one control often triggers a cascade of failures, demanding constant architectural adaptation for large-scale content replication.

Zeeshan Akram

Data Curation & Synthetic Data Distributed Systems & Hardware Open-Source Models & Weights

2w ago

CWoMP: Morpheme Representation Learning for Interlinear Glossing

Unlock faster, more accurate interlinear glossing for low-resource languages by treating morphemes as atomic units, outperforming existing methods and enabling user-guided lexicon expansion without retraining.

Morris Alper, Enora Rice, Bhargav Shandilya +2

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Natural Language Processing

A. Humnabadkar +52w ago

From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

Synthetic data and virtual environments are rapidly becoming indispensable for autonomous driving, but realizing their full potential requires tackling challenges like Sim2Real transfer and scalable safety validation.

A. Humnabadkar, A. Sikdar, B. Cave +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tsinghua AI2w ago·also DAMO

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

Forget real-world video datasets: training VLMs on just 7.7K synthetic videos with temporal primitives beats 165K real-world examples, unlocking surprisingly effective transfer learning for video reasoning.

Songtao Jiang, Sibo Song, Chenyi Zhou +11

Computer Vision Data Curation & Synthetic Data Multimodal Models

Yan Liang +42w ago

Trust the Unreliability: Inward Backward Dynamic Unreliability Driven Coreset Selection for Medical Image Classification

Counterintuitively, the most *unreliable* samples in medical imaging datasets—those with fluctuating confidence and frequent forgetting during training—are the *most* informative for building accurate decision boundaries.

Yan Liang, Ziyuan Yang, Zhuxin Lei +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Alireza Sadeghi +12w ago

Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics

Current CRL benchmarks often fail to provide a holistic view of model performance, hindering progress, but a new aggregate metric could change that.

Alireza Sadeghi, Wael AbdAlmageed

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Open-Source Models & Weights

Xuyang Cao +82w ago

ShapleyLaw: A Game-Theoretic Approach to Multilingual Scaling Laws

Optimizing multilingual training? Shapley values reveal the hidden cross-lingual transfer effects that current scaling laws miss, leading to better language mixture ratios.

Xuyang Cao, Qianying Liu, Chuan Xiao +6

Data Curation & Synthetic Data Natural Language Processing Scaling Laws & Emergent Abilities

Yaoyu Wang +92w ago·also Corresponding author, University of Innsbruck, USTC

Event-Centric Human Value Understanding in News-Domain Texts: An Actor-Conditioned, Multi-Granularity Benchmark

Current AI struggles to understand human values in real-world news events, often missing the who, what, and why – until now.

Yaoyu Wang, Yao Wang, Xin Liu +7

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

2w ago·also University of California Davis

DebugLM: Learning Traceable Training Data Provenance for LLMs

Pinpointing the training data behind an LLM's behavior is now possible without retraining, opening the door to precise debugging and targeted interventions.

Wenjie Jacky Mo, W. Mo, Qin Liu +4

Data Curation & Synthetic Data Interpretability & Mechanistic Interp

2w ago

Harnessing the Power of Foundation Models for Accurate Material Classification

Overcome scarce data and boost material classification accuracy by generating synthetic training data and distilling knowledge from vision-language foundation models.

Qingran Lin, Fengwei Yang, Chaolun Zhu

Computer Vision Data Curation & Synthetic Data Multimodal Models

Amine Lbath +12w ago

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Automated injection of realistic vulnerabilities and synthesis of PoV exploits finally makes scalable, precisely labeled, repository-level vulnerability datasets a reality.

Amine Lbath, Amine Lbath

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Nathan Zhao2w ago

WebPII: Benchmarking Visual PII Detection for Computer-Use Agents

Current PII detection models are blind to the transaction-level identifiers and partially-filled forms that computer-use agents readily expose, but a new benchmark closes the gap.

Nathan Zhao

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Alexander D. Goldie +192w ago

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Stop benchmarking algorithm discovery on the same old saturated datasets: DiscoGen offers millions of fresh, configurable tasks to truly test your ADA.

Alexander D. Goldie, Zilin Wang, Adrian Hayler +17

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Training Efficiency & Optimization

Sai Bharadhwaj Matha +42w ago

SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation at Scale

Unlock scalable aerial scene understanding with SegFly, a massive RGB-T dataset generated via a novel 2D-3D-2D label propagation technique that requires minimal manual annotation.

Sai Bharadhwaj Matha, Rui Song, Viswanathan Muthuveerappan +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tsinghua AI2w ago

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

A new RGB-T dataset and frequency-aware network exposes the surprising limitations of existing UAV detectors when faced with real-world camouflage and complex backgrounds.

Shenghui Huang, Menghao Hu, Longkun Zou +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Luigi Celona +22w ago

Face anonymization preserving facial expressions and photometric realism

Anonymized faces don't have to be expressionless blobs: this method preserves realistic expressions and lighting while scrambling identity.

Luigi Celona, Simone Bianco, Raimondo Schettini

Computer Vision Data Curation & Synthetic Data

Chaeyun Kim +32w ago

Towards Motion-aware Referring Image Segmentation

RIS models struggle with motion-based queries, but a new data augmentation and contrastive learning approach closes the gap without sacrificing performance on appearance-based descriptions.

Chaeyun Kim, Seunghoon Yi, Yohan Jo +1

Computer Vision Data Curation & Synthetic Data Multimodal Models

Iakovos-Christos Zarkadis +22w ago

Machine Learning for Network Attacks Classification and Statistical Evaluation of Machine Learning for Network Attacks Classification and Adversarial Learning Methodologies for Synthetic Data Generation

Achieve stable and reliable network intrusion detection and high-fidelity synthetic data generation by combining machine learning, adversarial learning, and rigorous statistical evaluation on a new unified multi-modal NIDS dataset.

Iakovos-Christos Zarkadis, C. Douligeris, Christos Douligeris

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Hashini Senaratne +62w ago

HRI-SA: A Multimodal Dataset for Online Assessment of Human Situational Awareness during Remote Human-Robot Teaming

Human-robot teams can get a boost: eye-tracking data alone can predict when a human teammate is struggling to understand the robot's situation with nearly 90% recall.

Hashini Senaratne, Richard Attfield, S. Widhanapathirana +4

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Meta AI2w ago

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

Ditch the data augmentation and decoders: R2-Dreamer's Barlow Twins-inspired objective delivers faster, more versatile MBRL, especially when spotting the small stuff matters.

N. Morihira, Amal Nahar, K. Bharadwaj +6

Data Curation & Synthetic Data Training Efficiency & Optimization World Models & Planning

Guillem Casadesus Vila +22w ago

Semantic Segmentation and Depth Estimation for Real-Time Lunar Surface Mapping Using 3D Gaussian Splatting

Ditch LiDAR: 3D Gaussian Splatting, combined with semantic segmentation and stereo depth, enables real-time lunar mapping with centimeter-level accuracy.

Guillem Casadesus Vila, Adam Dai, Grace Gao

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Search

Data Curation & Synthetic Data - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (50)