March 11 – March 18, 2026

Data Curation & Synthetic Data - Weekly Roundup

100 papers published across 8 labs.

72% acceleration

Selected Labs publishing this week

Tsinghua AI5 DAMO2 CMU ML2 Meta AI1 Microsoft Research1

Top Papers

Mar 16, 2026

2w ago·also Institut national de la recherche

PhonemeDF: A Synthetic Speech Dataset for Audio Deepfake Detection and Naturalness Evaluation

Quantifying the divergence between real and synthetic phoneme distributions via Kullback-Leibler divergence can pinpoint the most vulnerable phonemes for detecting audio deepfakes.

Vamshi Nallaguntla, Aishwarya Fursule, S. Kshirsagar +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

Mar 18, 2026

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Cem Uluoglakci +12w ago

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Teaching LLMs to say "I don't know" is now possible via targeted SFT, slashing hallucination rates without sacrificing performance on other tasks.

Cem Uluoglakci, Tugba Taskaya Temizel

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Evangelia Zve +32w ago

From Noise to Signal: When Outliers Seed New Topics

Outliers aren't just noise: some are early harbingers of entirely new topics, detectable by tracking document trajectories.

Evangelia Zve, Gauvain Bourgne, B. Icard +1

Data Curation & Synthetic Data Natural Language Processing

Tianhui Zhang +22w ago

Synthetic Data Generation for Training Diversified Commonsense Reasoning Models

Training on synthetically generated data can significantly boost both the diversity and quality of commonsense reasoning in LLMs, outperforming models trained on scarce human-annotated data.

Tianhui Zhang, Bei Peng, D. Bollegala

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

All Papers (100)

Mar 18, 2026

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Cem Uluoglakci +12w ago

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Teaching LLMs to say "I don't know" is now possible via targeted SFT, slashing hallucination rates without sacrificing performance on other tasks.

Cem Uluoglakci, Tugba Taskaya Temizel

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Evangelia Zve +32w ago

From Noise to Signal: When Outliers Seed New Topics

Outliers aren't just noise: some are early harbingers of entirely new topics, detectable by tracking document trajectories.

Evangelia Zve, Gauvain Bourgne, B. Icard +1

Data Curation & Synthetic Data Natural Language Processing

Tianhui Zhang +22w ago

Synthetic Data Generation for Training Diversified Commonsense Reasoning Models

Training on synthetically generated data can significantly boost both the diversity and quality of commonsense reasoning in LLMs, outperforming models trained on scarce human-annotated data.

Tianhui Zhang, Bei Peng, D. Bollegala

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

Zeeshan Akram2w ago

Circumventing Platform Defenses at Scale: Automated Content Replication from YouTube to Blockchain-Based Decentralized Storage

YouTube's platform defenses are a house of cards: circumventing one control often triggers a cascade of failures, demanding constant architectural adaptation for large-scale content replication.

Zeeshan Akram

Data Curation & Synthetic Data Distributed Systems & Hardware Open-Source Models & Weights

2w ago

CWoMP: Morpheme Representation Learning for Interlinear Glossing

Unlock faster, more accurate interlinear glossing for low-resource languages by treating morphemes as atomic units, outperforming existing methods and enabling user-guided lexicon expansion without retraining.

Morris Alper, Enora Rice, Bhargav Shandilya +2

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Natural Language Processing

A. Humnabadkar +52w ago

From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

Synthetic data and virtual environments are rapidly becoming indispensable for autonomous driving, but realizing their full potential requires tackling challenges like Sim2Real transfer and scalable safety validation.

A. Humnabadkar, A. Sikdar, B. Cave +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tsinghua AI2w ago·also DAMO

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

Forget real-world video datasets: training VLMs on just 7.7K synthetic videos with temporal primitives beats 165K real-world examples, unlocking surprisingly effective transfer learning for video reasoning.

Songtao Jiang, Sibo Song, Chenyi Zhou +11

Computer Vision Data Curation & Synthetic Data Multimodal Models

Yan Liang +42w ago

Trust the Unreliability: Inward Backward Dynamic Unreliability Driven Coreset Selection for Medical Image Classification

Counterintuitively, the most *unreliable* samples in medical imaging datasets—those with fluctuating confidence and frequent forgetting during training—are the *most* informative for building accurate decision boundaries.

Yan Liang, Ziyuan Yang, Zhuxin Lei +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Alireza Sadeghi +12w ago

Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics

Current CRL benchmarks often fail to provide a holistic view of model performance, hindering progress, but a new aggregate metric could change that.

Alireza Sadeghi, Wael AbdAlmageed

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Open-Source Models & Weights

Xuyang Cao +82w ago

ShapleyLaw: A Game-Theoretic Approach to Multilingual Scaling Laws

Optimizing multilingual training? Shapley values reveal the hidden cross-lingual transfer effects that current scaling laws miss, leading to better language mixture ratios.

Xuyang Cao, Qianying Liu, Chuan Xiao +6

Data Curation & Synthetic Data Natural Language Processing Scaling Laws & Emergent Abilities

2w ago·also Corresponding author, University of Innsbruck

Event-Centric Human Value Understanding in News-Domain Texts: An Actor-Conditioned, Multi-Granularity Benchmark

Current AI struggles to understand human values in real-world news events, often missing the who, what, and why – until now.

Yao Wang, Yaoyu Wang, Xin Liu +7

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

2w ago·also University of California Davis

DebugLM: Learning Traceable Training Data Provenance for LLMs

Pinpointing the training data behind an LLM's behavior is now possible without retraining, opening the door to precise debugging and targeted interventions.

Wenjie Jacky Mo, W. Mo, Qin Liu +4

Data Curation & Synthetic Data Interpretability & Mechanistic Interp

2w ago

Harnessing the Power of Foundation Models for Accurate Material Classification

Overcome scarce data and boost material classification accuracy by generating synthetic training data and distilling knowledge from vision-language foundation models.

Qingran Lin, Fengwei Yang, Chaolun Zhu

Computer Vision Data Curation & Synthetic Data Multimodal Models

Amine Lbath +12w ago

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Automated injection of realistic vulnerabilities and synthesis of PoV exploits finally makes scalable, precisely labeled, repository-level vulnerability datasets a reality.

Amine Lbath, Amine Lbath

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Nathan Zhao2w ago

WebPII: Benchmarking Visual PII Detection for Computer-Use Agents

Current PII detection models are blind to the transaction-level identifiers and partially-filled forms that computer-use agents readily expose, but a new benchmark closes the gap.

Nathan Zhao

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Alexander D. Goldie +192w ago

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Stop benchmarking algorithm discovery on the same old saturated datasets: DiscoGen offers millions of fresh, configurable tasks to truly test your ADA.

Alexander D. Goldie, Zilin Wang, Adrian Hayler +17

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Training Efficiency & Optimization

Sai Bharadhwaj Matha +42w ago

SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation at Scale

Unlock scalable aerial scene understanding with SegFly, a massive RGB-T dataset generated via a novel 2D-3D-2D label propagation technique that requires minimal manual annotation.

Sai Bharadhwaj Matha, Rui Song, Viswanathan Muthuveerappan +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tsinghua AI2w ago

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

A new RGB-T dataset and frequency-aware network exposes the surprising limitations of existing UAV detectors when faced with real-world camouflage and complex backgrounds.

Shenghui Huang, Menghao Hu, Longkun Zou +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Luigi Celona +22w ago

Face anonymization preserving facial expressions and photometric realism

Anonymized faces don't have to be expressionless blobs: this method preserves realistic expressions and lighting while scrambling identity.

Luigi Celona, Simone Bianco, Raimondo Schettini

Computer Vision Data Curation & Synthetic Data

Chaeyun Kim +32w ago

Towards Motion-aware Referring Image Segmentation

RIS models struggle with motion-based queries, but a new data augmentation and contrastive learning approach closes the gap without sacrificing performance on appearance-based descriptions.

Chaeyun Kim, Seunghoon Yi, Yohan Jo +1

Computer Vision Data Curation & Synthetic Data Multimodal Models

Iakovos-Christos Zarkadis +22w ago

Machine Learning for Network Attacks Classification and Statistical Evaluation of Machine Learning for Network Attacks Classification and Adversarial Learning Methodologies for Synthetic Data Generation

Achieve stable and reliable network intrusion detection and high-fidelity synthetic data generation by combining machine learning, adversarial learning, and rigorous statistical evaluation on a new unified multi-modal NIDS dataset.

Iakovos-Christos Zarkadis, Christos Douligeris, C. Douligeris

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Hashini Senaratne +62w ago

HRI-SA: A Multimodal Dataset for Online Assessment of Human Situational Awareness during Remote Human-Robot Teaming

Human-robot teams can get a boost: eye-tracking data alone can predict when a human teammate is struggling to understand the robot's situation with nearly 90% recall.

Hashini Senaratne, Richard Attfield, S. Widhanapathirana +4

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Meta AI2w ago

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

Ditch the data augmentation and decoders: R2-Dreamer's Barlow Twins-inspired objective delivers faster, more versatile MBRL, especially when spotting the small stuff matters.

N. Morihira, Amal Nahar, K. Bharadwaj +6

Data Curation & Synthetic Data Training Efficiency & Optimization World Models & Planning

Guillem Casadesus Vila +22w ago

Semantic Segmentation and Depth Estimation for Real-Time Lunar Surface Mapping Using 3D Gaussian Splatting

Ditch LiDAR: 3D Gaussian Splatting, combined with semantic segmentation and stereo depth, enables real-time lunar mapping with centimeter-level accuracy.

Guillem Casadesus Vila, Adam Dai, Grace Gao

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Mar 17, 2026

Nanjing Institute of Technology2w ago·also Anhui University Hefei

Unpaired Cross-Domain Calibration of DMSP to VIIRS Nighttime Light Data Based on CUT Network

Forget complex statistical models: this CUT network turns decades of fuzzy DMSP satellite data into sharp, VIIRS-like nighttime light maps with impressive accuracy.

Zhan Tong, ChenXu Zhou, Fei Tang +3

Computer Vision Data Curation & Synthetic Data

Xingyu Liu +52w ago

Unified Removal of Raindrops and Reflections: A New Benchmark and A Novel Pipeline

Real-world images plagued by both raindrops and reflections finally get a dedicated benchmark dataset (RDRF) and a diffusion-based model (DiffUR$^3$) that actually works.

Xingyu Liu, Zewei He, Chunyu Zhu +3

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Prajwal Panth +12w ago

TharuChat: Bootstrapping Large Language Models for a Low-Resource Language via Synthetic Data and Human Validation

A small, synthetically generated dataset can dramatically improve LLM performance on low-resource languages, even when the data is noisy and imperfect.

Prajwal Panth, Agniva Maiti

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Wikimedia Foundation2w ago·also Pompeu Fabra University

Multilingual Reference Need Assessment System for Wikipedia

Wikipedia editors can now get AI assistance to identify claims needing citations in 10 languages, improving content reliability at scale.

A. Baigutanova, F. Navas, Pablo Aragón +5

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

Yuxuan Zhu +12w ago

Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards

Contrary to claims that RLVR can handle noisy data, this work reveals that current RLVR methods still suffer significantly from data quality issues, with performance dropping 8-12% when trained on truly noisy data.

Yuxuan Zhu, Daniel Kang

Data Curation & Synthetic Data RLHF & Preference Learning

2w ago

Is Semi-Automatic Transcription Useful in Corpus Creation? Preliminary Considerations on the KIParla Corpus

ASR-assisted transcription doesn't automatically improve accuracy in corpus creation, and its effectiveness hinges on factors like workflow design and transcriber expertise.

Martina Simonotti, Eleonora Zucchini, Silvia Ballarè +1

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Joseph Cameron +22w ago

A Semantic Timbre Dataset for the Electric Guitar

Unlock timbre-aware generative AI with a new dataset linking semantic descriptors to electric guitar sounds, enabling nuanced control over audio synthesis.

Joseph Cameron, Alan F. Blackwell, Alan Blackwell

Data Curation & Synthetic Data Speech & Audio

Hanif Rahman2w ago

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

A new 1.25B-word Pashto corpus boosts NER performance by 10% and slashes training variance nearly 7x, highlighting the disproportionate value of Wikipedia data.

Hanif Rahman

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Francesco Monaco +72w ago

Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

Forget perplexity – ZipCal uses Zipf's law to curate calibration data for LLM compression, matching state-of-the-art performance at 240x the speed.

Francesco Monaco, Francesco Pio Monaco, Elia Cunegatti +5

Data Curation & Synthetic Data Inference & Quantization Training Efficiency & Optimization

Xinhao Cai +52w ago

Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation

By injecting real-world priors into a diffusion model, Iris achieves state-of-the-art monocular depth estimation with significantly improved generalization and detail, even with limited training data.

Xinhao Cai, Gensheng Pei, Zeren Sun +3

Computer Vision Data Curation & Synthetic Data

Forschungszentrum Jülich2w ago·also Bonn

An assessment of data-centric methods for label noise identification in remote sensing data sets

Data-centric methods can effectively identify and mitigate label noise in remote sensing data, but the best approach depends heavily on the specific noise characteristics and task objectives.

Felix Kröber, Genc Hoxha, Ribana Roscher

Computer Vision Data Curation & Synthetic Data

Microsoft Research2w ago

ACPV-Net: All-Class Polygonal Vectorization for Seamless Vector Map Generation from Aerial Imagery

Achieve seamless vector map generation across all land-cover classes from aerial imagery by enforcing shared-edge consistency, outperforming class-specific methods.

Weiqin Jiao, Hao Cheng, George Vosselman +1

Computer Vision Data Curation & Synthetic Data

Muhammad Aamir +72w ago

WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation

LiDAR data boosts animal depth estimation accuracy by 10% RMSE, revealing the power of multimodal data for 3D wildlife perception.

Muhammad Aamir, Naoya Muramatsu, Sangyun Shin +5

Computer Vision Data Curation & Synthetic Data Multimodal Models

2w ago

When the City Teaches the Car: Label-Free 3D Perception from Infrastructure

Imagine cities teaching cars to see: this work demonstrates a label-free 3D perception pipeline where roadside sensors train autonomous vehicles, achieving impressive detection accuracy without manual annotation.

Zhen Xu, Jinsu Yoo, Cristian Bautista +7

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Chenchang Liu +52w ago

Efficient Brood Cell Detection in Layer Trap Nests for Bees and Wasps: Balancing Labeling Effort and Species Coverage

A new loss function lets you train a deep learning model to detect rare bee and wasp brood cells with minimal labeling effort, even when data is highly imbalanced.

Chenchang Liu, Felix Fornoff, Annika Grasreiner +3

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

2w ago

CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation

A new diffusion architecture that explicitly disentangles demographic factors allows for generating higher-quality medical images for underrepresented groups and novel demographic intersections, outperforming standard fine-tuning and FairDiffusion.

Mahmoud Ibrahim, Bart Elen, Chang Sun +2

Computer Vision Constitutional AI & AI Ethics Data Curation & Synthetic Data

2w ago

Domain Mixture Design via Log-Likelihood Differences for Aligning Language Models with a Target Model

Forget expensive distillation – aligning language models can be as simple as carefully choosing the right mix of pretraining data based on log-likelihood differences.

Ryo Kishino, Riku Shiomi, Hiroaki Yamagiwa +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

2w ago

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

A new spoken user simulator, SpokenUS, trained on a large-scale dataset, finally captures the messiness of real human conversation, including barge-ins and disfluencies, to better train dialogue agents.

Jonggeun Lee, Junseong Pyo, Jeongmin Park +1

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

2w ago

Federated Learning with Multi-Partner OneFlorida+ Consortium Data for Predicting Major Postoperative Complications

Federated learning can match or beat centralized models for predicting postoperative complications, all while keeping patient data siloed at each hospital.

Yuanfang Ren, Varun Sai Vemuri, Zhenhong Hu +6

Data Curation & Synthetic Data Scientific Discovery & Drug Design

2w ago

Bridging the Simulation-to-Reality Gap in Electron Microscope Calibration via VAE-EM Estimation

By jointly estimating the mapping from calibration parameters to VAE-encoded image representations, this work achieves a 2x reduction in error when calibrating electron microscopes, demonstrating the power of bridging simulation and reality.

Jilles S. van Hulst, W. P. M. H., Heemels +1

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Taiqin Chen +62w ago·also Corresponding author: Yongbing Zhang

Spectral Property-Driven Data Augmentation for Hyperspectral Single-Source Domain Generalization

By explicitly modeling spectral channel variations and inter-channel similarity, SPDDA overcomes the realism-diversity tradeoff in hyperspectral data augmentation, achieving state-of-the-art domain generalization performance.

Taiqin Chen, Yifeng Wang, Xiaochen Feng +4

Computer Vision Data Curation & Synthetic Data

Joona Kareinen +72w ago

Cross-modal learning for plankton recognition

Unlock the potential of unlabeled plankton data with a CLIP-inspired cross-modal approach that achieves high recognition accuracy using minimal labeled images.

Joona Kareinen, Veikka Immonen, Tuomas Eerola +5

Computer Vision Data Curation & Synthetic Data Multimodal Models

Stathis Galanakis +22w ago

DermaFlux: Synthetic Skin Lesion Generation with Rectified Flows for Enhanced Image Classification

Rectified flows can generate synthetic skin lesion images that boost classification accuracy by up to 9% compared to diffusion models, offering a promising solution to data scarcity in dermatology.

Stathis Galanakis, Alexandros Koliousis, Stefanos Zafeiriou

Computer Vision Data Curation & Synthetic Data Multimodal Models

2w ago

Ensemble Self-Training for Unsupervised Machine Translation

Ensemble self-training with diverse auxiliary languages boosts unsupervised machine translation by up to 1.7 chrF, proving that shared supervision can overcome the limitations of single-model approaches.

Ido Aharon, Jonathan Shaki, Sarit Kraus

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Natural Language Processing

Timo K. Koch +42w ago

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

A new smartphone protocol enables large-scale, privacy-preserving collection of prosodic speech data in the wild, opening doors to studying the subtle emotional nuances in everyday communication.

Timo K. Koch, Florian Bemmann, Ramona Schoedel +2

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

2w ago

Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Surgical AI gets a major data boost: Surg$Σ$ unifies millions of surgical conversations with multimodal annotations, paving the way for more generalizable and interpretable models.

Zhitao Zeng, Mengya Xu, Pengfei Guo +10

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Lin Li +102w ago

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Unlock high-quality 3D part segmentation with minimal labeled data by repurposing existing 3D generative models.

Lin Li, Haoran Feng, Zehuan Huang +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Ilias Diakonikolas +22w ago

High-Dimensional Gaussian Mean Estimation under Realizable Contamination

Even with a realizable missing data model, estimating the mean of a high-dimensional Gaussian provably requires either exponentially more samples or exponential runtime, revealing a fundamental information-computation tradeoff.

Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Subina Khanal +42w ago

Bridging the High-Frequency Data Gap: A Millisecond-Resolution Network Dataset for Advancing Time Series Foundation Models

Current time series foundation models struggle with millisecond-resolution 5G network data, revealing a critical gap in their ability to generalize to high-frequency real-world applications.

Subina Khanal, Seshu Tirupathi, Merim Dzaferagic +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Open-Source Models & Weights

Andrea Moleri +62w ago·also CSHL

FederatedFactory: Generative One-Shot Learning for Extremely Non-IID Distributed Scenarios

Forget relying on pretrained models or complex aggregation schemes: FederatedFactory achieves near-centralized performance in federated learning with extreme data heterogeneity by simply swapping generative priors.

Andrea Moleri, Christian Internò, Ali Raza +4

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

2w ago

Fanar 2.0: Arabic Generative AI Stack

Resource-constrained Arabic AI development can compete with systems built at far greater scale, as demonstrated by Fanar 2.0's performance gains using 8x fewer pre-training tokens than its predecessor.

FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad +33

Data Curation & Synthetic Data Distributed Systems & Hardware Natural Language Processing

Ziyang Cai +12w ago

AI Scientist via Synthetic Task Scaling

Forget curated datasets – this work shows you can bootstrap AI scientists by training them on automatically generated, self-verified ML tasks, leading to significant performance gains on MLGym.

Ziyang Cai, Harkirat Singh Behl

Data Curation & Synthetic Data Scientific Discovery & Drug Design Tool Use & Agents

2w ago·also Princeton

Exclusivity-Guided Mask Learning for Semi-Supervised Crowd Instance Segmentation and Counting

Achieve state-of-the-art semi-supervised crowd instance segmentation and counting by generating high-quality mask supervision from sparse annotations, effectively bridging the gap between these two tasks.

Jiyang Huang, Hongru Cheng, Wei Lin +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

University of Zürich2w ago·also The Árni Magnússon Institute for Icelandic, University of Iceland

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

LLM benchmarks in low-resource languages are likely garbage, with synthetic or machine-translated data introducing severe flaws that skew results.

Finnur Ágúst Ingimundarson, Steinunn Rut Friðriksdóttir, Bjarki Ármannsson +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

AI22w ago·also CMU ML, NVIDIA

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Forget expensive real-world data collection: a massive, diverse synthetic dataset enables surprisingly effective zero-shot transfer for robotic manipulation.

Abhay Deshpande, Maya Guru, Rose Hendrix +22

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

E. Reddy +12w ago

Are Large Language Models Truly Smarter Than Humans?

LLMs' apparent superhuman performance on benchmarks may be a mirage: contamination inflates scores by up to 20% in some domains, revealing a critical flaw in current evaluation practices.

E. Reddy, Sourav Karmakar

Data Curation & Synthetic Data Eval Frameworks & Benchmarks

2w ago

SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

LLM-assisted scientific writing is producing more confident but homogenized prose, as evidenced by a 23% decline in hedging in the post-LLM era.

Han Jang, Junhyeok Lee, Kyu Sung Choi

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Yeheng Zong +72w ago

TrackDeform3D: Markerless and Autonomous 3D Keypoint Tracking and Dataset Collection for Deformable Objects

Forget labor-intensive annotation or expensive motion capture: TrackDeform3D offers an affordable, autonomous RGB-D framework for high-quality 3D tracking and dataset collection of deformable objects.

Yeheng Zong, Yeheng Zong, Yizhou Chen +5

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Veritran2w ago·also University of Buenos Aires

Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text

Local LLMs can now anonymize text better than industry standards, preserving both privacy and utility for downstream tasks.

F. Albanese, Pablo Ronco, Nicol'as D'Ippolito

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

Mo El-Haj2w ago

Tarab: A Multi-Dialect Corpus of Arabic Lyrics and Poetry

A new dataset of 2.56 million verses of Arabic lyrics and poetry opens the door for large-scale computational analysis of Arabic language evolution, cultural trends, and artistic expression.

Mo El-Haj

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

CMU ML2w ago·also Stanford HAI, Department of Computer Science, Department of Data Sciences and Operations, Department of Statistics and Data +1

High-dimensional estimation with missing data: Statistical and computational limits

Expect to pay an exponential sample complexity price for computationally efficient mean and covariance estimation with missing data, but not for linear regression.

Kabir Aladin Verchand, Ankit Pensia, Saminul Haque +1

Data Curation & Synthetic Data Training Efficiency & Optimization

2w ago·also NTU, University of London

SynthChain: A Synthetic Benchmark and Forensic Analysis of Advanced and Stealthy Software Supply Chain Attacks

Current telemetry falls woefully short in detecting advanced software supply chain attacks, with even the best single source capturing less than 40% of the attack chain, underscoring the critical need for multi-source data fusion.

Zhuoran Tan, Wenbo Guo, T. Brierley +4

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

2w ago

Dexterous grasp data augmentation based on grasp synthesis with fingertip workspace cloud and contact-aware sampling

By automatically generating fingertip workspace clouds, FSG enables real-time, human-like grasp generation for robotic hands with arbitrary structures, sidestepping the inverse kinematics bottleneck.

Liqi Wu, Haoyu Jia, Kento Kawaharazuka +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Shesh Narayan Gupta +12w ago

When Generative Augmentation Hurts: A Benchmark Study of GAN and Diffusion Models for Bias Correction in AI Classification Systems

FastGAN can backfire in low-data regimes, actively *increasing* classifier bias by over 20% due to mode collapse, a stark warning against blindly applying generative augmentation.

Shesh Narayan Gupta, N. Brown

Constitutional AI & AI Ethics Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Christina Baek +332w ago·also DatologyAI

The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data

Stop wasting your finetuning data: Specialized Pretraining (SPT) can outperform standard pretraining and finetuning, achieving better domain performance with fewer parameters and less compute.

Christina Baek, R. Monti, David Schwab +31

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

2w ago

Toward Deep Representation Learning for Event-Enhanced Visual Autonomous Perception: the eAP Dataset

Event cameras can now see in the dark: eAP, a new large-scale dataset, enables robust 3D object detection and time-to-contact estimation even under challenging illumination.

Jinghang Li, Shichao Li, Qing Lian +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Kuan-Tang Huang +52w ago

Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Forget static domain priors: the best way to rate AI-generated audio quality depends on *which* aspect of quality you're measuring.

Kuan-Tang Huang, Chien-Chun Wang, Cheng-Yeh Yang +3

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

2w ago

LenghuSky-8: An 8-Year All-Sky Cloud Dataset with Star-Aware Masks and Alt-Az Calibration for Segmentation and Nowcasting

This 8-year all-sky dataset with star-aware masks and alt-az calibration could unlock more reliable cloud prediction for ground-based telescopes.

Yicheng Rui, Xiao-Wei Duan, Licai Deng +8

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Aishwarya Ramasethu +52w ago

Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?

Forget expensive fine-tuning: linguistically-informed prompting offers a lightweight, but sometimes unreliable, path to low-resource translation with LLMs.

Aishwarya Ramasethu, A. Ramasethu, Niyathi Allu +3

Data Curation & Synthetic Data Natural Language Processing

Tsinghua AI2w ago

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Stop averaging over noisy robot data: PTR selectively trusts training samples based on how well their post-action consequences align with learned representations, leading to more robust offline policy learning.

Wanpeng Zhang, Hao Luo, Sipeng Zheng +6

Data Curation & Synthetic Data Robotics & Embodied AI Training Efficiency & Optimization

Tsinghua AI2w ago·also HKU, SJTU

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Forget painstakingly creating 3D assets for robot training - ManiTwin automates the process, turning single images into simulation-ready objects at scale.

Kaixuan Wang, Tianxing Chen, Jiawei Liu +14

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tsinghua AI2w ago·also DAMO

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Multi-hop data synthesis using HopChain boosts VLM performance across a wide range of tasks, with gains of over 50 points in accuracy for ultra-long-context reasoning.

Shenzhi Wang, Shixuan Liu, Jing Zhou +8

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Mar 16, 2026

Michael Paris +32w ago

Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections

You can estimate the completeness of a web crawl using only its own historical data, without needing external datasets.

Michael Paris, G. Paris, Grigori Paris +1

Data Curation & Synthetic Data Recommendation & Information Retrieval

Yi-Zhuo Ma +102w ago

Mitigating KG Quality Issues: A Robust Multi-Hop GraphRAG Retrieval Framework

Imperfect knowledge graphs can lead to retrieval drift and hallucinations in multi-hop reasoning, but C2RAG offers a robust solution that improves EM by 3.4% and F1 by 3.9% over existing methods.

Yi-Zhuo Ma, Shuang Liang, Rongzheng Wang +8

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Recommendation & Information Retrieval

Duy Vu Minh Nguyen +62w ago

ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models

VLMs stumble when diagnosing Vietnamese chest X-rays, revealing a critical gap in their ability to handle diverse medical data and underscoring the need for datasets like ViX-Ray.

Duy Vu Minh Nguyen, Chinh Thanh Truong, Phuc Hoang Tran +4

Computer Vision Data Curation & Synthetic Data Multimodal Models

2w ago

Pansharpening for Thin-Cloud Contaminated Remote Sensing Images: A Unified Framework and Benchmark Dataset

Achieve state-of-the-art pansharpening of thin-cloud contaminated remote sensing images with a unified model that disentangles frequency components and leverages NIR and PAN bands for robust restoration.

Songcheng Du, Yang Zou, Jiaxin Li +4

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Simon Devauchelle +122w ago

spINAch: A Diachronic Corpus of French Broadcast Speech Controlled for Speakers'Age and Gender

A new 320-hour corpus of French speech reveals how pronunciation has changed over six decades, including the surprising finding that voice pitch evolution doesn't differ by gender.

Simon Devauchelle, David Doukhan, Rémi Uro +10

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Miriam Winkler +22w ago

Indirect Question Answering in English, German and Bavarian: A Challenging Task for High- and Low-Resource Languages Alike

Even state-of-the-art multilingual transformers struggle with the pragmatic challenge of Indirect Question Answering, achieving low performance across English, German, and Bavarian.

Miriam Winkler, Verena Blaschke, Barbara Plank

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Nikita Mosievskiy2w ago

Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs

A fine-tuned RoBERTa model with only 125M parameters can match the CVE-to-CWE classification accuracy of models 64x larger, proving that strategic fine-tuning and data curation can close the gap between small and large language models.

Nikita Mosievskiy

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

2w ago·also UNIGE

Datasets for Verb Alternations across Languages: BLM Templates and Data Augmentation Strategies

LLMs struggle with systematic cross-sentence knowledge of verb alternations, a weakness exposed by new Blackbird Language Matrices (BLMs) datasets in English, German, Italian, and Hebrew.

Giuseppe Samo, Paola Merlo

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

2w ago

Information Asymmetry across Language Varieties: A Case Study on Cantonese-Mandarin and Bavarian-German QA

LLMs often fail to access knowledge uniquely available in lower-resource language varieties, even when closely related to high-resource languages, revealing a significant information asymmetry.

Renhao Pei, Siyao Peng, Verena Blaschke +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

D. Nordfors2w ago

NLP Occupational Emergence Analysis: How Occupations Form and Evolve in Real Time -- A Zero-Assumption Method Demonstrated on AI in the US Technology Workforce, 2022-2026

Despite a rapidly forming professional vocabulary, the AI field isn't coalescing into a distinct occupation, challenging assumptions about how new technologies translate into new job categories.

D. Nordfors

Data Curation & Synthetic Data Natural Language Processing

2w ago

Prompt Engineering for Scale Development in Generative Psychometrics

Adaptive prompting unlocks superior LLM-generated personality assessments, outperforming traditional methods and scaling effectively with model capability.

L. Russell-Lasalandra, Hudson Golino

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

2w ago·also Institut national de la recherche

PhonemeDF: A Synthetic Speech Dataset for Audio Deepfake Detection and Naturalness Evaluation

Quantifying the divergence between real and synthetic phoneme distributions via Kullback-Leibler divergence can pinpoint the most vulnerable phonemes for detecting audio deepfakes.

Vamshi Nallaguntla, Aishwarya Fursule, S. Kshirsagar +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

2w ago·also Utah

DP-S4S: Accurate and Scalable Select-Join-Aggregate Query Processing with User-Level Differential Privacy

Sampling the wrong data in differentially private queries can inflate error by 10x, but a new method slashes that overhead by sampling aggregation units instead of users.

Yuan Qiu, Xiaokui Xiao, Yin Yang

Data Curation & Synthetic Data Distributed Systems & Hardware

Subhransu S. Bhattacharjee +22w ago

FlatLands: Generative Floormap Completion From a Single Egocentric View

Forget photorealistic rendering; the next frontier in scene understanding is generating complete, traversable floorplans from a single egocentric image.

Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Eadom Dessalene +72w ago

FEEL (Force-Enhanced Egocentric Learning): A Dataset for Physical Action Understanding

Force sensing gloves unlock a new dimension of self-supervision for video models, boosting action understanding without manual labels.

Eadom Dessalene, Botao He, Michael Maynord +5

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

2w ago·also JHU, NJU

End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

Training on a new multi-object dataset with explicit modeling of grasp offsets and pre-grasp configurations enables an end-to-end network to achieve significantly improved dexterous grasping performance in simulation and on a real robot.

Tao Geng, Dapeng Yang, Da-hai Yang +8

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Aaditya Khanal +12w ago

Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments

Even with high AUROC scores for OOD detection, skeleton-based action recognition models can remain confidently incorrect when faced with domain shift, highlighting the limitations of standard uncertainty measures for safe deployment.

Aaditya Khanal, Junxiu Zhou

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Mateusz Gajewski +22w ago

Data Augmentation via Causal-Residual Bootstrapping

Causal-Residual Bootstrapping lets you inject more causal knowledge into your data augmentation pipeline than previous methods, leading to better model accuracy.

Mateusz Gajewski, Sophia Xiao, Bijan Mazaheri

Computer Vision Data Curation & Synthetic Data

Madhulatha Mandarapu +12w ago

Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database

Answering complex biomedical questions like "Which biological pathways are disrupted by drugs currently in Phase 3 trials for breast cancer?" becomes possible in seconds by federating open-source knowledge graphs and enabling LLM access.

Madhulatha Mandarapu, Sandeep Kunkunuru

Data Curation & Synthetic Data Scientific Discovery & Drug Design Tool Use & Agents

Xinyue Ma +32w ago

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation

MT models struggle to appropriately handle passive voice in Chinese-English translation, often mirroring the source text's voice even when human translators would diverge.

Xinyue Ma, Pol Pastells, Mireia Farrús +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Swadesh Jana +52w ago

GASP: Guided Asymmetric Self-Play For Coding LLMs

By strategically guiding self-play with challenging real-world examples, GASP unlocks a 2.5% performance boost in coding LLMs and conquers previously unsolvable problems.

Swadesh Jana, Cansu Sancaktar, Tom'avs Danivs +3

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

2w ago

Dataset Diversity Metrics and Impact on Classification Models

Adding more data from a new scanner can actually hurt your model by causing it to learn spurious correlations, even though clinical experts believe scanner variation is a key source of diversity.

Théo Sourget, Niclas Claßen, Jack Junchi Xu +2

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Guorui Lu +22w ago

Vib2ECG: A Paired Chest-Lead SCG-ECG Dataset and Benchmark for ECG Reconstruction

Forget expensive ECG hardware: this dataset and benchmark show you can reconstruct clinically useful chest-lead ECGs from cheap vibrational sensors, but watch out for "hallucinated" heartbeats.

Guorui Lu, Xiaohui Cai, Todor Stefanov

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

Search

Data Curation & Synthetic Data - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)