May 1 – May 8, 2026

Data Curation & Synthetic Data - Weekly Roundup

46 papers published across 3 labs.

Selected Labs publishing this week

Top Papers

May 6, 2026

Universidad Autónoma de Madrid2w ago

MIRAGE: Retrieval and Generation of Multimodal Images and Texts for Medical Education

Forget bulky atlases and unreliable image searches: MIRAGE offers medical students a free, interactive tool to retrieve, generate, and understand medical images using only open-source models.

Miguel Díaz Benito, Cecilia Diana-Albelda, Álvaro García-Martín +3

Data Curation & Synthetic Data Multimodal Models Recommendation & Information Retrieval

2w ago

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Interactive 3D asset generation can now be driven by functional logic and hierarchical physics, thanks to a new framework that synthesizes simulation-ready assets.

Yunhan Yang, Chunshi Wang, Junliang Ye +7

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Independent Researcher2w ago

PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

Synthetic data augmentation and per-language threshold tuning can significantly boost the performance of LLMs on multilingual tasks, outperforming alternative architectures that showed promise on the development set.

Srikar Kashyap Pulipaka

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

2w ago·also Acceleration Consortium, KAUST, Princeton, Vector

Building informative materials datasets beyond targeted objectives

Don't let your materials science dataset become obsolete: a diversity-aware construction framework can boost performance on both targeted and *untargeted* properties by up to 40%.

Rafael Espinosa Castañeda, Ashley Dale, Hongchen Wang +6

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Andrea Napoli +12w ago

Order Matters: Improving Domain Adaptation by Reordering Data

Training data order matters more than you think: reordering your data can significantly improve unsupervised domain adaptation by reducing variance in domain discrepancy estimates.

Andrea Napoli, Paul White

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

All Papers (46)

May 6, 2026

2w ago

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Interactive 3D asset generation can now be driven by functional logic and hierarchical physics, thanks to a new framework that synthesizes simulation-ready assets.

Yunhan Yang, Chunshi Wang, Junliang Ye +7

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Independent Researcher2w ago

PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

Srikar Kashyap Pulipaka

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

2w ago·also Acceleration Consortium, KAUST, Princeton, Vector

Building informative materials datasets beyond targeted objectives

Don't let your materials science dataset become obsolete: a diversity-aware construction framework can boost performance on both targeted and *untargeted* properties by up to 40%.

Rafael Espinosa Castañeda, Ashley Dale, Hongchen Wang +6

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Andrea Napoli +12w ago

Order Matters: Improving Domain Adaptation by Reordering Data

Training data order matters more than you think: reordering your data can significantly improve unsupervised domain adaptation by reducing variance in domain discrepancy estimates.

Andrea Napoli, Paul White

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Bac Trinh-Nguyen +42w ago·also Cergy Paris University, ENSEA, ETIS UMR 8051, Singapore Institute of Technology (SIT) +1

Adaptive Learning Strategies for AoA-Based Outdoor Localization: A Comprehensive Framework

Stop wasting time and resources on massive localization datasets: this framework achieves highly accurate outdoor localization by adaptively switching between offline and online learning strategies based on data availability.

Bac Trinh-Nguyen, Sara Berri, Sin G. Teo +2

Data Curation & Synthetic Data Training Efficiency & Optimization

Tsinghua AI2w ago·also SEU, Siemens AI

Breaking the Quality-Privacy Tradeoff in Tabular Data Generation via In-Context Learning

Tabular data synthesis no longer needs to sacrifice privacy for quality: pretraining on diverse datasets lets models generalize from limited context, breaking the traditional tradeoff.

Xinyan Han, Yan Lu, Xiaoyu Lin +5

Data Curation & Synthetic Data Natural Language Processing

Thomas Robinson +12w ago

PAIR-CI: Calibrated Conditional Independence Testing for Causal Discovery with Incomplete Data

Existing causal discovery methods can be dangerously wrong when data is missing, but PAIR-CI slashes false positives by directly accounting for imputation errors, leading to more accurate causal graphs.

Thomas Robinson, R. Lall

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Tsinghua AI2w ago

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

Federated learning struggles when data quality varies across clients, but FedQual solves this with a novel approach that calibrates low-quality clients while preserving high-quality autonomy.

Junxiang Wu, Zhi Kou, Hongwei Zeng +8

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Taiga Hayashi +52w ago

Improving FMQA via Initial Training Data Design Considering Marginal Bit Coverage in One-Hot Encoding

Incomplete one-hot encoding during FMQA's initial training phase can be overcome with space-filling sampling methods, leading to improved optimization performance.

Taiga Hayashi, Yuya Seki, Kotaro Terada +3

Data Curation & Synthetic Data Training Efficiency & Optimization

Gosset Research2w ago

Curated AI beats frontier LLMs at pharma asset discovery

Frontier LLMs are leaving 70% of relevant pharmaceutical assets undiscovered, a gap that can be largely closed by swapping generic web search for a curated index.

Łukasz Kidziński, Kevin Thomas

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Scientific Discovery & Drug Design

Yichen Li +22w ago

Reference-based Category Discovery: Unsupervised Object Detection with Category Awareness

Unsupervised object detection can now achieve category awareness, bridging the gap with supervised methods without needing any labeled data.

Yichen Li, Qiankun Liu, Ying Fu

Computer Vision Data Curation & Synthetic Data

Vlad Vasilescu +22w ago

Efficient Geometry-Controlled High-Resolution Satellite Image Synthesis

Synthesizing high-resolution satellite imagery with geometric precision is now more efficient, thanks to a windowed cross-attention method that rivals existing techniques while better respecting geometric constraints.

Vlad Vasilescu, Daniela Faur, T. Costachioiu

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

CMU ML2w ago·also SKKU, UBC

Harnessing Linguistic Dissimilarity for Language Generalization on Unseen Low-Resource Varieties

Dissimilarity, not just similarity, unlocks better language generalization for low-resource varieties.

Jinju Kim, Haeji Jung, Youjeong Roh +2

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

M. Arabov2w ago

TajikNLP: An Open-Source Toolkit for Comprehensive Text Processing of Tajik (Cyrillic Script)

Unlock Tajik NLP: a new open-source toolkit delivers a comprehensive pipeline for processing Cyrillic-script Tajik text, complete with datasets and pre-trained embeddings.

M. Arabov

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Katariina Perkonoja +12w ago

Data anonymization in the presence of outliers via invariant coordinate selection

Standard data anonymization techniques crumble when outliers are present; ICSA offers a robust alternative that maintains utility while providing stronger privacy guarantees.

Katariina Perkonoja, J. Virta

Constitutional AI & AI Ethics Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Jan Dolejš +52w ago

Gray-Box Poisoning of Continuous Malware Ingestion Pipelines

Even subtle, functionality-preserving manipulations of malware binaries can cripple detection pipelines, demanding a rethink of pre-ingestion validation.

Jan Dolejš, Jan Dolejvs, Martin Jureček +3

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

2w ago·also NAVER Labs, NTU

Syn4D: A Multiview Synthetic 4D Dataset

Training on Syn4D could unlock breakthroughs in dynamic scene understanding, where current datasets fall short in providing dense, complete, and accurate geometric annotations.

Zeren Jiang, Yushi Lan, Yihang Luo +8

Computer Vision Data Curation & Synthetic Data

Islamic University of Technology2w ago·also University of Louisiana at Lafayette

Few-Shot Learning Pipeline for Monkeypox Skin Disease Classification Using CNN Feature Extractors

Even with limited data, a simple combination of pre-trained CNN features and nearest-centroid classification can achieve surprisingly strong results in monkeypox skin disease classification.

Md. Safirur Rashid, Sabbir Ahmed, Muhammad Usama Islam +2

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Jian Wu +32w ago

Practical validation of synthetic pre-crash scenarios

Stop relying on significance tests that only find differences: this Bayesian framework tells you if your synthetic data is *practically equivalent* to real-world data for your specific safety assessment task.

Jian Wu, Ulrich Sander, Carol A. C. Flannagan +1

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Zimu Gong +42w ago

Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation

Generate more realistic and diverse safety-critical autonomous vehicle scenarios by using conditional latent flow matching to bridge the gap between real-world and simulated data.

Zimu Gong, Brian Zhaoning Zhang, Chris Zhang +2

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Independent2w ago

AllSERP: Exhaustive Per-Element Enrichment of the Versatile AdSERP Dataset

Fine-grained analysis of user behavior on search engine results pages is now possible thanks to AllSERP, which adds exhaustive per-element annotations to the AdSERP dataset, covering organic results and widgets in addition to ads.

K. Andrew Edmonds

Computer Vision Data Curation & Synthetic Data Recommendation & Information Retrieval

2w ago·also HIT

LEGO: LoRA-Enabled Generator-Oriented Framework for Synthetic Image Detection

LEGO's modular design lets you detect deepfakes with 10x less training data and far fewer epochs, all by focusing on the unique fingerprints of each image generator.

Ran Ran, Jiwei Wei, Shuchang Zhou +2

Computer Vision Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Huan Zhang +62w ago

UniPCB: A Generation-Assisted Detection Framework for PCB Defect Inspection

Generating synthetic training data with multi-modal diffusion beats hand-crafting better detection architectures for PCB defect inspection.

Huan Zhang, Lianghong Tan, Yichu Xu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Alexander Vedernikov2w ago

Not Every Subject Should Stay: Machine Unlearning for Noisy Engagement Recognition

Quickly sanitize your engagement recognition models after training: subject-level unlearning recovers ~90% of retraining benefits at 25% of the cost.

Alexander Vedernikov

Data Curation & Synthetic Data Training Efficiency & Optimization

Universidad Autónoma de Madrid2w ago

MIRAGE: Retrieval and Generation of Multimodal Images and Texts for Medical Education

Forget bulky atlases and unreliable image searches: MIRAGE offers medical students a free, interactive tool to retrieve, generate, and understand medical images using only open-source models.

Miguel Díaz Benito, Cecilia Diana-Albelda, Álvaro García-Martín +3

Data Curation & Synthetic Data Multimodal Models Recommendation & Information Retrieval

IMT Nord Europe2w ago·also Explain, University of Lille

ICPR 2026 Competition on Privacy-Preserving Person Re-Identification from Top-View RGB-Depth Camera (TVRID)

Top-view RGB-D person re-identification is surprisingly feasible, even across modalities, despite the inherent challenges of viewpoint and modality variations.

Raphaël Delécluse, Hazem Wannous, Laurent Guimas

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

May 5, 2026

2w ago

MedFabric and EtHER: A Data-Centric Framework for Word-Level Fabrication Generation and Detection in Medical LLMs

Existing hallucination detection methods are missing subtle, word-level medical errors, but a new data-centric pipeline and detector closes the gap by 15%.

Tung Sum Thomas Kwok, Qian Qian, Xiaofeng Lin +8

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Devon Jarvis +42w ago

Position: the Stochastic Parrot in the Coal Mine. Model Collapse is a Threat to Low-Resource Communities

Model collapse isn't just a technical problem; it's a threat to AI democratization that will widen the gap between high- and low-resource communities.

Devon Jarvis, Richard Klein, Benjamin Rosman +2

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

M. Arabov2w ago

Benchmarking Parameter-Efficient Fine-Tuning of Large Language Models for Low-Resource Tajik Text Generation with the Tajik Web Corpus

Forget scaling laws: QLoRA-tuned Mistral 7B crushes other architectures for low-resource Tajik text generation, highlighting the importance of architecture choice in PEFT.

M. Arabov

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Elijah Zolduoarrati +22w ago

Geographic Variation in Stack Overflow Code Quality: Evidence from a Cross-Regional Study of Coding Practices

Stack Overflow code quality varies significantly across US states, with major tech hubs surprisingly not producing the highest quality code.

Elijah Zolduoarrati, Sherlock A. Licorish, Nigel Stanger

Code Generation & Program Synthesis Data Curation & Synthetic Data

UW2w ago·also Rutgers

Cheap Expertise: Mapping and Challenging Industry Perspectives in the Expert Data Gig Economy

AI data annotation companies are publicly framing human expertise as a commodity ripe for disruption, potentially devaluing traditional forms of knowledge and institutional authority.

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

Xing Zhang +32w ago

Tailored Prompts, Targeted Protection: Vulnerability-Specific LLM Analysis for Smart Contracts

LLMs can achieve surprisingly high precision in smart contract vulnerability detection, but only with vulnerability-specific prompts and AST-based context.

Xing Zhang, Ke Zhang, Taohong Zhu +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Natural Language Processing

2w ago·also NTU, ZJU

ZK-Value: A Practical Zero-Knowledge System for Verifiable Data Valuation

Finally, a zero-knowledge data valuation system that scales: ZK-Value proves Shapley values in seconds to minutes, beating specialized ZK baselines by over an order of magnitude.

Zhaoyu Wang, Pingchuan Ma, Zhantong Xue +10

Data Curation & Synthetic Data Open-Source Models & Weights

Chenhao Yu +52w ago

BifrostUMI: Bridging Robot-Free Demonstrations and Humanoid Whole-Body Manipulation

Unlock agile humanoid robots by ditching teleoperation and training directly from human VR demos.

Chenhao Yu, Hongwu Wang, Youhao Hu +3

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

A. Lal +32w ago

Discovering Reaction Mechanisms with Transition Path Sampling-Based Active Learning of Machine-Learned Potentials

Active learning guided by transition path sampling overcomes the limitations of machine-learned potentials in transition-state regions, enabling accurate and efficient simulation of rare events without prior mechanistic knowledge.

A. Lal, Rik S Breebaart, P. Bolhuis +1

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

E. Varga-Umbrich +52w ago

Pretrained Model Representations as Acquisition Signals for Active Learning of MLIPs

Pretrained MLIPs already encode sufficient information in their latent spaces to guide active learning, enabling efficient fine-tuning without uncertainty quantification.

E. Varga-Umbrich, Shikha Surana, Paul Duckworth +3

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

Ragib Amin Nihal +42w ago

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

Forget federated learning, bioacoustic classifiers can be unified across 661 species by simply averaging independently trained task vectors, unlocking a collaborative, privacy-preserving paradigm.

Ragib Amin Nihal, Benjamin Yen, Runwu Shi +2

Data Curation & Synthetic Data Scientific Discovery & Drug Design Speech & Audio

Jayr Pereira +22w ago

Domain-Adaptive Dense Retrieval for Brazilian Legal Search

Fine-tuning dense retrievers on a mix of domain-specific and general question-answering data achieves surprisingly robust performance across diverse legal search tasks, outperforming models trained solely on legal data.

Jayr Pereira, Roberto A. Lotufo, L. Bonifacio

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

Venkata Krishna Prasanth Budigi +12w ago

Ditch the brittle RAG stack: a unified PostgreSQL data layer slashes latency by up to 92% and eliminates data leakage, making production RAG finally reliable.

Venkata Krishna Prasanth Budigi, Siri Chandana Sirigiri

Data Curation & Synthetic Data Recommendation & Information Retrieval

Xun Jiang +72w ago

Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration

Conformal prediction offers a surprisingly effective way to handle both modality imbalance and noisy corruption in multimodal learning by explicitly modeling predictive uncertainty during training.

Xun Jiang, Yufan Gu, Disen Hu +5

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

May 4, 2026

2w ago·also National Center for High-Performance, National Chung Cheng University

Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation

Achieve state-of-the-art object detection in multi-camera surveillance without compromising data privacy by fusing models trained on synthetically augmented and federated data.

Peggy Joy Lu, Wei-Yu Chen, Yao-Tsung Huang +1

Computer Vision Data Curation & Synthetic Data Multimodal Models

Jiaxu He +62w ago

Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation

Transfer learning from a large, pre-trained speech synthesis model unlocks high-quality Tibetan TTS, even with limited Tibetan-specific data.

Jiaxu He, Chao Wang, Jie Lian +4

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Venkata Pushpak Teja Menta2w ago

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Synthetic data closes the Indic ASR gap where commercial and open-source systems fail, boosting entity recognition by up to 22x.

Venkata Pushpak Teja Menta

Data Curation & Synthetic Data Open-Source Models & Weights Speech & Audio

Stefanos Pasios2w ago

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Combining diffusion models with image-to-image translation yields surprisingly realistic synthetic data, outperforming either method alone in closing the sim2real gap.

Stefanos Pasios

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

May 3, 2026

University of Sharjah2w ago·also Bologna

Decentralized Stratified Sampling for Low-Latency Approximate Geospatial Data Stream Processing in Edge-Cloud Architectures

Offloading geospatial data sampling to the edge slashes latency and bandwidth costs, achieving cloud-competitive accuracy with 80% less data.

Isam Mashhour Al Jawarneh, Lorenzo Felletti, Luca Foschini +1

Data Curation & Synthetic Data Distributed Systems & Hardware

May 1, 2026

D. Duc +73w ago

A Hybrid Method for Low-Resource Named Entity Recognition

LLM-powered data augmentation combined with rule-based pre-processing unlocks surprisingly high NER accuracy in low-resource domains, even with limited training data.

D. Duc, Quan Xuan Truong, Viet Tran Hong +5

Data Curation & Synthetic Data Natural Language Processing