April 24 – May 1, 2026

Data Curation & Synthetic Data - Weekly Roundup

97 papers published across 5 labs.

Selected Labs publishing this week

Tsinghua AI4 CMU ML1 Microsoft Research1 UW1 NUS1

Top Papers

Apr 30, 2026

3w ago·also Adobe Research, Paris-Saclay

Learning from a single labeled face and a stream of unlabeled data

Unlock face recognition with just one labeled example and a flood of unlabeled data, achieving state-of-the-art accuracy in a practical authentication scenario.

Branislav Kveton, B. Kveton, Michal Valko

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

May 1, 2026

D. Duc +73w ago

A Hybrid Method for Low-Resource Named Entity Recognition

LLM-powered data augmentation combined with rule-based pre-processing unlocks surprisingly high NER accuracy in low-resource domains, even with limited training data.

D. Duc, Quan Xuan Truong, Viet Tran Hong +5

Data Curation & Synthetic Data Natural Language Processing

Apr 30, 2026

Hanane Nour Moussa +103w ago·also Cisco AI Research

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

Training on D3-Gym, a new dataset of real-world scientific tasks with verifiable environments, closes the gap between open-source and proprietary models on ScienceAgentBench by 7.8 points.

Hanane Nour Moussa, Yifei Li, Zhuoyang Li +8

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Scientific Discovery & Drug Design

3w ago·also RUC

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

By intelligently perturbing class prototypes based on their discriminative power, VPDR achieves a superior privacy-utility trade-off in federated learning compared to naive Gaussian noise.

Yuhua Wang, Qinnan Zhang, Xiaodong Li +6

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Radmir Karamov +23w ago

Data-Efficient Indentation Size Effect Correction in Steels Using Machine Learning and Physics-Guided Augmentation

You can accurately predict steel hardness from nanoindentation data with a tiny dataset and some clever physics-based data augmentation, even when traditional methods fail.

Radmir Karamov, T. Karamov, Tagir Karamov

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

All Papers (97)

May 1, 2026

D. Duc +73w ago

A Hybrid Method for Low-Resource Named Entity Recognition

LLM-powered data augmentation combined with rule-based pre-processing unlocks surprisingly high NER accuracy in low-resource domains, even with limited training data.

D. Duc, Quan Xuan Truong, Viet Tran Hong +5

Data Curation & Synthetic Data Natural Language Processing

Apr 30, 2026

Hanane Nour Moussa +103w ago·also Cisco AI Research

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

Training on D3-Gym, a new dataset of real-world scientific tasks with verifiable environments, closes the gap between open-source and proprietary models on ScienceAgentBench by 7.8 points.

Hanane Nour Moussa, Yifei Li, Zhuoyang Li +8

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Scientific Discovery & Drug Design

3w ago·also RUC

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

By intelligently perturbing class prototypes based on their discriminative power, VPDR achieves a superior privacy-utility trade-off in federated learning compared to naive Gaussian noise.

Yuhua Wang, Qinnan Zhang, Xiaodong Li +6

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Radmir Karamov +23w ago

Data-Efficient Indentation Size Effect Correction in Steels Using Machine Learning and Physics-Guided Augmentation

You can accurately predict steel hardness from nanoindentation data with a tiny dataset and some clever physics-based data augmentation, even when traditional methods fail.

Radmir Karamov, T. Karamov, Tagir Karamov

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also Mediconsult Oy, Solita Oy

Privacy-Preserving Federated Learning via Differential Privacy and Homomorphic Encryption for Cardiovascular Disease Risk Modeling

Homomorphic encryption can make federated learning nearly as accurate as centralized training on sensitive healthcare data, but at a steep computational cost, while differential privacy offers a less expensive but accuracy-sacrificing alternative.

Gaurang Sharma, Juha Pajula, Aada Illikainen +4

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Saeid Asgari Taghanaki +153w ago

Diagnosing Capability Gaps in Fine-Tuning Data

Stop wasting compute on fine-tuning datasets with hidden capability gaps: GoalCover lets you diagnose and fix them *before* training.

Saeid Asgari Taghanaki, Raksha Agarwal, Rakshanda Agarwal +13

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

3w ago

FMCL: Class-Aware Client Clustering with Foundation Model Representations for Heterogeneous Federated Learning

Foundation model embeddings reveal hidden structure in federated datasets, enabling surprisingly effective client clustering without any training or communication overhead.

Mahad Ali, M. Ali, Laura J. Brattain

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Pengyun Zhu +93w ago

APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation

Forget training LLMs to understand privacy policies – a specialized, expert-annotated dataset and hybrid framework can do it better, achieving superior readability and reliability.

Pengyun Zhu, Qiheng Sun, Long Wen +7

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

3w ago·also Princeton

AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images

Even GPT-5.1 struggles to distinguish AI-generated academic images from real ones, achieving only 48.8% accuracy, revealing a significant gap between generative and forensic AI capabilities.

Bo Zhang, Bo Zhang, T. Ma +33

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Ali Najafi +43w ago·also Sabanci University

Social Media Data Toolkit: Standardization and Anonymization of Social Network Datasets

Stop wrestling with messy social media datasets: this toolkit streamlines standardization, anonymization, and enrichment, unlocking cross-platform insights with ease.

Ali Najafi, Letizia Iannucci, Mikko Kivelä +2

Data Curation & Synthetic Data Natural Language Processing

Beijing University of Posts3w ago·also BUPT

SecGoal: A Benchmark for Security Goal Extraction and Formalization from Protocol Documents

Instruction tuning on a new dataset, SecGoal, allows smaller 7B/9B parameter models to outperform much larger LLMs in extracting and formalizing security goals from protocol documents.

Dawei Huang, Hui Li, Haonan Feng +4

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Carmine Cesarano +23w ago·also KTH

The Grand Software Supply Chain of AI Systems

AI systems are built on a software house of cards, with 400M lines of code and 11,000 dependencies, yet lack basic supply chain protections like versioning and verifiability.

Carmine Cesarano, M. Monperrus, Martin Monperrus

Constitutional AI & AI Ethics Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Hezhao Liu +73w ago·also University of Nottingham

SECOS: Semantic Capture for Rigorous Classification in Open-World Semi-Supervised Learning

Current open-world semi-supervised learning methods fall short in practical applications because they fail to extract latent semantic information, but SECOS overcomes this by directly predicting textual labels from a candidate set, achieving state-of-the-art results.

Hezhao Liu, Jiacheng Yang, Junlong Gao +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Olivier Parisot3w ago

An Extended Evaluation Split for DeepSpaceYoloDataset

A new test split for DeepSpaceYoloDataset helps push the boundaries of automated astronomical object detection by providing a more diverse and challenging evaluation benchmark.

Olivier Parisot

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Tsinghua AI3w ago·also Microsoft Research

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Forget fully connected relation graphs: CasLayout's sparse relation modeling unlocks enhanced controllability and realism in 3D indoor scene synthesis.

Yingrui Wu, Youkang Kong, Mingyang Zhao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Yizhou Wu +83w ago·also Emory

BrainDINO: A Brain MRI Foundation Model for Generalizable Clinical Representation Learning

A single self-supervised model trained on millions of unlabeled brain MRI slices can generalize across diverse neuroimaging tasks, rivaling or exceeding specialized models, even with limited labeled data.

Yizhou Wu, Shansong Wang, Yuheng Li +6

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

3w ago·also Interdisciplinary Transformation

NuggetIndex: Governed Atomic Retrieval for Maintainable RAG

Stop retrieving passages in your RAG system: NuggetIndex shows that retrieving and filtering atomic "nuggets" of information yields substantial gains in recall, temporal correctness, and reduced conflicts.

Saber Zerhoudi, Michael Granitzer, Jelena Mitrović +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Recommendation & Information Retrieval

Davide Di Nucci +43w ago·also University of Modena and Reggio Emilia

Fake3DGS: A Benchmark for 3D Manipulation Detection in Neural Rendering

Current image forensics fall flat when faced with the subtle manipulations now possible in 3D Gaussian Splatting scenes, highlighting a critical gap in content authenticity assessment.

Davide Di Nucci, Riccardo Catalini, Guido Borghi +2

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

3w ago·also Hainan University

HiMix: Hierarchical Artifact-aware Mixup for Generalized Synthetic Image Detection

Existing synthetic image detectors fail to generalize because they're trained on biased data, but HiMix overcomes this with artifact-aware representations and mixup augmentation, achieving state-of-the-art generalization to unseen generators.

Shuchang Zhou, Kaiwen Shen, Jiwei Wei +2

Computer Vision Data Curation & Synthetic Data

Mingliang Liang +33w ago·also Radboud

Dynamic Cluster Data Sampling for Efficient and Long-Tail-Aware Vision-Language Pre-training

VLMs can get a boost in long-tail performance and train more efficiently by dynamically upsampling underrepresented data clusters each epoch.

Mingliang Liang, Zhuoran Liu, Arjen P. de Vries +1

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

CMU ML3w ago·also NEC Labs America

PhyCo: Learning Controllable Physical Priors for Generative Motion

Control over physical properties like friction and restitution in generated videos is now possible, paving the way for more realistic and controllable video synthesis.

Sriram Narayanan, S. Narayanan, Ziyu Jiang +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI+1

Microsoft Research3w ago

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Forget toy tasks: scaling synthetic computer environments unlocks surprisingly effective training data for agents tackling month-long, real-world productivity workflows.

Tao Ge, Baolin Peng, Hao Cheng +1

Data Curation & Synthetic Data World Models & Planning

Yujin Jeong +43w ago

When Do Diffusion Models learn to Generate Multiple Objects?

Diffusion models struggle with multi-object generation not because of imbalanced concept representation, but primarily due to scene complexity and a surprising difficulty in counting, especially when training data is limited.

Yujin Jeong, Arnas Uselis, Iro Laina +2

Computer Vision Data Curation & Synthetic Data Multimodal Models

3w ago·also Adobe Research, Paris-Saclay

Learning from a single labeled face and a stream of unlabeled data

Unlock face recognition with just one labeled example and a flood of unlabeled data, achieving state-of-the-art accuracy in a practical authentication scenario.

Branislav Kveton, B. Kveton, Michal Valko

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Ahmed Hossain +53w ago

Assessing the Role of Intersection Proximity in Pedestrian Crashes: Insights from Data Mining Approach

Half of pedestrian crashes outside intersections happen surprisingly close to them, suggesting intersection design flaws may have a larger impact than previously thought.

Ahmed Hossain, Ahmed Hossain, Xiaoduan Sun +3

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Mark C. Ballandies +33w ago·also UZH

Calibrating Attribution Proxies for Reward Allocation in Participatory Weather Sensing

Gradient attribution in AI weather models offers a computationally validated, model-informed approach to reward allocation in participatory weather sensing, but beware: adversarial inputs can game the system.

Mark C. Ballandies, M. Ballandies, Michael T. C. Chiu +1

Data Curation & Synthetic Data Scientific Discovery & Drug Design

3w ago·also Tsinghua AI

FedHarmony: Harmonizing Heterogeneous Label Correlations in Federated Multi-Label Learning

Federated learning can overcome data silos, but struggles when clients have different label relationships; FedHarmony shows how to harmonize these differences, leading to better performance.

Zhiqiang Kou, Zhi Kou, Jun Wu +11

Data Curation & Synthetic Data Distributed Systems & Hardware Natural Language Processing

Ishrak Hamim Mahi +73w ago

Machine Unlearning for Class Removal through SISA-based Deep Neural Network Architectures

Forget individual data points? Child's play. This work lets you surgically remove entire *classes* of data from CNNs without catastrophic forgetting.

Ishrak Hamim Mahi, Siam Ferdous, Md Sakib Sadman Badhon +5

Constitutional AI & AI Ethics Data Curation & Synthetic Data

Yan Lin +53w ago·also Aalborg, IIT Delhi

AMGenC: Generating Charge Balanced Amorphous Materials

Guaranteeing charge balance in generated amorphous materials is now possible without sacrificing accuracy or efficiency, thanks to AMGenC's novel approach.

Yan Lin, Jilin Hu, N. M. Anoop Krishnan +3

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Al Zadid Sultan Bin Habib +33w ago

ZAYAN: Disentangled Contrastive Transformer for Tabular Remote Sensing Data

Feature-level contrastive learning with dynamic masking unlocks superior performance on tabular remote sensing data, even when labels are scarce.

Al Zadid Sultan Bin Habib, Tanpia Tasnim, Md. Ekramul Islam +1

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Scientific Discovery & Drug Design

Ansar Aynetdinov +23w ago·also Humboldt-Universität zu Berlin

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Forget scaling up data volume: repeating a smaller, high-quality German dataset yields superior language models compared to single-pass training on a larger, less filtered corpus.

Ansar Aynetdinov, Patrick Haller, Alan Akbik

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Ke Xu3w ago

WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning

A carefully crafted synthetic data pipeline and rubric-guided RL lets a 4B parameter model nearly match Gemini-3-Flash on wafer defect analysis, suggesting that data quality and targeted training can trump sheer model size.

Ke Xu

Computer Vision Data Curation & Synthetic Data Multimodal Models

Eugen Beck +103w ago

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

General American English ASR performance doesn't guarantee similar accuracy across other English accents, as revealed by a new multi-accent call center dataset.

Eugen Beck, E. Beck, S. Beranek +8

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing+1

UW3w ago

Secure Cross-Silo Synthetic Genomic Data Generation

Unlock collaborative AI development in genomics without compromising patient privacy: this framework lets multiple institutions jointly train synthetic data generators on sensitive RNA-seq data using MPC and DP.

Daniil Filienko, Martine De Cock, Sikha Pentyala

Data Curation & Synthetic Data Scientific Discovery & Drug Design

3w ago·also Tsinghua AI, CAS, NJU, NTU

PuzzleMark: Implicit Jigsaw Learning for Robust Code Dataset Watermarking in Neural Code Completion Models

Code dataset watermarking gets a stealthy upgrade: PuzzleMark hides watermarks in variable names based on code complexity, making them nearly undetectable while guaranteeing perfect verification.

Haocheng Huang, Yuchen Chen, Weisong Sun +6

Code Generation & Program Synthesis Data Curation & Synthetic Data

3w ago·also JIUTIAN Research

TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On

Ditch the garment masks: a simple human mask is all you need to nail video virtual try-on in the wild.

Dingbao Shao, Di Shao, Songhan Wu +13

Computer Vision Data Curation & Synthetic Data Multimodal Models

Ilyass Moummad +83w ago·also CIRAD, INRAE, INRIA, LIRMM +1

Self-Supervised Learning of Plant Image Representations

Seemingly innocuous augmentations like blur can cripple self-supervised learning for fine-grained tasks like plant identification, but domain-aware choices unlock surprisingly strong performance.

Ilyass Moummad, Kawtar Zaher, Hervé Goeau +6

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Yuan Fang +63w ago

A generalised pre-training strategy for deep learning networks in semantic segmentation of remotely sensed images

Stop wasting compute pre-training on domain-specific datasets; this simple strategy lets you pre-train on ImageNet and still achieve state-of-the-art results on diverse remote sensing segmentation tasks.

Yuan Fang, Yuanzhi Cai, Jagannath Aryal +4

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Bohai Zhang +113w ago

MSR:Hybrid Field Modeling for CT-MRI Rigid-Deformable Registration of the Cervical Spine with an Annotated Dataset

Achieve superior CT-MRI cervical spine registration by adaptively fusing Mamba-based global context with Swin Transformer-based local detail.

Bohai Zhang, Wenjie Chen, Mu Li +9

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

3w ago

Towards All-Day Perception for Off-Road Driving: A Large-Scale Multispectral Dataset and Comprehensive Benchmark

Nighttime off-road self-driving just got a boost: a new dataset and method robustly handles the dark by fusing infrared and RGB data with a novel memory-attention mechanism.

Shuo Wang, Jilin Mei, Wen-Cai Guan +5

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Yang You +63w ago

DOT-Sim: Differentiable Optical Tactile Simulation with Precise Real-to-Sim Physical Calibration

Forget tedious calibration – DOT-Sim lets you train tactile perception policies in simulation and deploy them directly to real robots with impressive accuracy, thanks to its physically accurate and rapidly calibrated model.

Yang You, Won Kyung Do, Aiden Swann +4

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Apr 29, 2026

Sergej Stanovcic +23w ago

ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation

Annotating robot actions just got way faster and more accurate: ATLAS slashes annotation time and error by integrating robot sensor data with video.

Sergej Stanovcic, Daniel Sliwowski, Dongheui Lee

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI+1

Shuhao Xu +53w ago·also Corresponding Author, HKUST, Huawei

EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses

Forget static emotion labels – EmoTransCap lets you generate speech captions that actually track how emotions evolve in a conversation.

Shuhao Xu, Yifan Hu, Jingjing Wu +3

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Fei Bai +153w ago·also IQuest Research, RUC

ClawGym: A Scalable Framework for Building Effective Claw Agents

Building agents that can reliably automate complex, multi-step workflows over local files and tools just got a whole lot easier.

Fei Bai, Huatong Song, Shuang Sun +13

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks+1

UBA-CONICET3w ago·also Universidad de Chile, Universidad de San Andrés

A Toolkit for Detecting Spurious Correlations in Speech Datasets

Discover hidden biases in your speech datasets: this toolkit uses non-speech audio to reveal spurious correlations that inflate performance metrics.

Lara Gauder, Pablo Riera, Andrea Slachevsky +3

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

Tobias Bystrich +33w ago

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Transferring phonetic knowledge from one language to another can dramatically improve automatic phonetic transcription, even enabling the recognition of entirely new phonetic features.

Tobias Bystrich, Julia M. Pritzen, Christoph A. Schmidt +1

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

University of Artificial Intelligence3w ago

What Kind of Language is Easy to Language-Model Under Curriculum Learning?

Curriculum learning flips the script on what language structures LMs find "easy," suggesting that training order is a critical factor in shaping their inductive biases.

Nadine El-Naggar, Tatsuki Kuribayashi, Ted Briscoe

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

3w ago·also Chongqing, SJTU

ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

LLMs still struggle to generate complete, internally structured classes from specifications, with even the best models failing more than half the time on a new benchmark designed to avoid data contamination.

Chaoxiang Xie, Yuling Shi, Wenhao Zeng +3

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Guillermo Iglesias +53w ago·also CIBERSAM, Department of Psychiatry, Department of Psychology, Madrid Autonomous University +3

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

LLMs can generate synthetic mental health records that are clinically coherent, lexically diverse, and privacy-safe, offering a promising solution to data scarcity in mental health research.

Guillermo Iglesias, Gema Bello-Orgaz, María Navas-Loro +3

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

3w ago

SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation

Defend against hardware Trojans in LLM-generated RTL code by structurally and semantically verifying training data, without needing to alter the underlying LLM.

Mahshid Rezakhani, Nowfel Mashnoor, Kimia Azar +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Kecen Li +43w ago·also SJTU

Differentially Private Contrastive Learning via Bounding Group-level Contribution

Differentially private contrastive learning no longer needs to sacrifice so much accuracy, thanks to a new method that cleverly bounds gradient dependencies.

Kecen Li, Chen Gong, Zinan Lin +2

Data Curation & Synthetic Data Natural Language Processing

NUS3w ago·also NTU, UNSW

Membership Inference Attacks Against Video Large Language Models

VideoLLMs leak training data: a novel black-box attack recovers membership with surprisingly high accuracy (AUC=0.68) by probing generation brittleness across temperatures.

Wei Song, Yuxin Cao, Ziqi Ding +3

Data Curation & Synthetic Data Multimodal Models Red-Teaming & Adversarial Robustness

3w ago·also University of Wuerzburg

Towards Generalizable Mapping of Hedges and Linear Woody Features from Earth Observation Data: a national Product for Germany

A modular workflow achieves competitive, national-scale mapping of linear woody features in Germany from diverse Earth observation data without retraining, demonstrating surprising generalizability.

Thorsten Hoeser, Verena Huber-Garcia, Sarah Asam +2

Computer Vision Data Curation & Synthetic Data

Apr 28, 2026

Zhiyuan Fan +163w ago·also Tencent AI

Toward Scalable Terminal Task Synthesis via Skill Graphs

SkillSynth's skill graph approach lets you explicitly control the diversity of execution trajectories during terminal task synthesis, leading to more effective agent training.

Zhiyuan Fan, Tinghao Yu, Yu-Tong Cai +14

Code Generation & Program Synthesis Data Curation & Synthetic Data Tool Use & Agents

Tri-Nhan Vo +33w ago

Diverse Image Priors for Black-box Data-free Knowledge Distillation

Black-box knowledge distillation can be significantly improved by synthesizing diverse image priors and using contrastive learning to enhance the distinctions between synthetic samples.

Tri-Nhan Vo, Dang Nguyen, Trung Le +1

Computer Vision Data Curation & Synthetic Data Inference & Quantization

Università degli studi di Milano Bicocca3w ago

Measuring the Sensitivity of Classification Models with the Error Sensitivity Profile

Forget blindly chasing correlations – this paper reveals that the features you *think* are most important for model performance might not be the ones where data cleaning yields the biggest gains.

Andrea Maurino

Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Hongfei Wu +23w ago

VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification

Achieve robust imbalanced classification with scarce minority samples by turning a generative VAE into a discriminative classifier using distribution-aware fine-tuning and statistically sound hypothesis testing.

Hongfei Wu, Ruijian Han, Yancheng Yuan

Data Curation & Synthetic Data Training Efficiency & Optimization

Yuting Yang +43w ago·also School of Engineering and Technology

Knowledge-Data Dually Driven Paradigm for Accurate Landslide Susceptibility Prediction under Data-Scarce Conditions Using Geomorphic Priors and Tabular Foundation Model

Accurate landslide prediction is possible with sparse data by injecting geomorphic priors, unlocking geohazard risk assessment in data-scarce mountainous regions.

Yuting Yang, Gang Mei, Feng Chen +2

Data Curation & Synthetic Data Scientific Discovery & Drug Design

M. J. Jozani +13w ago

Fractionally Supervised Classification with Maxima Nominated Samples

Ignoring the rank information in maxima nominated samples can lead to substantial performance degradation in fractionally supervised classification, a problem this paper elegantly solves with a new EM algorithm.

M. J. Jozani, Jingyu Wang

Data Curation & Synthetic Data Training Efficiency & Optimization

Kaixuan Shao +43w ago·also School of Engineering and Technology

Accurate and Robust Generative Approach for Overcoming Data Sparsity and Imbalance in Landslide Modeling with A Tabular Foundation Model

Generating realistic landslide datasets from sparse, imbalanced real-world data is now possible, thanks to a tabular foundation model that captures complex feature dependencies.

Kaixuan Shao, Gang Mei, Yinghan Wu +2

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Laure Berti-Équille3w ago

Prior-Aligned Data Cleaning for Tabular Foundation Models

Real-world tabular data's messiness cripples zero-shot accuracy of powerful Tabular Foundation Models, but a new RL approach can clean up the problem.

Laure Berti-Équille

Data Curation & Synthetic Data Eval Frameworks & Benchmarks

3w ago·also ESA

Benchmarking bandgap prediction in semiconductors under experimental and realistic evaluation settings

Current machine learning models for semiconductor bandgap prediction fall short when faced with the messy reality of experimental data, highlighting a critical need for more robust and generalizable learning strategies.

Haolin Wang, Xianyuan Liu, Anna Jungbluth +3

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Scientific Discovery & Drug Design

B. Es3w ago

Language corpora for the Dutch medical domain

Dutch NLP researchers, rejoice: a massive, freely available 35B token medical corpus has arrived to jumpstart your models.

B. Es

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Youngjoon Jang +73w ago

LegalMidm: Use-Case-Driven Legal Domain Specialization for Korean Large Language Model

Forget generic legal LLMs – LegalMidm shows that focusing on specific Korean legal use cases, with data curated by legal pros, unlocks real-world performance gains.

Youngjoon Jang, Chanhee Park, Hyeonseok Moon +5

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Li Ju +13w ago

Faithfulness-QA: A Counterfactual Entity Substitution Dataset for Training Context-Faithful RAG Models

RAG models struggle to ignore their pre-trained knowledge, even when it contradicts the provided context, but a new dataset can help them learn to be more faithful.

Li Ju, Junzhe Wang

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

University of Isfahan3w ago·also University of Windsor

Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

DPO-based post-training can significantly boost the translation quality of pre-trained NMT models like gemma3-1b, even without additional parallel data.

Mehrdad Ghassabi, Spehr Rajabi, Hamidreza Baradaran Kashani +2

Data Curation & Synthetic Data Natural Language Processing RLHF & Preference Learning

University of Lisbon3w ago·also UBI

Progressing beyond Art Masterpieces or Touristic Clichés: how to assess your LLMs for cultural alignment?

Current cultural bias evaluations of LLMs rely on datasets that lack the nuance to distinguish between genuine cultural understanding and superficial mimicry, but this new dataset changes that.

António Branco, João Silva, Nuno Marques +9

Constitutional AI & AI Ethics Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Kidus Zewde +103w ago

GPT-Image-2 in the Wild: A Twitter Dataset of Self-Reported AI-Generated Images from the First Week of Deployment

Twitter strips C2PA provenance data from AI-generated images, making it impossible to cryptographically verify their origin on the platform.

Kidus Zewde, Kidus Zewde, Simiao Ren +8

Computer Vision Data Curation & Synthetic Data Multimodal Models

Jianghang Lin +73w ago

Learning from Medical Entity Trees: An Entity-Centric Medical Data Engineering Framework for MLLMs

Fragmented medical data hurts MLLM performance: this paper shows how a hierarchical medical knowledge graph can be used to engineer training data that substantially improves MLLM accuracy on complex clinical tasks.

Jianghang Lin, Haihua Yang, Deli Yu +5

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Guangzeng Han +23w ago

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

Forget data scale, focus on influence: a new metric reveals that the best instruction tuning data isn't necessarily the most obvious or easiest.

Guangzeng Han, Guangzeng Han, Xiaolei Huang

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Mihailo vSkori'c3w ago

Wiki Dumps to Training Corpora: South Slavic Case

A simple n-gram filter can effectively purge machine-generated content from Wikipedia dumps, yielding higher-quality training corpora.

Mihailo vSkori'c

Data Curation & Synthetic Data Natural Language Processing

Yuanfan Li +73w ago

MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors

Stop wrestling with fragmented MGT detection benchmarks: MGTEVAL offers a unified platform to build, attack, train, and evaluate detectors with ease.

Yuanfan Li, Qi Zhou, Chengzhengxu Li +5

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

3w ago

From Threads to Trajectories: A Multi-LLM Pipeline for Community Knowledge Extraction from GitHub Issue Discussions

Unlock expert developer reasoning: a new dataset distills complex GitHub issue discussions into structured trajectories, revealing the collaborative problem-solving process behind open-source software.

Nazia Shehnaz Joynab, Soneya Binta Hossain

Code Generation & Program Synthesis Data Curation & Synthetic Data Natural Language Processing

Minh-Khoa Le-Phan +33w ago

Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles

Deepfake detectors can be made far more robust to real-world image corruptions by training on heavily degraded data and ensembling complementary feature streams.

Minh-Khoa Le-Phan, Minh-Hoang Le, Trong-Le Do +1

Computer Vision Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Ifeanyi Ezuma +13w ago

Magnification-Invariant Image Classification via Domain Generalization and Stable Sparse Embedding Signatures

Domain generalization can yield surprisingly compact (3x smaller!), stable, and accurate image representations that transfer across magnifications, without requiring complex architectures or GANs.

Ifeanyi Ezuma, Olusiji Medaiyese

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Pratincha Singh +53w ago

Towards Seamless Lunar Mosaics: Deep Radiometric Normalization for Cross-Sensor Orbital Imagery Using Chandrayaan-2 TMC Data

Lunar mosaics riddled with radiometric inconsistencies? A deep learning approach can seamlessly blend multi-mission orbital imagery, outperforming traditional methods.

Pratincha Singh, J. Singla, Prashant Hemrajani +3

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Jongyoon Kim +53w ago

UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval

UnIte reveals that incorporating uncertainty into document sampling can lead to substantial improvements in retrieval performance with fewer training samples.

Jongyoon Kim, Jongyoon Kim, Min-Shiang Hwang +3

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

Fabian Dionys Schrag +33w ago

Towards Robust Deep Learning-based Rumex Obtusifolius Detection from Drone Images

Self-supervised Vision Transformers can handily outperform domain-adapted CNNs when transferring weed detection models from ground-based to drone-based imagery.

Fabian Dionys Schrag, Mehmet Ozgur Turkoglu, Konrad Schindler +1

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

K. Lau +13w ago

PhyloSDF: Phylogenetically-Conditioned Neural Generation of 3D Skull Morphology via Residual Flow Matching

Generating realistic 3D skull shapes for rare species is now possible with as few as four examples, thanks to a phylogenetically-informed neural generator that beats diffusion models and even allows for plausible reconstructions of ancestral forms.

K. Lau, Gary P. T. Choi

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

3w ago·also Tsinghua AI, Huawei

OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

MLLMs are better at understanding videos than directly grounding text queries within them, and a self-correction training loop can close the gap.

Minghang Zheng, Zihao Yin, Yi Yang +3

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Zixu Bo +43w ago

SARU: A Shadow-Aware and Removal Unified Framework for Remote Sensing Images with New Benchmarks

Achieve state-of-the-art shadow removal in remote sensing images without paired training data by unifying shadow detection and removal into a single framework.

Zixu Bo, Wei Lu, Hongruixuan Chen +2

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Melanie Wille +33w ago

Why Domain Matters: A Preliminary Study of Domain Effects in Underwater Object Detection

Systematic variations in underwater object detection performance reveal hidden failure modes tied to intrinsic scene factors, challenging existing benchmarks based on synthetic style transfer.

Melanie Wille, Dimity Miller, Tobias Fischer +1

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Rahul Harsha Cheppally +43w ago

FruitProM-V2: Robust Probabilistic Maturity Estimation and Detection of Fruits and Vegetables

Explicitly modeling fruit maturity as a continuous variable significantly improves robustness against label noise, challenging traditional classification approaches.

Rahul Harsha Cheppally, Sidharth Rai, Sudan Baral +2

Computer Vision Data Curation & Synthetic Data

3w ago

Break the Inaccessible Boundary: Distilling Post-Conversion Content for User Retention Modeling

Retention models can now harness the power of post-conversion content without risking feature leakage, leading to more accurate predictions of user engagement.

Tianbao Ma, Ruochen Yang, Chengen Li +8

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

A.J. Mazza +33w ago

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Forget expensive human labeling: BARRED lets you train custom policy guardrails that outperform state-of-the-art LLMs using only synthetic data generated via multi-agent debate.

A.J. Mazza, Arnon Mazza, Elad Levi +1

Constitutional AI & AI Ethics Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Apr 27, 2026

Mohammadmehdi Ataei +73w ago

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Forget painstakingly collecting real CAD data – Zero-to-CAD lets you bootstrap CAD program generation from multi-view images using a million-scale dataset synthesized entirely by an LLM agent.

Mohammadmehdi Ataei, Mohammadmehdi Ataei, Farzaneh Askari +5

Code Generation & Program Synthesis Data Curation & Synthetic Data Tool Use & Agents

Hermawan Manurung +63w ago

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

A BiLSTM with a custom slang dictionary rivals AutoML in classifying the sentiment and emotion of messy, real-world Indonesian e-commerce reviews.

Hermawan Manurung, Hermawan Manurung, Ibrahim Al-Kahfi +4

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Zhihan Zhang +33w ago

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Training on semantically equivalent chart renderings in Python, R, and LaTeX unlocks surprisingly effective multi-lingual chart-to-code generation from a single model.

Zhihan Zhang, Zhihan Zhang, Lizi Liao +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Multimodal Models

Alessio Sordo +43w ago·also Berlin Technology Center

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Forget painstakingly curating datasets – STELLAR-E auto-generates high-quality, domain-specific LLM benchmarks, rivaling real-world data in evaluation quality.

Alessio Sordo, Lingxiao Du, Meeka-Hanna Lenisa +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Laila Elkoussy +13w ago

SWE-QA: A Dataset and Benchmark for Complex Code Understanding

Even the largest language models still struggle to connect information across dispersed code segments, achieving only 74% accuracy on a new benchmark designed to test multi-hop code comprehension.

Laila Elkoussy, Julien Perez

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Ali Keshavarzi +33w ago

BifDet: A 3D Bifurcation Detection Dataset for Airway-Tree Modeling

Finally, a dataset exists to train and benchmark algorithms for automatically detecting airway bifurcations in 3D CT scans, a crucial step towards understanding respiratory diseases.

Ali Keshavarzi, Quentin Bouniot, Benjamin M. Smith +1

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Lorenz Gunreben +43w ago

Real-time windrow detection from onboard tractor sensors for automated following

Low-cost stereo vision can rival LiDAR for real-time windrow detection, paving the way for more accessible autonomous farming solutions.

Lorenz Gunreben, Nico Heider, Sebastian Zürner +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Yifan Xie +53w ago

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Robots can now leverage human intuition for manipulation tasks, learning from a massive video dataset to improve motion plausibility and robustness, even when conditions change.

Yifan Xie, Yuan Wang, Guangyu Chen +3

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

W. Z. E. Amri +13w ago·also Leibniz Universität Hannover

SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors

Simulate once, deploy anywhere: SPLIT lets you train tactile perception models on synthetic data and transfer them across different sensors without retraining.

W. Z. E. Amri, Nicolás Navarro-Guerrero

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

3w ago·also IIT Delhi, Indraprastha Institute of Information, Jaypee Institute of Information

Learning Illumination Control in Diffusion Models

Open-source diffusion models can now achieve state-of-the-art illumination control rivaling closed-source alternatives, thanks to a novel training pipeline and dataset.

Nishit Anand, Manan Suri, Christopher Metzler +2

Computer Vision Data Curation & Synthetic Data Open-Source Models & Weights

Chenkai Pan +93w ago

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

LLMs can be systematically debugged and improved by treating training data as code, allowing for targeted "patches" that fix concept-level gaps and reasoning errors.

Chenkai Pan, Xing Xu, Xinglong Xu +7

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 25, 2026

Yida Xue +73w ago

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Unlock the secrets of the deep: OceanPile, a massive, meticulously curated multimodal dataset, finally brings the power of foundation models to the vast and underexplored ocean.

Yida Xue, Ningyu Zhang, Tingwei Wu +5

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Search

Data Curation & Synthetic Data - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (97)