April 20 – April 27, 2026

Data Curation & Synthetic Data - Weekly Roundup

100 papers published across 3 labs.

8600% acceleration

Selected Labs publishing this week

Tsinghua AI2 Stanford HAI1 BAIR1

Top Papers

Apr 21, 2026

Apr 21, 2026·also Manchester, Sofia University "St. Kliment Ohridski"

SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning

Arabic LLMs can speak the language of finance, but they often fail to reason about it, especially when it comes to causality and generation.

Rania Elbadry, Sarfraz Ahmad, Ahmed Heakl +12

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Apr 27, 2026

Mohammadmehdi Ataei +7Apr 27, 2026

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Forget painstakingly collecting real CAD data – Zero-to-CAD lets you bootstrap CAD program generation from multi-view images using a million-scale dataset synthesized entirely by an LLM agent.

Mohammadmehdi Ataei, Mohammadmehdi Ataei, Farzaneh Askari +5

Code Generation & Program Synthesis Data Curation & Synthetic Data Tool Use & Agents

Hermawan Manurung +6Apr 27, 2026

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

A BiLSTM with a custom slang dictionary rivals AutoML in classifying the sentiment and emotion of messy, real-world Indonesian e-commerce reviews.

Hermawan Manurung, Hermawan Manurung, Ibrahim Al-Kahfi +4

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Zhihan Zhang +3Apr 27, 2026·also SMU

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Training on semantically equivalent chart renderings in Python, R, and LaTeX unlocks surprisingly effective multi-lingual chart-to-code generation from a single model.

Zhihan Zhang, Zhihan Zhang, Lizi Liao +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Multimodal Models

Alessio Sordo +4Apr 27, 2026·also Berlin Technology Center

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Forget painstakingly curating datasets – STELLAR-E auto-generates high-quality, domain-specific LLM benchmarks, rivaling real-world data in evaluation quality.

Alessio Sordo, Lingxiao Du, Meeka-Hanna Lenisa +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

All Papers (100)

Apr 27, 2026

Mohammadmehdi Ataei +7Apr 27, 2026

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Forget painstakingly collecting real CAD data – Zero-to-CAD lets you bootstrap CAD program generation from multi-view images using a million-scale dataset synthesized entirely by an LLM agent.

Mohammadmehdi Ataei, Mohammadmehdi Ataei, Farzaneh Askari +5

Code Generation & Program Synthesis Data Curation & Synthetic Data Tool Use & Agents

Hermawan Manurung +6Apr 27, 2026

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

A BiLSTM with a custom slang dictionary rivals AutoML in classifying the sentiment and emotion of messy, real-world Indonesian e-commerce reviews.

Hermawan Manurung, Hermawan Manurung, Ibrahim Al-Kahfi +4

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Zhihan Zhang +3Apr 27, 2026·also SMU

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Training on semantically equivalent chart renderings in Python, R, and LaTeX unlocks surprisingly effective multi-lingual chart-to-code generation from a single model.

Zhihan Zhang, Zhihan Zhang, Lizi Liao +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Multimodal Models

Alessio Sordo +4Apr 27, 2026·also Berlin Technology Center

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Forget painstakingly curating datasets – STELLAR-E auto-generates high-quality, domain-specific LLM benchmarks, rivaling real-world data in evaluation quality.

Alessio Sordo, Lingxiao Du, Meeka-Hanna Lenisa +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Laila Elkoussy +1Apr 27, 2026

SWE-QA: A Dataset and Benchmark for Complex Code Understanding

Even the largest language models still struggle to connect information across dispersed code segments, achieving only 74% accuracy on a new benchmark designed to test multi-hop code comprehension.

Laila Elkoussy, Julien Perez

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Ali Keshavarzi +3Apr 27, 2026

BifDet: A 3D Bifurcation Detection Dataset for Airway-Tree Modeling

Finally, a dataset exists to train and benchmark algorithms for automatically detecting airway bifurcations in 3D CT scans, a crucial step towards understanding respiratory diseases.

Ali Keshavarzi, Quentin Bouniot, Benjamin M. Smith +1

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Lorenz Gunreben +4Apr 27, 2026

Real-time windrow detection from onboard tractor sensors for automated following

Low-cost stereo vision can rival LiDAR for real-time windrow detection, paving the way for more accessible autonomous farming solutions.

Lorenz Gunreben, Nico Heider, Sebastian Zürner +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Yifan Xie +5Apr 27, 2026

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Robots can now leverage human intuition for manipulation tasks, learning from a massive video dataset to improve motion plausibility and robustness, even when conditions change.

Yifan Xie, Yuan Wang, Guangyu Chen +3

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

W. Z. E. Amri +1Apr 27, 2026·also Leibniz Universität Hannover

SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors

Simulate once, deploy anywhere: SPLIT lets you train tactile perception models on synthetic data and transfer them across different sensors without retraining.

W. Z. E. Amri, Nicolás Navarro-Guerrero

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Apr 27, 2026·also IIT Delhi, Indraprastha Institute of Information, Jaypee Institute of Information

Learning Illumination Control in Diffusion Models

Open-source diffusion models can now achieve state-of-the-art illumination control rivaling closed-source alternatives, thanks to a novel training pipeline and dataset.

Nishit Anand, Manan Suri, Christopher Metzler +2

Computer Vision Data Curation & Synthetic Data Open-Source Models & Weights

Chenkai Pan +9Apr 27, 2026

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

LLMs can be systematically debugged and improved by treating training data as code, allowing for targeted "patches" that fix concept-level gaps and reasoning errors.

Chenkai Pan, Xinglong Xu, Xing Xu +7

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 25, 2026

Yida Xue +7Apr 25, 2026·also ZJU

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Unlock the secrets of the deep: OceanPile, a massive, meticulously curated multimodal dataset, finally brings the power of foundation models to the vast and underexplored ocean.

Yida Xue, Ningyu Zhang, Tingwei Wu +5

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Apr 23, 2026

Sherly Alfonso-S'anchez +2Apr 23, 2026

Revealing Geography-Driven Signals in Zone-Level Claim Frequency Models: An Empirical Study using Environmental and Visual Predictors

You can boost insurance claim prediction accuracy by combining simple environmental features with location data, even when you lack detailed individual-level spatial information.

Sherly Alfonso-S'anchez, Cristián Bravo, Kristina G. Stankova

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Apr 23, 2026·also Graz University of Technology

PrismaDV: Automated Task-Aware Data Unit Test Generation

Automatically generate data unit tests that actually catch the data errors that matter for your specific downstream tasks.

Hao Chen, Arnab Phani, Sebastian Schelter

Code Generation & Program Synthesis Data Curation & Synthetic Data

P. Nganjimi +5Apr 23, 2026

Geometric Characterisation and Structured Trajectory Surrogates for Clinical Dataset Condensation

Ditching noisy SGD trajectories for smooth Bezier curves unlocks better dataset condensation, especially when data is scarce.

P. Nganjimi, Andrew A. S. Soltan, Danielle Belgrave +3

Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 23, 2026

Generalizing Numerical Reasoning in Table Data through Operation Sketches and Self-Supervised Learning

Forget memorizing table headers: TaNOS unlocks surprisingly robust numerical reasoning by pre-training on operation sketches and correctness-guaranteed programs.

H. Cho, Gahyun Yoo, H. Kim +1

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

Xiao-Song Yang +2Apr 23, 2026

Relocation of compact sets in $\mathbb{R}^n$ by diffeomorphisms and linear separability of datasets in $\mathbb{R}^n$

Compact datasets in n-dimensional space can be transformed into linearly separable sets using diffeomorphisms and shallow, wide neural networks, challenging the need for complex architectures in certain classification tasks.

Xiao-Song Yang, Xuan Zhou, Qi Zhou

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Prince Sultan UniversityApr 23, 2026

Trust-SSL: Additive-Residual Selective Invariance for Robust Aerial Self-Supervised Learning

Stop punishing your model for disagreeing with corrupted data – Trust-SSL learns better representations by treating alignment with degraded views as a residual learning problem, not a hard constraint.

Wadii Boulila, A. Ammar, Bilel Benjdira +1

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 23, 2026

Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts

LLMs struggle to answer human-generated questions about multi-chart images, highlighting a critical gap in their ability to reason about real-world data visualizations.

Azher Ahmed Efat, Seok Hwan Song, Wallapak Tavanapong

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Multimodal Models

Manuscript received April 19Apr 23, 2026

Channel-Free Human Activity Recognition via Inductive-Bias-Aware Fusion Design for Heterogeneous IoT Sensor Environments

Channel-free HAR is now possible: a single model can perform activity recognition across diverse IoT sensor setups without needing fixed channel arrangements, thanks to metadata-conditioned fusion.

Tatsuhito Hasegawa

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Robotics & Embodied AI

L. Laan +1Apr 23, 2026

Calibeating Prediction-Powered Inference

Fixing miscalibrated black-box predictions with a simple post-hoc calibration step can significantly boost the accuracy and efficiency of semisupervised mean estimation.

L. Laan, M. V. D. Laan

Data Curation & Synthetic Data Natural Language Processing

HiTZ CenterApr 23, 2026·also Ixa Group, University of the Basque Country UPV/EHU

Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

LLMs aren't just Western-centric; they have a peculiar obsession with Japan, and this bias is amplified by English-language prompting.

Joseba Fernandez de Landa, Carla Pérez-Almendros, J. Camacho-Collados

Constitutional AI & AI Ethics Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Safouane El Ghazouali +3Apr 23, 2026

SyMTRS: Benchmark Multi-Task Synthetic Dataset for Depth, Domain Adaptation and Super-Resolution in Aerial Imagery

A new synthetic aerial imagery dataset provides pixel-perfect depth, controlled illumination, and multi-scale imagery, unlocking joint research across geometric understanding, domain robustness, and resolution enhancement.

Safouane El Ghazouali, Nicola Venturi, Michael Rueegsegger +1

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

JetBrains ResearchApr 23, 2026·also TU Delft

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

LLMs' apparent success at program repair crumbles when faced with slightly altered versions of known bugs, revealing a reliance on memorization rather than true understanding.

Milan De Koning, Milan de Koning, Ali Asgari +5

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Apr 23, 2026

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

LLMs' factual knowledge is surprisingly brittle: simply changing an entity's surface form in a question (e.g., using an abbreviation instead of the full name) can drastically alter the answer.

Yuto Nishida, Naoki Shikoda, Yosuke Kishinami +4

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Yuanjie Lyu +6Apr 23, 2026

AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use

Forget scaling laws – AgenticQwen proves that clever training with dual data flywheels can enable small language models to rival giants in real-world agentic tasks.

Yuanjie Lyu, Chengyu Wang, Haonan Zheng +4

Data Curation & Synthetic Data Tool Use & Agents Training Efficiency & Optimization

Myeong Seok Oh +8Apr 23, 2026

Subject-level Inference for Realistic Text Anonymization Evaluation

Even when you think you've scrubbed 90% of the PII, your anonymized text might still leak two-thirds of a person's identity.

Myeong Seok Oh, Dong-Yun Kim, Hanseok Oh +6

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Independent ResearcherApr 23, 2026

CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis

Static analysis tools miss a staggering 87% of real-world Python vulnerabilities when they're introduced across multiple commits, even when the full codebase is available.

Arun Majumdar

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Apr 23, 2026

Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting

Training a video reshooting model on internet-scale monocular videos is now possible, thanks to a clever self-supervision trick that generates multi-view training data from a single video.

Avinash Paliwal, Adithya Iyer, Shivin Yadav +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Guangkai Xu +6Apr 23, 2026

Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation

Seemingly innocuous choices in loss functions and training regimes can significantly hinder visual geometry estimation, even for state-of-the-art methods.

Guangkai Xu, Huakang Geng, Huan Zheng +4

Computer Vision Data Curation & Synthetic Data

Yupeng Zhang +5Apr 23, 2026

VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection

Frozen vision foundation models can be surprisingly effective at improving out-of-domain object detection by stabilizing relational modeling and semantic-spatial alignment in the detector.

Yupeng Zhang, Ruize Han, Ning Guo +3

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Nannan Qin +6Apr 23, 2026

SparseGF: A Height-Aware Sparse Segmentation Framework with Context Compression for Robust Ground Filtering Across Urban to Natural Scenes

Compressing expansive contexts like a convex mirror allows deep learning models to achieve robust ground filtering across diverse landscapes, even in complex urban scenes.

Nannan Qin, Pengjie Tao, H. Guan +4

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Eleanor P. Wiesler +1Apr 23, 2026

A Probabilistic Framework for Improving Dense Object Detection in Underwater Image Data via Annealing-Based Data Augmentation

Annealing-based data augmentation lets you train a YOLOv10 detector to spot more fish in murky underwater images.

Eleanor P. Wiesler, Trace Baxley

Computer Vision Data Curation & Synthetic Data

Kashish Mittal +5Apr 23, 2026

Optimizing High-Throughput Distributed Data Pipelines for Reproducible Deep Learning at Scale

Data loading bottlenecks can strangle your GPU utilization down to 10%, but a few smart optimizations can unlock a 6x speedup.

Kashish Mittal, Di Yu, Roozbeh Ketabi +3

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Apr 23, 2026·also Cluster of Excellence PhoenixD, RWTH

Data-Driven Thermal and Mechanical Modeling of Defective Covalent Organic Frameworks

COFs can withstand defects surprisingly well: mechanical properties remain stable even with defects, but thermal conductivity plummets, revealing design trade-offs.

A. Szewczyk, L. M. Sandonas, David Bodesheim +2

Data Curation & Synthetic Data Scientific Discovery & Drug Design

Qiang Gao +5Apr 23, 2026

SemanticAgent: A Semantics-Aware Framework for Text-to-SQL Data Synthesis

Stop generating text-to-SQL training data that *runs* but is semantically wrong: this new framework finally aligns synthesis with database semantics.

Qiang Gao, Zhenping Li, Anqi Zhuo +3

Code Generation & Program Synthesis Data Curation & Synthetic Data Natural Language Processing

Minping Chen +6Apr 23, 2026

Enhancing Online Recruitment with Category-Aware MoE and LLM-based Data Augmentation

LLMs can rewrite bad job descriptions and category-aware MoEs can better match candidates, leading to a 19.4% boost in recruitment click-through rates and millions saved.

Minping Chen, Bingquan Xu, Zulong Chen +4

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Recommendation & Information Retrieval

College of Information ScienceApr 23, 2026·also University of Nebraska Omaha, University of Nebraska–Lincoln

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

Training on EVENT5Ws allows event extraction models to generalize across geographical contexts, suggesting a path towards truly universal event understanding.

Praval Sharma, Ashok Samal, Leen-Kiat Soh +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Yuanchen Fei +5Apr 23, 2026

Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation

Synthetic data can significantly boost controllable human video generation, but only if you carefully select which synthetic samples to use.

Yuanchen Fei, Yude Zou, Zejian Kang +3

Computer Vision Data Curation & Synthetic Data Multimodal Models

Yucheng Shi +5Apr 23, 2026

CSC: Turning the Adversary's Poison against Itself

Poisoning attacks got you down? This defense flips the script by using the attacker's own clustering behavior against them, achieving near-perfect attack mitigation with minimal accuracy loss.

Yucheng Shi, Xin Guo, Huajie Chen +3

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Tsinghua AIApr 23, 2026

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

By unifying generative and discriminative approaches, UniGenDet achieves superior image generation and detection, suggesting that these tasks benefit from a symbiotic relationship previously hindered by architectural divergence.

Yanran Zhang, Wenzhao Zheng, Yifei Li +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Apr 23, 2026

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Identity encoders can now achieve human-level performance in recognizing stylized faces, bridging the gap between artistic expression and identity consistency.

Kwan Yun, Changmin Lee, Ayeong Jeong +4

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Apr 22, 2026

A. Koursaris +5Apr 22, 2026

CHORUS: An Agentic Framework for Generating Realistic Deliberation Data

LLMs can now generate realistic online discussions, opening the door to studying deliberation dynamics at scale without real-world ethical and data access hurdles.

A. Koursaris, G. Domalis, A. Apostolopoulou +3

Data Curation & Synthetic Data Natural Language Processing Tool Use & Agents

Stanford HAIApr 22, 2026

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Turns out, coding agents in the wild are only writing useful code 44% of the time, and are introducing more security vulnerabilities than human developers.

Joachim Baumann, Vishakh Padmakumar, John Yang +2

Code Generation & Program Synthesis Data Curation & Synthetic Data Tool Use & Agents

Ana Sanchez-Fernandez +3Apr 22, 2026

Closing the Domain Gap in Biomedical Imaging by In-Context Control Samples

Finally, a meta-learning approach that uses readily available negative control samples can close the persistent domain gap in biomedical imaging, making deep learning models practically usable across different experimental batches.

Ana Sanchez-Fernandez, Thomas Pinetz, Werner Zellinger +1

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Sina Gholami +4Apr 22, 2026

FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

Spectral analysis of client feature representations can identify and relabel noisy data in federated learning, outperforming existing noise-tolerant loss and loss-dynamic approaches.

Sina Gholami, Abdulmoneam Ali, Tania Haghighi +2

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Andrew Klearman +5Apr 22, 2026

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation

Systematic coverage gaps in retrieval evaluations can lead to misleading assessments, but semantic stratification offers a clearer, more trustworthy framework for understanding retrieval performance.

Andrew Klearman, Radu Revutchi, Rohin Garg +3

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Recommendation & Information Retrieval

Samsung R&D Institute UK (SRUK)Apr 22, 2026·also Samsung

Differentially Private Clustered Federated Learning with Privacy-Preserving Initialization and Normality-Driven Aggregation

Differentially private federated learning gets a boost: PINA achieves 2.9% higher accuracy than state-of-the-art methods by using a novel two-stage approach with privacy-preserving initialization and normality-driven aggregation.

Jie Xu, Haaris Mehmood, Rogier Van Dalen +2

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Karim Aly +2Apr 22, 2026

Generative Augmentation of Imbalanced Flight Records for Flight Diversion Prediction: A Multi-objective Optimisation Framework

Overcome the scarcity of rare flight diversion events by using optimized generative models to create synthetic data that substantially improves prediction accuracy.

Karim Aly, Alexei Sharpanskykh, Jacco M. Hoekstra

Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 22, 2026·also NTU, NYU, PKU

Unlocking the Forecasting Economy: A Suite of Datasets for the Full Lifecycle of Prediction Market: [Experiments \&Analysis]

A groundbreaking dataset suite reveals the intricate dynamics of decentralized prediction markets, offering unparalleled insights into collective forecasting behavior.

Huaiyu Jia, Luofeng Zhou, Wentao Zhang +3

Data Curation & Synthetic Data

Apr 22, 2026·also Adelaide University

uLEAD-TabPFN: Uncertainty-aware Dependency-based Anomaly Detection with TabPFN

Tabular anomaly detection gets a serious upgrade: uLEAD-TabPFN leverages frozen PFNs to model complex feature dependencies, outperforming existing methods by a significant margin, especially in high-dimensional spaces.

Sha Lu, Jixue Liu, Stefan Peters +4

Data Curation & Synthetic Data

Wei Han +4Apr 22, 2026

RADS: Reinforcement Learning-Based Sample Selection Improves Transfer Learning in Low-resource and Imbalanced Clinical Settings

RL-based sample selection beats traditional active learning for transfer learning when data is scarce and imbalanced, especially in clinical settings.

Wei Han, David Martinez, A. Khanina +2

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Machine Learning Optimization Lab EcoleApr 22, 2026·also EPFL, Machine Learning Optimization Lab, Polytechnique Fédérale de Lausanne

Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection

Multilingual data quality classifiers can outperform monolingual ones, but only with careful tuning of the decision boundary, challenging the assumption that scale alone guarantees improved filtering.

Yassine Turki, Vinko Sabolčec, Bettina Messmer +1

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Apr 22, 2026·also ByteDance

Evian: Towards Explainable Visual Instruction-tuning Data Auditing

Forget scaling laws: a model trained on a carefully curated subset of visual instruction data can beat models trained on datasets orders of magnitude larger.

Zimu Jia, Mingjie Xu, Andrew Estornell +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Multimodal Models

Texas Wesleyan UniversityApr 22, 2026·also Birmingham City University, National University of Sciences and Technology

Finding Duplicates in 1.1M BDD Steps: cukereuse, a Paraphrase-Robust Static Detector for Cucumber and Gherkin

BDD suites are drowning in duplicated steps—cukereuse finds that 80% are exact duplicates—and this tool offers a way to automatically clean them up.

Ali Hassaan Mughal, Noor Fatima, Muhammad Bilal

Code Generation & Program Synthesis Data Curation & Synthetic Data Natural Language Processing

Apr 22, 2026·also NYU

RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

LLMs still struggle with basic skills in low-resource languages, even when they excel at reasoning.

Marisa Hudspeth, Patrick J. Burns, Brendan O'Connor

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Luca Foppiano +5Apr 22, 2026

Construction of a Battery Research Knowledge Graph using a Global Open Catalog

Discover expertise and collaborators in battery research at a global scale, grounded in semantic understanding rather than just citations.

Luca Foppiano, Sae Dieb, Malik Zain +3

Data Curation & Synthetic Data Recommendation & Information Retrieval Scientific Discovery & Drug Design

Apr 22, 2026·also KITECH School, Manufacturing AI Research Center

Weighted Knowledge Distillation for Semi-Supervised Segmentation of Maxillary Sinus in Panoramic X-ray Images

Achieve near-perfect (96.35% Dice) maxillary sinus segmentation from X-rays with limited labeled data by distilling knowledge from GAN-refined pseudo-labels.

Juha Park, Jiho Choi, J. Yun +4

Computer Vision Data Curation & Synthetic Data Inference & Quantization

Zongyao Lyu +1Apr 22, 2026

Energy-Based Open-Set Active Learning for Object Classification

Querying strategically with energy-based models lets you actively learn in the wild, even when you don't know what you don't know.

Zongyao Lyu, William J. Beksi

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Tianle Zhang +58Apr 22, 2026·also HKUST, JDT AI Infra, Robotics, XJTU +1

JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy

Bridging the gap between human manipulation and robotic control, JoyAI-RA unlocks enhanced cross-embodiment behavior learning through multi-source pretraining.

Tianle Zhang, Zhihao Yuan, Dafeng Chi +56

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Apr 22, 2026·also SYSU, The Key Laboratory of Road and Traffic Engineering, Tongji

OVPD: A Virtual-Physical Fusion Testing Dataset of OnSite Auton-omous Driving Challenge

Autonomous driving validation gets a shot in the arm: OVPD offers a proving ground dataset that fuses real vehicle dynamics with controllable virtual environments, enabling more realistic and diagnosable testing.

Yuhang Zhang, Jiarui Zhang, Bowen Jian +5

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Robotics & Embodied AI

Shujauddin Syed +1Apr 22, 2026

Duluth at SemEval-2026 Task 6: DeBERTa with LLM-Augmented Data for Unmasking Political Question Evasions

Key contribution not extracted.

Shujauddin Syed, Ted Pedersen

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Kuanwei Chen +1Apr 22, 2026

SignDATA: Data Pipeline for Sign Language Translation

Standardizing sign language data preprocessing with SignDATA enables reproducible research and explicit control over extractor choice, normalization, and privacy.

Kuanwei Chen, Tingyi Lin

Computer Vision Data Curation & Synthetic Data Natural Language Processing

Apr 22, 2026·also Counsel code and data, IIT Delhi, Max Planck, National Research Center for Applied +2

Graph2Counsel: Clinically Grounded Synthetic Counseling Dialogue Generation from Client Psychological Graphs

Synthetic counseling dialogues can be made significantly more realistic and useful for fine-tuning by grounding them in structured Client Psychological Graphs that capture the interplay of a client's thoughts, emotions, and behaviors.

Aishik Mandal, Hiba Arnaout, Clarissa W. Ong +5

Data Curation & Synthetic Data Natural Language Processing Tool Use & Agents

BAIRApr 22, 2026

COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

COMPASS outperforms traditional multilingual fine-tuning by effectively leveraging semantic gaps to enhance cross-lingual transfer and model adaptability.

Noah Flynn, Noah R. Flynn

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Apr 22, 2026·also V Contributors [2025] LightX

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Synthetic video can now drive dexterous robotic manipulation without the need for high-quality 3D demonstrations, enabling zero-shot generalization across diverse tasks.

Hyeonwoo Kim, Jeonghwan Kim, Kyung-Hwan Cho +2

Computer Vision Data Curation & Synthetic Data Multimodal Models+1

Apr 21, 2026

Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?

Domain-specific continual pre-training lets a 7B model punch *way* above its weight, beating a 24B generalist on medical tasks by 3.5x.

Niclas Doll, Jasper Schulze Buschhoff, Shalaka Satheesh +3

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Xiangyang Luo +5Apr 21, 2026

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

HOI video synthesis gets a major realism boost: CoInteract's dual-stream training and region-specialized experts produce interactions that are both structurally stable and physically plausible.

Xiangyang Luo, Xiaozhe Xin, Tao Feng +3

Computer Vision Data Curation & Synthetic Data Multimodal Models

Abdulmoneam Ali +1Apr 21, 2026

FB-NLL: A Feature-Based Approach to Tackle Noisy Labels in Personalized Federated Learning

By clustering users based on the geometry of their feature spaces *before* training, FB-NLL sidesteps the vulnerability of existing federated learning methods to noisy labels and corrupted updates.

Abdulmoneam Ali, Ahmed Arafa

Data Curation & Synthetic Data Recommendation & Information Retrieval Training Efficiency & Optimization

-Guericke University MagdeburgApr 21, 2026

When Active Learning Falls Short: An Empirical Study on Chemical Reaction Extraction

Active learning's promise of efficient annotation falls flat in chemical reaction extraction, with strong pretraining and structured decoding creating instability.

Simin Yu, Sufia Fathima

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Apr 21, 2026·also Manchester, Sofia University "St. Kliment Ohridski"

SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning

Arabic LLMs can speak the language of finance, but they often fail to reason about it, especially when it comes to causality and generation.

Rania Elbadry, Sarfraz Ahmad, Ahmed Heakl +12

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Jeongwhan Choi +3Apr 21, 2026

Learning Posterior Predictive Distributions for Node Classification from Synthetic Graph Priors

Forget training a GNN for every new graph: NodePFN learns universal node classification from synthetic graph priors, generalizing across diverse datasets without graph-specific training.

Jeongwhan Choi, Jongwoo Kim, Woo-Chang Kang +1

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data

Hong Chen +3Apr 21, 2026

S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection

Escaping the curse of noisy data in semi-supervised learning: S$^2$MAM adaptively selects features and tunes similarity metrics, leading to more robust and interpretable models.

Hong Chen, Yingjie Wang, Tieliang Gong +1

Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 21, 2026

Self-Improving Tabular Language Models via Iterative Group Alignment

TabGRAA flips the script on tabular data synthesis, turning static statistical replication into a dynamic, self-improving generation process.

Yunbo Long, Tejumade Afonja, A. Brintrup +1

Data Curation & Synthetic Data Natural Language Processing

Nathaniel Woodward +5Apr 21, 2026

Fine-Tuning Small Reasoning Models for Quantum Field Theory

Small language models can achieve strong performance in specialized scientific domains like quantum field theory with targeted fine-tuning and synthetic data generation.

Nathaniel Woodward, Zhiqi Gao, Y. Kvasiuk +3

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Scientific Discovery & Drug Design

Orange ResearchApr 21, 2026·also CNRS

A Dual Perspective on Synthetic Trajectory Generators: Utility Framework and Privacy Vulnerabilities

Generative models for mobility data, previously thought to be private, are vulnerable to membership inference attacks, highlighting the need for more robust privacy evaluations.

Aya Cherigui, Florent Guépin, Arnaud Legendre +1

Constitutional AI & AI Ethics Data Curation & Synthetic Data

Apr 21, 2026·also Elsevier

Detecting Data Contamination in Large Language Models

Despite growing concerns about data contamination, current black-box methods are essentially useless for detecting if an LLM has been trained on specific copyrighted material.

Juliusz Janicki, Savvas Chamezopoulos, Evangelos Kanoulas +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Apr 21, 2026·also Manuscript received April 21

DT2IT-MRM: Debiased Preference Construction and Iterative Training for Multimodal Reward Modeling

Noisy multimodal preference datasets are holding back reward model performance, but DT2IT-MRM offers a scalable curation strategy that achieves state-of-the-art results.

Zhihong Zhang, Jie Zhao, Xiaojian Huang +3

Data Curation & Synthetic Data Multimodal Models RLHF & Preference Learning

Jianzhi Yan +4Apr 21, 2026

CoDA: Towards Effective Cross-domain Knowledge Transfer via CoT-guided Domain Adaptation

LLMs can now reason far better in low-resource domains, thanks to a new method that aligns their thinking with high-resource domains using "reasoning representation alignment."

Jianzhi Yan, Le Liu, Buzhou Tang +2

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

Shuo Feng +2Apr 21, 2026

Industrial Surface Defect Detection via Diffusion Generation and Asymmetric Student-Teacher Network

Synthesizing realistic defect data with diffusion models and Perlin noise can dramatically improve unsupervised anomaly detection, achieving near-perfect AUROC scores on industrial surfaces.

Shuo Feng, Runlin Zhou, Guangcan Liu

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Apr 21, 2026·also Digital Research Center of Sfax

GOLD-BEV: GrOund and aeriaL Data for Dense Semantic BEV Mapping of Dynamic Scenes

Synchronized aerial imagery unlocks dense, geometrically consistent BEV semantic mapping of dynamic road scenes, even from ego-centric sensors alone.

Joshua Niemeijer, Alaa Eddine Ben Zekri, Reza Bahmanyar +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tommi Kerola +7Apr 21, 2026

PLaMo 2.1-VL Technical Report

Edge-deployable VLMs can now achieve surprisingly strong performance in Japanese language and real-world vision tasks, rivaling larger models.

Tommi Kerola, Yuya Masuda, Takashi Masuko +5

Computer Vision Data Curation & Synthetic Data Multimodal Models

Zhao Wang +3Apr 21, 2026

Reasoning-Aware AIGC Detection via Alignment and Reinforcement

Reasoning, not just text, is the key to detecting AI-generated content: REVEAL leverages interpretable reasoning chains to significantly outperform existing AIGC detectors.

Zhao Wang, Max Xiong, Jianxun Lian +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Reasoning & Chain-of-Thought

Silvio Calderaro +1Apr 21, 2026

A Bolu: A Structured Dataset for the Computational Analysis of Sardinian Improvisational Poetry

A Bolu unveils the hidden structure within Sardinian improvisational poetry, revealing recurring patterns that challenge our understanding of oral creativity and offer a new dataset for NLP research on minority languages.

Silvio Calderaro, Johanna Monti

Data Curation & Synthetic Data Natural Language Processing

Qiubai Zhu +4Apr 21, 2026

Construction of Knowledge Graph based on Language Model

Lightweight LLMs can achieve Knowledge Graph construction performance rivaling GPT-3.5, suggesting a path to more efficient and accessible KG creation.

Qiubai Zhu, Qingwang Wang, Haibin Yuan +2

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Natural Language Processing

Aby Mammen Mathew +1Apr 21, 2026

Product-of-Experts Training Reduces Dataset Artifacts in Natural Language Inference

NLI models can be significantly debiased with minimal accuracy loss by simply downweighting examples where biased models exhibit high confidence.

Aby Mammen Mathew, A. M. Mathew

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

State Key Laboratory of AI SafetyApr 21, 2026·also DeepMind, CAS

Detoxification for LLM: From Dataset Itself

Training LLMs on data detoxified with HSPD slashes toxicity by more than half, outperforming existing methods that only address toxicity during or after training.

Wei Shao, Yihang Wang, Gaoyu Zhu +4

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

Xiaobo Jiang +4Apr 21, 2026

A Mechanism and Optimization Study on the Impact of Information Density on User-Generated Content Named Entity Recognition

NER performance on user-generated content isn't just about noise – it's fundamentally limited by information density, and targeted augmentation can unlock significant gains.

Xiaobo Jiang, Dinghong Lai, Song Qiu +2

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Digital ScienceApr 21, 2026

Market Dynamics, Governance and Open Research Metadata in the AI Era

Open vs. closed debates miss the point: AI is fundamentally reshaping the economics of research metadata, creating new risks and opportunities that require careful governance of the space between free data and commercial products.

Daniel W. Hook, D. W. Hook

Constitutional AI & AI Ethics Data Curation & Synthetic Data Open-Source Models & Weights

Zirong Li +5Apr 21, 2026·also Friedrich-Alexander-Universität, Suzhou University of Technology, UM, Universidad de Antioquia UdeA

Generative Drifting for Conditional Medical Image Generation

Achieve state-of-the-art 3D medical image generation by reformulating deterministic prediction as a multi-objective drifting problem, outperforming GANs, flow-matching, and SDEs in fidelity, realism, and efficiency.

Zirong Li, Siyuan Mei, Weiwen Wu +3

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Tsinghua AIApr 21, 2026·also Sheffield

HarmoniDiff-RS: Training-Free Diffusion Harmonization for Satellite Image Composition

Training-free diffusion models can now harmonize satellite imagery across diverse domains, enabling scalable remote-sensing synthesis without retraining.

Xiaoqi Zhuang, Jefersson A. Dos Santos

Computer Vision Data Curation & Synthetic Data

Ruben Pascual +6Apr 21, 2026

Evaluating Histogram Matching for Robust Deep learning-Based Grapevine Disease Detection

Simple histogram adjustments can dramatically improve the real-world robustness of plant disease classifiers, especially in uncontrolled lighting conditions.

Ruben Pascual, Inés Hernández, Salvador Gutiérrez +4

Computer Vision Data Curation & Synthetic Data

Mannheim University of Applied SciencesApr 21, 2026·also Heidelberg

IonMorphNet: Generalizable Learning of Ion Image Morphologies for Peak Picking in Mass Spectrometry Imaging

Forget dataset-specific tuning: IonMorphNet learns generalizable ion image morphologies, boosting peak picking accuracy by 7% across diverse mass spectrometry imaging datasets.

Philipp Weigand, Niels Nawrot, Nikolas Ebert +2

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Apr 21, 2026·also Waymo

Unposed-to-3D: Learning Simulation-Ready Vehicles from Real-World Images

Forget synthetic data – Unposed-to-3D learns to reconstruct realistic, simulation-ready 3D vehicles directly from real-world driving images.

Hongyuan Liu, Bochao Zou, Qiankun Liu +10

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Yuezhe Zhang +5Apr 21, 2026

An Object-Centered Data Acquisition Method for 3D Gaussian Splatting using Mobile Phones

Achieve higher quality 3D Gaussian Splatting reconstructions of objects from mobile phone captures using fewer images, thanks to a novel object-centered capture guidance system.

Yuezhe Zhang, Luqian Bai, Mengting Yu +3

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Apr 21, 2026·also HKUST, Shenzhen Loop Area Institute

Generative Texture Filtering

Generative models can be surprisingly effective for texture filtering when fine-tuned with a two-stage supervised and reinforcement learning approach.

Rongjia Zheng, Shangwei Huang, Lei Zhu +2

Computer Vision Data Curation & Synthetic Data

Jiawei Yong +9Apr 21, 2026·also SJTU

Localization-Guided Foreground Augmentation in Autonomous Driving

Autonomous vehicles can now see better in the dark and rain thanks to a lightweight module that fuses per-frame perception with a learned global map, boosting geometric understanding and localization.

Jiawei Yong, Jiawei Yong, Deyuan Qu +7

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Apr 21, 2026·also SDU

Divide-and-Conquer Approach to Holistic Cognition in High-Similarity Contexts with Limited Data

Decomposing holistic visual cues into subtle, spatially-associated discrepancies allows for state-of-the-art ultra-fine-grained classification even with limited training data.

Shijie Wang, Zijian Wang, Yadan Luo +3

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 21, 2026·also SDU

Geometry-Guided Self-Supervision for Ultra-Fine-Grained Recognition with Limited Data

Soybean leaves have intricate vein structures that unlock state-of-the-art ultra-fine-grained visual categorization, even with limited data.

Shijie Wang, Yadan Luo, Zijian Wang +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Olga Kellert +4Apr 21, 2026

Structured Disagreement in Health-Literacy Annotation: Epistemic Stability, Conceptual Difficulty, and Agreement-Stratified Inference

Discarding disagreement as noise in health-literacy annotation can mask critical social-scientific effects, which only surface when analyzing data stratified by inter-annotator agreement.

Olga Kellert, Sriya Kondury, Candice Koo +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Search

Data Curation & Synthetic Data - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)