March 25 – April 1, 2026

Data Curation & Synthetic Data - Weekly Roundup

86 papers published across 4 labs.

72% acceleration

Selected Labs publishing this week

CMU ML3 Tsinghua AI2 MIT CSAIL1 DAMO1

Top Papers

Mar 30, 2026

CMU ML2d ago

VAANI: Capturing the language landscape for an inclusive digital India

VAANI's open-sourced dataset offers unprecedented coverage of India's linguistic landscape, finally giving researchers the data needed to build truly inclusive speech models.

Sujith Pulikodan, Abhayjeet Singh, Agneedh Basu +275

Data Curation & Synthetic Data Multimodal Models Speech & Audio

Mar 31, 2026

Anirudh Raman +101d ago

Training deep learning based dynamic MR image reconstruction using synthetic fractals

Forget privacy concerns: you can train high-performing deep learning models for dynamic MRI reconstruction using *synthetic* fractal data.

Anirudh Raman, Olivier Jaubert, Mark Wrobel +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Tim R. Davidson +41d ago

Reasoning-Driven Synthetic Data Generation and Evaluation

Forget hand-crafted prompts and seed data: Simula lets you generate high-quality synthetic datasets at scale by simply defining the reasoning characteristics you want.

Tim R. Davidson, Benoit Seguin, Enrico Bacis +2

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Chess transformers trained solely on move sequences face a "dual-capability bottleneck" where excelling at both state tracking and decision-making requires carefully balancing data diversity and quality, a tension that simple scaling cannot resolve.

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

Jiao Chen +31d ago

6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management

An 8B open-source model, trained with a new closed-loop environment for 6G network management, achieves performance comparable to GPT-4, suggesting a viable path to autonomous network control.

Jiao Chen, Jianhua Tang, Xiaotong Yang +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Tool Use & Agents

All Papers (86)

Mar 31, 2026

Anirudh Raman +101d ago

Training deep learning based dynamic MR image reconstruction using synthetic fractals

Forget privacy concerns: you can train high-performing deep learning models for dynamic MRI reconstruction using *synthetic* fractal data.

Anirudh Raman, Olivier Jaubert, Mark Wrobel +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Tim R. Davidson +41d ago

Reasoning-Driven Synthetic Data Generation and Evaluation

Forget hand-crafted prompts and seed data: Simula lets you generate high-quality synthetic datasets at scale by simply defining the reasoning characteristics you want.

Tim R. Davidson, Benoit Seguin, Enrico Bacis +2

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

Jiao Chen +31d ago

6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management

An 8B open-source model, trained with a new closed-loop environment for 6G network management, achieves performance comparable to GPT-4, suggesting a viable path to autonomous network control.

Jiao Chen, Jianhua Tang, Xiaotong Yang +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Tool Use & Agents

The Harker School1d ago

Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models

Bilingual language models can achieve performance comparable to monolingual models in both languages, challenging the assumption that bilingual input poses significant learning obstacles.

Linda Zeng, Steven Y. Feng, Michael C. Frank

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Jianpeng Wang +61d ago·also Tsinghua AI

PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization

AI-generated image forgery detection gets a major boost with PromptForge-350k, a dataset so large and well-annotated it pushes IoU scores 5% higher and generalizes to unseen models.

Jianpeng Wang, Haoyu Wang, Baoying Chen +4

Computer Vision Data Curation & Synthetic Data Multimodal Models

Soveatin Kuntur +41d ago

Rewrite the News: Tracing Editorial Reuse Across News Agencies

News agencies reuse content across languages far more than simple lexical overlap reveals, with over half of articles drawing on foreign sources through paraphrase and compositional techniques.

Soveatin Kuntur, Nina Smirnova, Anna Wroblewska +2

Data Curation & Synthetic Data Natural Language Processing Recommendation & Information Retrieval

Amirreza Rouhi +81d ago

PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models

Physical AI systems struggle not with visual recognition, but with understanding space, physics, and action – and PRISM, a new retail video dataset, dramatically closes this gap.

Amirreza Rouhi, P. Sakurikar, Satya Sai Reddy +6

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Cristian Santini +51d ago

ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian

Training NERL models on modern Italian won't cut it for historical texts: ENEIDE exposes the performance gap with a new multi-domain dataset spanning two centuries.

Cristian Santini, Sebastian Barzaghi, Paolo Sernani +3

Data Curation & Synthetic Data Natural Language Processing

Anass Sedrati +21d ago

L-ReLF: A Framework for Lexical Dataset Creation

Unlock knowledge equity for underserved languages: L-ReLF offers a reproducible recipe for creating high-quality lexical datasets where they're needed most.

Anass Sedrati, M. Afifi, Reda Benkhadra

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Hillary Mutisya +41d ago

The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

Thiomi slashes Swahili ASR error rates by 61% and unlocks nine more African languages for multimodal AI, proving community-driven data collection can leapfrog existing benchmarks.

Hillary Mutisya, J. Mugane, Gavin Nyamboga +2

Data Curation & Synthetic Data Multimodal Models Speech & Audio

S. Higashiyama +21d ago

CADEL: A Corpus of Administrative Web Documents for Japanese Entity Linking

Japanese entity linking gets a boost: CADEL offers a high-quality, Japan-specific corpus to tackle the unique challenges of linking entities in administrative web documents.

S. Higashiyama, Masao Ideuchi, Masao Utiyama

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Ranidu Gurusinghe +11d ago

SiPaKosa: A Comprehensive Corpus of Canonical and Classical Buddhist Texts in Sinhala and Pali

Proprietary language models trounce open-source alternatives by 3-6x on a new, large-scale corpus of Sinhala and Pali Buddhist texts.

Ranidu Gurusinghe, Nevidu Jayatilleke

Data Curation & Synthetic Data Natural Language Processing Open-Source Models & Weights

Mohammad Khalil +31d ago

SyriSign: A Parallel Corpus for Arabic Text to Syrian Arabic Sign Language Translation

The first publicly available dataset for Syrian Arabic Sign Language (SyArSL) opens the door for machine translation research to improve accessibility for a historically underserved community.

Mohammad Khalil, R. Nahas, A. Nassar +1

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Christine Zhang +21d ago

Concept Training for Human-Aligned Language Models

LLMs can better capture human semantic similarity by predicting sets of related concepts instead of single next tokens.

Christine Zhang, Daniel Jurafsky, C. Shani

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Danielle R. Thomas +41d ago

Modernizing Ground Truth: Four Shifts Toward Improving Reliability and Validity in AI in Education

Stop treating inter-rater reliability as a simple green light for "ground truth" in AIED – your data's probably messier than you think, especially with LLMs in the mix.

Danielle R. Thomas, Conrad Borchers, Kirk Vanacore +2

Constitutional AI & AI Ethics Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Rosario Leonardi +31d ago

Leveraging Synthetic Data for Enhancing Egocentric Hand-Object Interaction Detection

Synthetic data, when carefully aligned with real-world characteristics, can boost hand-object interaction detection by over 11% even when real labeled data is scarce.

Rosario Leonardi, Antonino Furnari, Francesco Ragusa +1

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Sicheng Lu +91d ago·also NJU

Scaling Video Pretraining for Surgical Foundation Models

Vision-language models falter at the fine-grained temporal recognition crucial for surgical video understanding, while SurgRec excels.

Sicheng Lu, Zikai Xiao, Jianhui Wei +7

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Gaurab Baral +11d ago

AutoFormBench: Benchmark Dataset for Automating Form Understanding

YOLOv11 crushes the competition in form element detection, showcasing its potential for automating document processing across diverse real-world forms.

Gaurab Baral, Junxiu Zhou

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Tsinghua AI1d ago·also Duke, EPFL

Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration

Stop training your image restoration models to mimic flawed ground truth; instead, explicitly optimize for perceptual quality using a plug-and-play module guided by No-Reference Image Quality Assessment.

Fengyang Xiao, Peng Hu, Lei Xu +7

Computer Vision Data Curation & Synthetic Data

Johann-Ludwig Herzog +71d ago

BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation

VLMs struggle with Earth observation tasks involving complex land use, but a new dataset with nearly 10 million text annotations could change that.

Johann-Ludwig Herzog, Mathis Jürgen Adler, Leonard Hackel +5

Computer Vision Data Curation & Synthetic Data Multimodal Models

Jules Ripoll +41d ago

FlowID : Enhancing Forensic Identification with Latent Flow-Matching Models

FlowID enables forensic facial reconstruction on damaged faces with better identity preservation and lower computational cost than existing methods, potentially accelerating victim identification in violent deaths.

Jules Ripoll, David Bertoin, Alasdair Newson +2

Computer Vision Data Curation & Synthetic Data

Ni Gao +31d ago

FedDBP: Enhancing Federated Prototype Learning with Dual-Branch Features and Personalized Global Fusion

Stop averaging prototypes blindly: FedDBP uses Fisher information to intelligently fuse local prototypes, significantly boosting performance in heterogeneous federated learning.

Ni Gao, Siquan Huang, Leyu Shi +1

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Yanjiao Song +61d ago

Monocular Building Height Estimation from PhiSat-2 Imagery: Dataset and Method

Publicly available satellite imagery can now estimate building heights with state-of-the-art accuracy thanks to a new dataset and network architecture designed for the task.

Yanjiao Song, Bowen Cai, T. Balz +4

Computer Vision Data Curation & Synthetic Data

Sen Wang +91d ago

Efficient Camera Pose Augmentation for View Generalization in Robotic Policy Learning

Policies trained with GenSplat maintain robust performance under severe spatial perturbations where baseline methods completely fail, thanks to its novel 3D Gaussian Splatting-based augmentation.

Sen Wang, Huaiyi Dong, Jingyi Tian +7

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Mahesh Ramani1d ago

A Comprehensive Corpus of Biomechanically Constrained Piano Chords: Generation, Analysis, and Implications for Voicing and Psychoacoustics

Forget "spread" voicings: skewness is the key to clarity in piano chords, offering a fresh perspective on psychoacoustic principles.

Mahesh Ramani

Data Curation & Synthetic Data Scientific Discovery & Drug Design Speech & Audio

Mingkun Tan +31d ago

Self-Supervised Federated Learning under Data Heterogeneity for Label-Scarce Diatom Classification

Unbalanced class prevalence, not just disjoint label sets, is the dominant factor hindering federated learning performance under label-space heterogeneity.

Mingkun Tan, Xilu Wang, Michael Kloster +1

Computer Vision Data Curation & Synthetic Data Distributed Systems & Hardware

Sjoerd Halmans +31d ago

HackRep: A Large-Scale Dataset of GitHub Hackathon Projects

Unlock new insights into rapid software development and collaboration with a massive dataset of over 100,000 hackathon projects.

Sjoerd Halmans, Lavinia Paganini, Alexander Serebrenik +1

Code Generation & Program Synthesis Data Curation & Synthetic Data Open-Source Models & Weights

Mar 30, 2026

Mohamad Koohi-Moghadam +32d ago

ChemCLIP: Bridging Organic and Inorganic Anticancer Compounds Through Contrastive Learning

Anticancer drugs, whether organic or inorganic, can now be understood through a single unified representation, unlocking knowledge transfer between previously siloed chemical domains.

Mohamad Koohi-Moghadam, Hongzhe Sun, Hongyan Li +1

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Yihan Gao +72d ago

FairGC: Fairness-aware Graph Condensation

Graph condensation, while shrinking massive datasets for GNN training, can inadvertently amplify biases – until now.

Yihan Gao, Chenxi Huang, Wen Shi +5

Constitutional AI & AI Ethics Data Curation & Synthetic Data

Yangmei Chen +62d ago

Prototype-Enhanced Multi-View Learning for Thyroid Nodule Ultrasound Classification

Multi-view learning with prototype-based correction significantly boosts the robustness of thyroid nodule ultrasound classification across different ultrasound devices and clinical environments.

Yangmei Chen, Zhongyuan Zhang, Xikun Zhang +4

Computer Vision Data Curation & Synthetic Data Multimodal Models

Kosuke Ito +42d ago

Learning from imperfect quantum data via unsupervised domain adaptation with classical shadows

Imperfect quantum data won't stop machine learning models: this work shows how unsupervised domain adaptation on classical shadows can bridge the gap.

Kosuke Ito, Akira Tanji, Hiroshi Yano +2

Data Curation & Synthetic Data Scientific Discovery & Drug Design

University of the Basque Country (EHU)2d ago

Automating Early Disease Prediction Via Structured and Unstructured Clinical Data

Unlock hidden predictive power: NLP on unstructured clinical notes beats traditional EHR data for early disease prediction.

Ane G Domingo-Aldama, Marcos Merino Prado, Alain García Olea +3

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Shoujin Wang +82d ago

Neural Federated Learning for Livestock Growth Prediction

Federated learning can overcome data sparsity and privacy concerns to improve livestock growth prediction using real-world farm data.

Shoujin Wang, Mingze Ni, Wei Liu +6

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

He Yang +62d ago

InkDrop: Invisible Backdoor Attacks Against Dataset Condensation

Dataset condensation, already vulnerable to backdoor attacks, now faces a far stealthier threat: InkDrop leverages decision boundary uncertainty to hide malicious triggers, making detection significantly harder.

He Yang, Dongyi Lv, Song Ma +4

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Sijin Sun +32d ago

From Vessel Trajectories to Safety-Critical Encounter Scenarios: A Generative AI Framework for Autonomous Ship Digital Testing

Generating realistic, safety-critical maritime scenarios at scale is now possible by combining generative trajectory modeling with automated encounter pairing, moving beyond limited historical data or handcrafted templates.

Sijin Sun, Liangbin Zhao, Ming Deng +1

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

2d ago

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

LLMs can now construct high-fidelity, disease-specific knowledge graphs from full-text biomedical literature, unlocking evidence-aware reasoning and hypothesis generation.

Chang Zong, Sicheng Lv, Si-tu Xue +3

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Raspberry Pi Foundation2d ago·also Cambridge

Mapping data literacy trajectories in K-12 education

Data literacy isn't monolithic: K-12 learners navigate wildly different learning pathways depending on the context, challenging assumptions about a one-size-fits-all approach.

Robert Whyte, M. Cheung, Manni Cheung +3

Data Curation & Synthetic Data Natural Language Processing

Zehua Han +152d ago

PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision

PReD leaps ahead by creating the first foundation model to close the loop on perception, recognition, and decision-making for electromagnetic signals.

Zehua Han, Jing Xiao, Yiqi Duan +13

Data Curation & Synthetic Data Multimodal Models Scientific Discovery & Drug Design

Sercan Karakaş2d ago

Transfer Learning for an Endangered Slavic Variety: Dependency Parsing in Pomak Across Contact-Shaped Dialects

Even a small, targeted dataset can bridge the gap in cross-dialect transfer learning for low-resource languages, significantly boosting dependency parsing accuracy.

Sercan Karakaş

Data Curation & Synthetic Data Natural Language Processing

Verena Platzgummer +22d ago

\textit{Versteasch du mi?} Computational and Socio-Linguistic Perspectives on GenAI, LLMs, and Non-Standard Language

LLMs' struggles with non-standard languages aren't just a technical problem, but reflect and reinforce historical power imbalances embedded in linguistic standardization.

Verena Platzgummer, John McCrae, Sina Ahmadi

Constitutional AI & AI Ethics Data Curation & Synthetic Data Natural Language Processing

2d ago

Who Wrote the Book? Detecting and Attributing LLM Ghostwriters

You can now unmask LLM ghostwriters with a lightweight fingerprinting method that works even when they try to hide in new domains or use unseen models.

Anudeex Shetty, Qiongkai Xu, Olga Ohrimenko +1

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

2d ago·also MIT CSAIL

Using Games to Learn How Large Language Models Work

Demystifying LLMs for the masses might be as simple as turning their mechanics into a game.

Allison Chen, Isabella Pu

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Patrick Rim +192d ago

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

Training data no longer needs to choose between realism and accuracy: SHOW3D delivers both for hand-object interaction.

Patrick Rim, P. Rim, Kevin Harris +17

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Lorenza Prospero +42d ago

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Forget expensive, low-realism 3D renders: diffusion models can now generate photorealistic human datasets that boost model performance beyond real-world data.

Lorenza Prospero, Orest Kupyn, Ostap Viniavskyi +2

Computer Vision Data Curation & Synthetic Data Multimodal Models

Chao Yin +102d ago

Industrial3D: A Terrestrial LiDAR Point Cloud Dataset and CrossParadigm Benchmark for Industrial Infrastructure

A 40-point mIoU gap between supervised methods and zero-shot segmentation on Industrial3D reveals that foundation models are nowhere near ready for real-world industrial Scan-to-BIM workflows.

Chao Yin, Hongzhe Yue, Qing Han +8

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Shramana Dey +32d ago

Decoupling Wavelet Sub-bands for Single Source Domain Generalization in Fundus Image Segmentation

Wavelet decomposition offers a surprisingly effective way to disentangle anatomical structure from domain-specific noise in fundus images, leading to state-of-the-art generalization performance.

Shramana Dey, Varun Ajith, Abhirup Banerjee +1

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Chedly Ben Azizi +32d ago

SVH-BD : Synthetic Vegetation Hyperspectral Benchmark Dataset for Emulation of Remote Sensing Images

A new synthetic hyperspectral dataset lets researchers train and benchmark vegetation trait retrieval models with paired hyperspectral imagery and ground truth, all while controlling for environmental variability.

Chedly Ben Azizi, Claire Guilloteau, Gilles Roussel +1

Computer Vision Data Curation & Synthetic Data Scientific Discovery & Drug Design

Mattia D'Urso +42d ago·also Former for semantic filtering within a

TerraSky3D: Multi-View Reconstructions of European Landmarks in 4K

A new dataset of European landmarks offers researchers a challenging benchmark for training and evaluating 3D reconstruction pipelines, filling a critical gap in high-quality, diverse data.

Mattia D'Urso, Yuxi Hu, Christian Sormann +2

Computer Vision Data Curation & Synthetic Data

2d ago

Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

Ghost points, often ignored in LiDAR processing, can be effectively identified and removed using full-waveform LiDAR data, leading to substantial improvements in downstream tasks like SLAM and object detection.

Kazuma Ikeda, Ryosei Hara, Rokuto Nagata +6

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Yucheng Huang +42d ago

ToLL: Topological Layout Learning with Structural Multi-view Augmentation for 3D Scene Graph Pretraining

Bypass the need for predicate annotations in 3D scene graph pretraining with a novel topological layout learning approach that enforces predicate relation learning.

Yucheng Huang, Luping Ji, Xiangwei Jiang +2

Computer Vision Data Curation & Synthetic Data Multimodal Models

Guangdong Laboratory of Artificial Intelligence and Digital Economy2d ago·also DAMO

RCLRec: Reverse Curriculum Learning for Modeling Sparse Conversions in Generative Recommendation

Injecting carefully-selected, reverse-ordered behavioral curricula into generative recommendation models can significantly boost conversion rates, as demonstrated by a 2% lift in online advertising revenue.

Chuanfei Xu

Data Curation & Synthetic Data Recommendation & Information Retrieval Training Efficiency & Optimization

Haiyue Song +12d ago

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Forget painstakingly tuning data mixture ratios for continual pre-training: OptiMer lets you train individual models and then *optimize* their combination weights *afterward*, cutting search costs by up to 35x.

Haiyue Song, Masao Utiyama

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Léane Jourdan +62d ago

EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces

Unlock the secrets of scientific writing: EarlySciRev reveals how scientists *really* revise their work, offering a goldmine of early-stage revisions previously hidden in LaTeX comments.

Léane Jourdan, Julien Aubert-B'educhaud, Julien Aubert-Béduchaud +4

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Julius Leino +32d ago

On the limited utility of parallel data for learning shared multilingual representations

Forget massive parallel datasets: cross-lingual alignment in multilingual models emerges almost as effectively without them.

Julius Leino, Julius Leino, Jörg Tiedemann +1

Data Curation & Synthetic Data Natural Language Processing

CMU ML2d ago

An Empirical Recipe for Universal Phone Recognition

Forget hand-tuning for each language: this recipe achieves state-of-the-art phone recognition across 100+ languages, revealing the surprising power of scaling data and SSL representations.

Shikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi +4

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Daban Q. Jaff +12d ago

From Consensus to Split Decisions: ABC-Stratified Sentiment in Holocaust Oral Histories

Sentiment models often disagree on Holocaust oral histories, not on the presence of positive or negative sentiment, but on the boundary of neutrality, revealing a critical gap in their ability to handle nuanced historical narratives.

Daban Q. Jaff, Daban Q. Jaff

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

A. Bouras +12d ago

CrossTrace: A Cross-Domain Dataset of Grounded Scientific Reasoning Traces for Hypothesis Generation

Training on grounded reasoning traces doesn't just improve hypothesis generation—it makes models 100% structurally compliant and boosts spark cosine similarity by nearly 3x.

A. Bouras, OMS-II Research Fellow

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Scientific Discovery & Drug Design

Edoardo Signoroni +22d ago

LombardoGraphia: Automatic Classification of Lombard Orthography Variants

Classifying subtle orthographic variations in low-resource languages is now possible with 96% accuracy, paving the way for more robust NLP models.

Edoardo Signoroni, Pavel Rychl'y, Pavel Rychlý

Data Curation & Synthetic Data Natural Language Processing

Pavel Šindelář +92d ago

Training data generation for context-dependent rubric-based short answer grading

Generating synthetic training data from limited confidential datasets can produce datasets that are superficially similar to the reference data and improve model training for short answer grading.

Pavel Šindelář, Pavel vSindel'avr, David Slivka +7

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Shuwen Xu +62d ago

GraphWalker: Agentic Knowledge Graph Question Answering via Synthetic Trajectory Curriculum

Forget hand-crafted KG traversal policies: GraphWalker uses automatically synthesized trajectories to train agents that achieve SOTA performance and generalize to unseen reasoning paths.

Shuwen Xu, Yao Xu, Jiaxiang Liu +4

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Tool Use & Agents

Hua Li +122d ago

DongYuan: An LLM-Based Framework for Integrative Chinese and Western Medicine Spleen-Stomach Disorders Diagnosis

LLMs can now diagnose spleen-stomach disorders by integrating both traditional Chinese and Western medicine, achieving state-of-the-art results.

Hua Li, Yingying Li, Xiaobin Feng +10

Data Curation & Synthetic Data Natural Language Processing Scientific Discovery & Drug Design

Ludovica Pannitto +92d ago

Coconstructions in spoken data: UD annotation guidelines and first results

Finally, a way to represent the messy, collaborative syntax of real spoken language in treebanks.

Ludovica Pannitto, S. Kahane, Sylvain Kahane +7

Data Curation & Synthetic Data Natural Language Processing Speech & Audio

Minh-Thu Do +142d ago

Graphilosophy: Graph-Based Digital Humanities Computing with The Four Books

Unlock centuries of East Asian philosophical insight: Graphilosophy uses knowledge graphs to make the Four Books accessible for cross-lingual retrieval and AI-assisted reasoning.

Minh-Thu Do, M. Do, Quynh-Chau Le-Tran +12

Data Curation & Synthetic Data Natural Language Processing Reasoning & Chain-of-Thought

Mih Dinh +12d ago

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

Forget manual blurring: Unsafe2Safe uses multimodal diffusion editing to automatically rewrite sensitive image regions, preserving utility while crushing privacy risks.

Mih Dinh, SouYoung Jin

Computer Vision Constitutional AI & AI Ethics Data Curation & Synthetic Data+1

2d ago

Attesting LLM Pipelines: Enforcing Verifiable Training and Release Claims

Securing LLM supply chains requires cryptographically binding training and release claims to artifacts, enabling verifiable enforcement of security policies across teams and stages.

Zhuoran Tan, Jeremy Singer, Christos Anagnostopoulos

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Open-Source Models & Weights

Osama Wehbi +112d ago

FL-PBM: Pre-Training Backdoor Mitigation for Federated Learning

Backdoor defenses can be baked into the pre-training phase of federated learning, achieving state-of-the-art attack mitigation with minimal impact on clean accuracy.

Osama Wehbi, Osama Wehbi, Sarhad Arisdakessian +9

Data Curation & Synthetic Data Distributed Systems & Hardware Red-Teaming & Adversarial Robustness

Hannes Mareen +62d ago

TGIF2: Extended Text-Guided Inpainting Forgery Dataset&Benchmark

Generative super-resolution can significantly weaken forensic traces in text-guided inpainting forgeries, exposing a critical vulnerability in current forensic pipelines.

Hannes Mareen, Dimitrios Karageorgiou, Paschalis Giakoumoglou +4

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

University of Cagliari2d ago·also CINI, Sapienza

Label-efficient Training Updates for Malware Detection over Time

Slash malware detection labeling costs by 90% using combined active and semi-supervised learning, without sacrificing performance.

Luca Minnei, C. Manca, Cristian Manca +8

Data Curation & Synthetic Data Training Efficiency & Optimization

Ruiyang Wang +22d ago

FedFG: Privacy-Preserving and Robust Federated Learning via Flow-Matching Generation

Flow-matching generative models can simultaneously defend against poisoning attacks and preserve privacy in federated learning, outperforming existing methods in accuracy and robustness.

Ruiyang Wang, Rong Pan, Zhengan Yao

Data Curation & Synthetic Data Distributed Systems & Hardware Red-Teaming & Adversarial Robustness

2d ago·also Shanghai AI Lab

Is One-Shot In-Context Learning Helpful for Data Selection in Task-Specific Fine-Tuning of Multimodal LLMs?

Forget expensive full fine-tuning: this training-free data selection method uses in-context learning to slash MLLM training costs while maintaining performance.

Xiao An, Jiaxing Sun, Ting Hu +2

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

Mozhgan Pourkeshavatz +22d ago

AutoWorld: Scaling Multi-Agent Traffic Simulation with Self-Supervised World Models

Unlabeled LiDAR data can now drive state-of-the-art traffic simulation, unlocking scalable realism without costly annotations.

Mozhgan Pourkeshavatz, Tianran Liu, Nicholas Rhinehart

Data Curation & Synthetic Data Robotics & Embodied AI World Models & Planning

Martina Hutter-Mironovova +12d ago

Sim-to-Real Fruit Detection Using Synthetic Data: Quantitative Evaluation and Embedded Deployment with Isaac Sim

Synthetic data, often touted as a panacea, only shines for fruit detection when paired with real-world data, offering a practical path to reducing annotation effort without sacrificing too much accuracy.

Martina Hutter-Mironovova, M. Hutter-Mironovová

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Tiantian Wang +22d ago

FeDMRA: Federated Incremental Learning with Dynamic Memory Replay Allocation

Forget fixed memory budgets: dynamically allocating exemplar storage across federated clients boosts performance in class-incremental learning for heterogeneous medical data.

Tiantian Wang, Xiang Xiang, Simon S. Du

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Rongyu Zhang +152d ago·also NJU

Key-Embedded Privacy for Decentralized AI in Biomedical Omics

Achieve strong, controllable privacy in federated biomedical AI without sacrificing performance, thanks to a lightweight key-embedded implicit neural representation.

Rongyu Zhang, Hongyu Dong, Gaole Dai +13

Constitutional AI & AI Ethics Data Curation & Synthetic Data Distributed Systems & Hardware+1

CMU ML2d ago

VAANI: Capturing the language landscape for an inclusive digital India

VAANI's open-sourced dataset offers unprecedented coverage of India's linguistic landscape, finally giving researchers the data needed to build truly inclusive speech models.

Sujith Pulikodan, Abhayjeet Singh, Agneedh Basu +275

Data Curation & Synthetic Data Multimodal Models Speech & Audio

Leonardo Bassanini +62d ago

Quid est VERITAS? A Modular Framework for Archival Document Analysis

Ditch error-prone OCR: VERITAS slashes word error rates by 67% and triples processing speed for historical document digitization by integrating transcription, layout analysis, and semantic enrichment.

Leonardo Bassanini, Ludovico Biancardi, Alfio Ferrara +4

Computer Vision Data Curation & Synthetic Data Natural Language Processing

2d ago·also Snap Research, Specs Inc.

HandX: Scaling Bimanual Motion and Interaction Generation

LLMs can scalably annotate motion capture data to produce semantically rich descriptions of bimanual interactions, enabling higher-quality generation of dexterous hand motions.

Zimu Zhang, Zimu Zhang, Yuchen Zhang +17

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Ziyu Mu +22d ago

GMA-SAWGAN-GP: A Novel Data Generative Framework to Enhance IDS Detection Performance

Augmenting IDS training data with a novel GAN framework boosts detection of unseen network attacks by nearly 4% AUROC, suggesting a promising path to more robust security systems.

Ziyu Mu, Xiyu Shi, Safak Dogan

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness

Mar 29, 2026

Benno Weck +43d ago

HumMusQA: A Human-written Music Understanding QA Benchmark Dataset

LALMs still struggle to truly "hear" music, as revealed by a new expert-curated benchmark that exposes their reliance on non-musical shortcuts.

Benno Weck, Pablo Puentes, Andrea Poltronieri +2

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Speech & Audio

3d ago

TailNLG: A Multilingual Benchmark Addressing Verbalization of Long-Tail Entities

LLMs struggle to verbalize rare entities, exhibiting lower performance and higher uncertainty compared to common entities, even in multilingual settings.

Lia Draetta, Michael Oliverio, Virginia Ramón-Ferrer +6

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

CMU ML3d ago·also North-West University

Budget-Xfer: Budget-Constrained Source Language Selection for Cross-Lingual Transfer to African Languages

Forget hand-picking your cross-lingual training data: a budget-constrained optimization can automatically allocate resources across multiple source languages, boosting performance on African languages by a large margin.

Tewodros Kederalah Idris, Roald Eiselen, Prasenjit Mitra

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

3d ago·also Tsinghua AI, Imperial Global Singapore, Nankai University, SCU +1

Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis

NPM malware detection tools often fail because they struggle to distinguish between innocuous code behavior and malicious intent, a problem addressable by analyzing behavioral chains.

Wenbo Guo, Zhongwen Chen, Zhengzi Xu +6

Code Generation & Program Synthesis Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Mar 28, 2026

4d ago

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

VLMs can now get a million-scale boost in chart-understanding abilities thanks to a new dataset with paired code, images, data, and reasoning.

Jovana Kondic, Pengyuan Li, Dhiraj Joshi +24

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Multimodal Models

Md Ataur Rahman +34d ago

Text Data Integration

Unstructured text holds a wealth of untapped knowledge, yet remains largely ignored by existing data integration systems.

Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero +1

Data Curation & Synthetic Data Natural Language Processing

Mar 27, 2026

Tianyun Liu +65d ago

AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

Achieve photorealistic and structurally consistent weather editing for autonomous driving videos without the massive datasets typically required by generative models.

Tianyun Liu, Weitao Xiong, Kunming Luo +4

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI