AIPOCH PTE. LTDDepartment of PathologyFudanZhongshan HospitalApr 22, 2026arXiv:2604.20441

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie

AI Summary

The authors introduce MedSkillAudit, a layered framework for assessing the release readiness of AI agent skills in medical research, focusing on scientific integrity, validity, reproducibility, and safety. They evaluated 75 skills across five medical research categories, comparing the framework's assessments against expert reviews. MedSkillAudit achieved an ICC(2,1) of 0.449, exceeding human inter-rater reliability, suggesting its potential as a practical tool for governing medical research agent skills.

Key Contribution

AI agents in medical research aren't ready for prime time: over half fail to meet even "Limited Release" quality standards, highlighting the urgent need for domain-specific audit frameworks.

Abstract

Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.

Eval Frameworks & Benchmarks Scientific Discovery & Drug Design Tool Use & Agents

Citation Metrics

Citations0

Influential citations0

References0

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

Related Papers