AI开发AI模型评测PubMedQA
AI模型评测

PubMedQA

missing

PubMedQA由卡内基梅隆大学团队于2019年发布,是目前唯一要求模型对生物医学摘要中的定量结果进行推理才能给出 yes/no/maybe 答案的公开数据集。站点提供约27.4 万条实例:1K 专家手工标注、61K 未标注真实摘要、211K 人工合成问答,覆盖心血管、肿瘤、药剂学等广泛主题。除数据下载外,官网实时展示18+ 个模型(BioBERT、Med-PaLM 等)的排行榜,并给出论文、代码与基线脚本,方便研究者复现与提交新结果。


主要功能

  1. 数据下载
  2. 一键获取 JSON/CSV 格式的 train/val/test 拆分,含问题、无结论摘要、长答案及 yes/no/maybe 标签。
  3. 在线排行榜
  4. 提交模型预测文件即可自动计算 Accuracy、Macro-F1,并展示公开排名;支持匿名 A/B 测试。
  5. 基线与评测代码
  6. 提供 PyTorch、TensorFlow 的 BioBERT 微调脚本、多阶段训练范例及 Docker 镜像,帮助新人 10 分钟跑通基线。
  7. 人工评估接口
  8. 开放众包标注工具,研究者能邀请医学博士对模型答案进行盲审,生成可引用的可靠性报告。
  9. 可视化分析
  10. 交互式图表展示每道题的人机差异、模型置信度分布及错误类型(数值推理、否定句理解等),方便定位改进点。
  11. 学术资源聚合
  12. 集成相关论文、引用格式、Slides 与 BibTeX,支持 Google Scholar 一键导入。

应用场景

  • 模型训练:用 1K 标注集快速微调,再用 61K 无标注摘要做半监督或伪标签,提高医学问答准确率。
  • 算法竞赛:参加官网季度赛,争夺榜首,获取 NVIDIA GPU 赞助与顶会 Workshop 邀请。
  • 医学教育:教师将排行榜案例引入课堂,训练学生批判性阅读摘要并验证 AI 答案。
  • 论文实验:在 EMNLP、JAMIA 等期刊投稿时,用 PubMedQA 结果作为生物医学推理能力的标准化对比。
  • 产品评估:医疗 AI 公司在内部质检流程中,用该数据集做回归测试,确保新版本不降低临床问答准确性。

优势特点

  • 领域唯一:首个聚焦定量推理的生物医学 QA 基准,弥补 MMLU、MedMCQA 的空白。
  • 规模丰富:27 万条多源数据,兼顾人工精准标注与大规模自动合成,支持弱监督研究。
  • 评测公正:排行榜脚本开源、测试集标签隐藏,避免数据泄露;支持 Docker 沙箱复现。
  • 社区活跃:官方维护论坛与 GitHub Issue,CMU、清华、Google 等团队常驻交流。
  • 低门槛:10 行代码即可提交结果;提供 Colab 一键运行 Demo,零 GPU 也能体验。
  • 可扩展:数据格式简洁,易于迁移到中文 CMeQA 或放射学 RadQA,助力多模态扩展。