AI开发AI模型评测CMMLU
AI模型评测

CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese - haonan-li/CMMLU

CMMLU 由 Li Haonan 等人维护,是一个面向中文语境的大规模多任务语言理解基准。它收录 11 528 道四选一单选题,覆盖 67 个学科——从 STEM、人文社科到中国驾驶规则、传统文化,难度横跨小学到专家级。项目公开排行榜、数据集下载、评估脚本及论文,支持零样本与五样本测试,帮助研究者快速比较不同规模、不同架构的大模型在中文知识、推理与文化常识上的真实水平。

主要功能

  1. 数据集下载:提供完整 JSON/CSV 格式题库,附答案与学科标签,可按主题、难度过滤。
  2. 在线排行榜:实时展示全球模型在 zero-shot、five-shot 下的平均分、学科细分、提交时间。
  3. 标准化评估脚本:Python 一键运行,自动计算准确率、生成学科雷达图;支持 OpenAI API、HuggingFace 模型本地推理。
  4. 提示模板库:内置“直接回答”与“逐步思考”两种 prompt,方便复现论文结果。
  5. 提交与审核:用户上传模型预测文件,后台脚本自动评分并更新榜单;支持匿名或实名。
  6. 结果分析工具:自动生成 PDF 报告,含错误分布、显著性检验,便于论文引用。
  7. 讨论区与 Issue:维护者定期答疑,社区共享微调经验、基线代码。
  8. 持续更新:每季度新增题目、校正标注,保持与最新中文知识同步。

应用场景

• 研究:高校与实验室发表中文大模型论文时,用 CMMLU 作为权威基准。
• 工业:企业在选型阶段,快速对比自研与商用模型在目标行业的知识能力。
• 教育:AI 课程作业,让学生体验少样本学习、提示工程。
• 竞赛:黑客松、算法大赛以 CMMLU 为赛题,考验模型中文推理极限。
• 监管:第三方机构评估大模型合规性,检测涉政、法律、医学等敏感领域盲点。

优势特点

• 中文专属:题目根植本土文化,避免翻译偏差。
• 学科最全:67 门学科一次测遍,减少拼凑多数据集的麻烦。
• 双模式评估:零样本测泛化,五样本测小样本适应性。
• 开放透明:题库、脚本、榜单全开源,结果可复现。
• 社区活跃:论文作者直接维护,Issue 平均 24h 内响应。
• 易用:十分钟完成首次评估,支持 Colab 一键跑通。