AI模型评测

CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese - haonan-li/CMMLU

进入官网

CMMLU 由 Li Haonan 等人维护，是一个面向中文语境的大规模多任务语言理解基准。它收录 11 528 道四选一单选题，覆盖 67 个学科——从 STEM、人文社科到中国驾驶规则、传统文化，难度横跨小学到专家级。项目公开排行榜、数据集下载、评估脚本及论文，支持零样本与五样本测试，帮助研究者快速比较不同规模、不同架构的大模型在中文知识、推理与文化常识上的真实水平。

主要功能

数据集下载：提供完整 JSON/CSV 格式题库，附答案与学科标签，可按主题、难度过滤。
在线排行榜：实时展示全球模型在 zero-shot、five-shot 下的平均分、学科细分、提交时间。
标准化评估脚本：Python 一键运行，自动计算准确率、生成学科雷达图；支持 OpenAI API、HuggingFace 模型本地推理。
提示模板库：内置“直接回答”与“逐步思考”两种 prompt，方便复现论文结果。
提交与审核：用户上传模型预测文件，后台脚本自动评分并更新榜单；支持匿名或实名。
结果分析工具：自动生成 PDF 报告，含错误分布、显著性检验，便于论文引用。
讨论区与 Issue：维护者定期答疑，社区共享微调经验、基线代码。
持续更新：每季度新增题目、校正标注，保持与最新中文知识同步。

应用场景

• 研究：高校与实验室发表中文大模型论文时，用 CMMLU 作为权威基准。
• 工业：企业在选型阶段，快速对比自研与商用模型在目标行业的知识能力。
• 教育：AI 课程作业，让学生体验少样本学习、提示工程。
• 竞赛：黑客松、算法大赛以 CMMLU 为赛题，考验模型中文推理极限。
• 监管：第三方机构评估大模型合规性，检测涉政、法律、医学等敏感领域盲点。

优势特点

• 中文专属：题目根植本土文化，避免翻译偏差。
• 学科最全：67 门学科一次测遍，减少拼凑多数据集的麻烦。
• 双模式评估：零样本测泛化，五样本测小样本适应性。
• 开放透明：题库、脚本、榜单全开源，结果可复现。
• 社区活跃：论文作者直接维护，Issue 平均 24h 内响应。
• 易用：十分钟完成首次评估，支持 Colab 一键跑通。