AI开发AI模型评测MMLU
AI模型评测

MMLU

The current state-of-the-art on MML is GPT-4 o1(300b). See a full comparison of 44 papers with code.
missing

Papers with Code 的 MMLU 子站聚焦“大规模多任务语言理解”基准。它实时汇总全球研究机构在 57 个学科(从初等数学到国际法)的测评结果,以排行榜形式展示模型准确率、参数量、发表出处及开源代码。页面按 0-shot、5-shot 等设置分栏,支持一键跳转论文、GitHub 与复现脚本,是 NLP 研究者快速锁定最强通用模型与研究趋势的窗口。

主要功能

  1. 实时排行榜:按总分与学科细分列出模型排名,含 Claude-3-Opus、GPT-4、Llama-3 等最新成绩。
  2. 多维筛选:可按任务类别、模型规模、训练策略(CoT、Instruction Tuning)过滤。
  3. 一键复现:每行结果均附论文链接与官方/社区代码仓库,支持 Colab 在线运行。
  4. 版本对比:提供历史快照,追踪同一模型升级带来的性能跃迁。
  5. 社区提交:用户可上传评测结果,经审核后即时刷新榜单。
  6. 可视化分析:折线图展示模型规模与性能关系,帮助发现 scaling law 规律。
  7. 邮件订阅:支持按关键词推送新纪录,第一时间获知 SOTA 更迭。

应用场景

  • 研究者:快速定位当前最强基线,复现并改进。
  • 企业:评估商业模型真实水平,指导选型。
  • 学生:写论文时引用最新公开成绩与代码。
  • 会议评委:核实投稿声称的 MMLU 结果是否属实。
  • 投资人:用榜单量化对比创业团队模型竞争力。

优势特点

  • 权威:与 MMLU 官方同步,数据来源可追溯。
  • 实时:社区驱动,24 小时内更新新纪录。
  • 全面:覆盖 1000+ 结果,含 0-shot 到 64-shot 全设置。
  • 开源:所有代码与模型权重公开,降低复现门槛。
  • 易用:界面简洁,支持 API 拉取 JSON 结果做二次分析。