AI开发AI模型评测Open LLM Leaderboard
AI模型评测

Open LLM Leaderboard

Compare open-source large language models using multiple benchmarks like IFEval, BBH, and MATH. Filter and analyze models in real-time, with community voting and comprehensive results.
missing

Open LLM Leaderboard 是 Hugging Face 官方托管的公开排行榜空间,实时汇总全球主流开源大语言模型在 60+ 权威基准(ARC、HellaSwag、MMLU、TruthfulQA、GSM8K、HumanEval 等)上的评测结果。排行榜每小时自动抓取 Hugging Face Hub 最新模型权重,使用 EleutherAI 的 Language Model Evaluation Harness 统一脚本,在固定硬件(A100-80G×8)与超参数下重跑任务,保证横向可比。结果以分数、排名、趋势图、雷达图等多维可视化呈现,并提供模型卡片、训练数据、许可证、部署代码一键跳转,方便开发者、研究者与企业快速洞察开源社区最前沿进展。

主要功能

  1. 实时排行榜:默认按综合平均分排序,可按单任务、模型规模、发布日期、许可证等多维度筛选。
  2. 深度模型页:展示每个模型的详细指标、标准误差、评测日志、训练信息、硬件需求、推理示例代码。
  3. 趋势与对比:折线图显示模型版本迭代分数变化;勾选多个模型即可生成雷达图对比。
  4. 自定义评测:上传模型权重或 API 端点,填写元数据,系统即自动排队跑分,结果自动回写排行榜。
  5. 数据集与任务说明:每项基准均附官方链接、任务描述、示例 prompt、评估脚本,方便复现。
  6. 社区互动:支持评论、点赞、分享,集成 Twitter、Reddit 一键转发;提供开放 API,供 BI 工具拉取数据。
  7. 导出与嵌入:排行榜可导出 CSV/JSON,嵌入 iframe 到博客或公司内网仪表盘。

应用场景

  • 研究人员:快速定位当前最强开源模型,验证论文方法是否刷新 SOTA。
  • 企业开发者:筛选符合商业许可、体量适中的模型,评估在自身业务基准上的性价比。
  • 创业团队:利用“自定义评测”把私有微调模型与公开模型同台竞技,验证优化效果。
  • 投资人/媒体:通过趋势图洞察技术演进节奏,撰写行业报告。
  • 高校教学:课堂演示模型性能差异,学生复现实验并提交作业。

优势特点

  • 权威:评测脚本、硬件、数据版本完全公开,社区可审计,避免“刷榜”。
  • 实时:与 Hub 同步,新模型发布后 1~2 小时即出分。
  • 免费:所有计算由 Hugging Face 公益 GPU 赞助,用户无需付费。
  • 开放:排行榜代码 MIT 协议开源,支持私有部署;数据 API 无速率限制。
  • 易用:零代码提交,填写模型 ID 即可;界面多语言,手机端自适应。