AI模型评测

Open LLM Leaderboard

Compare open-source large language models using multiple benchmarks like IFEval, BBH, and MATH. Filter and analyze models in real-time, with community voting and comprehensive results.

进入官网

missing

Open LLM Leaderboard 是 Hugging Face 官方托管的公开排行榜空间，实时汇总全球主流开源大语言模型在 60+ 权威基准（ARC、HellaSwag、MMLU、TruthfulQA、GSM8K、HumanEval 等）上的评测结果。排行榜每小时自动抓取 Hugging Face Hub 最新模型权重，使用 EleutherAI 的 Language Model Evaluation Harness 统一脚本，在固定硬件（A100-80G×8）与超参数下重跑任务，保证横向可比。结果以分数、排名、趋势图、雷达图等多维可视化呈现，并提供模型卡片、训练数据、许可证、部署代码一键跳转，方便开发者、研究者与企业快速洞察开源社区最前沿进展。

主要功能

实时排行榜：默认按综合平均分排序，可按单任务、模型规模、发布日期、许可证等多维度筛选。
深度模型页：展示每个模型的详细指标、标准误差、评测日志、训练信息、硬件需求、推理示例代码。
趋势与对比：折线图显示模型版本迭代分数变化；勾选多个模型即可生成雷达图对比。
自定义评测：上传模型权重或 API 端点，填写元数据，系统即自动排队跑分，结果自动回写排行榜。
数据集与任务说明：每项基准均附官方链接、任务描述、示例 prompt、评估脚本，方便复现。
社区互动：支持评论、点赞、分享，集成 Twitter、Reddit 一键转发；提供开放 API，供 BI 工具拉取数据。
导出与嵌入：排行榜可导出 CSV/JSON，嵌入 iframe 到博客或公司内网仪表盘。

应用场景

研究人员：快速定位当前最强开源模型，验证论文方法是否刷新 SOTA。
企业开发者：筛选符合商业许可、体量适中的模型，评估在自身业务基准上的性价比。
创业团队：利用“自定义评测”把私有微调模型与公开模型同台竞技，验证优化效果。
投资人/媒体：通过趋势图洞察技术演进节奏，撰写行业报告。
高校教学：课堂演示模型性能差异，学生复现实验并提交作业。

优势特点

权威：评测脚本、硬件、数据版本完全公开，社区可审计，避免“刷榜”。
实时：与 Hub 同步，新模型发布后 1～2 小时即出分。
免费：所有计算由 Hugging Face 公益 GPU 赞助，用户无需付费。
开放：排行榜代码 MIT 协议开源，支持私有部署；数据 API 无速率限制。
易用：零代码提交，填写模型 ID 即可；界面多语言，手机端自适应。